AWK,SED,GREP学习笔记及用法心得--688IT编程网

GREP,AWK,SED学习笔记及使用心得

grep

grep是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来。

一般格式 grep [选项] 基本正则式 [文件]

选项：

-c 不输出内容只统计匹配行数

grep -c "123" filename 相当于 grep "123" filename | wc -l

-i 不区分大小写

grep -i "ok" filename 匹配包含ok,Ok,oK,OK的所有行

-h 查询多文件时不显示文件名

grep -h "123" *.txt 不加-h时会在每一行前显示该行所在文件名

-l 查询多文件是只显示包含匹配字符的文件名

-n 查询匹配行及行号

-v 显示不包含匹配文本的所有行

-? 同时显示匹配行上下的？行

如：grep -2 "123" filename同时显示匹配行的上下2行。

正则：

^ 锚定行的开始

如：'^grep'匹配所有以grep开头的行。

$ 锚定行的结束

如：'grep$'匹配所有以grep结尾的行。

. 匹配一个非换行符的字符

如：'gr.p'匹配gr后接一个任意字符，然后是p。

* 匹配零个或多个先前字符

如：'*grep'匹配所有一个或多个空格后紧跟grep的行。

.*一起用代表任意字符。

[] 匹配一个指定范围内的字符

如'[Gg]rep'匹配Grep和grep。

[^] 匹配一个不在指定范围内的字符

如：'[^A-FH-Z]rep'匹配不包含A-R和T-Z的一个字母开头，紧跟rep的行。

$..$标记匹配字符

如'$love$'，love被标记为1。

\< 锚定单词的开始

如:'\<grep'匹配包含以grep开头的单词的行。

\> 锚定单词的结束

如'grep\>'匹配包含以grep结尾的单词的行。

\b 单词锁定符

如: '\bgrep\b'只匹配grep。

特殊事项：

1.引号的使用

首先说明引号的作用，在shell中使用grep一般要打引号，例如："grep" 这样做，一是防止被误解为shell命令，二是可以查多个单词的字符串。如，"aaa bbb"。如果没引号，将会把bbb误认为文件。

一般在grep中输入字符串参数是打双引号，如：$mystr="aaa";grep "$mystr" file，这样$mystr会先被替换成aaa，执行操作是grep "aaa" file。而在单引号中，$mystr不被识别，因此，单引号一般用在正则表达式的匹配上，这样可防止于grep中使用的模式与shell命令中的特殊方式混淆。

2.egrep和 grep -E的元字符扩展

egrep是扩展的grep，支持基本正则和扩展正则，等同于grep -E。扩展集如下：

+ 匹配一个或多个先前的字符。

如：'[a-z]+able'，匹配一个或多个小写字母后跟able的串。

a|b|c 匹配a或b或c。

如：grep|sed匹配grep或sed

( ) 分组符号

如：love(able|rs)匹配loveable或lovers。

egrep还支持将一个文件作为保存的字符串，然后将之传给egrep作为参数，需使用-f正则匹配大小写字母数字特殊字符开关。

3.POSIX字符类

为了在不同国家的字符编码中保持一至，POSIX(The Portable Operating System Interface)增加了特殊的字符类。

[:alnum:]文字数字字符

[:alpha:]文字字符

[:digit:]数字字符

[:graph:]非空字符（非空格、控制字符）

[:lower:]小写字符

[:cntrl:]控制字符

[:print::]非空字符（包括空格）

[:punct:]标点符号

[:space:]所有空白字符

[:upper:]大写字符

[:xdigit:]十六进制数字（0-9，a-f，A-F）

grep支持这种模式，例如：grep '[[:upper:]][[:lower:]]' file 。使用时要打双中括号。

awk

awk 是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。

选项

-F 指定输入文件折分隔符。

f 从脚本文件中读取awk命令。

模式和操作：

awk脚本是由模式和操作组成的：

pattern {action} 如$ awk '/root/' test，或$ awk '$3 < 100' test。

模式是用来匹配行的，操作是对匹配结果执行的。两者是可选的，如果没有模式，则action应用到全部记录，如果没有action，则输出匹配全部记录。默认情况下，每一个输入行都是一条记录，但用户可通过RS变量指定不同的分隔符进行分隔。

模式：

/正则表达式/：使用通配符的扩展集。

关系表达式：可以用运算符表中的关系运算符进行操作，可以是字符串或数字的比较。

模式匹配表达式：用运算符~(匹配)和~!(不匹配)。

操作：

操作由一个或多个命令、函数、表达式组成，之间由换行符或分号隔开，并位于大括号内。主要有四部份：

变量或数组赋值

输出命令

内置函数

控制流命令

记录和域：

记录：

awk把每一个以换行符结束的行称为一个记录。

记录分隔符：默认的输入和输出的分隔符都是回车，保存在内建变量ORS和RS中。

$0变量：它指的是整条记录。如$ awk '{print $0}' test将输出test文件中的所有记录。

变量NR：一个计数器，每处理完一条记录，NR的值就增加1。如$ awk '{print NR,$0}' test将输出test文件中所有记录，并在记录前显示记录号。

域：

记录中每个单词称做“域”，默认情况下以空格或tab分隔。awk可跟踪域的个数，并在内建变量NF中保存该值。如$ awk '{print $1,$3}' test将打印test文件中第一和第三个以空格分开的列(域)。

内建变量FS保存输入域分隔符的值，默认是空格或tab。我们可以通过-F命令行选项修改FS的值。如$awk -F'[:\t]' '{print $1,$3}' test，表示以空格、冒号和tab作为分隔符。

输出域的分隔符默认是一个空格，保存在OFS中。如$ awk -F: '{print $1,$5}' test，$1和$5间的逗号就是OFS的值。

几个实例：

awk '/^(no|so)/' test-----打印所有以模式no或so开头的行。

awk '/^[ns]/{print $1}' test-----如果记录以n或s开头，就打印这个记录。

awk '$1 ~/[0-9][0-9]$/(print $1}' test-----如果第一个域以两个数字结束就打印这个记录。

awk '$1 != 10' test-----如果第一个域不等于10就打印该行。

$ awk '/^root/,/^mysql/' test----打印以正则表达式root开头的记录到以正则表达式mysql开头的记录范围内的所有记录。如果到一个新的正则表达式root开头的记录，则继续打印直到下一个以正则表达式mysql开头的记录为止，或到文件末尾。

awk编程

变量：

在awk中，变量不需要定义就可以直接使用，变量类型可以是数字或字符串。

在awk脚本中，这些变量使用起来就象是在脚本中建立的一样。注意，如果参数前面出现test，那么在BEGIN语句中的变量就不能被使用。

域变量也可被赋值和修改。例如：$ awk '$1 =="root"{$1 ="test";print}' test，如果第一个域的值是“root”，则把它赋值为“test”，字符串一定要用双引号。

内建变量的使用如。$ awk -F: '{IGNORECASE=1; $1 == "MARY"{print ,$1,$2,$NF}'test，把IGNORECASE设为1代表忽略大小写，打印第一个域是mary的记录数、第一个域、第二个域和最后一个域。

awk的环境变量

变量	描述
$n	当前记录的第n个字段，字段间由FS分隔。
$0	完整的输入记录。
ARGC	命令行参数的数目。
ARGIND	命令行中当前文件的位置(从0开始算)。
ARGV	包含命令行参数的数组。
CONVFMT	数字转换格式(默认值为%.6g)
ENVIRON	环境变量关联数组。
ERRNO	最后一个系统错误的描述。
FIELDWIDTHS	字段宽度列表(用空格键分隔)。
FILENAME	当前文件名。
FNR	同NR，但相对于当前文件。
FS	字段分隔符(默认是任何空格)。
IGNORECASE	如果为真，则进行忽略大小写的匹配。
NF	当前记录中的字段数。
NR	当前记录数。
OFMT	数字的输出格式(默认值是%.6g)。
OFS	输出字段分隔符(默认值是一个空格)。
ORS	输出记录分隔符(默认值是一个换行符)。
RLENGTH	由match函数所匹配的字符串的长度。
RS	记录分隔符(默认是一个换行符)。
RSTART	由match函数所匹配的字符串的第一个位置。
SUBSEP	数组下标分隔符(默认值是\034)。

BEGIN模块：

BEGIN 模块后紧跟着动作块，这个动作块在awk处理任何输入文件之前执行。所以它可以在没有任何输入的情况下进行测试。它通常用来改变内建变量的值，如OFS, RS和FS等，以及打印标题。如：$ awk 'BEGIN{FS=":"; OFS="\t"; ORS="\n\n"}{print $1,$2,$3} test。

END模块：

END不匹配任何的输入文件，但是执行动作块中的所有动作，它在整个输入文件处理完成后被执行。如$ awk 'END{print "The number of records is" NR}' test，上式将打印所有被处理的记录数。

重定向和管道：

awk 可使用shell的重定向符进行重定向输出，如：$ awk '$1 = 100 {print $1 > "output_file" }' test。上式表示如果第一个域的值等于100，则把它输出到output_file中。也可以用>>来重定向输出，但不清空文件，只做追加操作。

输出重定向需用到getline函数。getline从标准输入、管道或者当前正在处理的文件之外的其他输入文件获得输入。

system函数可以在awk中执行linux的命令。如：$ awk 'BEGIN{system("clear")'。

fflush函数用以刷新输出缓冲区，如果没有参数，就刷新标准输出的缓冲区，如果以空字符串为参数，如fflush(""),则刷新所有文件和管道的输出缓冲区。

流程控制：

awk中的流程控制语句是从C语言中借鉴过来的，可控制程序的流程。

条件语句if/else else if。

循环有三种:while循环；for循环；special for循环。

break用于在满足条件的情况下跳出循环。

continue用于在满足条件的情况下忽略后面的语句，直接返回循环的顶端。

next语句从输入文件中读取一行，然后从头开始执行awk脚本。如：

688IT编程网

AWK,SED,GREP学习笔记及用法心得

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

AWK,SED,GREP学习笔记及用法心得

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式