Linux常用指令之AWK(过滤搜索)--688IT编程网

Linux常⽤指令之AWK（过滤搜索）

什么是awk?

与其它⼤多数UNIX命令不同的是，从名字上看，我们不可能知道awk的功能：它既不是具有独⽴意义的英⽂单词，也不是⼏个相关单词的缩写。事实上，awk是三个⼈名的缩写，他们是：Aho、(Peter)Weinberg和(Brain)Kernighan。正是这三个⼈创造了awk---⼀个优秀的样式扫描与处理⼯具。

AWK的功能是什么？与sed和grep很相似，awk是⼀种样式扫描与处理⼯具。但其功能却⼤⼤强于sed和grep。awk提供了极其强⼤的功能：它⼏乎可以完成grep和sed所能完成的全部⼯作，同时，它还可以可以进⾏样式装⼊、流控制、数学运算符、进程控制语句甚⾄于内置的变量和函数。它具备了⼀个完整的语⾔所应具有的⼏乎所有精美特性。实际上，awk的确拥有⾃⼰的语⾔：awk程序设计语⾔，awk 的三位创建者已将它正式定义为：样式扫描和处理语⾔。

为什么使⽤awk?

使⽤awk的第⼀个理由是基于⽂本的样式扫描和处理是我们经常做的⼯作，awk所做的⼯作有些象数据库，但与数据库不同的是，它处理的是⽂本⽂件，这些⽂件没有专门的存储格式，普通的⼈们就能编辑、阅读、理解和处理它们。⽽数据库⽂件往往具有特殊的存储格式，这使得它们必须⽤数据库处理程

序来处理它们。既然这种类似于数据库的处理⼯作我们经常会遇到，我们就应当到处理它们的简便易⾏的⽅法，UNIX有很多这⽅⾯的⼯具，例如sed 、grep、sort以及find等等，awk是其中⼗分优秀的⼀种。

使⽤awk的第⼆个理由是awk是⼀个简单的⼯具，当然这是相对于其强⼤的功能来说的。相对其他程序语⾔来说，awk完成同样的功能要⽅便和简捷得多。这⾸先是因为awk提供了适应多种需要的解决⽅案：从解决简单问题的awk命令⾏到复杂⽽精巧的awk程序设计语⾔，这样做的好处是，你可以不必⽤复杂的⽅法去解决本来很简单的问题。例如，你可以⽤⼀个命令⾏解决简单的问题，⽽C不⾏，即使⼀个再简单的程序，C语⾔也必须经过编写、编译的全过程。其次，awk本⾝是解释执⾏的，这就使得awk程序不必经过编译的过程，同时，这也使得它与shell程序能够很好的契合。最后，awk本⾝较C语⾔简单，是⼀种功能强⼤且不需要⼤量时间学习就能掌握其技巧的开发⼯具。

使⽤awk的第三个理由是awk是⼀个容易获得的⼯具。与C和C++语⾔不同，awk只有⼀个⽂件(/bin/awk)，⽽且⼏乎每个版本的UNIX都提供各⾃版本的awk，你完全不必费⼼去想如何获得awk。

基于以上理由，再加上awk强⼤的功能，我们有理由说，如果你要处理与⽂本样式扫描相关的⼯作，awk应该是你的第⼀选择。在这⾥有⼀个可遵循的⼀般原则：如果你⽤普通的shell有困难的话，试试awk。如果awk仍不能解决问题，则便⽤其他如python等语⾔。

awk是⾏处理器: 相⽐较屏幕处理的优点，在处理庞⼤⽂件时不会出现内存溢出或是处理缓慢的问题，通常⽤来格式化⽂本信息。

⽰例如下：

awk处理过程: 依次对每⼀⾏进⾏处理，然后输出

awk命令形式:

awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file

[-F|-f|-v] ⼤参数，-F指定分隔符，-f调⽤脚本，-v定义变量 var=value

' ' 引⽤代码块

BEGIN 初始化代码块，在对每⼀⾏进⾏处理之前，初始化代码，主要是引⽤全局变量，设置FS分隔符

// 匹配代码块，可以是字符串或正则表达式

{} 命令代码块，包含⼀条或多条命令

；多条命令使⽤分号分隔

END 结尾代码块，在对每⼀⾏进⾏处理之后再执⾏的代码块，主要是进⾏最终计算或输出结尾摘要信

特殊要点:

$0 表⽰整个当前⾏

$1 每⾏第⼀个字段

NF 字段数量变量

NR 每⾏的记录号，多⽂件记录递增

FNR 与NR类似，不过多⽂件记录不递增，每个⽂件都从1开始

\t 制表符

\n 换⾏符

FS BEGIN时定义分隔符

RS 输⼊的记录分隔符，默认为换⾏符(即⽂本是按⼀⾏⼀⾏输⼊)

~ 匹配，与==相⽐不是精确⽐较

!~ 不匹配，不精确⽐较

== 等于，必须全部相等，精确⽐较

!= 不等于，精确⽐较

&& 逻辑与

|| 逻辑或

+ 匹配时表⽰1个或1个以上

/[0-9][0-9]+/ 两个或两个以上数字

/[0-9][0-9]*/ ⼀个或⼀个以上数字

FILENAME ⽂件名

OFS 输出字段分隔符，默认也是空格，可以改为制表符等

ORS 输出的记录分隔符，默认为换⾏符，即处理结果也是⼀⾏⼀⾏输出到屏幕

-F'[:#/]' 定义三个分隔符

print & $0

print 是awk打印指定内容的主要命令

awk '{print}' /etc/passwd == awk '{print $0}' /etc/passwd

awk '{print " "}' /etc/passwd //不输出passwd的内容，⽽是输出相同个数的空⾏，进⼀步解释了awk是⼀⾏⼀⾏处理⽂本

awk '{print "a"}' /etc/passwd //输出相同个数的a⾏，⼀⾏只有⼀个a字母

awk -F":" '{print $1}' /etc/passwd

awk -F: '{print $1; print $2}' /etc/passwd //将每⼀⾏的前⼆个字段，分⾏输出，进⼀步理解⼀⾏⼀⾏处理⽂本

awk -F: '{print $1,$3,$6}' OFS="\t" /etc/passwd //输出字段1,3,6，以制表符作为分隔符

-f指定脚本⽂件

awk -f script.awk file

BEGIN{

FS=":"

}

{print $1} //效果与awk -F":" '{print $1}'相同，只是分隔符使⽤FS在代码⾃⾝中指定

awk 'BEGIN{X=0} /^$/{ X+=1 } END{print "I find",X,"blank lines."}' test

I find 4 blank lines.

ls -l|awk 'BEGIN{sum=0} !/^d/{sum+=$5} END{print "total size is",sum}' //计算⽂件⼤⼩

total size is 17487

F指定分隔符

$1 指指定分隔符后，第⼀个字段，$3第三个字段， \t是制表符

⼀个或多个连续的空格或制表符看做⼀个定界符，即多个空格看做⼀个空格

awk -F":" '{print $1}' /etc/passwd

awk -F":" '{print $1 $3}' /etc/passwd //$1与$3相连输出，不分隔

awk -F":" '{print $1,$3}' /etc/passwd //多了⼀个逗号，$1与$3使⽤空格分隔

awk -F":" '{print $1 " " $3}' /etc/passwd //$1与$3之间⼿动添加空格分隔

awk -F":" '{print "Username:" $1 "\t\t Uid:" $3 }' /etc/passwd //⾃定义输出

awk -F: '{print NF}' /etc/passwd //显⽰每⾏有多少字段

awk -F: '{print $NF}' /etc/passwd //将每⾏第NF个字段的值打印出来

awk -F: 'NF==4 {print }' /etc/passwd //显⽰只有4个字段的⾏

awk -F: 'NF>2{print $0}' /etc/passwd //显⽰每⾏字段数量⼤于2的⾏

awk '{print NR,$0}' /etc/passwd //输出每⾏的⾏号

awk -F: '{print NR,NF,$NF,"\t",$0}' /etc/passwd //依次打印⾏号，字段数，最后字段值，制表符，每⾏内容awk -F: 'NR==5{print}' /etc/passwd //显⽰第5⾏

awk -F: 'NR==5 || NR==6{print}' /etc/passwd //显⽰第5⾏和第6⾏

route -n|awk 'NR!=1{print}' //不显⽰第⼀⾏

//匹配代码块

//纯字符匹配 !//纯字符不匹配 ~//字段值匹配 !~//字段值不匹配 ~/a1|a2/字段值匹配a1或a2

awk '/mysql/' /etc/passwd

awk '/mysql/{print }' /etc/passwd

awk '/mysql/{print $0}' /etc/passwd //三条指令结果⼀样

awk '!/mysql/{print $0}' /etc/passwd //输出不匹配mysql的⾏

awk '/mysql|mail/{print}' /etc/passwd

awk '!/mysql|mail/{print}' /etc/passwd

awk -F: '/mail/,/mysql/{print}' /etc/passwd //区间匹配

awk '/[2][7][7]*/{print $0}' /etc/passwd //匹配包含27为数字开头的⾏，如27，277， awk -F: '$1~/mail/{print $1}' /etc/passwd //$1匹配指定内容才显⽰

awk -F: '{if($1~/mail/) print $1}' /etc/passwd //与上⾯相同

awk -F: '$1!~/mail/{print $1}' /etc/passwd //不匹配

awk -F: '$1!~/mail|mysql/{print $1}' /etc/passwd

IF语句

必须⽤在{}中，且⽐较内容⽤()扩起来

awk -F: '{if($1~/mail/) print $1}' /etc/passwd //简写

awk -F: '{if($1~/mail/) {print $1}}' /etc/passwd //全写

awk -F: '{if($1~/mail/) {print $1} else {print $2}}' /etc/passwd //if...

条件表达式

linux重定向== != > >=

awk -F":" '$1=="mysql"{print $3}' /etc/passwd

awk -F":" '{if($1=="mysql") print $3}' /etc/passwd //与上⾯相同

awk -F":" '$1!="mysql"{print $3}' /etc/passwd //不等于

awk -F":" '$3>1000{print $3}' /etc/passwd //⼤于

awk -F":" '$3>=100{print $3}' /etc/passwd //⼤于等于

awk -F":" '$3<1{print $3}' /etc/passwd //⼩于

awk -F":" '$3<=1{print $3}' /etc/passwd //⼩于等于

逻辑运算符

&&　||

awk -F: '$1~/mail/ && $3>8 {print }' /etc/passwd //逻辑与，$1匹配mail，并且$3>8

awk -F: '{if($1~/mail/ && $3>8) print }' /etc/passwd

awk -F: '$1~/mail/ || $3>1000 {print }' /etc/passwd //逻辑或

awk -F: '{if($1~/mail/ || $3>1000) print }' /etc/passwd

数值运算

awk -F: '$3 > 100' /etc/passwd

awk -F: '$3 > 100 || $3 < 5' /etc/passwd

awk -F: '$3+$4 > 200' /etc/passwd

awk -F: '/mysql|mail/{print $3+10}' /etc/passwd //第三个字段加10打印

awk -F: '/mysql/{print $3-$4}' /etc/passwd //减法

awk -F: '/mysql/{print $3*$4}' /etc/passwd //求乘积

awk '/MemFree/{print $2/1024}' /proc/meminfo //除法

awk '/MemFree/{print int($2/1024)}' /proc/meminfo //取整

输出分隔符OFS

awk '$6 ~ /FIN/ || NR==1 {print NR,$4,$5,$6}' OFS="\t"

awk '$6 ~ /WAIT/ || NR==1 {print NR,$4,$5,$6}' OFS="\t"

//输出字段6匹配WAIT的⾏，其中输出每⾏⾏号，字段4，5,6，并使⽤制表符分割字段

输出处理结果到⽂件

①在命令代码块中直接输出 route -n|awk 'NR!=1{print > "./fs"}'

②使⽤重定向进⾏输出 route -n|awk 'NR!=1{print}' > ./fs

格式化输出

netstat -anp|awk '{printf "%-8s %-8s %-10s\n",$1,$2,$3}'

printf表⽰格式输出

%格式化输出分隔符

-8长度为8个字符

s表⽰字符串类型

打印每⾏前三个字段，指定第⼀个字段输出字符串类型(长度为8)，第⼆个字段输出字符串类型(长度为8)，第三个字段输出字符串类型(长度为10)

netstat -anp|awk '$6=="LISTEN" || NR==1 {printf "%-10s %-10s %-10s \n",$1,$2,$3}'

netstat -anp|awk '$6=="LISTEN" || NR==1 {printf "%-3s %-10s %-10s %-10s \n",NR,$1,$2,$3}'

IF语句

awk -F: '{if($3>100) print "large"; else print "small"}' /etc/passwd

small

688IT编程网

Linux常用指令之AWK(过滤搜索)

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

Linux常用指令之AWK(过滤搜索)

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式