awk命令简介

2016-11-16

awk命令简介

在shell命令或编程中，可以用AWK强大的的文本处理能力。如果要格式化报文或从一个大的文本文件中抽取数据包，那么awk可完成这些任务。awk是一种解释的编程语言。awk也是shell过滤工具中最难掌握的。awk是一种自解释的编程语言。结合awk和sed和grep，将会使awk编程更加容易。
awk语言最基本的功能是在文件或字符串中基于指定的规则浏览和抽取信息。
有三种方式可调用awk.
<1>.命令行方式。
<2>.将所有的awk命令插入一个文件，并利用chmod使awk文件成为执行。
<3>.将所有的awk命令插入一个单独文件，然后调用。
以下简单介绍awk的各种方式，详细请查看相关另外文档
在awk中有四种概念。
1.抽取域
2.匹配正则表达式
3.比较域
4.向awk传递参数
以下简单介绍：
1).保存awk输出: #awk '{print $0}' myfile>newfile
2).使用tee,在输出到文件的同时输出到屏幕(利用管道'|')
     #awk '{print $0}' myfile |tee newfile
3).打印报告头,#awk 'BEGIN {print "hello,this is Title\n---------"}{print $0}' newfile
4).打印信息尾.#awk 'BEGIN{print $0} END {"end of file."}' myfile
5).匹配,如下若在myfile第二列中带有BROWN,则打印信息
     #awk '{if ($2~/BROWN/) print $0}' myfile
6).精确匹配,同上,只是将~改为==
7).不匹配,有时要浏览信息并抽取不匹配操作的记录,与~相反的符号是!,如下
#awk '$0 !~/BROWN/' myfile
8).比较
如小于: #awk 'if ($1<$2) print $1' myfile
9).设置大小写 #awk '[Gg]reen/' myfile
10).任意字符,表达式/^...a/意为前三个字符是任意字符

#awk '$1~/^...a/' myfile
11).或关系匹配，#awk '$0~/(YELLOW || RED)/' myfile
12).与：&& ,或:||
13).awk内置变量
<1>.要快速查看记录个数，应使用NR,如：#awk 'END {print NR}' myfile <2>.以下使用NF变量显示每一条读记录中有多少个域，并在END部份打印输入文件名。#awk '{print NR,NF,$0} END {print FILENAME}' myfile
<3>. 判断并输出 . #awk '{if(NR>0 && $4~/BROWN/) print $0' myfile
14).可以设置输入域到域变量名。
15).域值比较操作。
   @1.在BEGIN中给变量名赋值。通常在BEGIN部分赋值是很有益的，可以在awk表达式进行改动时减少很大麻烦.
   @2.在关系操作中使用实际数值,使用关系操作时必须用括号括起来.
#awk '{if($6<27) print $0}' myfile
#awk 'BEGIN {BASELINE="27"}{if ($6<BASELINE) print $6}' myfile
17).修改数据域取值
当在awk中修改任何域时，重要的一点是实际的文件可修改，改动的是cache中的awk复本，awk会在变量NR或NF中反映出修改的痕迹。
#awk '{if($1=="M.TANS")$6=$6-1;print $6}' myfile
18).修改文本域
#awk '{if($1=="J.Troll")($1="J.L.Troll");print $1}' myfile
19).只显示修改记录
#awk '{if($1=="J.Troll"){$1="J.L.Troll";print $1}}' myfile
20).创建新的输出域
在awk中处理数据时，基于各域进行计算的创建新域是个好的习惯。如下示例：
#awk 'BEGIN{print "Name    Score\t"}if($6<$7){$8=$7-$6;print $8}' myfile
21).增加列值
#awk 'tot+=$6;END{print "Club Total point." tot}' myfile
22).使用模式打印文件名及其长度，放入变量tot中
#ls -l | awk'/^[^d]{print $9 "\t" $5}{tot+=$5} END {print "Total KB:tot"}'
23).awk内置的字符串函数
24).awk脚本文件
如以上的所述的诸多情况，这里只不过命令放在一个文件中，且该文件必须是!/bin/awk -f ，因为这样才会使这个文件可以自解释。否则将不能作用。为了容易分别，最好将文件带一个扩展名.awk，完成对文件的编写后，再利用chmod u+x使文件可以执行。

在awk中，可以用！a[$0]++做为条件，对重复出现的行进行处理。
bash-3.2$ cat 2
abc
abc
ef
123
dgag
123
xxx

bash-3.2$ awk '!a[$0]++' 2
abc
ef
123
dgag
xxx

对于awk '!a[$3]++'，需要了解3个知识点
1、awk数组知识，不说了
2、awk的基本命令格式 awk 'pattern{action}'
    省略action时，默认action是{print}，如awk '1'就是awk '1{print}'
3、var++的形式：先读取var变量值，再对var值+1

以数据
1 2 3
1 2 3
1 2 4
1 2 5
为例，对于awk '!a[$3]++'
awk处理第一行时：先读取a[$3]值再自增，a[$3]即a[3]值为空(0)，即为awk '!0'，即为awk '1'，即为awk '1{print}'
awk处理第二行时：先读取a[$3]值再自增，a[$3]即a[3]值为1，即为awk '!1'，即为awk '0'，即为awk '0{print}'
.............

最后实现的效果就是对于$3是第一次出现的行进行打印，也就是去除$3重复的行
   以上只是我在实验中的一些情况，awk命令功能很强大，大家可以参考其它的一些手册去获得更清楚的说明。

例子：
ps -ef | grep java | awk '{print $2}'| sed -n 1p

这个跟ps -ef | grep java | awk '{print $2}'| tee | sed -n 1p 一样