背景: join是数据处理领域中非常经典的技巧,绝大多数数据库都支持该用法,现在我们研究下AWK命令是如何实现 join的~
我们先看看awk中的两个自身变量,NR 和 FNR。
awk可以指定同时读取多个文件,按照指定的先后顺序,逐个读取。
NR 指的是awk所读取到所有记录(包括多个文件)的行数索引号,大概是Number Of Record的意思。
FNR 指的是awk所读取到的每个文件中的行数索引号,当文件发生切换时候,FNR重新从1开始,大概是File Number Of Record的意思。
下面测试下 NR 和 FNR 的区别:
先创建两个简单文件 a.txt 和 b.txt:
[root@VM_0_17_redhat ~]# cat a.txt
1,a-1
2,b-2
3,c-3
[root@VM_0_17_redhat ~]# cat b.txt
2,b--2
3,c--3
4,d--4
awk -F',' 'NR==FNR{a[$1]=$2;}NR!=FNR {print $0,a[$1]}' a.txt b.txt
结果:
2,b–2 b-2
3,c–3 c-3
4,d–4
可以看到,该结果其实就是b.txt left join a.txt
的结果!
具体分析:
第一部分:NR==FNR{a[$1]=$2;}
a是一个数组;当NR==FNR,也就是读取第一个文件的内容(第一个文件就是后面的a.txt),以a.txt中的$1
作为数组索引号,以a.txt中的$2
作为数组的值;
因此,第一部分过后,有了一个数组a,具体的值为 a[1]=”a-2″
,a[2]=”a-2″
,a[3]=”a-3″
,a[4]=”a-4″
第二部分:
NR!=FNR{print $0,a[$1]}
当NR!=FNR时候,也就是读取第二个文件的内容(b.txt),print $0
(打印b.txt中的内容),以及a[$1]
,这里的含义是以b.txt中的$1
为索引号(2,4,5),去数组a中获取值,即获取a[2],a[4],a[5]三个值,因为之前数组a中的索引号有1,2,3,4;故a[2]=”a-2″
,a[4]=”a-4″
,a[5]为空
如果是将两个文件做内关联:
awk -F',' 'NR==FNR{a[$1]=$2;}NR!=FNR && a[$1] {print $0,a[$1]}' a.txt b.txt
结果:
2,b–2 b-2
3,c–3 c-3
关键点:NR!=FNR && a[$1]
,如果a[$1]
存在即为true,这样就能去除b.txt中存在但a.txt中不存在的行
也可以写成 $1 in a
:
awk -F',' 'NR==FNR{a[$1]=$2;}NR!=FNR && $1 in a {print $0,a[$1]}' a.txt b.txt