AWK实现两文本关联join

AWK实现两文本关联join

背景： join是数据处理领域中非常经典的技巧，绝大多数数据库都支持该用法，现在我们研究下AWK命令是如何实现 join的~

我们先看看awk中的两个自身变量，NR 和 FNR。

awk可以指定同时读取多个文件，按照指定的先后顺序，逐个读取。

NR 指的是awk所读取到所有记录（包括多个文件）的行数索引号，大概是Number Of Record的意思。

FNR 指的是awk所读取到的每个文件中的行数索引号，当文件发生切换时候，FNR重新从1开始，大概是File Number Of Record的意思。

下面测试下 NR 和 FNR 的区别：

先创建两个简单文件 a.txt 和 b.txt：

[root@VM_0_17_redhat ~]# cat a.txt 
1,a-1
2,b-2
3,c-3

[root@VM_0_17_redhat ~]# cat b.txt 
2,b--2
3,c--3
4,d--4

awk -F',' 'NR==FNR{a[$1]=$2;}NR!=FNR {print $0,a[$1]}' a.txt b.txt

结果：

2,b–2 b-2
3,c–3 c-3
4,d–4

可以看到，该结果其实就是b.txt left join a.txt 的结果！

具体分析：

第一部分：NR==FNR{a[$1]=$2;}

a是一个数组；当NR==FNR，也就是读取第一个文件的内容（第一个文件就是后面的a.txt），以a.txt中的$1作为数组索引号，以a.txt中的$2作为数组的值；

因此，第一部分过后，有了一个数组a,具体的值为 a[1]=”a-2″，a[2]=”a-2″，a[3]=”a-3″，a[4]=”a-4″

第二部分：

NR!=FNR{print $0,a[$1]}

当NR!=FNR时候，也就是读取第二个文件的内容（b.txt），print $0（打印b.txt中的内容），以及a[$1]，这里的含义是以b.txt中的$1为索引号（2,4,5），去数组a中获取值，即获取a[2],a[4],a[5]三个值，因为之前数组a中的索引号有1,2,3,4；故a[2]=”a-2″，a[4]=”a-4″，a[5]为空

如果是将两个文件做内关联：

awk -F',' 'NR==FNR{a[$1]=$2;}NR!=FNR && a[$1] {print $0,a[$1]}' a.txt b.txt

结果：

2,b–2 b-2
3,c–3 c-3
关键点：NR!=FNR && a[$1]，如果a[$1]存在即为true，这样就能去除b.txt中存在但a.txt中不存在的行

也可以写成 $1 in a ：

awk -F',' 'NR==FNR{a[$1]=$2;}NR!=FNR && $1 in a {print $0,a[$1]}' a.txt b.txt

摘自：https://blog.csdn.net/fisherming/article/details/88428548

相关文章

广告赞助

订阅空间

热门文章

友情链接

文章月存档