Linux 下比较文件内容并删除相同部分

作者: Tscccn | 日期: 2013 年 08 月 01 日 | 围观: 18903次+ 发表评论 (0) 查看评论

别人问我，我自己突然不知道怎么弄又懒得想，搜索了一下，找到一篇文章。然后稍微了解了一下。
先做好准备工作，简单准备两个文本文件，如下

[root@kinggoo.com test1]# cat file1
a
b
c
d
e
[root@kinggoo.com test1]# cat file2
c
e

说明，是通过file2内容与file1做比较，最后列出file1与file2不同的部分
方法一

comm
功能说明：比较两个已排过序的文件。
语法：comm [-123][–help][–version][第1个文件][第2个文件]
补充说明：这项指令会一列列地比较两个已排序文件的差异，并将其结果显示出来，如果没有指定任何参数，则会把结果分成3行显示：第1行仅是在第1个文件中出现过的列，第2行是仅在第2个文件中出现过的列，第3行则是在第1与第2个文件里都出现过的列。若给予的文件名称为"-"，则comm指令会从标准输入设备读取数据。

方法一例子：

[root@kinggoo.com test1]# comm -23 file1 file2
a
b
d

方法二

grep
请看文章下方参考部分

方法二例子

[root@kinggoo.com test1]# grep -v -f file2 file1
a
b
d

方法三

awk sort uniq 就不解释了，请看文章下方参考部分

打印出file1、file2文件，第一列为行数、第二列为两文件内容 |然后按第二列排序|删除重复行（sort -u也可以，但它会保留一个重复项）|在按第一列行数排序|打印出第二列
[root@kinggoo.com test1]# awk '{print NR,$0}' file1 file2 |sort -k2|uniq -u -f 1|sort -k1|awk '{print $2}'

或者：

这个跟上面一样，短的原因就是因为它不需要考虑上面的第一列，因为它一直没打印过。
[root@kinggoo.com test1]# awk '{print $0}' file1 file2 |sort|uniq -u

参考文章：http://tech.ccidnet.com/art/302/20080626/1488725_1.html

参考资料：
comm

比较两个已排过序的文件。

语法：comm [-123][–help][–version][第1个文件][第2个文件]
补充说明：这项指令会一列列地比较两个已排序文件的差异，并将其结果显示出来，如果没有指定任何参数，则会把结果分成3行显示：第1行仅是在第1个文件中出现过的列，第2行是仅在第2个文件中出现过的列，第3行则是在第1与第2个文件里都出现过的列。若给予的文件名称为"-"，则comm指令会从标准输入设备读取数据。
参数：
-1 不显示只在第1个文件里出现过的列。
-2 不显示只在第2个文件里出现过的列。
-3 不显示只在第1和第2个文件里出现过的列。

sort

sort命令是帮我们依据不同的数据类型进行排序，其语法及常用参数格式：
sort [-bcfMnrtk][源文件][-o 输出文件]
补充说明：sort可针对文本文件的内容，以行为单位来排序。

参数：
-b 忽略每行前面开始出的空格字符。
-c 检查文件是否已经按照顺序排序。
-f 排序时，忽略大小写字母。
-M 将前面3个字母依照月份的缩写进行排序。
-n 依照数值的大小排序。
-o<输出文件> 将排序后的结果存入指定的文件。
-r 以相反的顺序来排序。
-t<分隔字符> 指定排序时所用的栏位分隔字符。
-k 选择以哪个区间进行排序。

grep

Linux系统中grep命令是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来。grep全称是Global Regular Expression Print，表示全局正则表达式版本，它的使用权限是所有用户。
语法：grep [options]
主要参数
[options]主要参数：
-c：只输出匹配行的计数。
-I：不区分大小写(只适用于单字符)。
-h：查询多文件时不显示文件名。
-l：查询多文件时只输出包含匹配字符的文件名。
-n：显示匹配行及行号。
-s：不显示不存在或无匹配文本的错误信息。
-v：显示不包含匹配文本的所有行。
pattern正则表达式主要参数：
\：忽略正则表达式中特殊字符的原有含义。
^：匹配正则表达式的开始行。
$: 匹配正则表达式的结束行。
\<：从匹配正则表达式的行开始。 \>：到匹配正则表达式的行结束。
[ ]：单个字符，如[A]即A符合要求。
[ – ]：范围，如[A-Z]，即A、B、C一直到Z都符合要求。
.：所有的单个字符。
* ：有字符，长度可以为0。

uniq

uniq命令可以去除排序过的文件中的重复行，因此uniq经常和sort合用。也就是说，为了使uniq起作用，所有的重复行必须是相邻的。
语法：uniq [-cdu][-f<栏位>][-s<字符位置>][-w<字符位置>][–help][–version][输入文件][输出文件]
补充说明：uniq可检查文本文件中重复出现的行列。
参数：
-c或–count 在每列旁边显示该行重复出现的次数。
-d或–repeated 仅显示重复出现的行列。
-f<栏位>或–skip-fields=<栏位> 忽略比较指定的栏位。
-s<字符位置>或–skip-chars=<字符位置> 忽略比较指定的字符。
-u或–unique 仅显示出一次的行列。
-w<字符位置>或–check-chars=<字符位置> 指定要比较的字符。

awk

awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。awk的处理文本和数据的方式是这样的，它逐行扫描文件，从第一行到最后一行，寻找匹配的特定模式的行，并在这些行上进行你想要的操作。如果没有指定处理动作，则把匹配的行显示到标准输出(屏幕)，如果没有指定模式，则所有被操作所指定的行都被处理。awk分别代表其作者姓氏的第一个字母。因为它的作者是三个人，分别是Alfred Aho、Brian Kernighan、Peter Weinberger。gawk是awk的GNU版本，它提供了Bell实验室和GNU的一些扩展。下面介绍的awk是以GUN的gawk为例的，在linux系统中已把awk链接到gawk，所以下面全部以awk进行介绍。
awk 用法：语法有两种形式
awk [options] ‘script’ var=value file(s)
awk [options] -f scriptfile var=value file(s)

变量描述
$n 当前记录的第n个字段，字段间由FS分隔。
$0 完整的输入记录。
ARGC 命令行参数的数目。
ARGIND 命令行中当前文件的位置(从0开始算)。
ARGV 包含命令行参数的数组。
CONVFMT 数字转换格式(默认值为%.6g)
ENVIRON 环境变量关联数组。
ERRNO 最后一个系统错误的描述。
FIELDWIDTHS 字段宽度列表(用空格键分隔)。
FILENAME 当前文件名。
FNR 同NR，但相对于当前文件。
FS 字段分隔符(默认是任何空格)。
IGNORECASE 如果为真，则进行忽略大小写的匹配。
NF 当前记录中的字段数。
NR 当前记录数。
OFMT 数字的输出格式(默认值是%.6g)。
OFS 输出字段分隔符(默认值是一个空格)。
ORS 输出记录分隔符(默认值是一个换行符)。
RLENGTH 由match函数所匹配的字符串的长度。
RS 记录分隔符(默认是一个换行符)。
RSTART 由match函数所匹配的字符串的第一个位置。
SUBSEP 数组下标分隔符(默认值是\034)。
具体awk信息请看这里：http://man.lupaworld.com/content/manage/ringkee/awk.htm#id2874788