LinuxShellsort排序常用命令--688IT编程网

LinuxShellsort排序常⽤命令

1 sort的⼯作原理

sort将⽂件的每⼀⾏作为⼀个单位，相互⽐较，⽐较原则是从⾸字符向后，依次按ASCII码值进⾏⽐较，最后将他们按升序输出。

[rocrocket@rocrocket programming]$

banana

apple

pear

orange

[rocrocket@rocrocket programming]$

apple

banana

orange

pear

2 sort的-u选项

它的作⽤很简单，就是在输出⾏中去除重复⾏。

[rocrocket@rocrocket programming]$

banana

apple

pear

orange

pear

[rocrocket@rocrocket programming]$

apple

banana

orange

pear

[rocrocket@rocrocket programming]$ sort -

apple

banana

orange

pear

pear由于重复被-u选项⽆情的删除了。

3 sort的-r选项

sort默认的排序⽅式是升序，如果想改成降序，就加个-r就搞定了。

[rocrocket@rocrocket programming]$

[rocrocket@rocrocket programming]$ sort -

4 sort的-o选项

由于sort默认是把结果输出到标准输出，所以需要⽤重定向才能将结果写⼊⽂件，形如sort filename > newfile。

但是，如果你想把排序结果输出到原⽂件中，⽤重定向可就不⾏了。

[rocrocket@rocrocket programming]$ sort - >

[rocrocket@rocrocket programming]$

看，竟然将number清空了。

就在这个时候，-o选项出现了，它成功的解决了这个问题，让你放⼼的将结果写⼊原⽂件。这或许也是-o⽐重定向的唯⼀优势所在。

[rocrocket@rocrocket programming]$

[rocrocket@rocrocket programming]$sort - -

[rocrocket@rocrocket programming]$

5 sort的-n选项

你有没有遇到过10⽐2⼩的情况。我反正遇到过。出现这种情况是由于排序程序将这些数字按字符来排序了，排序程序会先⽐较1和2，显然1⼩，所以就将10放在2前⾯喽。这也是sort的⼀贯作风。

我们如果想改变这种现状，就要使⽤-n选项，来告诉sort，“要以数值来排序”！

[rocrocket@rocrocket programming]$

[rocrocket@rocrocket programming]$ sort -

6 sort的-t选项和-k选项

如果有⼀个⽂件的内容是这样：

[rocrocket@rocrocket programming]$

banana:30:5.5

apple:10:2.5

pear:90:2.3

orange:20:3.4

这个⽂件有三列，列与列之间⽤冒号隔开了，第⼀列表⽰⽔果类型，第⼆列表⽰⽔果数量，第三列表⽰⽔果价格。

那么我想以⽔果数量来排序，也就是以第⼆列来排序，如何利⽤sort实现？

幸好，sort提供了-t选项，后⾯可以设定间隔符。（是不是想起了cut和paste的-d选项，共鸣～～）

指定了间隔符之后，就可以⽤-k来指定列数了。

[rocrocket@rocrocket programming]$sort -n -k 2 -t :

apple:10:2.5

orange:20:3.4

banana:30:5.5

pear:90:2.3

我们使⽤冒号作为间隔符，并针对第⼆列来进⾏数值升序排序，结果很令⼈满意。

7 其他的sort常⽤选项

-f会将⼩写字母都转换为⼤写字母来进⾏⽐较，亦即忽略⼤⼩写

-c会检查⽂件是否已排好序，如果乱序，则输出第⼀个乱序的⾏的相关信息，最后返回1

C会检查⽂件是否已排好序，如果乱序，不输出内容，仅返回1

-M会以⽉份来排序，⽐如JAN⼩于FEB等等

-b会忽略每⼀⾏前⾯的所有空⽩部分，从第⼀个可见字符开始⽐较。

有时候学习脚本，你会发现sort命令后⾯跟了⼀堆类似-k1,2，或者-k1.2 -k3.4的东东，有些匪夷所思。今天，我们就来搞定它—-k选项！

1 准备素材

google 110 5000

baidu 100 5000

guge 50 3000

sohu 100 4500

第⼀个域是公司名称，第⼆个域是公司⼈数，第三个域是员⼯平均⼯资。（除了公司名称，其他的别信，都瞎写的^_^）

sort命令排序2 我想让这个⽂件按公司的字母顺序排序，也就是按第⼀个域进⾏排序：（这个⽂件有三个域）

$ sort -t ‘ ‘ -k

baidu 100 5000

google 110 5000

guge 50 3000

sohu 100 4500

看到了吧，就直接⽤-k 1设定就可以了。（其实此处并不严格，稍后你就会知道）

3 我想让按照公司⼈数排序

$ sort -n -t ‘ ‘ -k

guge 50 3000

baidu 100 5000

sohu 100 4500

google 110 5000

不⽤解释，我相信你能懂。

但是，此处出现了问题，那就是baidu和sohu的公司⼈数相同，都是100⼈，这个时候怎么办呢？按照默认规矩，是从第⼀个域开始进⾏升序排序，因此baidu排在了sohu前⾯。

4 我想让按照公司⼈数排序，⼈数相同的按照员⼯平均⼯资升序排序：

$sort -n -t ‘ ‘ -k 2 -k

guge 50 3000

sohu 100 4500

baidu 100 5000

google 110 5000

看，我们加了⼀个-k2 -k3就解决了问题。对滴，sort⽀持这种设定，就是说设定域排序的优先级，先以第2个域进⾏排序，如果相同，再以第3个域进⾏排序。（如果你愿意，可以⼀直这么写下去，设定很多个排序优先级）

5 我想让按照员⼯⼯资降序排序，如果员⼯⼈数相同的，则按照公司⼈数升序排序：（这个有点难度喽）

$sort -n -t ‘ ‘ -k 3r -k

baidu 100 5000

google 110 5000

sohu 100 4500

guge 50 3000

此处有使⽤了⼀些⼩技巧，你仔细看看，在-k 3后⾯偷偷加上了⼀个⼩写字母r。你想想，再结合我们，

能得到答案么？揭晓：r和-r选项的作⽤是⼀样的，就是表⽰逆序。因为sort默认是按照升序排序的，所以此处需要加上r表⽰第三个域（员⼯平均⼯资）是按照降序排序。此处你还可以加上n，就表⽰对这个域进⾏排序时，要按照数值⼤⼩进⾏排序，举个例⼦吧：

$ sort -t ‘ ‘ -k 3nr -k

baidu 100 5000

google 110 5000

sohu 100 4500

guge 50 3000

看，我们去掉了最前⾯的-n选项，⽽是将它加⼊到了每⼀个-k选项中了。

6 -k选项的具体语法格式

要继续往下深⼊的话，就不得不来点理论知识。你需要了解-k选项的语法格式，如下：

[ FStart [ .CStart ] ] [ Modifier ] [ , [ FEnd [ .CEnd ] ][ Modifier ] ]

这个语法格式可以被其中的逗号（“，”）分为两⼤部分，Start部分和End部分。

先给你灌输⼀个思想，那就是“如果不设定End部分，那么就认为End被设定为⾏尾”。这个概念很重要的，但往往你不会重视它。

Start部分也由三部分组成，其中的Modifier部分就是我们之前说过的类似n和r的选项部分。我们重点说说Start部分的FStart和C.Start。

C.Start也是可以省略的，省略的话就表⽰从本域的开头部分开始。之前例⼦中的-k 2和-k 3就是省略了C.Start的例⼦喽。

FStart.CStart，其中FStart就是表⽰使⽤的域，⽽CStart则表⽰在FStart域中从第⼏个字符开始算“排序⾸字符”。

同理，在End部分中，你可以设定FEnd.CEnd，如果你省略.CEnd，则表⽰结尾到“域尾”，即本域的最后⼀个字符。或者，如果你将CEnd设定为0(零)，也是表⽰结尾到“域尾”。

7 突发奇想，从公司英⽂名称的第⼆个字母开始进⾏排序：

$ sort -t ‘ ‘ -k 1.

baidu 100 5000

sohu 100 4500

google 110 5000

guge 50 3000

看，我们使⽤了-k 1.2，这就表⽰对第⼀个域的第⼆个字符开始到本域的最后⼀个字符为⽌的字符串进⾏排序。你会发现baidu因为第⼆个字母是a⽽名列榜⾸。sohu和 google第⼆个字符都是o，但sohu的h在google的o前⾯，所以两者分别排在第⼆和第三。guge只能屈居第四了。

8 ⼜突发奇想，，只针对公司英⽂名称的第⼆个字母进⾏排序，如果相同的按照员⼯⼯资进⾏降序排序：

$ sort -t ‘ ‘ -k 1.2,1.2 -k 3,

baidu 100 5000

google 110 5000

sohu 100 4500

guge 50 3000

由于只对第⼆个字母进⾏排序，所以我们使⽤了-k 1.2,1.2的表⽰⽅式，表⽰我们“只”对第⼆个字母进⾏排序。（如果你问“我使⽤-k 1.2怎么不⾏？”，当然不⾏，因为你省略了End部分，这就意味着你将对从第⼆个字母起到本域最后⼀个字符为⽌的字符串进⾏排序）。对于员⼯⼯资进⾏排序，我们也使⽤了-k 3,3，这是最准确的表述，表⽰我们“只”对本域进⾏排序，因为如果你省略了后⾯的3，就变成了我们“对第3个域开始到最后⼀个域位置的内容进⾏排序” 了。

9 在modifier部分还可以⽤到哪些选项？

可以⽤到b、d、f、i、n 或 r。

其中n和r你肯定已经很熟悉了。

b表⽰忽略本域的签到空⽩符号。

d表⽰对本域按照字典顺序排序（即，只考虑空⽩和字母）。

f表⽰对本域忽略⼤⼩写进⾏排序。

i表⽰忽略“不可打印字符”，只针对可打印字符进⾏排序。（有些ASCII就是不可打印字符，⽐如\a是报警，\b是退格，\n是换⾏，\r是回车等等）

10 思考思考关于-k和-u联合使⽤的例⼦：

google 110 5000

baidu 100 5000

guge 50 3000

sohu 100 4500

这是最原始的⽂件。

688IT编程网

LinuxShellsort排序常用命令

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

LinuxShellsort排序常用命令

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式