[轉載]Linux下的cut選取命令詳解
定義
正如其名,cut的工作就是“剪”,具體的說就是在檔案中負責剪下資料用的。cut是以每一行為一個處理物件的,這種機制和sed是一樣的
剪下依據
cut命令主要是接受三個定位方法:
第一,位元組(bytes),用選項-b
第二,字元(characters),用選項-c
第三,域(fields),用選項-f
語法格式 cut [-bn] [file] 或 cut [-c] [file] 或 cut [-df] [file]
使用說明 cut 命令從檔案的每一行剪下位元組、字元和欄位並將這些位元組、字元和欄位寫至標準輸出。 如果不指定 File 引數,cut 命令將讀取標準輸入。必須指定 -b、-c 或 -f 標誌之一。
主要引數 -b :以位元組為單位進行分割。這些位元組位置將忽略多位元組字元邊界,除非也指定了 -n 標誌。 -c :以字元為單位進行分割。 -d :自定義分隔符,預設為製表符。 -f :與-d一起使用,指定顯示哪個區域。 -n :取消分割多位元組字元。僅和 -b 標誌一起使用。如果字元的最後一個位元組落在由 -b 標誌的 List 引數指示的<br />範圍之內,該字元將被寫出;否則,該字元將被排除。
[[email protected] etc]# who|cut -b 3-5,8 okee okee
“位元組”定位中,提取第3,第4、第5和第8個位元組,-b支援形如3-5的寫法,而且多個定位之間用逗號隔開
注意,cut命令如果使用了-b選項,那麼執行此命令時,cut會先把-b後面所有的定位進行從小到大排序,然後再提取。可不能顛倒定位的順序哦。
[[email protected] etc]# who|cut -b 9,3-5 oker oker
同時還可以用-3表示從第一個位元組到第三個位元組,而3-表示從第三個位元組到行尾
[[email protected] etc]# who|cut -b -3 zoo zoo [[email protected] etc]# who|cut -b 3- okeeper pts/0 2016-08-20 20:04 (192.168.184.1) okeeper pts/2 2016-08-18 19:25 (192.168.184.1)
這兩種情況下,都是選中第三個位元組,同時出現-3,3-也不會出現重複
[[email protected] etc]# who|cut -b 3-,-3 zookeeper pts/0 2016-08-20 20:04 (192.168.184.1) zookeeper pts/2 2016-08-18 19:25 (192.168.184.1)
-b是位元組,-c則是字元,注意一點就是:一個空格算一個位元組,一個漢字算三個位元組
[[email protected] programming]$ cat cut_ch.txt 星期一 星期二 星期三 星期四 [[email protected] programming]$ cut -b 3 cut_ch.txt � � � � [[email protected] programming]$ cut -c 3 cut_ch.txt 一 二 三 四 [[email protected] programming]$ cat cut_ch.txt |cut -b 2 � � � � [[email protected] programming]$ cat cut_ch.txt |cut -nb 2 --當遇到多位元組字元時,可以使用-n選項,-n用於告訴cut不要將多位元組字元拆開
[[email protected] programming]$ cat cut_ch.txt |cut -nb 1,2,3 --當遇到多位元組字元時,可以使用-n選項,-n用於告訴cut不要將多位元組字元拆開
星 星 星 星
為什麼會有“域”的提取呢,因為剛才提到的-b和-c只能在固定格式的文件中提取資訊,而對於非固定格式的資訊則束手無策。這時候“域”就派上用場了。如果你觀察過/etc/passwd檔案,你會發現,它並不像who的輸出資訊那樣具有固定格式,而是比較零散的排放。但是,冒號在這個檔案的每一行中都起到了非常重要的作用,冒號用來隔開每一個項。
我們很幸運,cut命令提供了這樣的提取方式,具體的說就是設定“間隔符”,再設定“提取第幾個域”,就OK了!
[[email protected] etc]# cat /etc/passwd |head -n 5 root:x:0:0:root:/root:/bin/bash bin:x:1:1:bin:/bin:/sbin/nologin daemon:x:2:2:daemon:/sbin:/sbin/nologin adm:x:3:4:adm:/var/adm:/sbin/nologin lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin [[email protected] etc]# cat /etc/passwd|head -n 5|cut -d : -f 1 root bin daemon adm lp [[email protected] etc]# cat /etc/passwd|head -n 5|cut -d : -f 1,3-5 root:0:0:root bin:1:1:bin daemon:2:2:daemon adm:3:4:adm lp:4:7:lp
有時候製表符確實很難辨認,有一個方法可以看出一段空格到底是由若干個空格組成的還是由一個製表符組成的
[[email protected] rh]$ sed -n l test.txt this is first line$ this is second line$ this is third line$ this is fourth line$ this\tfifth line$ happy everyday$ end$
如果是製表符(TAB),那麼會顯示為\t符號,如果是空格,就會原樣顯示。通過此方法即可以判斷製表符和空格了。
這是sed中的用法:l [n]
用明確的形式顯示模版空間的資料:
①、以C-style的轉義形式顯示不能列印的字元(換行符、製表符等)和本身的\Char形式;
②、長的行將進行分割,以字元\結尾的行表示分割,以字元$結尾的行表示分割結束。
③、n指定顯示行的長度,超過就進行分割;若為0表示不分割所有行;沒有指定時就取命令列選項-l的設定,再沒有就取預設值70。這是GNU的擴充套件功能。
其實cut的-d選項的預設間隔符就是製表符,所以當你就是要使用製表符的時候,完全就可以省略-d選項,而直接用-f來取域就可以了!如果你設定一個空格為間隔符,使用 -d ' '而且,你只能在-d後面設定一個空格,可不許設定多個空格,因為cut只允許間隔符是一個字元。