生信（七）生信中常用命令

阿新 • • 發佈：2018-12-21

今天將生信工作中的一些常用命令記錄（分享）如下：（以後會不定期更新）

轉換dos/windows格式的bed檔案為unix格式 （說明：我們拿到的bed檔案時常是客戶在Windows系統下編輯好的，其行尾是\r\n，在進行NGS分析前最好將其轉換為Unix風格的行尾\n。）在這裡插入圖片描述可以看出上面的dos.bed.txt是一個dos風格（^M $KaTeX parse error: Can't use function '\r' in math mode at position 3: ，即\̲r̲\n結尾）的檔案。要想轉換成u…$ ，即\n結尾）的檔案，當然可以用dos2unix命令來完成：

 dos2unix –n dos.bed.txt unix.bed.txt

在這裡插入圖片描述可以看到轉換成功。問題在於dos2unix命令往往不是系統預設安裝的，你要自行安裝後才可以使用。一個替代的方法是用sed命令。

sed ‘s/\r//’ dos.bed.txt > unix.bed.txt

在這裡插入圖片描述可以看到，轉換效果是一樣的。

批量刪除一個目錄及其子目錄下的bam檔案

find your_path –name *.bam –exec rm {} \;

在這裡插入圖片描述

合併兩個fastq檔案

cat fastq1 fastq2 > merged_fastq

獲取fastq檔名字首 （假設fastq檔名是test.r1.fq.gz，我們想得到其字首test）

your_string | cut –d. –f1

在這裡插入圖片描述或者：

your_string | sed ‘s/\..*//’

在這裡插入圖片描述或者：

your_string | awk –F. ‘{print $1}’

在這裡插入圖片描述或者（如果是在指令碼中實現這一功能的話）：利用shell中的字串變數刪除功能 ${var%%} 來實現。

打包並壓縮專案檔案

tar zcvf tar_file origin_files

列印行號

sed ‘=’ your_file | sed ‘N;s/\n/\t/’

在這裡插入圖片描述或者：

awk ‘{printf(“%d\t%s\n”, NR, $0)}’ your_file

在這裡插入圖片描述

輸出指定的行數 （比如第666行）

sed –n ‘666p;666d’ your_file

在這裡插入圖片描述或者：

awk ‘NR==666{print $0; exit}’ your_file

在這裡插入圖片描述

統計不重複的基因個數 （假設基因名在第一列）

awk ‘{print $1}’ your_file | sort -u | wc –l

在這裡插入圖片描述或者

awk ‘{a[$1]++} END {print length(a)}’ your_file

在這裡插入圖片描述

找出表達量最高的基因 （假設基因名在第一列，表達量資料在第四列）

sort –k4,4nr your_file | head -1 | cut –f1

在這裡插入圖片描述或者（如果僅僅是找出最高表達量的基因，下面的方法更快！因為它不對所有記錄排序）：

awk ‘{if(max<$4){max=$4;gene=$1}} END {print gene}’ your_file

在這裡插入圖片描述

列印最後一列

awk ‘{print $NF}’ your_file

反向互補序列 （如”agctn”的反向互補序列應該是”nagct”）

your_string | tr ‘agctnAGCTN’ ‘tcganTCGAN’ | rev

在這裡插入圖片描述

或者：

your_string | sed ‘y/agctnAGCTN/tcganTCGAN/’ | rev

在這裡插入圖片描述

求取某一列平均值 （假設求第四列的平均值）

awk ‘{x+=$4} END {print x/NR}’ your_file

在這裡插入圖片描述如果是壓縮檔案，則需利用zcat來生成“流”：

zcat your_zipped_file | awk ‘{x+=$4} END {print x/NR}’

獲取指令碼檔案所在目錄的絕對路徑 （假設你有一個指令碼test.sh，你想在該腳本里寫幾行程式碼獲取test.sh所在目錄的絕對路徑）

abs_path=$(cd “$(dirname “$0”)”; pwd)
echo $abs_path

在這裡插入圖片描述

對bed檔案排序 （假設依次按照前三列進行排序）

sort –k1,1V –k2,2n –k3,3n unsort.bed > sort.bed

最後提一句：從上面的諸多例子中，我們可以看出，sed與awk的威力。它們與grep並稱Linux下的“三劍客”，牛叉哄哄！

如果有任何意見或建議，歡迎留言！

公眾號：生信了在這裡插入圖片描述

生信（七）生信中常用命令

今天將生信工作中的一些常用命令記錄（分享）如下：（以後會不定期更新）轉換dos/windows格式的bed檔案為unix格式（說明：我們拿到的bed檔案時常是客戶在Windows系統下編輯好的，其行尾是\r\n，在進行NGS分析前最好將其轉換為Unix風格

微信小程式開發詳解（七）---微信小程式APP生命週期

1：微信小程式APP的生命週期方法：在微信小程式工程中的app.js中增加如圖1所示方法圖1 編譯執行，檢視日誌如圖2，圖3所示：微信小程式啟動時，呼叫生命週期方法為：onLaunch方法（app.js）---onShow方法（app.js）---onLoad方法（首

企業分布式微服務雲SpringCloud SpringBoot mybatis （七）Spring Boot中使用JdbcTemplate訪問數據庫

ger sele 應該創建測試環境 oid reg tis eat 本文介紹在Spring Boot基礎下配置數據源和通過JdbcTemplate編寫數據訪問的示例。數據源配置在我們訪問數據庫的時候，需要先配置一個數據源，下面分別介紹一下幾種不同的數據庫配置方式。

JavaScript -- 時光流逝（七）：js中的全域性函式

JavaScript -- 知識點回顧篇（七）：js中的全域性函式全域性函式可用於所有內建的 JavaScript 物件。 (1) encodeURI()：把字串編碼為 URI。 <script type="text/javascript"> docume

AI聖經-深度學習-讀書筆記（七）-深度學習中的正則化

深度學習中的正則化 0 簡介機器學習中的一個核心問題是設計不僅在訓練資料上表現好，而且能在新輸入上泛化好的演算法。採用顯式減少測試誤差（可能會增加訓練誤差）的策略稱為正則化。在深度學習的背景下，大多數正則化策略都會對估計進行正則化（以偏差的增加換取方差

設計模式（七）：Java中的觀察者設計模式

介紹觀察者模式是行為設計模式之一。當您對物件的狀態感興趣並希望在有任何更改時收到通知時，觀察者設計模式非常有用。在觀察者模式中，監視另一個物件狀態的物件稱為Observer，正在被監視的物件稱為Subject。根據GoF，觀察者設計模式的意圖是; 定義物件之間的一對多依賴關係，以便當一個物件更改狀態時

Django學習之路（七）生產環境中的使用

基本思路 1，方案：Nginx+uwsgi 這個方案的大體思路就是：nginx作為伺服器最前端，負責接收client的所有請求，統一管理。靜態請求由Nginx自己處理，非動態請求通過uwsgi傳遞給Django，由Django來進行處理，從而完成一次web請求。 2，通訊請求

探索併發程式設計（七）------分散式環境中併發問題

在分散式環境中，處理併發問題就沒辦法通過作業系統和JVM的工具來解決，那麼在分散式環境中，可以採取一下策略和方式來處理：避免併發時間戳序列化資料庫行鎖統一觸發途徑避免併發在分散式環境中，如果存在併發問題，那麼很難通過技術去解決，或者解決的代價很大，所以我們首

Cocos2d-x 3.0 開發（七）在程式中處理cocoStudio匯出動畫

1、概述使用cocoStudio可以方便的製作動畫，接下來的工作就是在我們的程式中使用製作的動畫。這篇中，我將使用程式將兩個動畫連線起來。有圖有真相：2、製作動畫承接上一篇，我們再製作一

（七）Centos之鏈接命令

gpo 節點和 tmp目錄源文件 nco 軟鏈接和硬鏈接 es2017 spa 重要一、鏈接命令：ln （link） ln -s [源文件] [目標文件] 功能描述：生成鏈接文件選項： -s 創建軟鏈接二、硬鏈接硬鏈接特征： 1，擁有相同的i節點和存

（轉載）C語言中常用的幾個標頭檔案及庫函式 (stdio.h ,string.h ,math.h ,stdlib.h)

不完全統計，C語言標準庫中的標頭檔案有15個之多，所以我主要介紹常用的這四個標頭檔案stdio.h ,string.h ,math.h ,stdlib.h ，以後用到其他的再做補充。下面上乾貨： 1.<stdio.h>：定義了輸入輸出函式、型別以及巨集，函式

Linux小小白入門教程（七）：vi文字編輯命令

以下操作在Linux終端進行。Linux因為許可權非常嚴格，所以暫時所有的命令操作全部是在/home資料夾下的/yangjw資料夾下進行。/yangjw資料夾就是登入使用者名稱所在的資料夾，出了此資料

Mysql學習總結（65）——專案實戰中常用SQL實踐總結

（1）負向條件查詢不能使用索引 select x1, x2 from order where status!=0 and stauts!=1 not in/not exists都不是好習慣可以優化為in查詢： select x1, x2 from order whe

Windows學習總結（10）——Windows系統中常用的CMD命令詳解

1.ping命令 ping是電腦網路故障診斷中的常用的命令，它的作用是用來檢查網路是否通暢或者網路連線速度。我們來看一下PING命令的具體表述。日常的診斷過程中我們最常用到的就是診斷連線是否通

oracle常用函式（七）-----ORACLE一些不常用的指令碼

本篇介紹一下一些不太常用的指令碼，它們往往有“奇能異效”，但是由於不太常用、不常見、或效率方面的原因，往往被大多數人給遺忘在某些角落裡。呵呵，不知道你看見下面這些指令碼，是否覺得眼熟呢？ 1: 如果我需要從SCOTT模式下EMP表中查詢職位為CLERK（祕書）、SALES

《Linux系統》之"皮毛系列"（三） Linux系統的常用命令

通過前兩篇文章的介紹，我們知道Linux系統的理念是：一切皆檔案。而檔案，就要涉及到命名規範，如下所示： 1）除了/之外，所有字元都合法 2）有些字元最好不要用，如空格符、製表符、字元@#$&()-等 3）避免使用.作為普通檔名的第一個字元。 4）大小寫敏感今天我們來

生信基礎（二）——生信學習資料

原創： hxj7 上次談到生信人員需要熟練掌握一些程式語言，還講了Perl和Python的選擇問題。那麼，如果已經選定了一門程式語言，到底該如何學習它呢？今天的我們可以通過MOOC跟著名師學習或者上知乎提問，幸運的話還能得到大牛指點。不過，在我剛接觸程式設計的時候，MOOC和知乎都還未興

生信（二）反向互補序列

關鍵詞：reverse; complement; sequence; **如何得到一段基因序列的反向互補序列？**這是基因測序領域經常遇到的問題。其實答案很簡單，許多現成的軟體都有這個功能。但是作為一個生信人，當然可以自己實現一個了。首先想到的也是最基礎的方法

生信（五）awk求取某一列的平均值

關鍵詞：awk awk是生信人必須要掌握的命令列工具。為啥？因為它太強大了。我們舉一個例子來說明。假設我們有一個1000萬行的檔案，大概長這樣：怎麼求第四列的平均數呢？ Python版本我們可以用幾行Python程式碼解決，比如這樣：其耗時： R版

OGG運維優化腳本（七）-信息修改類--快速註釋

ogg goldengate oracle 數據同步腳本 shell 文件名:note.sh路徑:$HOME/ggscript/ggnote功能：該腳本用於註釋指定行的配置表，配合重復值檢查腳本repeat.sh使用通過alias初始化入.profile或.bash_profile文