1. 程式人生 > >Windows 7 64位 配置PSI-Blast 生成PSSM矩陣

Windows 7 64位 配置PSI-Blast 生成PSSM矩陣

blast+的本地化構建

1.1程式下載 連結到:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/

1.2安裝流程

建議安裝在非系統盤,如將下載的 BLAST 程式安裝到 E:\blast,生成 bin、doc 兩個子目錄,其中 bin 是程式目錄,doc是文件目錄,這樣就安裝完畢了。

1.3使用者環境變數設定

右 鍵點選“我的電腦”-“屬性”,然後選擇“高階系統設定”標籤-“環境變數”(圖1),在使用者變數下方“Path”隨安裝過程已自動新增其變數值,即 “E:\Blast\bin”。 此時點選“新建”-變數名“BLASTDB”,變數值為“E:\Blast\db”(即資料庫路徑,圖2)。 

1.4檢視程式版本資訊
點選 Windows 的“開始”選單,輸入“cmd”(XP系統在執行中輸入cmd)(圖3)調出 MS-DOS 命令列,轉到 Blast 安裝目錄,輸入命令“blastn -version”即可檢視版本(圖4):

2.blast+本地資料庫的構建

2.1 資料的獲取

法 1:直接從 NCBI或者其他資料庫網站下載所需序列做成資料庫,或者自己已有的測序資料(格式必須是 fasta,名字可以自己隨便命名,具體做法下面有說明 )。

法 2:從NCBI中的 ftp 庫下載所需要的某一個庫或幾個庫,其連結為ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/

其中 nr.gz 為非冗餘的資料庫,nt.gz 為核酸資料庫,month.nt.gz 為最近一個月的核酸序列資料。下載的month.nt.gz先用winrar解壓縮,然後用makeblastdb.exe格式化。

法 3:利用新版 blast自帶的 update_blastdb.pl進行下載,這需要安裝 perl 程式。

上述三種方法各有優缺點,前兩種下載速度較快,但是每次進行檢索都需要對資料庫進行格式化(轉化成二進位制資料),第三種方法下載速度較慢,但是是 NCBI 中已經格式化好的,在進行本地檢索時不需再進行格式化,直接用即可。

2.2資料的格式化

本文以ratwy.fasta作為查詢序列,以rat.fasta作為資料庫檔案為例進行講解。首先將rat.fasta放到E:\blast\db資料夾下,然後調出MS-DOS命令列,轉到E:\blast\db資料夾下執行以下命令:

格式化rat.fasta命令:makeblastdb.exe -in rat.fasta -parse_seqids -hash_index -dbtype prot

-in引數後面接將要格式化的資料庫,-parse_seqids, -hash_index兩個引數一般都帶上,主要是為blastdbcmd取子序列時使用,-dbtype  後接所格式化的序列的型別,核酸用 nucl,蛋白質用prot;

至此,本地資料庫已經建立完畢!!!

3.生成pssm打分矩陣

       3.1 在dos環境下進入db檔案輸入命令:psiblast -db pdbaa.fasta -in_msa k.fasta-num_iterations 3 -evalue 0.001 -out_ascii_pssm pssm2.txt

       3.2 使用python或dos命令批量呼叫3.1程式碼即可