1、bwa比对软件的使用html
一、对参考基因组构建索引
算法
bwa index -a bwtsw hg19.fa # -a 参数:is[默认] or bwtsw,即bwa构建索引的两种算法,两种算法都是基于BWT的(BWT search while the CIGAR string by Smith-Waterman alignment.)。-a bwtsw对于短的参考序列是不工做的,必需要大于等于10Mb;-a is 不适用于大的参考序列,必需要小于等于2G;post
output:hg19.fa.amb、hg19.fa.ann、hg19.fa.bwt、hg19.fa.pac和hg19.fa.saspa
二、寻找输入reads文件的SA坐标线程
对于pair end数据,每一个reads文件单独作运算,single end数据就不用说了,只有一个文件。orm
pair end:htm
bwa aln hg19.fa read1.fq.gz -l 30 -k 2 -t 4 -I > read1.fq.gz.sai or bwa aln hg19.fa read1.fq.gz -l 30 -k 2 -t 4 -I -f read1.fq.gz.saiblog
bwa aln hg19.fa read2.fq.gz -l 30 -k 2 -t 4 -I > read2.fq.gz.sai or bwa aln hg19.fa read2.fq.gz -l 30 -k 2 -t 4 -I -f read2.fq.gz.sai索引
single end:string
bwa aln hg19.fa read.fq.gz -l 30 -k 2 -t 4 -I > read.fq.gz.sai or bwa aln hg19.fa read.fq.gz -l 30 -k 2 -t 4 -I -f read.fq.gz.sai
主要参数说明:
-o int:容许出现的最大gap数。
-e int:每一个gap容许的最大长度。
-d int:不容许在3’端出现大于多少bp的deletion。
-i int:不容许在reads两端出现大于多少bp的indel。
-l int:Read前多少个碱基做为seed,若是设置的seed大于read长度,将没法继续,最好设置在25-35,与-k 2 配合使用。
-k int:在seed中的最大编辑距离,使用默认2,与-l配合使用。
-t int:要使用的线程数。
-R int:此参数只应用于pair end中,当没有出现大于此值的最佳比对结果时,将会下降标准再次进行比对。增长这个值能够提升配对比对的准确率,可是同时会消耗更长的时间,默认是32。
-I int:表示输入的文件格式为Illumina 1.3+数据格式。
-B int:设置标记序列。从5’端开始多少个碱基做为标记序列,当-B为正值时,在比对以前会将每一个read的标记序列剪切,并将此标记序列表示在BC SAM 标签里,对于pair end数据,两端的标记序列会被链接。
-b :指定输入格式为bam格式。bwa aln hg19.fa read.bam > read.fq.gz.sai
三、生成sam格式的比对文件
若是一条read比对到多个位置,会随机选择一种
single end:bwa samse hg19.fa read.fq.gz.sai read.fq.gz > read.fq.gz.sam
参数:
-n int:若是reads比对次数超过多少次,就不在XA标签显示。
-r str:定义头文件。‘@RG\tID:foo\tSM:bar’,若是在此步骤不进行头文件定义,在GATK后续分析中仍是须要从新增长头文件。
pair end:bwa sampe -a 500 read1.fq.gz.sai read2.fq.gz.sai read1.fq.gz read2.fq.gz > read.sam
参数:
-a int:最大插入片断大小。
-o int:pair end两reads中其中之一所容许配对的最大次数,超过该次数,将被视为single end。下降这个参数,能够加快运算速度,对于少于30bp的read,建议下降-o值。
-r str:定义头文件。同single end。
-n int:每对reads输出到结果中的最多比对数。
四、其余
(1)
bwa mem ref.fa reads.fq > aln-se.sam 单端测序
bwa mem ref.fa read1.fq read2.fq > aln-pe.sam 双端测序
(2)
bwa aln ref.fa short_read.fq > aln_sa.sai
bwa samse ref.fa aln_sa.sai short_read.fq > aln-se.sam
bwa sampe ref.fa aln_sa1.sai aln_sa2.sai read1.fq read2.fq > aln-pe.sam
(3)
bwa bwasw ref.fa long_read.fq > aln.sam
2、sam文件格式说明
一、
XT:A:U/R Type:Unique/Repeat/N/Mate-sw # U指第五列比对值>0;R指第五列比对值==0
参考文献:
一、《GATK使用方法详解(包含bwa使用)》http://www.tanboyu.com/gatk-bwa.html
二、《bwa英文操做手册》http://www.chinadmd.com/file/ecaeoaecwzvs3trpxpwtzows_1.html