1.序列QC:shell
去除低质量reads,和连续的低质量片断,去掉接头序列。QC统计reads数量及测序质量。数据库
2.Mapping:app
因为bwa能准确,快速的将短序列比对到基因组上,并且软件持续更新和说明文档完备,是外显子捕获测序的首选。编辑器
3.Sam到bam转换:ide
Samtools 的多种工具能够将sam文件转换为bam文件,rmdup工具能去除PCR扩增产生的冗余reads,消除因为文库扩增而导入的突变,下降假阳性。工具
Flagstat统计reads的mapping状况以及比较去除duplicate先后reads数目的反映样品建库的冗余状况。优化
Picard提供的多个工具,修改bam文件,是之适合于后续的GATK软件包中的工具的处理。编码
4.Indel区域的reads从新作局部多序列比对:命令行
在indel的边缘,一些错配看起来很像是SNP,经过对dbSNP库及bam文件检测到的indel附近的reads进行局部的从新比对,能够消除indel周边的假阳性SNP。3d
5.碱基质量从新打分:
测序仪给reads中的碱基的qual值存在必定的误差,经过经验的错误模型来从新计算的碱基的qual值,从新给reads的各个碱基的qual打分。
6.Call snv和indel:
对处理好的多样品bam文件同时运行UnifiedGenotyper,大大提升call SNP的灵敏度和准确性,多样品同时比较的结果,方便了后续的样品间差别的筛选。
7.突变位点的从新打分:
经过hapmap,omni,dbsnp数据库中已知的突变位点建模优化,对各个突变位点从新打分,筛选。大大下降了假阳性率。
8.注释:
经过ANNOVAR软件对vcf结果注释,关联到多个数据库。
2、数据分析内容
1. Mapping统计:
统计总reads数,mapped reads及unique mapped reads数目及百分比。
2. 捕获效率统计:
统计来自捕获区域的Fragment比例:
统计target区域全部的碱基覆盖次数分布:
对每一个target区域的覆盖和深度统计:
若是对某些基因特别感兴趣,想要看看来自这些基因的外显子区域的覆盖状况,能够提供每一个target或者特定target区域的覆盖状况和测序深度统计。
3. Snv和indel关联数据库:
Snv和indel结果按照突变的位点是否在捕获的区域以内分红两部分:
*_target.snv:突变处于捕获的靶区域(target region)内。
*_off_target.snv或者*_target.indel: 突变在捕获的靶区域以外。
Snv和indel结果与如下的数据库关联,为突变的筛选提供大量的信息。
1)基因注释:
经过基因注释能够达到如下的目的:突变的功能定位(在外显子,内含子,剪接位点仍是基因间区);突变所在的基因名称或者临近的基因;突变若是在编码区域,是否引发氨基酸的改变(同义突变,非同义突变的呢过)。
如 果引发氨基酸的改变,按照HGVS命名规则表示--改变的基因ID,转录本ID,外显子编号,以及氨基酸改变,如 NOD2:NM_022162:exon8:c.G2722C:p.G908R。
默认使用refSeq完成基因注释,若是有特殊的要求,可使用UCSC known gene,Ensembl,GENCODE,CCDS等基因注释系统。
2) 1000G注释:
检测突变位点是否在1000 Genomes Projects(2012 release)数据库中检测到,若是检测到,显示等位基因频率(allele frequency)。默认是使用全部人种的数据库,若是有特定要求,能够按照要求展现不一样人种(好比AMR, AFR, ASN,EUR,中国人,日本人)等位基因频率。
3) dbSNP注释:
检测突变是否在dbSNP数据库中,若是在,显示rsID。
默认使用db SNP135数据库,若是有特定的要求,可使用dbSNP129,dbSNP130,dbSNP131,dbSNP132数据库。
4) AVSIFT:
SIFT是一款很受欢迎的检测非同义突变位点重要性的软件,对应非同义突变位点,会给定一个打分,若打分低于0.05,则代表突变极可能会影响到蛋白质的功能
5) 与UCSC的数据库的关联:
ftp://hgdownload.cse.ucsc.edu/goldenPath/hg19/database/.txt.gz,提供了大量的基因组注释信息,目前关联的数据库有:
tfbsConsSites:在人/小鼠/大鼠中保守的转录因子结合位点,以transfac Matrix Database (v7.0)为基础。
wgRna:snoRNA and miRNA注释。
targetScanS:TargetScan预测的miRNA把区域。
gwasCatalog:已经发表的各类疾病的GWAS结果。
genomicSuperDups:基因组中的重复片断。
phastConsElements46way:经过phastCons对脊椎动物的全基因组比对生成的保守区域,根据用于比对的物种数目,分为17way, 28way, 30way, 44way等。
6) cosmic63:
已观察到的癌症相关突变,显示在COSMIC中的ID(identifiers),观察到的次数,以及观察到的癌组织。
4. CNV:
XHMM是一款外显子捕获拷贝数变异检测的优秀软件包,使用GATK和XHMM可以获得较好的外显子捕获的CNV结果。
5. 其它:
Polyphen-2 (Polymorphism Phenotyping v2)也是一款基于多序列比对和蛋白质3D结构,预测氨基酸替换(从一种氨基酸改变为另外一种氨基酸)对蛋白质结构和功能影响的软件。
能够经过GT(genotype)直接比较样品间的差别(GT简介:0表示与Ref相同,1表示与ALTS第1个碱基相同,2表示如ALTS第2个碱基相同)。
经过和多个数据库的提供关联精细筛选条件:
如今咱们来看Fastq2vcf。能够流水化做业哦,省去以上多步骤的麻烦。
Fastq2vcf须要两个文件:一个描述排序数据的数据表和一个配置文件,用于生成一系列能够直接在Linux / Unix环境下运行的shell脚本。测序数据表包含有关样品标识符,平台,库,读取组,序列类型(配对结束或单端),目录和文件名的信息。用户可使用电子表格程序或文本编辑器构建该表格,并将其保存为制表符分隔的平面文件。配置文件存储数据分析工具和程序参数的路径。配置fastq2vcf后,运行它将生成三类shell脚本文件,这些文件能够自动执行分析管道中的全部步骤。一个典型的流水线如图1所示,显示了fastq2vcf的输出,三种shell脚本文件,以及这些shell脚本的功能。首先,QC_mapping.sh包含用于调用质量控制和对齐程序的命令行,并格式化数据以供进一步处理。第二个,PreCalling.sh,包含删除重复数据和从新排列以减小误报的命令行。第三个脚本文件Variant.sh包含用于变体调用,过滤和注释的命令行。