须要了解的知识点:html
测序仪原理数据库
1、数据下载服务器
生物信息学常见的数据下载,包括基因组,gtf,bed,注释app
http://www.biotrainee.com/thread-857-1-1.html测试
各版本对应关系:spa
http://www.bio-info-trainee.com/1469.html(生信技能树)htm
测试数据及参考基因组准备:md5
http://www.biotrainee.com:8080/thread-731-1-7.htmlci
变异位点数据库准备:get
http://www.biotrainee.com:8080/thread-733-1-7.html
人的基因组测序数据:
https://www.ncbi.nlm.nih.gov/sra/?term=SRX252522
另外一我的的基因组测序数据:
https://www.ncbi.nlm.nih.gov/sra/?term=SRX247249
KPGP-00001样本数据:
网址是ftp://ftp.kobic.re.kr/pub/KPGP/2015_release_candidate/WGS/KPGP-00001/
,你们在本身的服务器敲这个命令就行了:
我会同步处理这个数据,还有我本身的数据。下载完了以后,用md5文件进行校验一下(该截图是未彻底下载的例子,只是想说md5码相同表明下载彻底)
2、数据分析流程
变异分析流程:
http://www.biotrainee.com:8080/thread-736-1-1.html(生信技能树)
http://www.htslib.org/workflow/(Heng L)
http://www.bio-info-trainee.com/1114.html(生信菜鸟团)
一、测序数据质量评估:
Rawreads:统计原始序列双端read pair总数目;根据FASTQ的格式,以四行为一个单位进行统计。
Raw data:统计原始序列数据量。
Effective:过滤后用于后续的生物信息分析的Clean reads占原始数据的比例。
Error rate:经过公式一计算获得。
Q20、Q30:分别计算 Phred 数值大于20、30的碱基占整体碱基的百分比。
GC content:计算碱基G和C的数量总和占总的碱基数量的百分比。
二、参考序列比对分析
参考序列比对分析也是重点,若是测了一大堆的序列,都没法比对到人的基因组上面,或有倾向性的比对到部分基因组,又或者基因组某些区域没有覆盖到,那再好的数据也是白瞎!下面这幅图就打消了个人疑虑!
经过这幅图能够看到,该公司的测序数据能较好的覆盖基因组的全部染色体,覆盖率都近似于100%,因此根据这个数据,我能够充分地的对个人基因组中的每个基因是否跟参考基因组有区别,有哪些区别进行全面分析!并且平均测序深度也比合同规定的30X要超出不少!
Total:clean data双端总reads数目
Duplicate:重复的reads数目
Mapped:比对到参考基因组上的总reads数目(比例)
Properlymapped:比对到参考基因组且方向正确的reads数目(比例)
PEmapped:双端reads比对到参考基因组上的reads数目(比例)
SEmapped:仅单端read比对到参考基因组上的reads数目(比例)
withmate mapped to a different chr:比对到不一样染色体的reads数目
withmate mapped to a different chr (mapQ>=5):比对到不一样染色体且比对质量不低于5的reads数目
Average_sequencing_depth::比对到参考基因组的平均测序深度(测序数据量/基因组大小)
Coverage:比对数据对全基因组区域的覆盖度(碱基覆盖长度占全基因组碱基总长的比例)
Coverage_at_least_4X::全基因组区域中碱基覆盖深度不低于4X的比例
Coverage_at_least_10X:全基因组区域中碱基覆盖深度不低于10X的比例
Coverage_at_least_20X:全基因组区域中碱基覆盖深度不低于20X的比例
科研与临床分析比对
http://www.biotrainee.com:8080/thread-707-1-1.html