欢迎关注微信公众号:AIPuFuBio和使用生物信息学平台AIPuFu:www.aipufu.com。算法
基因融合(gene fusion)是指因为某种机制(如基因组变异)使得两个不一样基因的部分序列或所有序列融合到一块儿,造成了一个新的基因。以下图所示:微信
通常来讲,基因融合是指基因组层面的融合。但转录组层面也可能发生融合,主要是因为两个不一样基因转录产生的RNA,因为某种缘由融合在了一块儿,造成新的融合RNA,该RNA可能编码蛋白,也可能为非编码。而基因组层面产生的融合基因,根据融合的状况,可能表达,也可能不表达(如破坏了启动子区域或其余缘由)。工具
基因融合的产生机制主要有如下三种,具体以下图所示:性能
基因融合常见的三种发生机制:大数据
1)Chromosomal Translocation,染色体易位。如上图A中1号和2号染色体上的两片断发生交叉互换,致使1号染色体上的浅绿色基因与2号染色体上的橘黄色基因融合到一块儿;编码
2)Interstitial deletion,中间缺失。如上图中,3号染色体上的橘黄色基因和浅绿色基因之间的区段发生缺失(deletion),最终致使这两个基因融合到了一块儿;spa
3)Chromosomal Inversion,染色体倒位。如4号染色体上的橘黄色基因到墨绿色基因之间的片断发生倒位,最终致使橘黄色基因和浅绿色基因融合到了一块儿。设计
那为何要研究基因融合呢?由于过去的诸多研究不断代表,基因融合与各类疾病,特别是癌症的发生发展紧密相关,甚至是一些癌症的直接诱因,因此基因融合也成为了当前组学大数据分析中的一项重要研究内容。3d
目前,已经报道有不少癌症的发生与基因融合密切相关,具体以下表所示:blog
并且,美国FDA(Food and Drug Administration)已经批准了一些针对特定基因融合的药物,以治疗相应的癌症,具体以下表所示:
所以,基因融合可能与各类癌症的发生发展紧密相关,这些融合基因还多是潜在的药物靶点,很是有必要对它们进行深刻的研究。
基因融合的鉴定,能够基于全基因组测序数据(whole-genome sequencing,WGS),也能够利用转录组测序数据(RNA-seq),或者二种技术结合起来更好。
全基因组测序鉴定出的基因融合,基本能肯定是因为基因组层面发生某种变异而引发的,但若是没有转录组测序数据,就没法准确判断融合后产生的新基因是否可以表达,或表达量的高低。
而转录组测序数据鉴定出的基因融合,能够明确是能表达的基因融合,但却没法彻底肯定是不是由基因组变异产生的,仍是来源于两个不一样基因转录后发生的RNA融合。
所以,若是条件容许,同时结合全基因组测序和转录组测序来鉴定基因融合,可以得到更准确的鉴定结果。
在了解基因融合鉴定的方法或软件前,咱们先了解一下基于测序数据鉴定基因融合时的一些常见术语。具体以下图所示:
这些常见的术语有:
1)Intact exon (IE) type fusion,是指融合后完整的保留了原来的外显子,未影响原来的外显子结构。如上图A中Gene A的Exon2和Gene B的Exon1融合后完整的保留了两个外显子的序列;
2)Broken exon (BE) type fusion,是指融合后没有保留原来完整的外显子序列。如上图A中 Gene A的Exon3的部分序列和Gene B的Exon2融合在一块儿,融合后的新基因中,来自Gene A的Exon3丢失了部分序列;
3)Breakpoint,是指两个融合基因在基因组上发生融合的位置,如上图B中Gene A(蓝色)和Gene B(绿色)融合的位点;
4)Spanning read,是指跨越融合位点分别匹配到两个融合基因的paired-end read,好比上图B中的匹配到Gene A(蓝色)和Gene B(绿色)的一对read;
5)Split read,是指刚好匹配到融合位点上的read,具体如上图B中右侧图所示;
6)Anchor length,是指跨越融合位点的read左端和右端的长度,具体如上图B中右侧图所示;
7)short insert size,通常是指双端测序paired-end sequencing中,两个read中间间隔的较短距离,通常为几百bp;
8)long insert size,通常是指双端测序mate-pair sequencing中,两个read中间间隔的较长距离,通常为几kb甚至更长;
基因融合鉴定软件的开发,通常就是基于上面提到的这些术语,采用相应的算法来设计的。
到目前为止,已经有数十种不一样的基因融合检测软件相继被开发出来,其中一些具备比较好的综合性能。接下来,咱们就进一步比较分析一下一些经常使用的基因融合鉴定软件的性能。
下表列出了15种经常使用的基因融合鉴定软件在3组不一样类型的人工合成数据和3组真实数据集上的性能比较。这些软件分别是:SOAPfuse,FusionCatcher,JAFFA,EricScript,chimerascan,PRADA,deFuse,FusionMap,TopHat-Fusion,MapSplice,BreakFusion,SnowShoes-FTD,FusionQ,FusionHunter,ShortFuse。
值得注意的是,测序read的长度,还有双端测序read的间隔距离insert size等都会影响基因融合的鉴定效果。所以,上面表中使用了不一样类型的测数据来综合检验这15款软件的性能。其中,Type-1A 为使用wgsim软件人工合成 的来自5’ 和 3’ end 的chimerical transcripts 双端测序数据, 其中read长度为100bp,insert size 为500 ± 50 bp; Type-1B数据合成方法和Type-1A相似,只是双端测序数据的insert size较小,为 250 ± 50 bp;Type-3B: read 长度为50 bp 的合成数据; 另外三组真实数据分别来自于Breast cancer,Melanoma和Prostate cancer。
比较结果显示,SOAPfuse,FusionCatcher和JAFFA在3组模拟数据和3组真实数据上的综合性能最好,取得了最高的F-measure分值。
Liu et al. 进一步比较了15种基因融合检测软件在更多真实数据上的性能表现。具体以下图所示:
真实数据上的比较结果也显示,SOAPfuse,FusionCatcher和JAFFA在检测基因融合时具备较高的准确性。
Liu et al. 也比较了15种基因融合检测软件在不一样测序深度的合成数据集和真实数据集上的运行时间比较。具体以下图所示:
运行时间比较结果显示,FusionMap等软件的运行速度最快。但前面的结果显示,FusionMap检测的基因融合准确性较低。
因此,没有哪个方法在各方面的性能比较上面都具备最明显的优点。总体来看,SOAPfuse综合比较最好,接着是FusionCatcher和JAFFA。 并且,由于不一样软件具备的优缺点不同,若是联合多个不一样软件一块儿鉴定基因融合,或可取得更准确的结果。
更多精彩,可见大型免费综合生物信息学资源和工具平台AIPuFu:www.aipufu.com,关注微信公众号:AIPuFuBio。
但愿今天的内容对你们有用,欢迎留言~~!