RNA测序研究现状与发展

RNA测序研究现状与发展

  • A+
所属分类: Transcriptomics
 

RNA测序

一般来讲,某一个物种体内全部细胞里含有的DNA都应该是如出一辙的,只是由于每一种细胞里所表达的RNA之间存在差别,才使这些细胞有所区别。诸如“为何肿瘤细胞与正常细胞会不同?”这样的重要问题均可以经过对这些不一样细胞里的RNA进行研究来解决,好比转录组学(transcriptome)研究就是一个很好的方法,而这就须要用到RNA测序技术。本期的《天然 方法》(Nature Methods)杂志隆重推出了国际RNA测序基因组注释评价项目协会(RNA-seq Genome Annotation Assessment Project, RGASP)发表的两篇文章,这两篇文章向咱们介绍了RNA测序领域的现状。RNA测序(RNA-seq)是最近兴起的一种基因表达研究技术,不只能够对基因表达的状况进行整理、归类(cataloging),也能够对基因表达状况进行比较。国际RNA测序基因组注释评价项目协会(international RGASP consortium)最近发表的两篇论文报道了一场竞争程度至关激烈的、大规模的RNA测序热潮,各国的科学家们都在寻求最佳的RNA测序分析算法,并且结果也是出人意料的丰富多样。html

咱们每每喜欢将某一个物种的基因组比喻成该物种的“生命秘籍(book of life)”。linux

可为了解决基因表达问题,咱们还须要另一本秘籍。ios

那就是转录组,咱们不妨将之比做“生命杂志(newsstand of life)”,以下图所示。算法

2

转录组重建工做,就好像是把被碎纸机粉碎的杂志又一本本地从新拼接起来。ide

有不少杂志(即RNA)每一期都“印刷”了不少本,其中有一些可能还有存货,还有一些留在报刊亭里,但是有一些却早就被“卖光”了。在过去,经销商们只会关注销量最好的杂志,而这种杂志每一本都很是贵,因此你可能也就买得起几本而已(喻指RNA研究技术和相关产品很是少,并且价格昂贵,科研人员只能对比较重要、热门的几种RNA进行研究)。但是如今,因为测序技术,以及相关技术的飞速发展,你能够把报刊亭里的全部杂志全都买回去,并且价格还不贵。惟一的区别就是经销商卖给你的并非一本本的杂志,而是先把全部的杂志全都放进碎纸机里,而后把一大堆碎纸条卖给你。幸运的是,在这个虚拟的世界里,还有那么一大帮热心的社会改良家来帮忙整理碎纸条(tape-wielding dogooders,这帮人就是咱们现实生活中的计算机程序开发人员),帮助咱们将碎纸条还原成一本本的杂志。还有一群像RGASP这样的统计狂热分子也跑来凑热闹,他们组织了一场比赛,看看哪些人整理碎纸条的效率最高,准确率最高,可以又快又好地还原出杂志的原本面目。这个整理、拼接碎纸条的工做就是“转录子重建(transcript reconstruction)”工做,这也是Steijger等人的文章里最关注的工做。而转录子重建工做的重点内容之一就是将RNA测序获得的片断信息与该RNA来源细胞的基因组对应起来,这就是Engström等人的文章里最关注的工做。post

老实说,这场比试的结果有点让人失望。尽管从事这项工做的工做人员数量不少,重建工做的准确率(经过好几种方法和多种测序指标评价)却远远不及100%。以咱们人类基因组为例,目前尚未一种转录子重建方法的准确率(以平均敏感度和准确性评价)可以达到60%。在线虫和果蝇重建工做中的准确率会稍高一些,可是这两种生物的基因组要比咱们人类的基因组小得多,也要简单得多。并且这3个物种都是迄今为止被研究得最充分、最深刻的3个物种。有不少物种只是最近才完成基因组测序工做,并无太多时间完善这些物种的基因组序列,所以,对这些物种而言,它们的转录子重建工做会更加困难,准确性会更低。ui

从理论上来讲,RNA测序实际上是一个很是简单的过程,只须要分离、获得RNA样本,而后用高通量测序仪对这些RNA样本进行测序,最后拼接出RNA序列就好了。那么问题究竟出在哪里呢?主要存在如下几个方面的问题:spa

1. 咱们得到的RNA样本与咱们拿来最比较的基因组可能不是同一个来源的。这一点在人类基因组研究工做中尤其突出,由于人类参照基因组就是来自好几我的的基因组序列;htm

2. RNA样本的制备过程可能有问题,其中包含了未经充分处理的RNA,或者其它转录子的噪音。并且测序的深度越深,这种问题就表现得越明显,这也恰好解释了为何测序深度比较深的时候转录子重建工做的准确率会降低;ip

3. 测序技术自己的问题。绝大部分测序技术都会使用到PCR反应,而咱们都知道,PCR反应对GC含量高的序列比较“排斥”,因此这个测序过程自己就会天然而然地“偏向”GC含量低的序列。

分辨出哪些RNA序列是真正的序列,哪些只是噪音信号是一个技术大难题,这可能也是致使众多算法所得出的结论千差万别的主要缘由。若是在算法中采用了根据以前的数据创建的基因结构模型(model of gene structure),好比Augustus、mGene和Transomics(http://linux5.softberry.com/cgi-bin/berry/programs/Transomics/)等算法的表现要略好于没有使用这些模型的算法,这是由于若是使用了基因结构模型,他们还可以大概知道这些基因是个什么样子。因此要开发出更好的算法,首先就须要创建更好的基因结构模型。不过这须要在技术上有更大的发展。更低的差错率可以提升比对工做的准确性,而得到更长的测序结果,好比使用太平洋生物科技公司推出的测序仪(Pacific Bioscience),则可让转录子重建工做更容易,甚至不须要进行转录子重建。

虽然RNA测序分析工做的难度很是大,可是咱们能够确定,这项工做不管是对于分子生物学,仍是计算机科学都有很是大的促进和推进做用。实际上,本期杂志刊出的这两篇文章都已经有点过期了。基因组学与生物信息学这两大领域都是瞬息万变的新兴科研领域,也许咱们今天刚刚开展的工做,写下或者看过的论文,到了明天就被淘汰了。对于协会等组织开展的涉及大量数据的工做这一点表现得尤其突出。眼光挑剔的读者们看完了整篇文章以后,仍是不知道在他们的实际科研工做中究竟应该使用哪一种算法时可能就会指出,这些研究的意义究竟何在?

不过这类研究工做至少可以起到如下这3点做用:

1. 这些工做提供了一份宝贵的历史材料,让后人能够了解RNA测序等工做始于什么时候;

2. 为目前的工做提供了一个宝贵的参照系,可以对最新的技术和进展进行检验;

3. 促进了某个项目、协会和组织的创建,推进整个研究领域向前发展。

最后这第3点尤其重要。若是你有机会接触、见证,甚至是亲自参加一次像RGASP,或者是Assemblathon(http://assemblathon.org/)这样的工做,你就会被这群科学家们的创造力、诚实和大度所折服。这些项目并无得到太多特定的资助,他们所使用的数据可能也不会与某个特定的科学问题很是匹配,也经常会有“若是咱们有这些数据该多好”之类的感慨,不过他们老是会竭尽所能地作到最好,这不是由于有人要求他们这么作,只是由于他们本身要求本身这么作。最终的结果可能不会让圈内人(甚至是圈外人)满意。Le mieux est l‘ennemi du bien(至真者,真之敌;至善者,善之敌;至美者,美之敌)这句老话一样适用于基因组学研究工做。

参考原文:

Ian Korf. Genomics: the state of the art in RNA-seq analysis. Nature Methods, 26 November 2013; doi:10.1038/nmeth.2735

Tamara Steijger, Josep F Abril, Pär G Engström, Felix Kokocinski, Tim J Hubbard, Roderic Guigó, Jennifer Harrow & Paul Bertone. Assessment of transcript reconstruction methods for RNA-seq. Nature Methods, 3 November 2013; doi:10.1038/nmeth.2714

原文来自:http://page.renren.com/601484932/channel-noteshow-920050838

相关文章
相关标签/搜索