长非编码RNA,英文名为long noncoding RNAs,缩写为lncRNA,是指长度大于200 核苷酸的非编码RNA。LncRNA因具备很是重要的调控功能,且几乎参与到了各类生物学过程和通路,与各类疾病的发生发展紧密关联,从而成为过去几年和未来的研究热点和重点。对于人类基因组来讲,产生的lncRNA数量比编码RNA的数量要多得多,目前除了少数lncRNA的功能比较明确外,大部分lncRNA的功能都还未知。很是值得去深刻研究。数据库
<更多精彩,可关注微信公众号:AIPuFuBio,和大型免费综合生物信息学资源和工具平台AIPuFu:www.aipufu.com>微信
根据基因组上的位置关系,lncRNA主要能够分为如下三大类(以下图所示):ide
一、Intronic lncRNA,内含子lncRNA:主要产生于编码基因的内含子区域;工具
二、Intergenic lncRNA,基因间区的lncRNA,也称做lincRNA:主要产生于两个编码基因的中间区域;ui
三、Antisense lncRNA,反义lncRNA:主要产生于编码基因的反义链;编码
具体以下图所示:blog
固然lncRNA根据产生的基因组位置还可进一步细分为下面的类型:ip
目前已知的lncRNA功能众多,主要能够分为如下几类(以下图所示):资源
一、转录干扰;get
二、诱导染色质重构和核小体修饰;
三、调控可变剪接模式;
四、产生内源siRNAs;
五、调控蛋白质的活性;
六、结构或组织功能;
七、改变蛋白质的定位;
八、小RNA的前体等。
具体以下图所示:
至今为止,已经发现了不少与发育或疾病特别是癌症发生发展紧密相关的lncRNA。下表给出了一些具体示例:
此外,不少研究还发现lncRNA在各种组织中的表达比编码RNA(mRNA)更具备组织特异性,说明lncRNA与组织的功能特异性密切相关,具体以下图所示:
那么具体如何来鉴定和判断一条RNA是否为lncRNA呢?
目前,鉴定lncRNA的方法主要能够分为如下两大类:
一、基于RNA-seq测序数据的自动注释策略;
又可细分为两种方法:
i)Genome-guided的方法;
主要是先把RNA-seq数据匹配到参考基因组上,而后进行组装获得转录本序列(如Cufflinks、Stringtie等软件),接着再用相应的软件(如CPAT,CPC等)判断转录本的编码性与否。主要适用于有参考基因组的物种。
ii) De novo assembly的方法;
先经过从头组装/拼接的方法得到转录本的序列(如Trinity软件),而后再用相应的软件判(如CPAT,CPC等)断转录本的编码性与否。主要适用于无参考基因组的物种。
二、人工注释;
人工注释涉及到利用各类类型的数据来综合注释鉴定lncRNA,包括用EST、cDNA等数据来肯定转录本的主要结构,并用RNA-seq数据来判断内含子区域,而后用CAGE tags来肯定转录本的5'端,Poly (A)测序来定位转录本的3'端。最后再用一些列的数据和方法来肯定RNA的编码性,如序列进化特征判断的PhyloCSF方法、蛋白质谱数据、Ribosome Profiling等。
具体以下图所示:
如今已经有多个不一样数据注释了众多的lncRNA,但不一样数据库注释的lncRNA完整性和覆盖度不大同样,具体以下表所示:
<更多精彩,可关注微信公众号:AIPuFuBio,和大型免费综合生物信息学资源和工具平台AIPuFu:www.aipufu.com>
参考文献:
一、Rinn et al. Genome Regulation by Long Noncoding RNAs, Annu Rev Biochem, 2013
二、Wilusz et al. Long noncoding RNAs: functional surprises from the RNA world,Genes & Development, 2009
三、Ransohoff et al. The functions and unique features of long intergenic non-coding RNA,NATURE REVIEWS | MOLECULAR CELL BIOLOGY, 2018
四、Uszczynska-Ratajczak et al. Towards a complete map of the human long non-coding RNA transcriptome, Nature Review Genetics, 2018