生物信息学-基因表达分析算法
为了丰富中心法则,研究人员使用不断更新的技术研究lncRNA的方方面面,其中技术主要是生物学上的微阵列芯片技术和表达数据分析方法,方方面面是指lncRNA的位置特征。
数据库
Background:根据中心法则,发现DNA与RNA与protein之间的关系,此时认为找到的RNA所有用于编码protein,可是实验结果中:非编码RNA含量高,而coding区只占不多的一部分。研究非编码RNA,发现noncoding与protein expression有关,因此总思路变成了研究noncoding区从而丰富中心法则,而研究noncoding区的前提是转录组分析。express
转录组研究dom
1.依据实际研究的问题,能够有不一样的思路函数
时间(生长发育不一样阶段)特异性工具
空间(身体不一样区域)特异性测试
Normal 与否编码
SAGE:将RNA反转录获得的cDNA打碎,利用sanger测序法获得最后的序列spa
DNA微阵列: 将RNA打碎,用基于reference的探针(特指基因芯片)测得序列,此方法灵敏性高3d
RNA-seq:将RNA打碎,再将片断RNA反转录cDNA,利用二代测序(short reads)assembly而成。
Long noncoding RNA
定义:
1.由于200bp,因此long;
2.由于No protein produce但同时有与coding gene具备类似结构(都有intro和exon),因此lncRNA长期被认为是假基因,直到发现其和转录调控有关系,才开始被重视。
起源:
分类:基于与protein的位置
lncRNA发现历史:
在大规模测序出现以前,只能利用sanger发现单个lncRNA。在完成human genome 以后,基于该数据库,获得的芯片,大大加速了lncRNA的发现。随着二代测序的大规模使用,大量发现结构,所以诞生了基于不一样算法的assembly&annotation软件(eg,scripture、tophat、cufflinks)。因此,现在的思路是利用不一样工具处理相同数据,将获得的不一样结果集成为更准确的genome,从而获得比较可靠的reference。(review:Rinn and Chang,2012)可是2015用更多的原始数据用一样方法重作,发现其中有79%以前没有的,这是由于原始数据采集更在时间和空间上更为细致了。现在,获得了NONCODE (数量最多dataset)、MITranscript (最新)等各有侧重的数据库。
Assembly比对方式:
1.交叉--保留
2,存在不交叉的,利用其它参数信息(eg,位置信息)筛选
Gene expression 分析:
原则:重复&随机&间隔
Replication:biology(eg,同一个gene测100次获得100个sequence信息) &technical(对于100个sequence信息,能够随机抽取其中的任意N个,这种抽取作M次),这都是为了数据能更好的反应客观事实。
Randomization:不管是抽选或是物理设备参数设定,都要保证随机性。
Blocking:生物学实验的连贯性(物理条件一致,eg,一天一个完整实验,而不是一天全部完整实验中的一个步骤)
以微阵列方法为例的流程:
在仪器上获得荧光信号,将这些应该信号按照光的亮度赋值,由图转变为表,该表就是表达谱。根据荧光信号的特色,好比中间较强周围较弱就比较好,进行质量控制,也就是筛选质量较好的sample。此时,全部gene的表达量都在一个表格里面,其中使用三张芯片就被叫作生物学重复,以此创造:
|
芯片1 |
芯片2 |
芯片3 |
Gene1 |
2 |
4 |
4 |
Gene2 |
5 |
4 |
14 |
Gene3 |
4 |
6 |
8 |
可知芯片1比芯片3的光照程度总体广泛弱,这多是因为物理因素形成的。为了进行比较,要将其数值进行归一化(normalization),依据比价对象的不一样,可将方法分为两种:
其中,qualitile归一化 的过程是:
|
芯片1 |
芯片2 |
芯片3 |
Gene1 |
2 |
4 |
4 |
Gene2 |
5 |
4 |
14 |
Gene3 |
4 |
6 |
8 |
不看属于哪一个gene,在芯片内部进行排序:
|
芯片1 |
芯片2 |
芯片3 |
Mean=10/3 |
2(Gene1) |
4(Gene1) |
4(Gene1) |
Mean=16/3 |
4(Gene3) |
4(Gene2) |
8(Gene3) |
Mean=25/3 |
5(Gene2) |
6(Gene3) |
14(Gene2) |
求均值并写回去,这样作是为了不物理错误,物理错误会致使整张芯片的效果都很差。不用考虑排序会由于表达量一致而形成偏差,由于实际上不存在表达量彻底一致的状况:
|
芯片1 |
芯片2 |
芯片3 |
Gene1 |
10/3 |
10/3 |
10/3 |
Gene2 |
25/3 |
16/3 |
25/3 |
Gene3 |
16/3 |
25/3 |
16/3 |
归一化以后,利用假设检验证实实际问题。
当数据服从某种分布(既有参数)时,可就某些参数(eg,mean)进行假设检验
当数据未知分布(即无参数),则采用permutation test:
使用的理论是t检验中的SAM,由于t-test须要有参数,可是如今数据未知参数,因此加入置换测试的方法
Eg,分为测试组(treatment)和对照组(control):下图是它们的数据分布D
Key |
T1 |
T2 |
T3 |
C1 |
C2 |
C3 |
Gene1 |
1 |
2 |
3 |
4 |
5 |
6 |
将其随机打乱成1000个相似于下方表格的sample:
好比其中的2个是:
Key |
T1 |
T2 |
T3 |
C1 |
C2 |
C3 |
Mean of T |
Mean of C |
STDEV of all |
Gene1 |
6 |
1 |
2 |
3 |
4 |
5 |
3 |
4 |
1.870828693 |
Key |
T1 |
T2 |
T3 |
C1 |
C2 |
C3 |
Mean of T |
Mean of C |
STDEV of all |
Gene1 |
5 |
1 |
2 |
3 |
4 |
6 |
2.666666667 |
4.333333333 |
1.870828693 |
其中,S0是给定值,d能够认为是改良版的t值,如此获得1000个t值,这1000个t值可构成正态分布统计图表,最后根据整体分布,找到数据分布D的p值,然后根据该p值判断假设检验的结果。
由此,能够获得全部基因对应的p值,可是由于p值的错误率很高,因此须要采用多重假设检验对p值作检查。
可采用FDR
首先对于每一个基因来讲,都有p值,p值的含义是false positive rate(FPR,假正率):q值是false discovery rate (FDR):
由于未知真实状况,可是从上图可知真实状况和估算状况之间的关系,因此可使用别的方法计算FWER和FDR。
Control of FWER:
The Bonferroni procedure
Tukey's procedure
Holm's step-down procedure
Control of FDR
Benjamini–Hochberg procedure
Benjamini–Hochberg–Yekutieli procedure
例如,BH:
,
,因此q-value的指望便是FDR,因此,求出每一个gene的q-value便可
原先每一个gene都有本身的p值:
可靠gene的p值知足:
可靠gene的q值知足:
其中,k是gene number号,a是本身设定的0.05,m是全部gene个数,在这里是6;
把gene按照p值排序并据公式处理,获得:
若写为函数表达则可获得上图,有四个gene的p值是可靠的。