作了很久的RNA-seq分析,基因表达也在口头溜了几年了,但彷佛总是浮在表面。express
对一件事的了解程度决定了你的思惟深度,只想作技工就不用想太多,想作大师就必定要刨根问底。微信
总是说基因表达,那么什么是基因表达?咱们测序获得的基因表达其实只是一种表型,是样本的一个快照,和普通的身高体重之类的连续型表型相似。网络
常规的转录组分析本质上都是表型分析,clustering、pseudotime、DEG、marker,在这些分析中,每一个基因都是独立的维度,属于静态的分析,此时咱们关注的是某个基因的功能分析,好比RET,功能已经明确,那就能够用基因表达这个表型来解释另外一个表型。ide
高通量测序还会有后续的分析,几万个基因不可能一个一个的研究,GO和KEGG分析就来了,基因不是互相独立的,GO term和pathway的概念就来了。GO和KEGG的本质是规范了基因之间的关系。GO整合了全部物种,是从生命系统的角度来统一基因的关系,这种关系只是一个集合;KEGG是针对一个物种来界定基因之间的关系,这种关系是有向图结构。必须再深刻了解GO和KEGG的制做原理,暂时不深刻。此时咱们开始区分基因类型,蛋白编码、非编码、转录因子。在这个阶段咱们更关注的是基因之间的调控关系。工具
中心法则揭示了生命系统的层级和管道结构,和计算机的通讯系统很相似,就算上游的基础调控再复杂,下游的蛋白都是决定性因素,因此使人惊叹的是上游调控如此复杂多变,可下游的蛋白确是很是稳定,这说明复杂多变的调控是很是稳定的。编码
基因研究的第一步必然是基因的功能,其次才是基因的调控。spa
那么如何研究一个基因的功能呢?参考:#基因组观#基因功能研究的“七大绝招”与“三板斧” - BioinforCN翻译
简单总结一下这篇文章:orm
1. 天地人和,研究基因表达的时空规律来推测功能,这和侦探调查是同样的,属于间接推理;blog
2. 患得患失,就是直接操做基因,knock out或down或overexpress,来直接探索基因的功能,属于直接观察;
3. 上下求索,由于中心法则是个层级和管道系统,上下游十分明确,从基因的DNA、RNA到蛋白质,一块儿研究;
4. 十面埋伏,立体论证,作生物的很容易观察到假阳性,必须多角度论证;
5. 其余的,misexpression、in vitro/vivo。
不说人类hs了,假设你负责一个全新的物种的基因组和基因功能研究,你如何找到该物种的全部基因呢?
看任何一篇基因组组装文章都能找到解决方案。那咱们就看看严建兵的最新的玉米的NG吧,Genome assembly of a tropical maize inbred line provides insights into structural variation and crop improvement。
微信文章:《Nature Genetics》| 玉米产量相关基因找到了 | 热带玉米基因组及高精度结构变异图谱成功构建,助力玉米遗传改良
首先是基因组DNA的组装,Genome sequencing, assembly and scaffolding,这部分纯技术,之后估计都不要组装了,直接把基因组测出来;
其次就是基因组注释了,Genome annotation,这部分是咱们如今最感兴趣的部分,如何找到一个新物种内的全部基因?
A comprehensive strategy combining de novo gene prediction, protein-based homology searches, RNA sequencing (RNA-Seq) and isoform sequencing (Iso-Seq) of nine tissues (Supplementary Table 6) was used to annotate the genes (Supplementary Fig. 7).
方案来了:
1. 基因是有特殊结构的,因此只要有DNA序列,就能够作denovo预测;
2. 中心法则告诉咱们DNA、RNA和蛋白质是环环相扣的,全部测RNA-seq和iso-seq能够间接推出基因;
3. 蛋白测序尚未普及,因此目前都用的同源蛋白序列来反推;
这样注释出来的只是很general的基因注释,能cover绝大多数基因,但某些特殊结构的确定没法注释出来。
有了草图,后面再作实验的功能研究就会方便不少。
基于高通量测序的前两步只能告诉你基因组的这个地方是个基因,可是不可能告诉你它的功能;第三步就是基于已有的知识了,作同源推理。因此目前来看全部的生物知识都是来源于实验的,测序只是一个加速的辅助手段而已。
能够没有测序,可是不能没有实验,测序是科研加速的催化剂。
文章结果:
GENE FINDING METHODS - broad institute - 很全面
教科书解释:
目前最火的两个能够用高通量测序研究的调控方法:
参考:
Modes of transcriptional regulation
Transcriptional Regulation and Its Misregulation in Disease
项目问题:
如今in vivo和in vitro模型都已成熟,RNA-seq成本你们均可以接受了,CRISPR技术也成熟了,KO一个基因已经变得很是容易,如今发育生物学、生物医学等都在这么作:KO一个基因,来探索本身感兴趣的生物过程发生了哪些变化。
如今问题来了,KO后表型确定发生了变化,那么如何把这个表型和基因表达和调控联系到一块儿呢?
这是一个general的问题,解答好了能够用于任意一个基因的深刻研究。
大致解决方案:
假设检验是科研获取真知的惟一手段,首先咱们必需要一个合理的假设,而后去寻找各类证据来test这个假设。
没有假设和验证就不是作科研,那就是一个技工得出一份没有意义的结题报告。
问题:
1. RNA-seq的建库方案有哪些?ployA、随机等。只抓有polyA的MRNA会有哪些优点和缺点?ployA只有mRNA有,因此polyA建库只能抓到蛋白编码基因,不多部分地ncRNA。参见连接
2. 细胞核和所有测序的区别?
3. 基因的长度差异到底有多大?
4. 可变剪切和isoform是如何影响蛋白的?
5. KEGG里面已经有基因的关系了,为何咱们还要研究基因调控?
6. 蛋白互做网络的用途和局限性是什么?
7. 蛋白是惟一的决定性因素吗?是的,绝大多数DNA和RNA层面的变化都会最终改变蛋白的功能。好比HSCR的没法造成ENS就是一个复杂的表型,能够确定的是某些蛋白的功能执行紊乱了。
8. 基因表达的高低重要,仍是基因表达的on/off重要?
9. 基因是如何找到和定位的?基因的编码的蛋白是如何肯定的?
10. 如何理解基因之间的关系,是什么性质的关系?
11. 如何当即基因的拷贝数对基因表达的影响?
12. transposable-element对基因表达的影响?
13. 基因的经典结构是什么样的?什么是CDS和UTR?能够结合目前主流的基因预测工具来看。
14. 转录调控和蛋白互做有什么联系和区别?
Typical structure of a mature eukaryotic mRNA (AUG, UAA/UAG/UGA)
待续~