基本概念
基因表达数据反映的是直接或间接测量获得的基因转录产物 mRNA在细胞中的丰度,这些数据能够用于分析哪些基因的表达发生了改变,基因之间有何相关性,在不一样条件下基因的活动是如何受影响的。它们在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面有重要的应用。
目前,高通量检测基因组 mRNA 丰度的方法主要是 cDNA 微阵列、寡核苷酸芯片,随着 cDNA 微阵列和寡核苷酸芯片等高通量检测技术的发展,咱们能够从全基因组水平定量或定性检测基因转录产物 mRNA。因为生物体中的细胞种类繁多,同时基因表达具备时空特异性,所以,基因表达数据与基因组数据相比,要更为复杂,数据量更大,数据的增加速度更快。
基因表达数据中蕴含着基因活动的信息,能够反映细胞当前的生理状态,例如细胞是处于正常仍是恶化状态、药物对肿瘤细胞是否有效等。对基因表达数据的分析能够获取基因功能和基因表达调控信息,这是生物信息学的重大挑战之一,也是 DNA 微阵列可以在生物医学领域中普遍应用的关键缘由之一。
特色
基因表达数据分析的对象是在不一样条件下,所有或部分基因的表达数据所构成的数据矩阵。经过对该数据矩阵的分析,能够回答一些生物学问题。对这些问题的回答,结合其它生物学知识和数据有助于阐明基因的表达调控路径和调控网络。揭示基因调控路径和网络是生物学和生物信息学共同关注的目标,是系统生物学研究的核心内容。
研究方向
一、分析单个基因的表达水平
根据在不一样实验条件下,基因表达水平的变化,来判断它的功能,例如,能够根据表达差别的显著性来肯定与肿瘤分型相关的特异基因。采用的分析方法有统计学中的假设检验等。
二、考虑基因组合
将基因分组,研究基因的共同功能、相互做用以及协同调控等。多采用聚类分析等方法。
三、尝试推断潜在的基因调控网络
从机理上解释观察到的基因表达数据。多采用反向工程的方法。
基因表达数据一般利用矩阵形式表示,称为基因表达矩阵。
基因表达矩阵的行表明一个基因在不一样环境条件下或不一样时间点的表达,列表明不一样条件或样本下(如组织、实验条件、处理因素等)全部基因的表达状况,每一个格子的数据表示特定的基因在特定的样本中的表达水平。
大量基于 DNA 微阵列实验的基因表达数据是公开发布在 Internet 网上的,尤为是学术机构在发表论文时所用的实验数据均可以避免费提供给全世界的研究人员下载使用。做为学术论文的补充资料在网上发布的数据主要是文本文件或 Excel 格式的文件,这些数据每每都是通过归一化处理后的 Ratio 值或 log 2 (Ratio) ,对于寡核苷酸芯片数据有的是 P/A/M 表示,有的是荧光强度值。由于这些数据文件没有包含原始的实验方案、实验材料、原始扫描图像、图像处理方法和数据归一化方法等信息,对于要比较或整合分析来自不一样研究小组的基因表达数据是很是困难的。主要缘由是 DNA 微阵列并非在任何客观的个体上测量基因表达水平,大多数测量值仅仅是基因表达的相对变化,并且使用的并非一个标准化的对照样本。同时,基因表达数据比基因组序列数据要复杂的多,这些数据仅仅在有具体的关于实验条件的描述时才是有意义的,对于不一样的细胞类型,在不一样的条件下都有一套转录本。所以,基于 DNA 微阵列的基因表达数据存储量是很是大的,对于具备 20000 个探针的微阵列实验,以 10um 的分辨率扫描,产生 3 千万个离散的数据点,若是以 tiff 文件贮存,将占用约 60Mb 的硬盘空间。
一方面因为基因表达数据量很是庞大,并且数据中蕴含着丰富的生物学知识,另外一方面因为这些数据没有注释,迫切须要一种标准来描述和存贮 DNA 微阵列基因表达数据,同时创建公共的 DNA 微阵列数据仓库。目前,收集、存贮微阵列基因表达数据的最有影响的数据库和网站是 GEO 、 ArrayExpress 和 SMD 。