http://software.broadinstitute.org/gsea/index.jspjsp
GSEA(Gene Set Enrichment Analysis)是一种生物信息学的计算方法,用于肯定是否存在这样一个基因集,能在两个生物学状态中显示出显著的一致性的差别。表达谱数据里的基因数目众多,咱们须要对基因进行功能注释,看哪些基因属于同一通路,以及该通路上的上调、下调状况,这就是富集分析了。3d
例如2019年4月在Cancer cell(PMID 30991027)上发表的一篇文章中有一张主图,就是经过GSEA分析对RNA-seq的数据进行解读,以下blog
在上图中,图A是经典的GSEA富集图,图B为GSEA获得的通路上调或下调的韦恩图,图C和图D是GSEA分析的NES值,图E是GSEA通路基因表达值。it
也就是说,只须要2(实验条件) X 3(生物学重复)个RNA-seq的样本,咱们就能够作出上图。软件
作转录组分析时,你们一般会先筛选差别表达基因,而后再对这些差别表达基因进行功能富集分析。可能很多小伙伴会发现这种状况,就是由于差别基因过少而富集目标/相关的功能/通路,或者差别表达基因虽然不少,可是没有命中到感兴趣的通路或者GO功能。这种先作差别基因筛选的方式,可能因为筛选参数的设置不一样,致使一些关键信息的“漏网”。下载
这种状况下,就能够试试GSEA分析。GSEA无需先作差别分析,会保留更多更多更全面的关键信息。能够帮助咱们找到那些差别不是很明显但基因差别趋势很一致的功能基因集。gc
固然这两种思路没有说哪一个更好,实际应用中能解决问题便可。方法
1. GSEA软件的下载im
直接经过GSEA官网进行下载d3
http://software.broadinstitute.org/gsea/index.jsp
2. 准备GSEA的输入文件
GSEA的输入文件有两个,分别是gct文件和cls文件。
表达谱数据文件格式以下
数据共7列,第一列为基因名,第二至七列为样本表达,分别是三个Case和三个Control
gct文件中包含表达谱数据
cls文件中包含数据比对条件
3. 运行GSEA
最终生成的结果,就是咱们Case和Control两组样本相比,差别通路的结果,好比全部通路上调或者下调的状况。
或者单独通路的经典GSEA富集图