全基因组关联分析除了找到显著的关联位点,咱们还能够作基因优化、geneset富集分析、组织富集分析,下面具体讲一讲怎么利用GWAS的summary数据作这个分析。java
summary数据就是关联分析的结果文件python
怎么肯定系统有没有安装PIP呢,输入命令which pip
,若是没有路径弹出,说明没有PIP,须要安装windows
pip install intervaltree
python2.7
或者测试
conda install -c conda-forge intervaltree
优化
pip install pandas
unix
wget http://www.broadinstitute.org/mpg/depict/depict_download/bundles/DEPICT_v1_rel194.tar.gz
code
tar -zxvf DEPICT_v1_rel194.tar.gz
blog
cd DEPICT
ip
./src/python/depict.py ./example/ldl_teslovich_nature2010.cfg
若是这一步没有报错,说明环境配置没有问题,能够开始分析本身的数据啦
拷贝yourtrait.cfg文件
cp ldl_teslovich_nature2010.cfg yourtrait.cfg
编辑yourtrait.cfg文件
vi yourtrait.cfg
vi进去后,yourtrait.cfg文件有几处须要修改
gwas_summary_statistics_file: /your/path/to/summary/file/yourtrait.glm.linear
label_for_output_files: yourtrait
pvalue_col_name: P
chr_col_name: Chr
pos_col_name: Pos
plink_executable: /your/path/to/plink/plink
genotype_data_plink_prefix: /your/path/to/genotype/yourtrait_genotype
修改好以上数据后,保存退出文件:wq
./src/python/depict.py yourtrait.cfg
生成的文件分别为loci.txt,geneprioritization.txt, genesetenrichment.txt , tissueenrichment.txt,其中,geneprioritization.txt, genesetenrichment.txt , tissueenrichment.txt即为咱们感兴趣的基因优化,geneset富集分析,组织富集分析
Rscript ./DEPICT/src/python/tissue_plot.R ./DEPICT/example/ldl_teslovich_nature2010_tissueenrichment.txt ldl_teslovich