polygenic risk score:多基因风险评分

欢迎关注”生信修炼手册”!web

针对复杂疾病,经过GWAS研究能够识别到大量的疾病易感位点,然而这些位点绝大多数都属于微效位点,单个或者少数几个位点对疾病的效应较弱,没法准确的预测疾病。为了更好的研究患病风险,咱们须要综合多基因位点的信息。在这个基础上,提出了多基因风险评分的概念。算法

多基因风险评分,对应的英文以下数据库

polygenic risk score浏览器

简称PRS, 计算公式以下微信

其中i表示SNP位点,m表示SNP位点的总数,β表示该SNP位点对于疾病的效应,j表示该SNP位点的基因型,分别用0,1,2表征没有突变,杂合突变和纯合突变,ω表示每种基因型的频率。从公式能够看出,PRS值是全部疾病相关位点效应值的总和。在计算PRS时,有如下两个关键步骤网络

  1. SNP位点的选择,采用GWAS分析的p值做为阈值来筛选SNP位点,一般会有多个阈值app

  2. SNP位点权重的计算,经常使用OR值或者回归分析的beta值做为SNP位点对疾病效应的权重less


PRS结合了全部疾病关联位点的效应值,更加适合预测个体的患病风险,在实际分析中,计算PRS的流程以下编辑器

首先将数据集分为两个部分,base data和target data。其中base data提供了GWAS分析的结果,如p值,beta或者OR值等,用于构建模型;而target data提供了部分样本的基因型和表型数据,用基于base data构建的模型来预测这部分样本的患病风险。

在建模以前,须要对数据进行质控,能够参考GWAS的质控标准。同时还须要注意,两个数据集的样本必须是独立的,不存在重复样本,即一个样本不能同时出如今base data和target data中。接下来计算PRS, 须要考虑连锁不平衡的调整,beta收缩,pvalue阈值选取等因素,而后计算PRS值,并进行PRS和表型之间的关联分析,最后使用两个数据集进行交叉验证。
工具

能够进行PRS分析的软件有不少,PRSice是使用的最为普遍的一款。在后续会详细介绍其用法。

·end·

—若是喜欢,快分享给你的朋友们吧—



往期精彩

  GWAS meta分析



   基因型填充



  CNV分析



  TCGA



  生存分析



  肿瘤数据库



  肿瘤免疫和新抗原



  Hi-C数据分析



  chip_seq数据分析


  motif



  chip_seq数据库


  18年文章目录


扫描下方二维码,关注咱们,解锁更多精彩内容!


生物信息入门

只差这一个

公众号





本文分享自微信公众号 - 生信修炼手册(shengxinxiulian)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。

相关文章
相关标签/搜索