流行病学研究常见的分析就是相关性分析了。git
相关性分析某种程度上能够为咱们提供一些研究思路,好比缺少元素A与某种癌症相关,那么咱们能够经过补充元素A来减小患癌率。这个结论的大前提是缺少元素A会致使这种癌症,也就是说元素A和癌症有因果关系。github
但实际上,元素A和癌症有相关性,不表明他们之间就有因果关系。也有多是患癌症的人同时有其余的并发症,这种并发症会致使元素A缺少。微信
再好比,研究代表,大胸女生与不爱运动相关。那么,究竟是由于胸大的女性不爱运动,仍是由于不爱运动致使胸大(肥胖)。并发
若是不作其余分析,光看这个相关性,咱们是没法得知这两个表征之间是否有真实的因果关系。3d
为了阐明这些表征是否有因果关系,咱们通常在研究中考虑加入孟德尔随机化分析。rest
仍是前面的例子,假定咱们认为大胸的人(因)不肯意运动(果)。code
那咱们的研究思路就是找到与大胸有关的显著遗传位点,再分析这些遗传位点是否也与不爱运动相关。blog
若是与大胸相关的遗传位点同时也与不爱运动相关,那么咱们就会认为大胸的人就是不爱运动。ci
反过来,若是与大胸相关的遗传位点与不爱运动没有关系,那么咱们认为大胸跟不爱运动是没有因果关系的,他们之间存在相关性多是由其余的因素致使的。get
缘由很简单,遗传位点是咱们出生就决定了的,后期不会随文化、经济等因素改变。
若是咱们发现位点A与大胸有相关性,那么毫无疑问,是位点A影响了胸部大小。
反过来讲就不成立了,由于胸大,因此遗传位点会变为A,这样的结论听起来就很怪异。
这个目前最流行的方法就是全基因组关联分析了。
经过获取不一样个体的罩杯大小(表型)和他们的遗传位点(基因型),作全基因组关联分析。
咱们对显著信号位点的定义是P值<5*10-8
一样能够用全基因组关联分析的方法。
随后得到大胸显著信号位点与不爱运动的效应值(BETA)或者风险值(OR)
下面举一个简单的小例子。
install.packages("devtools")
library(devtools)
install_github("MRCIEU/TwoSampleMR")
library(TwoSampleMR)
bmi_file <- system.file("data/bmi.txt", package="TwoSampleMR")
exposure_dat <- read_exposure_data(bmi_file)
大胸显著信号位点数据格式以下:
outcome_dat <- read_outcome_data(snps = exposure_dat$SNP,filename = "F:/download/test.csv", sep = ",",snp_col = "SNP",beta_col = "beta",se_col = "se",effect_allele_col = "effect_allele",other_allele_col = "other_allele",eaf_col = "eaf",samplesize_col = "samplesize")
不爱运动信号位点数据格式test.csv以下:
导入显著信号位点与不爱运动的相关性数据outcome_dat以下:
dat <- harmonise_data(exposure_dat, outcome_dat)
res <- mr(dat)
结果不显著,说明二者有相关性,可是没有因果关系。
p1 <- mr_scatter_plot(res, dat)
p1[[1]]
mr_heterogeneity(dat)
mr_pleiotropy_test(dat)
res_single <- mr_singlesnp(dat)
res_loo <- mr_leaveoneout(dat)
res_single <- mr_singlesnp(dat)
p2 <- mr_forest_plot(res_single)
p2[[1]]
res_loo <- mr_leaveoneout(dat)
p3 <- mr_leaveoneout_plot(res_loo)
p3[[1]]
res_single <- mr_singlesnp(dat)
p4 <- mr_funnel_plot(res_single)
p4[[1]]
关于孟德尔随机化的研究就讲到这,更多详情内容请看:https://mrcieu.github.io/TwoSampleMR/。 另外,本文提到的大胸与运动的关系,不是我瞎想出来的,真有人作过研究,对这篇文章感兴趣的,请到微信公众号“bio生物信息”后台回复“大胸” :D