生存分析指的是一系列用来探究所感兴趣的事件的发生的时间的统计方法。dom
生存分析被用于各类领域,例如:函数
癌症研究为患者生存时间分析,spa
“事件历史分析”的社会学code
在工程的“故障时间分析”。对象
在癌症研究中,典型的研究问题以下:blog
某些临床特征对患者的生存有何影响?事件
我的三年存活的几率是多少?rem
各组患者的生存率有差别吗?get
=数据分析
在这里,咱们从定义生存分析的基本术语开始,包括:
生存时间和事件
生存函数和风险函数
癌症研究中的生存时间和事件类型
有不一样类型的事件,包括:
复发
死亡
观察开始到观察终止的\_时间\_一般称为\_生存时间\_(或事件发生的时间)。
癌症研究中两个最重要的评价方法包括:i)死亡时间;和ii)无\_复发存活时间\_,其对应于治疗反应与疾病复发之间的时间。它也被称为无\_病生存时间\_和无\_事件生存时间\_。
如上所述,生存分析侧重于直到发生感兴趣事件(复发或死亡)的指望持续时间。
Kaplan-Meier(KM)方法是一种非参数方法,用于估计观察到的生存时间的生存几率(Kaplan和Meier,1958)。
生存曲线是管理生存几率与时间的关系曲线,它提供了一个有用的数据总结,能够用来估计诸如中位生存时间之类的衡量指标。
生存分析总结和可视化生存分析结果
咱们将使用生存包中提供的肺癌数据。
head(lung) inst time status age sex ph.ecog ph.karno pat.karno meal.cal wt.loss 1 3 306 2 74 1 1 90 100 1175 NA 2 3 455 2 68 1 0 90 90 1225 15 3 3 1010 1 56 1 0 90 90 NA 15 4 5 210 2 57 1 1 90 60 1150 11 5 1 883 2 60 1 0 100 90 NA 0 6 12 1022 1 74 1 1 50 80 513 0
inst:机构代码
时间:以天为单位的生存时间
状态:状态1 =审查,2 =死亡
年龄:年龄
性别:男= 1女= 2
ph.ecog:ECOG表现评分(0 =正常 5 =死亡)
ph.karno:Karnofsky表现评分(差 = 0 正常= 100)由医师评定
pat.karno:Karnofsky表现评分由患者评估
膳食:餐时消耗的卡路里
wt.loss:过去六个月的体重降低
计算生存曲线:survfit()
咱们要按性别来计算生存几率。
函数\_survfit\_()能够被用来计算Kaplan-Meier生存估计。
要计算生存曲线,请输入如下内容:
print(fit) n events median 0.95LCL 0.95UCL sex=1 138 112 270 212 310 sex=2 90 53 426 348 550
默认状况下,函数print()显示生存曲线的摘要。它显示观察数,事件数量,中位数生存和中位数的置信区间。
若是要显示生存曲线的更完整摘要,请输入如下内容:
# 生存曲线摘要 summary(fit)# summary(fit)$table
咱们 生成两组受试者的生存曲线。
ggplot(fit, pval = TRUE, conf.int = TRUE, risk.table = TRUE, # 添加风险表 risk.table.col = "strata", # 按组更改风险表颜色
\_legend.labs\_更改图例标签。
ggplot( fit, # 具备计算统计信息的survfit对象。 pval = TRUE, # 显示对数秩检验的p值。 conf.int = TRUE, # 显示生存曲线点估计的置信区间。 conf.int.style = "step", # 自定义置信区间样式 xlab = "Time in days", # 自定义X轴标签。 break.time.by = 200, # 以200的时间间隔打断X轴。 ggtheme = theme_light(), # 使用主题自定义绘图和风险表。 risk.table = "abs_pct", # 绝对数值
每组的中位生存时间表示生存几率S(t)为0.5的时间。
使用参数\_xlim\_能够缩短生存曲线范围,以下所示:
请注意,可使用参数\_fun\_指定三个常常使用的转换:
累积风险是经常使用来估计风险几率。
、
Kaplan-Meier生命表:生存曲线的总结
如上所述,您可使用函数\_summary\_()来得到生存曲线的完整摘要:
summary(fit)
对\_数秩检验\_是比较两条或更多条生存曲线的最普遍使用的方法。零假设是两组在生存期间没有差别。
可使用survdiff()以下:
surv_diff N Observed Expected (O-E)^2/E (O-E)^2/V sex=1 138 112 91.6 4.55 10.3 sex=2 90 53 73.4 5.68 10.3 Chisq= 10.3 on 1 degrees of freedom, p= 0.00131
存活率差别的对数秩检验给出p = 0.0013的p值,代表性别组在存活方面差别显着。
在本节中,咱们将使用多个因素的组合计算生存曲线。接下来,咱们将使用ggsurvplot()输出结果
ggplot(fit, conf.int = TRUE, risk.table.col = "strata", # 按组更改风险表颜色 ggtheme = theme_bw(), # 更改ggplot2主题
可视化输出。下面的图显示了性别变量根据rx&adhere的值的生存曲线。
生存分析是一组数据分析的统计方法,其中感兴趣的结果变量是事件发生以前的时间。
在这篇文章中,咱们演示了如何使用两个R软件包来执行和可视化生存分析)。
最受欢迎的看法
3.R语言如何在生存分析与Cox回归中计算IDI,NRI指标