bootstrap检验方法•
141 •
中国循证心血管医学杂志2019年2月第11卷第2期 Chin J Evid Based Cardiovasc Med,February,2019,Vol.11,No.2•
循证研究与临床转化·方法学 •
临床预测模型:模型的验证
王俊峰1,章仲恒2,周支瑞3,谷鸿秋4
基金项目:首都医科大学附属北京天坛医院青年基金(2016-YQN-07)
作者单位:1 2333ZC 莱顿,莱顿大学医学中心生物医学数据科学系;2 310016 杭州,浙江大学医学院附属邵逸夫医院急诊科;3 200032 上海,复旦大学附属肿瘤医院放射科;4 100050 北京,国家神经系统疾病临床医学研究中心,首都医科大学附属北京天坛医院;
通讯作者:谷鸿秋,E-mail:guhongqiu@yeah doi:10.3969/j.issn.1674-4055.2019.02.04
【摘要】模型的验证是指对模型的性能指标(区分度、校准度)进行考察的过程。根据考察过程中是否使用预测模型的开发队列数据,模型验证可分为内部验证和外部验证。内部验证是检验模型开发过程的可重复性,常见形式包括随机拆分验证、交叉验证、Bootstrap重抽样以及“内部-外部”交叉验证。外部验证考察的是模型的可移植性和可泛化性,常见形式包括时段验证、空间验证以及领域验证。
【关键词】区分度;校准度;内部验证;外部验证;Bootstrap方法【中图分类号】R4
【文献标志码】A 开放科学(源服务)标识码(OSID)
Clinical Prediction Models: Model Validation Wang Junfeng *, Zhang Zhongheng, Zhou Zhirui, Gu Hongqiu.
*
Leiden University Medical Center,Leiden,2333ZC,the Netherlands.
Corresponding author: Gu Hongqiu, E-mail: guhongqiu@yeah
[Abstract ] Model validation is to assess the performance (discrimination, calibration) of a clinical prediction
model. Depending on whether model derivation cohort is used, model validation can be classified as internal and external validation. Internal validation is focused on the reproducibility of the model development procedure, with the methods including random split, cross-validation, bootstrap validation and internal-external validation. External validation pays more attention to transportability and generalizability, and it includes temporal validation, geographical validation and domain validation.
[Key words ] Discrimination;Calibration;Internal validation;External validation;Bootstrap
模型验证是临床预测模型开发过程中不可或缺的步骤。良好的临床预测模型,必定是经过了严格的内部验证及外部验证流程。正因如此,《个体预后与诊断的多变量预测模型透明报告》TRIPOD中,也将模型验证作为单独的研究类别,并为模型验证专门设置相应的报告条目[1,2],足见模型验证对临床预测模型研究的重要性。相比于模型开发的蓬勃发展,模型验证却存在一定程度的滞后。Siontis等考察了127个新开发的预测模型,发现只有32个模型(25%)经过了外部验证[3]。很多临床预测模型研究者,只重视模型的开发,却忽略了模型验证,造成同一疾病或终点事件的新预测模型不断涌现,但却未被有效验证,导致最终仅少数模型可应用于临床实践[4]。鉴于此,本文将对临床预测模型中模型验证的评价指标、流程、方法等内容做一系统介绍。1 评价模型表现的指标
评价临床预测模型的指标主要包括模型区分度和模型校准度[5]。此外,综合区分改善度、净重分
类改善度等指标,主要用于模型的比较或评价单个预测因子的预测效能增加值,本文不做讨论。1.1 模型的区分度 区分度(Discrimination),有时也被称为模型的判别能力或排序能力,指模型区分发生终点事件的个体与未发生终点事件的个体的能力,终点事件可以是发病、复发、死亡,伤残及并发症。一个具有良好区分度的模型,可将发生事件组的风险得分与未发生事件组的风险得分尽可能分散开(图1,模型2),而区分度低的模型,则不具备这样的能力(图1,模型1)。最常用的衡量区分度的指标是一致性统计量(Concordance statistics)也被称为C统计量,可以解释为随机抽取一个发生事件的个体和一个未发生事件的个体,前者模型得分高于后者模型得分的概率。C统计量的取值范围为0~1,C统计量越接近1表示模型区分度越好,C统计量等于0.5时表示模型没有预测能力,C统计量小于0.5表示模型预测与实际结果相反。若终点事件是二分类变量,C统计量与ROC曲线下面积(AUC)相同;若终点事件是事件-时间变量,最常用的是Harrell提出的Harrell’s C统计量[6]。但在删失较多的情况下,Harrell’s C统计量会高估模型表现[7],Uno等提出了一种新的C统计量计算方法,即Uno’s C统计量,可在删失数据较多的情况下得到可靠的估计[8]。除了这两种全局C统计量,对于生存数据,许多研究者还提出了基于不同删失数据处理方法的时间依赖C统计量,用于评价特定时间点的模
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论