⼀致性指数:Harrell’concordanceindex:C-index
什么是⼀致性指数?
C-index,英⽂名全称concordance index,中⽂⾥有⼈翻译成⼀致性指数,最早是由范德堡⼤学(Vanderbilt University)⽣物统计教教授Frank E Harrell Jr 1996年提出,主要⽤于计算⽣存分析中的COX模型预测值与真实之间的区分度(discrimination),和⼤家熟悉的AUC其实是差不多的;在评价肿瘤患者预后模型的预测精度中⽤的⽐较多。⼀般评价模型的好坏主要有两个⽅⾯,⼀是模型的拟合优度(Goodness of Fit),常见的评价指标主要有R⽅、-2logL、AIC、BIC等;
另外⼀个是模型的预测精度,顾名思义就是模型的真实值与预测值之间差别⼤⼩,均⽅误差,相对误差等。在临床应⽤上更注重预测精度,建模的主要⽬的是⽤于预测,⽽C-index它就属于模型评价指标中的预测精度。
C-index的计算⽅法是把所研究的资料中的所有研究对象随机地两两组成对⼦,以⽣存分析为例,两个病⼈如果⽣存时间较长的⼀位其预测⽣存时间长于另⼀位,或预测的⽣存概率⾼的⼀位的⽣存时间长于另⼀位,则称之为预测结果与实际结果相符,称之为⼀致。
计算C-index=K/M。
从上述计算⽅法可以看出C-index在0.5-1之间(任意配对随机情况下⼀致与不⼀致刚好是0.5的概率)。0.5为完全不⼀致,说明该模型没有预测作⽤,1为完全⼀致,说明该模型预测结果与实际完全⼀致。⼀般情况下C-index在0.50-0.70为准确度较低:在0.71-0.90之间为准确度中等;⽽⾼于0.90则为⾼准确度,跟相关系数有点类似。
光从C-index⼀个数字上还是很难以衡量到底是准确度⾼还是低,所以⼈们就想着⽤⼀个统计学检验来说服证明这个⾼低,正如筛选基因差异是光看差异倍数来判断表达差异还过于武断,此时引⼊重抽样技术(Bootstrap)来检验预测模型的准确度。Bootstrap是⾮参数统计中⼀种重要的估计统计量⽅差进⽽进⾏区间估计的统计⽅法。
Bootstrap⽅法核⼼思想和基本步骤如下:
(1)采⽤重抽样技术从原始样本中抽取⼀定数量的样本,此过程允许重复抽样。
(2)根据抽出的样本计算给定的统计量T。
bootstrap检验方法(3)重复上述N次(⼀般⼤于1000),得到N个统计量T。
(4)计算上述N个统计量T的样⽊⽅差,得到统计量的⽅差。
另如果数据集很⼤的话可以按照不同的⽐例将数据集拆分,⼀部分⽤于建模⼀部分⽤于验证。关于交叉验证(Cross-validation),如5-fold、10-fold等。
虽然看起来很复杂,但是事实上已经有⼈做了这些事情,在R中有包可以直接计算⼀致性指数:Hmisc 、compareC,两个包都可以计算c-index。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。