第13卷㊀第3期Vol.13No.3㊀
㊀
智㊀能㊀计㊀算㊀机㊀与㊀应㊀用
IntelligentComputerandApplications
㊀
㊀2023年3月㊀
Mar.2023
㊀㊀㊀㊀㊀㊀
文章编号:2095-2163(2023)03-0231-05
中图分类号:TP181
文献标志码:A
基于机器学习的SAE患者30天死亡风险预测模型
刘㊀彬1,肖晓霞1,2,龚后武3,周㊀展1,郑立瑞1,谭建聪1
(1湖南中医药大学信息科学与工程学院,长沙410208;2湖南中医药大学中医学国内一流建设学科,长沙410208;
正则化是结构风险最小化策略的实现3东华医为科技有限公司,北京100089)
摘㊀要:脓毒症相关性脑病(SAE)是指在患脓毒症过程中发生的脑功能障碍,其与脓毒症患者短期死亡率的上升有关㊂本文从MIMIC数据库中抽取相关的脓毒症患者数据,其中SAE被定义为患脓毒症且GCS分数小于15分㊂使用RFE算法筛选出影响SAE患者30天死亡率的危险因素,对SAE病例数据采用逻辑回归㊁GBDT㊁XGBoost三种算法建立30天死亡风险预测模型㊂实验结果表明,GBDT算法的预测效果优于另外2种算法,其准确率为78.6%,AUC为78.3%,该模型能够对SAE患者30天死亡情况进行较为准确的预测㊂
关键词:脓毒症;脓毒症相关性脑病;MIMIC数据库;逻辑回归;随机森林
30-daymortalityriskpredictionmodelforSAEpatientsbasedonmachinelearning
LIUBin1,XIAOXiaoxia1,2,GONGHouwu3,ZHOUZhan1,ZHENGLirui1,TANJiancong1
(1SchoolofInformationScienceandEngineering,HunanUniversityofChineseMedicine,Changsha410208,China;2TheDomesticFirst-classDisciplineConstructionProjectofChineseMedicine,HunanUniversityofChineseMedicine,
Changsha410208,China;3DHCMediwayTechnologyCo.,Ltd.,Beijing100089,China)ʌAbstractɔSepsisrelatedencephalopathy(SAE)referstobraindysfunctionoccurringinthecourseofsepsis,whichisrelatedtotheriseofshort-termmortalityinsepsispatients.Inthispaper,thedataofsepsispatientsareextractedfromtheMIMICdatabase,whereSAEisdefinedashavingsepsisandGCSscoreislessthan15.TheRFEalgorithmisusedtoscreenouttheimportantfactorsaff
ectingthe30daymortalityofSAEpatients,andthelogisticregression,GBDT,XGBoostareusedtoestablishthe30daymortalityriskpredictionmodelforSAEpatients.TheexperimentalresultsshowthatthepredictioneffectofGBDTalgorithmisbetterthanotheralgorithms,withanaccuracyof78.6%andanAUCof78.3%.Thismodelcanaccuratelypredictthe30daymortalityofSAEpatients.
ʌKeywordsɔsepsis;SAE;MIMICdatabase;logisticregression;RandomForest
基金项目:2017年科技部十三五重点研发计划(2017YFC1703300);大规模跨模态医疗知识管理㊂
作者简介:刘㊀彬(1997-),男,硕士研究生,主要研究方向:数据挖掘㊁自然语言处理;肖晓霞(1977-),女,博士,副教授,主要研究方向:中医
智能诊断㊁人工智能㊁生物医学工程等㊂
通讯作者:肖晓霞㊀㊀Email:amily_x@hnucm.edu.cn收稿日期:2022-10-17
0㊀引㊀言
脓毒症是由感染引起的全身炎症反应综合征,全球发病率较高,每年患脓毒症的人数约为3100万,住院病死率约为17%[1]㊂脓毒症相关性脑病(SAE)是指在患脓毒症过程中发生的脑功能障碍,
是一种比较严重的脓毒症并发症,也是造成脓毒症患者死亡的独立危险因素[2]㊂并与人体行为㊁记忆㊁认知功能的长期损害密切相关,给患者的家庭和社会带来沉重的经济负担㊂仍需指出的是,SAE患者的死亡率往往高于只患脓毒症的患者㊂格拉斯哥
昏迷评分法(GlasgowComaScale,GCS)是一种用来评估病人昏迷程度的方法,满分为15分[3],表示意识清楚;12 14分表示轻度意识障碍;9 11分表示中度意识障碍;8分以下为昏迷㊂Eidelman等学者[4]的研究表明脑病与医院死亡率的增加成正相关性,当格拉斯哥昏迷评分(GCS)为15分时,死亡率为16%,而当GCS分数为3到8分时,死亡率为
63%㊂Sonneville等学者[5]的研究也得出了类似的结论,研究显示当GCS分数为1
5时,患者30天生存率为67%;当GCS分数为3 8分时,30天生存率下降到32%㊂即使发生轻度意识障碍(GCS分数为
12 14)也是影响30天死亡的一个独立危险因素㊂综上表明,SAE对于脓毒症患者短期死亡率的增加是有影响的,而这将进一步影响患者的健康,同时加重医疗资源的消耗㊂
基于上述问题,识别出短期死亡率较高的SAE患者,有利于及时进行医疗干预,对于改善这类患者的预后也具有重要的意义㊂因此本研究的主要目的是通过大型的临床数据库MIMIC去提取相应的SAE患者数据,然后通过rfe算法[6]对相应特征进行筛选,选出影响SAE患者30天死亡率的重要特征,最后基于这些特征构建机器学习模型,用于改善SAE患者的预后㊂
1㊀算法原理
1.1㊀RFE特征筛选
特征递归消除(RecursiveFeatureElimination,RFE)是一种用来衡量特征变量重要性的方法,通过重复构建模型,逐步迭代选出最重要的特征变量,能够寻出最优的特征子集,剔除不重要的特征变量㊂具体运算步骤如下:
(1)设定需要进行选择的特征数㊂(2)选择一个基模型来进行多轮训练,每次训练将J(k)=(wk)2作为每个特征的排序准则,并且每次迭代去除排序最后需要移除的特征数量㊂(3)基于新的特征集进行下一轮训练,直至特征个数为特征设定值㊂
本文选择的基模型为XGBoost模型,对总计17个特征进行筛选㊂
1.2㊀逻辑回归
逻辑回归[7]是一种广义的线性回归模型,属于机器学习中的监督算法,主要是用来解决二分类问题㊂该算法首先通过输入数据拟合出一条直线z=wTx+b,显然这样的函数图像是一条斜线,难以达到最终想要的结果(0或1),于是要将z通过一个函数映射成0 1之间的数,这个函数就是sigmoid函数,式子如下:
g(z)=11+e-z(1)㊀㊀然后,通过极大似然估计推导出损失函数:㊀J(w)=min(-1nðni=1[yi(wTx+b)-ln(ewTx+b+1)])(2)最后,通过梯度下降法求解出式(2)中的参数,从而解决了二分类问题㊂1.3㊀GBDT
GBDT(GradientBoostingDecisionTree)是一种基于决策树的集成算法㊂算法采用将基函数线性组合的方法[8],在训练过程中使得残差不断地减小,最终实现数据回归或者分类㊂GBDT算法的训练过程具体如图1所示㊂
融合模型
加权
学习
基分类器
铨部样栵
基分类器
学习
加权
图1㊀GBDT算法训练过程
Fig.1㊀GBDTalgorithmtrainingprocess
㊀㊀GBDT通过多轮迭代,产生多个弱分类器,每个分类器在上一轮分类器的梯度(如果损失函数是
平方损失函数,则梯度就是残差值)基础上进行训练㊂弱分类器一般会选择CARTTREE(分类回归树),这种树具有结构简单㊁高偏差㊁低方差的特点,因此十分适合用于GBDT算法的训练中㊂
1.4㊀XGBoost
XGBoost算法[9]是在GBDT算法的基础上发展而来的,主要改进有:算法不仅可以使用CART分类回归树,还能使用线性基础模型;在目标函数中加入了正则化项,用来防止模型出现过拟合;借鉴了随机森林的原理,支持列抽样,不仅能降低过拟合,还能够减少模型的计算量;考虑到了训练数据为稀疏值的情况,能为缺失值指定分支的默认方向,从而提高算法效率㊂
2㊀数据与方法
2.1㊀数据来源
MIMIC[10](MedicalInformationMartforICU)是一个大型的㊁免费提供的数据库,其中包括来自美国马萨诸塞州波士顿贝斯以列女执事医疗中心重症监护病房住院病人的高质量健康相关数据,数据包括生命体征㊁药物㊁化验数据㊁护理人员的观察和记录㊁输液㊁手术㊁诊断代码㊁成像报告㊁住院时间㊁生存数据㊂MIMIC数据库到现在已经发布4个版本㊂MIMIC-II中包含2001 2008年的数据,MIMIC-Ⅲ
232智㊀能㊀计㊀算㊀机㊀与㊀应㊀用㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第13卷㊀
包含2001 2012年的数据,MIMIC-IV包含2008 2019年的数据㊂本文将基于MIMIC-IV数据库抽取相应的SAE患者数据㊂2.2㊀数据抽取
SAE被定义为脓毒症患者中GCS分数小于15
的患者㊂研究使用的主要软件为NavicatPremium(15.0.12版本),按照关键字[11] s-epsis ㊁ severesepsis ㊁ septicshoc-k 从数据库中搜索被诊断为 脓毒症 ㊁ 严重脓毒症 ㊁ 脓毒症休克 患者的原始数据㊂根据以往研究,确定好纳排标准后进一步筛选患者㊂患者筛选的详细过程如图2所示㊂
被诊断为“脓毒症”、“严重脓毒症”、“脓毒症休克”的患者(n =13360)
剩余7681例进行
继续筛选
排除下列病人:
未入住I C U (n =3068)入住I C U 时间少于24h (n =1672)患有关脑部疾病(n =939)
排除下列病人:
患有精神疾病(n =120)酒精中毒、滥用药物(n =29)患癫痫(n =360)患高钠血症(n =971)患肝病(n =2)血糖数据缺失,血糖值大于180m g /d l ,血糖值小于54m g /d l (n =1351)血清值小于120m m o l /l (n =37)没有G C S 评分(n =3)
30天死亡(n =492)30天存活(n =1639)
2131例S A E 患者被纳
入最终队列,并进行下一步分析
经过纳排后,最终剩余4808例脓毒症患者,非S A E 患者2677例,S A E 患者2131例
图2㊀患者筛选图
Fig.2㊀Patientscreening
㊀㊀确定最终的SAE患者后,根据此前的研究文
献,从MIMIC数据库中提取患者首次入院时对应的年龄(anchor_age)㊁性别(gen
der)㊁住院天数(day)㊁葡萄糖(glucose)㊁钠(sodium)㊁GCS分数(gcs)㊁血小板(platelet)㊁肌酐(creatinine)㊁血红蛋白(hemoglobin)㊁钾(potassium)㊁血尿素氮(BUN)㊁白细胞(WBC)㊁乳酸盐(lactate)㊁血浆凝血酶原时间(PT)㊁心率(heart_rate)㊁血氧饱和度(spo2)㊁呼吸速率(respiratory_rate)㊁30天是否死亡(morality)㊂数据总计17个特征属性,再加一个类别标签属性,其中类别标签表明患者是否在患病30天内死亡㊂
2.3㊀数据预处理
提取了数据后,对数据的缺失情况进行统计,结果见表1㊂
表1㊀数据缺失情况表Tab.1㊀Datamissingtable
特征缺失数缺失比例/%
血小板60.12肌酐10.02血红蛋白50.10血尿素氮30.06白细胞60.12血氧饱和度130.27乳酸盐
95419.84凝血酶原时间
3657.59心率90.18呼吸频率
12
0.25
㊀㊀从表1的结果中可以看出10个特征存在数据缺失的问题,缺失最多的特征是乳酸盐,缺失比例为
19.84%,缺失最少的是肌酐,仅缺失一例㊂根据文献[8]中对缺失数据的处理方法来看,缺失特征比例均小于20%,予以保留,并统一采用平均值对其进行填补,在此基础上将对数据进行具体分析㊂3㊀结果
3.1㊀纳入病例的基本信息
总计纳入4808例脓毒症患者,其中2131例为
SAE患者㊂SAE患者年龄为19 91岁之间,中位年龄数为68岁㊂男性为1127例,女性为1004例㊂
30天内死亡病例为492例,存活病例为1639例,数据分布较为均衡㊂3.2㊀筛选得到的特征变量
根据RFE特征筛选,每一轮筛选移去特征系数(wk)2最小的特征,直到特征个数为设定值㊂结果显示,当特征数设定为13时,3个模型中GBDT的AUC值最高,其在测试集上AUC为0.783㊂此时选出的13个特征分别为:年龄㊁住院天数㊁钠㊁GCS分数㊁血小板㊁肌酐㊁钾㊁血尿素氮㊁乳酸盐㊁血浆凝血酶原时间㊁血氧饱和度㊁心率㊁呼吸速率㊂3.3㊀实验结果
将SAE数据集按照7:3的比例随机划分为训练集和测试集进行训练㊂本文采用的评价指标为准确率㊁P值㊁R值㊁F1值㊁AUC值㊂具体的实验结果见表2㊁表3㊂
3
32第3期
刘彬,等:基于机器学习的SAE患者30天死亡风险预测模型
表2㊀未进行特征筛选结果
Tab.2㊀Nofeaturefilteringresults
算法AccuracyPrecisionRecallF1ScoreAUCLR
76.143.023.930.872.2XGBoost77.749.533.840.275.5GBDT
79.1
54.7
33.1
41.2
77.4
表3㊀特征筛选后结果
Tab.3㊀Resultsafterfeaturescreening
算法AccuracyPrecisionRecallF1ScoreAUCLR
77.749.323.932.272.5XGBoost78.351.634.541.473.8GBDT
78.6
52.9
31.7
39.6
78.3
㊀㊀从表2和表3中可以看出,数据集经过特征筛选后,3个模型的某些指标得到了提高㊂逻辑回归模型的准确率提高了1.6%㊁精度提高了6.3%㊁F1
值提高了1.4%㊁AUC值提高了0.3%;XGboost模型的准确率提高了0.6%㊁精度提高了2.1%㊁召回率提高了0.7%㊁F1值提高了1.2%;GBDT模型的AUC值提高了0.9%㊂
为了更直观地比较3个不同算法的性能,绘制的ROC曲线如图3所示㊂
L R 的A U C 值为0.725
G B D T 的A U C 值为0.783X G B 的A U C 值为0.738
1.0
0.8
0.6
0.4
0.2
00.2
0.40.6
0.81.0
假正例
真正例
图3㊀3种分类算法的ROC曲线
Fig.3㊀ROCcurvesofthreeclassificationalgorithms
㊀㊀从图3中可以看出,在3个算法中GBDT算法的AUC值最大㊁为0.783,说明GBDT算法性能最优,更适合用于SAE患者30天死亡预测㊂
4㊀分析与讨论
在这项基于MIMIC-IV数据库的研究中,从
MIMIC数据库中抽取出对应的SAE患者数据,然后使用了RFE特征选择,筛选出了与SAE患者30天
死亡率相关的危险因素,最后基于这些特征建立了
3个机器学习模型去对SAE患者30天死亡进行预测㊂其中,GBDT算法对于SAE患者30天死亡预测效果最佳,其精度为52.9%,准确率为78.6%㊁AUC值为78.3%,3个指标均为不同算法中最高的㊂与其它研究方法进行对比,文献[3]提出的列线图模型在训练集上的AUC值为
0.763,在验证集上的AUC值为0.753,均比本文提出的GBDT算法的AUC值略低㊂说明本文提出的模型性能更优㊁泛化能力也更强㊂目前,对于SAE的是具有挑战性的,有许多关于脓毒症的指南列出了各种脓毒症的建议,但却很少有SAE的建议㊂有关SAE患者死亡预测的研究也较为匮乏,本研究很好地弥补了这方面的空白㊂从应用价值来看,本文提出的GBDT预测模型能够辅助临床医生去评估SAE患者的预后,从而制定出相应的措施,降低患者死亡率㊂一旦研究出针对SAE的具体方法,该模型的应用价值就会更高㊂未来可以开发一款能嵌入电子医疗系统的软件,该软件能够在不增加临床医生工作时间和负担的情况下,辅助临床医生及时SAE㊂
5㊀结束语
本文基于MIMIC数据库,提取相应的脓毒症患者数据,并通过GCS分数进一步筛选出SAE患者的数据㊂然后经过RFE特征筛选,筛选出13个重要的特征㊂使用逻辑回归㊁XGBoost㊁GBDT三种算法基于筛选后的特征进行建模,实验结果表明,GBDT算法更适合用于SAE患者30天死亡预测,其AUC值为78.3%,高于其他2种算法,也比其他文献中的
方法略好㊂对于SAE患者的预后具有一定的参考价值㊂
本次研究也存在局限性,即只对该数据库进行了内部验证,在今后的研究中还需要根据其它的数据进行外部验证,以进一步检验模型的鲁棒性和性能㊂参考文献
[1]FLEISCHMANNC,SCHERAGA,ADHIKARINK,etal.
Assessmentofglobalincidenceandmortalityofhospital-treated
sepsis.currentestimatesandlimitations[J].AmericanJournalofRespiratoryAndCriticalCareMedicine,2016,193(3):259-272.
[2]周艺蕉,杨春燕,苏美仙.脓毒症相关性脑病脑功能监测的研究
进展[J].医学综述,2022(16):3246-3251.
(下转第241页)
4
32智㊀能㊀计㊀算㊀机㊀与㊀应㊀用㊀㊀㊀㊀㊀
㊀㊀㊀㊀㊀㊀㊀㊀㊀第13卷㊀
[6]REDMONJ,DIVVALAS,GIRSHICKR,etal.Youonlylookonce:unified,real-timeobjectdetection[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.NewYork:IEEE,2016:779-788.
[7]REDMONJ,FARHADIA.YOLO9000:Better,faster,stronger[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.NewYork:IEEE,2017:6517-6525.[8]REDMONJ,FARHADIA.YOLOV3:Anincrementalimprovement[C]//Proceedingsofthe2018IEEEConferenceonComputerVisionandPatternRecognition.SaltLakeCity,Utah:IEEE,2018:1-6.
[9]BOCHKOVSKIYA,WANGCY,LIAOHYM.YOLOv4:Optimalspeedandaccuracyofobjectdetection[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.NewYork:IEEE,2020:1-17.
[10]LIUWei,ANGUELOVD,ERHAND,etal.SSD:singleshotmultiboxdetector[M]//LEIBEB,MATASJ,SEBEN,etal.ComputerVision-ECCV2016.ECCV2016.LectureNotesinComputerScience().Cham:Springer,2016,9905:21-37.[11]LINTY,GOYALP,GIRSHICKR,etal.Focallossfordenseobjectdetection[C]//Proceedingsofthe2017IEEEInternationalConferenceonComputerVision.Piscataway:IEEE,2017:2999-3007.
[12]杨传礼,张修庆.基于机器视觉和深度学习的材料缺陷检测应用综述[J].材料导报,2022,36(16):226-234.
[13]戚银城,武学良,赵振兵,等.嵌入双注意力机制的FasterR-
CNN航拍输电线路螺栓缺陷检测[J].中国图象图形学报,2021,26(11):2594-2604.
[14]王宸,张秀峰,刘超,等.改进YOLOv3的轮毂焊缝缺陷检测[J].光学精密工程,2021,29(08):1942-1954.
[15]李鑫,汪诚,李彬,等.改进YOLOv5的钢材表面缺陷检测算法[J].空军工程大学学报(自然科学版),2022,23(02):26-33.[16]刘坡,方源,张建军,等.基于特征融合SSD的微电连接器缺陷检测[J].华中科技大学学报(自然科学版),2022,50(03):49-54.
[17]HEKaiming,ZHANGXiangyu,RENShaoqing,etal.Spatialpyramidpoolingindeepconvolutionalnetworksforvisualrecognition[J].IEEETransactionsonPatternAnalysis&Machineintelligence,2015,37(9):1904-1916.
[18]ZHENGZhaohui,WANGPing,LIUWei,etal.Distance-IoUloss:fasterandbetterlearningforboundingboxregression[C]//Proceedingsofthe34thAAAIConferenceonArtificialIntelligence.NewYork:AAAI,2020:12993-13000.
[19]LINTY,DOLLÁRP,GIRSHICKR,etal.Featurepyram
idnetworksforobjectdetection[C]//Proceedingsofthe2017IEEEConferenceonComputerVisionandPatternRecognition(CVPR).Honolulu,USA:IEEE,2017:936-944.
[20]LIUShu,QILu,QINHaifeng,etal.Pathaggregationnetworkforinstancesegmentation[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.SaltLakeCity,UT,USA:IEEE,2018:8759-8768.
(上接第234页)
[3]YANGYang,LIANGShengru,GENGJie,etal.Developmentofanomogramtopredict30-daymortalityofpatientswithsepsis-associatedencephalopathy:Aretrospectivecohortstudy[J].JournalofIntensiveCare,2020,8(1):1-12.
[4]EIDELMANLA,PUTTERMAND.Thespectrumofsepticencephalopathy[J].JournaloftheAmericanMedicalAssociation,1996,275(6):470-473.
[5]SONNEVILLER,MONTMOLLINED,POUJADEJ,etal.Potentiallymodifiablefactorscontributingtosepsis-associatedencephalopathy[J].IntensiveCareMedicine,2017(8):1075-1084.[6]綦方中,俞婷婷,朱国荣.一种基于RFE特征选择的PSO-SVR用电需求预测模型[J].计算机应用研究,2020,37(S1):105-107.[7]郭志恒,刘青萍,刘芳,等.基于机器学习算法的脑卒中疾病早期预测模型研究[J].计算机与数字工程,2021,49(11):2180-2183,2247.
[8]夏冰.基于GBDT算法的空气冲旋钻井机械速度预测方法[J].制造业自动化,2022,44(03):185-188.
[9]王延安,刘庆芳,成卫.基于XGBoost算法的道路交通事故严重程度预测[J].软件导刊,2022,21(05):84-88.
[10]张家艳,郑建立,郑西川,等.MIMIC数据库智能挖掘研究概述[J].计算机技术与发
展,2020,30(01):144-148.
[11]HOUNanzong,LIMingzhe,HELu,etal.Predicting30-daysmortalityforMIMIC-IIIpatientswithsepsis-3:AmachinelearningapproachusingXGboost[J].JournalofTranslationalMedicine,2020,18(1):462.
142
第3期李俊杰,等:基于改进YOLOv3的电容表面缺陷检测方法
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论