临床医学研究生学习行为的预测模型研究——线性回归和机器学习的对比分...--688IT编程网

•350 •中华医学教育探索杂志2021年3月第20卷第3期Chin J Med Edu Res，March 2021，Vol. 20, No. 3

•调查研究•临床医学研究生学习行为的预测模型

—线性回归和机器学习的对比

研究—

分析

张驰1李彦青2刘德平1王培忠1陈畑至3李文卓3贾金忠4

1北京医院教育处/国家老年医学中心/中国医学科学院老年医学研究院100730;2北

京师范大学教育学部100875 ;3北京大学公共卫生学院卫生政策与管理学系

100191 ;4北京大学研究生院医学部分院/全国医学专业学位研究生教育指导委员会秘书

处办公室 100191

通信作者：贾金忠，E m a i l:golden-b o y@126

【摘要】目的对比线性回归模型与四种机器学习算法对临床医学研究生学习行为的预测效能，

探讨不同预测模型的优缺点和适用性。方法以全国6 922名临床医学研究生的调查数据为例，通过

自评学习行为量表获得综合得分；在训练集中，分别利用L asso线性回归和人工神经网络、决策树、

Bootstrap随机森林、提升树四种监督式机器学习算法建立预测模型；对验证集数据进行预测并比较不

同模型的预测效能。结果临床医学研究生学习行为综合得分为(3.31 ±0.54)，总体达标率为74.02%。

在线性回归模型中，年龄、学校级别、学位类型、学习兴趣、压力和满意度对学习行为的影响差异有统

计学意义；在对验证集的预测中，线性回归模型的敏感度为0.484，特异度为0.914，准确率为0.801。四

种机器学习算法的各项指标均高于线性回归模型，其中随机森林的提升度最高。结论线性回归模型

对研究生学习行为的预测效果良好，机器学习在预测准确性上优于线性回归模型，但传统线性回归模

型在计算效率和可解读性上具有一定优势。

【关键词】学习行为；预测模型；线性回归；机器学习

【中图分类号】R_05

基金项目：中国学位与研究生教育学会重点课题(A2-2017Y0502-005)；中国学位与研究生教育学

会医学专业学位委员会立项课题(A1-Y X20180201-02)；中国学位与研究生教育学会立项课题印1-

Y X20190201-01)

DOI: 10.3760/cma.jl 16021-20200228-00439

Research on prediction model of learning behavior of clinical medical postgraduates—comparative

正则化的回归分析analysis of linear regression and machine learning

Zhang Chi1, Li Yanqing2, Liu Deping1, Wang Peizhong1, Chen Tianzhi3, Li Wenzhuo3, Jia Jinzhong*

'Department of Education, Beijing Hospital/National Center o f Gerontology/Institute of Geriatrics Medicine,

Chinese Academy of Medical Sciences, Beijing 100730, China; 2Department of Education, Beijing Normal

University, Beijing 100875, Chirui; department of Health Policy and Management, School of Public Health,

Peking University, Beijing 100191, China; 4Grculuate School Health Science Center of Peking University/

National Steering Committee Secretariat of Medical Professional Degree Postgraduate Education, Beijing

100191, China

Corresponding cuithor: Jia Jinzhong, Email:******************

【Abstract】Objective To compare the prediction efficiency of traditional linear regression model and

four machine learning models on the learning behavior of clinical medical postgraduates, and to explore the

pros and cons and applicability of different prediction models. Methods A total of 6,922 clinical medical

postgraduates were surveyed, their comprehensive learning behavior scores were obtained through the

中华医学教育探索杂志202丨年3月第20卷第3期Chin J Med Edu Res, March 2021，Vol. 20, N a3•351 •

learning behavior scale. In the training set, Lasso linear regression and artificial neural network, decision

tree, Bootstrap random forest, and lifting tree were used to build prediction models respectively. The above

models were used to predict the validation set data and compare the prediction efficiency. Results The

comprehensive learning behavior score of clinical medical poslgraciuates was (3.31 ±0.54) points, and the

overall compliance rate was 74.02%. In the linear regression model, the influence of age, school level,

degree type, learning interest, pressure and satisfaction on learning behavior were statistically significant. In

the prediction of validation set, the sensitivity, specificity, and accuracy of the linear regression model were

0.484, 0.914, and 0.801, respectively. The indexes of the four machine learning models were higher than

those of the traditional linear regression model, and the Bootstrap random forest had the highest elevation.

Conclusion The linear regression model has a good prediction effect on learning behavior, and machine

learning is superior to linear regression model in terms of accuracy of prediction. However, traditional linear

regression models are superior to machine learning models in computational efficiency and interpretability.

【Key words】Learning behavior; Prediction model; Linear regression; Machine learning

Fund program: Key Subject of Chinese Society of Academic Degrees and Graduate Education (A2-

2017Y0502-005); Research Subject of Medical Professional Degree Committee of Chinese Society of

Academic Degrees and Graduate Education (A 1-YX20180201-02); Research Subject of Chinese Society of

Academic Degrees and Graduate Education (B1-YX20190201-01)

DOI: 10.3760/cma.jl 16021-20200228-00439

近二十年来的研究生扩招对培养质量带来了巨大影响与挑战"'及时了解、关注研究生的学习行为表现并针对性进行引导督促，对保障高质量的医学人才培养具有重要意义。既往研究发现，不同学位类型、院校层次、社会家庭特征的医学研究生在具体的学习行为表现方面存在差异1%51。在高等教育领域，运用现代人工智能和统计相关技术，对大规模的数据进行发掘并指导教学实践也已成为了重要的研究话题。机器学习算法利用自我改进系统，使计算机程序能随着经验的积累不断提高性能，已成为解决数据挖掘问题的重要方法之一|61；同时已有越来越多研究证实特定的机器学习模型在医学领域得到了良好的应用。本研究利用2018年度全国医学研究生质量调查资料，以其中的全日制临床医学专业在读研究生为例，构建了四种预测研究生学习行为表现的机器学习模型；并与传统的线性回归模型进行比较，分析影响研究生学习行为的因素；并探索有效预测方法。

1研究方法

1.1问卷调查

课题组于2018年对全国医学研究生进行抽样调查，本研究以其中的全日制临床医学专业在读研究生为样本。通过网络调查的形式收集问卷，获得问卷7 424份；删除存在完全随机缺失的个体，并通过奇异值分解法对缺失或异常的结局变量进行填补后，最终获得有效问卷6 922份；有效问卷回收率 93.2%。通过随机数字将样本数据按照1:1划分为训练集和验证集，每组3 461人；训练集用于建立模型，验证集用于预测。课题组所编制的学习行为量表包括5个维度，共16个正向的Likert 5级条目；整体克朗巴赫系数为0.727，各维度的克朗巴赫系数均高于0.6，具体见表1。利用各条目标准化载荷系数加权求得学习行为的综合平均得分，规定综合得分>3分者定义为“达标”，综合得分<3分者定义为“未达标”。

1.2 L a s s o线性回归

L a s s o线性回归模型采用惩罚似然函数的框架，能同时进行变量选择和参数估计。它既克服了逐步回归变量选择方法的局限性，同时又保留模型的可解释性。相对于传统的Logistic回归，L a s s o回归通过添加正则化的惩罚项压缩参数估计值，提高了对验证集数据的预测效能。因此，本研究选用 L a s s o线性回归用于构建医学研究生的学习行为线性回归模型。

1.3机器学习算法

本研究选择在医学领域较广泛应用的四种监督式机器学习算法，分别为人工神经网络、决策树、提升树和Bootstrap随机森林。纳人与L a s s o线性回归中相同的自变量进行模型构建，具体的参数设定如下:①人工神经网络设定为双层学习网络，每层设置

•352 •中华医学教育探索杂志2021年3月第20卷第3期Chin J Med Edu Res, March 2021，Vol. 20, No. 3

表1临床医学研究生学习行为量表条目和得分情况

维度条目内容平均得分标准差

A纪律与道德规范A1学习期间能够按时出勤 4.470.97

A2遵守考试和考核纪律 4.680.79

B课堂行为B1课前进行预习准备 2.76 1.23

B2参与课堂学习互动和讨论 2.86 1.17

B3课后和课间与教师沟通交流 2.92 1.20

C实践/实习行为C1实习/实践的积极性 4.100.90

C2参与实习/实践的工作量 4.150.86

C3处理在实习/实践中的常见问题 3.960.91

C4发现实习/实践过程中的疑难问题 3.620.86

D科研行为D1科研工作积极性 3.21 1.17

D2对课题研究的认识程度 3.18 1.17

D3与导师及时沟通交流 3.31 1.15

E学业产出情况E1已发表的文章情况 3.14 1.61

E2参加境内或交流情况 2.15 1.96

E3参加学术会议情况 3.45 1.05

3个T a n H函数路径，设定学习率为0.1;②在决策树中以每次分割时模型的决定系数圮和受试者工作特征曲线下面积的增量作为分割次数的参考依据，最终共分割20次;③提升树中设定层数为50，最大拆分数为3，学习率为0.1;④随机森林中设定树的数量为100，单棵树最小拆分数为10，最大拆分数为 2 000，

设定每次重置抽样时有30%的样本不被抽取。

2研究结果

2.1样本特征

调查数据来自全国69所医学高等院校，其中 985/211院校14所，非985/211院校55所。研究生的年龄范围是18~46岁，平均年龄(26.51 ±2.45)岁；男生占 38.83%(2 688/6 922)，女生占 61.17%(4 234/ 6 922)；在学历层次上，硕士研究生占97.91%(6 777/ 6 922)，博士研究生占2.09%( 145/6 922)；在学位类型上，专业学位研究生占79.85%(5 527/6 922)，科学学位研究生占20.15%(1 395/6 922)；在入学方式上，统招/申请考核入学的占90.93%(6 294/6 922)，推荐免试入学的占3.97%(275/6 922)，长学制占5.10% (353/6 922)；第一志愿录取研究生占58.80%(4 070/ 6 922)，调剂研究生占41.20%(2 852/6 922)。学习行为综合得分为(3.31 ± 0.54)，总体达标率为74.02%。

2.2 L a s s o线性回归模型构建

根据专业知识和既往研究，将可能对学习行为产生影响的变量纳人L a s s o线性回归模型中，对训练集数据进行多因素分析，具体结果详见表2。其中入学方式以“统招/申请考核”作为对照组，家庭人均收入以“贫困及以下”作为对照组。父母文化中指父母中至少一方具有本科及以上的高等教育经历，亲属工作

情况指直系亲属中有在医疗卫生行业工作者。学习兴趣、压力评分和满意度总分为通过本课题组相应量表所求得的综合得分。因变量为二分类的学习行为达标情况(0=达标，1=未达标），结果中的〇/?值均指未达标相对于达标的优势比。

根据L a s s o回归的结果，删除了性别、亲属工作情况、专业忠诚度和导师忠诚度四个自变量，回归模型的校正Z^O.316。在影响因素方面，年龄(P<0.001, 0尺=0.892)、学校级别(P=0.041，0/?=0.760)、学习兴趣（P c O.O O丨，Ofi=0.493)、压力（P c O.O O1，0/? =0.688) 和满意度(P<〇.〇〇l，〇ft=〇.231)的提高对学习行为表现具有促进作用。学术学位研究生的学习行为得分低于专业学位研究生(P=〇.〇39,6>/?=1.317)；第一志愿录取研究生的学习行为优于调剂研究生(P=〇.〇36,〇«=0_818)〇

使用该线性回归模型对验证集的3 461名研究生的学习行为达标情况进行预测，并与实际调查的结果进行对照，得到预测效能的评价指标如下：灵敏度为0.484，特异度为0.914，准确率为0.801。受试者T.作特征曲线(/?«<：)如图1所示，其中f t O C曲线下面积〇4t/C)=0.851。

2.3线性回归模型与机器学习的预测效能比较

根据设定的参数使用四种机器学习算法建立模型，纳入相同的自变量并对验证集数据进行预测。相对于线性回归模型，四种机器学习算法的预测效能均有不同程度的提升，其中随机森林的各项指标值最高，4 f/C达到0.934，预测的准确度提升最显著。

中华医学教育探索杂志2021年3月第20卷第3期Chin J Med Edu Res，March 2021, Vol. 20, No. 3•353 •

表2临床医学研究生学习行为的多因素分析U=3461)

自变量B S.E.P O R ( 95%CI)备注

截距10.0030.910<0.001-

年龄-0.1140.025<0.0010.892(0.849,0.937 )

性别-- 1.000-删除

家庭所在地-0.1920.1100.0810.825 ( 0.665,1.024)

父母文化0.2190.1600.171 1.245 (0.910,1.704)

亲属工作情况-- 1.000-删除

家庭收人

贫穷家庭-0.1530.1630.3460.858(0.623,1.181 )

小康/中产及以上0.2570.4050.525 1.293 (0.585,2.860)

学校级别-0.2740.1340.0410.760(0.584,0.989)

学历层次0.1760.3970.657 1.192(0.548,2.595)

学位类型0.2750.1340.039 1.317( 1.014,1.712)

入学方式

推荐免试0.3400.2200.122 1.405(0.913,2.164)

长学制0.3140.3030.298 1.370(0.757,2.479 )

调剂情况-0.2010.1060.0360.818(0.664,0.808 )

院校忠诚度-0.0370.1090.7310.963(0.778,1.192 )

专业忠诚度-- 1.000-删除

导师忠诚度-- 1.000-删除

学习兴趣-0.7050.084<0.0010.493(0.418,0.582)

压力评分-0.3720.074<0.0010.688(0.595,0.796)

满意度总分-1.4650.093<0.0010.231 (0.192,0.276)

表3线性回归模型与四种机器学习算法的预测效能比较

模型灵敏度特异度准确率A U C阳性预测值阴性预测值校正Lasso回归0.484(442/913) 0.914(2 329/254) 0.801(2 771/3 461) 0.8510.669(442/661) 0.832(2 329/2 800)0.316人工神经网络0.548(500/913) 0.929(2 366/254) 0.813(2 815/3 461) 0.8710.733(500/682) 0.851(2 366/2 779)0.331决策树0.514(469/913) 0.919(2 342/254) 0.812(2 811/3 461) 0.8670.695(469/675) 0.841(2 343/2 786)0.333提升树0.517(472/913) 0.940(2 394/254) 0.828(2 866/3 461) 0.8740.754(472/626) 0.844(2 394/2 835)0.335随机森林0.590(539/913) 0.963(2 454/254) 0.873(3 020/3 461) 0.9340.852(539/633) 0.868(2 454/2 828)0.432

在敏感度指标上，各种模型均低于0.6，而特异度均达到0.9以上(表3)。

注：达标曲线以虚线表示，未达标曲线以实线表示图1Lass。线性回归模型对验证集预测的ftO C曲线3讨论

3.1临床医学研究生的学习行为表现受多种因素影响

本研究所使用的学习行为调查量表内容兼顾了课程、实习/实践和科研等方面，整体信度和效度较高，能够从整体上反映出研究的学习行为综合表现情况，对教育实践有一定的参考价值。学习行为综合得分为(3.31 ±0.54)，总体达标率为74.02%，整体表现良好。从影响因素来看，学习兴趣、压力和满意度等感知因素对学习行为的影响明显。这说明提高学习兴趣、适当的压力和较高的满意度对研究生的学习行为具有激励和促进作用。年龄对学习行为达标率的影响显著(/><〇.〇〇1，〇/?=0.892)，年龄的增加不仅伴随着认知态度的成熟和生活阅历的丰富，

相

•354 •中华医学教育探索杂志2021年3月第20卷第3期Chin J Med Edu Res，March 2021，Vol. 20, No. 3

应的学习压力也会提高。这可能是促进研究生学习投人的原因。985/211院校的研究生学习达标率高于非 985/211 院校的研究生（P=0.041/)/?=0.760)。这可能是由于高层次院校具有更优质的生源和硬件条件、科研平台，学习氛围也更佳；不同级别院校的招生规模与教育资源的均衡配比情况也是可能的原因之一。研究发现，科学学位研究生的学习行为达标率低于专业学位研究生(P=0.039，0/?=1.3丨7)。这是由于医教协同政策的全面推行，被调查的专业学位硕士 /博士研究生绝大多数已被纳人了住院医师或专科医师规范化培训中。这种统一规范的培训体系尤其对专业学位研究生的实习/实践方面产生了较强的增进作用。相对而言，科学学位研究生的指导基本由导师全权负责，管理相对独立和松散，更需要加强学习过程的监督。另外，调查发现调剂研究生的学习达标率低于第一志愿录取的研究生(P=0.036，0/?=0.818)。这可能与调剂研究生未达到报考预期，因而归属感不强、学习适应周期长有关。

3.2构建模型能够对学习行为起到良好的预测作用

本研究利用全国研究生质量调查数据构建了多个预测模型，样本具有一定的代表性。L a s s o线性回归

模型在验证集的预测中整体表现良好，准确率为 0.80M W：为0.851，特异度明显高于灵敏度，阴性预测值明显高于阳性预测值。这说明该预测模型对学习行为“未达标”研究生的排除能力较高。在机器学习模型中，各项评价指标均不同程度地提高，预测效能均优于线性回归模型，在提升度上Bootstrap随机森林 >提升树 >人工神经网络 >决策树。从原理上讲，人工神经网络、提升树等监督式机器学习可以在建模过程中将误差反向传播至处理层，在学习过程中以此不断校正模型，提高预测准确性。随机森林则用随机重置抽样的方式建立模型集合，可以看作是由多棵决策树共同进行预测，最终的预测结果是由单棵决策树分别判断后通过投票确定。提升树是通过利用多棵树(层)不断提升强化学习能力，对第一棵树预测错误的数据赋予更大的权重，其在后一层预测中会被更多地关注，以此不断修正预测结果。所以，提升树和随机森林可以看作是对单棵决策树的改进。在对验证集的预测中，随机森林和提升树的预测效能均优于决策树，而随机森林的提升更加明显。然而，各模型的灵敏度均低于0.6，可能是由于学习行为是一个综合的指标，部分可能的影响因素并未被纳人研究。但从其他评价指标来看，各模型能够对学习行为起到良好的预测作用。以随机森林为例，有96.3%实际学习行为未达标的研究生都被模型判断正确；在被模型判断为“未达标”的研究生中，有85.2%的学生与实际相符；在被模型判断为 “达标”的研究生中，有86.6%的学生与实际相符。因此，本研究认为根据学生特征建立预测模型对于研究生学习表现具有提前预警作用，能够为导师指导科研、辅导员开展学生工作提供有价值的参考信息。

3.3线性回归与机器学习的实际应用中各有优势

通过对比L a s s o线性回归模型与四种机器学习算法的预测效能，整体来看机器学习的预测能力优于线性回归模型。但在实际应用中两种方式各有特点和优势。首先，在计算量上，机器学习明显高于线性回归模型。以最小二乘法为主的线性回归估计法是以拟合最小化误差的平方和来快速寻数据的最佳拟合匹配曲线。而机器学习模型的网络结构及参数庞大复杂，通常只有在大数据量、大计算量支持下才能训练出精准的模型，对运行环境要求较高|7>。在对数据的前提要求上，线性回归模型只能处理存在线性关系的资料，具有一定的局限性，且要考虑数据分布等前提条件；机器学习的要求则更加宽松，对于处理非线性关联的数据表现更好。如今机器学习因其具有较强自适应、自学习、非线性映射、容错和泛化能力，正在越来越多地被应用到实际问题中I从对结果的解释性上看，传统的线性回归模型的解读性强于机器学习。如在本研究的L a s s o线性回归模型中，可以通过〇/?值来清晰地观测不同自变量对学习行为的影响和作用强度，能更紧密地结合现实意义进行分析并提出对策建议。相反，由于机器学习算法的“黑箱”特性，不同影响因素的关联和对结局的作用方式难以被明确地认识I虽然人工神经网络等算法也可以输出参数估计值，但随着学习深度的提高，参数估计值的数量会极大增多，不便于研究者解读和结果呈现。总之，如数据之间的线性关系已经相对明确，传统的线性回归模型仍是科学实用的分析方法，更便于参数估计对现实意义的解释；机器学习算法则可以有效提高结果的准确性。但在实际应用中，研究者还应根据研究目的和数据关系确定适宜的建模方法，同时考虑成本效益，避免分析方法的盲目乱用。

4结语

本研究通过线性回归模型探讨了影响临床医学研究生学习行为的相关因素，同时对机器学习的预测效能进行了对比分析，对预测模型在医学教育领

688IT编程网

临床医学研究生学习行为的预测模型研究——线性回归和机器学习的对比分...

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

临床医学研究生学习行为的预测模型研究——线性回归和机器学习的对比分...

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式