第21卷第1期2021年1月
Vol.21No.l
Jan.2021黑龙江工业学院学报
JOURNAL OF HEILONGJIANG UNIVERSITY OF TECHNOLOGY
文章编号:2096-3874(2021)01-0052-05
基于Xgboost算法的大学生积极心理品质
预测及影响因素分析
杨利,昌杰,张浩,刘俊彤
(皖南医学院医学信息学院,安徽芜湖241002)
摘要:通过量表收集芜湖地区6所大学的大学生积极心理晶质状况及影响因素数据,构建样本数据库;使用Xgboost(eXtreme Gradient Boosting)算法模型分析样本数据,并与决策树、SVM(support vector machines)和随机森林算法进行对比。实验表明,Xgboost算法的预测精度最高,其决定系数最大值为0.93,
说明了预测的有效性。同时发现家庭环境、学习成绩、每周锻炼时间、社团活动和年级等影响因素对模型贡献较高。本研究对预测大学生积极心理晶质状况及影响因素分析有一定的参考价值。
关键词:Xgboost;积极心理晶质;影响因素
中图分类号:TP391:TP181
当前,社会竞争日益激烈和社会环境日益复杂,大学生承受着学习、人际、情感和择业等诸多压力。培养大学生的积极心理品质,提高大学生心理素质,使他们能以积极的心态面对多方面压力,从而更好的适应社会的发展。随着机器学习技术的快速发展和广泛使用,可将其应用于大学生的积极心理品质数据的分析,挖掘影响大学生积极心理品质的影响因素,预测大学生积极心理品质状况,从而到可提高大学生积极心理品质的有效方法。
积极心理品质最早由Seligman于2002年在《真实的幸福》提出,他用“积极品质”(positive character)描述个体的积极心理品质⑷。官、孟万金认为积极心理品质是人本身固有的、潜在的、建设性的,是一种正向的或主动的心理品质,并针对中国学生人开展了大规模问卷调查,挖掘出
文献标识码:A
20项积极品质,分为6大类:认知、人际、情感、公正、节制、超越⑵o国内不少学者对这6个维度20项
积极心理品质进行了进一步研究,各种研究表明,年龄⑶、家庭教养方式⑷、体育参与度⑸、社交⑷、是否独生子女⑺等因素对个体积极心理品质有重要影响。因此本文选取性别、年级、科别、生源地、独生子女、父母的教养方式等因素,预测大学生的积极心理品质状况,并对这些影响因素进行分析。
机器学习是研究计算机模拟或实现人类的学习行为,重组已有的知识结构并使之不断改善囲,广泛应用于心理领域9-0,但大部分机器学习算法存在计算量大、过拟合及预测的准确率不高等缺点。Xgboost是一种性能优异的机器学习算法, 2016年由陈天奇提出,是一种改进的GBTD(Gra­dient Boosting Decision Tree)算法「⑷。近年来,大
作者简介:杨利,硕士,讲师,皖南医学院医学信息学院。研究方向:机器学习、数据挖掘。
昌杰,博士,副教授,皖南医学院医学信息学院。研究方向:人工智能、图像处理。
张浩,硕士,副教授,皖南医学院医学信息学院。研究方向:机器学习、大学生心理健康。
刘俊彤,硕士,助教,皖南医学院医学信息学院。研究方向:机器学习、医疗物联网。
基金项目:安徽高校人文社会科学研究重点项目"人工智能背景下大学生健康危险行为的预测与预防研究”(项目编号:SK2020A0380);大学生心理健康教育研究中心安徽省人文社会科学重点研究基地校级课题“基于大数据技术的大学生积极心理品质的影响因素和培养模式研究”(项目编号:SJD202001);安徽高
校人文社会科学研究重点项目“基于机器学习的大学生行为健康预测模型和预防措施的研究”(项目编号:SK2020A0379);皖南医学院教学研究项目“以综合型项目开发为驱动的《医疗物联网开发与实训》课程教学模式研究”(项目编号:2020jyxml5)。
52
第1期基于Xgboost算法的大学生积极心理品质预测及影响因素分析2021年
量研究学者对Xgboost算法展开了深入研究,该算法已作为分类、回归和特征排序的有效方法并迅速发展,广泛应用于电子商务推荐「切、商业预测車]、住房预测⑷]、信用评估氏]等领域。
因此,本文通过量表收集积极心理品质相关数据,建立基于XgBoost算法的大学生积极心理品质预测模型,预测出大学生积极心理品质,同时分析其影响因素。
1Xgboost算法
Xgboost是一种提升方法(boosting)o提升方法通过构造多个“弱学习器”,这些“弱学习器”之间有着很强的依赖关系,通过线性组合,最终形成一个“强学习器”,可大幅提升分类算法的准确度,“弱学习器”一般通过改变训练数据的的概率分布或权值分布所得。代表性的提升方法有AdaBoost 和GBDT(Gradient Boosting Decision Tree)o Ada­Boost主要用于二分类问题,选用指数损失函数作为损失函数,通过提高
前次学习器分错样本的权值用于训练下一个学习器[仞o而GBDT以决策树为基分类器,可选用多种损失函数,计算前次学习器的残差,在残差减少(负梯度)的方向上拟合下一个决策树(学习器)o GBDT只需拟合当前分类器的残差,相对于AdaBoost算法要简单的多[如。然而对于一些复杂的损失函数,GBDT难以计算其负梯度。Xgboost对损失函数进行了二阶泰勒展开,通过计算参数的一阶和二阶导数替代负梯度,同时Xgboost还引入了树的复杂度作为正则化项,树的复杂度由树的叶子节点数目和权值构成,有效降低了计算的复杂度,显著提升了模型的泛化能力。
下面对Xgboost算法的决策树模型、目标函数及具体步骤进行说明。
1.1决策树模型
设训练数据集丁={(也』1),(%2』2),…,(%』”)1,如为第:个样本点,%为第:个样本点对应的标签。决策树模型定义如下:
,—K
y=川%)⑴
W=1
彳表示模型的预测值=叫@)w RT, g:7?‘T{l,2,-,K},表示第%个决策树模型,丁为叶子节点数量,g为树的结构皿为叶子节点权值,第j 个叶子节点中样本点表示为:右={遍(如)=yl o
1.2目标函数
对于第k次训练,设目标函数为:
obj w=Y:_i心,彳严+A(^))+丫:_2(齐)
(2)目标函数由损失函数和正则化项构成,正则化项QCA)定义如下:
=丁丁+*入(3)
使用二阶泰勒展开式(3)并优化可得:
,,,1r G2
Obj=_T Hj+X+yT(4)
式⑷中,Gj=局分别为损失函数对外宀的一阶导数和二阶导数,此时*Gj
叫=_科
1•3Xgboost算法具体步骤
1.3.1初始化办(如)=0o
1.3.2使用贪心算法构建第k(k^l,2,…,K)次决策树模型。
对树中的每个叶子节点,使用贪心算法遍历所有特征值及其切分点,选取切分后目标函数变化最大的作为当前决策树齐(如)。目标函数变化的计算公式如下:
[旦+£_(E+GJ]
2[H l+X H r+X H l+H R+X i
(5)
G l、G r分别为切分后左、右子树对参数的一阶导数,为切分后左、右子树对参数的二阶导数。
1.3.3将加冋)加入模型,夕『=7-4_1)+sfkC x i)
为学习率。
1.3.4设定阈值或树的深度,终止节点分裂,得到最终模型式(1)。
2实验与结果
2.1实验数据
采取整抽样的方法,从安徽芜湖6所高校选取在校大学生为施测对象,通过纸质问卷和网络问卷的方式发放量表,施测对象共计2764人,有效回收量表数据2053人,有效率74.3%。
施测量表由以下两部分组成:
53
第1期黑龙江工业学院学报2021年
2.1.1大学生积极心理品质影响因素调查表
包括性别(男、女),年级(大一、大二、大三、大四、大五),科别(文科,理科),生源地(农村,城市),独生子女(是、否),父母的教养方式(民主型、专制型、溺爱型、忽视型),父母的受教育程度(小学及以下、中学及高中、大学及以上),学习成绩(班级排名前30%、班级排名70%至30%、班级排名后30%),恋爱(是、否),每周锻炼时间(0~2小时、2~5小时、5小时以上),家庭经济状况(较差、一般、较好),社团活动(从不参加、很少参加、一般、经常参加)共计12个因素。
设项目选项数为",则计分为1至",例如每周锻炼时间0~2小时、2~5小时、5小时以上分别计分为1、2、3。每条记录最多允许存在2个缺失值,否则作为无效数据,对于缺失值用众数填充。此次统计数据的被试的人口统计学变量(已填充缺失值)如表1所示。
表1被试对象的人口统计学变量
性别人数(%)年级人数(%)科别人数(%)生源地人数(%)
正则化可以产生稀疏权值男893(43.5%)大一
大二
大三
892(43.5%)
647(31.5%)
276(13.4%)
文科567(27.6%)农村1127(54.9%)
女1160(56.5%)大四
大五
147(7.2%)
91(4.4%)
理科1486(72.4%)城市926(45.1%)
总计2053(100%)总计2053(100%)总计728(100%)总计728(100%)
2.1.2中国大学生积极心理品质量表
选用孟万金等人编制的《中国大学生积极心理品质量表》,测量大学生积极心理品质,该量表共分为6个维度20个品质、62个问题,总Cron-bachsa=0.922o Cronbach s a是量表的信度测量统计指标,其值在0和1之间,越接近0,量表的信度越低,越接近1,量表的信度越高。量表采用李克特5点计分法,“非常像我”为5分,“比较像我”为4分,“一般”为3分,“比较不像我”为2分,“非常不像我”为1分。每条记录最多允许存在5个缺失值,否则作为无效数据,对于缺失值用均值填充。此次统计按6个维度统计,得分如表2所示(已填充缺失值)严表示大学生积极心理品质的平均分*为其平均绝对偏差。
表2大学生积极心理品质总体情况
认知人际情感公正节制超越总品质i  3.26  3.32  2.98  3.14  2.87  3.07  3.11
s0.520.510.420.530.490.480.51 2.2数据模型训练
2.2.1评价指标
实验采用(Coefficient of Determination,决定系数)作为评价指标,疋的计算公式如式(6)所示。
疋=1-f(%-y;)2/X(%-y)2⑹
i=1i=1
其中n为样本个数,%为第个样本点的标签值,必为第i个样本点的标签预测值,y为所有样本点的标签平均值。R2的值越趋向于1,其预测精度越高。
2.2.2模型参数
本实验环境为python3.7,使用xgboost.skleam 包中的XGBRegressor模块训练数据。实验中,随机从这2053份大学生心理健康数据中选取70%(1437份)作为训练样本,30%(616份)数据作为测试样本。以
R2为指标,使用GridSearchCV函数搜索leaming_rate(学习率)、n_estimators(迭代次数)和max_depth(树的最大深度)等参数,出最佳模型。GridSearchCV函数主要功能为自动调参,给出参数范围,能出最优结果及其对应的参数,适用于小数据集。通过多次不断变化样本数据及设定参数范围,最终确定参数为learning_rate 二0.12,n_estimators=322,max_depth二5。
2.2.3实验结果
使用Xgboost和目前常用的心理数据分析方法决策树、SVM(support vector machines,支持向量机)、随机森林对大学生积极心理品质数据进行预测,先用GridSearchCV函数对决策树等3种方法进行参数优化,每种方法进行10次实验,每次实验随机选取总样本的70%进行训练,30%用于测试。记录疋指标的最大值和平均值,实验结果如表3所示。
54
第1期基于Xgboost算法的大学生积极心理品质预测及影响因素分析2021年
表3四种模型的的最大值和平均值
模型决策树SVM随机森林Xgboost
F最大值0.870.90.920.93
R2平均值值0.790.820.850.88
3大学生积极心理品质影响因素分析
使用内置函数get_booster().get_fscore()分析Xgboost模型的特征权重,出影响大学生积极心理品质的重要因素,为制定大学生积极心理品质培养策略提供决策支持。根据特征权重对模型贡献所占的百分比进行排名,结果如图1所示。
Feat ure lmporlam^e
og
0.06-
°-04~
0.02-
0.00-----------------------.---------------------------------.---------------------——
图1特征重要性排名
从图1可以看出,与家庭环境相关的特征有:父母的教育方式、家庭经济状况、父母的受教育程度、独生子女,其特征权重分别排在第1、5、6、8位,说明家庭环境对于大学生积极心理品质的影响较大,相关教育工作者可通过建立有效的家庭联系常态化机制,及时掌握学生的家庭环境变化。模型贡献度较高的特征还有:每周锻炼时间、学习成绩以及社团活动,利用线性回归分析单独分析每个特征与积极心理品质关系发现,这三个特征与积极心理品质均呈现出一定的线性正相关性,因此鼓励学生积极参加体育运动、培育良好的学习氛围及各类社团活动,均有利于培养大学生积极心理品质。年级对模型的贡献度排在第4位,说明随着大学生的成长,其积极心理品质也不断发生变化,反映出大学生积极积极心理品质可塑性较高,因此需定期开展积极心理品质教育,确保变化朝着有助于提高积极心理品质的方向发展。
4结论
本文使用Xgboost算法构建模型对大学生积极心理品质进行了预测,并使用GridSearchCV函数对模型参数进行优化,指标的最大值达到0.93,高于决策树、SVM和随机森林等算法。同时,对模型中的特征依据贡献度进行了排序,对影响大学生积极心理品质的重要因素进行了分析。本文不足之处在于使用了GridSearchCV函数对Xgboost 算法模型进行调参,但这种调参方式一般适用于小样本,后续将研究大样本下Xgboost算法在大学生积极心理品质分析中的应用。
参考文献
[1]Martin E.P.Seligman.Authentic Happiness:Using the New Positive Psychology to Realize Your Potential for Last­ing Fulfillment[M].Guangdong:Atria Books,2004.
[2]官,孟万金.中国中小学生积极心理品质量表编制报告[J].中国特殊教育,2009(4):70-76.
[3]张艳芳,谢虹.本科护生积极心理品质现状及骸响因素分析[J].中国健康心理学杂志,2019,27(02):294-29&
[4]蒋蒙蒙,谢虹.医学生积极心理品质的现状调查及骸响因素研究[J].护理研究,2017,31(26):3264-3267.
[5]李军兰,郭维维.体育锻炼与非锻炼者积极心理品质比较研究[J].太原师范学院学报(自然科学版),2015, 14(03):85-8&
[6]Haridas S,Bhullar N,Dunstan D    A.What s in character strengths Profiling strengths of the heart and mind in a commu-nity sample[J].Pers Indiv Differ,2017(113): 32-37.
[7]郭玉芳,张娜,张静平.独生与非独生护生积极心
55
第1期黑龙江工业学院学报2021年
理品质及其骸响因素的比较[J].解放军护理杂志,2016, 33(21):11-15+20.
[8]余凯,贾磊,陈雨强,等.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(09):1799-1804.
[9]奚晓岚,程灶火.基于神经网络的大学生心理健康评估模型[J].中国临床心理学杂志,2011(06):746-747.
[10]李哲,张映雪,胡蕙.聚类分析在大学生心理健康管理中的应用[J].湖北工程学院学报,2014(06):53-57.
[11]黄中海.数据挖掘在高校学生心理危机预防中的应用[D].武汉:武汉科技大学,2015.
[⑵李坚孝,吴家隐,莫秋燕,等•基于文本相似度的心理预警技术研究[J].数字通信世界,2019(06):70.
[13]陈小芳,童敏,石晨,等.多源大学生心理健康调查问卷数据可视分析[J].计算机辅助设计与图形学学报, 2020,32(02):181-193.
[14]Chen T,Guestrin C.Xgboost:A scalable tree boos­ting system[C]//Proceedings of the22Nd ACM SIGKDD In­ternational Conference on Knowledge Discovery and Data Min­ing.ACM,2016:785-794.
[15]张昊,纪宏超,张红宇.XGBoost算法在电子商务商品推荐中的应用[J].物联网技术,2017,7(02):102-104.
[16]叶倩怡,饶泓,姬名书.基于Xgboost的商业销售预测[J].南昌大学学报(理科版),2017,41(03):275-281.
[17]谢勇,项薇,季孟忠,等.基于Xgboost和LightGBM 算法预测住房月租金的应用分析[J].计算机应用与软件, 2019,36(09):151-155+191.
[18]李欣,俞卫琴.基于改进GS-XGBoost的个人信用评估[J].计算机系统应用,2020,29(11):145-150.
[19]Schapire R    E.A Brief Introduction to Boosting
[C]//Sixteenth International Joint Conference on Artificial Intelligence.Morgan Kaufmann Publishers,Inc,1999:1401-1406.
[20]Friedman J H.Greedy Function Approximation:A Gradient Boosting Machine[J].Annals of Statistics,2001,29 (5):1189-1232.
Prediction and Analysis of Influencing Factors of College Students'
Positive Psychological Quality Based on Xgboost Algorithm
Yang Li,Chang Jie,Zhang hao,Liu Juntong
(School of Medical Information,Wannan Medical College,Wuhu,Anhui241002,China) Abstract:We collected the data of college students*positive psychological quality and the influencing factor from four universities in Wuhu byscale and constructed a sample database.The Xgboost(eXtreme Gradient Boosting)algorithm model is applied to analyze the sample data,and the decision tree,SVM(support vector machines),random forest algorithm are compared with it.The experimental results show that the Xgboost algo­rithm has the highest prediction accuracy and its maximum determination coefficient R2is0.93,which shows the effectiveness of prediction.At the same time,the influencing factors including family environment,academic performance,weekly exercise time,club activities,grade and so on,have a higher contribution in prediction mod­el.This study has a certain reference value for predicting the positive psychological quality of college students and analyzing the factors that affects those positive qualities.
Key words:Xgboost;positive psychological quality;influence factors
Class No.:TP391:TP181Document Mark:A
(责任编辑:王占峰) 56

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。