基于学生成绩回归预测的多模型适用性对比研究*
作者:喻铁朔 李霞 甘琤
来源:《中国教育信息化·高教职教》2020年第09期
正则化的回归分析
        摘 要:学生成绩预测是教育数据挖掘在教学实践中的一大重点,相比分类成绩预测的
单一结果,回归成绩预测更能深化预测在教学实践中的意义。文章基于H2O框架下广义线性模型(GLM)、深度学习(DL)、梯度提升树(GBT)以及支持向量机(SVM)四种主流模型进行回归预测比较研究。从模型预测精度、预测结果对比、预测误差分析三个角度分析4种模型,在不同课程、不同课程属性下的适用性。结果表明,DL模型适用于专业课程,SVM模型适用于公共课程,回归模型的成绩预测受到离数据影响较大,各模型对离数据解释能力较弱。
        关键词:学生成绩预测;回归模型;多模型对比;误差分析
        中图分类号:TP301.6 文献标志码:A 文章编号:1673-8454(2020)17-0023-06
        一、引言
        在高校的教学过程中,学生课程成绩是衡量学生知识掌握程度和教师教学质量的主要依据。当下,高校信息化建设逐步转化为智慧校园建设,在此过程中积累了海量的数据,应用教育数据挖掘方法与数据相结合能够实现学生未来的成绩预测。周庆等[1]针对EDM(教育数据挖掘)的研究特点、不足及发展趋势进行了歸纳,阐述了各类预测算法的应用场景及优缺
点。利用数据挖掘技术进行回归成绩预测能够给学生提供课程学习指引、帮助学生规避学业风险,也能够为教师和管理者的教学重点和管理方案提供决策支持。
        目前国内外有许多预测方面的研究,在学业预测方面,Goker H等[2]通过学生的基本信息与课程信息,应用贝叶斯分类方法改进早期预警系统预测学生未来学业成就,并发现影响学生学业的主要因素。Francis等[3]将学生特征分为人口特征、学术特征、行为特征和额外特征四个方面进行不同的组合,运用聚类算法和分类预测相结合的混合算法构建学习成绩预测模型。刘博鹏等[4]通过动态特征提取和偏互信息(PMI)对学生特征进行选取,并通过交叉验证方法对支持向量机(SVM)算法进行动态参数调整后实现成绩预测。孙力等[5]运用C5.0决策树方法,通过分析网络学历教育本科生的相关信息,实现英语统考的成绩预测,并提出相应策略来提高英语学习水平和考试通过率。
        数据挖掘预测方法在其它领域中应用也十分广泛,张慧玲等[6]针对风电场的数据特征变化采用三种主流的预测算法进行适应性对比研究,通过预测精度、计算效率及模型适应性比较模型优劣势。李静等[7]采用BP神经网络、支持向量机、LSTM模型针对基因工程领域未来研究热点趋势进行预测,并对比分析三种模型的优劣。
        现阶段的EDM研究预测主要以分类问题为主,预测模型大多单一且相应的分类预测结果不能对预测结果进行有效的分析。在课程成绩预测过程中,预测课程不同,相应模型拟合效果也不同。本文针对上述问题,拟进行回归类型的成绩预测,采用GLM(线性回归模型)、Deep Learning(深度学习)、GBT(梯度提升树)、SVM(支持向量机)四种主流的预测算法分析其在不同课程属性下的特性。从预测精度、误差分析、预测分布3个方面对四种算法进行比较,针对高校学生课程成绩预测,选取不同训练样本,提供合适的预测算法参考依据。
        二、预测对比流程
        本文基于四种主流的学生成绩回归预测方法步骤如下:①从高校教务数据库中获取学生信息;②对抽取的数据完成数据清洗转换;③对清洗后的数据进行数据预处理;④进行课程特征选择,选取不同类型课程进行预测;⑤模型应用评估,选取合适算法进行对比分析,提供适合不同课程的算法。具体算法流程如图1所示。
        1.GLM模型
        文章使用H2O(3.8.26版本)框架执行GLM模型、DL模型、GBT模型,H2O是开源的、分布式的、基于内存的、可扩展的机器学习和预测分析框架。[8]广义线性模型(GLM)是传统线性模型的扩展。该算法通过使对数似然值最大来拟合广义线性模型,弹性净罚可用于参数正则化,模型拟合计算是并行的,速度极快,并且对有限数量的非零系数预测因子的模型具有极好的可伸缩性。广义线性模型有三个组成部分——随机部分、系统部分和联结函数。
        随机部分:属于指数分布族的相互独立的随机变量yi,密度函数为:
        f(yi|θi,φ)=exp(c(yi,φ))(1)
        其中θi和φ为参数,b和c为函数。yi的期望是μi方差为均值的函数,则E(yi)=μi=b'(θi),var(yi)=b'(θi)。其中b'(θ)和b''(θ)分别表示函数b的一阶和二阶导数。
        系统部分:假设x1,x2,…,xp为对应于y1,y2,…,yn的p维自变的值,存在某线性预估量η,参数β1,β2,…,βp的线性函数有:
        η=xTβ=∑p i=1xi βi(2)
        联结函数:联结函数是指观测值xi与指数散布族的期望μi之间的函数关系。随机部分和系统部分通过ηi=g(μi)连接在一起,g(x)称为联结函数。容易得到:
        g(μij)=x' ij β,i=1,2,…,p.(3)
        其中,β为未知实参数,xTi=(xi1,…,xin)表示第i个观测向量。
        2.Deep Learning模型
        在H2O框架中深度学习是基于人工神经网络(ANN),是最常见的深度神经网络类型,也是H2O-3中唯一支持的类型。[9]该网络采用反向传播的随机梯度下降训练,可以包含大量的隐藏层,由具有tanh、整流器和maxout激活功能的神经元组成。也可以实现如自适应学习率、率退火、动量训练、L1或L2正则化和网格搜索,能够使预测精度更加准确。在模型训练过程中,每个计算节点使用多线程(或异步)在其本地数据上训练全局模型参数的副本,并通过网络模型定期平均地向全局模型传输参数。
        应用深度学习算法需要设置激活函数、分布函数和损失函数两个重要参数,在H2O框架中深度学习主要使用Tanh(双曲正切函数)、Recrified Linear(线性整流器)、Maxout(最大输出)三种主要激活函数,文章选用Recrified Linear。
        f(α)=max(0,α)(4)
        在H2O中常用的分布函数有AUTO(自适应分布)、Multinomial(多项式分布)、Gaussian(高斯分布)、Laplace(拉普拉斯分布)、Huber(霍尔分布)、Poisson(泊松分布)等,每一个分布都有对应的损失函数。Multinomial分布对应交叉熵损失函数(cross-entropy loss),Gaussian分布对应于均方差损失函数(Mean Squared Error Loss),Laplace分布对应于绝对值损失函数(Absolute Loss),Huber分布对应霍尔损失函数(Huber Loss),對于Poisson分布等一些函数损失函数不能改变,所以损失函数设置为AUTO。具体损失函数如下:
        L(w,B|j)=‖tj-oj‖22(5)
        3.GBT模型
        梯度增强树模型又可以称为GBM(梯度增强机)是回归或分类树模型的集合。这两种方法都是通过逐步改进的估计获得预测结果的前向学习集成方法。该方法的指导思想是通过不断改进的近似来获得良好的预测结果。H2O 中构建的GBT以完全分布式的方式,在数据集的所有特征上依次构建回归树——其中每棵树都是并行构建的。GMT计算步骤如下:
        输入训练数据(xi,yi),构建提升树模型fM(x),初始化f0(x)=0。对于第m个基学习器,首先计算梯度:
        gm(xi)=f(x)=fm-1(x)(6)
        根据梯度学习第m个学习器:
        Θ'm=arg min∑N i=1[-gm(xi)-βmΘ(xi)]2(7)
        θ,β
        通过line search求取最佳步长:
        βm=arg min∑N i=1L[yi,fm-1(xi)+βmΘ'm(xi)](8)

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。