大数据背景下高校教育数据的分析与应用研究--688IT编程网

大数据背景下高校教育数据的分析与应用研究
作者：胡祖辉徐毅
来源：《现代教育科学》2017年第01期

[摘要]教育数据在大数据时代成了宝贵资源，其价值已经在国内外引起了相关方面的高度重视。为挖掘教育数据中蕴含的有价值信息，笔者提出了教育数据分析的模型，并以高校常见的学生、成绩、消费和门禁等方面的数据为例进行分析研究，为高校教育数据分析与应用提供参考。实践中，教育数据内涵丰富，分析方法众多，有待做进一步的深入研究，以便更好地服务于教育教学和教育管理。

[关键词]大数据；教育数据；分析模型；分析实例

[中图分类号] G640 [文献标识码] A[文章编号]1005-5843（2017）01-0109-06

[DOI]1013980/jcnkixdjykx201701022

一、引言

现代信息技术与经济社会交汇融合的逐步加深引发了数据的迅猛增长，人类社会跨入了大数据时代。国务院2015年印发的《促进大数据发展行动纲要》指出，大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合，正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析，从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。大数据正日益对全球生产、流通、分配、消费活动以及经济运行机制、社会生活方式和国家治理能力产生重要影响[1]。信息技术对教育领域的正面影响已经得到广泛认可。《国家中长期教育改革和发展规划纲要（2010-2020年）》和《教育部教育信息化十年发展规划（2011-2020年）》均明确指出，信息技术对教育发展具有革命性影响，必须予以高度重视[2]；以教育信息化带动教育现代化，是我国教育事业发展的战略选择 [3]。教育信息化为高校带来了丰富的教育资源、高效的教学方式、便捷的管理手段等诸多好处，提高了高校的教学科研水平和教育教学质量，从而提升了高校的核心竞争力。但在教育信息化的发展程度上，各高校的发展水平参差不齐，很多高校仍然将注意力集中在各种信息系统上，没有给予数据这一宝贵资源以应有的重视[4]；高校内部各个部门往往根据各自的业务需要单独建设信息系统，不同信息系统之间缺少数据共享，容易形成信息孤岛，难以保证数据的一致性和准确性；高校各个信息系统运行过程中产生的许多有价值的信息长期

被忽视，亟待加以分析和利用。因此，在大数据时代，数据是高校的无形资产，对数据进行分析和挖掘应成为高校推进教育信息化建设的一项重要内容。

二、教育数据的内涵与研究现状

教育数据是大数据的一个子集，即教育领域的数据。广义的教育数据是指整个教育活动过程中所产生的及根据教育需要所采集到的，一切用于教育发展并拥有巨大潜在价值的数据集合[5]。根据统计范畴的大小，教育数据可分为国家、社会、教育机构、教育活动参与者等多个层面。狭义的教育数据是指高校内各个信息系统运行过程中所产生的数据集合。高校学生从入学到毕业的整个大学生活周期中，在各个信息系统中留下了大量的数据信息，包括选课、考试、考勤、缴费、评优、上网、消费、图书借阅、网络学习等。杨现民等学者提出了教育数据的“冰山模型”——将教育数据分为显露于“冰面”之上的和隐藏于“冰面”之下的两大部分[6]。“冰面”上的数据主要为显性的结果性数据，如学籍信息、成绩信息、考勤信息、缴费信息等。而“冰面”下的数据则以隐性的过程性数据为主，包括学习、考试、上网、消费等行为以及各种行为之间的内在联系等。长期以来，很多高校将注意力集中于“冰面”上的数据，而忽视了对“冰面”下数据的利用。在大数据时代，我们需要转变观念，无论“冰面”上还是“冰面”下的数据都同等重要，要积极地加以研究和利用。

教育数据分析的重要意义在于通过分析得出能够反映客观事实的、潜在的、有意义的信息，以之保证教育教学的客观性和有效性。教育数据分析是运用数据分析方法从来自教育系统的原始数据中提取出有意义信息的过程，这些信息可以为教育者、学习者、管理者、教育软件开发者和教育研究者等提供服务[7]。教学、科研、管理是教育机构的基本活动，教育数据分析也就相应地分划为教学数据分析、管理数据分析和科研数据分析三个研究方向[8]。教育活动与教育数据密切关联，教育活动产生教育数据，教育数据分析结果可以指导教育活动，实现两者双向关联的关键在于对教育数据的分析。

教育数据分析包括统计运算、数据挖掘、预测分析和决策支持等程序，其重要价值已经在国内外引起了高度的重视。早在2008年，荷兰、美国、德国、加拿大、澳大利亚等国的研究人员发起成立了国际教育数据挖掘组织。在该组织的大力推动下，第一届国际教育数据挖掘学术会议于2008年在加拿大召开，至今已举办了九届。同时，该组织于2011年开通了国际教育数据挖掘网站，并且成功创办了专门的电子期刊JEMD[9]。这促使越来越多的国家和高校开始重视对教育大数据的分析。2012年，美国教育部门实施了一项耗资2亿美元的将大数据分析应用于美国公共教育的计划，目的是运用教育大数据分析来促进教与学[10]。美国教育技术办公室在2012年10月发布了一份《通过教育数据挖掘和学习分析促进教与学》的研究

报告，对美国国内教育数据挖掘和学习分析的研究及应用情况进行了总结，并提出了改进建议[11]。在此期间，哈佛大学、斯坦福大学、耶鲁大学等世界知名高校都启动了教育大数据的相关研究计划；一些企业已经成功开发出了分析教育大数据的相关产品，如美国的Knewton公司、英国的Pearson公司、加拿大的Desire2Learn公司等。我国当前的教育大数据研究与应用整体上还处于起步阶段，专注于教育大数据发展应用的机构和企业为数不多。2014年5月，电子科技大学成立了教育大数据研究所，并已经取得了了数据一体化平台、学生画像系统等多项研究成果。2015年9月，中国统计信息服务中心和曲阜师范大学共同成立了中国教育大数据研究院。

三、教育数据分析模型

按照数据分析的一般流程，教育数据分析主要包括数据采集、数据预处理、数据分析和结果评价四个步骤（教育数据分析模型如图1所示）。

图1教育数据分析模型

（一）数据采集

教育数据来源广泛，涉及到高校的多个职能部门。通常这些数据分散存储在高校的各个信息系统之中，如存储在学生管理系统中，成绩数据存储在教务管理系统中，消费数据和门禁数据存储在校园卡管理系统中，图书借阅数据存储在图书借阅管理系统中，等等。综合考虑成本、可行性、安全性等因素，进行数据采集的最佳方案是先依托现有的各个信息系统进行日常数据采集，然后通过ETL数据共享和交换技术进行数据集成。由于各个信息系统可能采用不同的数据存储技术，因此数据源中的数据通常是异构的，可能包括Oracle、SQL Server、MySQL、文本文件等形式。ETL（ETL是英文 ExtractTransformLoad 的缩写，用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程）需要将分散的异构数据源中的数据提取到临时中间层，然后按照统一的数据标准进行转换，最后加载到目标数据库。

（二）数据预处理

数据采集解决了数据来源的问题，但这些来自现实中的“脏数据”往往无法直接用于数据分析，要在数据分析之前对数据进行预处理。数据预处理的方法有多种，包括数据清洗、合并、变换、归约等。数据清洗主要是处理数据中存在的缺失值和噪声数据，清除异常数据和

冗余数据，以提高数据质量；数据合并是根据数据分析的需要将原来分别从多个数据源采集到的数据进行整合，以提高数据分析效率；数据变换是通过离散化、规范化等方式将数据转换成适用于数据分析的形式；数据规约是运用数据归约技术得到原始数据集的归约表示，既保持了原数据的完整性，又大大减少了数据分析的时间。

（三）数据分析

广义的的数据分析方法可以分为两个层次，即狭义的数据分析和数据挖掘。狭义的数据分析是指使用统计分析方法及工具对数据进行处理与分析，提取有价值的信息。数据挖掘则是指运用人工智能、机器学习等算法，从大量数据中挖掘出隐含的、有价值的信息。狭义的数据分析和数据挖掘本质上都是从数据里面发现有价值的信息和规律，两者之间并没有清晰的界限。从某种意义上说，数据挖掘是一种更深层次的数据分析，其重点在于发现隐含的未知信息和规律。

（四）结果评价

结果评价的方法包括查准率、查全率、正确率、显著性等。查准率为算法识别正确的正

面样本数与所有识别为正面的样本数的比值，用于衡量算法的精确度；查全率也称为召回率，为算法识别正确的正面样本数与样本中所有的真正正面样本数的比值，反映算法的灵敏度；正确率为算法识别正确的观点数与样本总数的比值，反映算法的准确度；显著性为假设检验分析结果，通常以005或001为阈值，若显著性值小于阈值则拒绝原假设，大于阈值则接受原假设。具体采用哪些指标进行结果评价，需要根据实际情况来确定。

四、教育数据分析实例

（一）研究对象

为更好地说明教育数据分析的方法及应用价值，笔者以高校常见的、成绩数据、消费数据和门禁数据为研究对象进行实例分析。从学生管理系统中提取某年级在籍本科生数据6 725条记录，从教务管理系统中提取某年级成绩数据401 278条记录，从研究生管理系统中提取在籍研究生数据2 598条记录和研究生成绩数据45 988条，从校园卡管理系统中提取某月消费数据316 629条和门禁数据10 106数据可视化名词解释条。

（二）数据预处理

1。将本科生数据和研究生数据进行合并，保留“学号”“姓名”“性别”等关键信息字段，去除非关键信息字段，增加“学生类别”字段以区分本科生和研究生。合并后的记录总数为本科生和研究生记录之总和。

2成绩数据。为准确衡量每个学生的综合学习质量，引入GPA（Grade Point Average，平均绩点）进行成绩评定。经过计算平均绩点，每个学生只保留1条成绩数据记录，成绩数据量大大减少。为便于更好地进行数据分析，采用等宽分箱法进一步对成绩数据进行离散化处理。平均绩点在区间（0，1]的记录记为JD1，平均绩点在区间[1，2]的记录记为JD2，平均绩点在区间（2，3]的记录记为JD3，平均绩点在区间（3，4]的记为JD4。这样就把成绩数据分成了四类，反映了学生课程学习质量的四个层次。

3消费数据。首先利用数据库分组查询汇总得到每个学生的消费总金额。这样处理后得到的消费数据汇总记录就会小于记录总数（客观上存在部分学生一个月都不在校内消费的情况，对这部分学生按缺省值0进行填充），然后对消费金额进行离散化处理。消费金额为0的分为一组，记为JE1。对消费金额大于0的记录采用等频分箱法进行分组，即按照消费金额从小到大的顺序进行排列，根据人数等分为若干部分，每部分为一组。消费金额在

区间（0，164]的记录记为JE2，消费金额在区间（164，2745]的记录记为JE3，消费金额在区间（2745， 11614]的记录记为JE4，其中1 1614为最大消费金额。

4门禁数据。首先利用分组查询汇总得到每个学生的门禁刷卡次数，然后对没有门禁刷卡记录的学生按缺省值0进行填充，再对门禁刷卡次数进行离散化处理。门禁刷卡次数为0记录的分为一组，记为MJ1。门禁刷卡次数特征明显，可根据经验值将门禁刷卡次数大于0的记录分为2组：门禁刷卡次数为1次到3次的为“偶尔晚归”，记为MJ2；门禁刷卡次数大于3次的为“经常晚归”，记为MJ3。

（三）数据可视化分析

数据可视化分析是指将数据分析结果以图形、图像等形式予以展现，并进一步揭示其中所隐含信息的过程。使用Tableau对经过数据预处理的、成绩数据、消费数据和门禁数据进行可视化数据分析，可得到4张统计图表（如图2所示）。

688IT编程网

大数据背景下高校教育数据的分析与应用研究

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

688IT编程网

大数据背景下高校教育数据的分析与应用研究

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林 重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

随机森林重要性