基于Hadoop的高校学生行为预警决策系统研究--688IT编程网

第38卷第1期 2021年1月

计算机应用与软件

Computer Applications and Software

Vol.38 No.1

Jan. 2021

基于Hadoop的高校学生行为预警决策系统研究

葛苏慧1万泉1白成杰2

1(青岛工学院信息工程学院山东青岛266300)

2(山东师范大学信息科学与工程学院山东济南250358)

摘要通过智慧校园各种智能终端、可感知设备，获取学生校园动态行为轨迹数据，构建多维数据存储中心。利用Hadoop框架分布式文件系统HDFS和MapReduce，将多维数据进行关联、分类、降维、聚类分析与可视化呈现。使学生特征标签化，生成基于特征矩阵的学生画像，从而分离出偏离中心点的学生异常，

建立动态的预警决策机制，从而进行前置预警和智慧决策；使高校管理机构及教师主动掌握学生的生活情况、学习状态及行为规律, 从而对不良思想行为做到事先警示教育、事后跟踪管理，实现以学生为视角的智能管控及智慧管理。基于Hadoop 的预警决策系统，开创了智慧校园教育管理决策科学化、管理智能化、监督过程化的新模式，具有较高的经济效益与推广应用价值。

关键词 H a d o o p聚类降维预警决策

中图分类号 TP389.01 文献标志码 A DOI:10.3969/j.issn.1000-386x.2021.01.002

HADOOP-BASED COLLEGE STUDENT BEHAVIOR WARNING DECISION SYSTEM

Ge Suhui1Wan Quan1Bai Chengjie2

1 ( College of Information Engineering, Qingdao Institute of Technology, Qingdao 266300，Shandong，China)

2 {College of Information Science and Engineering , Shandong Normal University, Jinan 250358 , Shandong , China)

Abstract By means of various intelligent terminals and perceptible devices in the smart campus，the d

ynamic behavior trajectory data of the student campus are obtained，and the multi-dimensional dat The Hadoop framework distributed file system HDFS and MapReduce are used to cor analyze cluster and visualize the multi-dimensional data.It can label the characteristics of students，generate the students’portraits based o n the characteristic matrix，separate the students’anomalies that deviate from the center point，establish a dynamic early-warning decision-making mechanism，thus carrying out early-warning and wise decision；it can make the management institutions and teachers in colleges and universities take the initiative to the students，learning state and behavior rule，and bad thoughts and actions do advance warning education，after the event tracking management，implementing the perspective of students of the intelligent control and intelligent management.The early w arning decision system based on Hadoop creates a new model of scientific decision making，intelligent management and p rocess supervision for intelligent campus education management，which has high economic benefits and application value.

Keywords Hadoop Clustering Dimension reduction 〇引言

大数据带来的信息风暴正在改变着人们的日常生活、工作模式和思维方式，但目前很多高校教育管理手Warning decision

段存在诸多弊端，管理方式大多停留在宣传教育、定期检查阶段，管理模式多数是事后分析，管理手段既落后又被动，很难适应大数据时代智慧校园智能管控的要求。学业危机、安全危机、心理危机、就业危机、舆情危机等成为高校学生管理亟须解决的问题。因此，大数

收稿日期：019 - 05 - 09。山东省本科高校教学改革研究重点项目（2018X072)；山东省高校科技计划项目（J16L N54)。葛苏慧，副教授，主研领域：数据挖掘，机器学习。万泉，讲师。白成杰，教授。

第1期葛苏慧，等：基于

Hadoop的高校学生行为预警决策系统研究7

据背景下，要求高校管理者转变思维，运用大数据分析技术，开展多维、动态、全面、智能的教育管理新模式，建立动态的预警决策机制，主动掌握学生生活、学习、

行为规律，对不良思想行为做到事先警示教育、事后跟踪管理，从而实现个性化的管理新模式，探索实效性的管理新路径。

本文主要利用H ad op大数据框架及只0[3、1\^卩-Reduce、Spark、Kafka、Flume大数据技术研发智慧校园预警决策系统，使用Kafka、Flume进行日志采集，HDFS为海量学生校内轨迹数据提供存储，MapReduce

提供并行运算，从而提供动态的学生校内行为轨迹地图和查询功能。利用基于距离的聚类方法，对经过降维后的学生特征数据进行分类，分离出偏离中心点的状态异常的学生；使用EC hart、D3.j s可视化呈现，采用 SaaS形式交付，生成“学生画像”对学生行为进行监控、预警、根源分析的闭环管理，并通过网页版和手机版html5技术以、短信的方式主动推送预警，实现异常事件的闭环管理，为智慧校园的学生行为管理提供智能的手段，实现一种全新的智能管控新思路。

1 H a d o o p大数据技术数据采集层对学生的历史数据、点击流、实时日志等数据市场的数据进行采集；运行数据层利用H ad op集、云存储、云数据库等对多维数据进行计算；核心能力层是对计算之后的数据进行清洗、建模、分析，实现即时查询；场景应用层对数据进行可视化呈现[m]。权限管理分用户管理、角管理、用户组管理、文件管理。安全认证可以分为iPaas、Ldap和Kerberos三类。预警决策系统可实现校园足迹、行为轨迹实时监测、预警反馈、预警信息主动推送，并利用EC hart、D3.j s可视化呈现，采用S a S形式交付。该预警决策系统整体结构如图1所示。

H adop是一个开源的海量数据处理框架，最核心的设计是HDFS和MapReduce，HDFS为海量数据提供存储和管理功能，处理非结构化的数据，MapReduce自动实现分布式并行计算，二者的巧妙结合使Hadoop拥有了高效的存储和计算能力[]。H ad op可利用集实现对海量数据的高效专业化处理，是一个对大规模数据存储、计算、分析、挖掘的软件平台，具有低成本、高效率等优点，能可靠地存储和处理P B级的数据[24。

本文利用H ad op框架的分布式文件系统HDFS 和MapReduce对智慧校园多维学生轨迹数据进行数据清洗、建模、计算、分析与可视化呈现，HDFS负责学生多维校内行为轨迹的存储和管理[4]，MapReduce负责对大规模数据集的并行处理。Hadoop能将一台机器的计算能力无限次、高速地复制到集机上，使集具有超强的计算能力，不断扩充处理速度与运算能力[5_7]。

2预警决策系统整体结构

基于H ad op的高校学生行为预警决策系统分为权限管理、安全认证、技术支撑四层模型、预警决策可视化呈现[8_9]四大部分。其中技术支撑四层模型分为数据采集层、运行数据层、核心能力层、场景应用层。

图1预警决策系统整体结构图

2.1数据采集清洗

通过高校智慧校园中的校园信息化基础设施以及物联网、智能感知、云计算等技术，利用Kafka、Flm e 大数据采集工具，收集学生的静态和动态特征属性，静态属性包括姓名、性别、专业、年级、宿舍、年龄、籍贯、爱好等特征；动态属性包括课堂考勤信息、线上线下学习情况、图书馆借阅情况、宿舍回归率、门禁系统、校园一卡通、餐厅就餐情况、校内上网情况、洗澡频率等数据。通过大数据采集工具

实现海量学生校内轨迹数据的抓取与存储，将多维的学生活动状态数据进行集成分类存储，生成学生在校画像属性值。把轨迹数据的属性值进行分类，将当前时刻数据属性值的样本，合并上一个周期采集到的并且已经处理完毕的数据属性值的样本进行清洗，采用曼哈顿函数计算目标区域为半径之外的数据距离本域中心点的偏离距离。然后计算某个属性的异常度，通过排序设定一定的阈值，将所有离点的偏离程度进行比对，判断该点与本域中心点之间的偏离距离，计算每个属性值的异常情况[12^5]。步骤如下：

依据〃个数据的属性值，设每个属性值的数据为 w维，（^)为这次数据属性值的样本，不同时刻L (h e[r，Q])采集到的数据属性值的样本为

，

8计算机应用与软件2021 年

因为校内轨迹数据的时序性，需要把当前时刻属性值的样本用式（1)合并上一周期已处理完的“干净”数据进行清洗。进行归一化处理。把严重偏离中心点的学生特征异常信息提取出来，从而分离出学生的异常状态，对异常行为作出科学的预测和研判。

\\I I\删除冗余点 + .,,, r(Sc(t_i))U S(t〇)-------->S(t〇)(1)

式中：A(h)表示h时刻清洗完毕的轨迹数据; 4&(-1))表示对[1时刻数据采集的结果；+(0)表示当前时刻与上一周期合并之后待处理的数据集，为了防止较高密度簇影响异常数据的分离需要将冗余删除。

设s为轨迹数据属性值集合S+ (〇)中的点，区域

半径RA D()表示分析目标距离中心点为第A远的对象的曼哈顿长度：

d(i,j)= X\Xl k - X]k⑵

式中：和心表示第A远对象的坐标值。

把点作为本域的中心，该区域包含k个对象，这些对象的集合为M()。由此可以得出结论，分布不均匀的、密度较大的区域RA d()较小，反之密度较小的区域RA d()则较大。

定义点s与点P之间的距离：

RE A(，）= maXH D(_P)I()利用式(3)可以求出轨迹数据集合S+(〇)内的第 Z个属性值的异常度(s)，对其排序，然后设置最大的阈值，从而分离出偏离中心点的异常数据。

k I(p)

L〇Y(s i)

Lm(s)

⑷I N(s,)I

式中：i…()和)分别为点P和点、的阈值长度

\Nk(s) |

A dk W

X R ea(，）

<^N k(s s

()

式中：4d()为)轨迹数据集合中平均可达距离密度的倒数。

由式(3)、式（4)、式（5)可知，如果点偏离中心点的距离较小，那么对于同一属性的轨迹数据的可达距离R a d()则较大，并且分布较为均匀；反之如果点^ 是偏离中心距离较远的异常点，那么可达密度的方差就较大，证明该点距离所有簇都相对较远，通过设置阈值计算偏离中心点的异常数据。

2.2聚类分析

利用Hadoop框架的HDFS、MapReduce技术，采用分布式文件系统和并行计算，将学生的静态和动态特征属性贴上标签，生成协方差特征矩阵的特征值及特征向量，使用主成分分析法进行降维处理，提取关键特征值，利用基于距离的方法进行聚类分析，将多维数据

主成分分析法利用降维的思想，使用线性变换的方法，将给定的一组相关变量转换成另一组不相关的变量，转换之后的新的变量按照方差依次递减的顺序排列，在数学变换中保持变量的总方差不变[16_18]

。利用主成分分析法，首先计算学生样本属性的协方差矩阵，再求出协方差矩阵的特征向量，根据这些特征向量生成变换矩阵的行向量，最后依据数据协方差矩阵的特征向量构成新的坐标系的基矢量。根据学生不同属性向量的特征可以得到如下结论。样本集在较大特征值对应的特征向量上的投影方差较大，所以该分量对于区分样本的贡献就较大[1_2]。由此可见，通过主成分分析法可以清晰地出区分性大的维和区分性不大的维。主成分分析法的具体实现步骤如下：

(1)将《个学生，每个学生的m个特性属性数据，构成《行m列的在校画像矩阵S ：

「S… S i …Slm1

s =

S21S22 (2)

Sn1Sn2…Sn m

(6)

如果用y来表示学生画像的某一项属性，那么所有学生的这一项属性 '.可表示为：

(2)利用式（）对矩阵s中每行学生属性进行归一化处理，如果第i个学生的属性7进行标准化处理之后的结果为S那么所有学生特征J的平均值可用S 表示，学生属性值y的方差用v a K S)来表示。

S,,=S;

差矩阵R：

R：

i=1,2,…，几；’= 1，2，*..,m(8)

像属性矩阵s进行计算，得出协方

、1厂12••*^m"

厂21厂22.•*r2m

(9)

-、1r nm.**r mn-

为了使统计分析的结果达到更好的处理效果，需要对学生特征属性的多维数据进行归一化处理，把经过数据清洗、处理之后的特征矩阵代替原来的矩阵s ，

第1期

葛苏慧，等：基于

Hadoop 的高校学生行为预警决策系统研究

式（10)可以计算特征矩阵S 的有关系数。

\. X s tisj 込，=1

，…，m (10)

t = 1

(4)特征值表示为A ，协方差矩阵E 的特征值

A € 二（A i A。，…，A —)，特征向里仏=(%，a 。，…，a —)，

贡献率w 由式（11)计算，特征值人1的贡献率为^。

X A —

—=1

(5) 从标准化处理之后的学生的特征属性数据中

选择主成分，按照贡献率w 将学生的特征属性值由高到低降序排列，根据统计的实际需要提取属性的前若

干行，从而形成降维后的学生特征矩阵S 。

(6)

采用KHM (K-HamioniC Mean S)算法对特征矩

阵S 进行聚类分析，如图2所示，该算法根据式（12) 最终计算出每个学生的特征属性数据到各聚类中心的调和平均值的和。

〜HM = X (/(X 1 以2(S —q )))

(12)

—1 —1

式中：第—个学生的m 个特征表示为S = I S —，S —，…， S —丨，第/个聚类中心表示为q = [G ，2,…，

，第

—个学生到中心点/的距离为4S —C ,)。利用初始值通过公式不断迭代，最终使得各类趋于稳定，从而分离出状态异常的学生[21]。

2.3

预警决策

最终该预警决策系统使用EC h a t 、D 3. j s 可视化输出，采用S a S 形式交付，生成学生在校画像，并提供学生校内行为轨迹和查询功能。学校管理人员可以实时感知学生生活、学习及活动状态，从而动态监测学生异常，对于可能会发生的异常问题或已经出现危机前兆的问题，通过网页版和手机版html 5技术以、短信的方式主动推送预警，实现学生异常事件的闭环管理，对异常事件真正做到可查、可管、可追溯。

3算例分析

实验在真实环境下进行，采用基于Hadoop 框架搭建的HDFS 、MapRedUCe 技术，HDFS 提供存储和管理，

MapReduce 实现分布式计算。集相关配置情况如表 1所示。

表1

集配置参数

项目

配置

Hadoop

2.0 -v 1.7Spark

v 1. 1操作系统

Cent OS 6.5JDK

1.7带宽100 Mbit 服务器数量5台

计算能力

62 个 4CPU/8 GB 内存Master 8 G B x 4内存，2 TB 硬盘Slave

8 G B x 2内存，4 TB 硬盘

3.1

轨迹数据分析

为验证Hadoop 架构和MapReduce 算法的性能，实验样本集为某高校数据采集系统1个月的学生校内

轨迹数据，学生轨迹数据每天采集量为10个点，将原数据集横向表示为1个不同大小的样本集[22]。前5 个轨迹数据样本的差异性较小，在处理少量文件时 H adop 无法体现它的优势，但当样本集数据量日志增

大时，Hadoop 便能对大规模的学生轨迹数据集进行分

布式并行处理，清洗速度与清洗量近似正相关[23]。算例中采集了学生1个月的校内轨迹数据，最大样本集中有5万个监测点，100万条数据，数据清洗时间大约为1 s ，其速度和处理能力完全满足目前乃至今后一段时间内的校内轨迹数据采集量的要求。

图3所示是某天15 870个轨迹数据采集点的日清洗情况，其中折线为平均斜率，表示平均变化趋势。因为校内轨迹数据采集所需的时间与学生异常数据的规模无关，且Hadoop 能够处理大规模的非结构化数据，并将原数据分类进行差异化处理、添加时间戳，所以数据的质量不会影响轨迹数据的清洗效率。为验证算法的高效性，在样本数据的24个时间段中随机生成大规模异常数据。通过实验验证得出，Hadoop 具有强大的快速处理能力，1万条数据的清洗时间大约是 5 636〜6 340 ms ，而且不同规模的异常数据量的清洗

时间变化较为稳定。

10计算机应用与软件2021 年

通过此预警决策系统对全校30多个专业，10 000 多名学生进行了校内活动轨迹数据的采集、清洗、处理

和聚类分析，读取历史数据，形成时间节点的数据集合，并合并上一次采集周期的数据进行清洗，设置目标区域半径。通过曼哈顿长度计算异常数据距离中心点的离程度，利用主成分分析法进行降维处理，生成学生静态和动态属性的特征矩阵，使用基于距离的方法进行聚类分析，并通过此预警决策系统最终可视化呈

现，将严重偏离中心点的学生异常提取出来。图4为学生校内轨迹数据聚类图，通过采集10个月期间的大规模学生校内轨迹数据，进行清洗以及聚类分析，然后将此预警决策系统测试的结果与学生的实际状态进行比对，得出的结论如表2所示。可以看出此预警决策系统分析的结果与这些学生在校内的实际状态基本一致，数据预测成功率接近95%，误差率可以控制在

6.5%之内。

岿30

驾25

■E

雲2〇

魅

® 10

卜5

51015202530

课堂考勤/宿舍回归率/门禁系统/I t餐情况/

校园一卡通特征值

图4校内轨迹数据聚类图

hadoop分布式集搭建

表2系统预警与实际状态结果比对

月份一致率/%偏远运行时间/m s Diff/%

393.60.1154.3289. 1

490.60.053.7088.9

591.20.0960.4190.3

续表2

月份一致率/%偏远运行时间/m s Diff/%

698.40.0462.8697.4

792.70.0857. 1790.7

897.60.0553.5598.4

996.10.0647. 1193.2

1089.60. 1454.3687.3

1199.30.0359.4899.8

12100.00.0155.0100.0 3.2学生画像规则

学生画像标签分为内容和权重。标签是可变的，权重也是实时变化的，随时间延长而衰减。以学生成绩记录为例：张三，数学成绩90，为学生打上某一学科成绩的标签。通过编写学生画像规则，来计算标签权重，基本权重=90/100 =0.9。时间衰减因子为f i，随着时间D(天数）的延长，尺会线性减少，尺=1-0.05x2)。标签权重=基本权重x衰减因子。由此计算出张三的数学成绩标签权重为0.9，标签内容为科目名称“数学”，因此该学生的一个标签为：数学，0. 9。一周之后如果衰减因子变为0.7，标签权重变为0.63，那么该生的标签为：数学，0.63。当标签权重不断减小到某个值，如0.5时，就要为该生“撕下”数学的标签，从而更好地体现标签的实时性，因此将0.5记为阈值。再使用Hive规则生成学生标签，存入标签库，表3为学生画像表（USer_Profil e)。

表3学生画像表

字段名类型摘要

Sequence_Num Int序号

School_ID Int学校编码

Student_ID String学生考号

Student_Name String学生姓名

Tag_ID Int标签ID

Tag_Describe String标签内容

Tag_Weight Double标签权重

Tag_Time Date标签时间HiveQL标签生成语句：

insert into table User_Profile select g.School_ID，g.Student_ ID，g.Student_ Name，001，“数学，’，0• 9，2016 - 12 -01 from Grade g where Subject= “数学，’。

不是异常学生的概率为：

P(A2\B1) =1 -P(A2\B1) =1 -0. 15 =0. 85

(13)

688IT编程网

基于Hadoop的高校学生行为预警决策系统研究

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

688IT编程网

基于Hadoop的高校学生行为预警决策系统研究

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林 重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

随机森林重要性