第38卷第1期 2021年1月
计算机应用与软件
Computer Applications and Software
Vol.38 No.1
Jan. 2021
基于Hadoop的高校学生行为预警决策系统研究
葛苏慧1万泉1白成杰2
1(青岛工学院信息工程学院山东青岛266300)
2(山东师范大学信息科学与工程学院山东济南250358)
摘要通过智慧校园各种智能终端、可感知设备,获取学生校园动态行为轨迹数据,构建多维数据存储中心。利用Hadoop框架分布式文件系统HDFS和MapReduce,将多维数据进行关联、分类、降维、聚类分析与可视化呈 现。使学生特征标签化,生成基于特征矩阵的学生画像,从而分离出偏离中心点的学生异常,
建立动态的预警决 策机制,从而进行前置预警和智慧决策;使高校管理机构及教师主动掌握学生的生活情况、学习状态及行为规律, 从而对不良思想行为做到事先警示教育、事后跟踪管理,实现以学生为视角的智能管控及智慧管理。基于Ha­doop 的预警决策系统,开创了智慧校园教育管理决策科学化、管理智能化、监督过程化的新模式,具有较高的经济 效益与推广应用价值。
关键词 H a d o o p聚类降维预警决策
中图分类号 TP389.01 文献标志码 A DOI:10.3969/j.issn.1000-386x.2021.01.002
HADOOP-BASED COLLEGE STUDENT BEHAVIOR WARNING DECISION SYSTEM
Ge Suhui1Wan Quan1Bai Chengjie2
1 ( College of Information Engineering, Qingdao Institute of Technology, Qingdao 266300,Shandong,China)
2 {College of Information Science and Engineering , Shandong Normal University, Jinan 250358 , Shandong , China)
Abstract By means of various intelligent terminals and perceptible devices in the smart campus,the d
ynamic behavior trajectory data of the student campus are obtained,and the multi-dimensional dat The Hadoop framework distributed file system HDFS and MapReduce are used to cor analyze cluster and visualize the multi-dimensional data.It can label the characteristics of students,generate the students’portraits based o n the characteristic matrix,separate the students’anomalies that deviate from the center point,establish a dynamic early-warning decision-making mechanism,thus carrying out early-warning and wise decision;it can make the management institutions and teachers in colleges and universities take the initiative to the students,learning state and behavior rule,and bad thoughts and actions do advance warning education,after the event tracking management,implementing the perspective of students of the intelligent control and intelligent management.The early w arning decision system based on Hadoop creates a new model of scientific decision making,intelligent management and p rocess supervision for intelligent campus education management,which has high economic benefits and application value.
Keywords Hadoop Clustering Dimension reduction 〇引言
大数据带来的信息风暴正在改变着人们的日常生 活、工作模式和思维方式,但目前很多高校教育管理手Warning decision
段存在诸多弊端,管理方式大多停留在宣传教育、定期 检查阶段,管理模式多数是事后分析,管理手段既落后 又被动,很难适应大数据时代智慧校园智能管控的要 求。学业危机、安全危机、心理危机、就业危机、舆情危 机等成为高校学生管理亟须解决的问题。因此,大数
收稿日期:019 - 05 - 09。山东省本科高校教学改革研究重点项目(2018X072);山东省高校科技计划项目(J16L N54)。葛苏慧,副教授,主研领域:数据挖掘,机器学习。万泉,讲师。白成杰,教授。
第1期葛苏慧,等:基于
Hadoop的高校学生行为预警决策系统研究7
据背景下,要求高校管理者转变思维,运用大数据分析 技术,开展多维、动态、全面、智能的教育管理新模式,建立动态的预警决策机制,主动掌握学生生活、学习、
行为规律,对不良思想行为做到事先警示教育、事后跟 踪管理,从而实现个性化的管理新模式,探索实效性的 管理新路径。
本文主要利用H ad op大数据框架及只0[3、1\^卩-Reduce、Spark、Kafka、Flume大数据技术研发智慧校园 预警决策系统,使用Kafka、Flume进行日志采集,HDFS为海量学生校内轨迹数据提供存储,MapReduce
提供并行运算,从而提供动态的学生校内行为轨迹地 图和查询功能。利用基于距离的聚类方法,对经过降 维后的学生特征数据进行分类,分离出偏离中心点的 状态异常的学生;使用EC hart、D3.j s可视化呈现,采用 SaaS形式交付,生成“学生画像”对学生行为进行监 控、预警、根源分析的闭环管理,并通过网页版和手机 版html5技术以、短信的方式主动推送预警,实现 异常事件的闭环管理,为智慧校园的学生行为管理提 供智能的手段,实现一种全新的智能管控新思路。
1 H a d o o p大数据技术数据采集层对学生的历史数据、点击流、实时日志等数 据市场的数据进行采集;运行数据层利用H ad op集 、云存储、云数据库等对多维数据进行计算;核心能 力层是对计算之后的数据进行清洗、建模、分析,实现 即时查询;场景应用层对数据进行可视化呈现[m]。权限管理分用户管理、角管理、用户组管理、文件管 理。安全认证可以分为iPaas、Ldap和Kerberos三类。预警决策系统可实现校园足迹、行为轨迹实时监测、预 警反馈、预警信息主动推送,并利用EC hart、D3.j s可视 化呈现,采用S a S形式交付。该预警决策系统整体结 构如图1所示。
H adop是一个开源的海量数据处理框架,最核心 的设计是HDFS和MapReduce,HDFS为海量数据提供 存储和管理功能,处理非结构化的数据,MapReduce自动实现分布式并行计算,二者的巧妙结合使Hadoop拥 有了高效的存储和计算能力[]。H ad op可利用集 实现对海量数据的高效专业化处理,是一个对大规模 数据存储、计算、分析、挖掘的软件平台,具有低成本、高效率等优点,能可靠地存储和处理P B级的数据[24。
本文利用H ad op框架的分布式文件系统HDFS 和MapReduce对智慧校园多维学生轨迹数据进行数 据清洗、建模、计算、分析与可视化呈现,HDFS负责学 生多维校内行为轨迹的存储和管理[4],MapReduce负 责对大规模数据集的并行处理。Hadoop能将一台机 器的计算能力无限次、高速地复制到集机上,使集 具有超强的计算能力,不断扩充处理速度与运算能力[5_7]。
2预警决策系统整体结构
基于H ad op的高校学生行为预警决策系统分为 权限管理、安全认证、技术支撑四层模型、预警决策可 视化呈现[8_9]四大部分。其中技术支撑四层模型分为 数据采集层、运行数据层、核心能力层、场景应用层。
图1预警决策系统整体结构图
2.1数据采集清洗
通过高校智慧校园中的校园信息化基础设施以及 物联网、智能感知、云计算等技术,利用Kafka、Flm e 大数据采集工具,收集学生的静态和动态特征属性,静 态属性包括姓名、性别、专业、年级、宿舍、年龄、籍贯、爱好等特征;动态属性包括课堂考勤信息、线上线下学 习情况、图书馆借阅情况、宿舍回归率、门禁系统、校园 一卡通、餐厅就餐情况、校内上网情况、洗澡频率等数 据。通过大数据采集工具
实现海量学生校内轨迹数据 的抓取与存储,将多维的学生活动状态数据进行集成 分类存储,生成学生在校画像属性值。把轨迹数据的 属性值进行分类,将当前时刻数据属性值的样本,合并 上一个周期采集到的并且已经处理完毕的数据属性值 的样本进行清洗,采用曼哈顿函数计算目标区域为半 径之外的数据距离本域中心点的偏离距离。然后计算 某个属性的异常度,通过排序设定一定的阈值,将所有 离点的偏离程度进行比对,判断该点与本域中心点 之间的偏离距离,计算每个属性值的异常情况[12^5]。步骤如下:
依据〃个数据的属性值,设每个属性值的数据为 w维,(^)为这次数据属性值的样本,不同时刻L (h e[r,Q])采集到的数据属性值的样本为
8计算机应用与软件2021 年
因为校内轨迹数据的时序性,需要把当前时刻属性值 的样本用式(1)合并上一周期已处理完的“干净”数据 进行清洗。进行归一化处理。把严重偏离中心点的学生特征异常 信息提取出来,从而分离出学生的异常状态,对异常行 为作出科学的预测和研判。
\\I I\删除冗余点 + .,,, r(Sc(t_i))U S(t〇)-------->S(t〇)(1)
式中:A(h)表示h时刻清洗完毕的轨迹数据; 4&(-1))表示对[1时刻数据采集的结果;+(0)表示当前时刻与上一周期合并之后待处理的数据集,为 了防止较高密度簇影响异常数据的分离需要将冗余 删除。
设s为轨迹数据属性值集合S+ (〇)中的点,区域
半径RA D()表示分析目标距离中心点为第A远的对 象的曼哈顿长度:
d(i,j)= X\Xl k - X]k⑵
式中:和心表示第A远对象的坐标值。
把点作为本域的中心,该区域包含k个对象,这 些对象的集合为M()。由此可以得出结论,分布不均 匀的、密度较大的区域RA d()较小,反之密度较小的 区域RA d()则较大。
定义点s与点P之间的距离:
RE A(,)= maXH D(_P)I()利用式(3)可以求出轨迹数据集合S+(〇)内的第 Z个属性值的异常度(s),对其排序,然后设置最大 的阈值,从而分离出偏离中心点的异常数据。
k I(p)
L〇Y(s i)
Lm(s)
⑷I N(s,)I
式中:i…()和)分别为点P和点、的阈值长度
\Nk(s) |
A dk W
X R ea(,)
<^N k(s s
()
式中:4d()为)轨迹数据集合中平均可达距离 密度的倒数。
由式(3)、式(4)、式(5)可知,如果点偏离中心点的距离较小,那么对于同一属性的轨迹数据的可达 距离R a d()则较大,并且分布较为均匀;反之如果点^ 是偏离中心距离较远的异常点,那么可达密度的方差 就较大,证明该点距离所有簇都相对较远,通过设置阈 值计算偏离中心点的异常数据。
2.2聚类分析
利用Hadoop框架的HDFS、MapReduce技术,采用 分布式文件系统和并行计算,将学生的静态和动态特 征属性贴上标签,生成协方差特征矩阵的特征值及特 征向量,使用主成分分析法进行降维处理,提取关键特 征值,利用基于距离的方法进行聚类分析,将多维数据
主成分分析法利用降维的思想,使用线性变换的 方法,将给定的一组相关变量转换成另一组不相关的 变量,转换之后的新的变量按照方差依次递减的顺序 排列,在数学变换中保持变量的总方差不变[16_18]
。利 用主成分分析法,首先计算学生样本属性的协方差矩 阵,再求出协方差矩阵的特征向量,根据这些特征向量 生成变换矩阵的行向量,最后依据数据协方差矩阵的 特征向量构成新的坐标系的基矢量。根据学生不同属 性向量的特征可以得到如下结论。样本集在较大特征 值对应的特征向量上的投影方差较大,所以该分量对 于区分样本的贡献就较大[1_2]。由此可见,通过主成 分分析法可以清晰地出区分性大的维和区分性不大 的维。主成分分析法的具体实现步骤如下:
(1)将《个学生,每个学生的m个特性属性数据,构成《行m列的在校画像矩阵S :
「S… S i …Slm1
s =
S21S22 (2)
Sn1Sn2…Sn m
(6)
如果用y来表示学生画像的某一项属性,那么所有 学生的这一项属性 '.可表示为:
(2)利用式()对矩阵s中每行学生属性进行归 一化处理,如果第i个学生的属性7进行标准化处理之 后的结果为S那么所有学生特征J的平均值可用S 表示,学生属性值y的方差用v a K S)来表示。
S,,=S;
差矩阵R:
R:
i=1,2,…,几;’= 1,2,*..,m(8)
像属性矩阵s进行计算,得出协方
、1厂12••*^m"
厂21厂22.•*r2m
(9)
-、1r nm.**r mn-
为了使统计分析的结果达到更好的处理效果,需 要对学生特征属性的多维数据进行归一化处理,把经 过数据清洗、处理之后的特征矩阵代替原来的矩阵s ,
第1期
葛苏慧,等:基于
Hadoop 的高校学生行为预警决策系统研究
9
式(10)可以计算特征矩阵S 的有关系数。
\. X s tisj  込,=1
,…,m  (10)
t = 1
(4)特征值表示为A ,协方差矩阵E 的特征值
A  € 二(A  i  A。,…,A  —),特征向里仏=(%,a 。,…,a —),
贡献率w 由式(11)计算,特征值人1的贡献率为^。
m
X A  —
—=1
(5) 从标准化处理之后的学生的特征属性数据中
选择主成分,按照贡献率w 将学生的特征属性值由高 到低降序排列,根据统计的实际需要提取属性的前若
干行,从而形成降维后的学生特征矩阵S 。
(6)
采用KHM (K-HamioniC Mean S)算法对特征矩
阵S 进行聚类分析,如图2所示,该算法根据式(12) 最终计算出每个学生的特征属性数据到各聚类中心的 调和平均值的和。
n
k
〜HM = X (/(X 1 以2(S —q )))
(12)
—1 —1
式中:第—个学生的m 个特征表示为S  = I  S —,S —,…, S —丨,第/个聚类中心表示为q  = [G ,2,…,
,第
—个学生到中心点/的距离为4S —C ,)。利用初始值 通过公式不断迭代,最终使得各类趋于稳定,从而分离 出状态异常的学生[21]。
2.3
预警决策
最终该预警决策系统使用EC h a t 、D 3. j s 可视化输 出,采用S a S 形式交付,生成学生在校画像,并提供学 生校内行为轨迹和查询功能。学校管理人员可以实时 感知学生生活、学习及活动状态,从而动态监测学生异 常,对于可能会发生的异常问题或已经出现危机前兆 的问题,通过网页版和手机版html 5技术以、短信 的方式主动推送预警,实现学生异常事件的闭环管理, 对异常事件真正做到可查、可管、可追溯。
3算例分析
实验在真实环境下进行,采用基于Hadoop 框架搭 建的HDFS 、MapRedUCe 技术,HDFS 提供存储和管理,
MapReduce 实现分布式计算。集相关配置情况如表 1所示。
表1
集配置参数
项目
配置
Hadoop
2.0 -v 1.7Spark
v 1. 1操作系统
Cent OS 6.5JDK
1.7带宽100 Mbit 服务器数量5台
计算能力
62 个 4CPU/8 GB 内存Master 8 G B x 4内存,2 TB 硬盘Slave
8 G B x 2内存,4 TB 硬盘
3.1
轨迹数据分析
为验证Hadoop 架构和MapReduce 算法的性能,实 验样本集为某高校数据采集系统1个月的学生校内
轨迹数据,学生轨迹数据每天采集量为10个点,将原 数据集横向表示为1个不同大小的样本集[22]。前5 个轨迹数据样本的差异性较小,在处理少量文件时 H adop 无法体现它的优势,但当样本集数据量日志增
大时,Hadoop 便能对大规模的学生轨迹数据集进行分
布式并行处理,清洗速度与清洗量近似正相关[23]。算 例中采集了学生1个月的校内轨迹数据,最大样本集 中有5万个监测点,100万条数据,数据清洗时间大约 为1 s ,其速度和处理能力完全满足目前乃至今后一 段时间内的校内轨迹数据采集量的要求。
图3所示是某天15 870个轨迹数据采集点的日 清洗情况,其中折线为平均斜率,表示平均变化趋势。 因为校内轨迹数据采集所需的时间与学生异常数据的 规模无关,且Hadoop 能够处理大规模的非结构化数 据,并将原数据分类进行差异化处理、添加时间戳,所 以数据的质量不会影响轨迹数据的清洗效率。为验证 算法的高效性,在样本数据的24个时间段中随机生成 大规模异常数据。通过实验验证得出,Hadoop 具有强 大的快速处理能力,1万条数据的清洗时间大约是 5 636〜6 340 ms ,而且不同规模的异常数据量的清洗
时间变化较为稳定。
10计算机应用与软件2021 年
通过此预警决策系统对全校30多个专业,10 000 多名学生进行了校内活动轨迹数据的采集、清洗、处理
和聚类分析,读取历史数据,形成时间节点的数据集 合,并合并上一次采集周期的数据进行清洗,设置目标 区域半径。通过曼哈顿长度计算异常数据距离中心点 的离程度,利用主成分分析法进行降维处理,生成学 生静态和动态属性的特征矩阵,使用基于距离的方法 进行聚类分析,并通过此预警决策系统最终可视化呈
现,将严重偏离中心点的学生异常提取出来。图4为 学生校内轨迹数据聚类图,通过采集10个月期间的大 规模学生校内轨迹数据,进行清洗以及聚类分析,然后 将此预警决策系统测试的结果与学生的实际状态进行 比对,得出的结论如表2所示。可以看出此预警决策 系统分析的结果与这些学生在校内的实际状态基本一 致,数据预测成功率接近95%,误差率可以控制在
6.5%之内。
M
岿30
t
驾25
■E
雲2〇
m
15
® 10
卜5
51015202530
课堂考勤/宿舍回归率/门禁系统/I t餐情况/
校园一卡通特征值
图4校内轨迹数据聚类图
hadoop分布式集搭建
表2系统预警与实际状态结果比对
月份一致率/%偏远运行时间/m s Diff/%
393.60.1154.3289. 1
490.60.053.7088.9
591.20.0960.4190.3
续表2
月份一致率/%偏远运行时间/m s Diff/%
698.40.0462.8697.4
792.70.0857. 1790.7
897.60.0553.5598.4
996.10.0647. 1193.2
1089.60. 1454.3687.3
1199.30.0359.4899.8
12100.00.0155.0100.0 3.2学生画像规则
学生画像标签分为内容和权重。标签是可变的,权重也是实时变化的,随时间延长而衰减。以学生成 绩记录为例:张三,数学成绩90,为学生打上某一学科 成绩的标签。通过编写学生画像规则,来计算标签权 重,基本权重=90/100 =0.9。时间衰减因子为f i,随 着时间D(天数)的延长,尺会线性减少,尺=1-0.05x2)。标签权重=基本权重x衰减因子。由此计算 出张三的数学成绩标签权重为0.9,标签内容为科目 名称“数学”,因此该学生的一个标签为:数学,0. 9。一周之后如果衰减因子变为0.7,标签权重变为0.63,那么该生的标签为:数学,0.63。当标签权重不断减小 到某个值,如0.5时,就要为该生“撕下”数学的标签,从而更好地体现标签的实时性,因此将0.5记为阈值。再使用Hive规则生成学生标签,存入标签库,表3为 学生画像表(USer_Profil e)。
表3学生画像表
字段名类型摘要
Sequence_Num Int序号
School_ID Int学校编码
Student_ID String学生考号
Student_Name String学生姓名
Tag_ID Int标签ID
Tag_Describe String标签内容
Tag_Weight Double标签权重
Tag_Time Date标签时间HiveQL标签生成语句:
insert into table User_Profile select g.School_ID,g.Student_ ID,g.Student_ Name,001,“数学,’,0• 9,2016 - 12 -01 from Grade g where Subject= “数学,’。
不是异常学生的概率为:
P(A2\B1) =1 -P(A2\B1) =1 -0. 15 =0. 85
(13)

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。