⼤数据在⼤学校园应⽤实例
⾼校⼤数据及其处理架构
⾼校中汇聚着⼤量的信息,从学⽣⾓度来看,包括联系⽅式等基本信息,⾷堂消费、住宿晚归等⽣活信息,选课、课后作业、借阅图书、成绩等学习信息,参与的社团、竞赛、讲座等第⼆课堂信息;从教师⾓度来看,包含教学任务、课件等教学信息,论⽂著作、科学研究数据等科研信息;从管理者的⾓度来看,包含学校的资产信息、师资信息、招⽣就业信息等。同时随着移动互联⽹以及物联⽹等新技术的兴起,学校师⽣主动产⽣和由设备⾃动收集的信息越来越多,如微博、等社交信息,各类搜索点击记录信息等。上述信息存在着数据量⼤、结构复杂、产⽣频率快的特点。这导致利⽤常⽤软件⼯具捕获、管理和处理此类数据所耗费时间超过了可容忍的时间。
⼤数据的处理流程与⼀般数据的处理过程类似,可以定义为在合适⼯具的辅助下对⼴泛异构的数据源进⾏抽取和集成,将结果按照⼀定的标准统⼀存储,利⽤合适的数据分析技术对存储的数据进⾏分析从中提取有益的知识,并利⽤恰当的⽅式将结果展现给终端⽤户。具体来说可以分为数据抽取与集成、数据分析和数据展⽰。
数据抽取与集成
⼤数据的数据来源⾮常⼴泛,既包括传统的关系型数据库,也包括XML 等半结构化数据,以及以视频、⾳频、⽂本和其他形式存在的⾮结构化数据。数据抽取和集成要解决的主要问题就是收集各种碎⽚化的数据,对数据进⾏清洗,保证数据质量,同时根据时间演进不断更新数据模式,确定数据实体及其之间的关系,最终将数据按照统⼀的格式进⾏存储,以便提供给上层⽤来进⾏数据分析。
⽬前⾼校已经基本建⽴了完备的管理信息系统、学习管理系统等,在统⼀数据中⼼中积累了⼤量的结构化数据;同时各类系统中还散布着⼤量的半结构化和⾮结构化数据。半结构化和⾮结构化的数据经过⼀定处理后,可以转化为更容易分析使⽤的结构化数据。
数据分析
经过抽取和集成得到的数据,需要经过分析挖掘其潜在的价值。传统的数据挖掘、机器学习、统计分析等⽅法仍然可以⽤来对数据进⾏分析,只是需要根据⼤数据的特征进⾏调整。⾸先,为了实现对海量数据的分析,需要依Map/Reduce 模型,将数据拆分处理,然后再将结果汇总,⼀个完整的分析可能会经过多层类似的处理过程;其次,⼤数据的应⽤通常具有实时性的特点,数据的价值会随着时间的流逝⽽递减,因此分析⽅法需要平衡处理的效率和准确率;最后,⼤数据⼀般构建在云计算平台之上,分析⽅法需要考虑与云计算平台的集成或做为⼀种云服务。
数据展⽰
数据分析得到的分析结果,需要以直观可理解的⽅式呈献给最终⽤户,在⼤数据时代,数据分析产⽣的结果有可能也是⾮常⼤量的,且结果之间的关联关系复杂、数据维度更多,数据可视化技术通过更加适合⼈类思维的图形化的⽅式展⽰数据分析结果,已经被证明是展⽰数据分析结果⾮常有效的⽅法。常见的可视化⽅法有:多维叠加式数据可视化、数据在空间、时间坐标中的变化和对⽐等,当然要将枯燥的信息转换为美丽的、令⼈印象深刻的图形,需要较⾼的技术素养和艺术素养。
很多⾼校正在使⽤⼤数据分析技术解决遇到的实际问题,如美国德克萨斯⼤学利⽤⼤数据技术分析学校⽤户IT 使⽤⾏为产⽣的数据,确定⽤户⾏为异常,审计IT 基础环境,制定安全防护措施。其他的⼀些应⽤场景包括分析学⽣参与⽹络课堂产⽣的数据,进⽽确定如何改进课程讲述⽅式,达到因材施教的教育⽬标。
⾼校可以在就业情况分析、学习⾏为分析、学科规划、⼼理咨询、校友联络等⽅⾯借助⼤数据分析技术,挖掘数据中潜在的价值。
就业情况分析
当前市场经济⾼速发展、⾼校不断扩招、就业制度改⾰不断深化和毕业⽣数量逐年增加、社会整体就业形势⽇益严峻,⼤学⽣就业问题⼰经越来越成为⽬前⼤家共同关⼼的话题,研究⼤学⽣就业问题具有紧迫性和重要性。本⽂提出在⼤数据分析框架下的就业问题分析思路。
1. 数据来源
传统的就业分析⼀般从就业单位、就业地区、所在院系专业、性别、签约类别、就业年份等维度来分析,得到的只是⼀般意义上的统计结果,对于指导单个学⽣的就业以及预测未来的就业情况发挥的作⽤⽐较有限。应⽤⼤数据分析技术,就可以将学⽣就业模型涉及到的学习情况、社团信息、⽣活信息、校外实习、参加的竞赛及获奖情况、所投公司当年的招聘计划、历届学⽣在所投公司的表现等众多的信息进⾏收集。以上海财经⼤学为例,可以从图1 所⽰的各类系统中抽取学⽣的各类信息,构成就业分析模型所需的各类数据。
2. 数据抽取与存储
针对数据来源的不同,我们采取不同的数据抽取⽅式,对于结构良好的各信息系统的数据,我们采⽤ETL ⼯具如InformaticaPowercenter、Kettle 将数据抽取到HBase 数据库中;对于Web ⽹页这类⾮结构化数据,通过Nutch 进⾏抓取,Solr 对数据进⾏索引后存储到Hbase 数据库中,⽰意图如图2 所⽰。Hbase 数据库是⼀个开源的⾼可靠性、⾼性能、可伸缩、并⾮建⽴在关系模型基础上的分布式数据库,⽤以存储⼤规模结构化数据。
3. 数据分析
将就业分析模型所需的数据存储在Hbase 数据库后,可以利⽤Hive 对Hbase中的数据进⾏查询和分析。Hive 提供了⼀种简单的类SQL 查询语⾔,⼗分适合数据仓库的统计分析。通过Hive 我们可以实现传统数据仓库所实现的对就业数据的汇总统计分析,⽽且可以容易的扩展其存储能⼒和计算能⼒。
除了数据统计分析之外,我们还可以利⽤Mahout 这个机器学习⼯具对数据进⾏监督学习和⽆监督学习。监督学习使⽤先验知识对数据进⾏分类;⽆监督学习则由计算机⾃⼰学习处理数据,并在做出判断后给予⼀定的激励或惩罚。在进⾏就业分析时,我们可以使⽤Mahout 已经实现的具体⽅法。⾸先是协作筛选,通过分析已就业学⽣的成绩、参加的社团活动、关注的⾏业、性格特点、就业单位、就业岗位等,计算学⽣之间的相似度,为即将毕业的学⽣推荐适合的就业单位和岗位,提供个性化的服务;
大数据etl工具有哪些其次是聚类,这是⼀种⽆监督的机器学习⽅法,我们可以通过不同的维度将未能及时就业的学⽣进⾏分析,从中出其共同的特点,再通过⽐较在校学⽣的相关属性,及时对学⽣给出预警,以便其在后续的学习和⽣活中加以改进,如图3 所⽰。
4. 数据展⽰
在数据展⽰层,我们可以使⽤Tableau 软件将分析的结果进⾏可视化的展⽰,Tableau 将数据与美观的图表完美地结合在⼀起,它包含⾮常多的预定义的图表格式,同时还可以将时间、地图等多种维度在单⼀的图表中进⾏展⽰。
学习⾏为分析
为了⽀持学⽣的⾃主学习,⾼校⼀般都有⾃⼰的学习管理系统如Blackboard、Sakai 等。这些学习管理系统为学⽣、教师提供了课程学习和交流的空间。美国教育部教育技术办公室认为教育数据分为键击层(keystroke level)、回答层(answer level)、学期层(session level)、学⽣层(student level)、教室层(classroom level)、教师层
(teacher level)和学校层(school level),数据就寓居在这些不同的层之中。⼀般⾼校每年的开课数在数千门,学⽣数在数万⼈,产⽣的数据量⾮常⼤。应⽤⼤数据分析技术使得监控学⽣的每⼀个学
习⾏为变为了可能,学⽣在回答⼀个问题时⽤了多长时间,哪些问题被跳过了,为了回答问题⽽作的研究⼯作等都可以获得,⽤这些学⽣学习的⾏为档案创造适应性的学习系统能够提⾼学⽣的学习效果。
学科规划
促进学科交叉融合发展,构筑有⽣命⼒的学科⽣态,打造凸显核⼼竞争⼒的⾼⽔平学科是学校学科规划的重要任务。借助⼤数据分析技术,充分收集各学科的教学状态数据、科研项⽬数据、前沿发展动态等信息,从⽽分析学科建设存在的不⾜,确定学科未来发展的⽅向,发掘出潜在的具有国际视野的学科带头⼈。
⼼理咨询
论坛、微博等平台上每天都会产⽣由评论、帖⼦、留⾔等数据,这些数据集反映了师⽣的思想情况、情感⾛向和⾏为动态,对这些数据进⾏科学的存储、管理并使⽤⼤数据技术进⾏有效的分析利⽤,建⽴师⽣思想情感模型,对掌握师⽣⼼理健康程度,有针对性地加强对师⽣的⼼理辅导有着重要的意义。
校友联络
校友资源犹如⼀座座宝藏,对⾼校的发展建设有着不可替代的重要作⽤,是⾼校⼯作的重要组成部分。有效地把校友联络起来、团结起来,对学校的建设和发展具有重要意义。利⽤传统的管理⽅法,仅校友信息收集就要耗费⼤量的时间和精⼒。利⽤⼤数据技术,收集各类社交⽹站上的⾮结构化数据,通过分类、聚类等数据挖掘⽅法,确定校友⾝份并收集其联系⽅式、参加的活动信息等,可以⼤⼤提⾼校友数据收集的效率,为以后利⽤校友资源提供良好的基础。
应⽤难点与对策
⼤数据在⾼校应⽤的美好前景令⼈神往,但⽬前⼤数据的应⽤还存在很多应⽤难点,主要有数据集成困难、数据分析⽅法有待改进和数据隐私问题。
数据集成
在很多⾼校中,因为管理信息系统设计时未考虑到对⼀些过程数据的收集,导致在分析时缺乏必要的数据来源,需要对应⽤系统进⾏扩展;同时对于定义良好的结构化数据很多⾼校也尚未很好的集成。在⼤数据时代,异构的数据类型、⼴泛存在的数据来源、参差不齐的数据质量给数据集成带来了新的挑战。⾼校应该探索融合结构化、半结构化、⾮结构化数据的统⼀模型,同时提⾼数据采集的质量,强化数据⽂化。
数据分析⽅法
半结构化和⾮结构化数据的迅猛增长,给传统的聚类、关联分析等数据挖掘技术带来了巨⼤的冲击和挑战。⼀⽅⾯,很多应⽤场景要求数据的实时分析;另⼀⽅⾯缺乏对半结构化和⾮结构化数据的先验知识,难以构建其间的关联关系。⾼校需要紧密跟踪业界对⼤数据分析⽅法的研究动态,同时通过⾼校间的协作沟通探索新型的数据分析⽅法。
数据隐私
⼤数据分析的数据基础必然建⽴在获取更多个⼈信息之上,⽽且通过分析还可以使数据之间产⽣关联关系,进⽽揭⽰更多的个⼈隐私。然⽽为了保护隐私就将所有数据加以隐藏,那么数据的价值就⽆法体现。这种⽭盾在相当长的时间内必将⼀直存在,需要通过技术和制度的完善逐步解决。
移动互联、MOOC 等技术的不断兴起给⾼校的发展带来了极⼤的挑战,为了应对这种挑战,⾼校应当充分发挥⼤数据在其中的⽀撑作⽤。在⼈才培养、科学研究和管理等⽅⾯⼴泛收集过程数据,结合可视化技术充分分析和挖掘蕴含在数据之中的丰富价值。同时我们需要在⾼校内倡导和强化数据⽂化,建⽴持久运作的收集、分析数据并将分析结果转换为教育决策和实践的体系,真正发挥⼤数据在⾼校发展中的价值。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论