⾼校教育⼤数据分析平台规划⽅案(图⽂)
⾼校信息应⽤系统,在⽇常教学和管理中积累了⼤量历史数据,但这些海量数据却没有得到有效的分析和利⽤,各部门⼈员在⽇常数据录⼊和维护中只是通过统计和排序对数据进⾏简单的功能操作获得⼀些表⾯、浅显、价值不⾼的结果。构建⼀个⼤数据分析平台,从学校其他应⽤平台中抽取海量数据进⾏管理、整合、分析和利⽤,从中发现潜在问题和有价值的规律,并通过可视化的⽅式进⾏展⽰,能够为学校管理层提供科学决策的⽀持,并满⾜教师、学⽣的个性化需求,从⽽提⾼⾼校信息化服务的质量。
1.构建⽬标
(1)实现数据的共享和交换。将学校各应⽤系统的数据进⾏集成和整合,使来源各异、种类不⼀的各类数据可以相互使⽤,丰富数据的来源,打破系统间的信息孤岛,实现数据的共享和应⽤。
(2)⼤数据的采集和存储。研制数据适配接⼝,对接校内各应⽤系统获取各类异构数据,并采⽤⼤数据主流的框架和系统对数据进⾏统⼀存储,为数据的挖掘和分析打好基础。
(3)⼤数据分析与决策。采⽤数据挖掘、数理统计等相关技术,构建⼤数据分析框架,提取数据中隐含的、未知的、极具潜在应⽤价值的信息和规律,为学校的教务管理、科研管理、学⽣管理、后勤管理等各项⼯作提供决策和指导。
2.构建原则
(1)安全性。⾼校信息化⼯作中有许多保密性内容,⼤数据分析平台应采取安全性⾼的访问认证机制,同时在平台建设中要充分重视系统⾃⾝的安全性以及其他应⽤系统的安全性。
(2)可扩展性。对⾼校教育⼤数据的分析和应⽤是⼀项长期持久的⼯作,随着管理⼯作的重点、教育信息化⼯作的变化推进,对于信息平台的规模和要求也会不断变化。因此,要求平台的设计和实施要具有良好的扩展性,以满⾜不断发展变化的要求。
(3)灵活性。在平台的设计和实施中要考虑到与其他应⽤系统的整合,开发出多个类型的接⼝,能够灵活接⼊其他系统、拓展服务类型。
3.总体框架
平台应适应于⼤数据处理要求,能⽀持PB级数据管理。系统架构应⾼安全性、易扩展性,能够⽀持各类主流开发语⾔,并提供丰富的接⼝。同时能够⽀持结构化和⾮结构化数据的存储和应⽤。Hadoop作为开源的⼤数据处理平台和⼯具,其提供的HDFS分布式⽂件系统和MapReduce模型能够很好地满⾜以上的要求。系统的总体架构图如1所⽰。
基于Hadoop技术的⾼校⼤数据分析平台⾃下⽽上分为三个部分,分别为:数据层、⼤数据采集与存储、数据分析及展⽰。
(1)数据层,针对不同系统进⾏分析,制定系统数据采集范围与⽬标,收集本校在⽇常管理和教学中的产⽣的各类数据,将各种结构化和⾮结构化数据进⾏整合,为⼤数据的分析提供⽀撑。
(2)⼤数据采集与存储旨在为各类异构数据研制适配接⼝,与校内其他各系统对接,并为数据提供适配、转换、存储等基本管理功能,基本步骤包括:
a.数据抽取:针对⼤数据分析平台需要采集的各类数据,分别有针对性地研制适配接⼝。对于已有的信息系统,研发对应的接⼝模块与各信息系统对接,不能实现数据共享接⼝的系统通过ETL⼯具进⾏数据采集,⽀持多种类型数据库,如SQL SERVER, ORACLE, ACCESS等学校系统数据库,按照相应规范对数据进⾏清洗转换,从⽽实现数据的统⼀存储管理。对于其他数据,需要具体根据数据情况实现相关接⼝,利⽤对应接⼝获取相关数据信息,进⽽完成数据的抽取。
b、数据预处理:为使⼤数据分析平台的MAPREDUCE算法能更⽅便对数据进⾏处理,同时为了使得数据的存储机制扩展性、容错性更好,需要把通过数据按照相应关联性进⾏组合,并将据转化为⽂本格式,作为⽂件存储下来。
c、数据存储:为了提升数据存储的扩展性和容错性,采⽤主流的⼤数据框架Hadoop的HDFS⽂件系统对学校的各类数据统⼀进⾏⽂本化存储,数据按相应规则存储,实现每⽇保存⼀套完整数据⽂件集,形成数据仓库。
(3)数据分析和展⽰是核⼼业务层,通过数据报表⼯具,根据需求制定多样的,针对性的数据报表。通过基于的Hadoop 的MapReduce编程模型实现的数据分析系统,针对存储的数据进⾏数据处理、算法运⾏、结果转换操作,将结果保存为报表⽂件,每⽇形成的报表⽂件集。报表展现系统将⽣成的报表⽂件以可视化⽅式进⾏展现。
⼤数据分析平台中的关键技术
⼤数据平台的构建借鉴了开源系统的先进理念,采⽤了Hadoop开源系统,充分利⽤ HDFS的可靠性,MapReduce的引⼊⼤⼤加强了平台在数据分析⽅⾯的弹性,使平台在可扩展性、可靠性、易⽤性和性能⽅⾯都有良好的表现。
1、Hadoop技术
Hadoop框架是⼀个开源的⼤规模数据处理平台和⼯具,主要来源于Google公司提出的MapReduce编程框架,GFS⽂件系统以及BigTable存储系统等技术。Hadoop具有庞⼤的家族体系,本平台的构建主要涉及到Hadoop框架的分布式⽂件系统HDFS和MapReduce模型。分布式⽂件系统作为Hadoop框架的底层,主要负责分析数据的分布式存储和管
理,MapReduce模型主要是负责对⼤规模数据集进⾏计算处理。Hadoop⾤⽤HDFS⽂件系统⼦框架来
实现其所具有的存储能⼒,⽤MapReduce编程模型框架来实现其计算能⼒,⼆者的巧妙结合使得Hadoop拥有⾼效的存储和计算能⼒。
2、HDFS技术
HDFS分布式⽂件系统是对⼤规模数据实现分布式存储和管理的有效⼯具,也是分布式计算的存储基础,具有很⾼的容错性和扩展性,并且对数据读写提供了的⾼吞吐率。HDFS实现了数据的分布式存储,使得应⽤程序能够更加灵活地访问⼤规模的数据集,同时也为后续对⼤规模数据的分析提供了数据平台。HDFS分布式⽂件系统⾤⽤的是典型的主/从结构,这种结构极⼤的简化了系统的架构,使得系统更加简洁,⽅便系统的管理。Hadoop的分布式⽂件系统HDFS主要由主控制器和数据节点组成,主控制器管理名字空间和数据节点,同时管理数据块到数据节点DataNode的映射等。
⽂件系统中的DataNode作为数据节点,主要存储实际的数据,主要负责所在的物理结点上的存储管理,执⾏主控制器下达的命令。数据节点能够及时接收客户发送的读写请求,并针对这些请求完成相应的操作。从分布式⽂件系统的结构内部来看,数据⽂件被存储分割成多个数据块存储在每个数据节点上,每个数据节点存储着来⾃多个⽂件的数据块,同时每个数据节点上也会存储这些数据块的多份副本,保证后续数据操作的准确性。大数据etl工具有哪些
3、MapReduce技术
MapReduce技术基于分布式⽂件系统,通过编写相应的处理过程能够实现对⼤规模数据集进⾏并⾏计算和处理,通过对不同分析模块编写相关的MapReduce处理函数能够实现对⼤规模数据的精确分析,同时能够控制各个节点之间完成⾼效的任务调度。MapReduce通过将操作分发给⽹络上的各个节点,每个节点会周期性的返回它所完成的⼯作和最新的状态,从⽽实现对⼤规模数据集的操作,这种处理⽅式保证了操作的可靠性。
MapReduce技术处理的⽅式是,⾸先将⼀个具体的任务分解成为若⼲个很⼩的任务,然后将分解后的任务分配到各个分节点,通过主节点来对分节点的任务进⾏管理和调度,然后得到分节点处理后的结果,再将结果整合,得到最终结果,通过多个节点之间的相互合作和调度,从⽽实现对⼤规模数据集的计算和处理。总的说来,MapReduce就是基于“分⽽治之”的思想实现“任务的分解与结果的汇总”。
实现教学和管理的全⾯创新
构建⾼院校⼤数据分析平台是以⾼校战略发展规划为蓝本,以⾼校信息化建设纲要为依据⽽进⾏的创新性探索。以⼤数据建设顶层设计为基础,收集整合⾼校教育各⽅⾯所产⽣数据,从数据中提取出有价值的信息和模型,推动⾼校教育的全⾯创新。
1.开展⼤数据顶层设计,以⼤数据应⽤全⾯推进学校发展
⼤数据将成为推进学校发展的新动⼒,通过开展⼤数据顶层设计,对⼤数据获取、收集、整理、利⽤进⾏全⾯规划,从应⽤需求出发,明确建设⽬的和路径,明确什么要做,什么不要做,什么应该先做,什么应该后做,⽤什么模式做,做到什么程度,达到什么效果,以指导学校未来3-5年的⼤数据建设。
2.快速推进教学和管理⼯作的信息化,建⽴丰富的数据来源
⽤⼤数据⽅法全⾯分析现有教学和管理⼯作,新建或升级信息系统,对教学和管理实现全过程记录,建⽴丰富的数据收集渠道。
如通过对现有远程教育系统进⾏全⾯升级,跳出远程教育的概念,实现对教学过程的全⾯⽀持,详细记录每个学⽣的学习⾏为数据,包括课程学习数据、视频观看数据、资料查阅数据、作业完成数据、互动交流数据、成绩数据等,将数据细分到每个⾏为细节,以提供超越传统系统的数据精细度,客观地反映出学习的实际状况。
通过建⽴物联⽹应⽤,实现对物品、⼈员、安全等各⽅⾯管理的强⼤⽀撑,提升管理质量的同时积累⼤量管理数据和⾏为数据。
3.基于个性化服务需求,建⽴⼤数据分析模型
提供优秀的个性化服务是教育和管理的重要⽬标之⼀,⼤数据应⽤则是提供规模个性化服务的必要条件,⽽⼤数据分析模型的质量决定了数据的价值。⼀个平时被忽略的数据在好的模型中,会产⽣难以想象的作⽤。
我们可以通过对学习⾏为数据的分析,了解学⽣的学习兴趣和学习效果,研究哪些学习⽅式是最容易被接受的,哪些课程的设计是最受欢迎的,或具体到某个作业问题回答的正确率以及横向和纵向的⽐较,并深层次的展现出其中的原因。这些数据被提供给教师,将对教学创新提供最为直接的⽀撑。
通过对⼀卡通⾏为数据的分析,可以了解学⽣的⽇常⾏为规律和消费规律,了解学⽣⾏为与学习成绩、学校效果之间的关联关系,提供学⽣管理创新的依据。
4.综合应⽤⼤数据成果,推动学校全⾯创新
通过⼤数据的综合应⽤,可以建⽴对各项教育和管理⼯作的分析和判断,应⽤到实际⼯作中,从各个⽅⾯推动学校全⾯创新。
通过对教学过程、学习⾏为、学习成绩、教学满意度、教师需求量、专业师资质量、专业成熟度、⾏动轨迹等综合分析,建⽴教师画像、学⽣画像、专业画像,直观了解优势和不⾜,预测发展状况。
通过对学⽣⼈数、宿舍分配、教室使⽤、能源消耗、⽹络消耗、⾷堂消费、图书馆利⽤等进⾏综合分
析,建⽴各资源利⽤率指数,实现数据可视化,引导管理⼯作的精细化和管理的扁平化。
通过对⼀卡通、图书借阅、专业分布、课程分布、成绩、学习⾏为等进⾏聚类分析,发现具有某些特征的特殊体及其独有的⾏为⽅式,并利⽤相关性数据进⾏挖掘,从中发现规律。
通过对教学数据、教学效果、考勤记录、个⼈数据、管理数据进⾏综合分析,建⽴科学的、真实客观的教师绩效评价体
通过对教学数据、教学效果、考勤记录、个⼈数据、管理数据进⾏综合分析,建⽴科学的、真实客观的教师绩效评价体系,改变传统⼈为评价的主观性,让⼤数据选出真正优秀的教师。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论