大数据背景下高职Hadoop 课程内容体系建设
裴浩
(常州纺织服装职业技术学院,江苏常州213164)
摘要:大数据技术的发展对人才的需求发生了变化,提出高职计算机相关专业增加Hadoop 课程作为教学内容,调整人才
培养计划,以满足大数据技术岗位的要求。文中分析了Hadoop 的架构,并给出了Hadoop 教学平台的实施方案和具体的课程教学内容,促进教学改革的实施。关键词:大数据;高职;计算机;Hadoop 课程;教学改革中图分类号:TP311文献标识码:A 文章编号:1009-3044(2016)30-0131-02
1引言
近年来,随着数据的极速膨胀,大数据技术研究越来越深
入,并且得到了广泛的应用。因此,为了适应大数据发展的要求,Apache 基金会开发了一个分布式系统
架构——Hadoop ,已成为广泛应用的大数据运算平台。同时,高职院校应调整相关专业的培训计划,增加Hadoop 课程教学,调整培养目标,以满足大数据技术发展的人才需求。具体的培养目标是:培养具有计算机网络、大数据及云计算的专业知识,实践能力强、职业道德素养高,具备云平台的管理能力和网络软件开发能力,能够从事网络工程设计实施、网络高级管理维护、网络开发、云平台组建及管理以及大数据存储、计算及分析等岗位的高级技能型人才。
2Hadoop 架构
图1Hadoop 结构
如图1所示,Hadoop 的核心设计就是:HDFS 文件系统和
MapReduce 编程模型。HDFS 为海量的数据提供了存储,则Ma⁃pReduce 为海量的数据提供了计算。用户可以基于Hadoop 开发分布式程序,并且使用集计算机的能力实现数据的分布式并行处理,实现充分利用集的威力进行高速运算和存储。
1)Hadoop 节点
Hadoop 主要包括MasterNode 主节点和SlaveNode 从节点。MasterNode 主要运行NameNode 名称节点和Job Tracker 任务追踪,前者主要负责数据存储(HDFS)的调度,后者负责数据并行处理(Map-Reduce )的调度。它们主要运行在管理端服务器上。
SlaveNode 主要运行DataNode 数据节点和Task Tracker 实例追踪,它的运行需要大量计算机的支持,完成具体的分布式数据存储以及运行计算。每个SlaveNode 都运行DataNode 和Task Tracker ,Task tracker 由Job Tracker 管理,DataNode 由Na⁃meNode 管理。
2)Hadoop 数据流在Hadoop 中,每个MapReduce 任务都被初始化为一个Job ,每个Job 又可以分为两种阶段:map 阶段和reduce 阶段。这两个阶段分别用两个函数表示,即map 函数和reduce 函数。map 函数接收一个<key,value>形式的输入,然后同样产生一个<key,value>形式的中间输出,Hadoop 函数接
收一个如<key,(list of values)>形式的输入,然后对这个value 集合进行处理,每个reduce 产生0或1个输出,reduce 的输出也是<key,value>形式的。
3)Hadoop 生态系统
收稿日期:2016-10-12
项目来源:2015常州纺院教育科研基金立项课题(RJ201513)作者简介:裴浩(1984—),讲师,硕士,研究方向:计算机网络,大数据,分布式计算。
DOI:10.14004/jki.ckt.2016.4247
Ambari等管理工具
图2Hadoop生态系统
如图2所示,随着Hadoop研究的深入,其它围绕Hadoop的开源项目也在发展,比例HBase、Hive、Pig、Zookeeper等构建了
Hadoop生态系统,它们隶属于不同的项目组,提供了更完整的大数据处理方案。其中,生态系统的核心仍是HDFS和MapRe⁃duce。
3Hadoop课程教学实施
3.1Hadoop教学平台
1)拓扑结构
现有计算机实验室大多已构建成局域网,因此可以基于现有实验室计算机和交换机,完成Hadoop教学平台的构建。网络拓扑如图3所示。
交换机
计算机
图3拓扑结构
2)系统要求
MasterNode主节点服务器需要较高的运算能力,因此要求使用较快的CPU和较大的内存,其他节点使用原有配置。所有计算机采用Linux Ubuntu64位网络操作系统,可以提供稳定的网络服务和计算性能。
3)Cloudera CDH开源框架
目前,主要的免费Hadoop提供商为Apache Hadoop(原始版,其他均基于此版本改进)、Cloudera CDH(Cloudera’s Distri⁃bution Including Apache Hadoop,CDH)、Hortonworks HDP(Hor⁃tonworks Data Platform,HDP)。由于Cloudera CDH的优点,绝大多数应用选择CDH。Cloudera CDH和Apache Hadoop相比主要改进如下:
(1)CDH版本划分清晰,只有CDH3和CDH4两个系列,在兼容性、安全性和稳定性性都比Apache Hadoop要好。(2)CDH更新速度快,并且能够及时修改Bug,比比Apache hadoop同功能版本提早发布。
(3)CDH支持Kerberos安全认证,与Apache Hadoop简单的用户名认证相比,要安全的多。
(4)CDH文档清晰,便于用户的阅读和操作。
(5)CDH支持多种安装包,安装更灵活,如Yum/Apt包、Tar 包、RPM包等。然而,Apache Hadoop只支持Tar包安装。
3.2Hadoop教学内容
如表1所示,Hadoop教学内容主要包括大数据基础、Ha⁃doop原理、Hadoop实现及Hadoop应用四大模块,每一个模块又包含子模块。
表1Hadoop教学内容
序号
1
2
3
4
模块
大数据基础
Hadoop原理
Hadoop实现
Hadoop应用
子模块
hbase应用案例大数据概念
云计算
云管理平台
Hadoop基础
Hadoop生态系统
Hadoop集
MapReduce实现
Hadoop API使用
Hadoop处理实现
MapReduce应用
Hadoop生态应用
大数据案例应用
各子模块的具体教学内容如下:
1)大数据基础:大数据概念、云计算、云管理平台。2)Hadoop基础:Hadoop介绍、Hadoop基本概念、Hadoop应用案例。
3)Hadoop生态系统:HBase数据存储、Flume、Sqoop数据集成、Spark数据处理、Hive、Pig和Impala数据分析、Oozie工作流引擎、Mahout机器学习。
4)Hadoop集:HDFS文件系统、MapReduce模型、硬件要求、Hadoop集搭建
5)MapReduce原理:MapReduce API接口、Driver、Mapper及Reducer编写、Eclipse Hadoop开发。
6)Hadoop API使用:ToolRunner的使用、Combiner的使用、Setup和Cleanup的使用、HDFS程序访问、Distributed cache的使用。
7)Hadoop数据处理:Partitioners和Reducers、数据的输入与输出。
8)MapReduce应用:大数据集的排序与查询、二次排序、数据索引、字频统计、数据集合并。
9)Hadoop工具使用:Sqoop示例RDBMS转成HDFS、Flume 示例实时数据管理(日志文件)、Oozie示例、Pig示例。10)大数据案例应用:HIVE案例应用、HBase案例应用。4结束语
文中分析了大数据背景下的应用技术,对人才培养提出了新的要求。另外,基于Hadoop架构,并详细说明了Hadoop课程实施的具体方案,完善了计算机相关专业的教学体系,有效促进了课程改革和调整。
参考文献:
[1]陈吉荣,乐嘉锦.基于Hadoop生态系统的大数据解决方案综
述[J].计算机工程与科学,2013,35(10).(下转第134页)
以从中分析提取很多有意义的信息,发现教与学的痛点和盲区,老师以此改进教学,学生以此促进学习。
综上所述,将慕课网络教学融入传统课堂教学的混合教学模式(即“翻转课堂”)无论是对老师还是学生都将带来很大的益处。由此,我们在教学实践中重构了《计算机应用能力》课程的教学模式。重构后学生学习的基本过程是:课前观看教学内容视频自学;课堂完成老师布置的练习并就学习中出现的问题向老师提出现场解决;课后完成作业并通过慕课平台和手机工具交流复习巩固提高;最后参加期末考试,综合评定通过后获取学分。重构后老师教学的基本过程是:课前制作教学视频和准备练习作业;课堂指导学生完成练习并答疑解惑;课后借助慕课网络平台批阅作业并与学生进一步交流指导;最后根据学生期末成绩结合平时表现给出最终评定结果。
4实践效果的总结与思考
通过一段时间的教学实践,我们发现教学效果相比以前有很大的提升。首先学生通过课前观看视频,课堂上练习和提问就能做到有的放矢,学习的主动性和目的性显著增强,加之灵活丰富的交流沟通方式,使得学生无论课前还是课后都能方便的聚焦到课程内容的学习。其次授课老师大大减少了课程讲授、操作演示等工作的体力消耗,可以把精力集中在答疑解惑,提高教学精度和深度上来。其中教师教学视频资料的准备在整个教学过程中起到关键性的作用。一段教学视频不宜过长也不宜过短,对于高职学生而
言,专注视频的时间在10分钟左右会有比较好的学习效果。教师必须合理选择教学片段、精心重构教学内容,尽量在每段视频中紧紧围绕一个主题进行,有利于整堂课程的教学实施。
当然在实践中也存在一些问题亟待解决和改善。例如:如何管理和把控学生做到积极进行课前教学视频的学习;慕课平台对计算机操作性练习和作业的自动批阅还存在一些困难等。总之,我们的教学实践证明,利用慕课重构《计算机应用能力》课程的教学模式显著提高了教学效果,这也给我们在其他课程的教学改革中带来了积极有益的启示。
参考文献:
[1]曾翰颖.慕课时代下重构计算机基础教育[J].计算机教育, 2015(3):98-101.
[2]张毛宁.慕课本质、发展及其教学中的应用[J].绵阳师范学院
学报,2016(4):72-75.
[3]丁婉怡.我国慕课发展的瓶颈分析及解决建议[J].广东开放
大学学报,2016(1):1-7.
[4]梁洁.《高职计算机应用基础》微课的混合学习模式与应用研
究[D].广州:华南师范大学,2015.
(上接第132页)
[2]陈玺.Hadoop生态体系安全框架综述[J].信息安全研究, 2016,2(8).
[3]鲍爱华,陈卫卫.云计算课程内容体系的建设与实践[J].计算
机工程与科学,2014,36(A2).[4]许娟,袁家斌.云计算课程教学内容和教学方法的选择[J].现
代计算机,2014(6).
[5]杨旻.Hadoop云计算平台在高校实验室教学环境中的实现[J].
电脑知识与技术,2011(9).
[6]徐苑苑.云计算环境下的开放课程应用研究[D].2013,10.

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。