《Hadoop大数据技术》课程教学大纲
一、课程基本情况
课程代码:1041139083
课程名称(中/英文):Hadoop大数据技术/hbase应用案例Hadoop Big Data Technology
课程类别:专业必修课
学分:3.5
总学时:56
理论学时:32
实验/实践学时:24
适用专业:数据科学与大数据技术
适用对象:本科
先修课程:JAVA程序设计、Linux基础
教学环境:课堂、多媒体、实验机房
二、课程简介
《Hadoop大数据技术》课程是数据科学与大数据技术专业的专业必修课程。《Hadoop大数据技术》主要学习当前广泛使用的大数据Hadoop平台及其主要组件的作用及使用。通过学习Hadoop平台框架,学会手动搭建Hadoop环境,掌握Hadoop平台上存储及计算的原理、结构、工作流程,掌握基础的MapReduce编程,掌握Hadoop生态圈常用组件的作用、结构、配置和工作流程,并具备大数据的动手及问题分析能力,使用掌握的知识应用到实际的项目实践中。课程由理论及实践两部分组成,课程理论部分的内容以介绍Hadoop平台主要组件的作用、结构、工作流程为主,对Hadoop平台组件的作用及其工作原理有比较深入的了解;课程同时为各组件设计有若干实验,使学生在学习理论知识的同时,提高实践动手能力,做到在Hadoop的大数据平台上进行大数据项目开发。
三、课程教学目标
1.课程对毕业要求的支撑
毕业要求
指标点
1.工程知识
1.1能够运用数学、自然科学、大数据专业知识和工程基础知识对大数据应用复杂工程问题进行表述和建模。
1.2能够选择恰当的大数据应用复杂系统模型,对模型的正确性进行推理和求解。
3.设计/开发解决方案
3.2能够根据工程项目任务要求,选择技术路线,设计满足需求的大数据应用解决方案。
3.4能够综合运用大数据预处理、挖掘分析、可视化等技术手段,开发实现大数据应用系统。
4.研究
4.2能够选用或搭建开发环境进行软硬件实现与验证。
5.使用现代工具
5.1了解信息领域主要资料来源及获取方法,熟悉数学、程序设计等大数据应用工程领域现代工程工具。
7.环境和可持续发展
7.1能够理解大数据应用工程实践中节能与绿计算技术的手段和方法对环境和社会可持续发展的影响。
2.课程教学目标及其与毕业要求指标点、主要教学内容的对应关系
毕业要求指标点
课程目标
教学内容
教学环节
1.1
1.学习MapReduce、HBase和Hive的工作机制、编程模型和系统架构
第五章  MapReduce   
5.1  MapReduce概述   
5.1.1  MapReduce是什么   
5.1.2  MapReduce的特点   
5.1.3  MapReduce不擅长的场景
5.2  MapReduce编程模型   
5.2.1  MapReduce编程模型概述
5.2.2  MapReduce编程实例
第六章  HBase
6.1.1  行式存储与列式存储   
6.1.2  HBase简介   
6.1.3  HBase的数据模型   
6.1.4  HBase的物理模型   
6.1.5  HBase的系统架构   
6.1.6  HBase的安装   
6.1.7  访问HBase   
第六章 Hive   
6.2.1  安装Hive   
6.2.2  Hive的架构与工作原理   
6.2.3  Hive的数据类型与存储格式   
6.2.4  Hive的数据模型   
6.2.5  查询数据   
6.2.6  用户定义函数   
(1)理论教学
(2)实验课      (3)作业
1.2
2.学习MapReduce、HDFS的数据存储,编程模型。
第三章  HDFS   
3.1  HDFS简介   
3.2  HDFS的组成与架构   
3.2.1  NameNode   
3.2.2  DataNode   
3.2.3  SecondaryNameNode   
3.3  HDFS的工作机制   
3.3.1  机架感知与副本冗余存储策略
3.3.2  文件读取   
3.3.3  文件写入   
3.3.4  数据容错
第五章 MapReduce编程进阶   
5.3.1  MapReduce的输入格式   
5.3.2  MapReduce的输出格式   
5.3.3  分区与合并   
5.4  MapReduce的工作机制   
5.4.1  MapReduce作业的运行机制   
5.4.2  进度和状态的更新
5.4.3  Shuffle   
5.5  MapReduce编程案例   
5.5.1  排序   
5.5.2  去重   
5.5.3  多表查询   
(1)理论教学
(2)实验课      (3)作业
3.2
3.学习Hadoop的发行版本与特点,Hadoop的整个生态圈,Hadoop应用场景与应用架构
第一章 初识Hadoop大数据技术   
1.3  Hadoop概述   
1.3.1  Hadoop对Google公司三篇论文思想的实现
1.3.2  Hadoop的发展历史   
1.3.3  Hadoop版本的演变   
1.3.4  Hadoop的发行版本   
1.3.5  Hadoop的特点   
1.4  Hadoop生态圈   
1.5  Hadoop的典型应用场景与应用架构
1.5.1  Hadoop的典型应用场景   
1.5.2  Hadoop的典型应用架构   
(1)理论教学
(2)作业
3.4
4.学习Zookeeper的Paxos、Zab等算法,Yarn的系统协同调度机制。
第四章 YARN的调度器   
4.4.1  先进先出调度器   
4.4.2  容器调度器   
4.4.3  公平调度器   
4.4.4  三种调度器的比较   
第九章 ZooKeeper   
9.3  ZooKeeper的算法
9.3.1  Paxos算法   
9.3.2  Zab算法   
9.3.3  ZooKeeper的架构   
9.3.4  ZooKeeper的数据模型   
9.4  ZooKeeper的简单操作   
9.4.1  ZooKeeper Shell命令的使用方法
9.4.2  ZooInspector工具的使用方法   
9.4.3  Java API的使用方法   
(1)理论教学
(2)实验课
(3)作业
4.2
5.学习Hadoop平台的环境搭建与安装
第二章 Hadoop环境搭建
2.2.1  安装单机模式   
2.2.2  安装伪分布式模式   
2.2.3  安装完全分布式模式
(1)理论教学
(2)实验课
(3)作业
5.1
6.学习Hadoop的现代化工程工具。
第七章 Flume   
7.1  Flume产生的背景   
7.2  Flume简介   
7.3  Flume的安装   
7.4  Flume的架构   
7.5  Flume的应用   
7.5.1  Flume的组件类型及其配置项   
7.5.2  Flume的配置和运行方法   
7.5.3  Flume配置示例   
7.6  Flume的工作方式
第八章 Sqoop   
8.1  Sqoop背景简介   
8.2  Sqoop的基本原理   
8.3  Sqoop的安装部署   
8.3.1  下载与安装   
8.3.2  配置Sqoop   
8.4  Sqoop应用   
8.4.1  列出MySQL数据库的基本信息
8.4.2  MySQL和HDFS数据互导   
8.4.3  MySQL和Hive数据互导   
(1)理论教学
(2)作业
7.1
7.学习大数据技术发展的过程,Hadoop产生的历史背景
章 初识Hadoop大数据技术   
1.1  大数据技术概述   
1.1.1  大数据产生的背景   
1.1.2  大数据的定义   
1.1.3  大数据技术的发展   
1.2  Google的“三驾马车”   
1.2.1  GFS的思想   
1.2.2  MapReduce的思想   
1.2.3  BigTable的思想   
(1)理论教学
(2)作业
四、教学内容
(一)初识Hadoop大数据技术
1.主要内容:掌握大数据的基本概念、大数据简史、大数据的类型和特征、大数据对于企业带来的挑战。了解对于大数据问题,传统方法、Google的解决方案、Hadoop框架下的解决方案,重点了解Google的三篇论文。掌握Hadoop核心构成、Hadoop生态系统的主要组件、Hadoop发行版本的差异及如何选择;了解Hadoop典型应用场景;了解本课程内容涉及到的Java语言基础;了解本课程实验涉及到的Linux基础。
2.基本要求:掌握大数据的类型和特征,了解Hadoop框架下的解决方案,掌握Hadoop核心构成、Hadoop生态系统的主要组件、Hadoop发行版本的差异及如何选择;了解Hadoop典型应用场景。
3.重点:大数据的类型和特征和Hadoop框架下的解决方案,Hadoop核心构成、Hadoop生态系统的主要组件,Hadoop典型应用场景。
4.难点:Hadoop框架下的解决方案、Hadoop核心构成和Hadoop生态系统的主要组件。
5.教学方式方法:理论与上机实验讲授为主,辅之以教学案例。课堂讲授为主;通过大数据的历史发展,引入Hadoop生态系统的介绍,加入Hadoop典型应用场景教学案例,由学生讨论,教师总结引导。
6.考核知识点:对大数据的类型和特征的理解,掌握Hadoop核心构成和Hadoop生态系统的主要组件。
(二)Hadoop环境搭建
1.主要内容:了解Hadoop环境搭建前所需做的准备工作,Xshell和xftp的安装,虚拟机软件VMware的安装与使用,掌握Hadoop伪分布式和完全分布式的环境搭建。
2.基本要求:掌握Hadoop伪分布式和完全分布式的环境搭建。
3.重点:Hadoop伪分布式和完全分布式的环境搭建。
4.难点:Hadoop伪分布式和完全分布式安装过程中的集SSH互访,配置文件的编写,有能力解决Hadoop启动过程中的集问题。
5.教学方式方法:理论与上机实验讲授为主,通过环境搭建,引导学生理解Hadoop集的安装原理。
6.考核知识点:掌握Hadoop集的伪分布式和完全分布式的环境搭建关键技术点。
(三)HDFS
1.主要内容:掌握HDFS组件的作用、优缺点。掌握HDFS的组成与架构:NameNode、DataNode、SecondaryNameNode等,掌握工作流程。掌握机架感应、HDFS文件读取写入流程、掌握HDFS数据容错相关处理机制。从Web访问、HDFS Shell、HDFS API三个方面掌握HDFS操作。了解HDFS高级功能,包括:安全模式、回收站、快照、配额。
2.基本要求:掌握HDFS的组成与架构:NameNode、DataNode、SecondaryNameNode等,掌握工作流程。掌握机架感应、HDFS文件读取写入流程、掌握HDFS数据容错相关处理机制。从Web访问、HDFS Shell、HDFS API三个方面掌握HDFS操作。
3.重点:掌握HDFS的组成与架构:NameNode、DataNode、SecondaryNameNode等,掌握工作流程。从Web访问、HDFS Shell、HDFS API三个方面掌握HDFS操作。
4.难点:通过HDFS Shell和HDFS API访问HDFS的操作。
5.教学方式方法:理论与上机实验讲授为主,辅之以HDFS的命令与编程演示。
6.考核知识点:掌握HDFS的组成与架构,HDFS Shell和HDFS API编程访问HDFS的操作。
(四)MapReduce和Yarn
1.主要内容:了解MapReduce是什么,掌握MapReduce设计思想,了解MapReduce特点和不擅长的场景。掌握MapReduce编程模型,掌握MapReduce编程实例之wordcount、统计各个部门员工薪水总和、序列化。了解MapReduce的数据输入、输出格式,掌握分区和合并的概念。掌握MapReduce作业运行机制,掌握Shuffle与排序。熟悉MapReduce常用编程案例之排序、去重和多表查询。了解YARN的作用,了解YARN组件、YARN工作流程和资源模型。了解YARN调度组件,了解FIFO调度器,了解Capacity调度器和Fair调度器。
2.基本要求:掌握MapReduce设计思想,掌握MapReduce编程模型,掌握MapReduce编程实例之wordcount、统计各个部门员工薪水总和、序列化。了解MapReduce的数据输入、输出格式,掌握分区和合并的概念。掌握MapReduce作业运行机制,掌握Shuffle与排序,了
解YARN调度组件,了解FIFO调度器,了解Capacity调度器和Fair调度器。
3.重点:掌握MapReduce编程模型,掌握MapReduce编程实例之wordcount、统计各个部门员工薪水总和、序列化。了解MapReduce的数据输入、输出格式,掌握分区和合并的概念。掌握MapReduce作业运行机制,掌握Shuffle与排序。
4.难点:掌握MapReduce编程模型,掌握MapReduce编程实例之wordcount、统计各个部门员工薪水总和、序列化。
5.教学方式方法:理论与上机实验讲授为主,辅之以MapReduce编程演示。
6.考核知识点:MapReduce编程模型,掌握MapReduce编程实例之wordcount、统计各个部门员工薪水总和、序列化,MapReduce作业运行机制,掌握Shuffle与排序,YARN调度组件,了解FIFO调度器,了解Capacity调度器和Fair调度器。
(五)HBase、Hive和Pig
1.主要内容:掌握HBase的基本概念,掌握HBase的体系结构、数据模型、物理模型、安装
模式,掌握采用HBase Shell操作HBase、掌握JAVA API操作HBase,了解Hive架构与工作原理,掌握Hive数据类型与存储格式,掌握Hive数据模型,掌握查询数据,掌握什么是Pig Latin编程语言:数据类型、语句、表达式、函数。
2.基本要求:掌握HBase的基本概念,掌握HBase的体系结构、数据模型、HBase的安装与部署,掌握采用HBase Shell操作HBase、掌握JAVA API操作HBase,掌握Hive数据类型与存储格式,掌握Hive数据模型,掌握查询数据,掌握Pig Latin编程语言的数据类型、语句与表达式等。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。