大数据技术与应用基础-教学大纲--688IT编程网

《大数据技术与应用基础》教学大纲

学时：60

代码：

适用专业：

制定： hbase应用案例

审核：

批准：

一、课程的地位、性质和任务

大数据技术的发展，已被列为国家重大发展战略。而在过去的几年里，无论是聚焦大数据发展的《促进大数据发展行动纲要》，还是《“十三五”规划》中都深刻体现了政府对大数据产业和应用发展的重视。目前国内大数据发展还处于加速期、转型期，数据与传统产业的融合还处于

起步阶段，各行业对大数据分析和挖掘的应用还不理想。但随着市场竞争的加剧，各行业对大数据技术研究的热情越来越高，在未来几年，各领域的数据分析都将大规模应用。

本课程在注重大数据时代应用环境前提下，考虑大数据处理分析需求多样复杂的基本情况，从初学者角度出发，以轻量级理论、丰富的实例对比性地介绍大数据常用计算模式的各种系统和工具。考虑到当前大数据发展处于起步并逐步赶超先进的阶段，其应用领域丰富广泛，在教学过程中应注重掌握大数据分析的实践操作。本课程通过丰富简单易上手的实例，让学生能够切实体会和掌握各种类型工具的特点和应用。

二、课程教学基本要求

1. 了解大数据的发展和基本概念，理解并掌握大数据的特征及主要技术层面。

2. 掌握Scrapy环境的搭建，了解网络爬虫获取数据的过程，熟悉爬虫项目的创建。

3. 深刻了解hadoop的基础理论，理解并掌握Hadoop单机及集环境的部署方法。

4. 掌握HDFS的基本概念和HDFS在hadoop中的作用，理解并识记HDFS的使用，了解HDFS

的JAVA API接口及数据流原理；让学生明白Map过程与Reduce过程这两个独立部分各自的原理及合作途径，知道如何独立编写满足自己需求的MapReduce程序。

5. 理解HBase中涉及的基本概念，掌握HBase的简单应用；让学生了解数据仓库的基础概念，熟悉Hive与HDFS、MapReduce直接的关心。

6. 熟悉Spark和RDD的基本概念，熟悉spark接口的使用，解决实战时的步骤及思路。

7. 明白Hadoop和Storm之间的差别，掌握对Storm的使用。理解Apex的工作过程并能简单应用。

8. 了解Druid的基本概念、应用场景以及集架构，掌握批量数据加载、流数据加载的操作。了解Flink的重要概念和基本架构，掌握Flink简单的使用实例。

9. 理解Elasticsearch的基本架构，掌握Elasticsearch的一些入门操作。了解并基本掌握怎样利用所学的工具对目标实例进行数据分析。

三、课程的内容

1．大数据概述

了解大数据的产生和发展，识记大数据的特征、数据类型和系统，大数据的计算模式和技术层面间的关联。

2．数据获取

识记基本概念，识记各功能应怎样用Scrapy爬虫实现，了解采集目标数据项定义，领会并掌握爬虫运行和数据存储技术。

3．Hadoop基础

领会Hadoop的主要特点，识记Hadoop HDFS、Hadoop MapReduce、Hadoop YARN的原理，了解其生态系统中重要组成的原理，熟悉Hadoop的配置。

4．HDFS基本应用

熟悉HDFS所需的API接口，了解数据流的工作过程，能简单操作HDFS的接口。

5．MapReduce应用开发

了解所需的开发环境eclipse，领会Map过程与Reduce过程的工作原理，了解使用mapreduce解决实际问题时的步骤和思路，识记MapReduce代码的不同功能。

6．分布式数据库HBase

识记HBase的基本概念，熟悉安装HBase集的步骤，了解HBaseAPI的基本步骤。

7．数据仓库工具Hive

领会Hive的作用，掌握Hive接口的使用，会利用Hive解决实战问题。

8．开源集计算环境Spark

了解Spark的基本思想，熟悉Spark所需的环境及API等，熟悉Spark实战的完整工作过程，领会其所需的代码。

9．流实时处理系统Storm

识记Storm相关概念，掌握Storm环境的安装配置，了解Storm的基本使用

10．企业级、大数据流处理Apex

识记Apex的基本概念，掌握Apex的环境配置过程，理解常见组件的原理和特点，会简单的应用Apex解决问题。

11．事件流OLAP之Druid

了解Druid的概念及其应用场所，掌握Druid单机环境的安装方法和步骤，并能利用Druid进行加载流数据处理数据查询等。

12．事件数据流引擎Flink

识记Flink的基本概念，明白Flink的基本架构，能够安装Flink的单机和集环境。

13．分布式文件搜索Elasticsearch

了解Elasticsearch包含重要部分的基本概念，掌握Elasticsearch重要的安装过程，掌握简单的操作。

14．实例电商数据分析

能够通过已经学习了解过的环境和工具等，有条理有步骤的对实例进行数据挖掘、数据处理和数据分析等，进而得出相关的结论。

四、课程的重点、难点

1．大数据概述

重点：大数据的概念和特征。

难点：大数据的计算模式和技术层面间的关联。

2．数据获取

重点：Scrapy环境的搭建。

难点：网络爬虫获取数据的过程。

3．Hadoop基础

重点：Hadoop的基础理论及安装。

难点：Hadoop单机及集环境的部署方法。

4．HDFS基本应用

重点：掌握HDFS的两种使用方法。

5．MapReduce应用开发

重点：明白Map过程与Reduce过程的原理。

难点：独立编写满足自己需求的MapReduce程序。

6．分布式数据库HBase

重点：HBase所包含的3个重要组件的工作方式。

难点：如何通过HBase shell和HBase API访问HBase。

7．数据仓库工具Hive

重点：熟悉简单的Hive命令。

8．开源集计算环境Spark

重点：理解Spark的工作机制。

难点：解决实战时的步骤及思路。

9．流实时处理系统Storm

重点：Storm的实时处理。

难点：利用Storm的特点对数据进行合适的处理。

10．企业级、大数据流处理Apex

重点：Apex的流处理功能。

11．事件流OLAP之Druid

重点：使用Druid进行加载和查询数据。

12．事件数据流引擎Flink

重点：明白Flink的基本架构。

难点：Flink系统中进程间处理信息的原理。

13．分布式文件搜索Elasticsearch

重点：Elasticsearch的基本架构。

14．实例电商数据分析

难点：怎样利用所学的工具对目标实例进行数据分析。

五、课时分配表

序号	课程内容	总学时	讲课	实验	习题课	机动
1	大数据概述	2	2			2
2	数据获取	4	2	2
3	Hadoop基础	4	2	2
4	HDFS基本应用	4	2	2
5	MapReduce应用开发	6	4	2
6	分布式数据库HBase	4	2	2
7	数据仓库工具Hive	4	2	2
8	开源集计算环境Spark	8	4	4
9	流实时处理系统Storm	4	2	2
10	企业级、大数据流处理Apex	4	2	2
11	事件流OLAP之Druid	4	2	2
12	事件数据流引擎Flink	4	2	2
13	分布式文件搜索Elasticsearch	4	2	2
14	实例电商数据分析	4	2	2
合计		60	32	28

六、实验项目及基本要求

实验一通过爬虫获取数据

要求：能安装爬虫所需环境，创建简单的爬虫项目。成功完成爬虫核心实现。

实验二 Hadoop安装与配置

要求：Hadoop单机和集模式的配置。

实验三实战HDFS的接口

要求：能自主操作Java和命令行接口。

实验四编写简单的Mapreduce程序

要求：完成MapReduce所需环境的配置，完成Mapreduce应用实例

实验五分布式数据库HBase

要求：安装HBase集模式，能简单使用HBase shell和Hbase API。

实验六 Hive的使用

要求：会进行简单的Hive命令使用，熟悉Hive的复杂语句。

实验七 Spark简单编程与聚类实战

要求：了解Spark简单的RDD创建，了解各个实战的编程实现及解决过程。

实验八 Storm安装与配置

要求：了解Storm的概念及原理，了解Storm的安装和基本使用。

688IT编程网

大数据技术与应用基础-教学大纲

发表评论

推荐文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

大数据技术与应用基础-教学大纲

发表评论

推荐文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

非零金额正则表达式

半小时正则表达式