大数据开发基础
一、课程性质、目的和任务
1. 本课程为计算机专业大学本科生及研究生选修的一门课程;
2. 目的是让学生了解并掌握四个领域(即大数据系统的起源及系统特征、大数据系统的架构设计
及功能目标设计、大数据系统程序开发、企业大数据案例分析)的内容,同时利用真机实验环节以及大数据实训一体机来提升学生对大数据开发的实践能力;
3. 本课程重点让学生掌握五个方面的内容:
(1)HDFS使用操作;
(2)MapReduce开发;
(3)HBase数据库的开发;
(4)Hive数据仓库开发;
(5)大数据案例分析;
二、教学内容及要求
第一章大数据概述
授课学时:1
基本要求:
1.了解大数据概念、特征、数据计量单位以及大数据的类型;
2.了解大数据系统的设计背景、以及当前大数据系统存在的不足;
hbase应用案例3.了解大数据系统的设计思想、设计目标和设计原则;
4.了解大数据系统的整体逻辑架构设计及运行逻辑,了解当前大数据系统的主流架构;
第二章大数据应用开发思路和开发环境配置
授课学时:1
基本要求:
1.掌握大数据系统应用读写操作的开发流程;
2.掌握分析大数据开发技术及思路;
3.掌握大数据Java开发的环境配置、Plugin插件的安装,Hadoop环境配置;
第三章HDFS分布式文件系统
授课学时:4
基本要求:
1.了解HDFS设计目标、基本概念;
2.掌握HDFS文件系统的命令操作;
3.掌握Java对HDFS的程序开发操作,包含目录管理、文件列表、读取、导入导出、文件压缩等开发;
4. 真机实操训练(实验环节 1);
第四章MapReduce分布式编程
授课学时:6
基本要求:
1.了解MapReduce的设计思想、基本概念;
2.了解MapReduce的系统架构、作业运行机制和关键技术;
3.掌握MapReduce的数据类型的自定义以及数据类型的使用;
4.掌握MapReduce开发,定制输入输出的数据格式;
5.掌握将HDFS文件系统中整个文件作为输入数据的开发;
6.掌握利用MapReduce完成小文件聚合成一个大文件的开发;
7.掌握压缩数据处理程序开发;
8.掌握任务组合过程,掌握迭代组合、并行组合及串行组合;
9.掌握任务的前后链式组合;
10.掌握多数据源连接的开发,包含Map端开发以及Reduce端开发;
11.掌握Hadoop全局参数的使用,全局文件的使用;
12.掌握与关系型数据库的访问连接;
13.真机实操训练(实验环节2);
第五章HBase分布式数据库
授课学时:4
基本要求:
1.了解HBase分布式数据库的设计目标、基本概念;
2.了解HBase逻辑架构以及物理架构;
3.掌握HBase分布式数据库Shell命令操作;
4.掌握HBase数据库系统的Java开发,包含创建表、删除表,查询所有表操作;
5.掌握HBase数据库系统的Java开发,包含插入记录、查询数据,组合查询、修改删除记录等开发;
6.真机实操训练(实验环节3);
第六章Hive数据仓库开发
授课学时:6
基本要求:
1.了解Hive数据仓库的工作原理及特点;
2.了解Hive架构设计,包含数据类型、数据存储方式以及查询方式;
3.掌握Hive数据仓库系统的HQL语言语法;
4.掌握HQL的创建表、查看表及查询有结构,修改表以及删除表;
5.掌握利用HQL语句将HDFS的文件导入数据仓库;
6.掌握分区表、桶表、外部表的使用;
7.掌握HQL语句的联合查询、子查询、创建视图等操作;
8.掌握利用Java开发UDF自定义函数,以及自定义函数的使用;
9.掌握Java连接Hive数据仓库进行数据查询;
10.真机实操训练(实验环节4);
第七章Spark数据挖掘
授课学时:4
基本要求:
1.了解数据挖掘的基本概念和手段,介绍数据挖掘的常用算法、编程语言等;
2.了解常用的数据挖掘工具;
3.了解最新大数据处理技术Spark平台,包括RDD基础及编程接口介绍,以及SparkSQL逻辑架构,流式处理技术SparkStream等;
4.了解介绍Spark平台下机器学习(Machine Learning)架构解析,以及Spark MLlib经典算法解析和案例;
5.案例详解,解析通过Spark MLlib的协同过滤算法,来分析某大型电商的商品推荐过程,并说明实现方法和代码;
第八章综合案例分析
1、某网站访问日志分析
授课学时:2
基本要求:
1.了解网站访问日志的数据结构;
2.了解网站访问日志的分析方法以及本次分析日志需要完成的目录;
3.了解分析过程以及分析工具的使用;
4.大数据环境实验(实验环节5);
授课学时:2
基本要求:
1.了解搜狐网站对关键词搜索记录的数据结构;
2.了解关键词搜索的分析目标及预期完成分析结果;
3.了解分析流程、分析工具以及重点代码的介绍;
4.大数据环境实验(实验环节6);
3、某大型电商数据分析
授课学时:2
基本要求:
1.了解本案例中电商数据的字段结构;
2.了解本次电商数据预期完成分析的指标以及分析结果的再利用介绍;
3.了解分析流程、分析工具以及重点代码的介绍;
4.大数据环境实验(实验环节7);
三、课程考核
课程成绩中期末考试成绩占60%,平时成绩占40%;
期末考试分笔试和上机操作两部分进行。
附录1:实验环节介绍
●
实验环节1:HDFS操作命令操作
实验目标及要求:让学生掌握分布式文件系统HDFS的文件操作,包含导入导出文件、列表、查、删
除文件等。
●
实验环节2:MapReduce开发(单词计数)
实验目标及要求:让学生掌握在HDFS文件系统内的Map及Reduce的Java开发,实现对指定文本文件
的单词计数,将统计结果输出至控制台。
●
实验环节3:HBase数据库命令操作
实验目标及要求:让学生掌握分布式文件数据库系统HBase的数据库操作,包含创建表、删除表、增
加列、导入记录、删除记录等。
●
实验环节4:Hive数据仓库基础使用
实验目标及要求:让学生掌握在Hive数据仓库的基本命令的操作,包含创建数据仓库、创建表、删除
表、导入及导出数据,统计查询等在CLI模式下的使用操作。
●
实验环节5:分析网站访问日志
实验目标及要求:实践在企业应用中的互联网网站访问日志的分析案例,利用Hive工具完成对每小时
内的访问PV及IP数据,同时将统计结果输出至网页。
●
实验环节6:分析搜索引擎网站日志数据
实验目标及要求:分析关键字的统计日志的数据,利用Hive工具完成对关键词的统计,包含搜索关键
词排行、用户习惯点击第几个连接、访问目标网站排行等,同时将统计结果输出至网页。
●
实验环节7:分析电商网站数据
实验目标及要求:对此大型电商数据进行实践分析,利用Hive工具完成对商品销售统计,同类商品推荐等分析指标,将分析结果导出至关系型数据库Mysql。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论