大数据分析 课程标准
一、课程定位
现在企业为了提升客人使用体验,提高业务效率,在大数据蓬勃发展的阶段里,需要对现有业务系统进行转型升级;作为大数据核心部分,大数据研发工程师应用成为有大量数据的企业必备人才,在数据处理,数据分析方面,大数据研发是不可或缺的技能。
随着大数据应用的大量普及,开源框架,比如hadoop,spark等,也得到长足发展。本课程除了着力于统数据的收集和搭建,使得作为大数据的研发/分析带来基础设施,让学员掌握,同时,对大数据的离线/实时处理和部分数据分析进行深度理解和把握。通过本课程,掌握大数据平台并且对大数据分析的基本技能和方法,为将来在企业分析大数据做决策打下基础。
二、课程性质与作用
课程性质 大数据分析课程。
课程作用
大数据分析是数据清洗过后使得数据产生价值的过程。在企业丰富应用场景中,通过标准的大数据分析方法不能胜任的情况下,就需要通过先验知识来验证大数据并出规律来达到业务目标。在实际工作中,掌握大数据研分析需要展示的数理统计分析的知识,敏锐的数据观察力,和部分软件开发的知识,也需要比较扎实的计算机基础。本课程大纲是完整的课程,实际培训课程中,会根据学员实际情况进行分组。通过本课程的学习。
三、课程目标
课程教学以灵活运用分析方法为目标,以实际项目为中心,以合理知识结构分解为手段,结合实际的应用场景,对大数据进行文本,图标等大数据进行分析和学习,主要以实际操作让学员对相关知识点掌握,达到理论与实际结合,教学与企业融合的内容。学员学成后,能够利用清洗后的数据,根据提供的先验知识,可以做出模型并能够预测业务数据。课程内容始终围绕全面提升学生的理论和操作的熟练程度、规范化程度以及职业素质三个方面展开。
(一)知识目标
1.理解大数据概念及应用场景,先导课程Linux的操作
2.掌握开发语言R 或python
3.掌握大数据HDFS、HBase、Hadoop集搭建及数据批处理。
4.离线工具ETL和hive的安装及应用。
5.数据可视化的应用
6.真实
(二)能力目标
1.全局的眼光理解大数据,理解大数据的应用,并有总体的概念。
2.理解企业中实际生产环境的大数据搭建,收集,分析,应用的过程。
3.具备在实际应用场景中,能对数据处理流程,数据挖掘进行个性化处理。
四、课程设计
主要指课程设计的总体思路:
课程设计围绕大数据分析的基础和方法,考虑到实际企业生产环境中的应用场景,课程中采用实际案例, 从案例分析、启动、实施、验证各环节剖析讲解,与真实环境同步。
课程案例选取:
以搭建支持10GB的数据为目标,在目标3机器上部署大数据仓库,并能实际运行。模拟手机1GB的数据,能够通过Hive进行查询,为将来数据清洗和数据分析提供基础。
五、课程内容与要求
知识块 | 知识点 | 课程目标 | 课时 | 案例 | ||
先导知识 | ||||||
Linux系统 | Linux 基础 | 先导课程,以掌握Linux基本操作未基础,加上对Linux操作系统的进程管理的知识,为后续的部署打下基础。主要能够熟练编辑和配置Linux下的系统文件并能够查文件和文字 | ||||
Linux-常用命令介绍 | ||||||
Linux-shell的特殊符号以及VI编译工具 | ||||||
Linux-高级指令(系统管理、查询、作业控制、进程管理和Linux三剑客) | ||||||
Linux-环境变量、初始化文件和定时服务 | ||||||
Linux-shell脚本及编程 | ||||||
Linux-备份工具 | ||||||
Linux-安全性 | ||||||
Linux-网络互联 | ||||||
Linux-软件的安装和日志 | ||||||
大数据基础 | ||||||
大数据概论 | 大数据背景 | 能够高度概括大数据系统的前世今生,实际了解企业里面使用的大数据的场景 | ||||
大数据基本概念 | ||||||
大数据案例 | ||||||
大数据技术 | ||||||
HDFS分布式文件系统 | HDFS简介 | 掌握DFS架构,配置及日常管理hbase应用案例 | ||||
HDFS基本架构 | ||||||
使用场景 | ||||||
核心设计 | ||||||
体系架构 | ||||||
命令行使用 | ||||||
JAVA接口 | ||||||
运行机制 | ||||||
IO操作 | ||||||
Hodoop集安装部署 | Linux环境准备 | 理解Hadoop生态,能够安装并验证Hadoop集。并实际操作在现有生态增加组件的安装及调整方式 | ||||
按照JDK | ||||||
按照并配置Hadoop | ||||||
启动并验证Hadoop集 | ||||||
MapReduce计算框架 | 编程模型 | WordCount高级编程 | ||||
编程案例 | ||||||
应用编程开发 | ||||||
MP工作机制和YARN | ||||||
YARN平台简介 | ||||||
YARN结构 | ||||||
YARN资源调度 | ||||||
作业调度 | ||||||
数据库知识 | ||||||
Hbase分布式数据库 | 简介 | 理解和掌握HBase的原理及操作,并能对HBase做日常管理 | ||||
安装部署 | ||||||
和Hadoop的关系 | ||||||
核心功能模块 | ||||||
基本概念 | ||||||
Hbase Shell命令行工具 | ||||||
JAVA客户端操作 | ||||||
MAPreduce批量操作HBASE | ||||||
块数据导入HBASE | ||||||
核心概念 | ||||||
高级特性 | ||||||
安装部署 | ||||||
工作原理 | ||||||
客户端使用 | ||||||
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论