⼤数据学习计划
⼤数据如此⽕热的现在,想必许多⼩伙伴都想要加⼊这个⾏业。也是我们今天就要拿出收藏已久的⼤数据学习计划。帮助你不⾛弯路,迈向⼤数据
1
⼤数据应⽤离不开基础软件的⽀撑,且⼤部分⼤数据组件部署在 Linux 操作系统上的⽤户空间,也有很多组件也借鉴了Linux 操作系统的⼀些设计精髓,所以 Linux 既是⼤数据的强⼒⽀撑,也是很多性能问题的⽀撑者。
同时数据库的相关知识也是必要的基础,熟悉 MySQL 数据库的安装与部署,还有备份和恢复等都是重点。
所以在第⼀部分的学习中我们需要达到以下⽬标:
1、通过对 Linux 操作系统体系结构、服务管理、包管理、NTP 协议时间服务器、关系型数据库理论和 MySQL 数据库等相关知识的学习,掌握⼤部分安装部署 Hadoop 集操作系统层⾯的技能,为后续搭建 Hdoop 集、对⽐ RDBMS 与 NoSQL 数据库打基础。
2、通过对 Linux ⽂件系统、(⼤数据学习142974151】内核参数、内存结构、以及 Java 虚拟机等相关知识的学习,为后续学习分布式⽂件系统, Hadoop 集优化扫清操作系统层⾯知识的障碍
2
Hadoop 由许多元素构成。其最底部是HDFS,它存储 Hadoop 集中所有存储节点上的⽂件。HDFS(对于本⽂)的上⼀层是MapReduce 引擎,通过对Hadoop分布式计算平台最核⼼的分布式⽂件系统HDFS、MapReduce处理过程,以及数据仓库⼯具Hive和分布式数据库Hbase 的介绍,基本涵盖了Hadoop分布式平台的所有技术核⼼。
还有Flume是Cloudera提供的⼀个⾼可⽤的,⾼可靠的,分布式的海量⽇志采集、聚合和传输的系统,Flume⽀持在⽇志系统中定制各类数据发送⽅,⽤于收集数据。在⼤数据中也起到⼀定作⽤。
本模块通过学习HDFS,YARN(MapReduce)Spark 等核⼼组件,了解Hadoop 的基本运⾏框架。
所以在第⼆部分的学习中我们需要达到以下⽬标:
1、
搭建单节点模拟分布式集,熟悉 HDFS 命令;
掌握 HDFS 体系结构,读写流程,能 dump HDFS 元数据⽂件;
理解 Flume 组件架构,并能⽤ Flume 向 HDFS 平台导⼊⽂本⽇志;
2、
搭建多节点、可扩展集;
部署 HDFS HA 架构;
理解并实现 Hadoop YARN 的多租户架构
掌握 Zookeeper 组件原理;
掌握 Hadoop 集优化路径;
3
传统数据仓库在⾯对更⼤规模数据时显得⼒不从⼼,在寄希望于⼤数据平台时,MapReduce 编程门槛让很多数据分析师望⽽却步,⽽Hive
是基于Hadoop的⼀个数据仓库⼯具,可以将结构化的数据⽂件映射为⼀张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进⾏运⾏。其优点是学习成本低,⼤数据学习kou74零零加【41三⼋yi】可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应⽤,⼗分适合数据仓库的统计分析。
本模块通过学习 Hive、Impala 等⼤数据 SQL 分析组件,让⽤户将隐匿在泥沙之下的数据价值挖掘出来。
所以在第三部分的学习中我们需要达到以下⽬标:
1、
安装部署 Hive;
理解 Hive 架构及执⾏原理 ;
Hive 的优化(分区、桶) ;
Hive SQL 语句优化;
Hive 常见故障诊断;
4
在上个模块中,OLAP 类型的需求得到了很好的解决⽅案,即针对数据查询分析的应⽤。但是这些组件对于数据的随机删改并不擅长。针对此种 OLTP 类型应⽤,⼤数据⽣态系统中有另外⼀类组件处理这样的问题,那就是 NoSQL 家族。这部分将介绍 NoSQL 的数据模型和分类,着重讲述最具代表的 HBase。
ZooKeeper是⼀个分布式的,开放源码的分布式应⽤程序协调服务,,是Hadoop和Hbase的重要组件。它是⼀个为分布式应⽤提供⼀致性服务的软件,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。在本部分也会涉及。
零基础学java编程所以在第四部分的学习中我们需要达到以下⽬标:
1
理解HBase 体系结构⽔平扩展的优势; 部署 HBase ;
设计 HBase 表;
在这⾥我还是要推荐下我⾃⼰建的⼤数据学习交流qq裙: 142974151,裙⾥都是学⼤数据开发的,如
果你正在学习⼤数据,欢迎你加⼊,⼤家都是软件开发党,不定期分享⼲货(只有⼤数据开发相关的),包括我⾃⼰整理的⼀份2019最新的⼤数据进阶资料和⾼级开发教程,欢迎进阶中和进想深⼊⼤数据的⼩伙伴
2
理解 zookeeper 在 HBase集中的作⽤;
掌握 HBase Schema 设计注意事项;
理解 HBase 协处理器;
掌握 HBase 备份恢复步骤;
5
SQL 语句属于声明式编程语⾔,这种 Relational ⽅式擅长处理结构化数据。⼤数据的数据来源种类繁多,数据类型多种多样,SQL 并不能处理所有问题。所以需要⽤ procedural ⽅式,即编程⽅式处理复杂多变的数据类型和应⽤。本章介绍 MapReduce、Spark编程模型,着重讲述利⽤ Python 在 Spark 平台做数据转换和分析。
所以在第五部分的学习中我们需要达到以下⽬标:
1
能指出 Spark 组件的产⽣背景;
掌握 Spark 与 RDD 的关系;
了解 RDD 使⽤场景,熟悉 RDD 操作; 使⽤ RDD ⽅法做⽇志分析;
理解 Spark-on-YARN 运⾏原理;
掌握数据持久化⽅法。
2
理解 Spark 共享变量及使⽤场景;
在程序中使⽤⼴播变量和累加器;
理解 Spark SQL 的产⽣的历史背景;
创建 DataFrame 和 DataSet;
使⽤ SparkSQL 关联结构数据与⾮机构化数据 ;
能够利⽤ Spark 实现客户的分类;
5
前⾯5部分学习完毕之后,对于⼤数据平台的⼤部分问题,相⽐⼤家都会有思路去解决了。系统稳定运⾏之后,就要考虑运⾏的好不好,快不快。本模块针对 HDFS 数据、HBase 数据、实时抓取数据加索引,以及 Spark Streaming 流式处理技术做重点介绍,为⼤数据处理提速
所以在第六部分的学习中我们需要达到以下⽬标:
1
. 理解 Solr Cloud 组件架构及原理;
掌握 MapReduce 对静态数据索引过程;
掌握 Flume 对实时数据索引过程;
理解 HBase 索引实现原理-协处理器; 掌握 HBase Lily 对 HBase 数据索引过程;
介绍 Cloudera Search
2
了解流式计算的基本概念及分类⽅式;
掌握 Flume、Kafka 组件的架构及原理;
⽤ Flume、Kafka、Spark Streaming 搭建简单的流式处理应⽤;
学会使⽤状态保持及滑动窗⼝等流式计算特性;
3
事物的原理和规律隐藏在纷繁杂乱的数据中,如何从数据中将他们挖掘出来服务⽣产⽣活,⼤数据的核⼼价值体现在此。本模块我们⼀起学习数据科学的数学基础、机器学习的算法。⼤数据学习kou74零零加【41三⼋yi】因为Spark 正在取代 MapReduce 成为⼤数据平台数据处理的全新引擎,它也使得在⼤数据环境下⾼效的运⽤数据科学成为可能,所以我们着重介绍基于 Spark 的机器学习的实现,把握⼤数据的发展趋势,步⼊数据科学的殿堂。
所以在第七部分的学习中我们需要达到以下⽬标:
1、掌握数据科学的数据基础,掌握统计学基础知识。
2、掌握机器学习理论; 掌握推荐系统和决策系统原理
3、掌握 Spark Mllib 组件架构; 利⽤ Spark Mllib 实现推荐器; . 学会引⽤常⽤机器学习算法。
选修
1.⼤数据Hadoop⽣态系统的组建⼤部分是java编写,但95%的企业是直接使⽤不会修改组建,所以培训课程包含冗长的java是不科学的。不过对于Java能做到⼀点了解还是不错的。
2.web开发html及javascript,只是在⼤数据可视化阶段才会⽤到,并不是⼤数据课程的核⼼内容,所以有需要的同学再去学习吧。
3.R 语⾔具有丰富的统计⽅法,⼤多数⼈使⽤R语⾔是因为其具有强⼤的统计功能, R 语⾔内部包含了许多经典统计技术的环境。通过对 R 语⾔基础知识的学习,了解 R 数据分析的通⽤流程。同时学习R 语⾔在 Spark 计算框架的基本使⽤⽅法,可以为实现更强⼤的数据分析打基础。
4.⼤数据时代需要数据开放,同时⼜需要保障敏感数据的安全。企业如何保障数据中⼼的安全性成为即将⾯临的重⼤课题,所以 Hadoop 集的安全机制可以学习⼀下。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。