⼤数据处理技术-基于Hadoop的实战
培训对象
1,系统架构师、系统分析师、⾼级程序员、资深开发⼈员。
2,牵涉到⼤数据处理的数据中⼼运⾏、规划、设计负责⼈。
3,政府机关,⾦融保险、移动和互联⽹等⼤数据来源单位的负责⼈。
4,⾼校、科研院所牵涉到⼤数据与分布式数据处理的项⽬负责⼈。
⼆、学员基础
hadoop分布式集搭建1,对IT系统设计有⼀定的理论与实践经验。
2,有⼀定的数据仓库与⼤数据处理的基础知识。
三、师资
由业界知名云计算专家亲⾃授课:
杨⽼师  主要研究⽹络信息分析以及云计算相关技术,长期从事通信⽹管系统、⽹络信息处理、商务智能(BI)以及电信决策⽀持系统的研究开发⼯作,主持和参与了多个国家和省部级基⾦项⽬,具有丰富的⼯程实践及软件研发经验。
四、培训要点
互联⽹点击数据、传感数据、⽇志⽂件、具有丰富地理空间信息的移动数据和涉及⽹络的各类评论,成为了海量信息的多种形式。当数据以成百上千TB不断增长的时候,我们在内部交易系统的历史信息之外,需要⼀种基于⼤数据分析的决策模型和技术⽀持。
⼤数据通常具有:数据体量(Volume)巨⼤,数据类型(Variety)繁多,价值(Value)密度低,处理速度(Velocity)快等四⼤特征。如何有效管理和⾼效处理这些⼤数据已成为当前亟待解决的问题。⼤数据处理意味着更严峻的挑战,更好地管理和处理这些数据也将会获得意想不到的收获。
Google发布的GFS和MapReduce等⾼可扩展、⾼性能的分布式⼤数据处理框架,证明了在处理海量⽹页数据时该框架的优越性。
GFS/MapReduce框架实现了更⾼应⽤层次的抽象,使⽤户⽆需关注复杂的内部⼯作机制,⽆需具备丰富的分布式系统知识及开发经验,即可实现⼤规模分布式系统的部署与⼤数据的并⾏处理。
ApacheHadoop开源项⽬开发团队。他们克隆了GFS/MapReduce框架,推出了Hadoop系统。该系统已受到学术界和⼯业界的⼴泛认可和采纳,并孵化出众多⼦项⽬(如Pig,Zookeeper和Hive等),⽇益形成⼀个易部署、易开发、功能齐全、性能优良的系统。
本课程从⼤数据技术以及Hadoop实战的⾓度,结合理论和实践,全⽅位地介绍Hadoop这⼀⾼性能处理⼤数据⼯具的开发技巧。本课程涉及的主题包括:Hadoop分布式⽂件系统及Hadoop的I/O;MapReduce的的⼯作机制、类型和格式;如何构建和管理Hadoop集;Pig Latin语⾔的使⽤技巧;Hive数据仓库⼯具介绍;HBase和Zookeeper⼯具的使⽤和管理;开源数据采集⼯具sqoop。
教学过程中还提供了案例分析来帮助学员了解如何⽤Hadoop系列⼯具来解决具体的问题,并介绍了从⼤数据中挖掘出有价值的信息的关键。本课程不是⼀个泛泛的理论性、概念性的介绍课程,⽽是针对问题讨论解决⽅案的深⼊课程。教师对于上述领域有深⼊的理论研究与实践经验,在课程中将会针对这些问题与学员⼀起进⾏研究,在关键点上还会搭建实验环境进⾏实践研究,以加深对于这些解决⽅案的理解。
五、培训内容
第⼀讲 云计算及⼤数据处理技术介绍
1)云计算的概念
2)云计算发展现状
3)⼤数据的概念
4)⼤数据的应⽤
5)⼤数据关键技术
第⼆讲 Google中的关键技术
1)GFS⽂件系统
2)Chubby中的Paxos算法
3)MapReduce技术机制
4)Bigtable表管理技术
第三讲 Hadoop⽂件系统HDFS及其⽂件结构  1) Hadoop项⽬简介
2) HDFS体系结构
3) HDFS关键运⾏机制
4) Hadoop vs Google
5) Hadoop API
第四讲 MapReduce编程模型及其应⽤开发
1)  MapReduce产⽣背景
2)  MapReduce编程模型
3)  MapReduce实现机制
4)  MapReduce案例分析
第五讲 Pig Latin及其使⽤
1)Pig 设计的⽬标
2)Pig Latine介绍
3)Pig关键性技术
4)Pig的实⽤案例
第六讲 数据仓库Hive使⽤
1) Hive设计⽬标
2) Hive数据模型
3) Hive关键性技术
4) Hive的使⽤案例
第七讲 HBase和ZooKeeper使⽤
1) Hbase运⾏机制简介
2) HBase与 HDFS
3) HBase的对外接⼝
4) ZooKeeper的数据模型
5) ZooKeeper的读写机制
6) ZooKeeper的使⽤⽅法
第⼋讲 数据抽取⼯具Sqoop使⽤
1)数据抽取技术介绍
2)Sqoop中的关键技术
3)Sqoop数据抽取策略
4)数据挖掘及分析
第九讲 当前数据中⼼的改造和转换分析
1)主流商业⼤数据解决⽅案⽐较
2)主流开源云计算系统⽐较
3)国内代表性⼤数据平台⽐较
第⼗讲各⼚商最新的⼤数据产品介绍
1)IBM的⼤数据技术
2)HP的⼤数据技术
3)Teradata的⼤数据技术
4)其它⼚商的⼤数据处理
六、培训⽬标
1, 全⾯了解⼤数据处理技术的相关知识。
2,学习Hadoop的核⼼技术⽅法以及应⽤特征。
3,深⼊使⽤Hadoop相关⼯具在⼤数据中的使⽤。4,掌握传统数据中⼼向云计算中⼼转换的关键技术。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。