【知识点总结】⼤数据技术原理与应⽤
⼤数据技术原理与应⽤
本⽂是对《⼤数据与云计算导论》课程知识点的应试总结。基本涵盖了《⼤数据技术原理与应⽤》的重点内容。
由整理
第⼀章⼤数据概述
1、三次信息化浪潮
信息化浪潮发⽣时间标志解决的问题代表企业第⼀次浪潮1980年前后个⼈计算机信息处理Intel、AMD、IBM 第⼆次浪潮1995年前后互联⽹信息传输雅虎、⾕歌、阿⾥巴巴第三次浪潮2010年前后物联⽹、云计算和⼤数据信息爆炸亚马逊、⾕歌、阿⾥云注:信息化浪潮每15年⼀次。
2、信息科技为⼤数据时代提供技术⽀持
1. 存储设备容量不断增加
存储单位:bit、Byte、KB、MB、GB、TB、PB、EB(ZB、YB、BB、NB、DB)
2. CPU处理能⼒⼤幅提升
3. ⽹络带宽不断增加
3、⼤数据的特点(5个)
1. 数据量⼤(Volume)
2. 数据类型繁多(Variety)
3. 处理速度快(Velocity)
4. 价值密度低(Value)
5. 真实性(Veracity)
4、⼤数据的影响
1、⼤数据对科学研究的影响
⼈类⾃古以来在科学研究上先后经历了实验、理论、计算和数据四种范式:
1. 第⼀种范式:实验科学
2. 第⼆种范式:理论科学
3. 第三种范式:计算科学
4. 第四种范式:数据密集型科学
2、⼤数据对思维⽅式的影响
1. 全样⽽⾮抽样
2. 效率⽽⾮精确
3. 相关⽽⾮因果
5、⼤数据关键技术
数据采集与预处理
数据存储和管理
数据处理与分析
数据安全和隐私保护
6、⼤数据计算模式
⼤数据计算模式解决问题代表产品批处理计算针对⼤规模数据的批量处理MapReduce、Spark等
流计算针对流数据的实时计算Strom、Stream、银河流数据处理平台等图计算针对⼤规模图结构数据的处理Pregel、GraphX、PowerGraph等查询分析计算⼤规模数据的存储管理和查询分析Dremel、Hive等
7、云计算
1、概念
通过⽹络提供可伸缩的、廉价的分布式计算能⼒
2、云计算的关键技术
1. 虚拟化:云计算基础架构的基⽯
2. 分布式存储
3. 分布式计算
4. 多租户
8、物联⽹
1、概念
物物相连的互联⽹
从技术架构上来看,物联⽹可分为四层:感知层、⽹络层、处理层和应⽤层
2、物联⽹关键技术
1. 识别和感知技术(⼆维码、RFID、传感器等)
2. ⽹络与通信技术
3. 数据挖掘与融合技术
9、⼤数据与云计算、物联⽹的关系
区别:⼤数据侧重于海量数据的存储、处理与分析,从海量数据中发现价值,服务于⽣产和⽣活;云计算本质上旨在整合和优化各种IT 资源,并通过⽹络以服务的⽅式廉价地提供给⽤户;物联⽹的发展⽬标是实现物物相连,应⽤创新是物联⽹发展的核⼼。
联系:⼤数据、云计算和物联⽹三者相辅相成。⼤数据根植于云计算,⼤数据分析的很多技术都来⾃于云计算,云计算的分布式数据存储和管理系统提供了海量数据的存储和管理能⼒,分布式并⾏处理框架MapReduce提供了海量数据的分析能⼒;⼤数据为云计算提供了“⽤武之地”;物联⽹的传感器源源不断产⽣的⼤量数据,构成了⼤数据的重要来源,同时物联⽹需要借助于云计算和⼤数据技术,实现物联⽹⼤数据的存储、分析和处理。
第⼆章⼤数据处理框架Hadoop
1、Hadoop简介
Hadoop是⼀个开源分布式计算平台
Hadoop的核⼼包括:HDFS(前⾝:NDFS)和MapReduce。
2、Hadoop的特性
⾼可靠性
⾼效性
⾼扩展性
⾼容错性
成本低
运⾏在Linux平台上
⽀持多种编程语⾔
第三章分布式⽂件系统HDFS
1、HDFS含义
Hadoop分布式⽂件系统,是GFS的开源实现
2、DFS含义
分布式⽂件系统(DFS)是⼀种通过⽹络实现⽂件在多台主机上进⾏分布式存储的⽂件系统
3、分布式⽂件系统的结构
主节点(Master Node):名称节点(NameNode)
从节点(Slave Node):数据节点(DataNode)
4、分布式⽂件系统的设计需求
分布式⽂件系统的设计⽬标主要包括:透明性、并发控制、可伸缩性、容错以及安全需求等。
5、HDFS特性
1、⽬标
1. 兼容廉价的硬件设备
2. 流数据读写
3. ⼤数据集
4. 简单的⽂件模型
5. 强⼤的跨平台兼容性
2、局限性
1. 不适合低延迟数据访问
2. ⽆法⾼效存储⼤量⼩⽂件
3. 不⽀持多⽤户写⼊及任意修改⽂件
6、HDFS相关概念
1、块
以数据块为单位进⾏存储(1.0默认64MB)
**⽬的:**最⼩化寻址开销
好处:
redis支持的五种数据类型1. ⽀持⼤规模⽂件存储
2. 简化系统设计
3. 适合数据备份
2、名称节点和数据节点
名称节点的核⼼数据结构:FsImage和EditLog。
NameNode DataNode
存储元数据存储⽂件内容
元数据存在内存中⽂件内容保存在磁盘中保存⽂件Block于DataNode间的映射关系维护Block与DataNode本地⽂件的映射关系3、第⼆名称节点
作⽤:
1. Edit log与FsImage的合并操作
2. 作为名称节点的“检查点”(冷备份)
7、HDFS体系结构
1、HDFS命名空间管理
HDFS的命名空间包含⽬录、⽂件和块。
HDFS集中只有⼀个命名空间,并且只有唯⼀⼀个名称节点。
2、通信协议
构建在TCP/IP协议基础之上
使⽤客户端协议与名称节点进⾏交互
名称节点和数据节点之间使⽤数据节点协议进⾏交互
客户端与数据节点的交互通过RPC实现
3、局限性
1. 命名空间的限制
2. 性能的瓶颈
3. 隔离问题
4. 集的可⽤性
8、HDFS的存储原理
数据的冗余存储、数据存取策略、数据错误与恢复
1、数据的冗余存储
优点:
1. 加快数据传输速度
2. 容易检查数据错误
3. 保证数据的可靠性
2、数据存取策略
1、数据存放
冗余因⼦默认为3。
**内部请求:**第⼀个副本放置在写操作请求的数据节点上;
**外部请求:**挑⼀个不太忙的数据节点,第⼆个副本放置在不同于第⼀个副本的机架的数据节点上,第三个副本放置在第⼀个副本的机架的其他数据节点上。
2、数据读取
当发现某个数据块副本对应的机架ID与客户端对应的ID⼀样时,优先选择该副本,否则就随机。
3、数据复制
采⽤流⽔线复制的策略(4KB)
3、数据错误与恢复
9、HDFS常⽤命令
hadoop fs -get
hadoop fs -put
第四章分布式数据库HBase
1、HBase含义
Hadoop DataBase(HBase)是针对⾕歌BigTable的开源实现。
2、HBase与传统关系数据库的对⽐分析
关系数据库HBase 数据类型具有丰富的数据类型和存储⽅式未经解释的字符串
数据操作丰富的操作不存在复杂的表与表之间的关系
存储模式基于⾏模式存储基于列存储
数据索引可以构建复杂的多个索引只有⼀个索引——⾏键
数据维护更新操作会⽤最新的当前值去替代旧值⽣成⼀个新的版本,旧有版本依然保留
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论