大数据技术原理与应用 期末复习重点
一、
1、数据产生方式大致经历了3个阶段:运营式系统阶段、用户原创内容阶段、感知式系统阶段。
2、大数据的特点:数据量大(volume)、数据类型繁多(variety)、处理速度快(velocity)、价值密度低(value);4V+1C (C:复杂度 complexity)。
3、云计算的特点:超大规模、虚拟化、高可靠性、通用性、高可伸缩性、按需服务、极其廉价。
4、科学研究方面经历的4种范式:实验、理论、计算、数据。
5、大数据四种计算模式:批量计算(针对大规模数据的批量数据);流计算(针对流计算的实时计算);图计算(针对大规模图结构数据的处理);查询分析计算(大规模数据的存储管理和查询分析)。
6、数据总体上可以分为静态数据和流数据。
7、对静态数据和流数据的处理,对应着两种截然不同的计算模式:批量计算和实时计算。
8、Hadoop的特性:高可靠性、高效性、高扩展性、高容错性、成本低、运行在Linux平台上、支持多种编程语言。
9、Hadoop的核心子项目:HDFS和MapReduce。HDFS 2.0的新特性HDFS HA和HDFS联邦。
10、YARN体系结构中的三个组件:ResourceManager、ApplicationMaster和NodeManager。
二、
1、分布式文件系统是一种通过网络实现文件在多台主机上进行分布式存储的文件系统。
2、名称节点:名称节点也叫主节点,负责管理分布式文件系统的命名空间,负责文件和目录的创建、删除和重命名等,同时管理着数据节点和文件块的映射关系。
数据节点:数据节点也叫从节点,负责数据的存储和读取,在存储时,有名称节点分配存储位置,然后由客户端把数据直接写入相应的数据节点。
第二名称节点:完成EditLog合并到FsImage的过程,缩短合并的重启时间,其次作为“检查点”保存元数据的信息。
3、HDFS体系结构:HDFS采用了主从结构模型,一个HDFS集包括一个名称节点和若干个数据节点。
4、数据的冗余存储:作为一个分布式文件系统,为了保证系统的容错性和可用性,HDFS采用了多副本方式对数据进行冗余存储,通常一个数据块的多个副本会被分不到不同的数据节点上,数据块1被分别存放到数据节点A和C上,数据块2被存放在数据节点A和B上。(多副本存储:名称节点保存的元数据被分割成1、2、3、4、5个数据块,并复制多个副本分别保存在不同数据节点上。
有3个优点:
(1)加快数据传输速度。当多个客户端需要同时访问同一个文件时,可以让各个客户端分别从
不同的数据块副本中读取数据,这就大大加快了传输速度。
(2)容易检查数据错误。HDFS的数据节点之间通过网络传输数据,采用多个副本可以很容易判断数据传输是否出错
(3)保证数据的可靠性。即使某个数据节点出现故障失效,也不会造成数据丢失。
5、HBase采用行键、列族、列限定符和时间戳进行索引。
HBase的功能组件:库函数、一个Master主服务器、许多个Region服务器。
HBase的系统架构:客户端、Zookeeper服务器、Master主服务器、Region服务器。
Zookeeper服务器:并非一台单一的机器,可能是由多台机器构成的集来提供稳定可靠的协同服务。
6、Region服务器工作原理:
1)用户读写数据过程。当用户写入数据时,被分配到相应的Region服务器去执行;用户数据
首先写入到MemStore和HLog中。当用户读取数据时,Region服务器首先访问MemStore缓存,如不到,再去磁盘上的StoreFile中寻。2)缓存的刷新。系统周期性地把MemStore缓存里的内容刷写到磁盘的StoreFile文件中,清空缓存,并在Hlog里写入一个标记。每次刷写都生成一个新的StoreFile文件。每个Region服务器都有自己的HLog文件,每次启动检查该文件,确定最近一次执行缓存刷新之后是否发生新的写入;若发现更新,先写入MemStore再刷写到MemStore,最后删除旧的HLog文件,开始为用户提供服务。3)StoreFile的合并。每次刷写生成一个新的StoreFile,调用Storepact()把多个合并成一个。
7、NoSQL数据库特点:灵活的可扩展性、灵活的数据类型、与云计算紧密融合。
关系数据库主要表现:无法满足海量数据的管理需求;无法满足数据高并发的需求;无法满足高可扩展性和高可用性的需求。
8、NoSQL四大类型:键值数据库、列族数据库、文档数据库、图形数据库。
NoSQL三大基石:CAP、BASE、最终一致性。
CAP原则:C:一致性(Consistency)。它是指任何一个读操作总是能够读到之前完成的写操作的结果,也就是在分布式环境中,多点的数据是一致的。A:可用性(Availability)。它是指快速获取数据,可以在确定的时间内返回操作结果。P:分区容错性(Partition tolerance)。它是指当出现网络分区的情况时,分离的系统也能够正常运行。CAP原则指这三个要素最多只能同时实现两点,不可能三者兼顾。
ACID原则:A:原子性(Atomicity)。它是指事务必须是原子工作单位,对于其数据修改,要么全都执行,要么全都不执行。C:一致性(Consistency)。它是指事务在完成时,必须使所有的数据都保持一致状态。I:隔离性(Isolation)。它是指由并发事务所做的修改必须与任何其他并发事务所做的修改隔离。D:持久性(Durability)。它是指事务完成后,它对于系统的影响是永久性的,该修改即使出现致命的系统故障也将一直保持。
hbase属于什么类型数据库
BASE理论:基本可用(Basically Available)、软状态(Soft State)、最终一致性(Eventually Consistent)。
9、云数据库:云计算库是部署和虚拟化在云计算环境中的数据库,是在云计算的大背景下发展起来的一种新兴的共享基础架构的方法,它极大地增强了数据库的存储能力,消除了人
员、硬件、软件的重复配置,让软、硬件升级变得更加容易,同时也虚拟化了许多后端功能。云数据库具有高扩展性、高可用性、采用多租形式和支持资源有效分发等特点。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。