1
初识Hadoop大数据技术
本章主要介绍大数据的时代背景,给出了大数据的概念、特征,还介绍了大数据相关问题的解决方案、Hadoop大数据技术以及Hadoop的应用案例。
本章的主要内容如下。
(1)大数据技术概述。
(2)Google的三篇论文及其思想。
(3)Hadoop概述。
(4)Hadoop生态圈。
(5)Hadoop的典型应用场景和应用架构。
sql数据库迁移另一个硬盘
1.1  大数据技术概述
1.1.1  大数据产生的背景
1946年,计算机诞生,当时的数据与应用紧密捆绑在文件中,彼此不分。19世纪60年代,IT系统规模和复杂度变大,数据与应用分离的需求开始产生,数据库技术开始萌芽并蓬勃发展,并在1990年后逐步统一到以关系型数据库为主导,具体发展阶段如图1-1所示。
图1-1  数据管理技术在2001年前的两个发展阶段
2001年后,互联网迅速发展,数据量成倍递增。据统计,目前,超过150亿个设备连接到互
联网,全球每秒钟发送290万封,每天有2.88万小时视频上传到YouTube网站,Facebook网站每日评论达32亿条,每天上传照片近3亿张,每月处理数据总量约130万TB。2016年全球产生数据量16.1ZB,预计2020年将增长到35ZB(1ZB = 1百万,PB = 10亿TB),如图1-2所示。
图1-2  IDC数据量增长预测报告
2011年5月,EMC World 2011大会主题是“云计算相遇大数据”,会议除了聚焦EMC公司一直倡导的云计算概念外,还抛出了“大数据”(BigData)的概念。2011年6月底,IBM、麦肯锡等众多国外机构发布“大数据”相关研究报告,并予以积极的跟进。
1.1.2  大数据的定义
“大数据”是一个涵盖多种技术的概念,简单地说,是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。IBM公司将“大数据”理念定义为4个V,即大量化(Volume)、多样化(Variety)、快速化(Velocity)及由此产生的价值(Value)。
要理解大数据这一概念,首先要从“大”入手。“大”是指数据规模,大数据一般指在10TB(1TB=1024GB)规模以上的数据量。大数据与过去的海量数据有所区别,其基本特征可以用4个V来总结(Volume、Variety、Velocity和Value),即数据体量大、数据类型多、处理速度快、价值密度低。
●  数据体量大:大数据的数据量从TB级别跃升到PB级别。
●  数据类型多:大数据的数据类型包括前文提到的网络日志、视频、图片、地理位置信息等。
●  处理速度快:1秒定律。最后这一点是大数据技术与传统数据挖掘技术的本质区别。
●  价值密度低:以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。
1.1.3  大数据技术的发展
随着应用数据规模的急剧增加,传统系统面临严峻的挑战,它难以提供足够的存储和计算资源进行处理。大数据技术是从各种类型的海量数据中快速获得有价值信息的技术。大数据技术要面对的基本问题,也是最核心的问题,就是海量数据如何可靠存储和如何高效计算的问题。
围绕大数据的核心问题,下面列出了大数据相关技术的发展历程。
2003年,Google公司发表了论文“The Google File System”,介绍GFS分布式文件系统,主要讲解海量数据的可靠存储方法。
2004年,Google公司发表了论文“MapReduce: Simplified Data Processing on Large Clusters”,介绍并行计算模型MapReduce,主要讲解海量数据的高效计算方法。
2006年,Google公司发表了“Bigtable: A Distributed Storage System for Structured Data”,介绍Google大表(BigTable)的设计。BigTable是Google公司的分布式数据存储系统,是用来处理海量数据的一种非关系型数据库。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。