(完整版)大数据定义--688IT编程网

大数据（Big Data）是指那些超过传统数据库系统处理能力的数据。它的数据规模和转输速度要求很高，或者其结构不适合原本的数据库系统。为了获取大数据中的价值，我们必须选择另一种方式来处理它。

greenplum数据库数据中隐藏着有价值的模式和信息，在以往需要相当的时间和成本才能提取这些信息。如沃尔玛或谷歌这类领先企业都要付高昂的代价才能从大数据中挖掘信息。而当今的各种资源，如硬件、云架构和开源软件使得大数据的处理更为方便和廉价。即使是在车库中创业的公司也可以用较低的价格租用云服务时间了。

对于企业组织来讲，大数据的价值体现在两个方面：分析使用和二次开发。对大数据进行分析能揭示隐藏其中的信息，例如零售业中对门店销售、地理和社会信息的分析能提升对客户的理解。对大数据的二次开发则是那些成功的网络公司的长项。例如Facebook通过结合大量用户信息，定制出高度个性化的用户体验，并创造出一种新的广告模式。这种通过大数据创造出新产品和服务的商业行为并非巧合，谷歌、雅虎、亚马逊和Facebook，它们都是大数据时代的创新者。

大数据的特征

作为一个包罗万象的术语，“大数据”相当的含糊不清。同样的，“云”这个概念也涵盖了不同的技术。大数据系统的输入端可以列一个极长的表，包括了社会网络、Web服务器日志、流量传感器、卫星图像、广播音频流、银行交易、摇滚音乐MP3、网页的内容、政府文件扫描、GPS路线、金融市场数据等等。而这些数据本质上并非是相同的东西。

IBM公司把大数据的特征概括成三个“V”，也就是规模（Volume），快速（Velocity）和多样（Variety）。这三个方面是观察数据本质和软件处理平台的有用视角。

规模（Volume）

能处理大数据所获得的好处在于能对大数据进行分析。更多的数据强于更好的模型，如果你的预测模型可以考虑到300个变量而非仅仅6个变量，其预测能力多半能更为准确。

大数据的规模是传统IT架构所面临的直接挑战。它要求可扩展的存储和分布式的方法来完成查询。许多公司已经拥有大量的存档数据，但却没有能力来处理它。传统的关系数据库无法处理大数据的规模，目前可选择的方法包括大规模并行处理架构、数据仓库、或类似Greenplum的数据库、以及Apache Hadoop解决方案。其中，数据仓库比较适合于预先确定的数据结构和变化缓慢的数据。而Apache Hadoop则没有这些限制。

Hadoop的核心是一个分布在多个服务器上的计算平台。它作为开放源码首先由雅虎开发并发布，它是谷歌所提出的MapReduce方法的实现。 Hadoop的MapReduce包括了两个阶段：向多个服务器和操作系统分发数据，即map阶段，然后重组并行计算结果，即reduce阶段。

Hadoop利用自身的分布式文件系统（HDFS）来存储数据，这使得多个计算节点能获取数据。一个典型的Hadoop使用模式包括三个阶段：加载数据到HDFS、MapReduce操作、从HDFS检索结果。这个过程本质上是一个批处理，适合于分析或者是非交互式的计算任务。正因为如此，Hadoop本身不是一个数据库或数据仓库的解决方案，而是分析的辅助。

最知名的Hadoop的用户之一是Facebook。它的MySQL数据库存储核心数据。然后再反映到Hadoop系统进行计算。计算结果会再次转移到MySQL，以提供给用户的页面使用。

688IT编程网

(完整版)大数据定义

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

(完整版)大数据定义

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式