大数据主要是学什么--688IT编程网

大数据主要是学什么

随着互联网的发展，〔大数据〕、云计算等名词也进入我们的生活的方方面面，那么什么是大数据?什么又是云计算?以下是我为你整理的大数据主要是学什么

大数据是什么?

hbase属于什么数据库就字面意思理解就是大量的数据的意思;深入理解大数据是对信息资源和数据的集合，利用这些数据和信息资源分析出有用的资源，这就是大数据。

容量大数据作为信息的集合，它包涵了很多潜在的信息，以及各个不同行业的信息，这些信息就是大数据的容量和价值。

大数据的种类有很多，因为它是一个信息的合集，因此它包涵多种类别的分析。

大数据不是一成不变的，随着时间和空间的变化，大数据也会跟着变化。

由于大数数量庞大，来源的渠道有很多，因此它表现出很强的复杂性。

利用大数据可以分析和反映一个行业或者一个市场的一些规律，抓住这些规律，就可以产生价值。

学大数据用什么语言

Linux：因为大数据相关软件都是在Linux上运行的，所以Linux要学习的扎实一些，学好Linux对快速掌握大数据相关技术会有很大的帮助，能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置，能少踩很多坑，学会shell就能看懂脚本，这样能更容易理解和配置大数据集。

Hadoop：这是现在流行的大数据处理平台，几乎已经成为大数据的代名词，所以这个是必学的。Hadoop里面包括几个组件HDFS、MapReduce和YARN。

Zookeeper：这是个万金油，安装Hadoop的HA的时候就会用到它，以后的Hbase也会用到它。它一般用来存放一些互相协作的信息。

Hbase：这是Hadoop生态体系中的NOSQL数据库，他的数据是按照key和value的形式存储的并且key是唯一的，所以它能用来做数据的排重。

Kafka：这是个比较好用的队列工具，队列是干吗的?排队买票你知道不?数据多了同样也必须要排队处理。

Spark：它是用来弥补基于MapReduce处理数据速度上的缺点，它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别合适做迭代运算。

大数据技术的具体内容

分布式存储计算架构(激烈推举：Hadoop)

分布式程序〔制定〕(包涵：Apache Pig或者Hive)

分布式文件系统(比如：Google GFS)

多种存储模型，主要包涵文档，图，键值，时间序列这几种存储模型(比如：BigTable，Apollo， DynamoDB等)

数据收集架构(比如：Kinesis，Kafla)

集成开发环境(比如：R-Studio)

程序开发辅助工具(比如：大量的第三方开发辅助工具)

调度协调架构工具(比如：Apache Aurora)

机器学习(常用的有Apache Mahout 或 H2O)

托管〔管理〕(比如：Apache Hadoop Benchmarking)

安全管理(常用的有Gateway)

大数据系统布暑(可以看下Apache Ambari)

搜索引擎架构( 学习或者企业都建议使用Lucene搜索引擎)

多种数据库的演变(MySQL/Memcached)

商业智能(大力推举：Jaspersoft )

数据可视化(这个工具就很多了，可以依据实际必须要来选择)

大数据处理算法(10大经典算法)

Hadoop集与管理

这里会涉及到一些比较高级的数据库管理知识，乍看之下都是操作性的内容，但是做成容易，做好非常难。

1、Hadoop集的搭建 2、Hadoop集的监控 3、Hadoop集的管理 4、集下运行MapReduce程序

ZooKeeper基础知识

ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。

HBase基础知识

HBase Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集。

与FUJITSU Cliq等商用大数据产品不同，HBase是Google Bigtable的开源实现，类似Google Bigtable利用GFS作为其文件存储系统，HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处理Bigtable中的海量数据，HBase同样利用Hadoop MapReduce来处理HBase中的海量数据;Google Bigtable利用 Chubby作为协同服务，HBase利用Zookeeper作为对应。

1、HBase定义 2、HBase与RDBMS的对比 3、数据模型 4、系统架构 5、HBase上的MapReduce 6、表的制定

688IT编程网

大数据主要是学什么

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

大数据主要是学什么

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式