如何进行大数据处理?大数据处理的方法步骤--688IT编程网

如何进⾏⼤数据处理？⼤数据处理的⽅法步骤

1. ⼤数据处理之⼀：采集

⼤数据的采集是指利⽤多个数据库来接收发⾃客户端(Web、App或者传感器形式等)的数据，并且⽤户可以通过这些数据库来进⾏简单的查询和处理⼯作。⽐如，电商会使⽤传统的关系型数据库MySQL和Oracle等来存储每⼀笔事务数据，除此之外，Redis和MongoDB这样的NoSQL数据库也常⽤于数据的采集。

在⼤数据的采集过程中，其主要特点和挑战是并发数⾼，因为同时有可能会有成千上万的⽤户来进⾏访问和操作，⽐如⽕车票售票⽹站和淘宝，它们并发的访问量在峰值时达到上百万，所以需要在采集端部署⼤量数据库才能⽀撑。并且如何在这些数据库之间进⾏负载均衡和分⽚的确是需要深⼊的思考和设计。

2. ⼤数据处理之⼆：导⼊/预处理

虽然采集端本⾝会有很多数据库，但是如果要对这些海量数据进⾏有效的分析，还是应该将这些来⾃前端的数据导⼊到⼀个集中的⼤型分布式数据库，或者分布式存储集，并且可以在导⼊基础上做⼀些简单的清洗和预处理⼯作。也有⼀些⽤户会在导⼊时使⽤来⾃Twitter的Storm来对数据进⾏流式计算，来满⾜部分业务的实时计算需求。

导⼊与预处理过程的特点和挑战主要是导⼊的数据量⼤，每秒钟的导⼊量经常会达到百兆，甚⾄千兆级别。

greenplum数据库3. ⼤数据处理之三：统计/分析

统计与分析主要利⽤分布式数据库，或者分布式计算集来对存储于其内的海量数据进⾏普通的分析和分类汇总等，以满⾜⼤多数常见的分析需求，在这⽅⾯，⼀些实时性需求会⽤到EMC的GreenPlum、Oracle的Exadata，以及基于 MySQL的列式存储Infobright等，⽽⼀些批处理，或者基于半结构化数据的需求可以使⽤Hadoop。

统计与分析这部分的主要特点和挑战是分析涉及的数据量⼤，其对系统资源，特别是I/O会有极⼤的占⽤。

4. ⼤数据处理之四：挖掘

与前⾯统计和分析过程不同的是，数据挖掘⼀般没有什么预先设定好的主题，主要是在现有数据上⾯进⾏基于各种算法的计算，从⽽起到预测(Predict)的效果，从⽽实现⼀些⾼级别数据分析的需求。⽐较典型算法有⽤于聚类的Kmeans、⽤于统计学习的SVM和⽤于分类的NaiveBayes，主要使⽤的⼯具有Hadoop的Mahout等。该过程的特点和挑战主要是⽤于挖掘的算法很复杂，并且计算涉及的数据量和计算量都很⼤，常⽤数据挖掘算法都以单线程为主。

在这⾥我还是要推荐下我⾃⼰建的⼤数据学习交流qq裙：522189307 ，裙⾥都是学⼤数据开发的，如果你正在学习⼤数据，⼩编欢迎你加⼊，⼤家都是软件开发党，不定期分享⼲货（只有⼤数据开发相关的），包括我⾃⼰整理的⼀份最新的⼤数据进阶资料和⾼级开发教程，欢迎进阶中和进想深⼊⼤数据的⼩伙伴。上述资料加可以领取

688IT编程网

如何进行大数据处理?大数据处理的方法步骤

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

如何进行大数据处理?大数据处理的方法步骤

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式