如何进⾏⼤数据处理?⼤数据处理的⽅法步骤
1. ⼤数据处理之⼀:采集
⼤数据的采集是指利⽤多个数据库来接收发⾃客户端(Web、App或者传感器形式等)的 数据,并且⽤户可以通过这些数据库来进⾏简单的查询和处理⼯作。⽐如,电商会使⽤传统的关系型数据库MySQL和Oracle等来存储每⼀笔事务数据,除 此之外,Redis和MongoDB这样的NoSQL数据库也常⽤于数据的采集。
在⼤数据的采集过程中,其主要特点和挑战是并发数⾼,因为同时有可能会有成千上万的⽤户 来进⾏访问和操作,⽐如⽕车票售票⽹站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署⼤量数据库才能⽀撑。并且如何在这些数据库之间 进⾏负载均衡和分⽚的确是需要深⼊的思考和设计。
2. ⼤数据处理之⼆:导⼊/预处理
虽然采集端本⾝会有很多数据库,但是如果要对这些海量数据进⾏有效的分析,还是应该将这 些来⾃前端的数据导⼊到⼀个集中的⼤型分布式数据库,或者分布式存储集,并且可以在导⼊基础上做⼀些简单的清洗和预处理⼯作。也有⼀些⽤户会在导⼊时使 ⽤来⾃Twitter的Storm来对数据进⾏流式计算,来满⾜部分业务的实时计算需求。
导⼊与预处理过程的特点和挑战主要是导⼊的数据量⼤,每秒钟的导⼊量经常会达到百兆,甚⾄千兆级别。
greenplum数据库3. ⼤数据处理之三:统计/分析
统计与分析主要利⽤分布式数据库,或者分布式计算集来对存储于其内的海量数据进⾏普通 的分析和分类汇总等,以满⾜⼤多数常见的分析需求,在这⽅⾯,⼀些实时性需求会⽤到EMC的GreenPlum、Oracle的Exadata,以及基于 MySQL的列式存储Infobright等,⽽⼀些批处理,或者基于半结构化数据的需求可以使⽤Hadoop。
统计与分析这部分的主要特点和挑战是分析涉及的数据量⼤,其对系统资源,特别是I/O会有极⼤的占⽤。
4. ⼤数据处理之四:挖掘
与前⾯统计和分析过程不同的是,数据挖掘⼀般没有什么预先设定好的主题,主要是在现有数 据上⾯进⾏基于各种算法的计算,从⽽起到预测(Predict)的效果,从⽽实现⼀些⾼级别数据分析的需求。⽐较典型算法有⽤于聚类的Kmeans、⽤于 统计学习的SVM和⽤于分类的NaiveBayes,主要使⽤的⼯具有Hadoop的Mahout等。该过程的特点和挑战主要是⽤于挖掘的算法很复杂,并 且计算涉及的数据量和计算量都很⼤,常⽤数据挖掘算法都以单线程为主。
在这⾥我还是要推荐下我⾃⼰建的⼤数据学习交流qq裙:522189307 , 裙 ⾥都是学⼤数据开发的,如果你正在学习⼤数据 ,⼩编欢迎你加⼊,⼤家都是软件开发党,不定期分享⼲货(只有⼤数据开发相关的),包括我⾃⼰整理的⼀份最新的⼤数据进阶资料和⾼级开发教程,欢迎进阶中和进想深⼊⼤数据的⼩伙伴。上述资料加可以领取
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论