大数据技术与应用
网络与交换技术国家重点实验室
交换与智能控制研究中心
程祥
2016年9月
提纲-大数据处理和分析
1. 批处理计算
1.1 MapReduce
1.2 Spark
2. 流计算
2.1 Storm
3. 图计算
3.1 Pregel
4. 分析和挖掘
4.1 Hive
4.2 Mahout
2 Spark
•2.1 Spark概述
•2.2 Spark生态系统
•2.3 弹性分布式数据集(RDD)•2.3 Spark运行架构
scala不是内部或外部命令•2.4 Spark编程实践
2.1 Spark概述
•2.1.1Spark简介
•2.1.2Scala简介
•2.1.3Spark与Hadoop的比较
2.1.1 Spark简介
•Spark最初由美国加州伯克利大学(UC Berkeley)的AMPLab于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序
•2013年Spark加入Apache孵化器项目后发展迅猛,如今已成为Apache软件基金会最重要的分布式计算系统开源项目之一
•Spark在2014年打破了Hadoop保持的基准排序纪录–Spark/206个节点/23分钟/100TB数据
–Hadoop/2000个节点/72分钟/100TB数据
Spark用十分之一的计算资源,获得了比Hadoop倍的速度!
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论