全球100款⼤数据⼯具汇总
全球100款⼤数据⼯具汇总
1. Talend Open Studio
是第⼀家针对的数据集成⼯具市场的ETL(数据的提取Extract. 传输Transform. 载⼊Load)开源软件供应商。Talend的下载量已超过200万⼈次,其开源软件提供了数据整合功能。其⽤户包括美国国际集团(AIG). 康卡斯特. 电⼦港湾. 通⽤电⽓. 三星. Ticketmaster和韦⾥逊等企业组织。
2. DYSON
探码科技⾃主研发的DYSON智能分析系统,可以完整的实现⼤数据的采集. 分析. 处理。DYSON智能分析系统专业针对互联⽹数据抓取. 处理. 分析,挖掘。可以灵活迅速地抓取⽹页上散乱分布的信息,并通过强⼤的处理功能,准确挖掘出所需数据,是⽬前使⽤⼈数最多的⽹页采集⼯具.
3. YARN
⼀种新的Hadoop资源管理器,它是⼀个通⽤资源管理系统,可为上层应⽤提供统⼀的资源管理和调度,解决了旧MapReduce框架的性能瓶颈。它的基本思想是把资源管理和作业调度/监控的功能分割到单独的守护进程。
4. Mesos
由加州⼤学伯克利分校的AMPLab⾸先开发的⼀款开源集管理软件,⽀持Hadoop. ElasticSearch. Spark. Storm 和Kafka等架构。对数据中⼼⽽⾔它就像⼀个单⼀的资源池,从物理或虚拟机器中抽离了CPU,内存,存储以及其它计算资源, 很容易建⽴和有效运⾏具备容错性和弹性的分布式系统。
5. Datale
由探码科技研发的⼀款基于Hadoop的⼤数据平台开发套件,RAI⼤数据应⽤平台架构。
6. Ambari
作为Hadoop⽣态系统的⼀部分,提供了基于Web的直观界⾯,可⽤于配置. 管理和监控Hadoop集。⽬前已⽀持⼤多数Hadoop组件,包括HDFS. MapReduce. Hive. Pig. Hbase. Zookeper. Sqoop和Hcatalog等。
7. ZooKeeper
⼀个分布式的应⽤程序协调服务,是Hadoop和Hbase的重要组件。它是⼀个为分布式应⽤提供⼀致性服务的⼯具,让Hadoop集⾥⾯的节点可以彼此协调。ZooKeeper现在已经成为了 Apache的顶级项⽬,为分布式系统提供了⾼效可靠且易于使⽤的协同服务。
8. Thrift
在2007年facebook提交Apache基⾦会将Thrift作为⼀个开源项⽬,对于当时的facebook来说创造thrift是为了解决facebook系统中各系统间⼤数据量的传输通信以及系统之间语⾔环境不同需要跨平台的特性。
9. Chukwa
监测⼤型分布式系统的⼀个开源数据采集系统,建⽴在HDFS/MapReduce框架之上并继承了Hadoop的可伸缩性和可靠性,可以收集来⾃⼤型分布式系统的数据,⽤于监控。它还包括灵活⽽强⼤的显⽰⼯具⽤于监控. 分析结果。
10. Lustre
⼀个⼤规模的. 安全可靠的. 具备⾼可⽤性的集⽂件系统,它是由SUN公司开发和维护的。该项⽬主要的⽬的就是开发下⼀代的集⽂件系统,
⽬前可以⽀持超过10000个节点,数以PB的数据存储量。
11. HDFS
Hadoop Distributed File System,简称HDFS,是⼀个分布式⽂件系统。HDFS是⼀个⾼度容错性的系统,适合部署在廉价的机器上。HDFS 能提供⾼吞吐量的数据访问,⾮常适合⼤规模数据集上的应⽤。
12. GlusterFS
⼀个集的⽂件系统,⽀持PB级的数据量。GlusterFS 通过RDMA和TCP/IP⽅式将分布到不同服务器上的存储空间汇集成⼀个⼤的⽹络化并⾏⽂件系统。
13. Alluxio
前⾝是Tachyon,是以内存为中⼼的分布式⽂件系统,拥有⾼性能和容错能⼒,能够为集框架(如Spark. MapReduce)提供可靠的内存级速度的⽂件共享服务。
14. Ceph
新⼀代开源分布式⽂件系统,主要⽬标是设计成基于POSIX的没有单点故障的分布式⽂件系统,提⾼数据的容错性并实现⽆缝的复制。
15. PVFS
⼀个⾼性能. 开源的并⾏⽂件系统,主要⽤于并⾏计算环境中的应⽤。PVFS特别为超⼤数量的客户端和服务器端所设计,它的模块化设计结构可轻松的添加新的硬件和算法⽀持。
16. QFS
Quantcast File System (QFS) 是⼀个⾼性能. 容错好. 分布式的⽂件系统,⽤于开发⽀持 MapReduce处理或者需要顺序读写⼤⽂件的应⽤。
17. Logstash
⼀个应⽤程序⽇志. 事件的传输. 处理. 管理和搜索的平台。可以⽤它来统⼀对应⽤程序⽇志进⾏收集管理,提供了Web接⼝⽤于查询和统计。
18. Scribe
Scribe是Facebook开源的⽇志收集系统,它能够从各种⽇志源上收集⽇志,存储到⼀个中央存储系统(可以是NFS,分布式⽂件系统等)上,以便于进⾏集中统计分析处理。
19. Flume
Cloudera提供的⼀个⾼可⽤的. ⾼可靠的. 分布式的海量⽇志采集. 聚合和传输的系统。Flume⽀持在⽇志系统中定制各类数据发送⽅,⽤于收集数据。同时,Flume⽀持对数据进⾏简单处理,并写⼊各种数据接受⽅(可定制)。
20. RabbitMQ
⼀个受欢迎的消息代理系统,通常⽤于应⽤程序之间或者程序的不同组件之间通过消息来进⾏集成。RabbitMQ提供可靠的应⽤消息发送. 易于使⽤. ⽀持所有主流操作系统. ⽀持⼤量开发者平台。
21. ActiveMQ
Apache出品,号称“最流⾏的,最强⼤”的开源消息集成模式服务器。ActiveMQ特点是速度快,⽀持多种跨语⾔的客户端和协议,其企业集成模式和许多先进的功能易于使⽤,是⼀个完全⽀持JMS1.1和J2EE 1.4规范的JMS Provider实现。
22. Kafka
⼀种⾼吞吐量的分布式发布订阅消息系统,它可以处理消费者规模⽹站中的所有动作流数据,⽬前已成为⼤数据系统在异步和分布式消息之间的最佳选择。
23. Spark
⼀个⾼速. 通⽤⼤数据计算处理引擎。拥有Hadoop MapReduce所具有的优点,但不同的是Job的中间输出结果可以保存在内存中,从⽽不再需要读写HDFS,因此Spark能更好地适⽤于数据挖掘与机器学习等需要迭代的MapReduce的算法。它可以与Hadoop和Apache Mesos⼀起使⽤,也可以独⽴使⽤。
24. Kinesis
可以构建⽤于处理或分析流数据的⾃定义应⽤程序,来满⾜特定需求。Amazon Kinesis Streams 每⼩时可从数⼗万种来源中连续捕获和存储数TB数据,如⽹站点击流. 财务交易. 社交媒体源. IT⽇志和定位追踪事件。
25. Hadoop
⼀个开源框架,适合运⾏在通⽤硬件,⽀持⽤简单程序模型分布式处理跨集⼤数据集,⽀持从单⼀服务器到上千服务器的⽔平scale up。Apache的Hadoop项⽬已⼏乎与⼤数据划上了等号,它不断壮⼤起来,已成为⼀个完整的⽣态系统,拥有众多开源⼯具⾯向⾼度扩展的分布式计算。⾼效. 可靠. 可伸缩,能够为你的数据存储项⽬提供所需的YARN. HDFS和基础架构,并且运⾏主要的⼤数据服务和应⽤程序。
26. Spark Streaming
实现微批处理,⽬标是很⽅便的建⽴可扩展. 容错的流应⽤,⽀持Java. Scala和Python,和Spark⽆缝集成。Spark Streaming可以读取数据HDFS,Flume,Kafka,Twitter和ZeroMQ,也可以读取⾃定义数据。
27. Trident
是对Storm的更⾼⼀层的抽象,除了提供⼀套简单易⽤的流数据处理API之外,它以batch(⼀组tuples)为单位进⾏处理,这样⼀来,可以使得⼀些处理更简单和⾼效。
28. Flink
于今年跻⾝Apache顶级开源项⽬,与HDFS完全兼容。Flink提供了基于Java和Scala的API,是⼀个⾼效. 分布式的通⽤⼤数据分析引擎。更主要的是,Flink⽀持增量迭代计算,使得系统可以快速地处理数据密集型. 迭代的任务。
29. Samza
出⾃于LinkedIn,构建在Kafka之上的分布式流计算框架,是Apache顶级开源项⽬。可直接利⽤Kafka和Hadoop YARN提供容错. 进程隔离以及安全. 资源管理。
30. Storm
Storm是Twitter开源的⼀个类似于Hadoop的实时数据处理框架。编程模型简单,显著地降低了实时处理的难度,也是当下最⼈⽓的流计算框架之⼀。与其他计算框架相⽐,Storm最⼤的优点是毫秒级低延时。
31. Yahoo S4 (Simple Scalable Streaming System)
是⼀个分布式流计算平台,具备通⽤. 分布式. 可扩展的. 容错. 可插拔等特点,程序员可以很容易地开发处理连续⽆边界数据流(continuous unbounded streams of data)的应⽤。它的⽬标是填补复杂专有系统和⾯向批处理开源产品之间的空⽩,并提供⾼性能计算平台来解决并发处理系统的复杂度。
32. HaLoop
是⼀个Hadoop MapReduce框架的修改版本,其⽬标是为了⾼效⽀持 迭代,递归数据 分析任务,如PageRank,HITs,K-means,sssp等。
33. Presto
是⼀个开源的分布式SQL查询引擎,适⽤于交互式分析查询,可对250PB以上的数据进⾏快速地交互式分析。Presto的设计和编写是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。Facebook称Presto的性能⽐诸如Hive和MapReduce要好上10倍有多。
34. Drill
于2012年8⽉份由Apache推出,让⽤户可以使⽤基于SQL的查询,查询Hadoop. NoSQL数据库和云存储服务。它能够运⾏在上千个节点的服务器集上,且能在⼏秒内处理PB级或者万亿条的数据记录。它可⽤于数据挖掘和即席查询,⽀持⼀系列⼴泛的数据库,包括HBase. MongoDB. MapR-DB. HDFS. MapR-FS. 亚马逊S3. Azure Blob Storage. ⾕歌云存储和Swift。
35. Phoenix
是⼀个Java中间层,可以让开发者在Apache HBase上执⾏SQL查询。Phoenix完全使⽤Java编写,并且提供了⼀个客户端可嵌⼊的JDBC驱动。Phoenix查询引擎会将SQL查询转换为⼀个或多个HBase scan,并编排执⾏以⽣成标准的JDBC结果集。
36. Pig
是⼀种编程语⾔,它简化了Hadoop常见的⼯作任务。Pig可加载数据. 转换数据以及存储最终结果。Pig最⼤的作⽤就是为MapReduce框架实现了⼀套shell脚本 ,类似我们通常熟悉的SQL语句。
37. Hive
是基于Hadoop的⼀个数据仓库⼯具,可以将结构化的数据⽂件映射为⼀张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进⾏运⾏。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应⽤,⼗分适合数据仓库的统计分析。
38. SparkSQL
前⾝是Shark,SparkSQL抛弃原有Shark的代码并汲取了⼀些优点,如内存列存储(In-Memory Columnar Storage). Hive兼容性等。由于摆脱了对Hive的依赖性,SparkSQL⽆论在数据兼容. 性能优化. 组件扩展⽅⾯都得到了极⼤的⽅便。
39. Stinger
原来叫Tez,是下⼀代Hive,由Hortonworks主导开发,运⾏在YARN上的DAG计算框架。某些测试下,Stinger能提升10倍左右的性能,同时会让Hive⽀持更多的SQL。
40. Tajo
⽬的是在HDFS之上构建⼀个可靠的. ⽀持关系型数据的分布式数据仓库系统,它的重点是提供低延迟. 可扩展的ad-hoc查询和在线数据聚集,以及为更传统的ETL提供⼯具。
41. Impala
Cloudera 声称,基于SQL的Impala数据库是“⾯向Apache Hadoop的领先的开源分析数据库”。它可以作为⼀款独⽴产品来下载,⼜是Cloudera的商业⼤数据产品的⼀部分。Cloudera Impala 可以直接为存储在HDFS或HBase中的Hadoop数据提供快速. 交互式的SQL查询。
42. Elasticsearch
是⼀个基于Lucene的搜索服务器。它提供了⼀个分布式. ⽀持多⽤户的全⽂搜索引擎,基于RESTful web接⼝。Elasticsearch是⽤Java开发的,并作为Apache许可条款下的开放源码发布,是当前流⾏的企业级搜索引擎。设计⽤于云计算中,能够达到实时搜索. 稳定. 可靠. 快速. 安装使⽤⽅便。
43. Solr
基于Apache Lucene,是⼀种⾼度可靠. ⾼度扩展的企业搜索平台。知名⽤户包括eHarmony. 西尔斯. StubHub. Zappos. 百思买. AT&T. Instagram. Netflix. 彭博社和Travelocity。
44. Shark
即Hive on Spark,本质上是通过Hive的HQL解析,把HQL翻译成Spark上的RDD操作,然后通过Hive
的metadata获取数据库⾥的表信息,实际HDFS上的数据和⽂件,会由Shark获取并放到Spark上运算。Shark的特点就是快,完全兼容Hive,且可以在shell模式下使⽤rdd2sql()这样的API,把HQL得到的结果集,继续在scala环境下运算,⽀持⾃⼰编写简单的机器学习或简单分析处理函数,对HQL结果进⼀步分析计算。
45. Lucene
基于Java的Lucene可以⾮常迅速地执⾏全⽂搜索。据官⽅⽹站声称,它在现代硬件上每⼩时能够检索超过150GB的数据,它拥有强⼤⽽⾼效的搜索算法。
46. Terracotta
声称其BigMemory技术是“世界上⾸屈⼀指的内存中数据管理平台”,⽀持简单. 可扩展. 实时消息,声称在190个国家拥有210万开发⼈员,全球1000家企业部署了其软件。
47. Ignite
是⼀种⾼性能. 整合式. 分布式的内存中平台,可⽤于对⼤规模数据集执⾏实时计算和处理,速度⽐传统的基于磁盘的技术或闪存技术⾼出好⼏个数量级。该平台包括数据⽹格. 计算⽹格. 服务⽹格. 流媒体. Hadoop加速. ⾼级集. ⽂件系统. 消息传递. 事件和数据结构等功能。
48. GemFire
Pivotal宣布它将开放其⼤数据套件关键组件的源代码,其中包括GemFire内存中NoSQL数据库。它已向Apache软件基⾦会递交了⼀项提案,以便在“Geode”的名下管理GemFire数据库的核⼼引擎。
49. GridGain
由Apache Ignite驱动的GridGrain提供内存中数据结构,⽤于迅速处理⼤数据,还提供基于同⼀技术的Hadoop加速器。
50. MongoDB
是⼀个基于分布式⽂件存储的数据库。由C++语⾔编写。旨在为web应⽤提供可扩展的⾼性能数据存储解决⽅案。介于关系数据库和⾮关系数据库之间的开源产品,是⾮关系数据库当中功能最丰富. 最像关系数据库的产品。
51. Redis
是⼀个⾼性能的key-value存储系统,和Memcached类似,它⽀持存储的value类型相对更多,包括string(字符串). list(链表). set(集合)和zset(有序集合)。Redis的出现,很⼤程度补偿了memcached这类key/value存储的不⾜,在部分场合可以对关系数据库起到很好的补充作⽤。
52. HDFS
Hadoop分布式⽂件系统(HDFS)被设计成适合运⾏在通⽤硬件(commodity hardware)上的分布式⽂件系统。它和现有的分布式⽂件系统有很多共同点。HDFS是⼀个⾼度容错性的系统,适合部署在廉价的机器上。HDFS能提供⾼吞吐量的数据访问,⾮常适合⼤规模数据集上的应⽤。大数据etl工具有哪些
53. HBase
是Hadoop的数据库,⼀个分布式. 可扩展. ⼤数据的存储。是为有数⼗亿⾏和数百万列的超⼤表设计的,是⼀种分布式数据库,可以对⼤数据进

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。