推荐⼗个优秀的Java开源爬⾍
1:JAVA爬⾍WebCollector Star:1345
爬⾍简介: WebCollector是⼀个⽆须配置、便于⼆次开发的JAVA爬⾍框架(内核),它提供精简的的API,只需少量代码即可实现⼀个功能强⼤的爬⾍。WebCollector-Hadoop是WebCollector的Hadoop版本,⽀持分布式爬取。 爬⾍内核: WebCollector致...
2:开源通⽤爬⾍框架YayCrawler Star:91
YayCrawler是⼀个基于WebMagic开发的分布式通⽤爬⾍框架,开发语⾔是Java。我们知道⽬前爬⾍框架很多,有简单的,也有复杂的,有轻 量型的,也有重量型的
3:垂直爬⾍WebMagic Star:1213
webmagic的是⼀个⽆须配置、便于⼆次开发的爬⾍框架,它提供简单灵活的API,只需少量代码即可实现⼀个爬⾍。 以下是爬取oschina 博客的⼀段代码: ate(new SimplePageProcessor("my.oschina/", "
4:雅虎开源的Nutch爬⾍插件 Anthelion Star:2888
Anthelion 是 Nutch 插件,专注于爬取语义数据。 注意:此项⽬包括完整的 Nutch 1.6 版本,此插件放置在 /src/plugin/parse-anth Anthelion 使⽤在线学习⽅法来基于页⾯上下⽂预测富数据 Web 页⾯,从之前查看的页⾯提取的元数据获取反馈。 主要有三个扩展:AnthelionScoringFilter WdcParser TripleExtractor ⽰例:...
nodejs工作流引擎开源5:Java开源⽹络爬⾍项⽬Nutch
Nutch 是⼀个开源Java 实现的搜索引擎。它提供了我们运⾏⾃⼰的搜索引擎所需的全部⼯具。包括全⽂搜索和Web爬⾍。 Nutch的创始⼈是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项⽬的创始⼈。 Nutch诞⽣于2002年8⽉,是Apache旗下的⼀个⽤Java实现的开源搜索引擎项⽬,⾃Nutch1.2版本之后,Nutch已经从搜索引擎演...
6:Java⽹络蜘蛛/⽹络爬⾍Spiderman Star:1801
7:轻量化的Java⽹络爬⾍ GECCO Star:658
Gecco是什么 Gecco是⼀款⽤java语⾔开发的轻量化的易⽤的⽹络爬⾍。Gecco整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等优秀框架,让您只需要配置⼀些jquery风格的选择器就能很快的写出⼀个爬⾍。Gecco框架有优秀的可扩展性,框架基于开闭原则进⾏设计,对修改关闭、对扩展开放。同时Gecco基于⼗分开...
8:开源爬⾍框架WebPasser Star:15
WebPasser是⼀款可配置的开源爬⾍框架,提供爬⾍控制台管理界⾯,通过配置解析各类⽹页内容,⽆需写⼀句java代码即可抽取所需数据。 1.包含强⼤的页⾯解析引擎,提供jsoup、xpath、正则表达式等处理链,通过简单配置即可抽取所需的指定内容。 2.提供爬⾍控制管理界⾯,可实时监控抓取状...
9:⼀个敏捷强⼤的Java爬⾍框架SeimiCrawler Star:635
SeimiCrawler是⼀个敏捷的,独⽴部署的,⽀持分布式的Java爬⾍框架,希望能在最⼤程度上降低新⼿开发⼀个可⽤性⾼且性能不差的爬⾍系统的门槛,以及提升开发爬⾍系统的开发效率。
10:爬⾍系统NEOCrawler Star:258
NEOCrawler(中⽂名:⽜咖),是nodejs、redis、phantomjs实现的爬⾍系统。代码完全开源,适合⽤于垂直领域的数据采集和爬⾍⼆次开发。 【主要特点】 使⽤nodejs实现,javascipt简单、⾼效、易学、为爬⾍的开发以及爬⾍使⽤者的⼆次开发节约不少时间;nodejs使...
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论