【转】44款Java⽹络爬⾍开源软件
原帖地址
WebFetch 是⽆依赖极简⽹页爬取组件,能在移动设备上运⾏的微型爬⾍。 WebFetch 要达到的⽬标:没有第三⽅依赖jar包减少内存使⽤提⾼CPU利⽤率加快⽹络爬取速度简洁明了的api接⼝能在Android设备上稳定运⾏⼩巧灵活可以⽅便集成的⽹页抓取组件使⽤...
guozhongCrawler的是⼀个⽆须配置、便于⼆次开发的爬⾍开源框架,它提供简单灵活的API,只需少量代码即可实现⼀个爬⾍。其设计灵感来源于多个爬⾍国内外爬⾍框架的总结。采⽤完全模块化的设计,功能覆盖整个爬⾍的⽣命周期(链接提取、页⾯下载、内容抽取、...
Another Simple Crawler ⼜⼀个⽹络爬⾍,可以⽀持代理服务器的FQ爬取。 1.数据存在mysql当中。 2.使⽤时,先修改web-
inf/config.ini的数据链接相关信息,主要是数据库名和⽤户名和密码 3.然后访问127.0.0.1/fetch/install 链接,⾃动创建数据库表...
spider-web 是爬⾍的⽹页版,使⽤xml配置,⽀持⼤部分页⾯的爬取,⽀持爬取内容的保存、下载等。其中配置⽂件格式为: <?xml version="1.0" encoding="UTF-8"?> <content> <url type="simple"><!-- simple/
complex --> <url_head>
丑⽜迷你采集器是⼀款基于Java Swing开发的专业的⽹络数据采集/信息挖掘处理软件,通过灵活的配置,可以很轻松迅速地从⽹页上抓取结构化的⽂本、图⽚、⽂件等资源信息,可编辑筛选处理后选择发布到⽹站架构说明系统是基于 Swing+Spring-
3.2.
爬⾍简介: WebCollector是⼀个⽆须配置、便于⼆次开发的JAVA爬⾍框架(内核),它提供精简的的API,只需少量代码即可实现⼀个功能强⼤的爬⾍。爬⾍内核: WebCollector致⼒于维护⼀个稳定、可扩的爬⾍内核,便于开发者进⾏灵活的⼆次开发。内核具有很强的...
webStraktor 是⼀个可编程的 WWW 数据抽取客户端,提供⼀个脚本语⾔⽤于收集、抽取和存储来⾃ Web 的数据,包括图⽚。脚本语⾔使⽤正则表达式和 XPath 语法。标准输出为 XML 格式,⽀持 ASCII、UTF-8 和 ISO885_1 。提供⽇志记录和跟踪信息。...
TinySpider是⼀个基于Tiny HtmlParser的⽹络数据抓取框架。 Maven引⽤坐标: <dependency> <groupId>org.tinygroup</groupId> <artifactId>org.tinygroup.spider</artifactId> <version>0.1.0-SNAPSHOT</version> </dependency> ⽹络爬⾍,⼀般⽤在全⽂检...
JAVA平台上的⽹络爬⾍脚本语⾔ CrawlScript ⽹络爬⾍即⾃动获取⽹页信息的⼀种程序,有很多JAVA、C++的⽹络爬⾍类库,但是在这些类库的基础上开发⼗分繁琐,需要⼤量的代码才可以完成⼀个简单的操作。鉴于这个问题,我们开发了CrawlScript这种脚本语⾔,程...
Nutch Htmlunit Plugin 项⽬简介基于Apache Nutch 1.8和Htmlunit组件,实现对于AJAX加载类型页⾯的完整页⾯内容抓取解析。
According to the implementation of Apache Nutch 1.8, we can't get dynamic HTML information from fetch pages
最近更新:发布于 10个⽉前
goodcrawler(GC) ⽹络爬⾍ GC是⼀个垂直领域的爬⾍,同时也是⼀个拆箱即⽤的搜索引擎。 GC基于httpclient、htmlunit、jsoup、elasticsearch。 GC的特点: 1、具有DSL特性的模板。 2、分布式、可扩展。 3、⾟亏有htmlunit,它能较好地⽀持javascript。 5、合...
webmagic的是⼀个⽆须配置、便于⼆次开发的爬⾍框架,它提供简单灵活的API,只需少量代码即可实现⼀个爬⾍。
以下是爬取oschina博客的⼀段代码: ate(new SimplePageProcessor("my.oschina/",
"my.oschina/*/blog/*"))....
最近更新:发布于 1年前
heyDr是⼀款基于java的轻量级开源多线程垂直检索爬⾍框架,遵循GNU GPL V3协议。⽤户可以通过heyDr构建⾃⼰的垂直资源爬⾍,⽤于搭建垂直搜索引擎前期的数据准备。
代码更新 2009-11-25:加⼊反爬⾍功能。直接Web访问服务器将跳转到Google。使⽤⽅法下载index.zip 解压index.zip得到index.php 将index.php传到⽀持php和cURL的国外服务器上打开 ur_website/your_folder_if_any/ ,如果页⾯跳转到
Spiderman - ⼜⼀个Java⽹络蜘蛛/爬⾍ Spiderman 是⼀个基于微内核+插件式架构的⽹络蜘蛛,它的⽬标是通过简单的⽅法就能将复杂的⽬标⽹页信息抓取并解析为⾃⼰所需要的业务数据。主要特点 * 灵活、可扩展性强,微内核+插件式架构,Spiderman提供了多达 ...
⽤JAVA编写的web 搜索和爬⾍,包括全⽂和分类垂直搜索,以及分词系统
开源项目OWASP AJAX Crawling Tool (FuzzOps-NG) OWASP出品的ajax爬⾍,java编写,开放源代码。
Crawljax: java编写,开放源代码。 Crawljax 是⼀个 Java 的⼯具⽤于⾃动化的爬取和测试现在的 Ajax Web 应⽤。commoncrawl 源码库是⽤于 Hadoop 的⾃定义 InputFormat 配送实现。 Common Crawl 提供⼀个⽰例程序BasicArcFileReaderSample.java (位于 orgmoncrawl.samples) ⽤来配置 InputFormat。...
什么是 Chukwa,简单的说它是⼀个数据收集系统,它可以将各种各样类型的数据收集成适合 Hadoop 处理的⽂件保存在 HDFS 中供Hadoop 进⾏各种 MapReduce 操作。Chukwa 本⾝也提供了很多内置的功能,帮助我们进⾏数据的收集和整理。为了更加简单直观的展⽰ ...
HttpBot 是对 java.HttpURLConnection类的简单封装,可以⽅便的获取⽹页内容,并且⾃动管理session,⾃动处理301重定向等。虽然不能像HttpClient那样强⼤,⽀持完整的Http协议,但却⾮常地灵活,可以满⾜我⽬前所有的相关需求。...
Bixo 是⼀个开放源码的Web挖掘⼯具包,基于 Hadoop 开发和运⾏。通过建⽴⼀个定制的级联管总成,您可以快速创建Web挖掘是专门为特定⽤例优化的应⽤程序。
crawlzilla 是⼀個幫你輕鬆建⽴搜尋引擎的⾃由軟體,有了它,你就不⽤依靠商業公司的收尋引擎,也不⽤再煩惱公司內部網站資料索引的問題由 nutch 專案為核⼼,並整合更多相關套件,並開發設計安裝與管理UI,讓使⽤者更⽅便上⼿。 crawlzilla 除了爬取基本...
Ex-Crawler 是⼀个⽹页爬⾍,采⽤ Java 开发,该项⽬分成两部分,⼀个是守护进程,另外⼀个是灵活可配置的 Web 爬⾍。使⽤数据库存储⽹页信息。
playfish是⼀个采⽤java技术,综合应⽤多个开源java组件实现的⽹页抓取⼯具,通过XML配置⽂件实现⾼度可定制性与可扩展性的⽹页抓取⼯具应⽤开源jar包包括httpclient(内容读取),dom4j(配置⽂件解析),jericho(html解析),已经在 war包的lib下。这个项... jcrawl是⼀款⼩巧性能优良的的web爬⾍,它可以从⽹页抓取各种类型的⽂件,基于⽤户定义的符号,⽐如email,qq.
Crawler4j是⼀个开源的Java类库提供⼀个⽤于抓取Web页⾯的简单接⼝。可以利⽤它来构建⼀个多线程的Web爬⾍。⽰例代码:import java.util.ArrayList; import Pattern; import edu.awler.Page; import edu.
Smart and Simple Web Crawler是⼀个Web爬⾍框架。集成Lucene⽀持。该爬⾍可以从单个链接或⼀个链接数组开始,提供两种遍历模式:最⼤迭代和最⼤深度。可以设置过滤器限制爬回来的链接,默认提供三个过滤器ServerFilter、BeginningPathFilter和
根据批量URL⽣成⼀个有书签的pdf⽂档的解决⽅案。h2p-file是⼀个xml⽂件,该xml⽂件主要描述url的信息和url的层次结构,h2p-tool根据h2p-file⽣成有书签的pdf⽂档。还可以通过xsl直接展⽰url的层次结构,⽽且合作⽹站对h2p的⽀持也将变得简单... BlueLeech是⼀个开源程序,它从指定的URL开始,搜
索所有可⽤的链接,以及链接之上的链接。它在搜索的同时可以下载遇到的链接所指向的所有的或预定义的范围的内容。
JobHunter旨在⾃动地从⼀些⼤型站点来获取招聘信息,如chinahr,51job,zhaopin等等。JobHunter 搜索每个⼯作项⽬的邮件地址,⾃动地向这⼀邮件地址发送申请⽂本。
JSpider是⼀个⽤Java实现的WebSpider,JSpider的执⾏格式如下: jspider [URL] [ConfigName] URL⼀定要加上协议名称,如:,否则会报错。如果省掉ConfigName,则采⽤默认配置。 JSpider 的⾏为是由配置⽂件具体配置的,⽐如采⽤什么插件,结果存储⽅...
ItSucks是⼀个java web spider(web机器⼈,爬⾍)开源项⽬。⽀持通过下载模板和正则表达式来定义下载规则。提供⼀个swing GUI操作界⾯。
Web-Harvest是⼀个Java开源Web数据抽取⼯具。它能够收集指定的Web页⾯并从这些页⾯中提取有⽤的数据。Web-Harvest主要是运⽤了像XSLT,XQuery,正则表达式等这些技术来实现对text/xml的操作。
JoBo是⼀个⽤于下载整个Web站点的简单⼯具。它本质是⼀个Web Spider。与其它下载⼯具相⽐较它的主要优势是能够⾃动填充form(如:⾃动登录)和使⽤cookies来处理session。JoBo还有灵活的下载规则(如:通过⽹页的URL,⼤⼩,MIME类型等)来限制下载。...
LARM能够为Jakarta Lucene搜索引擎框架的⽤户提供⼀个纯Java的搜索解决⽅案。它包含能够为⽂件,数据库表格建⽴索引的⽅法和为Web站点建索引的爬⾍。
Arachnid是⼀个基于Java的web spider框架.它包含⼀个简单的HTML剖析器能够分析包含HTML内容的输⼊流.通过实现Arachnid的⼦类就能够开发⼀个简单的Web spiders并能够在Web站上的每个页⾯被解析之后增加⼏⾏代码调⽤。 Arachnid的下载包中包含两个spider应⽤...
spindle是⼀个构建在Lucene⼯具包之上的Web索引/搜索⼯具.它包括⼀个⽤于创建索引的HTTP spider和⼀个⽤于搜索这些索引的搜索类。spindle项⽬提供了⼀组JSP标签库使得那些基于JSP的站点不需要开发任何Java类就能够增加搜索功能。...
Arale主要为个⼈使⽤⽽设计,⽽没有像其它爬⾍⼀样是关注于页⾯索引。Arale能够下载整个web站点或来⾃web站点的某些资源。Arale还能够把动态页⾯映射成静态页⾯。
WebLech是⼀个功能强⼤的Web站点下载与镜像⼯具。它⽀持按功能需求来下载web站点并能够尽可能模仿标准Web浏览器的⾏为。WebLech有⼀个功能控制台并采⽤多线程操作。
WebSPHINX是⼀个Java类包和Web爬⾍的交互式开发环境。Web爬⾍(也叫作机器⼈或蜘蛛)是可以⾃动浏览与处理Web页⾯的程序。WebSPHINX由两部分组成:爬⾍⼯作平台和WebSPHINX类包。
Heritrix是⼀个开源,可扩展的web爬⾍项⽬。⽤户可以使⽤它来从⽹上抓取想要的资源。Heritrix设计成严格按照⽂件的排除指⽰和META robots标签。其最出⾊之处在于它良好的可扩展性,⽅便⽤户实现⾃⼰的抓取逻辑。 Heritrix是⼀个爬⾍框架,其组织结...
YaCy基于p2p的分布式Web搜索引擎.同时也是⼀个Http缓存代理服务器.这个项⽬是构建基于p2p Web索引⽹络的⼀个新⽅法.它可以搜索你⾃⼰的或全局的索引,也可以Crawl⾃⼰的⽹页或启动分布式Crawling等.
最近更新:发布于 2年前
Nutch 是⼀个开源Java 实现的搜索引擎。它提供了我们运⾏⾃⼰的搜索引擎所需的全部⼯具。包括全⽂搜索和Web爬
⾍。 Nutch的创始⼈是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项⽬的创始⼈。 Nutch诞⽣于2002年8
⽉,是Apache旗下的⼀个⽤Java实现...
最近更新:发布于 1个⽉前

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。