Eclipse中Java做网络爬虫基本方法--688IT编程网

Eclipse中Java做⽹络爬⾍基本⽅法基本⽅法分为两⼤步，第⼀步即利⽤HttpClient建⽴⽹络连接并发送请求，第⼆步即利⽤HtmlParser解析⽹页。

1.利⽤HttpClient建⽴⽹络连接（并获得整个⽹页的内容）

⾸先，我们必须安装好 HttpClient。

HttpClient 可以在下载

HttpClient ⽤到了 Apache Jakarta common 下的⼦项⽬ logging，可以从这个地址下载到 common logging，从下载后的压缩包中取出 commons-logging.jar 加到 CLASSPATH 中

HttpClient ⽤到了 Apache Jakarta common 下的⼦项⽬ codec，可以从这个地址下载到最新的 common codec，从下载后的压缩包中取出 jar 加到 CLASSPATH 中

参考连接

需要导⼊的3个包如下图所⽰：

⽰例代码如下，请求的http地址根据实际情况改动：

package SeanCrawler;

import java.io.ByteArrayOutputStream;

import java.io.IOException;

import java.io.InputStream;

import org.apachemons.httpclient.HttpClient;

import org.apachemons.httpclient.HttpException;

import org.apachemons.httpclient.HttpStatus;

import org.hods.GetMethod;

javaparser野外public class HttpClientTest{

public static void main(String[] argv){

/连接http服务器端

HttpClient httpClient=new HttpClient();

byte[] responseBody = null;

GetMethod getMethod=new GetMethod("localhost/raw_dataset/2013-2014autumn.htm"); try{

int uteMethod(getMethod);

if(statusCode!=HttpStatus.SC_OK){

}

//byte[] ResponseBody();

//System.out.println(new String(responseBody));

//当⽹页内容数据量⼤时推荐使⽤

InputStream ResponseBodyAsStream();

if (in != null) {

byte[] tmp = new byte[4096];

int bytesRead = 0;

ByteArrayOutputStream buffer = new ByteArrayOutputStream(1024);

while ((bytesRead = in.read(tmp)) != -1) {

buffer.write(tmp, 0, bytesRead);

}

responseBody = ByteArray();

System.out.println(new String(responseBody));

}

}catch(HttpException e){

System.out.println("Please check your provided http address!");

e.printStackTrace();

}catch(IOException e){

e.printStackTrace();

}catch(Exception ex){

System.out.println("Error:"+ex.toString());

}finally{

}

2.利⽤HtmlParser解析获取的⽹页，取得感兴趣的元素内容

需要下载htmllexer.jar和htmlparser.jar两个包并导⼊项⽬，如下图所⽰

在有了前⾯的httpclient对整个⽹页内容的获取后，在添加htmlparser对⽹页解析获取想要的数据，使⽤⽰例代码如下：

//下⾯⽤html解析⽹页

Parser parser=new Parser();

ateParser(new String(responseBody,"gb2312"),"gb2312");//原⽹站编码格式gb2312

NodeFilter filter1=new HasAttributeFilter("class","new_table");//设置过滤器，这⾥的意思是设定具有class属性且属性值为new_table的过滤器

NodeList actAllNodesThatMatch(filter1);//抓取所有通过过滤器的⽹页DOM节点

for (int i=0; i<list.size(); i++) {//基于设定的过滤器我知道抓取的是⼀个table元素，实际情况就需要你根据你想要的元素内容设置⾃⼰的过滤器（这是关键） TableTag table = (TableTag) list.elementAt(i);

TableRow[] rows = Rows();//遍历table元素内各个tr乃⾄td

for (int r=1; r<rows.length; r++) {

TableRow tr = rows[r];

TableColumn[] td = tr.getColumns();

//可以通过诸如td[1].toPlainTextString()来访问到td内的元素值及某处表格数据值

}

参考连接

总结：以上就是⼤题思路，变化较多的就在于HtmlParser解析⽹页各种元素时实⽤的过滤⽅法，这个需要多时间才能熟练掌握。mark⼀记，⾃⼰也是学习的过

程~

688IT编程网

Eclipse中Java做网络爬虫基本方法

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

Eclipse中Java做网络爬虫基本方法

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则