Java爬虫系列:使用HttpClient抓取页面HTML--688IT编程网

Java爬⾍系列：使⽤HttpClient抓取页⾯HTML

今天就来介绍下抓取html内容的⼯具：HttpClient。

围绕下⾯⼏个点展开：

1.什么是HttpClient

2.HttpClient⼊门实例

3.复杂应⽤

4.结束语

⼀、什么是HttpClient

度娘说：

HttpClient 是Apache Jakarta Common 下的⼦项⽬，可以⽤来提供⾼效的、最新的、功能丰富的⽀持 HTTP 协议的客户端编程⼯具包，并且它⽀持 HTTP

协议最新的版本和建议。

以下列出的是 HttpClient 提供的主要的功能，要知道更多详细的功能可以参见 HttpClient 的官⽹：

（1）实现了所有 HTTP 的⽅法（GET,POST,PUT,HEAD 等）

（2）⽀持⾃动转向

（3）⽀持 HTTPS 协议

（4）⽀持代理服务器等

这⾥⾯提到了官⽹，那就顺便说下它官⽹上的⼀些东西。

⼤意是：Commons HttpClient这个项⽬已经不再维护了，它已经被Apache HttpComponents替代了。

也就是说我们以后要⽤的话就⽤新的。点这个Apache HttpComponents的链接进去能看到它最新的版本是4.5，⽽且有快速上⼿的例⼦和专业的说明⽂档。有兴趣并且英⽂好的朋友可以好好研究下哦 ~~

额~~那个~~我的英⽂不好，就不按照官⽹的来了，直接给出我⾃⼰在⽹上学的练习案例~~

⼆、HttpClient⼊门实例

1. 新建⼀个普通的maven项⽬：名字随便起，我的叫：httpclient_learn

2. 修改pom⽂件，引⼊依赖

<groupId>org.apache.httpcomponents</groupId>

<artifactId>httpclient</artifactId>

</dependency>

3. 新建java类

package httpclient_learn;

import java.io.IOException;

import org.apache.http.HttpEntity;

import org.apache.http.HttpStatus;

import org.apache.http.client.ClientProtocolException;

import org.apache.hods.CloseableHttpResponse;

import org.apache.hods.HttpGet;

import org.apache.http.client.utils.HttpClientUtils;

import org.apache.http.impl.client.CloseableHttpClient;

import org.apache.http.impl.client.HttpClients;

import org.apache.http.util.EntityUtils;

public class HttpClientTest {

public static void main(String[] args) {

//1.⽣成httpclient，相当于该打开⼀个浏览器

CloseableHttpClient httpClient = ateDefault();

CloseableHttpResponse response = null;

/2.创建get请求，相当于在浏览器地址栏输⼊⽹址

HttpGet request = new HttpGet("www.tuicool/");

try {

//3.执⾏get请求，相当于在输⼊地址栏后敲回车键

response = ute(request);

//4.判断响应状态为200，进⾏处理

StatusLine().getStatusCode() == HttpStatus.SC_OK) {

//5.获取响应内容

HttpEntity httpEntity = Entity();

String html = String(httpEntity, "utf-8");

System.out.println(html);

} else {

//如果返回状态不是200，⽐如404（页⾯不存在）等，根据情况做处理，这⾥略 System.out.println("返回状态不是200");

System.out.Entity(), "utf-8"));

}

} catch (ClientProtocolException e) {

e.printStackTrace();

} catch (IOException e) {

e.printStackTrace();

} finally {

//6.关闭

HttpClientUtils.closeQuietly(response);

HttpClientUtils.closeQuietly(httpClient);

}

4. 执⾏代码，我们会发现打印出来的其实就是⾸页完整的html代码

<!DOCTYPE html>

<head>

//Java开发⽼菜鸟备注：由于内容太多，具体不再贴出来了

</head>

<body>

//Java开发⽼菜鸟备注：由于内容太多，具体内容不再贴出来了

</body> </html>

操作成功！

好了，到这⾥就完成了⼀个简单的⼩例⼦。

返回状态不是200

<!DOCTYPE html>

<html>

<head>

</head>

<body>

<p>系统检测亲不是真⼈⾏为，因系统资源限制，我们只能拒绝你的请求。如果你有疑问，可以通过微博 weibo/tuicool2012/ 。</p> </body>

</html>

爬⾍程序被识别了，怎么办呢？别着急，慢慢往下看

三、复杂应⽤

第⼆个⽹站访问不了，是因为⽹站有反爬⾍的处理，怎么绕过他呢?

1.最简单的是对请求头进⾏伪装，看代码，加上红框⾥⾯的内容后再执⾏

你会发现返回结果变了，有真内容了（红字警告先不管它，我们起码获取到了html内容）

那代码中新加的那段内容是哪⾥来的呢？

请打开⾕歌浏览器的F12，对就是这⾥了：

当然我们还可以设置请求的其他头信息，如cookie等

2.上⾯说的是伪装成浏览器，其实如果你伪装了之后，如果短时间内⼀直多次访问的话，⽹站会对你的ip进⾏封杀，这个时候就需要换个ip 地址了，使⽤代理IP

⽹上有⼀些免费的代理ip⽹站，⽐如xici

我们选择那些存活时间久并且刚刚被验证的ip，我这⾥选择了“112.85.168.223:9999”，代码如下

//2.创建get请求，相当于在浏览器地址栏输⼊⽹址

HttpGet request = new HttpGet("www.tuicool/");

//设置请求头，将爬⾍伪装成浏览器java修改html文件

request.setHeader("User-Agent","Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like G

ecko) Chrome/74.0.3729.169 Safari/537.36"); HttpHost proxy = new HttpHost("112.85.168.223", 9999);

RequestConfig config = RequestConfig.custom().setProxy(proxy).build();

request.setConfig(config);

执⾏代码，能正常返回html结果。如果代理ip刚好不能⽤的话，会报错，如下显⽰连接超时，这个时候需要更换⼀个新的代理ip

3.另外，程序被识别出来很⼤原因是短时间内做了太多访问，这个是正常⼈不会有的频率，因此我们也可以放慢爬取的速度，让程序sleep ⼀段时间再爬下⼀个也是⼀种反反爬⾍的简单⽅法。

如果有想学习java的程序员，可来我们的java学习扣qun：83078，3865，免费送java的视频教程噢！我每晚上8点还会在内直播讲解Java知识，欢迎⼤家前来学习哦

688IT编程网

Java爬虫系列:使用HttpClient抓取页面HTML

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

Java爬虫系列:使用HttpClient抓取页面HTML

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式