Java爬⾍系列:使⽤HttpClient抓取页⾯HTML
今天就来介绍下抓取html内容的⼯具:HttpClient。
围绕下⾯⼏个点展开:
1.什么是HttpClient
2.HttpClient⼊门实例
3.复杂应⽤
4.结束语
⼀、什么是HttpClient
度娘说:
HttpClient 是Apache Jakarta Common 下的⼦项⽬,可以⽤来提供⾼效的、最新的、功能丰富的⽀持 HTTP 协议的客户端编程⼯具包,并且它⽀持 HTTP
协议最新的版本和建议。
以下列出的是 HttpClient 提供的主要的功能,要知道更多详细的功能可以参见 HttpClient 的官⽹:
(1)实现了所有 HTTP 的⽅法(GET,POST,PUT,HEAD 等)
(2)⽀持⾃动转向
(3)⽀持 HTTPS 协议
(4)⽀持代理服务器等
这⾥⾯提到了官⽹,那就顺便说下它官⽹上的⼀些东西。
⼤意是:Commons HttpClient这个项⽬已经不再维护了,它已经被Apache HttpComponents替代了。
也就是说我们以后要⽤的话就⽤新的。点这个Apache HttpComponents的链接进去能看到它最新的版本是4.5,⽽且有快速上⼿的例⼦和专业的说明⽂档。有兴趣并且英⽂好的朋友可以好好研究下哦 ~~
额~~那个~~我的英⽂不好,就不按照官⽹的来了,直接给出我⾃⼰在⽹上学的练习案例~~
⼆、HttpClient⼊门实例
1. 新建⼀个普通的maven项⽬:名字随便起,我的叫:httpclient_learn
2. 修改pom⽂件,引⼊依赖
<dependency>
<groupId>org.apache.httpcomponents</groupId>
<artifactId>httpclient</artifactId>
<version>4.5.8</version>
</dependency>
3. 新建java类
package httpclient_learn;
import java.io.IOException;
import org.apache.http.HttpEntity;
import org.apache.http.HttpStatus;
import org.apache.http.client.ClientProtocolException;
import org.apache.hods.CloseableHttpResponse;
import org.apache.hods.HttpGet;
import org.apache.http.client.utils.HttpClientUtils;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
public class HttpClientTest {
public static void main(String[] args) {
//1.⽣成httpclient,相当于该打开⼀个浏览器
CloseableHttpClient httpClient = ateDefault();
CloseableHttpResponse response = null;
/
/2.创建get请求,相当于在浏览器地址栏输⼊⽹址
HttpGet request = new HttpGet("www.tuicool/");
try {
//3.执⾏get请求,相当于在输⼊地址栏后敲回车键
response = ute(request);
//4.判断响应状态为200,进⾏处理
StatusLine().getStatusCode() == HttpStatus.SC_OK) {
//5.获取响应内容
HttpEntity httpEntity = Entity();
String html = String(httpEntity, "utf-8");
System.out.println(html);
} else {
//如果返回状态不是200,⽐如404(页⾯不存在)等,根据情况做处理,这⾥略                System.out.println("返回状态不是200");
System.out.Entity(), "utf-8"));
}
} catch (ClientProtocolException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} finally {
//6.关闭
HttpClientUtils.closeQuietly(response);
HttpClientUtils.closeQuietly(httpClient);
}
}
}
4. 执⾏代码,我们会发现打印出来的其实就是⾸页完整的html代码
<!DOCTYPE html>
<html lang="zh-cn">
<head>
//Java开发⽼菜鸟备注:由于内容太多,具体不再贴出来了
</head>
<body>
  //Java开发⽼菜鸟备注:由于内容太多,具体内容不再贴出来了
</body> </html>
操作成功!
好了,到这⾥就完成了⼀个简单的⼩例⼦。
返回状态不是200
<!DOCTYPE html>
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
</head>
<body>
<p>系统检测亲不是真⼈⾏为,因系统资源限制,我们只能拒绝你的请求。如果你有疑问,可以通过微博 weibo/tuicool2012/ 。</p>    </body>
</html>
爬⾍程序被识别了,怎么办呢? 别着急,慢慢往下看
三、复杂应⽤
第⼆个⽹站访问不了,是因为⽹站有反爬⾍的处理,怎么绕过他呢?
1.最简单的是对请求头进⾏伪装,看代码,加上红框⾥⾯的内容后再执⾏
你会发现返回结果变了,有真内容了(红字警告先不管它,我们起码获取到了html内容)
那代码中新加的那段内容是哪⾥来的呢?
请打开⾕歌浏览器的F12,对就是这⾥了:
当然我们还可以设置请求的其他头信息,如cookie等
2.上⾯说的是伪装成浏览器,其实如果你伪装了之后,如果短时间内⼀直多次访问的话,⽹站会对你的ip进⾏封杀,这个时候就需要换个ip 地址了,使⽤代理IP
⽹上有⼀些免费的代理ip⽹站,⽐如xici
我们选择那些存活时间久并且刚刚被验证的ip,我这⾥选择了“112.85.168.223:9999”,代码如下
//2.创建get请求,相当于在浏览器地址栏输⼊⽹址
HttpGet request = new HttpGet("www.tuicool/");
//设置请求头,将爬⾍伪装成浏览器java修改html文件
request.setHeader("User-Agent","Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like G
ecko) Chrome/74.0.3729.169 Safari/537.36");        HttpHost proxy = new HttpHost("112.85.168.223", 9999);
RequestConfig config = RequestConfig.custom().setProxy(proxy).build();
request.setConfig(config);
执⾏代码,能正常返回html结果。如果代理ip刚好不能⽤的话,会报错,如下显⽰连接超时,这个时候需要更换⼀个新的代理ip
3.另外,程序被识别出来很⼤原因是短时间内做了太多访问,这个是正常⼈不会有的频率,因此我们也可以放慢爬取的速度,让程序sleep ⼀段时间再爬下⼀个也是⼀种反 反爬⾍的简单⽅法。
如果有想学习java的程序员,可来我们的java学习扣qun:83078,3865,免费送java的视频教程噢!我每晚上8点还会在内直播讲解Java知识,欢迎⼤家前来学习哦

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。