Java爬虫系列三:使用Jsoup解析HTML--688IT编程网

Java爬⾍系列三：使⽤Jsoup解析HTML

在上⼀篇随笔《Java爬⾍系列⼆：使⽤HttpClient抓取页⾯HTML》中介绍了怎么使⽤HttpClient进⾏爬⾍的第⼀步--抓取页⾯html，今天接着来看下爬⾍的第⼆步--解析抓取到的html。

有请第⼆步的主⾓：Jsoup粉墨登场。

⼀、Jsoup⾃我介绍

⼤家好，我是Jsoup。

我是⼀款Java 的HTML解析器，可直接解析某个URL地址、HTML⽂本内容。它提供了⼀套⾮常省⼒的API，可通过DOM，CSS以及类似于jQuery的操作⽅法来取出和操作数据，⽤Java写爬⾍的同⾏们⼗之⼋九⽤过我。为什么呢？因为我在这个⽅⾯功能强⼤、使⽤⽅便。不信的话，可以继续往下看，代码是不会骗⼈的。

⼆、Jsoup解析html

上⼀篇中，HttpClient⼤哥已经抓取到了博客园⾸页的html，但是⼀堆的代码，不是程序员的⼈们怎么能看懂呢？这个就需要html解析专家出场了。

下⾯通过案例展⽰如何使⽤Jsoup进⾏解析，案例中将获取博客园⾸页的标题和第⼀页的博客⽂章列表

请看代码（在上⼀篇代码的基础上进⾏操作，如果还不知道如何使⽤httpclient的朋友请跳转页⾯进⾏阅读）：

引⼊依赖

<groupId>org.jsoup</groupId>

<artifactId>jsoup</artifactId>

</dependency>

实现代码。实现代码之前⾸先要分析下html结构。标题是<title>不⽤说了，那⽂章列表呢？按下浏览器的F12，查看页⾯元素源码，你会发现列表是⼀个⼤的div，id="post_list"，每篇⽂章是⼩的div,class="post_item"

接下来就可以开始代码了，Jsoup核⼼代码如下：

/**

* 下⾯是Jsoup展现⾃我的平台

//6.Jsoup解析html

Document document = Jsoup.parse(html);

//像js⼀样，通过标签获取title

System.out.ElementsByTag("title").first());

//像js⼀样，通过id 获取⽂章列表元素对象

Element postList = ElementById("post_list");

//像js⼀样，通过class 获取列表下的所有博客

Elements postItems = ElementsByClass("post_item");

//循环处理每篇博客

for (Element postItem : postItems) {

//像jquery选择器⼀样，获取⽂章标题元素

Elements titleEle = postItem.select(".post_item_body a[class='titlelnk']");

System.out.println("⽂章标题:" + ());;

System.out.println("⽂章地址:" + titleEle.attr("href"));

//像jquery选择器⼀样，获取⽂章作者元素

Elements footEle = postItem.select(".post_item_foot a[class='lightblue']");

System.out.println("⽂章作者:" + ());;

System.out.println("作者主页:" + footEle.attr("href"));

System.out.println("*********************************");

}

根据以上代码你会发现，我通过Jsoup.parse(String html)⽅法对httpclient获取到的html内容进⾏解析获取到Document，然后document可以有两种⽅式获取其⼦元素：像js⼀样可以通过getElementXXXX的⽅式和像jquery 选择器⼀样通过select()⽅法。⽆论哪种⽅法都可以，我个⼈推

荐⽤select⽅法处理。对于元素中的属性，⽐如超链接地址，可以使⽤element.attr(String)⽅法获取，对于元素的⽂本内容通过()⽅法获取。

执⾏代码，查看结果（不得不感慨博客园的园友们真是太厉害了，从上⾯分析⾸页html结构到Jsoup分析的代码执⾏完，这段时间⾸页多了那么多⽂章）

三、Jsoup的其他⽤法

我，Jsoup，除了可以在httpclient⼤哥的⼯作成果上发挥作⽤，我还能⾃⼰独⽴⼲活，⾃⼰抓取页⾯，然后⾃⼰分析。分析的本领已经在上⾯展⽰过了，下⾯来展⽰⾃⼰抓取页⾯，其实很简单，所不同的是我直接获取到的是document，不⽤再通过Jsoup.parse()⽅法进⾏解析了。

除了能直接访问⽹上的资源，我还能解析本地资源：

代码：

public static void main(String[] args) {

try {

Document document = Jsoup.parse(new File("d://1.html"), "utf-8");

System.out.println(document);

} catch (IOException e) {

e.printStackTrace();

}

四、Jsoup另⼀个值得⼀提的功能

你肯定有过这种经历，在你的页⾯⽂本框中，如果输⼊html元素的话，保存后再查看很⼤概率会导致页⾯排版乱七⼋糟，如果能对这些内容进⾏过滤的话，就完美了。

如何查看html代码刚好我Jsoup就能做到。

public static void main(String[] args) {

String unsafe = "<a href='⽹址' onclick='stealCookies()'>博客园</a>";

System.out.println("unsafe: " + unsafe);

String safe = Jsoup.clean(unsafe, Whitelist.basic());

System.out.println("safe: " + safe);

}

通过Jsoup.clean⽅法，⽤⼀个⽩名单进⾏过滤。执⾏结果：

unsafe: <a href='⽹址' onclick='stealCookies()'>博客园</a>

safe: <a rel="nofollow">博客园</a>

五、结束语

不仅可以解析HttpClient抓取到的html元素，⾃⼰也能抓取页⾯dom，还能load并解析本地保存的html⽂件。

此外，还能通过⼀个⽩名单对字符串进⾏过滤，筛掉⼀些不安全的字符。

最最重要的，上⾯所有功能的API的调⽤都⽐较简单。

688IT编程网

Java爬虫系列三:使用Jsoup解析HTML

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

Java爬虫系列三:使用Jsoup解析HTML

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式