htmlParser学习小结--688IT编程网

HTMLPARSER学习小结

文章分类:Java编程

htmlparser是个优秀的网页信息抓取工具，下面小结其一些基本的用法：

1 创建parser对象，有两种方式

Parser parser=new Parser(String html)

传入的html

第2种为：

//通过指定URLConnection对象创建Parser对象

Parser parser = new Parser((HttpURLConnection)(new URL(url)).openConnection());

之后就可以进行访问parser中解析好的内容了

2 解析时，有两类方式，visitor方式和filter过滤方式，vistior方式需要遍历每一个节点，

而filter方式则是过滤。

3 visitor方式的例子；

try{

//通过指定URLConnection对象创建Parser对象

Parser parser = new Parser((HttpURLConnection)(new URL(url)).openConnection());

//设置Parser对象的字符编码，一般与网页的字符编码保持一致

parser.setEncoding("GB2312");

//创建LinkFindingVisitor对象

LinkFindingVisitor lvisitor = new LinkFindingVisitor("news.qq/");

//查www.qq的链接个数

parser.visitAllNodesWith(lvisitor);

System.out.println("网页中包含news.qq/的链接个数:"+Count());

}catch(Exception ex){

ex.printStackTrace();

}

/** TextExtractingVisitor类的用法举例 */

public static void testTextExtractingVisitor(String url){

try{

//通过指定URLConnection对象创建Parser对象

Parser parser = new Parser((HttpURLConnection)(new URL(url)).openConnection());

//设置Parser对象的字符编码，一般与网页的字符编码保持一致

parser.setEncoding("GB2312");

/创建StringFindingVisitor对象

TextExtractingVisitor visitor = new TextExtractingVisitor();

//去除网页中的所有标签，提出纯文本内容

parser.visitAllNodesWith(visitor);

System.out.println("网页的纯文本内容为:"+ExtractedText());

}catch(Exception ex){

ex.printStackTrace();

}

4 还可以自定义nodevisitor来扩展nodevisitor，重载其中的各方法：

/** 自定义NodeVisitor子类，并重载抽象类NodeVisitor中的相关方法 */

public class MyNodeVisitor extends NodeVisitor {

/** 重载抽象类NodeVisitor的beginParsing方法，解析开始时调用此方法 */

public void beginParsing(){

html学多久System.out.println("开始解析HTML内容......");

}

/** 重载抽象类NodeVisitor的finishedParsing方法，解析结束时调用此方法 */

public void finishedParsing(){

System.out.println("整个HTML内容解析完毕!");

}

/** 重载抽象类NodeVisitor的visitTag方法，遇到开始标签时调用此方法 */

public void visitTag(Tag tag){

System.out.println("开始当前标签: "+Text());

}

/** 重载抽象类NodeVisitor的visitEndTag方法，遇到结束标签时调用此方法 */

public void visitEndTag(Tag tag){

System.out.println("结束当前标签: "+ta

}

/** 重载抽象类NodeVisitor的visitStringNode方法，遇到文本节点时调用此方法 */

public void visitStringNode(Text string){

System.out.println("当前文本节点: "+string);

}

** 重载抽象类NodeVisitor的visitRemarkNode方法，遇到注释时调用此方法 */

public void visitRemarkNode(Remark remark){

System.out.println("当前注释: "+remark);

}

5 使用filter方式过滤

基本用法：

TagNameFilter类用法

//通过指定URLConnection对象创建Parser对象

Parser parser = new Parser((HttpURLConnection)(new URL(url)).openConnection());

//设置Parser对象的字符编码，一般与网页的字符编码保持一致

parser.setEncoding("GB2312");

/创建TagNameFilter实例

NodeFilter filter = new TagNameFilter ("DIV");

//筛选出所有DIV标签节点

NodeList nodes = actAllNodesThatMatch(filter);

if(nodes!=null) {

for (int i = 0; i < nodes.size(); i++) {

Node textnode = (Node) nodes.elementAt(i);

System.out.println("当前DIV:"+Text());

}

AndFilter类用法

//通过指定URLConnection对象创建Parser对象

Parser parser = new Parser((HttpURLConnection)(new URL(url)).openConnection());

//设置Parser对象的字符编码，一般与网页的字符编码保持一致

parser.setEncoding("GB2312");

//创建HasAttributeFilter实例

NodeFilter filter1 = new HasAttributeFilter("id");

//创建TagNameFilter实例

NodeFilter innerFilter = new TagNameFilter ("DIV");

//创建HasChildFilter实例

NodeFilter filter2 = new HasChildFilter(innerFilter);

//创建AndFilter实例

NodeFilter filter = new AndFilter(filter1, filter2);

/筛选出所有具有id属性且拥有子节点的所有DIV节点

NodeList nodes = actAllNodesThatMatch(filter);

if(nodes!=null) {

for (int i = 0; i < nodes.size(); i++) {

Node textnode = (Node) nodes.elementAt(i);

System.out.println("当前DIV:"+Text());

}

StringFilter类用法:

//通过指定URLConnection对象创建Parser对象

Parser parser = new Parser((HttpURLConnection)(new URL(url)).openConnection());

/设置Parser对象的字符编码，一般与网页的字符编码保持一致

parser.setEncoding("GB2312");

//创建StringFilter实例

NodeFilter filter = new StringFilter("陈水扁");

//筛选出所有包含"陈水扁"字符串的所有文本节点

NodeList nodes = actAllNodesThatMatch(filter);

if(nodes!=null) {

for (int i = 0; i < nodes.size(); i++) {

Node textnode = (Node) nodes.elementAt(i);

System.out.println("包含\"陈水扁\"字符串的文本节点:"+Text());

}

688IT编程网

htmlParser学习小结

发表评论

推荐文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

热门文章

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

beautifulsoupfind_all怎样把带有某种属性的标签选出而不含该属性的标 ...

最新文章

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

0.5的倍数的正则表达式

标签列表

688IT编程网

htmlParser学习小结

发表评论

推荐文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

热门文章

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

beautifulsoupfind_all怎样把带有某种属性的标签选出而不含该属性的标 ...

最新文章

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

0.5的倍数的正则表达式

标签列表

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

非零金额正则表达式