htmlunit简易教程(翻译)--688IT编程网

htmlunit官⽹简易教程（翻译）

1 环境搭建：

1）下载

从链接：sourceforge/projects/htmlunit/files/htmlunit/

下载最新的bin⽂件

2）关于bin⽂件

⾥⾯主要包含两部分，⼀是lib⽬录下的.jar⽂件，还有就是apidocs⽬录下的帮助⽂件（即API说明⽂件，打开index-all.html，是以⽹页形式提供）

3）配置java的CLASSPATH（纯⼿⼯⽅法）

将lib⽬录下的所有.jar⽂件复制到任意⽬录（如：c:\htmlunit\lib\）

然后右击我的电脑->属性->⾼级->环境变量->系统变量中，对CLASSPATH进⾏编辑，如果没有就新建⼀个（如果运⾏java或编译时有错误，就在）

务必将所有.jar⽂件的详细地址添加到CLASSPATH中，⽽不是⽤“c:\htmlunit\lib\”来代替，如.;c:\htmlunit\lib\1.jar;c:\htmlunit\lib\2.jar; 才是正确的写法

务必每⼀个都写清楚，需要注意最前⾯有个点"."，最后⾯有个";"

2 解释和说明：

1）.jar其实就是编译好的.class⽂件集，可以使⽤rar解压软件打开。所以.jar本质是⼀个⽬录

2）官⽹的教程有些地⽅写的很奇怪和不直观，所以我做了些调整，主要是使输出结果更加直观

3）⾥⾯每⼀个函数的具体使⽤⽅法在APIDOCS中已经有详细的说明了，我这⾥就不重复了

3 开始翻译教程

3.1 获取页⾯的TITLE、XML代码、⽂本

import com.gargoylesoftware.htmlunit.WebClient;

import com.gargoylesoftware.htmlunit.html.HtmlPage;

import com.gargoylesoftware.htmlunit.BrowserVersion;

import com.gargoylesoftware.htmlunit.html.HtmlDivision;

import com.gargoylesoftware.htmlunit.html.HtmlAnchor;

import com.gargoylesoftware.htmlunit.*;

import com.gargoylesoftware.htmlunit.WebClientOptions;

import com.gargoylesoftware.htmlunit.html.HtmlInput;

import com.gargoylesoftware.htmlunit.html.HtmlBody;

import java.util.List;

public class helloHtmlUnit{

public static void main(String[] args) throws Exception{

String str;

//创建⼀个webclient

WebClient webClient = new WebClient();

//htmlunit 对css和javascript的⽀持不好，所以请关闭之

//获取页⾯

HtmlPage page = Page("www.baidu/");

//获取页⾯的TITLE

str = TitleText();

System.out.println(str);

//获取页⾯的XML代码

str = page.asXml();

System.out.println(str);

//获取页⾯的⽂本

str = page.asText();

System.out.println(str);

//关闭webclient

webClient.closeAllWindows();

}

3.2 使⽤不同版本的浏览器打开

import com.gargoylesoftware.htmlunit.WebClient;html代码翻译中文

import com.gargoylesoftware.htmlunit.html.HtmlPage;

import com.gargoylesoftware.htmlunit.BrowserVersion;

import com.gargoylesoftware.htmlunit.html.HtmlDivision;

import com.gargoylesoftware.htmlunit.html.HtmlAnchor;

import com.gargoylesoftware.htmlunit.*;

import com.gargoylesoftware.htmlunit.WebClientOptions;

import com.gargoylesoftware.htmlunit.html.HtmlInput;

import com.gargoylesoftware.htmlunit.html.HtmlBody;

import java.util.List;

public class helloHtmlUnit{

public static void main(String[] args) throws Exception{

String str;

/使⽤FireFox读取⽹页

WebClient webClient = new WebClient(BrowserVersion.FIREFOX_24);

//htmlunit 对css和javascript的⽀持不好，所以请关闭之

HtmlPage page = Page("www.baidu/");

str = TitleText();

System.out.println(str);

//关闭webclient

webClient.closeAllWindows();

}

3.3 到页⾯中特定的元素

public class helloHtmlUnit{

public static void main(String[] args) throws Exception{

//创建webclient

WebClient webClient = new WebClient(BrowserVersion.CHROME);

//htmlunit 对css和javascript的⽀持不好，所以请关闭之

HtmlPage page = (Page("www.baidu/");

//通过id获得"百度⼀下"按钮

HtmlInput btn = (HtmlElementById("su");

System.out.DefaultValue());

//关闭webclient

webClient.closeAllWindows();

}

3.4 元素检索

public class helloHtmlUnit{

public static void main(String[] args) throws Exception{

//创建webclient

WebClient webClient = new WebClient(BrowserVersion.CHROME);

/htmlunit 对css和javascript的⽀持不好，所以请关闭之

HtmlPage page = (Page("www.baidu/");

//查所有div

List<?> hbList = ByXPath("//div");

HtmlDivision hb = ((0);

System.out.String());

//查并获取特定input

List<?> inputList = ByXPath("//input[@id='su']");

HtmlInput input = ((0);

System.out.String());

//关闭webclient

webClient.closeAllWindows();

}

3.5 提交搜索

public class helloHtmlUnit{

public static void main(String[] args) throws Exception{

//创建webclient

WebClient webClient = new WebClient(BrowserVersion.CHROME);

//htmlunit 对css和javascript的⽀持不好，所以请关闭之

HtmlPage page = (Page("www.baidu/");

//获取搜索输⼊框并提交搜索内容

HtmlInput input = (HtmlElementById("kw");

System.out.String());

input.setValueAttribute("雅蠛蝶");

System.out.String());

//获取搜索按钮并点击

HtmlInput btn = (HtmlElementById("su");

HtmlPage page2 = btn.click();

/输出新页⾯的⽂本

System.out.println(page2.asText());

}

688IT编程网

htmlunit简易教程(翻译)

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

htmlunit简易教程(翻译)

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式