xpath解析htmljava_Java下使⽤xpath解析html⽂件
这段时间⼀直在⽹络上扒取数据,为了⽅便就⽤到了xpath,⼀开始使⽤真的是挺难的,不过⽤⽤就好了,但是⽹上的资源少之⼜少,所以⾃⼰就写个博客把~~~
⾸先需要下载三个jar包  nekohtml.jar  xalan.jar  xerceslmpl.jar
在下⾯的这个⽂章中可以⾃⼰想要的语法结构
直接上代码
不好意思,这个⽂本编辑器实在是不好⽤,凑合着看~~
import org.apache.xpath.XPathAPI;
berneko.html.parsers.DOMParser;
import org.w3c.dom.DOMException;
import org.w3c.dom.Document;
import org.w3c.dom.Node;
import org.w3c.dom.NodeList;
l.sax.InputSource;
public class Hxpath {
DOMParser parser = new DOMParser();
try {
//设置⽹页的默认编码
parser.setProperty("/html/properties/default-encoding","gb2312");
parser.setFeature("/sax/features/namespaces", false);html href属性
//可以修改获取页⾯的编码⽅式,在最后的那个参数
BufferedReader in = new BufferedReader(new InputStreamReader(new URL("www.baidu").openStream(),"gb2312"));
parser.parse(new InputSource(in)); in.close();
} catch (Exception e) {
e.printStackTrace();
}
Document doc = Document();
String productsXpath = "//UL/LI/A[@class='orange"; //xpath语句
NodeList products; products = XPathAPI.selectNodeList(doc, productsXpath);
String temp="";Node node = null;String p = "";
for (int i = 0; i < Length(); i++) {
node = products.item(i);TextContent().trim();
System.out.println("i="+i+" "+temp);
}

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。