Python大数据之使用lxml库解析html网页文件示例--688IT编程网

Python⼤数据之使⽤lxml库解析html⽹页⽂件⽰例

本⽂实例讲述了Python⼤数据之使⽤lxml库解析html⽹页⽂件。分享给⼤家供⼤家参考，具体如下：

lxml是Python的⼀个html/xml解析并建⽴dom的库，lxml的特点是功能强⼤，性能也不错，xml包含了ElementTree ，html5lib ，beautfulsoup 等库。

使⽤lxml前注意事项：先确保html经过了utf-8解码，即code =html.decode('utf-8', 'ignore')，否则会出现解析出错情况。因为中⽂被编码成utf-8之后变成 '/u2541'　之类的形式，lxml⼀遇到　"/"就会认为其标签结束。

具体⽤法：元素节点操作

1、解析HTMl建⽴DOM

from lxml import etree

dom = etree.HTML(html)

2、查看dom中⼦元素的个数len(dom)

3、查看某节点的内容：string(dom[0])

4、获取节点的标签名称：dom[0].tag

5、获取某节点的⽗节点：dom[0].getparent()

6、获取某节点的属性节点的内容：dom[0].get("属性名称")

对xpath路径的⽀持：

XPath即为XML路径语⾔，是⽤⼀种类似⽬录树的⽅法来描述在XML⽂档中的路径。⽐如⽤"/"来作为上下层级间的分隔。第⼀个"/"表⽰⽂档的根节点（注意，不是指⽂档最外层的tag节点，⽽是指⽂档本⾝）。⽐如对于⼀个HTML⽂件来说，最外层的节点应该是"/html"。

xpath选取元素的⽅式：

1、绝对路径，如page.xpath("/html/body/p")，它会到body这个节点下所有的p标签

2、相对路径，page.xpath("//p")，它会到整个html代码⾥的所有p标签。

xpath筛选⽅式：

1、选取元素时⼀个列表，可通过索引查[n]

2、通过属性值筛选元素p =page.xpath("//p[@style='font-size:200%']")

3、如果没有属性可以通过text()（获取元素中⽂本）、position()（获取元素位置）、last()等进⾏筛选

获取属性值

dom.xpath(.//a/@href)

获取⽂本

dom.xpath(".//a/text()")

⽰例代码：

#!/usr/bin/python

# -*- coding:utf-8 -*-

from scrapy.spiders import Spider

from lxml import etree文本文档变成html网页

from jredu.items import JreduItem

class JreduSpider(Spider):

name = 'tt' #爬⾍的名字，必须的，唯⼀的

allowed_domains = ['sohu']

start_urls = [

'www.sohu'

]

def parse(self, response):

content = response.body.decode('utf-8')

dom = etree.HTML(content)

for ul in dom.xpath("//div[@class='focus-news-box']/div[@class='list16']/ul"):

lis = ul.xpath("./li")

for li in lis:

item = JreduItem() #定义对象

if ul.index(li) == 0:

strong = li.xpath("./a/strong/text()")

li.xpath("./a/@href")

item['title']= strong[0]

item['href'] = li.xpath("./a/@href")[0]

else:

la = li.xpath("./a[last()]/text()")

item['title'] = la[0]

item['href'] = li.xpath("./a[last()]/href")[0]

yield item

更多关于Python相关内容可查看本站专题：《》、《》、《》、《》、《》、《》及《》希望本⽂所述对⼤家Python程序设计有所帮助。

688IT编程网

Python大数据之使用lxml库解析html网页文件示例

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

Python大数据之使用lxml库解析html网页文件示例

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式