xpath以某个字符开始_Python-爬虫基础-Xpath配合获取网页特定标签...--688IT编程网

xpath以某个字符开始_Python-爬⾍基础-Xpath配合获取⽹页

特定标签内容

上⼀篇MonkeyLei：Python-爬取页⾯内容（涉及urllib、requests、UserAgent、Json等）我们爬取了内容，接下来就可以⽤xPath做内容分析了，进⽽获取我们想要爬的内容。

xPath知识

xPath知识有必要了解，然后我们需要做点实践学习熟悉它....

1. 先看基本语法

xPath插件哟 MonkeyLei：解决Chrome插件安装时程序包⽆效【CRX_HEADER_INVALID】(转载+xPath插开始之前需要安装浏览器xPath插件

件)

难点应该就在于语法如何写，以及根据⾃⼰的需求定制语法规则...

2. ⼏个点

'//*

得出来的规则按需完善后就可以直接运⽤到代码⾥⾯->html_object.xpath('//*

⽐如我们xPath⼯具

xPath⼯具去google浏览器瞅瞅 - 这个得出来的规则

[@id="talented"]/div[2]/ul/li/span/a/@href')

[@id="talented"]/div[2]/ul/li/span/a/@href'

3. 开始实践

xpath.py

#!/usr/bin/python3

# -*- coding: UTF-8 -*-

# ⽂件名：xpath.py

from lxml import etree

from urllib import request

# 1. 先来个简单的吧缺</body> </html>，后⾯⽤string可以补全！

url = '''

<!DOCTYPE html>

<html>

</head>

<body>

</ul>

</ul>

</div>

'''

data = url

# 2. 解析⾸页列表

if data:

# print(data)

# 转换为html对象，以便进⾏path查

html_object = etree.HTML(data)

# 补全⽹页字符串

last_html_data = string(html_object)

# 再次转换为html对象，以便进⾏path查

html_object = etree.HTML(last_html_data)

# 利⽤浏览器插件Chrome插件XPath Helper获取标签格式，然后进⾏查

# 格式类似： '//*[@id="page"]/div/div/div[2]/div[2]/div[1]/div[2]'

'''

// 定位根节点

/ 往下层寻href标签怎么用

/ text()提取⽂本内容, ⽐如：/li/text() - 提取li的⽂本内容

@XXX提取XXX属性内容, ⽐如： a/@href - 提取a的href属性

[@id="xx"]获取指定id属性内容, ⽐如: ul[@id="name_list"] - 提取id为name_list的ul列表

'''

result = html_object.xpath('//*') # '//'表⽰获取当前节点⼦孙节点，'*'表⽰所有节点，'//*'表⽰获取当前节点下所有节点

for item in result:

print(item)

''' ......

....

'''

# 获取ui的li的⽂本内容

path_data = html_object.xpath('//div[@id="content"]/ul/li/text()')

for item in path_data:

print(item)

# 获取指定ul的li的内容

path_data = html_object.xpath('//div[@id="content"]/ul[@id="message"]/li/text()')

for item in path_data:

print(item)

# 当前标签⽐较单⼀的时候，可以不⽤id指定，直接想要的值 - 灵活应对吧

path_data = html_object.xpath('//div/div/a/@href')

for item in path_data:

print(item)

# 再来个获取公开政策的⽹站 - 需要伪装成浏览器访问；不知道这样举例恰当不，政策⽹站还是不要乱爬吧！算了，改成⼤学的吧..我母校... from fake_useragent import UserAgent

ua = UserAgent()

headers = {

'User-Agent': ua.random

}

if True:

url = 'u.edu/'

req = request.Request(url, None, headers)

data = ''

with request.urlopen(req) as uf:

while True:

data_temp = uf.read(1024)

if not data_temp:

break

data += data_temp.decode('utf-8', 'ignore')

# 2. 解析获取需要内容

if data:

# 转换为html对象，以便进⾏path查

html_object = etree.HTML(data)

# 补全⽹页吧

last_html_data = string(html_object)

# 再次转换为html对象，以便进⾏path查

html_object = etree.HTML(last_html_data)

# 从⽹页⼯具xPath⾥⾯去获取规则，根据路径⼀层层往下就⾏（这样能精准⼀些，但是如果标识都⼀样，且很多，数据就会很多

path_data = html_object.xpath('//*[@id="talented"]/div[2]/ul/li/span/a/@href') # //*[@id="talented"]/div[2]/ul/li/span/a/@href

# 专注⼈才培养[@id="talented"]下⾯的列表

for item in path_data:

print(item) # 得到路径补可能需要⾃⼰补全

代码⾥⾯都做了说明的，，应该还好

注意：得到的结果不管是⼏个都是⼀个数组。如果你有多个tab，多个div，⽽你需要只获取第⼀个，你就可以div[1]索引来获取，统⼀

注意：

ul[1], li[n]也可以。。。

另外直接访问⽹站可能会有错误，400， 403等。需要你伪装浏览器的样⼦，另外涉及到表单之类的可能还需要你去查看form_data或者另外

header，然后添加相关参数，认证才能访问。这个看实际怎么个情况吧。。。。

先这样记录下。⼤概知道怎么弄就⾏。。。后续真搞这个，还不是得深⼊。⽼规矩，多喝⽔，多放松，多⾛动，多锻炼，早睡早起！⼀起加油。。回头还得继续我的Android深⼊。。。

688IT编程网

xpath以某个字符开始_Python-爬虫基础-Xpath配合获取网页特定标签...

发表评论

推荐文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

热门文章

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

beautifulsoupfind_all怎样把带有某种属性的标签选出而不含该属性的标 ...

最新文章

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

0.5的倍数的正则表达式

标签列表

688IT编程网

xpath以某个字符开始_Python-爬虫基础-Xpath配合获取网页特定标签...

发表评论

推荐文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

热门文章

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

beautifulsoupfind_all怎样把带有某种属性的标签选出而不含该属性的标 ...

最新文章

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

0.5的倍数的正则表达式

标签列表

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

非零金额正则表达式