xpath获取标签的属性值_Python爬虫:现学现用xpath爬取豆瓣音乐

xpath获取标签的属性值_Python爬⾍：现学现⽤xpath爬取⾖

瓣⾳乐

爬⾍的抓取⽅式有好⼏种，正则表达式，Lxml(xpath)与BeautifulSoup，我在⽹上查了⼀下资料，了解到三者之间的使⽤难度与性能

三种爬⾍⽅式的对⽐。

这样⼀⽐较我我选择了Lxml(xpath)的⽅式了，虽然有三种⽅式，但肯定是要选择最好的⽅式来爬⾍，这个道理⼤家都懂，另外有兴趣的朋友也可以去了解另外两种爬⾍⽅式！

好了现在来讲讲xpath

由于Xpath属于lxml模块，所以⾸先需要安装lxml库，⽼办法直接在file-->setting---project interpreter ⼀键添加lxml库。

xpath简单⽤法

from lxml import etree

s=etree.HTML(源码) #将源码转化为能被XPath匹配的格式

s.xpath(xpath表达式) #返回为⼀列表,

基础语法：

1、// 双斜杠定位根节点，会对全⽂进⾏扫描，在⽂档中选取所有符合条件的内容，以列表的形式返回。

2、/ 单斜杠寻当前标签路径的下⼀层路径标签或者对当前路标签内容进⾏操作

3、/text() 获取当前路径下的⽂本内容

4、/@xxxx 提取当前路径下标签的属性值

5、| 可选符使⽤|可选取若⼲个路径如//p | //div 即在当前路径下选取所有符合条件的p标签和div标签。

6、. 点⽤来选取当前节点

7、.. 双点选取当前节点的⽗节点

获取单条数据

1.获取⾳乐标题

打开⽹址，按下F12，然后查标题，右键弹出菜单栏 Copy==> Copy Xpath

这⾥我们想获取⾳乐标题，⾳乐标题的xpath是：xpath://*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div/a

运⾏代码：

居然是空的。

这⾥需要注意⼀下，浏览器复制的xpath只能作参考，因为浏览器经常会在⾃⼰⾥⾯增加多余的tbody标签，我们需要⼿动把这个标签删除

删除中间的/tbody后，是这样的，

title = s.xpath('//*[@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div/a')

然后我们再运⾏代码。

得到：

说明标题被获取到了。

因为要获取标题⽂本，所以xpath表达式要追加/text()

title = s.xpath('//*[@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div/a/text()')#因为要获取标题，所以我需要这个当前路径下的⽂本，所以使⽤/text()

⼜因为这个s.xpath返回的是⼀个集合，且集合中只有⼀个元素所以我再追加⼀个[0]

新的表达式：

title = s.xpath('//*[@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div/a/text()')[0]#因为要获取标题，所以我需要这个当前路径下的⽂本，所以使⽤/text()，再追加[0]

重新运⾏得到结果：

爬虫可以干什么

We Sing. We Dance. We Steal Things.

正是我们想要的标题。

2.获取⾳乐评分与评价⼈数

⽼办法，先⽤右键copy评分的xpath ://*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div/div/spa

n[2]复制评价⼈数的xpath://*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div/div/span[3]/text()

同样的我们要把tbody去掉，然后重新运⾏代码：

得到：

We Sing. We Dance. We Steal Things.

9.1

(

100395⼈评价

)

3.获取⾳乐链接

copy标题的xpath，：//*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div/a

想获取⾳乐连接href这⾥需要，获取这个标签属于,/@xxx可以提取当前路径标签下的属性值

//*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div/a/@href

代码：

5.获取图⽚地址：

到图⽚，复制他的xpath地址：//*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[1]/a/img

运⾏代码：

完整代码(获取多个页⾯多个数据)

688IT编程网

xpath获取标签的属性值_Python爬虫:现学现用xpath爬取豆瓣音乐_百度文 ...

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

xpath获取标签的属性值_Python爬虫:现学现用xpath爬取豆瓣音乐_百度文 ...

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则