首页教程专区正文内容

正则之利用元素属性进行匹配

教程专区

2025-02-09 05:43:25

匹配对象添加类型遇到清洗查看

正则之利⽤元素属性进⾏匹配当爬⾍或者数据清洗时，会遇到知道id、class以及name属性

来匹配信息，获取数据的时候。

以下即可，⾃⼰⾃⾏替换属性以及添加url最后改成符合⾃⼰

需求的匹配模板和匹配对象即可。需要注意的⼀点是，记得查看匹配对象的类型。

正则匹配超链接html = (url).text

html = BeautifulSoup(html,"html.parser")

# print(html)

imgUrls = html.findAll('div', class_="slide-bigpic")

# print(type(imgUrls))查看对象的类型，只有字符串可以

imgList =[]

for imgUrl in imgUrls:

imgUrl = str(imgUrl)

res = repile(r'data-ks-lazyload="(.*?)"',re.S|re.M)

img = re.findall(res,imgUrl)

imgList.append(img[0])print(imgList)

一种面向异构网页的数据收集与标注方法

« 上一篇

url参数的正则

688IT编程网

正则之利用元素属性进行匹配

发表评论

推荐文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

正则之利用元素属性进行匹配

发表评论

推荐文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

非零金额正则表达式

半小时正则表达式