python字符串替换、正则查替换import re
if__name__ == "__main__":
url = " ### deded<a href = 'xxx'>这是第⼀个链接</a><a href = 'xxx'>这是第⼆个链接</a> ### "
# 1-1 清除#,place(old, new)
newurl1 = place("#", "")
print("第⼀步 1: ", newurl1)
# 1-2 清除#,正则替换
p1 = repile(r"#+")正则化匹配26个字母python
newurl2 = p1.sub("", url)
print("第⼀步 2: ", newurl2)
# 2 去除⾸尾空格, str.strip()
newurl = newurl2.strip()
print("第⼆步: ", newurl)
# 3 match 查是否存在内链(从字符串开始处匹配,若匹配成功返回,若开头没有匹配上则返回None)
p2 = repile(r"<a.*?>.*?</a>")
match = p2.match(newurl)
if match is not None:
print("第三步: ", up())
# 4 search 查是否存在内链(可以从字符串任意位置开始匹配,查整个字符串,直到成功匹配后返回,匹配失败返回None) search_match = p2.search(newurl)
if search_match is not None:
print("第四步: " + up())
# 5 提取所有内链url中的⽂本,⾮贪婪匹配 + 分组捕获()
p3 = repile(r"<a.*?>(.*?)</a>")
textlist = p3.findall(newurl)
print("第五步: ", textlist)
# 6 提取所有内链url,⾮贪婪匹配
p4 = repile(r"<a.*?/a>")
linklist = p4.findall(newurl)
print("第六步: ", linklist)
输出结果:
第⼀步 1: deded<a href = 'xxx'>这是第⼀个链接</a><a href = 'xxx'>这是第⼆个链接</a>
第⼀步 2: deded<a href = 'xxx'>这是第⼀个链接</a><a href = 'xxx'>这是第⼆个链接</a>
第⼆步: deded<a href = 'xxx'>这是第⼀个链接</a><a href = 'xxx'>这是第⼆个链接</a>
第四步: <a href = 'xxx'>这是第⼀个链接</a>
第五步: ['这是第⼀个链接', '这是第⼆个链接']
第六步: ["<a href = 'xxx'>这是第⼀个链接</a>", "<a href = 'xxx'>这是第⼆个链接</a>"]
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论