Python爬⾍:Xpath爬取⽹页信息(附代码)
Python爬⾍:Xpath爬取⽹页信息(附代码)
上⼀次分享了使⽤Python简单爬取⽹页信息的⽅法。但是仅仅对于单⼀⽹页的信息爬取⼀般⽆法满⾜我们的数据需求。对于⼀般的数据需求,我们通常需要从⼀个⽹页跳转到另外⼀个⽹页,才能获取到详细的信息。今天我要分享的就是,如何通过⼀个⽹页,获取到所链接到的⽹页的详细信息。
直接上代码
1.获取单个⽹页的信息,到该⽹页中所链接的数据详情⽹址
#获取⽹页详情页⾯url
def get_detail_urls(page):
resp = (url,headers=headers)如何查看html代码
text = t.decode('utf-8')
time.sleep(2)
#提取数据
html = etree.HTML(text)
#print(html)
ul = html.xpath('//ul[@class="..."]')[0]#...为标签名称
#print(ul)
lis = ul.xpath('./li')
detail_urls =[]
for li in lis:
detail_url = li.xpath('./div[@class="..."]/div[@class="..."]/h3/a/@href')#详情页⾯url
detail_url = detail_url[0]
#print(detail_url)
return detail_url
2.提取详情页⾯的数据
#提取详情页⾯的数据
def parse_detail_page(url):
resp = (url,headers=headers)
text = t.decode('utf-8')
time.sleep(2)
html = etree.HTML(text)
title = html.xpath('//div[@class="title-info"]/h1/text()')
#存⼊txt⽂件
with open('','a', encoding='utf-8')as f:
for a in range(0,len(title)):
f.write(title[a].strip()+'\n')
f.close()
3.调⽤函数,⾃动翻页,爬取多个⽹页信息
def main():
for j in range(0,10):
print("正在爬取第"+str(j)+"页数据...")
detail_urls = get_detail_urls(j)
for detail_url in detail_urls:
parse_detail_page(detail_url)
#print(text)
print("over")
这是⼀个完整的代码,⾥⾯具体的标签需要根据⾃⼰爬取的⽹页,查看⽹页源代码,到需要的标签名称。整个代码应该算是清晰明了,如果有什么问题,欢迎指出~

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。