站长之家简历爬取源码
1 # -*- ecoding: utf-8 -*-
2 # @ModuleName: 3、免费简历模版爬⾍
3 # @Function:
4 # @Author: merry
5 # @Time: 2021/1/18 17:02
6 import requests
7 from lxml import etree
8 import os
9
10 # 定义请求头
11 headers = {
12 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36'
13 }url编码和utf8区别
14
15 url = 'sc.chinaz/jianli/free.html'
16 # 获取响应页⾯源码
17 reponse = (url, headers=headers)
18 # 设置编码
ding = 'utf-8'
20 new_reponse =
21
22 # 使⽤etree解析详情页⾯的超链接
23 tree = etree.HTML(new_reponse)
24 # 解析当前页⾯简历的⼤div
25 get_url_list = tree.xpath('//div[@id="container"]/div')
26 # 创建简历保存的⽂件夹
27 if not ists('./doc'):
28 os.mkdir('./doc')
29
30 # 遍历⼤的div
31 for url_li in get_url_list:
32 # 得到简历详情页的url
33 doc_url = 'https:' + url_li.xpath('./a/@href')[0]
34 # 得到简历的名称
35 doc_name = url_li.xpath('./a/img/@alt')[0]
36 # 请求详情页url
37 reponse = (doc_url, headers=headers)
38 # 设置响应编码
39 ding = 'utf-8'
40 new_reponse =
41 # etree解析
42 tree = etree.HTML(new_reponse)
43 # 拼接⽂件名
44 filename = f'./doc/{doc_name}.rar'
45 # 根据class属性获得第⼀个下载链接的url列表
46 li_list = tree.xpath('//div[@class="clearfix mt20 downlist"]//li[1]')
47 # 遍历下载链接的url
48 for li in li_list:
49 # 获得下载链接的href属性获取超链接
50 get_down_url = li.xpath('./a/@href')[0]
51 # 请求下载doc链接的⼆进制⽂件
52 doc = (get_down_url, headers=headers).content
53 # 保存到⽂件夹
54 with open(filename, 'wb') as fp:
55 fp.write(doc)
56 print(f'\033[32m爬取----{doc_name}----完成')
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论