站长之家简历爬取源码
1 # -*- ecoding: utf-8 -*-
2 # @ModuleName: 3、免费简历模版爬⾍
3 # @Function:
4 # @Author: merry
5 # @Time: 2021/1/18 17:02
6 import requests
7 from lxml import etree
8 import os
9
10 # 定义请求头
11 headers = {
12    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36'
13 }url编码和utf8区别
14
15 url = 'sc.chinaz/jianli/free.html'
16 # 获取响应页⾯源码
17 reponse = (url, headers=headers)
18 # 设置编码
ding = 'utf-8'
20 new_reponse =
21
22 # 使⽤etree解析详情页⾯的超链接
23 tree = etree.HTML(new_reponse)
24 # 解析当前页⾯简历的⼤div
25 get_url_list = tree.xpath('//div[@id="container"]/div')
26 # 创建简历保存的⽂件夹
27 if not ists('./doc'):
28    os.mkdir('./doc')
29
30 # 遍历⼤的div
31 for url_li in get_url_list:
32    # 得到简历详情页的url
33    doc_url = 'https:' + url_li.xpath('./a/@href')[0]
34    # 得到简历的名称
35    doc_name = url_li.xpath('./a/img/@alt')[0]
36    # 请求详情页url
37    reponse = (doc_url, headers=headers)
38    # 设置响应编码
39    ding = 'utf-8'
40    new_reponse =
41    # etree解析
42    tree = etree.HTML(new_reponse)
43    # 拼接⽂件名
44    filename = f'./doc/{doc_name}.rar'
45    # 根据class属性获得第⼀个下载链接的url列表
46    li_list = tree.xpath('//div[@class="clearfix mt20 downlist"]//li[1]')
47    # 遍历下载链接的url
48    for li in li_list:
49        # 获得下载链接的href属性获取超链接
50        get_down_url = li.xpath('./a/@href')[0]
51        # 请求下载doc链接的⼆进制⽂件
52        doc = (get_down_url, headers=headers).content
53        # 保存到⽂件夹
54        with open(filename, 'wb') as fp:
55            fp.write(doc)
56            print(f'\033[32m爬取----{doc_name}----完成')

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。