python3简单爬⾍环境配置+爬⾍源代码(让⼩⽩也能玩好爬⾍)python3简单爬⾍环境配置
1.pycharm爬⾍环境配置
⼀,⾸先,你需要打开pycharm。
⼆,导⼊必要的模块
1.打开pycharm后,到file,然后点击settings
2.到Project Interpreter 并打开,点击右边的+
3.导⼊pip模块,搜索pip并导⼊
以相同的⽅式分别搜索requests和lxml模块并导⼊
但是注意导⼊lxml模块时选择版本为3.7.2
因为lxml在3.7.2版本后就没有了etree,对于我们xpath获取数据是有影响的
到这⾥环境就配置成功啦!!
2.⼩爬⾍–爬取猫眼电影数据
源代码(可直接复制使⽤)
这⾥访问的是猫眼电影排⾏榜前10
⽹址:maoyan/board
可以进⼊⽹站核实⼀下爬取的数据对不对
from lxml import etree
# 得到⼀个⽹页数据
def getonepage():
# ⽹址
url = 'maoyan/board'
# 模拟浏览器
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'}
# 访问⽹站获取⽹站数据
r = (url, headers=header)
# 返回⽹站数据⽂本
# 处理并输出⽹页数据
def parse(text):
# 处理⽹站数据⽂本
html = etree.HTML(text)
# 获取指定位置⽹站数据
names = html.xpath('//div[@class="movie-item-info"]/p[@class="name"]/a/@title') # 获取电影名
releasetimes = html.xpath('//div[@class="movie-item-info"]/p[@class="releasetime"]/text()') # 获取电影上映时间
# 将电影名和上映时间绑定在⼀起输出
for name, releasetime in zip(names, releasetimes):
print(name, releasetime)
# 将获取的数据赋值给text
text = getonepage()
电影源代码人物介绍# 处理并输出⽹页数据
parse(text)
希望你看完这篇⽂章能对你有所帮助,⼤佬勿喷
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论