python3简单爬虫环境配置+爬虫源代码(让小白也能玩好爬虫)--688IT编程网

python3简单爬⾍环境配置+爬⾍源代码（让⼩⽩也能玩好爬⾍）python3简单爬⾍环境配置

1.pycharm爬⾍环境配置

⼀，⾸先，你需要打开pycharm。

⼆，导⼊必要的模块

1.打开pycharm后，到file，然后点击settings

2.到Project Interpreter 并打开，点击右边的+

3.导⼊pip模块，搜索pip并导⼊

以相同的⽅式分别搜索requests和lxml模块并导⼊

但是注意导⼊lxml模块时选择版本为3.7.2

因为lxml在3.7.2版本后就没有了etree，对于我们xpath获取数据是有影响的

到这⾥环境就配置成功啦！！

2.⼩爬⾍–爬取猫眼电影数据

源代码（可直接复制使⽤）

这⾥访问的是猫眼电影排⾏榜前10

⽹址：maoyan/board

可以进⼊⽹站核实⼀下爬取的数据对不对

from lxml import etree

# 得到⼀个⽹页数据

def getonepage():

# ⽹址

url = 'maoyan/board'

# 模拟浏览器

header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'}

# 访问⽹站获取⽹站数据

r = (url, headers=header)

# 返回⽹站数据⽂本

# 处理并输出⽹页数据

def parse(text):

# 处理⽹站数据⽂本

html = etree.HTML(text)

# 获取指定位置⽹站数据

names = html.xpath('//div[@class="movie-item-info"]/p[@class="name"]/a/@title') # 获取电影名

releasetimes = html.xpath('//div[@class="movie-item-info"]/p[@class="releasetime"]/text()') # 获取电影上映时间

# 将电影名和上映时间绑定在⼀起输出

for name, releasetime in zip(names, releasetimes):

print(name, releasetime)

# 将获取的数据赋值给text

text = getonepage()

电影源代码人物介绍# 处理并输出⽹页数据

parse(text)

希望你看完这篇⽂章能对你有所帮助，⼤佬勿喷

发表评论

688IT编程网

python3简单爬虫环境配置+爬虫源代码(让小白也能玩好爬虫)

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

688IT编程网

python3简单爬虫环境配置+爬虫源代码(让小白也能玩好爬虫)

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式 最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

nginx map用法正则

shell 正则表达式最后一行