Python爬虫之爬取豆瓣电影数据简单解析并保存到本地--688IT编程网

Python爬⾍之爬取⾖瓣电影数据简单解析并保存到本地Python 之爬取⾖瓣电影数据简单解析并保存到本地

⽬录

⼀、简单介绍

Python是⼀种跨平台的计算机程序设计语⾔。是⼀种的动态类型语⾔，最初被设计⽤于编写⾃动化脚本(shell)，随着版本的不断更新和语⾔新功能的添加，越多被⽤于独⽴的、⼤型项⽬的开发。Python是⼀种解释型脚本语⾔，可以应⽤于以下领域： Web 和 Internet开发、科学计算和统计、⼈⼯智能、教育、桌⾯界⾯开发、软件开发、后端开发、⽹络爬⾍。

爬⾍：⼀段⾃动抓取互联⽹信息的程序，从互联⽹上抓取对于我们有价值的信息。

enable to do爬⾍的⽹页请求：

⽹页请求的过程分为两个环节：

1. Request （请求）：每⼀个展⽰在⽤户⾯前的⽹页都必须经过这⼀步，也就是向服务器发送访问请求。

2. Response（响应）：服务器在接收到⽤户的请求后，会验证请求的有效性，然后向⽤户（客户端）发送响应的内容，客户端接收服

务器响应的内容，将内容展⽰出来，就是我们所熟悉的⽹页请求

⽹页请求的⽅式也分为两种：

1. GET：最常见的⽅式，⼀般⽤于获取或者查询资源信息，也是⼤多数⽹站使⽤的⽅式，响应速度快。

2. POST：相⽐ GET ⽅式，多了以表单形式上传参数的功能，因此除查询信息外，还可以修改信息。

⽹页⼀般由三部分组成，分别是 HTML（超⽂本标记语⾔）、CSS（层叠样式表）和 JScript（活动脚本语⾔）：

HTML ：

HTML 是整个⽹页的结构，相当于整个⽹站的框架。带“＜”、“＞”符号的都是属于 HTML 的标签，并且标签都是成对出现

1常见的标签如下：九年级三角函数公式大全表格

3<html>..</html> 表⽰标记中间的元素是⽹页

4<body>..</body> 表⽰⽤户可见的内容

5<div>..</div> 表⽰框架

6<p>..</p> 表⽰段落

7<li>..</li>表⽰列表

scratch编程教程新年

8<img>..</img>表⽰图⽚

java常量类型有几种9<h1>..</h1>表⽰标题

10<a href="">..</a>表⽰超链接

CSS：

CSS 表⽰样式，图 1 中第 13 ⾏＜style type=＂text/css＂＞表⽰下⾯引⽤⼀个 CSS，在 CSS 中定义了外观。爬虫软件 app

JScript：

JScript 表⽰功能。交互的内容和各种特效都在 JScript 中，JScript 描述了⽹站中的各种功能。

⼆、实现原理

1、import requests 进⾏⽹页数据请求获取；

2、bs4（BeautifulSoup）进⾏获取数据的解析；

3、把解析的数据保存到本地；

三、注意实现

1、对应安装相应的库（pip install requests 和 pip install beautifulsoup4）；

2、⾖瓣⽹页有反爬⾍机制，获取的时候添加 headers，进⾏爬⾍伪装访问；

3、解析的时候必要的使⽤把字符数据进⾏修剪清洗；

4、把数据写⼊本地时候，注意可能需要编码格式（encoding=“utf-8”）；

四、实现步骤

1、安装 requests 库和 beautifulsoup4库（如果已经安装，可忽略），如下图

2、在命令⾏中，使⽤ jupyter notebook 打开 jupyter ⼯具，会跳转打开⼀个⽹页，如下图

3、在页⾯ New ⼀个 Python，如下图

5、运⾏，会发现返回 418，说明⾖瓣进⾏了反爬⾍处理，如下图

6、我们需要伪装进⾏爬⾍，在⾖瓣爬取页⾯上，右键查看元素（浏览器不同，名字⼤同⼩异），然后⽹络中，点击⼀个成功的 Get 请求，参照请求头，我们伪装以下请求头的 User-Agent 信息，如下图

7、伪装请求头后，获取数据成功，如下图

transport是什么意思英语翻译

688IT编程网

Python爬虫之爬取豆瓣电影数据简单解析并保存到本地

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

Python爬虫之爬取豆瓣电影数据简单解析并保存到本地

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式