Python爬⾍之爬取⾖瓣电影数据简单解析并保存到本地Python 之爬取⾖瓣电影数据简单解析并保存到本地
⽬录
⼀、简单介绍
Python是⼀种跨平台的计算机程序设计语⾔。是⼀种的动态类型语⾔,最初被设计⽤于编写⾃动化脚本(shell),随着版本的不断更新和语⾔新功能的添加,越多被⽤于独⽴的、⼤型项⽬的开发。Python是⼀种解释型脚本语⾔,可以应⽤于以下领域: Web 和 Internet开发、科学计算和统计、⼈⼯智能、教育、桌⾯界⾯开发、软件开发、后端开发、⽹络爬⾍。
爬⾍:⼀段⾃动抓取互联⽹信息的程序,从互联⽹上抓取对于我们有价值的信息。
enable to do爬⾍的⽹页请求:
⽹页请求的过程分为两个环节:
1. Request (请求):每⼀个展⽰在⽤户⾯前的⽹页都必须经过这⼀步,也就是向服务器发送访问请求。
2. Response(响应):服务器在接收到⽤户的请求后,会验证请求的有效性,然后向⽤户(客户端)发送响应的内容,客户端接收服
务器响应的内容,将内容展⽰出来,就是我们所熟悉的⽹页请求
⽹页请求的⽅式也分为两种:
1. GET:最常见的⽅式,⼀般⽤于获取或者查询资源信息,也是⼤多数⽹站使⽤的⽅式,响应速度快。
2. POST:相⽐ GET ⽅式,多了以表单形式上传参数的功能,因此除查询信息外,还可以修改信息。
⽹页⼀般由三部分组成,分别是 HTML(超⽂本标记语⾔)、CSS(层叠样式表)和 JScript(活动脚本语⾔):
HTML :
HTML 是整个⽹页的结构,相当于整个⽹站的框架。带“<”、“>”符号的都是属于 HTML 的标签,并且标签都是成对出现
1常见的标签如下:九年级三角函数公式大全表格
2
3<html>..</html> 表⽰标记中间的元素是⽹页
4<body>..</body> 表⽰⽤户可见的内容
5<div>..</div> 表⽰框架
6<p>..</p> 表⽰段落
7<li>..</li>表⽰列表
scratch编程教程新年8<img>..</img>表⽰图⽚
java常量类型有几种9<h1>..</h1>表⽰标题
10<a href="">..</a>表⽰超链接
CSS:
CSS 表⽰样式,图 1 中第 13 ⾏<style type="text/css">表⽰下⾯引⽤⼀个 CSS,在 CSS 中定义了外观。爬虫软件 app
JScript:
JScript 表⽰功能。交互的内容和各种特效都在 JScript 中,JScript 描述了⽹站中的各种功能。
⼆、实现原理
1、import requests 进⾏⽹页数据请求获取;
2、bs4(BeautifulSoup)进⾏获取数据的解析;
3、把解析的数据保存到本地;
三、注意实现
1、对应安装相应的库(pip install requests 和 pip install beautifulsoup4);
2、⾖瓣⽹页有反爬⾍机制,获取的时候添加 headers,进⾏爬⾍伪装访问;
3、解析的时候必要的使⽤把字符数据进⾏修剪清洗;
4、把数据写⼊本地时候,注意可能需要编码格式(encoding=“utf-8”);
四、实现步骤
1、安装 requests 库和 beautifulsoup4库(如果已经安装,可忽略),如下图
2、在命令⾏中,使⽤ jupyter notebook 打开 jupyter ⼯具,会跳转打开⼀个⽹页,如下图
3、在页⾯ New ⼀个 Python,如下图
5、运⾏,会发现返回 418,说明⾖瓣进⾏了反爬⾍处理,如下图
6、我们需要伪装进⾏爬⾍,在⾖瓣爬取页⾯上,右键 查看元素(浏览器不同,名字⼤同⼩异),然后⽹络中,点击⼀个成功的 Get 请求,参照请求头,我们伪装以下请求头 的 User-Agent 信息,如下图
7、伪装请求头后,获取数据成功,如下图
transport是什么意思英语翻译
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论