python爬⾍笔记(六)-Ajax数据爬取
request得到和浏览器数据不同
数据加载是异步加载⽅式,原始页⾯不包含数据,加载完后会会再向服务器请求某个接⼝获取数据,然后数据再被处理才呈现到⽹页上,这其实就是发送了⼀个 Ajax 请求。这样Web 开发上可以做到前后端分离,⽽且降低服务器直接渲染页⾯带来的压⼒。
因此遇到这种情况,⽤requests模拟ajax请求
6.1 Ajax
1- 介绍
Ajax,全称为 Asynchronous JavaScript and XML,即异步的 JavaScript 和 XML。是利⽤ JavaScript 在保证页⾯不被刷新、页⾯链接不改变的情况下与服务器交换数据并更新部分⽹页的技术。
实例:页⾯刷新后加载
2- 基本原理
1)发送请求
新建了 XMLHttpRequest 对象,然后调⽤了onreadystatechange 属性设置了监听,然后调⽤ open() 和 send() ⽅法向服务器发送了⼀个请求,得到服务器返回响应,并解析
python爬虫开发2)解析内容
得到响应之后,onreadystatechange 属性对应的⽅法便会被触发,此时利⽤ xmlhttp 的 responseText 属性便可以取到响应的内容。HTML 或者Json
3)渲染⽹页
解析完响应内容之后,就可以调⽤ JavaScript 来针对解析完的内容对⽹页进⾏下⼀步的处理了。DOM操作
原理,即需要知道请求如何发送、发往哪⾥,发了哪些参数
6.2 Ajax分析⽅法
1-查看请求
2-过滤请求
6.3 结果提取
1-分析请求
GET类型请求:type、value、containerid、page。
可以分析请求,推断出参数的规律
2- 分析响应
待补充
##本系列内容为《python3爬⾍开发实战》学习笔记。本系列博客列表如下:
持续更新...
对应代码请见:..
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论