Python爬⾍⾕歌ChromeF12抓包过程原理解析
浏览器打开⽹页的过程就是爬⾍获取数据的过程,两者是⼀样⼀样的。浏览器渲染的⽹页是丰富多彩的数据集合,⽽爬⾍得到的是⽹页的源代码htm有时候,我们不能在⽹页的html代码⾥⾯到想要的数据,但是浏览器打开的⽹页上⾯却有这些数据。这就是浏览器通过ajax技术异步加载(偷偷下载)了这些数据。
⼤家禁不住要问:那么该如何看到浏览器偷偷下载的那些数据呢?
答案就是⾕歌Chrome浏览器的F12快捷键,也可以通过⿏标右键菜单“检查”(Inspect)打开Chrome⾃带的开发者⼯具,开发者⼯具会出现在浏览器⽹页的左侧或者是下⾯(可调整),它的样⼦就是这样的:
让我们简单了解⼀下它如何使⽤:
⾕歌Chrome抓包:1. 最上⾯⼀⾏菜单
左上⾓箭头⽤来点击查看⽹页的元素
第⼆个⼿机、平板图标是⽤来模拟移动端显⽰⽹页
Elements 查看渲染后的⽹页标签元素
提醒是渲染后(包括异步加载的图⽚、数据等)的完整⽹页的html,不是最初下载的那个html。
Console 查看JavaScript的console log信息,写⽹页时⽐较有⽤
Sources 显⽰⽹页源码、CSS、JavaScript代码
Network 查看所有加载的请求,对爬⾍很有帮助
后⾯的暂且不管。
⾕歌Chrome抓包:2. 重要区域
图中红框的两个按钮⽐较有⽤,编号为2的是清空请求记录;编号3的是保持记录,这在⽹页有重定向的时候很有⽤chrome浏览器手机版下载
图中绿⾊区域就是加载完整个⽹页,浏览器的全部请求记录,包括⽹址、状态、类型等。写爬⾍时,我们就要在这⾥寻线索,提炼⾦矿。
最下⾯编号为4的红框显⽰了加载这个⽹页,⼀共请求了181次,数量是多么地惊⼈,让⼈不禁⼼疼七浏览器来。
点击⼀条请求的⽹址,右侧就会出现新的窗⼝显⽰该条请求的相信信息:
图中左边红框就是点击的请求⽹址;绿框就是详情窗⼝。
详情窗⼝包括,Headers(请求头)、Preview(预览响应)、Response(服务器响应内容)和Timing(耗时)。Preview、Response 帮助我们查看该条请求是不是有爬⾍想要的数据;
Headers帮助我们在爬⾍中重建http请求,以便爬⾍得到和浏览器⼀样的数据。
了解和熟练使⽤Chrome的开发者⼯具,⼤家就如虎添翼可以顺利写出⾃⼰的爬⾍啦。
以上就是本⽂的全部内容,希望对⼤家的学习有所帮助,也希望⼤家多多⽀持。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论