【Python】爬⾍+动态Cookie获取
⼀、前⾔
背景是帮助朋友爬取⼀个国家⽹站发布的肺炎疫情统计信息。
⼆、遇到的问题
朋友本来是打算按照最基本的⽅法进⾏爬取,代码如下:
import requests
import re
URL = "xxxxxx"
r = (URL)
#print(r)
但这样收到服务器的回复是HTTP 412,没有获得正常的回应。这就⾮常奇怪了,请求的页⾯看起来也是
静态页⾯,没有跟⽤户进⾏交互,⽤浏览器打开能正常访问。由此猜测可能设置了"反爬⾍"的操作,因此使⽤Postman发送请求试试看,结果还是HTTP 412,也返回了⼀个页⾯,但页⾯内容是JS代码。猜测可能是请求头需要设置新内容,服务器会根据请求头来返回相应的信息,于是⽤Chrome浏览器到了请求头⾥的每⼀项。经过多次尝试,到了请求头需要加Cookie这⼀项,否则⽆法传回⽬标⽹页信息。改写代码如下:其中Cookie内容从浏览器复制
URL = "xxxxx"
headers = {'Cookie':'ainfaoifivbiu'}
r = (URL,headers=headers)
返回信息显⽰HTTP 200,总算能正常获取页⾯了!
(还是有深深的疑惑:为啥这种公布信息的⽹站还要设置Cookie的限制呢?防⽌DDos?)
三、深⼊问题
虽然加⼊Cookie能获得⽬标⽹页信息,但是经测试Cookie的时效太短了,猜测只有⼀分钟,⽽且这种从浏览器复制Cookie的⾏为时不满⾜爬⾍⾃动化的要求。那么⾃然想到能不能通过代码先获取到Cookie呢?
先勾勒⼀下整个交互过程:
客户端发送请求->服务器响应并传回Cookie->客户端将Cookie添加到请求头中,重新发送请求->服务器响应请求。
⼀般⽽⾔,服务器通过响应报⽂请求头⾥的Set-Cookie⼀项来设置Cookie,通过Postman抓取到Cookie来看⼜发现了问题:Set-Cookie ⾥的内容⽐正常响应的Cookie内容少了很多。那么剩余的Cookie在哪⾥呢?
四、真相
实际上,虽然不带Cookie进⾏访问会得到HTTP 412的响应,但是这个数据报⽂应该是包含了全部的Cookie信息,由此客户端才能设置Cookie正常访问。既然⼀部分在请求头⾥,那么剩余部分在请求正⽂中!上⽂提到返回的⽂件是⼀个html页⾯,其中是JS代码,博主只是略懂JS代码,但它写的格式实在是不打算不给⼈看的,但浏览器能执⾏这些代码。博主猜测,剩余的Cookie就是由这些JS代码产⽣的,也能解释为什么Cookie的时效短的原因。
但是为了实现爬⾍⾃动化,总不能⾃⼰写⼀个JS执⾏引擎吧...为此,不得不借⽤python的库selenium了。由它打开浏览器访问页⾯,⽽我们只需要其中的Cookie再重新请求获取数据,代码如下:
from selenium import webdriver
import json
import requests
import re
browser = webdriver.Firefox()
<('xxxx')
selenium获取cookieCookie = _cookies()
strr = ''
#print(Cookie)
for c in Cookie:
strr += c['name']
strr += '='
strr += c['value']
strr += ';'
#strr = strr[0:-2]
#print(strr)
headers = {'Cookie':strr}
#print(headers)
r2 = ('xxx',headers=headers)
print(r2)
五、⼩结
博主认为这个也只能是权宜之计,毕竟还是打开了浏览器,爬⾍的最⾼境界不应该是⾃⾝就模拟了浏览器嘛?之后的改进思路应该是借助python执⾏JS代码再提取出Cookie。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。