scrapy和requests的优劣
学过爬⾍的⼈⼀定知道scrapy和requests,前两天看了python的包下载量统计,下载量排名前三百的包中能到
selenium获取cookiedjango,tornado,requests甚⾄已经很⽼的twisted,但就是没有scrapy,这个问题引起了我的好奇,因为我之前在公司做项⽬就是⽤的scrapy采集数据,我对爬⾍这个⾏业其实并不能算特别了解,上⽹了些这⽅⾯的资料。
打两个也许那么恰当的⽐喻,其实scrapy就好像爬⾍界的AK47,胜在做某些⼤批量数据采集时的简单易⽤,⼩孩⼦也能⽤拿他杀敌,⽽requests就像是瑞⼠军⼑,经过专业训练的⾼⼿⽤它来杀敌于⽆形。但是数据采集中最重要的问题还是破解反爬,⽽scrapy作为⼀个框架,始终限定得太死了,太不灵活,在反爬和爬⾍的对决中往往跟不上敌⼈的脚步,固然scrapy也有中间件,但⽐起⽤requests拓展功能,还是多了不少限制。当然scrapy还有⼀个优势是进⾏长期的项⽬维护管理。
我最近想把⾃⼰在⾖瓣上的博客都爬下来,遇到了scrapy因为缺少cookie⽆法直接抓取页⾯,但是requests能够直接抓取页⾯的情况。这让我想起了以前写爬⾍的时候不少需要cookie的⽹站有时候得⽤requests或selenium获得cookie再交给scrapy进⾏抓取,看来scrapy在cookie⽅⾯的框架原⽣⽀持是很弱的,尽管这有可能是出于框架的可拓展⽅⾯的考虑,使得scrapy能够可定制它的cookie获得流程。但对于
⼀些⼩的抓取需求来说,这就太不⽅便了。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论