常见的爬⾍error以及解决⽅法
connection error
ConnectionError:(‘Connection aborted’,error(110,‘Connection timed out’))
解决⽅法: 例如dxsbb。就会出现这种问题,那就在前边加上www,我访问之后成功了。
ConnectionError:(‘Connection aborted’,error(111,‘Connection refused’))
parse error怎么解决解决⽅法: 我使⽤的域名是:。停⼀段时间再次访问,或者使⽤requests请求试⼀下,就可以了。
ConnectionError:(‘Connection aborted’,error(104,‘Connection reset by peer’))
**解决⽅法:** .可以加上www,之后再请求的时候加上requests的headers,其中最重要的就是User-Agent,Cookie,Host,refer。⾃⼰⽤requests访问的话响应的时间太长。
ConnectionError:(‘Connection aborted’,gaierror(-2,‘Name or service not known’))
解决⽅法: 域名解析器⽆法解析,不是域名的问题,就是解析不了。
ConnectionError:(‘Connection aborted’,BadStatusLine(" ’ '"))
解决⽅法: 加上headers
ssl error
SSLError: EOFoccured in violation of protocol (_ssl.c579)
*出现问题的域名: ,
或者以index.html结尾的, ⼀种⽅法是去掉。否则就是https的不好爬取。
DNS Lookup Error
Dns lookup failed: no results for hostname lookup:
出现问题的域名: ,就是403Forbidden的错误。
Tcp time out
TCPTimedOutError: Tcp connection timed out: 110: Connection timed out
出现问题的域名:
这种就是停⼀段时间再次爬取。
Reponse Error
NotSupported:Response context isn’t text
出现错误的域名: (⽹页没有问题),有可能⽹页的主页是图⽚或者其他格式,所以⽆法保存
可以对response的body进⾏判断,看/>是否会再页⾯中出现
总结:
1.⾸先是headers,加上User-Agent。
2. 在域名上加上www。
3. ⽹页主页是否是图⽚、视频。这种模式的需要进⾏判断
4. ⽹页是403Forbbiden的,⽆法爬取。
最后贴上⼀个User-Agent
{'User-Agent': 'Mozilla/5.0 (Windows NT 6.0; WOW64; rv:24.0) Gecko/20100101 Firefox/24.0'}

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。