常见的爬虫error以及解决方法--688IT编程网

常见的爬⾍error以及解决⽅法

connection error

ConnectionError:(‘Connection aborted’,error(110,‘Connection timed out’))

解决⽅法：例如dxsbb。就会出现这种问题，那就在前边加上www，我访问之后成功了。

ConnectionError:(‘Connection aborted’,error(111,‘Connection refused’))

parse error怎么解决解决⽅法：我使⽤的域名是：。停⼀段时间再次访问，或者使⽤requests请求试⼀下，就可以了。

ConnectionError:(‘Connection aborted’,error(104,‘Connection reset by peer’))

**解决⽅法：** .可以加上www，之后再请求的时候加上requests的headers，其中最重要的就是User-Agent,Cookie,Host,refer。⾃⼰⽤requests访问的话响应的时间太长。

ConnectionError:(‘Connection aborted’,gaierror(-2,‘Name or service not known’))

解决⽅法：域名解析器⽆法解析，不是域名的问题，就是解析不了。

ConnectionError:(‘Connection aborted’,BadStatusLine(" ’ '"))

解决⽅法：加上headers

ssl error

SSLError: EOFoccured in violation of protocol (_ssl.c579)

*出现问题的域名： ,

或者以index.html结尾的，⼀种⽅法是去掉。否则就是https的不好爬取。

DNS Lookup Error

Dns lookup failed: no results for hostname lookup:

出现问题的域名：，就是403Forbidden的错误。

Tcp time out

TCPTimedOutError: Tcp connection timed out: 110: Connection timed out

出现问题的域名：

这种就是停⼀段时间再次爬取。

Reponse Error

NotSupported:Response context isn’t text

出现错误的域名： (⽹页没有问题)，有可能⽹页的主页是图⽚或者其他格式，所以⽆法保存

可以对response的body进⾏判断，看/>是否会再页⾯中出现

总结：

1.⾸先是headers，加上User-Agent。

2. 在域名上加上www。

3. ⽹页主页是否是图⽚、视频。这种模式的需要进⾏判断

4. ⽹页是403Forbbiden的，⽆法爬取。

最后贴上⼀个User-Agent

{'User-Agent': 'Mozilla/5.0 (Windows NT 6.0; WOW64; rv:24.0) Gecko/20100101 Firefox/24.0'}

688IT编程网

常见的爬虫error以及解决方法

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

常见的爬虫error以及解决方法

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式