pythonurl编码空格_基于python爬虫爬到含空格的url的处理方法--688IT编程网

pythonurl编码空格_基于python爬⾍爬到含空格的url的处理⽅

法

道友问我的⼀个问题，之前确实没遇见过，在此记录⼀下。

问题描述

在某⽹站主页提取url进⾏迭代，爬⾍请求主页时没有问题，返回正常，但是在访问在主页提取到的url时出现了400状态码(400 Bad Request)。

结论

先贴出结论来，如果url⾥有空格的话，要把空格替换成%20，也就是url编码，否则就会出现400。

解决过程

⾸先百度了⼀下400状态码什么意思：

400页⾯是当⽤户在打开⽹页时，返回给⽤户界⾯带有400提⽰符的页⾯。其含义是你访问的页⾯域名不存在或者请求错误。

主要有两种形式：

1、bad request意思是“错误的请求”；

2、invalid hostname意思是”不存在的域名”。

所以说问题应该是出在了url上，我怀疑是他的url提取逻辑有问题，于是让他把url打印⼀下看看，他说看不出什么问题。

然后我就把他代码要了过来，⾃⼰调调试试，发现前⼏个⼦url是访问正常的，但是其中⼀个出现了400，那个url如下：

www.qichacha/company_getinfos?unique=4d5ad1bc15ddc4ad9873e5b0ff4f93d3&companyname=意⼤利

C.D.VIDEO S.P.A.深圳代表处&tab=base

下⾯是⼀个访问正常的url：

www.qichacha/company_getinfos?unique=f6aa78d2e9f4b0bc98103785f96c1353&compan

yname=深圳市联得⾃动化装备股份有限公司&tab=base

我⾸先把这个url复制到浏览器，发现可以正常访问，然后就留神了⼀下浏览器上url的变化，发现空格变成了%20，在代码⾥把url中的空格都替换成%20后，

程序访问也正常了。

问题解决。

启⽰

以后做爬⾍，对于不可预测的不规律的请求，在发请求之前先把url进⾏url编码，以免出现这种错误。

url编码处理这篇基于python 爬⾍爬到含空格的url的处理⽅法就是⼩编分享给⼤家的全部内容了，希望能给⼤家⼀个参考，也希望⼤家多多⽀持脚本之家。

688IT编程网

pythonurl编码空格_基于python爬虫爬到含空格的url的处理方法

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

pythonurl编码空格_基于python爬虫爬到含空格的url的处理方法

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式