关于x开头的字符串编码转换中文解决方法--688IT编程网

关于x开头的字符串编码转换中⽂解决⽅法

做爬⾍可能经常遇到爬取到的数据存在编码问题，简直让⼈头疼，⽐如爬取到的是这样的：

例如：url编码和utf8区别

\xe4\xbd\xa0\xe5\xa5\xbd\xe4\xb8\x96\xe7\x95\x8c

中⽂是：你好世界

上⾯这个是utf-8编码，但数据类型是字符串类型，⽽不是bytes类型的utf-8编码。

这样会导致⼀个结果：如果直接输出，显⽰的是乱码，也不能使⽤decode进⾏utf-8解码得到中⽂。

在python2中，中⽂指定utf-8格式，字符串存⼊内存就是utf-8编码格式，直接输出就是中⽂，就不存在这个问题；

⽽python3中，字符串存⼊内存是以unicode编码格式存⼊的，输出的是默认的utf-8编码格式，所以得到的是乱码。

可能有⼈会说，既然得到的是utf-8编码，在前⾯加上 " b " ，字符串就是bytes类型了，再利⽤decode进

⾏解码不就可以得到中⽂吗？但显然，这是⾏不通的，你不可能去⼿动⼀个个添加，那有没有其他⽅法呢？

答案肯定是有的，既然知道这个字符串是utf-8编码的，那么我换种⽅式，只要将字符串中的 " \x " 改为 " % " 利⽤urllib中的unquote⽅法解码就可以得到中⽂了，因为url中的中⽂utf-8编码和这⾥的区别就是url中编码是%开头。

那么其实只要对utf-8字符串反向转换就⾏，先将字符串编码指定为unicode_escape

s ='\xe4\xbd\xa0\xe5\xa5\xbd\xe4\xb8\x96\xe7\x95\x8c'

s = s.encode('unicode_escape')

得到bytes类型数据（单斜杠变成双斜杠）

b'\\xe4\\xbd\\xa0\\xe5\\xa5\\xbd\\xe4\\xb8\\x96\\xe7\\x95\\x8c'

接着再对bytes类型进⾏utf-8解码，得到字符串，将字符串中的 " \x " 替换为 " % "

ss = s.decode('utf-8').replace('\\x','%')

替换作⽤就是将字符串改为url的utf-8编码格式

%e4%bd%a0%e5%a5%bd%e4%b8%96%e7%95%8c

最后利⽤urllib中的unquote⽅法将url编码解码，得到中⽂

un = parse.unquote(ss)

688IT编程网

关于x开头的字符串编码转换中文解决方法

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

关于x开头的字符串编码转换中文解决方法

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式