【转】【Python】python中的编码问题报错--688IT编程网

【转】【Python】python中的编码问题报错

asciicodeccantdecode。。。

1.unicode、gbk、gb2312、utf-8的关系

2.python中的中⽂编码问题

2.1 .py⽂件中的编码

Python 默认脚本⽂件都是 ANSCII 编码的，当⽂件中有⾮ ANSCII 编码范围内的字符的时候就要使⽤"编码指⽰"来修正。⼀个module 的定义中，如果.py⽂件中包含中⽂字符（严格的说是含有⾮anscii字符），则需要在第⼀⾏或第⼆⾏指定编码声明：

2.2 python中的编码与解码

先说⼀下python中的字符串类型，在python中有两种字符串类型，分别是str和unicode，他们都是basestring的派⽣类；str类型是⼀个包含Characters represent (at least) 8-bit bytes的序列；unicode的每个unit是⼀个unicode obj；所以：

len(u'中国')的值是2；len('ab')的值也是2；

在str的⽂档中有这样的⼀句话：The string data type is also used to represent arrays of bytes, e.g., to hold data read from a file. 也就是说在读取⼀个⽂件的内容，或者从⽹络上读取到内容时，保持的对象为str类型；如果想把⼀个str转换成特定编码类型，需要把str转为Unicode，然后从unicode转为特定的编码类型如：utf-8、gb2312等；

python中提供的转换函数：

unicode转为 gb2312,utf-8等

# -*- coding=UTF-8 -*-

if __name__ == '__main__':

s = u'中国'

s_gb = s.encode('gb2312')

utf-8,GBK转换为unicode 使⽤函数unicode(s,encoding) 或者s.decode(encoding)

# -*- coding=UTF-8 -*-

if __name__ == '__main__':

s = u'中国'

#s为unicode先转为utf-8

s_utf8 = s.encode('UTF-8')

assert(s_utf8.decode('utf-8') == s)

普通的str转为unicode

# -*- coding=UTF-8 -*-

if __name__ == '__main__':

s = '中国'

su = u'中国''

#s为unicode先转为utf-8

#因为s为所在的.py(# -*- coding=UTF-8 -*-)编码为utf-8

s_unicode = s.decode('UTF-8')

assert(s_unicode == su)

#s转为gb2312，先转为unicode再转为gb2312

s.decode('utf-8').encode('gb2312')

#如果直接执⾏s.encode('gb2312')会发⽣什么？

# -*- coding=UTF-8 -*-

if __name__ == '__main__':

s = '中国'

#如果直接执⾏s.encode('gb2312')会发⽣什么？

这⾥会发⽣⼀个异常：

Python 会⾃动的先将 s 解码为 unicode ，然后再编码成 gb2312。因为解码是python⾃动进⾏的，我们没有指明解码⽅式，python 就会使⽤ sys.defaultencoding 指明的⽅式来解码。很多情况下 sys.defaultencoding 是 ANSCII，如果 s 不是这个类型就会出错。

拿上⾯的情况来说，我的 sys.defaultencoding 是 anscii，⽽ s 的编码⽅式和⽂件的编码⽅式⼀致，是 utf8 的，所以出错了: UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)

对于这种情况，我们有两种⽅法来改正错误：

⼀是明确的指⽰出 s 的编码⽅式

#! /usr/bin/env python

# -*- coding: utf-8 -*-

s = '中⽂'

s.decode('utf-8').encode('gb2312')

⼆是更改 sys.defaultencoding 为⽂件的编码⽅式

#! /usr/bin/env python

# -*- coding: utf-8 -*-

import sys

reload(sys) # Python2.5 初始化后会删除 sys.setdefaultencoding 这个⽅法，我们需要重新载⼊

sys.setdefaultencoding('utf-8')

str = '中⽂'

⽂件编码与print函数

建⽴⼀个⽂件，⽂件格式⽤ANSI，内容为:

abc中⽂

⽤python来读取

# coding=gbk

print open("").read()

结果：abc中⽂

把⽂件格式改成UTF-8：

结果：abc涓枃

显然，这⾥需要解码：

# coding=gbk

import codecs

print open("").read().decode("utf-8")

结果：abc中⽂

上⾯的我是⽤Editplus来编辑的，但当我⽤Windows⾃带的记事本编辑并存成UTF-8格式时，

运⾏时报错：

Traceback (most recent call last):

File "ChineseTest.py", line 3, in <module>

print open("").read().decode("utf-8")

UnicodeEncodeError: 'gbk' codec can't encode character u'/ufeff' in position 0: illegal multibyte sequence

原来，某些软件，如notepad，在保存⼀个以UTF-8编码的⽂件时，会在⽂件开始的地⽅插⼊三个不可见的字符（0xEF 0xBB 0xBF，即BOM）。

因此我们在读取时需要⾃⼰去掉这些字符，python中的codecs module定义了这个常量：

# coding=gbk

import codecs

data = open("").read()

if data[:3] == codecs.BOM_UTF8:

data = data[3:]

print data.decode("utf-8")

结果：abc中⽂

（四）⼀点遗留问题

在第⼆部分中，我们⽤unicode函数和decode⽅法把str转换成unicode。为什么这两个函数的参数⽤"gbk"呢？

第⼀反应是我们的编码声明⾥⽤了gbk(# coding=gbk)，但真是这样？

修改⼀下源⽂件：

# coding=utf-8

s = "中⽂"

print unicode(s, "utf-8")

运⾏，报错：

Traceback (most recent call last):

File "ChineseTest.py", line 3, in <module>

s = unicode(s, "utf-8")

UnicodeDecodeError: 'utf8' codec can't decode bytes in position 0-1: invalid data

显然，如果前⾯正常是因为两边都使⽤了gbk，那么这⾥我保持了两边utf-8⼀致，也应该正常，不⾄于报错。

更进⼀步的例⼦，如果我们这⾥转换仍然⽤gbk：

# coding=utf-8

s = "中⽂"

print unicode(s, "gbk")

结果：中⽂

python中的print原理：

When Python executes a print statement, it simply passes the output to the operating system (using fwrite() or something like it), and some other program is responsible for actually displaying that output on the screen. For example, on Windows, it might be the Windows console subsystem that displays the result. Or if you're using Windows and running Python on a Unix box somewhere else, your Windows SSH client is actually responsible for displaying the data. If you are running Python in an xterm on Unix, then xterm and your X server handle the display.

To print data reliably, you must know the encoding that this display program expects.

简单地说，python中的print直接把字符串传递给操作系统，所以你需要把str解码成与操作系统⼀致的格式。Windows使⽤CP936(⼏乎与gbk 相同)，所以这⾥可以使⽤gbk。

最后测试：

# coding=utf-8

s = "中⽂"

print unicode(s, "cp936")url编码和utf8区别

# 结果：中⽂

这也可以解释为何如下输出不⼀致：

>>> s="哈哈"

>>> s

'\xe5\x93\x88\xe5\x93\x88'

>>> print s #这⾥为啥就可以呢? 见上⽂对print的解释

哈哈

>>> import sys

>>> defaultencoding()

'ascii'

>>> de('utf8') # s在encode之前系统默认按ascii模式把s解码为unicode，然后再encode为utf8

Traceback (most recent call last):

File "<stdin>", line 1, in ?

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position 0: ordinal not in range(128)

>>> print s.decode('utf-8').encode('utf8')

哈哈

>>>

编码问题测试

使⽤ chardet 可以很⽅便的实现字符串/⽂件的编码检测

例⼦如下:

>>>

import

urllib

>>>

rawdata = urllib

.urlopen

(

'le/'

)

.read

(

)

>>>

import

chardet

>>>

chardet.detect

(

rawdata)

{

'confidence'

: 0.98999999999999999

, 'encoding'

: 'GB2312'

}

特别提⽰：

参考⽂献

JS从URL上获取中⽂字符，默认获取到是⼆进制码：

encodeURI ⽅法返回⼀个编码的 URI。

decodeURI，返回初始的字符串即正常显⽰中⽂字符。

encodeURI ⽅法不会对下列字符进⾏编码：":"、"/"、";" 和 "?"。请使⽤ encodeURIComponent ⽅法对这些字符进⾏编码。使⽤⽅法：decodeURI(url),encodeURI (url)

688IT编程网

【转】【Python】python中的编码问题报错

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

【转】【Python】python中的编码问题报错

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式