python的print对编码的处理
python的print会对输出的⽂本做⾃动的编码转换,⽽⽂件对象的write⽅法就不会做,因此,当⼀些字符串⽤print输出正常时,write到⽂件确不⼀定和print的⼀样。
print转换的⽬的编码和环境变量有关,Windows XP是转换为gbk的。在linux下是按照环境变量来转换的。在linux下使⽤locale命令就可以看到。⽐如我的是:
[zhaowei@papaya zhaowei]$ locale
LANG=zh_CN
LC_CTYPE="zh_CN"
LC_NUMERIC="zh_CN"
LC_TIME="zh_CN"
LC_COLLATE="zh_CN"
LC_MONETARY="zh_CN"
LC_MESSAGES="zh_CN"
LC_PAPER="zh_CN"
LC_NAME="zh_CN"
LC_ADDRESS="zh_CN"
LC_TELEPHONE="zh_CN"
LC_MEASUREMENT="zh_CN"
LC_IDENTIFICATION="zh_CN"
LC_ALL=
这个时候会认为是gb2312的。在python中可以⽤locale模块来获得当前环境的编码:
import locale
defaultlocale()
print在输出时把字符串⾃动装换为这个编码。看看下⾯,"喆"这个字是很著名的⼀个在gb2312中没有的字,当把它转换为gb2312的时候是会出错的。
#-*- encoding: gb18030 -*-
python代码转换import locale
import sys, encodings, encodings.aliases
# 现在a是unicode的
a = u'喆'
de("gb2312")
上⾯这段代码会报异常,就是这个原因。但如果是直接 print a 就可以输出来 (假设你的环境变量是GBK或者GB18030或者UTF-8)。如果你的环境变量是GB2312的,那这个print⼀样会报错!所以在
处理其他地⽅来的⽂本数据时,最好不要⽤GB2312的编码,是中⽂数据,⼀定要⽤GB18030或者UTF-8!
⽽⽤⽂件对象的write写unicode的数据也是会出错的!需要做编码转换。
#-*- encoding: gb18030 -*-
import locale
import sys, encodings, encodings.aliases
# 现在a是unicode的
a = u'喆'
f = open("", "w")
f.write(a)
f.close()
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论