python的print对编码的处理--688IT编程网

python的print对编码的处理

python的print会对输出的⽂本做⾃动的编码转换，⽽⽂件对象的write⽅法就不会做，因此，当⼀些字符串⽤print输出正常时，write到⽂件确不⼀定和print的⼀样。

print转换的⽬的编码和环境变量有关，Windows XP是转换为gbk的。在linux下是按照环境变量来转换的。在linux下使⽤locale命令就可以看到。⽐如我的是：

[zhaowei@papaya zhaowei]$ locale

LANG=zh_CN

LC_CTYPE="zh_CN"

LC_NUMERIC="zh_CN"

LC_TIME="zh_CN"

LC_COLLATE="zh_CN"

LC_MONETARY="zh_CN"

LC_MESSAGES="zh_CN"

LC_PAPER="zh_CN"

LC_NAME="zh_CN"

LC_ADDRESS="zh_CN"

LC_TELEPHONE="zh_CN"

LC_MEASUREMENT="zh_CN"

LC_IDENTIFICATION="zh_CN"

LC_ALL=

这个时候会认为是gb2312的。在python中可以⽤locale模块来获得当前环境的编码：

import locale

defaultlocale()

print在输出时把字符串⾃动装换为这个编码。看看下⾯，"喆"这个字是很著名的⼀个在gb2312中没有的字，当把它转换为gb2312的时候是会出错的。

#-*- encoding: gb18030 -*-

python代码转换import locale

import sys, encodings, encodings.aliases

# 现在a是unicode的

a = u'喆'

de("gb2312")

上⾯这段代码会报异常，就是这个原因。但如果是直接 print a 就可以输出来（假设你的环境变量是GBK或者GB18030或者UTF-8）。如果你的环境变量是GB2312的，那这个print⼀样会报错！所以在

处理其他地⽅来的⽂本数据时，最好不要⽤GB2312的编码，是中⽂数据，⼀定要⽤GB18030或者UTF-8!

⽽⽤⽂件对象的write写unicode的数据也是会出错的！需要做编码转换。

#-*- encoding: gb18030 -*-

import locale

import sys, encodings, encodings.aliases

# 现在a是unicode的

a = u'喆'

f = open("", "w")

f.write(a)

f.close()

发表评论

688IT编程网

python的print对编码的处理

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

python的print对编码的处理

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式