转:encode与decode的使用--688IT编程网

转：encode与decode的使⽤

近⽇写关于某app数据处理的程序时，总会遇到报错“UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)“

字符串在Python内部的表⽰是unicode编码，因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另⼀种编码。

decode的作⽤是将其他编码的字符串转换成unicode编码，如str1.decode('gb2312')，表⽰将gb2312编码的字符串str1转换成unicode编码。

encode的作⽤是将unicode编码转换成其他编码的字符串，如de('gb2312')，表⽰将unicode编码的字符串str2转换成

gb2312编码。

因此，转码的时候⼀定要先搞明⽩，字符串str是什么编码，然后decode成unicode，然后再encode成其他编码

代码中字符串的默认编码与代码⽂件本⾝的编码⼀致。

数字转unicode编码如：s='中⽂'

如果是在utf8的⽂件中，该字符串就是utf8编码，如果是在gb2312的⽂件中，则其编码为gb2312。这种情况下，要进⾏编码转换，都需要先⽤decode⽅法将其转换成unicode编码，再使⽤encode⽅法将其转换成其他编码。通常，在没有指定特定的编码⽅式时，都是使⽤的系统默认编码创建的代码⽂件。

如果字符串是这样定义：s=u'中⽂'

则该字符串的编码就被指定为unicode了，即python的内部编码，⽽与代码⽂件本⾝的编码⽆关。因此，对于这种情况做编码转换，只需要直接使⽤encode⽅法将其转换成指定编码即可。

如果⼀个字符串已经是unicode了，再进⾏解码则将出错，因此通常要对其编码⽅式是否为unicode进⾏判断：

isinstance(s, unicode) #⽤来判断是否为unicode

⽤⾮unicode编码形式的str来encode会报错

如何获得系统的默认编码？

#!/usr/bin/env python

#coding=utf-8

import sys

defaultencoding()

该段程序在英⽂WindowsXP上输出为：ascii

在某些IDE中，字符串的输出总是出现乱码，甚⾄错误，其实是由于IDE的结果输出控制台⾃⾝不能显⽰字符串的编码，⽽不是程序本⾝的问题。

如在UliPad中运⾏如下代码：

s=u"中⽂"

print s

会提⽰：UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)。这是因为UliPad 在英⽂WindowsXP上的控制台信息输出窗⼝是按照ascii编码输出的（英⽂系统的默认编码是ascii），⽽上⾯代码中的字符串是Unicode编码的，所以输出时产⽣了错误。

将最后⼀句改为：de('gb2312')

则能正确输出“中⽂”两个字。

若最后⼀句改为：de('utf8')

则输出：\xe4\xb8\xad\xe6\x96\x87，这是控制台信息输出窗⼝按照ascii编码输出utf8编码的字符串的结果。unicode(str,'gb2312')与str.decode('gb2312')是⼀样的，都是将gb2312编码的str转为unicode编码

使⽤str.__class__可以查看str的编码形式

原理说了半天，最后来个包治百病的吧：）

#!/usr/bin/env python

#coding=utf-8

s="中⽂"

if isinstance(s, unicode):

#s=u"中⽂"

de('gb2312')

else:

#s="中⽂"

print s.decode('utf-8').encode('gb2312')

688IT编程网

转:encode与decode的使用

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

转:encode与decode的使用

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则