python基本代码格式_python编码总结(编码类型、格式、转码)--688IT编程网

python基本代码格式_python编码总结（编码类型、格式、转

码）

本⽂详细总结了python编码。分享给⼤家供⼤家参考，具体如下：

【所谓unicode】

unicode是⼀种类似于符号集的抽象编码，它只规定了符号的⼆进制代码，却没有规定这个⼆进制代码应该如何存储。也就是它只是⼀种内部表⽰，不能直接保存。所以存储时需要规定⼀种存储形式，⽐如utf-8和utf-16等。理论上unicode是⼀种能够容纳全世界所有语⾔⽂字的编码⽅案。(其他编码格式不再多说)

【所谓GB码】

GB就是“国标”的意思，即：中华⼈民共和国国家标准。GB码是⾯向汉字的编码，包括GB2312(GB2312-80)，GBK，GB18030，表⽰范围从⼩到⼤递增，⽽且基本是向下兼容的。此外经常遇到⼀种叫做CP936的编码，实际上可以⼤概看做是GBK。

【判断编码】

1、使⽤isinstance(s, str)来判断⼀个字符串是否为⼀般字符串(str为ascii类型的字符串，utf-8、utf-16、GB231

2、GBK等都是ascii类型的字符串)；

使⽤isinstance(s, unicode)来判断⼀个字符串是否为unicode编码形式的字符串(unicode编码的字符串才是unicode类型的字符串)。

2、使⽤type()或者.__class__

在编码正确的情况下：

例如：stra = "中", 则使⽤type(stra)的结果是，表明为ascii类型字符串；

例如：strb = u"中", 则使⽤type(strb)的结果是，表明为unicode类型字符串。

tmp_str = 'tmp_str'

print tmp_str.__class__ #

print type(tmp_str) #

print type(tmp_str).__name__ #str

tmp_str = u'tmp_str'

print tmp_str.__class__ #

print type(tmp_str) #

print type(tmp_str).__name__ #unicode

3、最好的办法是使⽤chardet判断，特别是在web相关的操作中，例如抓取html页⾯内容时，页⾯的charset标签只是标⽰编码，有时候不对，⽽且页⾯内容中⼀些中⽂可能超出了标⽰编码的范围，此时⽤charset检测最为⽅便准确。

(1)安装办法：下载chardet后，将解压得到的chardet⽂件夹放在Python安装⽬录的\Lib\site-packages⽬录下，在程序中使⽤import chardet即可。

(2)使⽤办法1：检测全部内容判断编码

import urllib2

import chardet

res = urllib2.urlopen('www.php')

res_cont = ad()

res.close()

print chardet.detect(res_cont) #{'confidence': 0.99, 'encoding': 'utf-8'}

detect函数返回值为⼀个包含2个键值对的字典，第⼀个是检测置信度，第⼆个就是检测到的编码形式。

(3)使⽤办法2：检测部分内容判断编码，提⾼速度

import urllib2

from chardet.universaldetector import UniversalDetector

res = urllib2.urlopen('www.php')

detector = UniversalDetector()

for line adlines():

#detect untill reach threshold

detector.feed(line)

if detector.done:

break

detector.close()

res.close()

sult

#{'confidence': 0.99, 'encoding': 'utf-8'}

【转换编码】

1、从具体的编码(ISO-8859-1[ASCII码]，utf-8，utf-16，GBK，GB2312等)转换为unicode，直接使⽤unicode(s, charset)或者

s.decode(charset)，其中charset为s的编码(注意unicode在使⽤decode()时会出错)；

#将任意字符串转换为unicode

def to_unicode(s, encoding):

if isinstance(s, unicode):

return s

else:

return unicode(s, encoding)

注意：这⾥在decode()的时候，如果遇到⾮法字符(⽐如不标准的全⾓空格\xa3\xa0，或者\xa4\x57，真正的全⾓空格是\xa1\xa1)，就会报错。

解决办法：采⽤'ignore'模式，即：stra.decode('...', 'ignore').encode('utf-8')。

解释：decode的函数原型是decode([encoding],[errors='strict'])，可以⽤第⼆个参数控制错误处理的策略。

默认的参数就是strict，代表遇到⾮法字符时抛出异常；如果设置为ignore，则会忽略⾮法字符；如果设置为replace，则会⽤?取代⾮法字符；如果设置为xmlcharrefreplace，则使⽤XML的字符引⽤。

2、从unicode转换为具体的编码，也是直接⽤s.encode(charset)，其中s为unicode编码，charset为具体的编码(注意⾮unicode在使⽤encode()时会出错)；

3、⾃然地，从⼀种具体编码转换为另⼀种具体编码，就可以先decode成unicode再encode成最终编码了。

【python命令⾏编码(系统编码)】

⽤python⾃带的locale模块来检测命令⾏的默认编码(也就是系统的编码)和设置命令⾏编码：

python新手代码错了应该怎么改import locale

#get coding type

defaultlocale() #('zh_CN', 'cp936')

#set coding type

locale.setlocale(locale.LC_ALL, locale='zh_CN.GB2312')

locale() #('zh_CN', 'gb2312')

表明当前系统的内部编码是cp936，近似于GBK。实际上中⽂XP和WIN7的系统内部编码都是cp936(GBK)。

【python代码中的编码】

1、python代码中的字符串在未被指定编码的情况下，默认编码与代码⽂件本⾝的编码⼀致。举个例⼦：str = '中⽂'这个字符串，如果是在utf8编码的代码⽂件中，该字符串就是utf8编码；如果是在gb2312的⽂件中，该字符串就是gb2312编码。那么代码⽂件本⾝的编码怎么知道呢？

(1)⾃⼰指定代码⽂件的编码：在代码⽂件的头部加上“#-*- coding:utf-8 -*-”来声明该代码⽂件为utf-8编码。此时未被指定编码的字符串的编码都变成了utf-8。

(2)在没有指定代码⽂件的编码时，创建代码⽂件时使⽤的是python默认采⽤的编码(⼀般来说是ascii码，在windows中实际保存为

cp936(GBK)编码)。通过defaultencoding()和sys.setdefaultencoding('...')来获取和设置该默认编码。

import sys

reload(sys)

defaultencoding() #ascii

sys.setdefaultencoding('utf-8')

defaultencoding() #utf-8

结合(1)和(2)做个试验：指定代码⽂件编码为utf-8时，⽤notepad++打开显⽰的是utf-8⽆DOM编码；未指定代码⽂件编码时，⽤notepad++打开显⽰的是ANSI编码(压缩编码，默认的保存编码形式)。

(3)如何永久地将python默认采⽤的编码设置为utf-8呢？有2种⽅法：

第⼀个⽅法：编辑site.py，修改setencoding()函数，强制设置为 utf-8；

第⼆个⽅法：增加⼀个名为 sitecustomize.py的⽂件，存放在安装⽬录下的\Lib\site-packages⽬录下

sitecustomize.py是在site.py被import执⾏的，因为 sys.setdefaultencoding()是在site.py的结尾处被删除的，所以可以在sitecustomize.py使⽤ sys.setdefaultencoding()。

2、python代码中的字符串如果被指定了编码，举个例⼦：str = u'中⽂'，该字符串的编码被指定为unicode(即python的内部编码)。

(1)这⾥有个误区需要注意！假如在py⽂件中有如下代码：

stra = u"中"

de("gbk")

按上⾯说的stra是unicode形式，直接encode称gbk编码应该没问题啊？但是实际执⾏时会报错“UnicodeEncodeError: 'gbk' codec can't encode character u'\xd6' in position 0: illegal multibyte sequence”。

原因在于：python解释器在导⼊python代码⽂件并执⾏时，会先查看⽂件头有没有编码声明(例如#coding:gbk等)。如果发现声明，会将⽂件中的字符串都先解释成unicode的形式(这⾥先⽤默认编码gbk(cp936)将stra解码成unicode编码'd6d0'后保存)，之后执⾏

(2)为避免这种类型的错误，最好在代码⽂件头上声明编码，或者⿇烦点每次使⽤setdefaultencoding()。

(3)总的来说就是unicode是python解释器的内码，所有代码⽂件在导⼊并执⾏时，python解释器会先将字符串使⽤你指定的编码形式解码成unicode，然后再进⾏各种操作。所以不管是对字符串的操作，还是正则表达式，还是读写⽂件等等最好都通过unicode来进⾏。

【python中其他编码】

⽂件系统的编码：filesystemencoding()

终端的输⼊编码：ding

终端的输出编码：ding

更多python编码总结(编码类型、格式、转码)相关⽂章请关注PHP中⽂⽹！

本⽂原创发布php中⽂⽹，转载请注明出处，感谢您的尊重！

688IT编程网

python基本代码格式_python编码总结(编码类型、格式、转码)

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

python基本代码格式_python编码总结(编码类型、格式、转码)

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式