python基本代码格式_python编码总结(编码类型、格式、转
码)
本⽂详细总结了python编码。分享给⼤家供⼤家参考,具体如下:
【所谓unicode】
unicode是⼀种类似于符号集的抽象编码,它只规定了符号的⼆进制代码,却没有规定这个⼆进制代码应该如何存储。也就是它只是⼀种内部表⽰,不能直接保存。所以存储时需要规定⼀种存储形式,⽐如utf-8和utf-16等。理论上unicode是⼀种能够容纳全世界所有语⾔⽂字的编码⽅案。(其他编码格式不再多说)
【所谓GB码】
GB就是“国标”的意思,即:中华⼈民共和国国家标准。GB码是⾯向汉字的编码,包括GB2312(GB2312-80),GBK,GB18030,表⽰范围从⼩到⼤递增,⽽且基本是向下兼容的。此外经常遇到⼀种叫做CP936的编码,实际上可以⼤概看做是GBK。
【判断编码】
1、使⽤isinstance(s, str)来判断⼀个字符串是否为⼀般字符串(str为ascii类型的字符串,utf-8、utf-16、GB231
2、GBK等都是ascii类型的字符串);
使⽤isinstance(s, unicode)来判断⼀个字符串是否为unicode编码形式的字符串(unicode编码的字符串才是unicode类型的字符串)。
2、使⽤type()或者.__class__
在编码正确的情况下:
例如:stra = "中", 则使⽤type(stra)的结果是,表明为ascii类型字符串;
例如:strb = u"中", 则使⽤type(strb)的结果是,表明为unicode类型字符串。
tmp_str = 'tmp_str'
print tmp_str.__class__ #
print type(tmp_str) #
print type(tmp_str).__name__ #str
tmp_str = u'tmp_str'
print tmp_str.__class__ #
print type(tmp_str) #
print type(tmp_str).__name__ #unicode
3、最好的办法是使⽤chardet判断,特别是在web相关的操作中,例如抓取html页⾯内容时,页⾯的charset标签只是标⽰编码,有时候不对,⽽且页⾯内容中⼀些中⽂可能超出了标⽰编码的范围,此时⽤charset检测最为⽅便准确。
(1)安装办法:下载chardet后,将解压得到的chardet⽂件夹放在Python安装⽬录的\Lib\site-packages⽬录下,在程序中使⽤import chardet即可。
(2)使⽤办法1:检测全部内容判断编码
import urllib2
import chardet
res = urllib2.urlopen('www.php')
res_cont = ad()
res.close()
print chardet.detect(res_cont) #{'confidence': 0.99, 'encoding': 'utf-8'}
detect函数返回值为⼀个包含2个键值对的字典,第⼀个是检测置信度,第⼆个就是检测到的编码形式。
(3)使⽤办法2:检测部分内容判断编码,提⾼速度
import urllib2
from chardet.universaldetector import UniversalDetector
res = urllib2.urlopen('www.php')
detector = UniversalDetector()
for line adlines():
#detect untill reach threshold
detector.feed(line)
if detector.done:
break
detector.close()
res.close()
sult
#{'confidence': 0.99, 'encoding': 'utf-8'}
【转换编码】
1、从具体的编码(ISO-8859-1[ASCII码],utf-8,utf-16,GBK,GB2312等)转换为unicode,直接使⽤unicode(s, charset)或者
s.decode(charset),其中charset为s的编码(注意unicode在使⽤decode()时会出错);
#将任意字符串转换为unicode
def to_unicode(s, encoding):
if isinstance(s, unicode):
return s
else:
return unicode(s, encoding)
注意:这⾥在decode()的时候,如果遇到⾮法字符(⽐如不标准的全⾓空格\xa3\xa0,或者\xa4\x57,真正的全⾓空格是\xa1\xa1),就会报错。
解决办法:采⽤'ignore'模式,即:stra.decode('...', 'ignore').encode('utf-8')。
解释:decode的函数原型是decode([encoding],[errors='strict']),可以⽤第⼆个参数控制错误处理的策略。
默认的参数就是strict,代表遇到⾮法字符时抛出异常;如果设置为ignore,则会忽略⾮法字符;如果设置为replace,则会⽤?取代⾮法字符;如果设置为xmlcharrefreplace,则使⽤XML的字符引⽤。
2、从unicode转换为具体的编码,也是直接⽤s.encode(charset),其中s为unicode编码,charset为具体的编码(注意⾮unicode在使⽤encode()时会出错);
3、⾃然地,从⼀种具体编码转换为另⼀种具体编码,就可以先decode成unicode再encode成最终编码了。
【python命令⾏编码(系统编码)】
⽤python⾃带的locale模块来检测命令⾏的默认编码(也就是系统的编码)和设置命令⾏编码:
python新手代码错了应该怎么改import locale
#get coding type
defaultlocale() #('zh_CN', 'cp936')
#set coding type
locale.setlocale(locale.LC_ALL, locale='zh_CN.GB2312')
locale() #('zh_CN', 'gb2312')
表明当前系统的内部编码是cp936,近似于GBK。实际上中⽂XP和WIN7的系统内部编码都是cp936(GBK)。
【python代码中的编码】
1、python代码中的字符串在未被指定编码的情况下,默认编码与代码⽂件本⾝的编码⼀致。举个例⼦:str = '中⽂'这个字符串,如果是在utf8编码的代码⽂件中,该字符串就是utf8编码;如果是在gb2312的⽂件中,该字符串就是gb2312编码。那么代码⽂件本⾝的编码怎么知道呢?
(1)⾃⼰指定代码⽂件的编码:在代码⽂件的头部加上“#-*- coding:utf-8 -*-”来声明该代码⽂件为utf-8编码。此时未被指定编码的字符串的编码都变成了utf-8。
(2)在没有指定代码⽂件的编码时,创建代码⽂件时使⽤的是python默认采⽤的编码(⼀般来说是ascii码,在windows中实际保存为
cp936(GBK)编码)。通过defaultencoding()和sys.setdefaultencoding('...')来获取和设置该默认编码。
import sys
reload(sys)
defaultencoding() #ascii
sys.setdefaultencoding('utf-8')
defaultencoding() #utf-8
结合(1)和(2)做个试验:指定代码⽂件编码为utf-8时,⽤notepad++打开显⽰的是utf-8⽆DOM编码;未指定代码⽂件编码时,⽤notepad++打开显⽰的是ANSI编码(压缩编码,默认的保存编码形式)。
(3)如何永久地将python默认采⽤的编码设置为utf-8呢?有2种⽅法:
第⼀个⽅法:编辑site.py,修改setencoding()函数,强制设置为 utf-8;
第⼆个⽅法:增加⼀个名为 sitecustomize.py的⽂件,存放在安装⽬录下的\Lib\site-packages⽬录下
sitecustomize.py是在site.py被import执⾏的,因为 sys.setdefaultencoding()是在site.py的结尾处被删除的,所以可以在sitecustomize.py使⽤ sys.setdefaultencoding()。
2、python代码中的字符串如果被指定了编码,举个例⼦:str = u'中⽂',该字符串的编码被指定为unicode(即python的内部编码)。
(1)这⾥有个误区需要注意!假如在py⽂件中有如下代码:
stra = u"中"
de("gbk")
按上⾯说的stra是unicode形式,直接encode称gbk编码应该没问题啊?但是实际执⾏时会报错“UnicodeEncodeError: 'gbk' codec can't encode character u'\xd6' in position 0: illegal multibyte sequence”。
原因在于:python解释器在导⼊python代码⽂件并执⾏时,会先查看⽂件头有没有编码声明(例如#coding:gbk等)。如果发现声明,会将⽂件中的字符串都先解释成unicode的形式(这⾥先⽤默认编码gbk(cp936)将stra解码成unicode编码'd6d0'后保存),之后执⾏
(2)为避免这种类型的错误,最好在代码⽂件头上声明编码,或者⿇烦点每次使⽤setdefaultencoding()。
(3)总的来说就是unicode是python解释器的内码,所有代码⽂件在导⼊并执⾏时,python解释器会先将字符串使⽤你指定的编码形式解码成unicode,然后再进⾏各种操作。所以不管是对字符串的操作,还是正则表达式,还是读写⽂件等等最好都通过unicode来进⾏。
【python中其他编码】
⽂件系统的编码:filesystemencoding()
终端的输⼊编码:ding
终端的输出编码:ding
更多python编码总结(编码类型、格式、转码)相关⽂章请关注PHP中⽂⽹!
本⽂原创发布php中⽂⽹,转载请注明出处,感谢您的尊重!
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论