Python字符串编码——Unicode--688IT编程网

Python字符串编码——Unicode

ASCII码

我们知道，在计算机内部，所有的信息最终都表⽰为⼀个⼆进制的字符串。每⼀个⼆进制位（bit）有0和1两种状态，因此⼋个⼆进制位就可以组合出256种状态，这被称为⼀个字节（byte）。也就是说，⼀个字节⼀共可以⽤来表⽰256种不同的状态，每⼀个状态对应⼀个符号，就是256个符号，从0000000到11111111。

上个世纪60年代，美国制定了⼀套字符编码，对英语字符与⼆进制位之间的关系，做了统⼀规定。这被称为ASCII码，⼀直沿⽤⾄今。ASCII码⼀共规定了128个字符的编码，⽐如空格"SPACE"是32（⼆进制00100000），⼤写的字母A是65（⼆进制01000001）。这128个符号（包括32个不能打印出来的控制符号），只占⽤了⼀个字节的后⾯7位，最前⾯的1位统⼀规定为0。

⾮ASCII编码

英语⽤128个符号编码就够了，但是⽤来表⽰其他语⾔，128个符号是不够的。⽐如，在法语中，字母上⽅有注⾳符号，它就⽆法⽤ASCII码表⽰。于是，⼀些欧洲国家就决定，利⽤字节中闲置的最⾼位编⼊新的符号。⽐如，法语中的é的编码为130（⼆进制10000010）。这样⼀来，这些欧洲国家使⽤的编码体系，可以表⽰最多256个符号。

但是，这⾥⼜出现了新的问题。不同的国家有不同的字母，因此，哪怕它们都使⽤256个符号的编码⽅式，代表的字母却不⼀样。⽐

如，130在法语编码中代表了é，在希伯来语编码中却代表了字母Gimel (ג)，在俄语编码中⼜会代表另⼀个符号。但是不管怎样，所有这些编码⽅式中，0--127表⽰的符号是⼀样的，不⼀样的只是128--255的这⼀段。

⾄于亚洲国家的⽂字，使⽤的符号就更多了，汉字就多达10万左右。⼀个字节只能表⽰256种符号，肯定是不够的，就必须使⽤多个字节表达⼀个符号。⽐如，简体中⽂常见的编码⽅式是GB2312，使⽤两个字节表⽰⼀个汉字，所以理论上最多可以表⽰256x256=65536个符号。

中⽂编码的问题需要专⽂讨论，这篇笔记不涉及。这⾥只指出，虽然都是⽤多个字节表⽰⼀个符号，但是GB类的汉字编码与后⽂的Unicode 和UTF-8是毫⽆关系的。

Unicode

正如上⼀节所说，世界上存在着多种编码⽅式，同⼀个⼆进制数字可以被解释成不同的符号。因此，要想打开⼀个⽂本⽂件，就必须知道它的编码⽅式，否则⽤错误的编码⽅式解读，就会出现乱码。为什么电⼦邮件常常出现乱码？就是因为发信⼈和收信⼈使⽤的编码⽅式不⼀样。

可以想象，如果有⼀种编码，将世界上所有的符号都纳⼊其中。每⼀个符号都给予⼀个独⼀⽆⼆的编码，那么乱码问题就会消失。这就是Unicode，就像它的名字都表⽰的，这是⼀种所有符号的编码。

Unicode当然是⼀个很⼤的集合，现在的规模可以容纳100多万个符号。每个符号的编码都不⼀样，⽐如，U+0639表⽰阿拉伯字母

Ain，U+0041表⽰英语的⼤写字母A，U+4E25表⽰汉字"严"。具体的符号对应表，可以查询，或者专门的汉字对应表。Unicode的问题

需要注意的是，Unicode只是⼀个符号集，它只规定了符号的⼆进制代码，却没有规定这个⼆进制代码应该如何存储。

⽐如，汉字"严"的unicode是⼗六进制数4E25，转换成⼆进制数⾜⾜有15位（100111000100101），也就是说这个符号的表⽰⾄少需要2个字节。表⽰其他更⼤的符号，可能需要3个字节或者4个字节，甚⾄更多。

这⾥就有两个严重的问题，第⼀个问题是，如何才能区别Unicode和ASCII？计算机怎么知道三个字节表⽰⼀个符号，⽽不是分别表⽰三个符号呢？第⼆个问题是，我们已经知道，英⽂字母只⽤⼀个字节表⽰就够了，如果Unicode统⼀规定，每个符号⽤三个或四个字节表⽰，那么每个英⽂字母前都必然有

⼆到三个字节是0，这对于存储来说是极⼤的浪费，⽂本⽂件的⼤⼩会因此⼤出⼆三倍，这是⽆法接受的。

它们造成的结果是：1）出现了Unicode的多种存储⽅式，也就是说有许多种不同的⼆进制格式，可以⽤来表⽰Unicode。2）Unicode在很长⼀段时间内⽆法推⼴，直到互联⽹的出现。

UTF-8

互联⽹的普及，强烈要求出现⼀种统⼀的编码⽅式。UTF-8就是在互联⽹上使⽤最⼴的⼀种Unicode的实现⽅式。其他实现⽅式还包括UTF-16（字符⽤两个字节或四个字节表⽰）和UTF-32（字符⽤四个字节表⽰），不过在互联⽹上基本不⽤。重复⼀遍，这⾥的关系是，UTF-8是Unicode的实现⽅式之⼀。

UTF-8最⼤的⼀个特点，就是它是⼀种变长的编码⽅式。它可以使⽤1~4个字节表⽰⼀个符号，根据不同的符号⽽变化字节长度。

UTF-8的编码规则很简单，只有⼆条：

1）对于单字节的符号，字节的第⼀位设为0，后⾯7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。

2）对于n字节的符号（n>1），第⼀个字节的前n位都设为1，第n+1位设为0，后⾯字节的前两位⼀律设为10。剩下的没有提及的⼆进制位，全部为这个符号的unicode码。

下表总结了编码规则，字母x表⽰可⽤编码的位。

Unicode符号范围 | UTF-8编码⽅式

(⼗六进制) | （⼆进制）

--------------------+---------------------------------------------

0000 0000-0000 007F | 0xxxxxxx

0000 0080-0000 07FF | 110xxxxx 10xxxxxx

0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx

0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

跟据上表，解读UTF-8编码⾮常简单。如果⼀个字节的第⼀位是0，则这个字节单独就是⼀个字符；如果第⼀位是1，则连续有多少个1，就表⽰当前字符占⽤多少个字节。

下⾯，还是以汉字"严"为例，演⽰如何实现UTF-8编码。

已知"严"的unicode是4E25（100111000100101），根据上表，可以发现4E25处在第三⾏的范围内（0000 0800-0000 FFFF），因此"严"的UTF-8编码需要三个字节，即格式是"1110xxxx 10xxxxxx 10xxxxxx"。然后，从"严"的最后⼀个⼆进制位开始，依次从后向前填⼊格式中的x，多出的位补0。这样就得到了，"严"的UTF-8编码是"11100100 10111000 10100101"，转换成⼗六进制就是E4B8A5。

python 中的字符串编码

在使⽤

#!/usr/bin/env python

# -*- coding:utf-8 -*-

默认的中⽂编码为utf8

>>> kel = '中'

>>> kel

'\xe4\xb8\xad'

加⼊u以后，变成unicodeunicode码和ascii码区别

>>> kel = u'中'

>>> kel

u'\u4e2d'

python ⽂件字符串编码

保存Unicode字符到⽂本⽂档

#coding=utf-8

import os

def write_use_open(filepath):

try:

file = open(filepath, 'wb')

try:

content = '中华⼈民共和国abcd \r\nee ?!>??@@@!￥@#%@%#xx学校ada\r\n'

ding

wlines

print file.closed

print content

file.write(content)

finally:

file.close()

print file.closed

except IOError, e:

print e

if __name__ == '__main__':

filepath = os.path.wd(), '')

write_use_open(filepath)

开始我是IDLE编写的，并直接按F5运⾏，没发现问题，⽂件也被正确地保存，⽂件的编码类型也是utf-8.

可是我⽤命令⾏运⾏，却发现显⽰出现乱码了，然后在打开⽂件发现⽂件被正确保存了，编码还是utf-8：

问题是命令⾏不能⾃动识别字符编码吧，因为IDLE显⽰是正确的，它⽀持utf-8。

于是我修改了代码，在字符串前加了'u'，表明content是unicode:

content = u'中华⼈民共和国abcd \r\nee ?!>??@@@!￥@#%@%#xx学校ada\r\n'

可是运⾏发现，命令⾏是正确显⽰了，但是却出现异常：

很明显，content⾥包含了⾮ASCII码字符，肯定不能使⽤ASCII来进⾏编码的，write⽅法是默认使⽤ascii来编码保存的。

很容易就可以想到，在保存之前，先对unicode字符进⾏编码，我选择utf-8

#coding=utf-8

import os

def write_use_open(filepath):

try:

file = open(filepath, 'wb')

try:

content = u'中华⼈民共和国abcd \r\nee ?!>??@@@!￥@#%@%#xx学校ada\r\n'

ding

wlines

print file.closed

print content

de(content, 'utf-8')

file.de(content, 'utf-8'))

finally:

file.close()

print file.closed

except IOError, e:

print e

if __name__ == '__main__':

filepath = os.path.wd(), '')

write_use_open(filepath)

看看运⾏结果：

OK了打开⽂档也是正确的。

读取⽂件⼜怎样？同样道理，只是这次不是编码了，⽽解码：

def read_use_open(filepath):

try:

file = open(filepath, 'rb')

try:

content = ad()

content_decode = unicode(content, 'utf-8')

print 'original text'

print content

print 'decode using utf-8'

print content_decode

finally:

file.close()

except IOError, e:

print e

if __name__ == '__main__':

filepath = os.path.wd(), '')

write_use_open(filepath)

print 'read file ---------------------------'

read_use_open(filepath)

为什么不直接在open的时候就解码呢？呵呵，可以啊，可以使⽤codecs的open⽅法

import codecs

def read_use_codecs_open(filepath):

try:

file = codecs.open(filepath, 'rb', 'utf-8')

try:

print 'using codecs.open'

content = ad()

print content

finally:

file.close()

except IOError, e:

print e

⽹络中乱码的解决

中⽂⽹页中，有些⽹页抓取下来以后，由于⽹页编码的问题，需要进⾏解码。⾸先我们需要判断⽹页中到底使⽤的是什么编码，在根据这个编码把字符串变成utf8编码。

在探测编码时，chardet第三⽅库⾮常的⽅便。

⽹页编码判断：

import urllib

rawdata = urllib.urlopen('tech.163/special/00097UHL/tech_datalist.js').read()

import chardet

print chardet.detect(rawdata)

{'confidence': 0.99, 'language': 'Chinese', 'encoding': 'GB2312'}

通过 chardet 探测出，⽹页的字符编码为GB2312编码，通过unicode转化为utf8编码：str_body = unicode(rawdata, "gb2312").encode("utf8")

688IT编程网

Python字符串编码——Unicode

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

Python字符串编码——Unicode

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式