python解析字符编码中的Unicode和UTF-8--688IT编程网

python解析字符编码中的Unicode和UTF-8

⽂章⽬录

⼀、ASCII码

计算机内部，所有的信息最终都表⽰为⼀个⼆进制的字符串。每⼀个⼆进制位（bit）有0和1两种状态，因此⼋个⼆进制位就可以组合出256种状态，这也被称为⼀个字节（byte）。⼀个字节⼀共可以⽤来表⽰256种不同的状态，每⼀个状态对应⼀个符号，就是256个符号，从00000000到11111111。

在上个世纪60年代，美国制定了⼀套字符编码，对英语字符与⼆进制位之间的关系，做了统⼀规定。这被称为ASCII码，⼀直沿⽤⾄今。

ASCII码⼀共规定了128个字符的编码，⽐如空格"SPACE"是32（⼆进制00100000），⼤写的字母A是65（⼆进制01000001）。这128个符号（包括32个不能打印出来的控制符号），只占⽤了⼀个字节的后⾯7位，最前⾯的1位统⼀规定为0。

⼆、⾮ASCII编码

英语⽤128个符号编码就够了，但是⽤来表⽰其他语⾔，128个符号是不够的。⽐如，在法语中，字母上

⽅有注⾳符号，它就⽆法⽤ASCII 码表⽰。于是，⼀些欧洲国家就决定，利⽤字节中闲置的最⾼位编⼊新的符号。⽐如，法语中的é的编码为130（⼆进制10000010）。这样⼀来，这些欧洲国家使⽤的编码体系，可以表⽰最多256个符号。

但是，这⾥⼜出现了新的问题。不同的国家有不同的字母，因此，哪怕它们都使⽤256个符号的编码⽅式，代表的字母却不⼀样。⽐

如，130在法语编码中代表了é，在希伯来语编码中却代表了字母Gimel (ג)，在俄语编码中⼜会代表另⼀个符号。但是不管怎样，所有这些编码⽅式中，0–127表⽰的符号是⼀样的，不⼀样的只是128–255的这⼀段。

⾄于亚洲国家的⽂字，使⽤的符号就更多了，汉字就多达10万左右。⼀个字节只能表⽰256种符号，肯定是不够的，就必须使⽤多个字节表达⼀个符号。⽐如，简体中⽂常见的编码⽅式是GB2312，使⽤两个字节表⽰⼀个汉字，所以理论上最多可以表⽰256x256=65536个符号。

中⽂编码的问题需要专⽂讨论，这篇笔记不涉及。这⾥只指出，虽然都是⽤多个字节表⽰⼀个符号，但是GB类的汉字编码与后⽂的Unicode和UTF-8是毫⽆关系的。

三、Unicode

世界上存在着多种编码⽅式，同⼀个⼆进制数字可以被解释成不同的符号。因此，要想打开⼀个⽂本⽂件，就必须知道它的编码⽅式，否则⽤错误的编码⽅式解读，就会出现乱码。为什么电⼦邮件常常出现乱码？就是因为发信⼈和收信⼈使⽤的编码⽅式不⼀样。

可以想象，如果有⼀种编码，将世界上所有的符号都纳⼊其中。每⼀个符号都给予⼀个独⼀⽆⼆的编码，那么乱码问题就会消失。这就是Unicode，就像它的名字都表⽰的，这是⼀种所有符号的编码。

Unicode当然是⼀个很⼤的集合，现在的规模可以容纳100多万个符号。每个符号的编码都不⼀样，⽐如，U+0639表⽰阿拉伯字母

Ain，U+0041表⽰英语的⼤写字母A，U+4E25表⽰汉字"严"。具体的符号对应表，可以查询，或者专门的

四、Unicode的问题

需要注意的是，Unicode只是⼀个符号集，它只规定了符号的⼆进制代码，却没有规定这个⼆进制代码应该如何存储。

⽐如，汉字"严"的unicode是⼗六进制数4E25，转换成⼆进制数⾜⾜有15位（100111000100101），也就是说这个符号的表⽰⾄少需要2个字节。表⽰其他更⼤的符号，可能需要3个字节或者4个字节，甚

⾄更多。

这⾥就有两个严重的问题，第⼀个问题是，如何才能区别Unicode和ASCII？计算机怎么知道三个字节表⽰⼀个符号，⽽不是分别表⽰三个符号呢？第⼆个问题是，我们已经知道，英⽂字母只⽤⼀个字节表⽰就够了，如果Unicode统⼀规定，每个符号⽤三个或四个字节表⽰，那么每个英⽂字母前都必然有⼆到三个字节是0，这对于存储来说是极⼤的浪费，⽂本⽂件的⼤⼩会因此⼤出⼆三倍，这是⽆法接受的。

它们造成的结果是：1）出现了Unicode的多种存储⽅式，也就是说有许多种不同的⼆进制格式，可以⽤来表⽰Unicode。2）Unicode在很长⼀段时间内⽆法推⼴，直到互联⽹的出现。

五、UTF-8

互联⽹的普及，强烈要求出现⼀种统⼀的编码⽅式。UTF-8就是在互联⽹上使⽤最⼴的⼀种Unicode的实现⽅式。其他实现⽅式还包括UTF-16（字符⽤两个字节或四个字节表⽰）和UTF-32（字符⽤四个字节表⽰），不过在互联⽹上基本不⽤。重复⼀遍，这⾥的关系是，UTF-8是Unicode的实现⽅式之⼀。

UTF-8最⼤的⼀个特点，就是它是⼀种变长的编码⽅式。它可以使⽤1~4个字节表⽰⼀个符号，根据不同的符号⽽变化字节长度。

UTF-8的编码规则很简单，只有⼆条：

1）对于单字节的符号，字节的第⼀位设为0，后⾯7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。

2）对于n字节的符号（n>1），第⼀个字节的前n位都设为1，第n+1位设为0，后⾯字节的前两位⼀律设为10。剩下的没有提及的⼆进制位，全部为这个符号的unicode码。

六、字符串前⾯加u,r,b的含义

6.1、字符串前加 u

后⾯的字符串以 Unicode格式进⾏编码

plate = u"\u6e58AV256G"

print(plate)

输出湘AV256G，可见，Python3的print就是默认unicode解码的

6.2、字符串前加 r

表⽰⼀个普通的字符串

plate = r"\u6e58AV256G"

print(plate)

输出\u6e58AV256G，可见，加r就是⼀个字符串，没有任何其他含义

6.3、字符串前加 b

b" "前缀表⽰：后⾯字符串是bytes 类型，⽹络编程中，服务器和浏览器只认bytes 类型数据。

如下 Unicode的bytes数据，解码成Unicode

plate = b'\u6e58AV256G'

print(plate)

print(plate.decode("unicode-escape"))

输出

b'\\u6e58AV256G'

湘AV256G

七、Python中对各种编码的处理

7.1 python2和python3中查看默认编码

在python2中，解析含有中⽂的“utf-8”编码的⽂件时，通常会在脚本前加上

　import sys

　reload(sys)

　sys.setdefaultencoding('utf-8')

⽤来设置默认编码⽅式，但Python3中删除了这种⽅式。

笔者通过查看python中的默认编码⽅式，发现脚本中，已经默认是“utf-8”的编码了

查看python的字符串默认编码

import sys

输出'utf-8'

python3下

python3.x下应该改为如下⽅式：

import importlib

7.2解析"\u"开头的字符串

"\u6e58"就是unicode编码

plate ="\u6e58AV256G"

print(plate)

plate ="湘AV256G"

print(plate)

plate = u"湘AV256G"

print(plate)

plate = u"\u6e58AV256G"

print(plate)

打印出来，都是湘AV256G，可见以上并没有区别7.3 Unicode的bytes数据，解码成Unicode

字符串前有个b，表⽰这个是Bytes型数据

plate = b'\u6e58AV256G'

print(plate)

print(plate.decode("unicode-escape"))

输出

b'\\u6e58AV256G'

湘AV256G

7.3如下utf-8的bytes数据，解码成utf-8

以\x开头

plate = b'\xe6\xb9\x98AV256G'

print(plate)

print(plate.decode("utf-8"))

输出

b'\xe6\xb9\x98AV256G'

湘AV256G

7.4 字符串编码成Unicode

plate = r'湘AV256G'

print(plate)

de('unicode-escape'))

输出

湘AV256G

b'\\u6e58AV256G'

7.5 字符串编码成 utf-8

plate = r'湘AV256G'

de('utf-8'))

输出

b'\xe6\xb9\x98AV256G'

PS：湘AV256G为笔者⾃编的车牌号，如有雷同，纯属巧合。

⼋、⽣成json时⽆法显⽰真正的中⽂

使⽤json.demp时发现中⽂以Unicode编码格式保存

如：

import json

print(json.dumps('湘AV256G'))

输出"\u6e58AV256G"

这时候，需要把dumps中的ensure_ascii这个按钮给关闭了，

为啥ensure_ascii这个是默认开启的呢？想想也不难理解，毕竟⽼美的语⾔只有127个字母，⽤ascii的编码会⽐其他编码节约空间。如果想在json⾥输出真正的中⽂，如下：

import json

print(json.dumps('湘AV256G',ensure_ascii=False))

输出"湘AV256G"

unicode汉字

688IT编程网

python解析字符编码中的Unicode和UTF-8

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

python解析字符编码中的Unicode和UTF-8

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式