...英文字母ascii编码_各种编码(ASCII码、Unicode编。。。--688IT编程网

python构建字典查⼤写英⽂字母ascii编码_各种编码（ASCII

码、Unicode编。。。

unicode码和ascii码区别如果您清楚下⾯⼏个问题请跳过

1. ASCII码与对应编码的数字之间的转换

2.unicode码与对应汉字之间的转换

3.UTF-8编码与对应汉字之间的转换

4.Unicode与UTF-8之间的转换

5.URL编码与解码

6.Base64编码编码与解码

7.HTML编码与解码

---------------------------------------------------------------------------------------------------------------

1. ASCII码

ASCII码⼀共规定了128个字符的编码，⽐如空格“SPACE”是32(⼆进制00100000)，⼤写的字母A是65(⼆进制01000001)。这128个符号(包括32个不能打印出来的控制符号)，只占⽤了⼀个字节的后⾯7位，最前⾯的1位统⼀规定为0。

在Linux下，直接#man ascii，返回类似

Oct Dec Hex Char Oct Dec Hex Char ------------------------------------------------------------------------------

000 0 00 NUL '\0' 　100 64 40 @

001 1 01 SOH (start of heading) 101 65 41 A

......

可以看到⼤写的字母A是65(10进制)

python下，根据字符求对应数字编码，使⽤ord⽅法

>>> ord('A')

根据数字编码求对应字符，使⽤chr⽅法：

>>> chr(65)

'A'

2.Unicode

有⼀种编码，将世界上所有的符号都纳⼊其中。每⼀个符号都给予⼀个独⼀⽆⼆的编码，那么乱码问题就会消失。这就是Unicode，就像它的名字都表⽰的，这是⼀种所有符号的编码。

Unicode当然是⼀个很⼤的集合，现在的规模可以容纳100多万个符号。每个符号的编码都不⼀样，⽐如，U+0639表⽰阿拉伯字母

Ain，U+0041表⽰英语的⼤写字母A，U+4E25表⽰汉字“严”。具体的符号对应表，可以查询，或者专门的汉字对应表。

Python下：

根据汉字求unicode码：

>>> print ('严'.encode('unicode-escape'))

b'\\u4e25'

根据unicode码求汉字：

>>> print('\u4e25')

严

3.UTF-8

UTF-8是Unicode的实现⽅式之⼀。

UTF-8最⼤的⼀个特点，就是它是⼀种变长的编码⽅式。它可以使⽤1~4个字节表⽰⼀个符号，根据不同的符号⽽变化字节长度。

UTF-8的编码规则很简单，只有⼆条：

1)对于单字节的符号，字节的第⼀位设为0，后⾯7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。

2)对于n字节的符号(n>1)，第⼀个字节的前n位都设为1，第n+1位设为0，后⾯字节的前两位⼀律设为10。剩下的没有提及的⼆进制位，全部为这个符号的unicode码。

下表总结了编码规则，字母x表⽰可⽤编码的位。

Unicode符号范围 | UTF-8编码⽅式

(⼗六进制) | (⼆进制)

--------------------+---------------------------------------------

0000 0000-0000 007F | 0xxxxxxx

0000 0080-0000 07FF | 110xxxxx 10xxxxxx

0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx

0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

下⾯，还是以汉字“严”为例，演⽰如何实现UTF-8编码。

已知“严”的unicode是4E25(100111000100101)，根据上表，可以发现4E25处在第三⾏的范围内(0000 0800-0000 FFFF)，因此“严”的UTF-8编码需要三个字节，即格式是“1110xxxx 10xxxxxx 10xxxxxx”。然后，从“严”的最后⼀个⼆进制位开始，依次从后向前填⼊格式中的x，多出的位补0。这样就得到了，“严”的UTF-8编码是“11100100 10111000 10100101”，转换成⼗六进制就是E4B8A5。

Python下:

>>> print ('严'.encode('utf-8'))

b'\xe4\xb8\xa5'

4. Unicode与UTF-8之间的转换

通过上⼀节的例⼦，可以看到“严”的Unicode码是4E25，UTF-8编码是E4B8A5，两者是不⼀样的。它们之间的转换可以通过程序实现。

在Windows平台下，有⼀个最简单的转化⽅法，就是使⽤内置的记事本⼩程序。打开⽂件后，点击“⽂件”菜单中的“另存为”命令，会跳出⼀个对话框，在最底部有⼀个“编码”的下拉条。

⾥⾯有四个选项：ANSI，Unicode，Unicode big endian 和 UTF-8。

1)ANSI是默认的编码⽅式。对于英⽂⽂件是ASCII编码，对于简体中⽂⽂件是GB2312编码(只针对Windows简体中⽂版，如果是繁体中⽂版会采⽤Big5码)。

2)Unicode编码指的是UCS-2编码⽅式，即直接⽤两个字节存⼊字符的Unicode码。这个选项⽤的little endian格式。

3)Unicode big endian编码与上⼀个选项相对应。我在下⼀节会解释little endian和big endian的涵义。

4)UTF-8编码，也就是上⼀节谈到的编码⽅法。

选择完”编码⽅式“后，点击”保存“按钮，⽂件的编码⽅式就⽴刻转换好了。(待续)

688IT编程网

...英文字母ascii编码_各种编码(ASCII码、Unicode编。。。

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

...英文字母ascii编码_各种编码(ASCII码、Unicode编。。。

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则