python,ascii,utf-8,gb2312,汉⼦转⼆进制
ASCII
引⽤::ASCII (American Standard Code for Information Interchange ,美国标准信息交换代码)是基于拉丁字母的⼀套电脑编码系统,主要⽤于显⽰现代英语和其他西欧语⾔。它是现今最通⽤的单字节编码系统,并等同于国际标准ISO/IEC 646。
ASCII 码使⽤指定的7 位或8 位⼆进制数组合来表⽰128 或256 种可能的字符。那么肯定会有⼀个问题,只有256种可能的字符,怎么能表⽰国际上这么多字符?中⽂、⽇⽂、韩⽂……怎么显⽰?所以就需要有⼀种统⼀的编码规定,定义每个字符的对应关系——unicode
unicode
引⽤Unicode 的解释: Unicode (统⼀码、万国码、单⼀码)是计算机科学领域⾥的⼀项业界标准,包括字符集、编码⽅案等。Unicode 是为了解决传统的字符编码⽅案的局限⽽产⽣的,它为每种语⾔中的每个字符设定了统⼀并且唯⼀的⼆进制编码,以满⾜跨语⾔、跨平台进⾏⽂本转换、处理的要求。1990年开始研发,1994年正式公布。【为什么要将所有字符转换成⼆进制呢?因为计算机处理的所有数据只能⽤电压的⾼低状态来表⽰,也就是只能⽤0来表⽰低电压,⽤1来表⽰⾼电压,所以计算机想表⽰所有字符,就需要⽤⼀串01来表⽰所有字符。】
哇!unicode 可以将所有字符都对应到相应的⼆进制(包括中⽂、英⽂、阿拉伯⽂、⽇语、韩语……),这样看似很好,那么会有⼀个问题,如果只有⼀种⽅式(最全的⽅式)的unicode 来显⽰所有字符,那么得需要多⼤的表?如果我只需要中⽂和英⽂的,我是不是也要⽤最全的这个表?这⾥⼤家应该已经想到了,肯定是不可能的,所以就有了像我们经常听到的“UTF-8”、“GB2312”等等!
这⾥可以得出⼀个结论:unicode 只是⼀个“规定”
UTF-8
“UTF-8”和“GB2312”等其它的编码⽅式⼀样,是遵照unicode 的“规定”⽅式,⽤各⾃不同的编码排列⽅式将字符与⼆进制01进⾏对应的表,这⾥可以看个例⼦:utf-8编码得到的⼆进制“\xe4\xb8\xad\xe5\x9b\xbd”转换成01是:11100100 10111000 10101101 11100101 1001101110111101(需要把中间的空格删除,有空格是为了看关清楚)GB2312编码得到的⼆进制“\xd6\xd0\xb9\xfa”转换成01是:11010110 11010000 10111001 11111010(需要把中间的空格删除,有空格是为了看关清楚)
总结
#utf-8>>> a = "中国">>> a.encode('utf-8')b'\xe4\xb8\xad\xe5\x9b\xbd' #'b'代表引号⾥的字符是bytes 类型的字符,'\x'是指⽤的是16进制
1
2
3
4#GB2312>>> a = "中国">>> a.encode('GB2312')b'\xd6\xd0\xb9\xfa'
1
2
3
4
1、出现乱码的时候就是因为编码不同导致的,因为同样表⽰为01的代码因为不同的编码(标记⽅式)不⼀样导致代表的字符不⼀样
2、汉字在不同的编码⽅式下对应的⼆进制(01)数不⼀样(在⽹上经常会看到有⼈问,汉字怎么转换成⼆进制01代码)
>二进制编码转换
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论