Python字符集
什么是字符?
1.在Python中,字符串中的内容都是字符.
2.什么是字符编码(encode)和字符集(charset)?
计算机只能识别数值,⽽字符不能识别,为了让计算机能处理字符,必须将字符和数值产⽣⼀个映射关系.(即:给某个字符指定⼀个数值,计算机就⽤这个数值表⽰这个字符了.)这个映射关系,称为字符集. 例如: ASCII字符集,gbk字符集,Shift_JIS字符集.
字符串截取到倒数第二个指定字符这些字符集通常不互相通⽤,⽐如:3000这个数值在gbk中表⽰⼀个符号,在其他的字符集中有可能表⽰的就是完全不同的字符.
为了终⽌这种混乱的场⾯,出现了Unicode字符集.
Unicode字符集也是⼀种字符和数值对应的关系表.只不过它⾥⾯保存的数值⽐较多,⽬前已经达到了⼀百多万个.已经能表⽰世界上所有能见到的语⾔和符号了.
3.字符编码:将字符集中的数值转换成字节的过程.
但是和ASCII字符集,gbk字符集,Shift_JIS字符集不同的是:
Unicode字符集提供了多种实现⽅案:
UTF8,UTF16,UTF32等等.
UTF:Unicode Translate
Format,Unicode转换格式
其中,UTF16⽤固定的2个字节表⽰Unicode字符.
UTF32⽤固定的4个字节表⽰Unicode字符. ⼆者都不太常⽤.
4.⽽UTF8是⼀种变长的编码⽅案(在互联⽹领域最常⽤):
能⽤⼀个字节表⽰的,就⽤⼀个字节表⽰.
表达不了的,⽤两个字节表⽰.
实在不⾏的,⽤三个字节表⽰.
还有⼀些⽐较少⽤的,⽤四个字节表⽰.
中⽂⼀般⽤三个字节表⽰.
Unicode字符集和UTF8编码对应的关系:

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。