字符编码ascii、unicode、utf-8、gbk的关系
ASCII码:
计算机是美国⼈发明和最早使⽤的,他们为了解决计算机处理字符串的问题,就将数字字母和⼀些常⽤的符号做成了⼀套编码,这个编码就是ASCII码。ASC码II包括数字⼤⼩写字母和常⽤符号,⼀共128个,1字节(Byte)=8bit,8bit能表⽰的最⼤数是256,所以ASIIC编码中⼀个字符的⼤⼩就是1Byte
unicode码和ascii码区别Unicode编码:
计算机进⼊中国后,ASCII完全不够⽤,于是我们就制定了⾃⼰的GB2312编码,把汉字编码了进去。类似的在各国都有相同的情况,各国都开始制定⾃⼰的⼀套编码,计算机的编码越来越庞⼤,越来越乱,为了解决这⼀问题,Unicode应运⽽⽣。Unicode将各国⽂字统⼀编码,所以Unicode编码可以看做是ASCII的扩展。特点:速度快,但是占内存⼤。
UTF-8:
UTF-8编码可以理解成Unicode编码的⼀种升级,为了节省存储空间。UTF-8根据实际使⽤情况调节存储编码的位数,将所有的字符和符号进⾏分类:ASCII码中的内容⽤1个字节保存、欧洲的字符⽤2个字节保存,东亚的字符⽤3个字节保存等等
GBK:
GBK也是基于Unicode编码的进⼀步优化,GBK的⽂字编码是⽤双字节来表⽰的,即不论中、英⽂字符均使⽤双字节来表⽰。
注:
cmd终端默认GBK
unicode utf8 gbk(针对中⽂)
utf8: 3,⽤3个字节表⽰中⽂
gbk : 2,⽤2个字节表⽰中⽂
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论