字符集和编码的区别
字符集(Character set) 是⼀个系统⽀持的所有抽象字符的集合。通常以⼆维表的形式存在,⼆维表的内容和⼤⼩是由使⽤者的语⾔⽽定。如ASCII,GBxxx,Unicode等。
字符编码(Character encoding) 是把字符集中的字符编码为特定的⼆进制数,以便在计算机中存储。每个字符集中的字符都对应⼀个唯⼀的⼆进制编码。
字符集和编码的区别unicode汉字
ascII、unicode、gb2312等都是字符集,⽤于定义编号指代的字符。utf-8,utf-16则是unicode的编码格式。
as cI I
ascII只有128个,能表⽰英⽂、数字、常⽤符号。
g b2312
gb2312是中⽂特有的字符集,有2万多个字符,前128个和ascII保持⼀致,因此能兼容ascII。ascII码⽤1个字节表⽰,中⽂⽤2个字节表⽰。gbk是在gb2312基础上扩容⽽来的。
unicod e
unicode则是为了让全球能⽤上统⼀的字符集⽽发明的,有6万多个字符,每个字符占2个字节,⽐如英⽂a,ascII是97、unicode则是0097(⽰意的说法)。中⽂只收录最常⽤的6000多个汉字。unicode虽然是⼤⼀统的标准,但是在表⽰英⽂时浪费空间,并且许多古⽼的程序只⽀持ascII,unicode从标准设计上来说是不兼容ascII。正因如此在实际使⽤中unicode会以utf-8,utf-16等编码⽅式存储是传输。utf-8保持和ascII ⼀致,英⽂使⽤1个字节,其他字符使⽤2-6个字节,⽐如中⽂多数是3个字节。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。