中文字符unicode查询utf-8的中⽂是⼀个汉字占三个字节长度吗?
英⽂字母和中⽂汉字在不同字符集编码下的字节数
英⽂字母:
字节数 : 1;编码:GB2312
字节数 : 1;编码:GBK
字节数 : 1;编码:GB18030
字节数 : 1;编码:ISO-8859-1
字节数 : 1;编码:UTF-8
字节数 : 4;编码:UTF-16
字节数 : 2;编码:UTF-16BE
字节数 : 2;编码:UTF-16LE
中⽂汉字:
字节数 : 2;编码:GB2312
字节数 : 2;编码:GBK
字节数 : 2;编码:GB18030
字节数 : 1;编码:ISO-8859-1
字节数 : 3;编码:UTF-8
字节数 : 4;编码:UTF-16
字节数 : 2;编码:UTF-16BE
字节数 : 2;编码:UTF-16LE
这是个好问题,可以当作⼀个笔试题。先从字符编码讲起。
1、美国⼈⾸先对其英⽂字符进⾏了编码,也就是最早的ascii码,⽤⼀个字节的低7位来表⽰英⽂的128个字符,⾼1位统⼀为0;
2、后来欧洲⼈发现你这128位哪够⽤,⽐如我⾼贵的法国⼈字母上⾯的还有注⾳符,这个怎么区分,得,把⾼1位编进来吧,这样欧洲普遍使⽤⼀个全字节进⾏编码,最多可表⽰256位。欧美⼈就是喜欢直来直去,字符少,编码⽤得位数少;
3、但是即使位数少,不同国家地区⽤不同的字符编码,虽然0--127表⽰的符号是⼀样的,但是128--255这⼀段的解释完全乱套了,即使2进制完全⼀样,表⽰的字符完全不⼀样,⽐如135在法语,希伯来语,俄语编码中完全是不同的符号;
4、更⿇烦的是,这电脑⾼科技传到中国后,中国⼈发现我们有10万多个汉字,你们欧美这256字塞⽛缝都不够。于是就发明了
GB2312这些汉字编码,典型的⽤2个字节来表⽰绝⼤部分的常⽤汉字,最多可以表⽰65536个汉字字符,这样就不难理解有些汉字你在新华字典⾥查得到,但是电脑上如果不处理⼀下你是显⽰不出来的了吧。
5、这下各⽤各的字符集编码,这世界咋统⼀?俄国⼈发封email给中国⼈,两边字符集编码不同,显⽰都是乱码啊。为了统⼀,于是就发明了unicode,将世界上所有的符号都纳⼊其中,每⼀个符号都给予⼀个独⼀⽆⼆的编码,现在unicode可以容纳100多万个符号,每个符号的编码都不⼀样,这下可统⼀了,所有语⾔都可以互通,⼀个⽹页页⾯⾥可以同时显⽰各国⽂字。
6、然⽽,unicode虽然统⼀了全世界字符的⼆进制编码,但没有规定如何存储啊,亲。x86和amd体系结构的电脑⼩端序和⼤端序都分不清,别提计算机如何识别到底是unicode还是acsii了。如果Unicode统⼀规定,每个符号⽤三个或四个字节表⽰,那么每个英⽂字母前都必然有⼆到三个字节是0,⽂本⽂件的⼤⼩会因此⼤出⼆三倍,这对于存储来说是极⼤的浪费。这样导致⼀个后果:出现了Unicode的多种存储⽅式。
7、互联⽹的兴起,⽹页上要显⽰各种字符,必须统⼀啊,亲。utf-8就是Unicode最重要的实现⽅式之⼀。另外还有utf-16、utf-32等。UTF-8不是固定字长编码的,⽽是⼀种变长的编码⽅式。它可以使⽤1~4个字节表⽰⼀个符号,根据不同的符号⽽变化字节长度。这是种⽐较巧妙的设计,如果⼀个字节的第⼀位是0,则这个字节单独就是⼀个字符;如果第⼀位是1,则连续有多少个1,就表⽰当前字符占⽤多少个字节。
8、注意unicode的字符编码和utf-8的存储编码表⽰是不同的,例如"严"字的Unicode码是4E25,UTF-8编码是E4B8A5,这个7⾥⾯解释了的,UTF-8编码不仅考虑了编码,还考虑了存储,E4B8A5是在存储识别编码的基础上塞进了4E25。
9、UTF-8 使⽤⼀⾄四个字节为每个字符编码。128 个 ASCII 字符(Unicode 范围由 U+0000 ⾄ U+007F)只需⼀个字节,带有变⾳符号的拉丁⽂、希腊⽂、西⾥尔字母、亚美尼亚语、希伯来⽂、阿拉伯⽂、叙利亚⽂及马尔代夫语(Unicode 范围由 U+0080 ⾄
U+07FF)需要⼆个字节,其他基本多⽂种平⾯(BMP)中的字符(CJK属于此类-Qieqie注)使⽤三个字节,其他 Unicode 辅助平⾯的字符使⽤四字节编码。
10、最后,要回答你的问题,常规来看,中⽂汉字在utf-8中到底占⼏个字节,⼀般是3个字节,最常见的编码⽅式是1110xxxx
10xxxxxx 10xxxxxx。
原⽂链接:不到了。。。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论