字符集(Characterset)
字符编码:是指将计算机的⼆进制编码与某个抽象字符集合⼀⼀对应的规则.
常见字符集名称:ASCII字符集(7bit)、GB2312字符集(2B)、BIG5字符集(2B)、GB18030字符集(4B)、
Unicode字符集等。
计算机要准确的处理各种字符集⽂字,需要进⾏字符编码,以便计算机能够识别和存储各种⽂字。
[GB2312 字符集]
内容: GB2312收录简化汉字及⼀般符号、序号、数字、拉丁字母、⽇⽂假名、希腊字母、俄⽂字母、汉语拼⾳符号、汉语注⾳字母,共7445 个图形字符。其中包括6763个汉字,其中⼀级汉字3755个,⼆级汉字3008个;包括拉丁字母、希腊字母、⽇⽂平假名及⽚假名字母、俄语西⾥尔字母在内的682个全⾓字符。
特点:因为未收录繁体中⽂字,只在中国⼤陆和新加坡获⼴泛使⽤,
[BIG5 字符集]
由台湾财团法⼈信息⼯业策进会和五间软件公司创⽴,故称⼤五码。
unicode系列全部汉字Big5字符集共收录13,053个中⽂字,该字符集在使⽤。
尽管Big5码内包含⼀万多个字符,但是没有考虑社会上流通的⼈名、地名⽤字、⽅⾔⽤字、化学及⽣物科等⽤字,没有包含⽇⽂平假名及⽚假名字母。
[GB18030 字符集]
内容:GB 18030字符集标准解决汉字、⽇⽂假名、朝鲜语和中国少数民族⽂字组成的⼤字符集计算机编码问题。该标准的字符总编码空间超过150万个编码位,收录了27484个汉字,覆盖中⽂、⽇⽂、朝鲜语和中国少数民族⽂字。满⾜中国⼤陆、⾹港、台湾、⽇本和韩国等东亚地区信息交换多⽂种、⼤字量、多⽤途、统⼀编码格式的要求。并且与Unicode 3.0版本兼容,填补Unicode扩展字符字汇“统⼀汉字扩展A”的内容。并且与以前的国家字符编码标准(GB2312,GB13000.1)兼容。
[Unicode字符集(统⼀码、万国码)]跨语⾔、跨平台
UTF-32:4B,UTF-16:2B,UTF-8:1B-4B 可变长度(前缀码)
[UTF-8(前缀码)设计原理]
# 字节字符的最⾼有效⽐特永远为0。
# 多字节串⾏中的⾸个字符组的⼏个最⾼有效⽐特决定了串⾏的长度。最⾼有效位为110的是2字节串⾏,⽽1110的是三字节串⾏,如此类推。
# 多字节串⾏中其余的字节中的⾸两个最⾼有效⽐特为10。
UCS-4编码UTF-8字节流
U+00000000 – U+0000007F    0xxxxxxx
U+00000080 – U+000007FF    110xxxxx 10xxxxxx
U+00000800 – U+0000FFFF    1110xxxx 10xxxxxx 10xxxxxx
U+00010000 – U+001FFFFF    11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。