字符集(Characterset)--688IT编程网

字符集（Characterset）

字符编码：是指将计算机的⼆进制编码与某个抽象字符集合⼀⼀对应的规则.

常见字符集名称：ASCII字符集(7bit)、GB2312字符集(2B)、BIG5字符集(2B)、GB18030字符集(4B)、

Unicode字符集等。

计算机要准确的处理各种字符集⽂字，需要进⾏字符编码，以便计算机能够识别和存储各种⽂字。

[GB2312 字符集]

内容:　GB2312收录简化汉字及⼀般符号、序号、数字、拉丁字母、⽇⽂假名、希腊字母、俄⽂字母、汉语拼⾳符号、汉语注⾳字母，共7445 个图形字符。其中包括6763个汉字，其中⼀级汉字3755个，⼆级汉字3008个；包括拉丁字母、希腊字母、⽇⽂平假名及⽚假名字母、俄语西⾥尔字母在内的682个全⾓字符。

特点：因为未收录繁体中⽂字，只在中国⼤陆和新加坡获⼴泛使⽤，

[BIG5 字符集]

由台湾财团法⼈信息⼯业策进会和五间软件公司创⽴，故称⼤五码。

unicode系列全部汉字Big5字符集共收录13,053个中⽂字，该字符集在使⽤。

尽管Big5码内包含⼀万多个字符，但是没有考虑社会上流通的⼈名、地名⽤字、⽅⾔⽤字、化学及⽣物科等⽤字，没有包含⽇⽂平假名及⽚假名字母。

[GB18030 字符集]

内容:GB 18030字符集标准解决汉字、⽇⽂假名、朝鲜语和中国少数民族⽂字组成的⼤字符集计算机编码问题。该标准的字符总编码空间超过150万个编码位，收录了27484个汉字，覆盖中⽂、⽇⽂、朝鲜语和中国少数民族⽂字。满⾜中国⼤陆、⾹港、台湾、⽇本和韩国等东亚地区信息交换多⽂种、⼤字量、多⽤途、统⼀编码格式的要求。并且与Unicode 3.0版本兼容，填补Unicode扩展字符字汇“统⼀汉字扩展A”的内容。并且与以前的国家字符编码标准（GB2312，GB13000.1）兼容。

[Unicode字符集(统⼀码、万国码)]跨语⾔、跨平台

UTF-32:4B,UTF-16:2B,UTF-8:1B-4B 可变长度(前缀码)

[UTF-8(前缀码)设计原理]

# 字节字符的最⾼有效⽐特永远为0。

# 多字节串⾏中的⾸个字符组的⼏个最⾼有效⽐特决定了串⾏的长度。最⾼有效位为110的是2字节串⾏，⽽1110的是三字节串⾏，如此类推。

# 多字节串⾏中其余的字节中的⾸两个最⾼有效⽐特为10。

UCS-4编码UTF-8字节流

U+00000000 – U+0000007F 0xxxxxxx

U+00000080 – U+000007FF 110xxxxx 10xxxxxx

U+00000800 – U+0000FFFF 1110xxxx 10xxxxxx 10xxxxxx

U+00010000 – U+001FFFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

688IT编程网

字符集(Characterset)

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

688IT编程网

字符集(Characterset)

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式 最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

nginx map用法正则

shell 正则表达式最后一行