字符编码简单总结-ASCII、ASNI、GB2312、Unicode、UTF-8--688IT编程网

字符编码简单总结-ASCII 、ASNI 、GB2312、Unicode 、UTF-8

⽂章⽬录

⽬前的⽂字编码标准主要有 ASCII、GB2312、GBK、Unicode等。ASCII 编码是最简单的西⽂编码⽅案。GB2312、GBK、GB18030是汉字字符编码⽅案的国家标准。ISO/IEC 10646 和 Unicode 都是全球字符编码的国际标准。

1、ASCII 码—美国信息交换标准代码，共128个字符，⽤于英语/西欧语⾔显⽰

ASCII ((American Standard Code for Information Interchange): 美国信息交换标准代码）是基于拉丁字母的⼀套电脑编码系统，主要⽤于显⽰现代英语和其他西欧语⾔。它是最通⽤的信息交换标准，并等同于国际标准ISO/IEC 646。ASCII共定义了128个字符。常见ASCII码的⼤⼩规则：0

Z<a~z。⼏个常见字母的ASCII码⼤⼩： “A”为65；“a”为97；“0”为 48 。

2、ASNI—ASCII 的扩展，Windows 系统中代表系统默认编码（不固定）

unicode汉字ASNI 是ASCII的扩展，向下包含 ASCII。对于ASCII字符仍以⼀个字节来表⽰，对于⾮ASCII字符则使⽤2字节来表⽰。并没有固定的ASNI 编码，它跟本地化密切相关，不同的国家和地区制定了不同的标准。中国⼤陆ANSI的默认编码是GB2312；在港澳台地区默认编码是BIG5。以数值“0xd0d6”为例，对于 GB2312 编码它表⽰“中”；对于 BIG5 编码它表⽰“笢”。

3、常见中⽂编码GB2312（简体）/ BIG5（繁体）/ GBK （GB2312的扩展）/ GB18030（最新最全）

GB2312 ：1980 年制定的中国汉字编码国家标准。共收录 7445 个字符，其中汉字 6763 个。GB2312 兼容标准 ASCII码，采⽤扩展ASCII 码的编码空间进⾏编码，⼀个汉字占⽤两个字节，每个字节的最⾼位为 1。具体办法是：收集了 7445 个字符组成 94*94 的⽅阵，每⼀⾏称为⼀个“区”，每⼀列称为⼀个“位”，区号位号的范围均为 01-94，区号和位号组成的代码称为“区位码”。为了兼容标准 ASCII 码，给国标码的每个字节加 0xa0，这样⾼低字节的第8位都变成了1。⼀个⼩于127的字符的意义与原来相同，但两个⼤于127的字符连在⼀起时，就表⽰⼀个汉字。例如“啊”字在⼤多数程序中，会以两个字节，0xB0（第⼀个字节） 0xA1（第⼆个字节）储存。区位码=区字节+位字节（与区位码对⽐：0xB0=0xA0+16,0xA1=0xA0+1）。

9<A

BIG5 ： GB2312⾯向简体中⽂字符集，并不⽀持繁体汉字，1984年台湾五⼤⼚商宏碁、神通、佳佳

、零壹以及⼤众⼀同制定了⼀种繁体中⽂编码⽅案BIG5。⼤五码采⽤双字节编码，第1字节范围0x81－0xFE，避开了同ASCII码的冲突，第2字节范围是0x40－0x7E和

0xA1－0xFE。

GBK ：《汉字内码扩展规范》(GBK) 于1995年制定，兼容GB2312、GB13000-1、BIG5 编码中的所有汉字，使⽤双字节编码，编码空间为 0x8140～0xFEFE，共有 23940 个码位，其中 GBK1 区和 GBK2 区也是 GB2312 的编码范围。收录了 21003 个汉字。GBK 向下与 GB 2312 编码兼容，向上⽀持 ISO 10646.1国际标准。

GB18030 ：《信息交换⽤汉字编码字符集基本集的补充》是我国继GB2312-1980和GB13000-1993之后最重要的汉字编码标

准，2000年发布的，并且将作为⼀项国家标准在2001年的1⽉正式强制执⾏。以汉字为主并包含多种我国少数民族⽂字（如藏、蒙古、傣、彝、朝鲜、维吾尔⽂等）的超⼤型中⽂编码字符集强制性标准，其中收⼊汉字70000余个。

4、国际码Unicode包含各国语⾔业界标准，编码⽅式UTF-8/UTF-16等

Unicode（中⽂：万国码、国际码、统⼀码、单⼀码）是计算机科学领域⾥的⼀项业界标准。Unicode是为了解决传统的字符编码⽅案的局限⽽产⽣的，它为每种语⾔中的每个字符设定了统⼀并且唯⼀的⼆进制编码，以满⾜跨语⾔、跨平台进⾏⽂本转换、处理的要求，1994年正式公布。UNICODE 仍然向下兼容 ASCII，数值范围是 0x0000 ⾄ 0x10FFFF，可以表⽰ 100 多万个字符。

Unicode的编码⽅案⼜叫Unicode转换格式，简称为UTF（Unicode Transformation Format），包括UTF-16、UTF-32以及UTF-8等。

UTF-8是⼀种针对Unicode的可变长度字符编码，也是⼀种前缀码。它可以⽤来表⽰Unicode标准中的任何字符，⽽且其编码中的第⼀个字节仍与ASCII相容，逐渐成为电⼦邮件、⽹页及其他存储或传送⽂

字的应⽤中，优先采⽤的编码。UTF-8使⽤⼀⾄六个字节为每个字符编码（后续标准更新，实际最多4字节）。

688IT编程网

字符编码简单总结-ASCII、ASNI、GB2312、Unicode、UTF-8

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

字符编码简单总结-ASCII、ASNI、GB2312、Unicode、UTF-8

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式