字符编码方式介绍及编码方式测试--688IT编程网

字符编码方式介绍及编码方式测试

第一部份编码方式介绍

一、ASCII编码：

美国标准信息互换标准码 (American Standard Code for Information Interchange, ASCII)

在计算机内部，所有的信息最终都表示为一个二进制的字符串。每一个二进制位（bit）有0和1两种状态。一个字节（byte）共由八个二进制位来组成，共有256种状态，从0000000到。

阿拉伯数字、英文字母、标点符号等这些字符，怎么定义才能让计算机识别呢？因为计算机只识别二进制位0和1，所以以上这些字符就必须与二进制位（0和1）建立关系，才能让计算机识别。

60年代初，计算机界制定了一套统一的字符编码，来表示字符与二进制位之间的关系。这种统一的字符编码就叫做ASCII编码。ASCII码一共规定了128个字符的编码，比如空格是32

（二进制00100000），大写的字母A是65（二进制01000001）。这128个符号（包括32个不能打印出来的控制符号），只占用了一个字节的后面7位，最前面的1位统一规定为0。

在英语国家，128个ASCII编码足以表达所有字符，但其它非英语国家，字符不是由英文字符组成，这样就需要增加编码以表达这些字符，对于超过128个字符的编码被称为非ASCII编码。比如：在中国，我们用简体中文，字符编码方式为GB2312。

二、Unicode编码：

看到上面的介绍后，咱们了解了最先编码是ASCII码。它只用7个二进制位来表示，由于那个时期生产的大多数计算机利用8位大小的字节，因此用户不仅可以寄存所有可能的ASCII字符，而且有整整一名空余下来。若是你技艺高超，可以将该位用做自己离奇的目的：WordStar中那个发暗的灯泡实际上设置这个高位，以指示一个单词中的最后一个字母，同时这也宣示了WordStar只能用于英语文本。

由于字节有多达8位的空间，因此许多人在想：“呀！我们可以把128~255之间的编码用做个人的应用目的。”问题在于，同时产生这种想法的人相当多，而且在128~255之间的各个

位置上应该存放什么这一问题上，真是仁者见仁智者见智。事实上，只要人们开始在美国以外的地方购买计算机，那么各种各样的不同OEM字符集都会进入规划设计行列，并且各人都会根据自己的需要使用高位的128个字符。如此一来，甚至在同语种的文档之间就不容易实现互换。 ASCII可被扩展，最优秀的扩展方案是ISO 8859-1，通常称之为Latin-1。Latin-1包括了足够的附加字符集来写基本的西欧语言。

最后，这个人参与的OEM终于以ANSI标准的形式形成文件。在ANSI标准中，每个人都认同如何使用低端的128个编码，这与ASCII相当一致。不过，根据所在国籍的不同，处理编码128以上的字符有许多不同的方式。这些不同的系统称为代码页。

同时，甚至更为令人头疼的事情正在逐步上演，亚洲国家的字符表有成千上万个字符，这样的字符表是用8位二进制无法表示的。该问题的解决通常有赖于称为DBCS（double byte character set，双字节字符集）的繁杂字符系统。

不过，仍然需要指出一点，多数人还是姑且认为一个字节就是一个字符，以及一个字符就是8个二进制位，并且只要确保不将字符串从一台计算机移植到另一台计算机，或者说一种以上的语言，那么这几乎总是可以凑合。当然，只要一进入Internet，从一台计算机向另一

台计算机移植字符串就成为家常便饭了，而各种复杂状况也随之呈现出来。令人欣慰的是，Unicode随即问世了。

Unicode字符集（简称为UCS）,国际标准组织于1984年4月成立ISO/IEC JTC1/SC2/WG2工作组，针对各国文字、符号进行统一性编码。1991年美国跨国公司成立Unicode Consortium，并于1991年10月与WG2达到协议，采用同一编码字集。目前Unicode是采用16位编码体系，其字符集内容与ISO10646的BMP（Basic Multilingual Plane）相同。Unicode于1992年6月通过DIS（Draf International Standard），目前版本于1996发布，内容包括符号6811个，汉字20902个，韩文拼音11172个，造字区6400个，保留20249个，共计65534个。Unicode编码后的大小是一样的.例如一个英文字母 "a" 和　一个汉字 "好"，编码后都是占用的空间大小是一样的，都是两个字节！

Unicode可以用来表示所有语言的字符，而且是定长双字节（也有四字节的）编码，包括英文字母在内。所以可以说它是不兼容iso8859-1编码的，也不兼容任何编码。不过，相对于iso8859-1编码来讲，uniocode编码只是在前面增加了一个0字节，比如字母'a'为"00 61"。

需要说明的是，定长编码便于计算机处置（注意GB2312/GBK不是定长编码），而unicode又可以用来表示所有字符，所以在很多软件内部是利用unicode编码来处置的，比如java。

三、UTF-8编码

UTF:UCS Transformation Format.考虑到unicode编码不兼容iso8859-1编码，而且容易占用更多的空间：因为对于英文字母，unicode也需要两个字节来表示。所以unicode不便于传输和存储。因此而产生了utf编码，utf编码兼容iso8859-1编码，同时也可以用来表示所有语言的字符，不过，utf编码是不定长编码，每一个字符的长度从1-6个字节不等。另外，utf编码自带简单的校验功能。一般来讲，英文字母都是用一个字节表示，而汉字利用三个字节。

注意，虽说utf是为了利用更少的空间而利用的，但那只是相对于unicode编码来讲，若是已经知道是汉字，则利用GB2312/GBK无疑是最节省的。不过另一方面，值得说明的是，虽然utf编码对汉字利用3个字节，但即便对于汉字网页，utf编码也会比unicode编码节省，因为网页中包括了很多的英文字符。

UTF8编码后的大小是不必然,例如一个英文字母"a" 和　一个汉字 "好"，编码后占用的空间大小就不样了，前者是一个字节，后者是三个字节！编码的方式是从低位到高位。黄为标志位其它着为了显示其，编码后的位置。

四、iso8859-1编码：

属于单字节编码，最多能表示的字符范围是0-255，应用于英文系列。如，字母'a'的编码为0x61=97。

java语言使用的字符码集是

很明显，iso8859-1编码表示的字符范围很窄，无法表示中文字符。但是，由于是单字节编码，和计算机最基础的表示单位一致，所以很多时候，仍旧使用iso8859-1编码来表示。而且在很多协议上，默认使用该编码。比如，虽然"中文"两个字不存在iso8859-1编码，以gb2312编码为例，应该是"d6d0 cec4"两个字符，使用iso8859-1编码的时候则将它拆开为4个字节来表示："d6 d0 ce c4"（事实上，在进行存储的时候，也是以字节为单位处理的）。而如果是UTF编码，则是6个字节"e4 b8 ad e6 96 87"。很明显，这种表示方法还需要另一种编码为基础。

五、GBK编码

GBK编码(Chinese Internal Code Specification)是中国大陆制订的、等同于UCS的新的中文编码扩展国家标准。gbk编码能够用来同时表示繁体字和简体字，而gb2312只能表示简体字，gbk是兼容gb2312编码的。GBK工作小组于1995年10月，同年12月完成GBK规范。该编码标准兼容GB2312，共收录汉字21003个、符号883个，并提供1894个造字码位，简、繁体字融于一库。Windows95/98简体中文版的字库表层编码就采用的是GBK，通过GBK与UCS之间一一对应的码表与底层字库联系。

英文名：Chinese Internal Code Specification

中文名：汉字内码扩展规范版

双字节编码，GB2312-80的扩充，在码位上和GB2312-80兼容

范围：8140~FEFE（剔除xx7F）共23940个码位

包含21003个汉字，包含了ISO/IEC 10646-1中的全部中日韩汉字

六、GB2312编码

GB2312(1980年)一共收录了7445个字符，包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7，低字节从 A1-FE，占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE。GB2312-80中共收录了7545个字符，用两个字节编码一个字符。每一个字符最高位为0。GB2312-80编码简称国标码。

688IT编程网

字符编码方式介绍及编码方式测试

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

字符编码方式介绍及编码方式测试

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式