计算机常⽤字符集编码
1、ASCII。
ASCII(American Standard Code for Information Interchange,美国信息互换标准代码)
是基于罗马字母表的⼀套电脑编码系统,它主要⽤于显⽰现代英语和其他西欧语⾔。它是现今最通⽤的单字节编码系统,并等同于国际标准ISO 646。
国标准信息交换码的英⽂简称,是计算机中⽤⼆进制表⽰字母、数字、符号的⼀种编码标准。ASCII码有两种,使⽤7位⼆进制数的称为基本ASCII码;使⽤8位⼆进制数的称为扩展ASCII码。
注意:在计算机的存储单元中,⼀个ASCII码值占⼀个字节(8个⼆进制位),其最⾼位(b7)⽤作奇偶校验位。所谓奇偶校验,是指在代码传送过程中⽤来检验是否出现错误的⼀种⽅法,⼀般分奇校验和偶校验两种。
奇校验规定:正确的代码⼀个字节中1的个数必须是奇数,若⾮奇数,则在最⾼位b7添1;偶校验规定:正确的代码⼀个字节中1的个数必须是偶数,若⾮偶数,则在最⾼位b7添1。
2、GB2312。
GB2312⼜称为GB2312-80字符集,全称为《信息交换⽤汉字编码字符集·基本集》,由原中国国家标准总局发布,1981年5⽉1⽇实施,是中国国家标准的简体中⽂字符集。它所收录的汉字已经覆盖99.75%的使⽤频率,基本满⾜了汉字的计算机处理需要。在中国⼤陆和新加坡获⼴泛使⽤。
3、GBK。
GBK字符集是GB2312的扩展(K),GBK1.0收录了21886个符号,它分为汉字区和图形符号区,汉字区包括21003个字符。GBK字符集主要扩展了繁体中⽂字的⽀持。
4、BIG5。
BIG5⼜称⼤五码或五⼤码,1984年由台湾财团法⼈信息⼯业策进会和五间软件公司宏碁 (Acer)、神通 (MiTAC)、佳佳、零壹 (Zero One)、⼤众 (FIC)创⽴,故称⼤五码。Big5码的产⽣,是因为当时台湾不同⼚商各⾃推出不同的编码,如倚天码、IBM PS55、王安码等,彼此不能兼容;
另⼀⽅⾯,台湾当时尚未推出官⽅的汉字编码,⽽中国⼤陆的GB2312编码亦未有收录繁体中⽂字。
Big5码使⽤了双字节储存⽅法,以两个字节来编码⼀个字。第⼀个字节称为“⾼位字节”,第⼆个字节称为“低位字节”。
5、GB18030。
GB18030的全称是GB18030-2000《信息交换⽤汉字编码字符集基本集的扩充》,是我国政府于2000年3⽉17⽇发布的新的汉字编码国家标准,2001年8⽉31⽇后在中国市场上发布的软件必须符合本标准。
1. GB18030 字符集标准解决汉字、⽇⽂假名、朝鲜语和中国少数民族⽂字组成的⼤字符集计算机编码问题。
2. 该标准的字符总编码空间超过150万个编码位,收录了27484个汉字,覆盖中⽂、⽇⽂、朝鲜语和中国少数民族⽂字。满⾜中国⼤陆、⾹港、台
湾、⽇本和韩国等东亚地区信息交换多⽂种、⼤字量、多⽤途、统⼀编码格式的要求。
3. 并且与Unicode 3.0版本兼容,填补Unicode扩展字符字汇“统⼀汉字扩展A”的内容。并且与以前的国家字符编码标准
(GB2312,GB13000.1)兼容。
GB 18030标准采⽤单字节、双字节和四字节三种⽅式对字符编码。按照程序员的称呼,GB2312、GBK到GB18030都属于双字节字符集(DBCS)。
6.ANSI编码
不同的国家和地区制定了不同的标准,由此产⽣了 GB2312, BIG5, JIS 等各⾃的编码标准。这些使⽤ 2 个字节来代表⼀个字符的各种汉字延伸编码⽅式,称为 ANSI 编码。在简体中⽂系统下,ANSI 编码代表 GB2312 编码,在⽇⽂操作系统下,ANSI 编码代表 JIS 编码。
7.Unicode
1.名称的由来 Unicode字符集编码是(Universal Multiple-Octet Coded Character
Set) 通⽤多⼋位编码字符集的简称,⽀持世界上超过650种语⾔的国际字符集。Unicode允许在同⼀服务器上混合使⽤不同语⾔组的不同语⾔。它是由⼀个名为Unicode 学术学会(UnicodeConsortium)的机构制订的字符编码系统,⽀持现今世界各种不同语⾔的书⾯⽂本的交换、处理及显⽰。
2. 该编码于1990年开始研发,1994年正式公布,最新版本是2005年3⽉31⽇的Unicode 4.1.0。Unicode是⼀种在计算机上使⽤
的字符编码。它为每种语⾔中的每个字符设定了统⼀并且唯⼀的⼆进制编码,以满⾜跨语⾔、跨平台进⾏⽂本转换、处理的要求。
3.编码⽅法 Unicode 标准始终使⽤⼗六进制数字,⽽且在书写时在前⾯加上前缀“U+”,例如字母“A”的编码为 004116。所以“A”的编码书写为“U+0041”。
At the same time ,记住UCS(就是unicode)
9.UTF-8 编码
UTF-8是Unicode的其中⼀个使⽤⽅式。 UTF是 Unicode Translation Format,即把Unicode转做某种格式的意思。
UTF-8便于不同的计算机之间使⽤⽹络传输不同语⾔和编码的⽂字,使得双字节的Unicode能够在现存的处理单字节的系统上正确传输。UTF-8使⽤可变长度字节来储存 Unicode字符,例如ASCII字母继续使⽤1字节储存,重⾳⽂字、希腊字母或西⾥尔字母等使⽤2字节来储存,⽽常⽤的汉字就要使⽤3字节。辅助平⾯字符则使⽤4字节。
10. UTF-16 和 UTF-32 编码
UTF-32、UTF-16和 UTF-8 是 Unicode 标准的编码字符集的字符编码⽅案,UTF-16 使⽤⼀个或两个未分配的 16 位代码单元的序列对Unicode 代码点进⾏编码;UTF-32 即将每⼀个 Unicode 代码点表⽰为相同值的 32 位整数
11. 加密的base64编码
java语言使用的字符码集是按照RFC2045的定义,Base64被定义为:Base64内容传送编码被设计⽤来把任意序列的8位字节描述为⼀种不易被⼈直接识别的形式。(The Base64 Content-Transfer-Encoding is designed to represent arbitrary sequences of octets in a form that need not be humanly readable.)
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论