bin⽂件打开都是乱码_⽂件打开乱码?来了解⼀下⽂件编码!⽂本和⽂字处理技术
⼈类社会的知识、⽂化和历史⼤部分都是以⽂字形式记录和传播的,⼈们⽇常的⼯作、学习和⽣活也离不开⽂字,因此,⽂字信息的计算机处理是信息处理的⼀个主要⽅⾯,也是各种计算机应⽤的重要基础。
⽂字信息在计算机中称之为“⽂本(text)”,他由⼀系列的字符所构成。⽂本是基于特定字符集的具有上下⽂相关性的⼀个字符流,每个字符都使⽤⼆进制编码表⽰。⽂本是计算机中最常⽤的⼀种数字媒体,⼿机短信,电⼦邮件、word⽂档等都属于⽂本。
⽂本在计算机中处理过程包括⽂本准备,⽂本编辑、⽂本处理、⽂本存储和传输、⽂本展现。根据应⽤场合的不同,各个处理环节的内容和要求都可能有很⼤的差别。
组成⽂本的基本元素称之为字符。字符⽆处不在,⽹址名、⽹址、号等也都是由字符组成的。与数
值信息⼀样,为了便于在不同的系统之间进⾏交换,字符必须采⽤标准的⼆进制编码表⽰。但字符和国家、地区的⽂化有关,情况⾮常复杂,本⽂主要介绍西⽂字符和汉字字符的常⽤编码表⽰。
⽬前计算机中使⽤的最⼴泛的西⽂字符集机器编码就是ascii字符集和ascii码,即美国信息交换标准码。
中⽂字符的基本组成单元就是汉字,我国的汉字的综述超过六万字,数量⼤,字形复杂,同⾳字多,异体字多,因⽽汉字在计算机中的内部表⽰、处理、传输和交换以及汉字的输⼊、输出都⽐西⽂复杂。
我们采⽤了如下⼏种编码⽅式:
1、 GB2312汉字编码:
unicode汉字
为了适应计算机处理汉字信息的需要,1981年我国颁布了第⼀个国家标准——《信息交换⽤汉字编码字符集·····基本集》
(GB2312).该标准选出了6763个常⽤汉字和682个⾮汉字图形字符。为每个字符规定了标准代码,以便在不同计算机系统之间进⾏中⽂⽂本的交换。
GB2312国标字符集由三个部分组成,第⼀个部分是字母、数字和各种符号、包括拉丁字母、俄⽂字符、⽇⽂平假名字母和⽚假名字母、希腊字母、汉语拼⾳字母等共682个。第⼆部分为⼀级常⽤汉字,共3755个,按照汉语拼⾳排列,第三部分为⼆级常⽤汉字,共3008个,按照部⾸偏旁排列。
GB2312的所有字符在计算机内部都采⽤2个字节来表⽰,每个字节的最⾼位都规定为1,这种⾼位均1的双字节汉字编码就成为
GB2312的“机内码”(内码),以区别西⽂字符ASCII编码,例如,在“南”字的gb2312的内码就是1100010011001111,因此在中西⽂混合使⽤的场合,汉字和西⽂字母很容易区别,⽅便了计算机的处理。
2、 GBK汉字内码扩充规范
GB2312只有6763个汉字,均为简体字,在⼈名和地名的处理上经常不够⽤,尤其是在古籍整理⽅⾯有很⼤的缺陷,为此迫切的需要有包含繁体字在内的更多汉字的标准字符集。
GBK是我国在1995年发布的,全称为《汉字内码扩展规范》。她⼀共有21003个汉字和883个图形符号,除了gb2312中的全部汉字和符号外,还收录了包括含繁体字在内的⼤量汉字和图形符号,
GBK汉字在计算机内也是⽤双字节表⽰,为了与GB2312保持向下兼容,所有与GB2312相同的字符,其编码也保持相同,新增加的符号和汉字则给与新的编码⽅式。他们的第⼀字节最⾼位必须为1,第⼆字节的最⾼位可以是1也可以是0.
3、 UCS/Unicode和GB18030编码
上述⼏种编码都是⾯向⼀个国家或者地区使⽤的。全球有数以千计的不同语⾔⽂字,为了国际交流⽅便,国际标准化组织iso制定了⼀个将全世界现代书⾯⽂字使⽤的所有字符和符号⼏种进⾏统⼀编码的标准,成为ucs标准字符集。对应的⼯业标准称之为unicode,它的具体编码⽅案有很多,如utf-8和UTf-16已在主流操作系统、编程语⾔以及许多app中⼴泛使⽤。
为了既能和国际标准Ucs/unicode接轨,⼜能保护已有的⼤量中⽂电⼦信息资源,进⼊21世纪后,我国
发布并开始执⾏了新的GB18030汉字编码国家标准,GB18030标准⼀⽅⾯和gb2312和gbk保持向下兼容,同时还扩充了unicode中其他字符的编码,实际上它可以看作为ucs/Unicode的另⼀种编码⽅案。
上述编码标准各有其优缺点。⽬前⼏乎所有的pc和智能⼿机/平板电脑都能⽀持包括汉字在内的多国⽂字的处理、存储和传输,但是不同的操作系统、不同的编程语⾔和不同的app所采⽤的字符集和编码标准的不同,因此不同系统、不同软件在互通的时候需要进⾏编码的转换,有时候会发⽣差错,⼈们在浏览⽹页或者收看邮件的时候,屏幕上偶尔会出现的乱码就是因为编码转换所导致的。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。