字符编码
一、西文字符编码:ASCII码
ASCII码全称为美国标准信息交换码(American Standard Code for Information Interchange)。它用8位二进制数来编码,第1位全部是0,因此ASCII码最多可以表示2^7=128个字符,包括字母、数字、标点符号、控制符号等西文字符。ASCII码已经被ISO认定为国际标准。
1)控制字符:0~31、127,共33个,不可显示; 2)普通字符:95个,包括10个阿拉伯数字、52个英文大小写字母、33个标点符号和运算符。
常见ASCII码的大小规则,0-9<A-Z<a-z:
ASCII码表
L H | 0000 | 0001 | 0010 | 0011 | 0100 | 0101 | 0110 | 0111 |
0000 | NUL | DLE | SP | 0 | @ | P | ‘ | p |
0001 | SOH | DC1 | ! | 1 | A | Q | a | q |
0010 | STX | DC2 | “ | 2 | B | R | b | r |
0011 | ETX | DC3 | # | 3 | C 乱码文字怎么打出来 | S | c | s |
0100 | EOT | DC4 | $ | 4 | D | T | d | t |
0101 | ENQ | NAK | % | 5 | E | U | e | u |
0110 | ACK | SYN | & | 6 | F | V | f | v |
0111 | BEL | ETB | , | 7 | G | W | g | w |
1000 | BS | CAN | ) | 8 | H | X | h | x |
1001 | HT | EM | ( | 9 | I | Y | i | y |
1010 | LF | SUB | * | : | J | Z | j | z |
1011 | VT | ESC | + | ; | K | [ | k | { |
1100 | FF | FS | ’ | < | L | \ | l | | |
1101 | CR | GS | - | = | M | ] | m | } |
1110 | SO | RS | . | > | N | ^ | n | ~ |
1111 | SI | US | / | ? | O | _ | o | DEL |
记住几个常见字母的ASCII码大小:“A”为65;“a”为97;“0”为48;
在计算机系统中,用1字节来存储一个ASCII字符。上表是标准ASCII字符,有一个特点:最高位(第八位)为0。还有一种叫做扩充ASCII码,它是用8位二进制数给字符编码,这样可以表示256种字符。
二、汉字编码
计算机处理汉字时,也必须先将汉字代码化,然后对汉字代码进行处理。
1.汉字国标码
中国的文字不是拼音文字,汉字的个数有数万之多,远远超过区区 256 个字符,因此我们就使用两个字节来表示一个中文。为了与 ASCII 保持兼容,与ASCII码相同的编码我们不使用。
1980年我国颁布了《信息交换用汉字编码字符集(基本集)》GB2312-80,简称国标码(或GB码),一共收集了7445个字符,其中汉字6763个。一级汉字3755个,按汉字拼音字母顺序排列;二级汉字3008个,按部首 笔画汉字排列。。两个字节编码一个国标码字符。
2.汉字的机内表示:机内码:
计算机在信息处理时表示汉字的编码,称作机内码。现在我国都用国标码(GB2312)作为机内码。
中国的台湾省也在使用中文,但是由于历史的原因,那里没有使用大陆的简体中文,还在使用着繁体的中文,并且他们自己也制定了一套表示繁体中文的字符编码,称为 BIG5,不幸的是,虽然他们的也使用两个字节来表示一个汉字,但他们没有象我们兼容 ASCII 一样兼容大陆的简体中文,他们使用了大致相同的编码范围来表示繁体的汉字。天哪! ISO8859 的悲剧又出现在同样使用汉字的中国人身上了,同样的编码在大陆和台湾的编码中实际上表示不同的字符,大陆的玩家在玩台湾的游戏时,经常会遇到乱码的问题, 问题根源就在于,大陆的计算机默认字符的编码就是 GB2312, 当碰到台湾使用 BIG5 编码的文字时,就会作出错误的转换。
3.汉字输入码――输入码(外码)
汉字输入码是指直接从键盘输入的各种汉字输入方法的编码。编码方法主要有三种:数字编
码、拼音编码和字型编码。 数字编码:是用一串数字代表一个汉字。拼音编码:是以汉字读音为基础的输入法。字型编码:是根据汉字形状确定的编码。
(1)数字码(或流水码)如:电报码、区位码、纵横码
优点:无重码,不仅能对汉字编码,还能对各种字母、数字符号进行编码。
缺点:是人为规定的编码,属于无理码,只能作为专业人员使用。
(2)字音码如:全拼、双拼、微软拼音
优点:简单易学。
缺点:汉字同音多,所以重码很多,输入汉字时要选字。
(3)字形码如:五笔字型、表形码、大众码、四角码
优点:不考虑字的读音,见字识码,一般重码率较低,经强化训练后可实现盲打。
缺点:拆字法没有统一的国家标准,拆字难,编码规则繁,记忆量大。
(4)音形码如:声形、自然码、钱码
优点:利用音码的易学性和形码可有效减少重码的优点。
缺点:既要考虑字音,又要考虑字形,比较麻烦。
4.汉字的输出:字形码
在屏幕上显示或在打印机上打印出来的点阵存储信息,由汉字的字模信息所组成。
(1)点阵字形: 16X16、24X24、32X32、48X48、64X64
每一个点在存储器中用一个二进制位(bit)存储,所以一个16×16点阵汉字需要32(16×16/8=32)个字节存储空间。
(2)轮廓字形
字笔画的轮廓用一组直线和曲线勾画。记录的是这些几何形状之间的关系。精度高。Windows的TrueType字库采用此法。
5. 计算机汉字的处理过程:
键盘输入(输入码)——编码转换(机内码)——编辑与输出(字型码)
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论