字符编码
一、西文字符编码:ASCII码
ASCII码全称为美国标准信息交换码(American Standard Code for Information Interchange)。它用8位二进制数来编码,第1位全部是0,因此ASCII码最多可以表示2^7=128个字符,包括字母、数字、标点符号、控制符号等西文字符。ASCII码已经被ISO认定为国际标准。
1)控制字符:0~31127,共33个,不可显示;  2)普通字符:95个,包括10个阿拉伯数字、52个英文大小写字母、33标点符号和运算符。   
常见ASCII码的大小规则,09AZaz
ASCII码表
L      H
0000
0001
0010
0011
0100
0101
0110
0111
0000
NUL
DLE
SP
0
@
P
p
0001
SOH
DC1
!
1
A
Q
a
q
0010
STX
DC2
2
B
R
b
r
0011
ETX
DC3
#
3
C
乱码文字怎么打出来
S
c
s
0100
EOT
DC4
$
4
D
T
d
t
0101
ENQ
NAK
%
5
E
U
e
u
0110
ACK
SYN
&
6
F
V
f
v
0111
BEL
ETB
,
7
G
W
g
w
1000
BS
CAN
)
8
H
X
h
x
1001
HT
EM
(
9
I
Y
i
y
1010
LF
SUB
*
:
J
Z
j
z
1011
VT
ESC
+
;
K
[
k
{
1100
FF
FS
<
L
\
l
|
1101
CR
GS
-
=
M
]
m
}
1110
SO
RS
.
>
N
^
n
~
1111
SI
US
/
?
O
_
o
DEL  
  记住几个常见字母的ASCII码大小:“A”为65;“a”为97;“0”为48
在计算机系统中,用1字节来存储一个ASCII字符。上表是标准ASCII字符,有一个特点:最高位(第八位)为0。还有一种叫做扩充ASCII码,它是用8位二进制数给字符编码,这样可以表示256种字符。
二、汉字编码
计算机处理汉字时,也必须先将汉字代码化,然后对汉字代码进行处理。
1.汉字国标码
   中国的文字不是拼音文字,汉字的个数有数万之多,远远超过区区 256 个字符,因此我们就使用两个字节来表示一个中文为了与 ASCII 保持兼容,与ASCII码相同的编码我们不使用。
1980年我国颁布了《信息交换用汉字编码字符集(基本集)》GB2312-80,简称国标码(或GB码),一共收集了7445个字符,其中汉字6763个一级汉字3755个,按汉字拼音字母顺序排列;二级汉字3008个,按部首 笔画汉字排列。。两个字节编码一个国标码字符
   2汉字的机内表示:机内码:
计算机在信息处理时表示汉字的编码,称作机内码。现在我国都用国标码(GB2312)作为机内码
          中国的台湾省也在使用中文,但是由于历史的原因,那里没有使用大陆的简体中文,还在使用着繁体的中文,并且他们自己也制定了一套表示繁体中文的字符编码,称为 BIG5,不幸的是,虽然他们的也使用两个字节来表示一个汉字,但他们没有象我们兼容 ASCII 一样兼容大陆的简体中文,他们使用了大致相同的编码范围来表示繁体的汉字。天哪! ISO8859 的悲剧又出现在同样使用汉字的中国人身上了,同样的编码在大陆和台湾的编码中实际上表示不同的字符,大陆的玩家在玩台湾的游戏时,经常会遇到乱码的问题, 问题根源就在于,大陆的计算机默认字符的编码就是 GB2312, 当碰到台湾使用 BIG5 编码的文字时,就会作出错误的转换。
3.汉字输入码――输入码(外码)
汉字输入码是指直接从键盘输入的各种汉字输入方法的编码。编码方法主要有三种:数字编
码、拼音编码和字型编码。 数字编码:是用一串数字代表一个汉字。拼音编码:是以汉字读音为基础的输入法。字型编码:是根据汉字形状确定的编码。
(1)数字码(或流水码)如:电报码、区位码、纵横码
优点:无重码,不仅能对汉字编码,还能对各种字母、数字符号进行编码。
缺点:是人为规定的编码,属于无理码,只能作为专业人员使用。
(2)字音码如:全拼、双拼、微软拼音
    优点:简单易学。
    缺点:汉字同音多,所以重码很多,输入汉字时要选字。
(3)字形码如:五笔字型、表形码、大众码、四角码
优点:不考虑字的读音,见字识码,一般重码率较低,经强化训练后可实现盲打。
缺点:拆字法没有统一的国家标准,拆字难,编码规则繁,记忆量大。
(4)音形码如:声形、自然码、钱码
优点:利用音码的易学性和形码可有效减少重码的优点。
缺点:既要考虑字音,又要考虑字形,比较麻烦。
4.汉字的输出:字形码
在屏幕上显示或在打印机上打印出来的点阵存储信息,由汉字的字模信息所组成。
 (1)点阵字形:  16X1624X2432X3248X4864X64
每一个点在存储器中用一个二进制位(bit)存储,所以一个16×16点阵汉字需要3216×16/832)个字节存储空间。
  (2)轮廓字形
字笔画的轮廓用一组直线和曲线勾画。记录的是这些几何形状之间的关系。精度高。WindowsTrueType字库采用此法。 
5. 计算机汉字的处理过程:
键盘输入(输入码)——编码转换(机内码)——编辑与输出(字型码)

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。