字符/汉字在机器中的表示
一、字符的表示
人们可以通过键盘和显示器输入和显示不同的字符,但在计算机中,所有信息都 是用二进制代码表示。n位二进制代码能表示2n个不同的字符,这些字符的不同组合就可表示不同的信息。为使计算机使用的数据能共享和传递,必须对字符进行统一的 编码。 1. ASCII码(美国标准信息交换码)是使用最广泛的一种编码。ASCII码由基本的ASCII码和扩充的ASCII码组成。在ASCII码中,把二进制位最高位为0的数字都称为基本的ASCII码,其范围是0~127;把二进制位最高位为1的数字都称为扩展的ASCII码,其范围是128~255。
内码和外码
内码:对于输入计算机的文本文件,机器是存储其相应的字符的ASCII码(用一个ASCII码存储一个字符需8个二进制位,即一个字节),这些可被计算机内部进行存储和运算使用的数字代码称内码。如输入字符"A",计算机将其转成内码65后存于内存。
外码:计算机与人进行交换的字形符号称为外码,如字符"A"的外码是"A"。
通常一个西文字符占一个字节(半角),一个中文字符占二个字节。
汉字的表示方法
(1)ASCII编码
ASCII编码是由美国国家标准委员会制定的一种包括数字、字母、通用符号和控制符号在内的字符编码集,全称叫美国国家信息交换标准代码(American Standard Code for Info
ASCII编码是由美国国家标准委员会制定的一种包括数字、字母、通用符号和控制符号在内的字符编码集,全称叫美国国家信息交换标准代码(American Standard Code for Info
rmation Interchange)。ASCII码是一种7位二进制编码,能表示27=128种国际上最通用的西文字符,是目前计算机中,特别是微型计算机中使用最普遍的字符编码集。
ASCII编码包括4类最常用的字符。
①数字“0”~“9”。
①数字“0”~“9”。
②26个英文字母。包括大写字母和小写字母。
③用字符。如“+”、“-”、“=”、“*”和“/”等共32个。
④制符号。如空格符和车符等共34个。
ASCII码是一种7位编码,它存时必须占全一个字节,也即占用8位:b7b6b5b4b3b2b1b0,其中b7恒为0,其余几位为ASCII码值。
(2)汉字编码
国家标准汉字编码集(GB2312-80)共收集和定义了7445个基本汉字。其中,使用频度较高的3755个汉字定义为一级汉字,以拼音顺序排列。使用频率较低的3008个汉字定义为二级汉字,以字首的笔划顺序排列,二级字库共有6763个汉字。另外还定义了拉丁字母、俄文字母、汉语拼音字母、数字和常用符号等682个。
③用字符。如“+”、“-”、“=”、“*”和“/”等共32个。
④制符号。如空格符和车符等共34个。
ASCII码是一种7位编码,它存时必须占全一个字节,也即占用8位:b7b6b5b4b3b2b1b0,其中b7恒为0,其余几位为ASCII码值。
(2)汉字编码
国家标准汉字编码集(GB2312-80)共收集和定义了7445个基本汉字。其中,使用频度较高的3755个汉字定义为一级汉字,以拼音顺序排列。使用频率较低的3008个汉字定义为二级汉字,以字首的笔划顺序排列,二级字库共有6763个汉字。另外还定义了拉丁字母、俄文字母、汉语拼音字母、数字和常用符号等682个。
GB2312-80规定每个汉字用2个字节的二进制编码,每个字节最高位为1,其余7位用于表示汉字信息。
.汉字内码 汉字内码是用于汉字信息的存储、交换、检索等操作的机内代码,一般采用两个字节表示。英文字符的机内代码是七位的ASCII码,当用一个字节表示时,最高位为0,为与之相区别,汉字机内代码中两个字节的最高位均为1。
(3)汉字输入码
汉字输入方法很多,如区位、拼音、五笔字型等。不同输入法有自己的编码方案,所采用的编码方案统称为输入码。输入码进入机器后必须转换为机内码进行存储和处理。
(3)汉字输入码
汉字输入方法很多,如区位、拼音、五笔字型等。不同输入法有自己的编码方案,所采用的编码方案统称为输入码。输入码进入机器后必须转换为机内码进行存储和处理。
1.汉字的输入编码 :为能直接使用西文标准键盘输入汉字,必须为汉字设计相应的输入编码方法。
主要有以下三类:
a数字编码: 常用的是国标区位码,用数字串代表一个汉字输入。区位码将6763个两级,汉字分为94个区,每个区分94位,实际上把汉字表示成二维数组,每个汉字在数组中的下
标就是区位码。区码和位码各两位十进制数字,如"中"字位于第54区48位,区位码为5448。
b拼音码: 拼音码是以汉语拼音为基础的输入方法。因汉字同音字太多,重码率高,因此输入后还需进
行同音字选择。
c字形编码:字形编码是以汉字的形状来进行的编码。把汉字的笔划部件用字母或数字进行编码,按笔划
顺序依次输入,就能表示一个汉字。如五笔字型编码。
(4)汉字字形码
汉字字形码是一种用点阵表示字形的码,是汉字的输出形式。它把汉字排成点阵。常用的点阵由16×16、24×24、32×32或更高。
一个16×16点阵的汉字字形要占32个字节,24×24点阵要占72个字节。……
所有不同的汉字字体的字形构成汉字库,一般存储在硬盘上,当要显示输出时,才调入内存,检索到要输出的字形送到显示器输出。
(4)汉字字形码
汉字字形码是一种用点阵表示字形的码,是汉字的输出形式。它把汉字排成点阵。常用的点阵由16×16、24×24、32×32或更高。
一个16×16点阵的汉字字形要占32个字节,24×24点阵要占72个字节。……
所有不同的汉字字体的字形构成汉字库,一般存储在硬盘上,当要显示输出时,才调入内存,检索到要输出的字形送到显示器输出。
3.汉字字模码 字模码是用点阵表示的汉字字形代码,它是汉字的输出形式。 根据汉字输出要求不同,点阵的多少也不同。简易型汉字为16×16点阵,提高型汉字为24×24点阵、32×32点阵或更高。因此字模点阵的信息量是很大的,所占存储空间也很大。如16×16点阵,每个汉字占32字节,国标两级汉字要占用256K字节。因此字模点阵只能用来构成汉字库,而不能用于机内存储。字库中存储了每个汉字的点阵代码。当显示输出或打印输出时才检索字库,输出字模点阵,得到字形。如下图示出ascii共有多少个字符?quot;英"字的点阵及代码。
(5)图像的表示
一幅图像可认为是由一个个像点构成的,这些像点称为像素。每个像素必须用若干二进制位进行编码,才能表示出现实世界中的五彩缤纷的图像。
当将图像分解成一系列像点、每个点用若干bit表示时,我们就把这幅图象数字化了。
数字图像数据量特别巨大,假定画面上有150000个点,每个点用24个bit来表示,则这幅画面要占用450000个字节。如果想在显示器上播放视频信息,一秒钟需传送25幅画面,相当与11250000个字节的信息量。因此,用计算机进行图像处理,对机器的性能要求是很高的。
例:
(6)声音的表示
声音是一种连续变化的模拟量,我们可以通过“模/数”转换器对声音信号按固定的时间进行采样,把它变成数字量。一旦转变成数字形式,便可把声音储存在计算机中并进行处理了。
(6)声音的表示
声音是一种连续变化的模拟量,我们可以通过“模/数”转换器对声音信号按固定的时间进行采样,把它变成数字量。一旦转变成数字形式,便可把声音储存在计算机中并进行处理了。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论