非数值表示
非数值的表示
在计算机中,各种信息都是以二进制编码的形式存在的;也就是说,不管是文字、图形、声音、动画,还是电影等各种信息,在计算机中都是以0和1组成的二进制代码表示的;计算机之所以能区别这些信息的不同,是因为它们采用的编码规则不同。比如:同样是文字,英文字母与汉字的编码规则就不同,英文字母用的是单字节的ASCII码,汉字采用的是双字节的汉字内码;但随着需求的变化,这两种编码有被统一的UNICODE码(由Unicode 协会开发的能表示几乎世界上所有书写语言的字符编码标准)所取代的趋势;当然图形、声音等的编码就更复杂多样了。这也就告诉我们,信息在计算机中的二进制编码是一个不断发展的、高深的、跨学科的知识领域。
非数值数据,又称为字符数据,通常是指字符、字符串、图形符号和汉字等各种数据,它们不用来表示数值的大小,一般情况下不对它们进行算术运算。1、字符编码
字符的编码采用国际通用的ASCII码(American Standard Code for Information Interchange,
美国信息交换标准代码),每个ASCII码以1个字节(Byte)储存,从0到数字127代表不同的常用符号,例如大写A的ASCII码是65,小写a则是97。由于ASCII码只用了字节的七个位,最高位并不使用,所以后来又将最高的一个位也编入这套编码码中,成为八个位的延伸
ASCII(ExtendedASCII)码,这套内码加上了许多外文和表格等特殊符号,成为目前常用的编码。基本的ASCII字符集共有128个字符,其中有96个可打印字符,包括常用的字母、数字、标点符号等,另外还有32个控制字符。标准ASCII 码使用7个二进位对字符进行编码,对应的ISO标准为ISO646标准。
字母和数字的ASCII码的记忆是非常简单的。我们只要记住了一个字母或数字的ASCII码(例如记住A为65,0的ASCII码为48),知道相应的大小写字母之间差32,就可以推算出其余字母、数字的ASCII码。
虽然标准ASCII码是7位编码,但由于计算机基本处理单位为字节(1byte = 8bit),所以一般仍以一个字节来存放一个ASCII字符。每一个字节中多余出来的一位(最高位)在计算机内部通常保持为0(在数据传输时可用作奇偶校验位)。由于标准ASCII字符集字符数目有限,在实际应用中往往无法满足要求。为此,国际标准化组织又制定了ISO2022标准,它
规定了在保持与ISO646兼容的前提下将ASCII字符集扩充为8位代码的统一方法。ISO陆续制定了一批适用于不同地区的扩充ASCII字符集,每种扩充ASCII字符集分别可以扩充128个字符,这些扩充字符的编码均为高位为1的8位代码(即十进制数128~255),称为扩展ASCII码
ASCII码编码表:
2、汉字编码
(一)汉字国标码
汉字国标码亦可称为汉字交换码,主要用于汉字信息处理系统之间或者通信系统之间交换信息使用,简称GB码。该标准共收集常用汉字6 763个,另外还有各种图形符号682个,共计7 445个。
GB码规定每个汉字、图形符号都用两个字节表示,每个字节只使用低七位编码,因此最多能表示出128×128=16 384个汉字。
(二)汉字机内码
汉字在计算机内部其内码是唯一的。因为汉字处理系统要保证中西文的兼容,当系统中同时存在ASCII码和汉字国标码时,将会产生二义性。例如:有两个字节的内容为30H和21H,它既可表示汉字“啊”的国标码,又可表示西文“0”和“!”的ASCII码。为此,汉字机内码应对国标码加以适当处理和变换。
GB码的机内码为二字节长的代码,它是在相应GB码的每个字节最高位上加“1”,即
汉字机内码=汉字国标码+8080H
例如,上述“啊”字的国标码是3021H,其汉字机内码则是B0A1H。(三)汉字输入方法
大体可分为:区位码(数字码)、音码、形码、音形码。
区位码将汉字编码码中的6763个汉字分为94个区,每个区中包含94个
汉字(位),区和位组成一个二维数组,每个汉字在数组中对应一个唯一的区位码。汉字的区位码定长4位,前2位表示区号,后2位表示位号,区号和位号用十进制数表示,区号从01到94,位号也从01到94。例如,“中”
字在54区的48位上,其区位码为“54-48”,“国”字在25区的90位上,其区位码为“25-90”。
需要注意的是:汉字区位码并不等于汉字国标码,它们两者之间的关系可用以下公式表示:
国标码=区位码(十六进制)+2020H
优点是无重码或重码率低,缺点是难于记忆;
音码是音、形混合的编码。优点是大多数人都易于掌握,但同音字多,重码率高,影响输入的速度。
形码:根据汉字的字型进行编码,编码的规则较多,难于记忆,必须经过训练才能较好地掌握;重码率低。如:五笔。
音形码:将音码和形码结合起来,输入汉字,减少重码率,提高汉字输入速度;
(四)字形存储码字形存储码
是指供计算机输出汉字(显示或打印)用的二进制信息,也称字模。通常,采用的是数字化点阵字模。
一般的点阵规模有16×16,24×24,64×64等,每一个点在存储器中用一个二进制位(bit)存储。例如,在16×16的点阵中,需8×32
bit 的存储空间,每8 bit为1字节,所以,需32字节的存储空间。在相同点阵中,不管其笔划繁简,每个汉字所占的字节数相等。
为了节省存储空间,普遍采用了字形数据压缩技术。所谓的矢量汉字是指用矢量方法将汉字点阵字模进行压缩后得到的汉字字形的数字化信息。
3 图形的表示方法
计算机通过指定每个独立的点(或像素)在屏幕上的位置来存储图形,最简单的图形是单图形。单图形包含的颜仅仅有黑和白两种。为了理解计算机怎样对单图形进行编码,可以考虑把一个网格叠放到图形上。网格把图形分成许多单元,每个单元相当于计算机屏幕上的一个像素。对于单图,每个单元(或像素) 都标记为黑或白。如果图像单元对应的颜为黑,则在计算机中用0来表示;如果图像单元对应的颜为白,则在计算机中用1来表示。网格的每一行用一串0和1来表示,如图3.2所示。
图3.2 存储一幅单位图图像
对于单图形来说,用来表示满屏图形的比特数和屏幕中的像素数正好相等。所以,用来存储图形的字节数等于比特数除以8;若是彩图形,其表示方法与单图形类似,只不过需要使用更多的二进制位以表示出不同的颜信息。
4声音的表示方法
通常,声音是用一种模拟(连续的)波形来表示的,该波形描述了振动波的形状。如图3.3所示,表示一个声音信号有三个要素,分别是基线、周期和振幅。
图3.3 声音信号的三要素
声音的表示方法是以一定的时间间隔对音频信号进行采样,并将采样结果进行量化,转化
成数字信息的过程,如图3.4所示。声音的采样是在数字模拟转换时,将模拟波形分割成数字信号波形的过程,采样的频率越大,所获得的波形越接近实际波形,即保真度越高。
图3.4 声音信号的采样和量化
数字化遵循采样定理。
unicode汉字
在实践中,通常使用三个参数来表示声音:采样位数、采样频率和声道数。声道有单声道和立体声之分,甚至更多。人能听见的声音的最高频率是20kHz,根据采样定理,44 100Hz(44kHz)的采样频率能够很好地还原各种声音,而普通人的声带能够达到4000Hz,所以8kHz的采样频率能够满足语言采样的需要。其他采样频率有11 025Hz(11kHz)、22 050Hz(22kHz)等,能够适合不同的场景。采样位数是每个采样点采用多少位来保存声音的强度值,采样位数越高,则还原时越精确。如果不采用压缩技术,那
么保存声音需要的空间可以这样计算:文件所占容量=(采样频率×采样位数×声道)×时间/8(1字节=8bit)。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。