计算机中的字是如何处理的--688IT编程网

字符编码

一、西文字符编码：ASCII码

ASCII码全称为美国标准信息交换码（American Standard Code for Information Interchange)。它用8位二进制数来编码，第1位全部是0，因此ASCII码最多可以表示2^7＝128个字符，包括字母、数字、标点符号、控制符号等西文字符。ASCII码已经被ISO认定为国际标准。

1）控制字符：0~31、127，共33个，不可显示； 2）普通字符：95个，包括10个阿拉伯数字、52个英文大小写字母、33个标点符号和运算符。

常见ASCII码的大小规则，0－9＜A－Z＜a－z：

ASCII码表

L H	0000	0001	0010	0011	0100	0101	0110	0111
0000	NUL	DLE	SP	0	@	P	‘	p
0001	SOH	DC1	!	1	A	Q	a	q
0010	STX	DC2	“	2	B	R	b	r
0011	ETX	DC3	#	3	C 乱码文字怎么打出来	S	c	s
0100	EOT	DC4	$	4	D	T	d	t
0101	ENQ	NAK	%	5	E	U	e	u
0110	ACK	SYN	&	6	F	V	f	v
0111	BEL	ETB	,	7	G	W	g	w
1000	BS	CAN	)	8	H	X	h	x
1001	HT	EM	(	9	I	Y	i	y
1010	LF	SUB	*	:	J	Z	j	z
1011	VT	ESC	+	;	K	[	k	{
1100	FF	FS	’	<	L	\	l	\|
1101	CR	GS	-	=	M	]	m	}
1110	SO	RS	.	>	N	^	n	~
1111	SI	US	/	?	O	_	o	DEL

　记住几个常见字母的ASCII码大小：“A”为65；“a”为97；“0”为48；

在计算机系统中，用1字节来存储一个ASCII字符。上表是标准ASCII字符，有一个特点：最高位（第八位）为0。还有一种叫做扩充ASCII码，它是用8位二进制数给字符编码，这样可以表示256种字符。

二、汉字编码

计算机处理汉字时，也必须先将汉字代码化，然后对汉字代码进行处理。

1.汉字国标码

中国的文字不是拼音文字，汉字的个数有数万之多，远远超过区区 256 个字符，因此我们就使用两个字节来表示一个中文。为了与 ASCII 保持兼容，与ASCII码相同的编码我们不使用。

1980年我国颁布了《信息交换用汉字编码字符集（基本集）》GB2312－80，简称国标码（或GB码），一共收集了7445个字符，其中汉字6763个。一级汉字3755个，按汉字拼音字母顺序排列；二级汉字3008个，按部首笔画汉字排列。。两个字节编码一个国标码字符。

2．汉字的机内表示：机内码：

计算机在信息处理时表示汉字的编码，称作机内码。现在我国都用国标码（GB2312）作为机内码。

中国的台湾省也在使用中文，但是由于历史的原因，那里没有使用大陆的简体中文，还在使用着繁体的中文，并且他们自己也制定了一套表示繁体中文的字符编码，称为 BIG5,不幸的是，虽然他们的也使用两个字节来表示一个汉字，但他们没有象我们兼容 ASCII 一样兼容大陆的简体中文，他们使用了大致相同的编码范围来表示繁体的汉字。天哪! ISO8859 的悲剧又出现在同样使用汉字的中国人身上了，同样的编码在大陆和台湾的编码中实际上表示不同的字符，大陆的玩家在玩台湾的游戏时，经常会遇到乱码的问题，问题根源就在于，大陆的计算机默认字符的编码就是 GB2312, 当碰到台湾使用 BIG5 编码的文字时，就会作出错误的转换。

3．汉字输入码――输入码（外码）

汉字输入码是指直接从键盘输入的各种汉字输入方法的编码。编码方法主要有三种：数字编

码、拼音编码和字型编码。数字编码：是用一串数字代表一个汉字。拼音编码：是以汉字读音为基础的输入法。字型编码：是根据汉字形状确定的编码。

（1）数字码（或流水码）如：电报码、区位码、纵横码

优点：无重码，不仅能对汉字编码，还能对各种字母、数字符号进行编码。

缺点：是人为规定的编码，属于无理码，只能作为专业人员使用。

（2）字音码如：全拼、双拼、微软拼音

优点：简单易学。

缺点：汉字同音多，所以重码很多，输入汉字时要选字。

（3）字形码如：五笔字型、表形码、大众码、四角码

优点：不考虑字的读音，见字识码，一般重码率较低，经强化训练后可实现盲打。

缺点：拆字法没有统一的国家标准，拆字难，编码规则繁，记忆量大。

（4）音形码如：声形、自然码、钱码

优点：利用音码的易学性和形码可有效减少重码的优点。

缺点：既要考虑字音，又要考虑字形，比较麻烦。

4．汉字的输出：字形码

在屏幕上显示或在打印机上打印出来的点阵存储信息，由汉字的字模信息所组成。

（1）点阵字形: 16X16、24X24、32X32、48X48、64X64

每一个点在存储器中用一个二进制位（bit）存储，所以一个16×16点阵汉字需要32（16×16/8＝32）个字节存储空间。

（2）轮廓字形

字笔画的轮廓用一组直线和曲线勾画。记录的是这些几何形状之间的关系。精度高。Windows的TrueType字库采用此法。

5．计算机汉字的处理过程：

键盘输入（输入码）——编码转换（机内码）——编辑与输出（字型码）

688IT编程网

计算机中的字是如何处理的

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

计算机中的字是如何处理的

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则