bit、byte、位、字节、汉字的关系--688IT编程网

bit、byte、位、字节、汉字的关系

1 bit = 1 二进制数据
1 byte = 8 bit
1 字母 = 1 byte = 8 bit
1 汉字 = 2 byte = 16 bit

1. bit：位
一个二进制数据0或1，是1bit；

2. byte：字节
存储空间的基本计量单位，如：MySQL中定义 VARCHAR(45) 即是指 45个字节；
1 byte = 8 bit

3. 一个英文字符占一个字节；
1 字母 = 1 byte = 8 bit

4. 一个汉字占2个字节；
1 汉字 = 2 byte = 16 bit

5. 标点符号
A>. 汉字输入状态下，默认为全角输入方式；
B>. 英文输入状态下，默认为半角输入方式；

C>. 全角输入方式下，标点符号占2字节；
D>. 半角输入方式下，标点符号占1字节；

故：汉字输入状态下的字符，占2个字节 (但不排除，自己更改了默认设置)；

英文输入状态下的字符，占1个字节 (但不排除，自己更改了默认设置)；

老美在发明电脑时，肯定以自己的英文字母--即他们自认为的字符为最小的存储计量单位，于是也就有了不规范的1字符=1byte，岂不知还有我们伟大的汉字计量单位，NND，一个汉字也是一个字符，我们的1汉字字符就等于2byte，后来，他们可能意识到这个尴尬的问题，于是又标榜为：一个字母为一个标准字符，去球吧，谁整天没事说个字符还“标准字符”，所以啊，个人认为：字符，不能用于标准的计量单位。

--------------------------------
补充：
计算机对各国语言的支持度，可分为以下三个阶段，如图：

转载：blog.csdn/Zevin/article/details/5772670

Byte（字节）与bit的区别：
在计算机科学中，bit是表示信息的最小单位，叫做二进制位；一般用0和1表示。Byte叫做字节，由8个位（8bit）组成一个字节(1Byte)，用于表示计算机中的一个字符。bit与Byte之间可以进行换算，其换算关系为：1Byte=8bit（或简写为：1B=8b）；在实际应用中一般用简称，即1bit简写为1b(注意是小写英文字母b)，1Byte简写为1B（注意是大写英文字母B）。

我们所说的硬盘容量是40GB、80GB、100GB，这里的B指是的Byte也就是“字节”。
1 KB = 1024 Bytes =2^10 Bytes
1 MB = 1024 KB = 2^20 Bytes
1 GB = 1024 MB = 2^30 Bytes

字符又是什么呢?
字符是可使用多种不同字符方案或代码页来表示的抽象实体。例如，Unicode UTF-16 编码

将字符表示为 16 位整数序列，而 Unicode UTF-8 编码则将相同的字符表示为 8 位字节序列。公共语言运行库使用 Unicode UTF-16（Unicode 转换格式，16 位编码形式）表示字符。

针对公共语言运行库的应用程序使用编码将字符表式形式从本机字符方案映射至其他方案。应用程序使用解码将字符从非本机方案映射至本机方案。

字节(Byte):字节是通过网络传输信息（或在硬盘或内存中存储信息）的单位。

一个英文字母(不分大小写)占一个字节的空间，一个中文汉字占两个字节的空间．
符号：英文标点占一个字节，中文标点占两个字节．

一个二进制数字序列,在计算机中作为一个数字单元,一般为8位二进制数，如一个ASCII码就是一个字节。

理解编码的关键：

是要把字符的概念和字节的概念理解准确。这两个概念容易混淆，我们在此做一下区分：
概念描述举例
字符人们使用的记号，抽象意义上的一个符号。 '1', '中', 'a', '$', '￥', ……
字节计算机中存储数据的单元，一个8位的二进制数，是一个很具体的存储空间。 0x01, 0x45, 0xFA, ……
ANSI字符串：（多字节字符）
在内存中，如果“字符”是以 ANSI 编码形式存在的，一个字符可能使用一个字节或多个字节来表示，那么我们称这种字符串为 ANSI 字符串或者多字节字符串。 "中文123"（占7字节）
UNICODE字符串：（宽字符）
在内存中，如果“字符”是以在 UNICODE 中的序号存在的，那么我们称这种字符串为 UNICODE 字符串或者宽字节字符串。 L"中文123"（占10字节）
由于不同 ANSI 编码所规定的标准是不相同的，因此，对于一个给定的多字节字符串，我们必须知道它采用的是哪一种编码规则，才能够知道它包含了哪些“字符”。而对于 UNICODE 字符串来说，不管在什么环境下，它所代表的“字符”内容总是不变的。

什么是C语言中的宽字符与多字节字符？
字符串是什么字符的集合C语言原本是在英文环境中设计的，主要的字符集是7位的ASCII码，8位的byte（字节）是最常见的字符编码单位。但是国际化软件必须能够表示不同的字符，而这些字符数量庞大，无法使用一个字节编码。

C95标准化了两种表示大型字符集的方法：宽字符（wide character，该字符集内每个字符使用相同的位长）以及多字节字符（multibyte character，每个字符可以是一到多个字节不等，而某个字节序列的字符值由字符串或流（stream）所在的环境背景决定）。

自从1994年的增补之后，C语言不只提供char类型，还提供wchar_t类型（宽字符），此类型定义在stddef.h 头文件中。wchar_t指定的宽字节类型足以表示某个实现版本扩展字符集的任何元素。

在多字节字符集中，每个字符的编码宽度都不等，可以是一个字节，也可以是多个字节。源代码字符集和运行字符集都可能包含多字节字符。多字节字符可以被用于字符的常量、字符串字面值（string literal）、标识符（identifier）、注释（comment），以及头文件。

C语言本身并没有定义或指定任何编码集合，或任何字符集（基本源代码字符集和基本运行字符集除外），而是由其实现指定如何编码宽字符，以及要支持什么类型的多字节字符编码机制。

虽然C标准没有支持Unicode字符集，但是许多实现版本使用Unicode转换格式UTF-16和UTF-32来处理宽字符。如果遵循Unicode标准，wchar_t类型至少是16或32位长，而wchar_t类型的一个值就代表一个Unicode字符。

UTF-8是一个由Unicode Consortium（万国码联盟）定义的实现，可以表示Unicode字符集的所有字符。UTF-8字符所使用的空间大小从一个字节到四个字节都有可能。

多字节字符和宽字符（也就是wchar_t）的主要差异在于宽字符占用的字节数目都一样，而多字节字符的字节数目不等，这样的表示方式使得多字节字符串比宽字符串更难处理。比方说，即使字符'A'可以用一个字节来表示，但是要在多字节的字符串中到此字符，就不能使用简单的字节比对，因为即使在某个位置到相符合的字节，此字节也不见得是一个字符，它可能是另一个不同字符的一部分。然而，多字节字符相当适合用来将文字存储成文件。

C提供了一些标准函数，可以将多字节字符转换为wchar_t，或将宽字符转换为多字节字符。比方说，如果C 编译器使用Unicode 标准的UTF-16 和UTF-8，那么下面调用wctomb()函数就可以获得字符的多字节表示方式（注：wctomb = wide character to multibyte）

688IT编程网

bit、byte、位、字节、汉字的关系

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

bit、byte、位、字节、汉字的关系

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则