utf-8和GBK中文字符的长度计算--688IT编程网

字符串长度和占用内存字节utf-8和GBK中⽂字符的长度计算

计算中⽂字符长度，通常会想到1个中⽂字符占两个字节。我本来⼀直也这么认为，可是⼀次计算utf-8中⽂字符的时候，似乎⼜并没这样计算，这就要看中⽂到底是以什么机器可识别字符存储的。

我⾸先在PHP中做了实验，⽤strlen()函数取中⽂字符串“我是”的长度，在UTF-8下是6，在GBK下是4，说明UTF-8每个中⽂字符占⽤了3字节，GBK每个中⽂字符占⽤2字节。

然后我⼜在WINDOWS 7下⽤EditPlus做了实验，分别保存纯⽂本（不含任何空格，只有末尾空字符，不算⼊长度）“我是”，然后⽤⼗六进制的⽅法查看，UTF-8下是"E6 88 91 E6 98 AF" 和 GBK下是"CE D2 CA C7"，和PHP中所得结果相同。

所以基本确定了这两种字符集在处理中⽂时的不同。在我查资料前，我凭经验猜测，因为GBK主要存储是中⽂字符集，所表⽰字符的种类没有UTF-8这种国际通⽤字符集表⽰的种类多，⾃然不需要太⼤的字符空间。再查阅了UTF-8的原理，在看刚才中⽂字符的⼗六进制表⽰，如下：

0xxxxxxx ——1个字节

110xxxxx 10xxxxxx ——2个字节

1110xxxx 10xxxxxx 10xxxxxx ——3个字节

11110xxx 10xxxxxx 10xxxxxx 10xxxxxx ——4个字节

"E6" 中主要看前⾯的"E"，E=1110，表⽰由三个字节组成字符，所以中⽂这类才⽤3字节表⽰。

发表评论

688IT编程网

utf-8和GBK中文字符的长度计算

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

utf-8和GBK中文字符的长度计算

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式