细说⼀个汉字等于⼏个字符,以及汉字,字符,字节,位之间的
unicode汉字关系
⼀:
1个汉字 = 1个字 = 1个字符
⼆:
1个字符 = 1个字节 = 8bit(ACSII码下)
三:
1个字符 = 2个字节 = 16bit(Unicode码下)
以前⼀直使⽤oracle11g,⼀个汉字占3个字节,所以在操作时也⼀直这样分配长度。
今天了下mysql发现不对了
可以看到第⼀个的长度确实是15,但是第⼆个为什么是5?
在⽹上到资料:char_length计算的是字符长度,⽽length计算的是字节长度,刚好我使⽤的是utf8,⼀个汉字占3个字节,占⼀个字符。那好了,应该是对的上了,可是好奇⼼我就试了下
为什么这是相同的?因为这不是汉字,⼀个字母⼀个字符⼀个字节。
好了,现在知道原来mysql和⼀样的,但是⼜看到⼀篇说mysql的varchar与oracle的varchar2是不⼀样的,前者是⽤字符做单位的,后者是⽤字节做单位的。对于oracle11g的varchar2是⽤字节做单位的在以前玩oracle时测试过,但是mysql就没有测试过,好吧现在测试下。我先将字段长度改⼩看下能不能给容下,测试结果确实是可以的,证明mysql的varchar是⽤字符做单位的,这⾥就不贴图了,⼤家可以⾃⼰验证下。
总结:oracle 中varchar2(10) 既10个字节3个汉字
mysql 中varchar(10) 既10个字符10个汉字
所以现在可以将mysql的varchar字段减⼩1/3了,性能也能提⾼哦。
问题1:⼀个中⽂字符⽤utf-8编码占⽤⼏个字节,gbk,gb2312,还有iso8859-1呢?
答案1:常⽤中⽂字符⽤utf-8编码占⽤3个字节(⼤约2万多字),
但超⼤字符集中的更⼤多数汉字要占4个字节(在unicode编码体系中,U+20000开始有5万多汉字)。
GBK、GB2312收编的汉字占2个字节,严格地⽤iso8859-1⽆法表⽰汉字,只能转为问号。
汉字⼀个字占两个字节。英⽂字母⼀个字母占⼀个字节
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论