utf8和utf8mb4的区别--688IT编程网

utf8和utf8mb4的区别

⼀、基础知识（bit vs byte vs word）

字 word

字节 byte (B)

位 bit (b)

1字节 = 8位(1 byte = 8bit)

1字 = 2字节(1 word = 2 byte)

⼀个汉字 = 2字节

中⽂标点 = 三个字节

⼀个英⽂字母 = ⼀个字节

英⽂标点 = ⼀个字节

Emoji表情或者某些特殊字符 = 4个字节

⼆、基础知识（Unicode vs ASCII）

因为计算机只能处理数字，如果要处理⽂本，就必须先把⽂本转换为数字才能处理。最早的计算机在设计时采⽤8个⽐特（bit）作为⼀个字节（byte）。⼀个字节能表⽰的最⼤的整数就是255（2^8-1=255），⽽ASCII编码，占⽤0 - 127⽤来表⽰⼤⼩写英⽂字母、数字和⼀些符号，这个编码表被称为ASCII编码，⽐如⼤写字母A的编码是65，⼩写字母z的编码是122。

如果要表⽰中⽂，显然⼀个字节是不够的，⾄少需要两个字节，⽽且还不能和ASCII编码冲突，所以，中国制定了GB2312编码，⽤来把中⽂编进去。

类似的，⽇⽂和韩⽂等其他语⾔也有这个问题。为了统⼀所有⽂字的编码，Unicode应运⽽⽣。Unicode把所有语⾔都统⼀到⼀套编码⾥，这样就不会再有乱码问题了。

Unicode通常⽤两个字节表⽰⼀个字符，原有的英⽂编码从单字节变成双字节，只需要把⾼字节全部填为0就可以。

三、utf8 vs utf8mb4

1.utf8

url编码和utf8区别

是针对Unicode的⼀种可变长度字符编码。由于对可以⽤ASCII表⽰的字符使⽤UNICODE并不⾼效，因为UNICODE⽐ASCII占⽤⼤⼀倍的空间，⽽对ASCII来说⾼字节的0对他毫⽆⽤处。为了解决这个问题，就出现了⼀些中间格式的字符集，他们被称为通⽤转换格式，

即UTF（Unicode Transformation Format）。原来mysql⽀持的 utf8 编码最⼤字符长度为 3 字节，如果遇到 4 字节的宽字符就会插⼊异常了。三个字节的 UTF-8 最⼤能编码的 Unicode 字符是 0xffff，也就是 Unicode 中的基本多⽂种平⾯(BMP)。其中包含了ASCII编

码，Unicode 和部分超出Unicode的相关⽂字，并对他们进⾏最⼤三字节可变长度的⼆进制编码。

2.utf8mb4（mb4 = most bytes 4）

所以utf8是utf8mb4的⼦集，除了将编码改为utf8mb4外不需要做其他转换。⽽在各类符号⽂字逐步发展的过程中，像是包括 Emoji 表情(Emoji 是⼀种特殊的 Unicode 编码，常见于 ios 和 android ⼿机上)，和很多不常⽤的汉字，以及任何新增的 Unicode 字符等等都需要进⾏编码，所以utf8mb4应运⽽⽣，这也是两者最本质的区别。

688IT编程网

utf8和utf8mb4的区别

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

utf8和utf8mb4的区别

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式