unicode汉字UTF-8编码是一种将Unicode编码规则和计算机的实际编码规则对应起来的一个标准,现在流行的UTF-8有2种:UTF-8和UTF-16 。UTF-8与Unicode编码规范不同,它定义了一种“区间规则”,这种规则可以和ASCII编码保持最大程度的兼容。对于常用的字符,即0~127的ASCII字符,UTF-8用一个字节来表示,这意味着只包含7位ASCII字符的字符数据在ASCII和UTF-8两种编码方式下是一致的。如果字符对应的Unicode码是0X0000,或在0X0080与0X007f之间,对应的UTF-8码是两个字节。如果字符对应的Unicode码在0X0800与0Xffff之间,对应的UTF-8编码是3个字节。因为中文字符的Unicode编码在0X0800与0Xffff之间,所以数据如果是中文,采用UTF-8编码数据量会增加50%。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。