utf-8编码 二进制解析
UTF-8是一种用于表示Unicode字符的可变长度字符编码,它使用1到4个字节不等的长度来表示不同的字符。以下是UTF-8编码的二进制解析规则:
1. 单字节字符(ASCII字符): ASCII字符的UTF-8编码与ASCII编码完全相同。ASCII字符的二进制表示的最高位是0。
```
例如:字符 'A' 的ASCII码为 65,对应的UTF-8编码为 01000001。
```
2. 多字节字符: Unicode码点在U+0080到U+07FF之间的字符使用两个字节编码,U+0800到U+FFFF之间的字符使用三个字节编码,U+10000到U+10FFFF之间的字符使用四个字节编码。
- 两字节字符: 110xxxxx 10xxxxxx
unicode所有字符 ```
例如:字符 'é' 的Unicode码点为 U+00E9,对应的UTF-8编码为 11000011 10101001。
```
- 三字节字符: 1110xxxx 10xxxxxx 10xxxxxx
```
例如:字符 '中' 的Unicode码点为 U+4E2D,对应的UTF-8编码为 11100100 10001001 10101101。
```
- 四字节字符: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
```
例如:字符 '
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
python u开头的字符串
« 上一篇
Python如何将字符和Unicode编码转变
下一篇 »
发表评论