UltraEdit引出的字符编码问题
一.关于各种编码文件标记头
各种编码文件开头
UTF-8以   EF BB BF
UTF-16以  FE FF(big-endian)   FF FF(little-endian)
UNICODE以 FF FE
一.各种编码对于中文:
各种编码对于中文:
ASCII   中文 2个字节;英文:1个字节
UNICODE 中文 2个字节;英文:2个字节
UTF-8   中文 3个字节;英文:1个字节  (开头有2个字节表示长度)
二.中国的各种编码表示
ASCII      中国--D6 D0 B9 FA   数字转unicode编码          A--61
UTF-8      中国--E4 E8 AD E5 9B BD 61    A--61
UNICODE   中国--FF FE 2D 4E FD 56       A--61 00
三.关于UltraEdit的问题
1.用UNICODE编辑可以看到,默认的存储是ansi。用记事本的另存为即可看到其真实的存储格式。
2.UltraEdit打开utf-8会默认的用UNICODE方式来显示,我们要转化为ASCII显示,这样就能看到真实的utf编码了.在ASCII编辑模式下,会将utf-8编码当作gb2312来显示。
3.关于各种转化.
对于UNICODE/UTF-8转UTF-8(UNICODE编辑),我们可以看到中文字符,但是却看不到UTF-8的16进制表示,看到的都是UNICODE,因为UltraEdit会做内部转换。
对于UNICODE/ASCII/UTF-8-8转UTF-8-8(ASCII编辑),我们可以看到UTF-8-8的真实16进制表示,但是却看不到中文字符的正常显示。
4. 关于 中国a中国中国(6中文1英文)
倘不出问题,用ASCII转UTF-8-8(UNICODE编辑),这时在UNICODE中看到的文字的16进制编码是UNICODE格式,因为是UNICODE编辑的。但是保存却是UTF-8格式保存的。例如:

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。