xml⽂档使⽤utf-8编码中⽂出现错误unicode编码转换二进制
常见字符集介绍
简体中⽂:GBK,GB2312。
繁体中⽂:BIG5。
西欧字符:ISO8859-1。
通⽤国际编码:Unicode。
还有⼀种常⽤的UTF-8
Unicode与UTF-8区别
unicode是⼀种全球通⽤的字符集,这种字符集号称可以表⽰地球上的任何⽂字。实际上,unicode已经开始取代ascii和lation-1字符集。这种字符集不仅可以表⽰绝⼤部分国家的⽂字,⽽且提供了⼀个全⾯的数学与技术符号集,⽤于简化科学信息交换。⽽utf-8则是⼀种简便的、向后兼容的字符集,它使得那些以ascii为字符集⽽设计的操作系统,如unix或linux,也可使⽤unicode。既然utf-8兼容unicode那么utf-8应该兼容中⽂,那么我的题⽬是不是错了呢?
xml如果不适⽤encoding指定编码⽅式,那么默认使⽤utf-8,的确,utf-8兼容unicode,也确实对中⽂有很好的⽀持,但是需要指出的是:当我们使⽤⽂本编辑⼯具保存xml⽂档时也涉及到字符集问题。众所周知,磁盘上所有的⽂件都是以⼆进制形式保存,这意味着保存⽂件时需要将⽂件中的字符转换为⼆进制码,这个过程叫编码,然后再保存。类似的,当使⽤⽂本⼯具读取⽂本⽂件时,需要将⼆进制码饭转换为字符(解码)。
⽂本⽂件保存、读取时分别使⽤字符集进⾏编码和解码。因此,为了正常读取⽂本⽂件的内容,保存、读取⽂件时必须使⽤相同的字符集。如果xml使⽤utf-8字符集,表⽰解码也就是读取时使⽤的字符集,该字符集必须和保存⽂件时所使⽤的字符集⼀致。简体中⽂windows平台保存⽂件默认使⽤gbk字符集,所以使⽤utf-8解码有中⽂的xml⽂档会报错的。同理其他类型⽂档乱码也是⼀样的问题。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。