UTF-8编码的空格(194160)问题
  前台的字符串传递到后台进⾏处理,发现了⼀个较诡异的问题:字符串中的⼀个空格(ASCII:32)被UTF-8编码之后变成了⼀个诡异的字符(ASCII:194 和 160的组合)!但在后台其表象还是空格。
  在UTF-8编码⾥⾯存在⼀个特殊的字符,其编码是“0xC2 0xA0”,转换成字符的时候表现为⼀个半⾓空格,跟⼀般的半⾓空格(ASCII
0x20)不同的是它的宽度不会被压缩,所以排版中常能⽤到它。但是GB2312、Unicode之类并没有这样的字符,所以转换后前台会显⽰
为“?”号,只是显⽰为问号⽽不是真正的问号,所以⽆法被替换!
  对这两个看似相同的字符串进⾏⼀下转换可以确认:原始的字符串为:”#'  %$ ()_ -{}.b“  被转义后的字符串为:”#'  %$ ()_ -{}.b“ 【注:双引号不算,转换为byte数组之后可以看到,原来的是16个字节,后来的那个是17个字节:这就是 32 --> 194  160 的结果】
字符串转数组编码方式
string tmp1 = "#'  %$ ()_ -{}.b";
string tmp2 = "#'  %$ ()_ -{}.b";
byte[] o1 = Encoding.UTF8.GetBytes(tmp1);
byte[] o2 = Encoding.UTF8.GetBytes(tmp2);
  知道了这个原因之后,就好办了,写代码可以把194 和 160 的组合转换回去。程序(C#)如下所⽰:
private string ChangeUTF8Space(string targetStr)
{
try
{
string currentStr = string.Empty;
byte[] utf8Space = new byte[] { 0xc2, 0xa0 };
string tempSpace = Encoding.GetEncoding("UTF-8").GetString(utf8Space);
currentStr = targetStr.Replace(tempSpace, "");
return currentStr;
}
catch (Exception ex)
{
return targetStr;
}
}
  更多的编码格式对照表可以看这篇⽂章:

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。