Java去除utf-8类型的空格的方法--688IT编程网

Java去除utf-8类型的空格的⽅法

问题产⽣

空格字符串是什么

最近遇到⼀个这样的问题，在⽣成的报⽂中，某个字段信息后⾯有⼀个空格，在代码中trim()下，它仍然存在。到底什么原因呢？

问题的根源

经过多番查证，是由于utf-8中的特俗字符造成的。

问题的根源，在于UTF-8这种编码⾥⾯，存在⼀个特殊的字符，其编码是“0xC2 0xA0”，转换成字符的时候，表现为⼀个空格，跟⼀般的半⾓空格（ASCII 0x20）⼀样，唯⼀的不同是它的宽度不会被压缩，因此⽐较多的被⽤于⽹页排版（如⾸⾏缩进之类）。⽽其他的编码⽅式如GB2312、Unicode之类并没有这样的字符，因此如果简单地进⾏编码转换，⽣成地GB2312/Unocode字符串中，这个字符就会被替换成为问号（ASCII ox3F）。

使⽤UTF-8进⾏HTMLDecode的时候，对于语句开头的（），就会被⾃动转换成为这个特殊的空格，可能是判断为放在开头的空格，⼀定是⽤来排版的。在转换为其他编码之前，这个特殊的空格受到的待遇与普通的半⾓空格是⼀致的，甚⾄也会被trim()去掉。

因此，碰到这个问题的原因有两种：⼀种是在UTF-8编码下进⾏了转换，产⽣了这个字符；还有⼀种就是⽹页中直接采⽤了这个字符进⾏排版。

问题解决之法

C#代码如下：

byte[] space = new byte[]{0xc2,0xa0};

string UTFSpace = Encoding.GetEncoding("UTF-8").GetString(space);

HtmlStr = HtmlStr.Replace(UTFSpace," ");

Java版：

byte bytes[] = {(byte) 0xC2,(byte) 0xA0};

String UTFSpace = new String(bytes,"utf-8");

html = placeAll(UTFSpace, " ");

注意：需要强调的是，替换之前不能进⾏编码转换，⼀定要继续使⽤UTF-8编码。如果已经转换成其他编码，那么错误就已经不可逆转了。没有办法再区分这个错误的问号和正常的问号之间的差别了。

发表评论

688IT编程网

Java去除utf-8类型的空格的方法

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

Java去除utf-8类型的空格的方法

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式