javanio中文乱码_JavaNIO下使用ByteBuffer读取文本时解决UTF-8概...--688IT编程网

javanio中⽂乱码_JavaNIO下使⽤ByteBuffer读取⽂本时解决

UTF-8概。。。

场景：

读取⼀个⼤⽂本⽂件，并输出到控制台。

在这⾥我们选择使⽤nio进⾏读取⽂本⽂件，在输出的过程中，有些⽂件中英⽂都显⽰正常，有些则偶尔出现中⽂乱码，经思考发现，在ByteBuffer.allocate 时分配空间，如果中英混合的⽂件中就会出现中⽂字符只读取了⼀部分的问题，如果⽂本为等长编码字符集的时候，可以根据编码集 byte 长度进⾏ allocate ，例如 GBK 为2 byte ，所以我们 allocate 时未2的倍数即可，但像 UTF-8 这类变长的编码字符集时则没那么简单了。

下⾯就是 UTF-8 的编码⽅式

0xxxxxxx

110xxxxx 10xxxxxx

1110xxxx 10xxxxxx 10xxxxxx

11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

对于 UTF-8 编码中的任意字节 B ，如果 B 的第⼀位为0，则 B 为 ASCII 码，并且 B 独⽴的表⽰⼀个字符；

如果 B 的第⼀位为1，第⼆位为0，则B为⼀个⾮ ASCII 字符(该字符由多个字节表⽰)中的⼀个字节，并且不是字符的第⼀个字节编码；

如果 B 的前两位为1，第三位为0，则B为⼀个⾮ ASCII 字符(该字符由多个字节表⽰)中的第⼀个字节，并且该字符由两个字节表⽰；

如果 B 的前三位为1，第四位为0，则B为⼀个⾮ ASCII 字符(该字符由多个字节表⽰)中的第⼀个字节，并且该字符由三个字节表⽰；

如果 B 的前四位为1，第五位为0，则B为⼀个⾮ ASCII 字符(该字符由多个字节表⽰)中的第⼀个字节，并且该字符由四个字节表⽰；

通过分析我们发现，在读取中我们通过处理临界值来解决 UTF-8 编码字符读取问题。

⽰例代码如下：

RandomAccessFile rf = new RandomAccessFile("zh.txt", "rw");

FileChannel channel = rf.getChannel();java语言使用的字符码集是

ByteBuffer buffer = ByteBuffer.allocate(4); // ⾄少为4，因为UTF-8最⼤为4字节

while (ad(buffer) != -1) {

byte b;

int idx;

out :

for (idx = buffer.position()-1; idx >= 0; idx--) {

b = (idx);

if ((b & 0xff) >> 7 == 0) { // 0xxxxxxx

break;

}

if ((b& 0xff & 0xc0) == 0xc0) { // 11xxxxxx，110xxxxx、1110xxxx、11110xxx

idx -= 1;

break;

}

if ((b & 0xff & 0x80) == 0x80) {

for (int i = 1; i < 4; i++) {

b = (idx - i);

if ((b & 0xff & 0xc0) == 0xc0) {

if ((b & 0xff) >> (5 + 1 - i) == 0xf >> (3 - i)) {

break out;

} else {

idx = idx - 1 - i;

break out;

}

buffer.flip();

int limit = buffer.limit();

buffer.limit(idx+1); // 阻⽌读取跨界数据

System.out.println(Charset.forName("UTF-8").decode(buffer).toString()); buffer.limit(limit); // 恢复limit

bufferpact();

}

channel.close();

rf.close();

688IT编程网

javanio中文乱码_JavaNIO下使用ByteBuffer读取文本时解决UTF-8概...

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

javanio中文乱码_JavaNIO下使用ByteBuffer读取文本时解决UTF-8概...

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式