Java如何获取上传的二进制字节流中的文件编码格式以及解决文件乱码问 ...--688IT编程网

Java如何获取上传的⼆进制字节流中的⽂件编码格式以及解决

⽂件乱码问题

通过UltraEdit查看⽂件编码格式可得：bgk是没有⽂件字符集编码格式头的，所以在可以通过下⾯⽅式⼤略判断。

GB2312-80编码的编码范围是⾼位0xa1－0xfe，低位是 0xa1-0xfe ，其中汉字范围为 0xb0a1 和 0xf7fe，如果只是简单地判断汉字，则只要查看⾼字节是否⼤于等于0xa1就可以了，还有就是，全⾓字符的⾼字节统统等于0xa3，所以很容易可以区别出全⾓字符来。

通过编辑器UltraEdit整理可得：

utf-8：对应⼆进制编码格式头为-17 -69 -65 ⼗进制为：EF BB BF

unicode：对应⼆进制编码格式头为-1 -2 ⼗进制为：FF FE

gbk格式没有⾃⼰编码头，所以⽆法⽐较.且gbk2312与gbk是包含关系

Unicode big endian:FE、FF

因此可以通过两种⽅式判断；如下：

1、if (log[0] == -17 && log[1] == -69 && log[2] == -65)

System.out.println("：编码为UTF-8");

else

System.out.println("：可能是GBK，也可能是其他编码");

url编码和utf8区别2、if (HexString(0xFF & log[0]).equals("ef")

&& HexString(0xFF & log[1]).equals("bb")

&& HexString(0xFF & log[2]).equals("bf")) {

System.out.println("：编码为UTF-8");

} else {

System.out.println("：可能是GBK，也可能是其他编码");

}

这⾥只是举例常⽤⼏种⽂件字符集编码格式。

注意这个⽅法的局限：⽂件头必须有⽂件存储编码的信息，对于不规范的⽂件或被篡改过的就另当别论

⽤法如下：

/**

* 获取⼆进制⽂件字节流中内容的编码格式

* utf-8：对应⼆进制编码格式头为-17 -69 -65 ⼗进制为：EF BB BF

* unicode：对应⼆进制编码格式头为-1 -2 ⼗进制为：FF FE

* gbk格式没有⾃⼰编码头，所以⽆法⽐较.且gbk2312与gbk是包含关系

public static String getCodeType(byte[] b) {

if (b[0] == -17 && b[1] == -69 && b[2] == -65) {

return "utf8";

} else if (b[0] == -1 && b[1] == -2) {

return "unicode";

} else {

return "gbk";

}

采⽤第⼆种⽅式：

读外部⽂件(先利⽤cpdetector检测⽂件的编码格式，然后⽤检测到的编码⽅式去读⽂件)

还需要使⽤到三个第三⽅JAR包：antlr.jar、chardet.jar和cpdetector.jar

* 利⽤第三⽅开源包cpdetector获取URL对应的⽂件编码

* @param path

* 要判断⽂件编码格式的源⽂件的URL

public static String getFileEncode(URL url) {

* detector是探测器，它把探测任务交给具体的探测实现类的实例完成。

* cpDetector内置了⼀些常⽤的探测实现类，这些探测实现类的实例可以通过add⽅法加进来，如ParsingDetector、

* JChardetFacade、ASCIIDetector、UnicodeDetector。

* detector按照“谁最先返回⾮空的探测结果，就以该结果为准”的原则返回探测到的

* 字符集编码。使⽤需要⽤到三个第三⽅JAR包：antlr.jar、chardet.jar和cpdetector.jar

* cpDetector是基于统计学原理的，不保证完全正确。

CodepageDetectorProxy detector = Instance();

* ParsingDetector可⽤于检查HTML、XML等⽂件或字符流的编码，构造⽅法中的参数⽤于

* 指⽰是否显⽰探测过程的详细信息，为false不显⽰。

detector.add(new ParsingDetector(false));

* JChardetFacade封装了由Mozilla组织提供的JChardet，它可以完成⼤多数⽂件的编码

* 测定。所以，⼀般有了这个探测器就可满⾜⼤多数项⽬的要求，如果你还不放⼼，可以

* 再多加⼏个探测器，⽐如下⾯的ASCIIDetector、UnicodeDetector等。

detector.Instance());// ⽤到antlr.jar、chardet.jar

// ASCIIDetector⽤于ASCII编码测定

detector.Instance());

// UnicodeDetector⽤于Unicode家族编码的测定

detector.Instance());

java.nio.charset.Charset charset = null;

try {

charset = detector.detectCodepage(url);

} catch (Exception ex) {

ex.printStackTrace();

}

if (charset != null)

return charset.name();

else

return null;

}

URL url = Resource("/resource/" + "配置⽂件");

URLConnection urlConnection = url.openConnection();

InputStream();

String charsetName = getFileEncode(url);

System.out.println(charsetName);

BufferedReader in = new BufferedReader(new InputStreamReader(inputStream, charsetName));

3：探测任意输⼊的⽂本流的编码，⽅法是调⽤其重载形式：

charset=detector.detectCodepage(待测的⽂本输⼊流，测量该流所需的读⼊字节数);

上⾯的字节数由程序员指定，字节数越多，判定越准确，当然时间也花得越长。要注意，字节数的指定不能超过⽂本流的最⼤长度。

4：判定⽂件编码的具体应⽤举例：

属性⽂件(.properties)是Java程序中的常⽤⽂本存储⽅式，象STRUTS框架就是利⽤属性⽂件存储程序中的字符串资源。它的内容如下所⽰：

#注释语句

属性名=属性值

读⼊属性⽂件的⼀般⽅法是：

FileInputStream ios=new FileInputStream(“属性⽂件名”);

Properties prop=new Properties();

prop.load(ios);

String Property(“属性名”);

ios.close();

利⽤java.io.Properties的load⽅法读⼊属性⽂件虽然⽅便，但如果属性⽂件中有中⽂，在读⼊之后就会发现出现乱码现象。发⽣这个原因是load⽅法使⽤字节流读⼊⽂本，在读⼊后需要将字节流编码成为字符串，⽽它使⽤的编码是“iso-8859-1”，这个字符集是ASCII码字符集，不⽀持中⽂编码，

⽅法⼀：使⽤显式的转码：

String Property(“属性名”);

String encValue=new Bytes(“iso-8859-1″),”属性⽂件的实际编码”);

⽅法⼆：象这种属性⽂件是项⽬内部的，我们可以控制属性⽂件的编码格式，⽐如约定采⽤Windows内定的GBK，就直接利

⽤”gbk”来转码，如果约定采⽤UTF-8，就使⽤”UTF-8″直接转码。

⽅法三：如果想灵活⼀些，做到⾃动探测编码，就可利⽤上⾯介绍的⽅法测定属性⽂件的编码，从⽽⽅便开发⼈员的⼯作

补充：可以⽤下⾯代码获得Java⽀持编码集合：

Charset.availableCharsets().keySet();

可以⽤下⾯的代码获得系统默认编码：

Charset.defaultCharset();

688IT编程网

Java如何获取上传的二进制字节流中的文件编码格式以及解决文件乱码问 ...

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

Java如何获取上传的二进制字节流中的文件编码格式以及解决文件乱码问 ...

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式