详解Java如何获取文件编码格式--688IT编程网

详解Java如何获取⽂件编码格式

1：简单判断是UTF-8或不是UTF-8，因为⼀般除了UTF-8之外就是GBK，所以就设置默认为GBK。

按照给定的字符集存储⽂件时，在⽂件的最开头的三个字节中就有可能存储着编码信息，所以，基本的原理就是只要读出⽂件前三个字节，判定这些字节的值，就可以得知其编码的格式。其实，如果项⽬运⾏的平台就是中⽂操作系统，如果这些⽂本⽂件在项⽬内产⽣，即开发⼈员可以控制⽂本的编码格式，只要判定两种常见的编码就可以了：GBK和UTF-8。由于中⽂Windows默认的编码是GBK，所以⼀般只要判定UTF-8编码格式。

对于UTF-8编码格式的⽂本⽂件，其前3个字节的值就是-17、-69、-65，所以，判定是否是UTF-8编码格式的代码⽚段如下：File file = new File(path);

InputStream in= new java.io.FileInputStream(file);

byte[] b = new byte[3];

in.close();

if (b[0] == -17 && b[1] == -69 && b[2] == -65)

System.out.Name() + "：编码为UTF-8");

else

System.out.Name() + "：可能是GBK，也可能是其他编码");

读外部⽂件(先利⽤cpdetector检测⽂件的编码格式，然后⽤检测到的编码⽅式去读⽂件):

/**

* 利⽤第三⽅开源包cpdetector获取⽂件编码格式

* @param path

* 要判断⽂件编码格式的源⽂件的路径

* @author huanglei

* @version 2012-7-12 14:05

public static String getFileEncode(String path) {

* detector是探测器，它把探测任务交给具体的探测实现类的实例完成。

* cpDetector内置了⼀些常⽤的探测实现类，这些探测实现类的实例可以通过add⽅法加进来，如ParsingDetector、

* JChardetFacade、ASCIIDetector、UnicodeDetector。

* detector按照“谁最先返回⾮空的探测结果，就以该结果为准”的原则返回探测到的

* 字符集编码。使⽤需要⽤到三个第三⽅JAR包：antlr.jar、chardet.jar和cpdetector.jar

* cpDetector是基于统计学原理的，不保证完全正确。

CodepageDetectorProxy detector = Instance();

* ParsingDetector可⽤于检查HTML、XML等⽂件或字符流的编码，构造⽅法中的参数⽤于

* 指⽰是否显⽰探测过程的详细信息，为false不显⽰。

detector.add(new ParsingDetector(false));

* JChardetFacade封装了由Mozilla组织提供的JChardet，它可以完成⼤多数⽂件的编码

java stream* 测定。所以，⼀般有了这个探测器就可满⾜⼤多数项⽬的要求，如果你还不放⼼，可以

* 再多加⼏个探测器，⽐如下⾯的ASCIIDetector、UnicodeDetector等。

detector.Instance());// ⽤到antlr.jar、chardet.jar

// ASCIIDetector⽤于ASCII编码测定

detector.Instance());

// UnicodeDetector⽤于Unicode家族编码的测定

detector.Instance());

java.nio.charset.Charset charset = null;

File f = new File(path);

try {

charset = detector.URI().toURL());

} catch (Exception ex) {

ex.printStackTrace();

}

if (charset != null)

return charset.name();

else

return null;

}

String charsetName = getFileEncode(configFilePath);

System.out.println(charsetName);

inputStream = new FileInputStream(configFile);

BufferedReader in = new BufferedReader(new InputStreamReader(inputStream, charsetName));

读jar包内部资源⽂件(先利⽤cpdetector检测jar内部的资源⽂件的编码格式，然后以检测到的编码⽅式去读⽂件)：

/**

* 利⽤第三⽅开源包cpdetector获取URL对应的⽂件编码

* @param path

* 要判断⽂件编码格式的源⽂件的URL

* @author huanglei

* @version 2012-7-12 14:05

public static String getFileEncode(URL url) {

* detector是探测器，它把探测任务交给具体的探测实现类的实例完成。

* cpDetector内置了⼀些常⽤的探测实现类，这些探测实现类的实例可以通过add⽅法加进来，如ParsingDetector、

* JChardetFacade、ASCIIDetector、UnicodeDetector。

* detector按照“谁最先返回⾮空的探测结果，就以该结果为准”的原则返回探测到的

* 字符集编码。使⽤需要⽤到三个第三⽅JAR包：antlr.jar、chardet.jar和cpdetector.jar

* cpDetector是基于统计学原理的，不保证完全正确。

CodepageDetectorProxy detector = Instance();

* ParsingDetector可⽤于检查HTML、XML等⽂件或字符流的编码，构造⽅法中的参数⽤于

* 指⽰是否显⽰探测过程的详细信息，为false不显⽰。

detector.add(new ParsingDetector(false));

* JChardetFacade封装了由Mozilla组织提供的JChardet，它可以完成⼤多数⽂件的编码

* 测定。所以，⼀般有了这个探测器就可满⾜⼤多数项⽬的要求，如果你还不放⼼，可以

* 再多加⼏个探测器，⽐如下⾯的ASCIIDetector、UnicodeDetector等。

detector.Instance());// ⽤到antlr.jar、chardet.jar

// ASCIIDetector⽤于ASCII编码测定

detector.Instance());

// UnicodeDetector⽤于Unicode家族编码的测定

detector.Instance());

java.nio.charset.Charset charset = null;

try {

charset = detector.detectCodepage(url);

} catch (Exception ex) {

ex.printStackTrace();

}

if (charset != null)

return charset.name();

else

return null;

}

URL url = Resource("/resource/" + "配置⽂件");

URLConnection urlConnection = url.openConnection();

InputStream();

String charsetName = getFileEncode(url);

System.out.println(charsetName);

BufferedReader in = new BufferedReader(new InputStreamReader(inputStream, charsetName));

3：探测任意输⼊的⽂本流的编码，⽅法是调⽤其重载形式：

charset=detector.detectCodepage(待测的⽂本输⼊流，测量该流所需的读⼊字节数);

上⾯的字节数由程序员指定，字节数越多，判定越准确，当然时间也花得越长。要注意，字节数的指定不能超过⽂本流的最⼤长度。

4：判定⽂件编码的具体应⽤举例：

属性⽂件(.properties)是Java程序中的常⽤⽂本存储⽅式，象STRUTS框架就是利⽤属性⽂件存储程序中的字符串资源。它的内容如下所⽰：

#注释语句

属性名=属性值

读⼊属性⽂件的⼀般⽅法是：

FileInputStream ios=new FileInputStream(“属性⽂件名”);

Properties prop=new Properties();

prop.load(ios);

String Property(“属性名”);

ios.close();

利⽤java.io.Properties的load⽅法读⼊属性⽂件虽然⽅便，但如果属性⽂件中有中⽂，在读⼊之后就会发现出现乱码现象。发⽣这个原因是load⽅法使⽤字节流读⼊⽂本，在读⼊后需要将字节流编码成为

字符串，⽽它使⽤的编码是“iso-8859-1”，这个字符集是ASCII码字符集，不⽀持中⽂编码，

⽅法⼀：使⽤显式的转码：

String Property(“属性名”);

String encValue=new Bytes(“iso-8859-1″),”属性⽂件的实际编码”);

⽅法⼆：象这种属性⽂件是项⽬内部的，我们可以控制属性⽂件的编码格式，⽐如约定采⽤Windows内定的GBK，就直接利⽤”gbk”来转码，如果约定采⽤UTF-8，就使⽤”UTF-8″直接转码。

⽅法三：如果想灵活⼀些，做到⾃动探测编码，就可利⽤上⾯介绍的⽅法测定属性⽂件的编码，从⽽⽅便开发⼈员的⼯作

补充：可以⽤下⾯代码获得Java⽀持编码集合：

Charset.availableCharsets().keySet();

可以⽤下⾯的代码获得系统默认编码：

Charset.defaultCharset();

以上就是本⽂的全部内容，希望对⼤家的学习有所帮助，也希望⼤家多多⽀持。

688IT编程网

详解Java如何获取文件编码格式

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

详解Java如何获取文件编码格式

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式