如何判断一个文本文件内容的编码格式并修改--688IT编程网

如何判断一个文本文件内容的编码格式并修改 UTF-8 ? ANSI(GBK)

(2012-07-20 18:10:57)

转载▼

	分类： Cstyle

windows下的notepad另存为选项有关于编码的选择，ANSI、Unicode、Unicode big endian、UTF-8四种选择编码方式。其中ANSI是与你使用的windows操作系统的语言有关系的，向windows 7 简体中文版就是GBK（用一个字节表示英文，用两个字节表示一个中文）。第二个选项Unicode其实是指Unicode16 little endian 。第四个选项UTF-8大家都知道吧。但是有一个要注意的地方是，微软在windows平台下用自带的生成UTF-8编码的文本文件时会在文件开头加入三个字节的BOM（byte order mark）EF BB BF，这样就通过有无BOM区别文本的编码是ANSI（GBK）还是UTF-8。

但是了，UTF-8也可以不要这三个字节的BOM，像用php的GD库生成图片时，如果有了BOM就会出错。而且在windows平台上，用notepad打开一个没有BOM的文本文件，也能正常显示，

而不会当做ANSI（GBK）来处理。但是有这样的一个趣事，就是在notepad中输入“联通”两个中文，保存到本地，再打开，会发现乱码。这是为什么呢？

这个就设计到notepad判断文本编码的原理了。（这个原理是根据实验结果推测的，本人不保证其绝对与微软的思路一致）

notepad打开一个文本，有BOM这很容易判断是UTF系列编码，因为UTF-8，UTF-16 big endian, UTF-16 little endian ，UTF-32 big endian, UTF-32 little endian 的BOM都不一样。但是如果文本没有BOM，又不能立刻判定其为ANSI（GBK）编码，因为也有可能是无BOM的UTF-8。所以notepad会根据UTF-8的编码原理推测编码

UCS-4编码 UTF-8字节流
U+00000000 – U+0000007F 0xxxxxxx
U+00000080 – U+000007FF 110xxxxx 10xxxxxxvim怎么插入真正的表符
U+00000800 – U+0000FFFF 1110xxxx 10xxxxxx 10xxxxxx

U+00010000 – U+001FFFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
……

比如中文都是用三个字节表示，若无BOM，则从文本第一个字节开始，按照UTF-8的编码规则去验证字符编码，例如：

第一个字节的第一个bit为0，说明是个ANSII字符，继续查看第二个比特，若第一个比特是1，则查看第二个比特，若第二个比特为0，说明这不是一个UTF-8编码的文本。依次类推，若一旦有一个bit不满足UTF-8编码要求，就判定文本为ANSI（GBK），若知道文本结束都不能判定，则说明文本是UTF-8编码的。
所以现在我们就能明白为什么在notepad中“联通”会乱码了。notepad中文本默认按ANSI（GBK）保存，没有BOM，打开时notepad会判断其编码，巧合的是联通的ANSI（GBK）编码为 C1 AA CD A8

11000001 10101010 11001101 10101000。这正好也是两个UTF-8编码的文字，当然这不是中文啦。所以notepad会认为这是一个UTF-8编码的文本,会安装UTF-8的格式来解析字符，于是乱码了。

知道了原理，我们就可以编写判断文本编码的软件了。这里我就不贴代码了。

文件编码,文件或文件名编码格式转换

（7193）（1）

如果你需要在Linux中操作windows下的文件，那么你可能会经常遇到文件编码转换的问题。Windows中默认的文件格式是GBK(gb2312)，而Linux一般都是UTF-8。下面介绍一下，在Linux中如何查看文件的编码及如何进行对文件进行编码转换。

一，查看文件编码：
在Linux中查看文件编码可以通过以下几种方式：
1.在Vim中可以直接查看文件编码
:set fileencoding
即可显示文件编码格式。
如果你只是想查看其它编码格式的文件或者想解决用Vim查看文件乱码的问题，那么你可以在
~/.vimrc 文件中添加以下内容：

set encoding=utf-8 fileencodings=ucs-bom,utf-8,cp936

这样，就可以让vim自动识别文件编码（可以自动识别UTF-8或者GBK编码的文件），其实就是依照fileencodings提供的编码列表尝试，如果没有到合适的编码，就用latin-1(ASCII)编码打开。

2. enca (如果你的系统中没有安装这个命令，可以用sudo yum install -y enca 安装 )查看文件编码
$ enca filename
filename: Universal transformation format 8 bits; UTF-8
CRLF line terminators
需要说明一点的是，enca对某些GBK编码的文件识别的不是很好，识别时会出现：
Unrecognized encoding

二，文件编码转换
1.在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式
:set fileencoding=utf-8

2. iconv 转换，iconv的命令格式如下：
iconv -f encoding -t encoding inputfile
比如将一个UTF-8 编码的文件转换成GBK编码
iconv -f GBK -t UTF-8 file1 -o file2

3. enconv 转换文件编码

比如要将一个GBK编码的文件转换成UTF-8编码，操作如下
enconv -L zh_CN -x UTF-8 filename

三，文件名编码转换:

从Linux往 windows拷贝文件或者从windows往Linux拷贝文件，有时会出现中文文件名乱码的情况，出现这种问题的原因是因为，windows的文件名中文编码默认为GBK,而Linux中默认文件名编码为UTF8,由于编码不一致，所以导致了文件名乱码的问题，解决这个问题需要对文件名进行转码。

688IT编程网

如何判断一个文本文件内容的编码格式并修改

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

如何判断一个文本文件内容的编码格式并修改

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式