Python中文件编码的检测--688IT编程网

Python中⽂件编码的检测

前⾔：

⽂件打开的原则是“以什么编码格式保存的，就以什么编码格式打开 ”，我们常见的⽂件⼀般是以“ utf-8 ”或“ GBK ”编码进⾏保存的，由于编辑器⼀般设置了默认的保存和打开⽅式，所以我们在记事本或常见⽂档编辑器如Word中不容易看到乱码的情况发⽣，但是，当我们要在内存⾥读取打开⼀个⽂件时，如果⽂档编码⽅式和计算机内存默认读取⽂件的编码不同，或者我们打开⽂件时未设置正确的编码打开规则，则很有可能出现⼀堆乱码，⽆法正常读取⽂件内容，影响接下来的⼯作。

其实，这些情况早就有⼤佬想到了，所以开发了⼀个类似机器学习的第三⽅Python包，名为“ chardet ”，通过分析⽂件的内容，来推断⽂档的编码格式，然后返回⼀个报告，提⽰我们检测的⽂档最有可能的编码格式和语⾔。今天我们⼀起来学习⼀下，这个很有意思的⼩技巧。

⼀、⽂件打开模式

这⾥介绍⼀下待会涉及到的⽂件打开⽅式，⼀个是 “ r ” ，即只读模式，只对⽂档进⾏读取，不作修改；另⼀种是 “ rb ” ，即⼆进制模式，读取的⽂档以⼆进制字符串表⽰（⼀般⽂档、图⽚和视⾳频等⽂件为了便于储存、传输的需要，在硬盘上以⼆进制字符串的形式存在），更直观的说，就是把⽂件原封不动的从硬盘⾥读出来，不进⾏解码，难以阅读。

⼆、⽂件打开⽅法

文档字符串是什么

⽂件打开⼀般会遇到以下两种情况

1、已知⽂件保存的编码格式，则读取时，指定对应的编码格式即可正常读取。

⾸先我们先新建⼀个⽂档，命名为 “ ”，以“ utf-8 ”编码格式保存，内容如下：　

你好，明天！

⽂件打开⼀般⽅法如下：　

f = open(file="filename",mode="r",encoding="utf-8") #⽂件名最好带后缀，编码格式按已知的⽂件编码填，此处以 utf-8 为例

实例如下：已知⼀个⽂件是以 utf-8 编码的，则打开时的编码也是 utf-8。

#!-*- coding:utf-8 -*-

f1 = open(file="",mode='r',encoding="utf-8") # 打开⽂件

data = f1.read() # 读取⽂件

print(data) # 输出：你好，明天！

f1.close() # 关闭⽂件

2、⽂件保存时的编码格式未知，打开时⽆法设置编码⽅式，使得读取乱码。此时的解决⽅法有两种：

（1）⼀种是不去理会⽂件的编码格式，只交给计算机读取，保存和传输（不⽤给⼈看），以⼆进制模式打开，即 mode设为 “ rb ”即可，⽅法如下：

#!-*- coding:utf-8 -*-

f2= open(file="",mode='rb') # ⼆进制读取，不指定编码格式，否则可能报错

data = f2.read() # 读取内容

print(data) # 输出：b'\xe4\xbd\xa0\xe5\xa5\xbd\xef\xbc\x8c\xe6\x98\x8e\xe5\xa4\xa9\xef\xbc\x81'

f2.close() # 关闭⽂件

（2）另⼀种则是今天的主⾓，通过Python第三⽅包（chardet）帮助我们检测⽂件的编码格式，然后再按正常模式读取⽂件，⽅法如下：

⾸先确保已经安装 “chardet”包，若没有安装，安装⽅法如下(已配置Python环境的情况下，在命令⾏cmd中输⼊以下内容)：

pip3 install chardet # Python2⾥换成pip

注意，由于在测试时发现，⽂件内容过少时，检测结果有较⼤偏差（识别为“ IBM855 ”），所以这⾥我重新新建⼀个测试⽂件 “”，保存时的编码格式为“utf-8 ”（假设此⽂件编码格式未知）,⽂件内容如下：　

你好，明天！

现在，您已经可以向标准输⼊和输出进⾏读写。现在，来看看怎么读写实际的数据⽂件。

Python 提供了必要的函数和⽅法进⾏默认情况下的⽂件基本操作。你可以⽤ file 对象做⼤部分的⽂件操作。

open 函数

你必须先⽤Python内置的open()函数打开⼀个⽂件，创建⼀个file对象，相关的⽅法才可以调⽤它进⾏读写。

测试代码如下：

#!-*- coding:utf-8 -*-

import chardet

f3 = open(file="",mode='rb') # 以⼆进制模式读取⽂件

data = f3.read() # 获取⽂件内容

print(data)

f3.close() # 关闭⽂件

result = chardet.detect(data) # 检测⽂件内容

print(result) # {'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}

检测结果详解：

'encoding': 'utf-8'表⽰检测到⽂件的编码格式为 “ utf-8 ”

'confidence': 0.99 表⽰可信度为百分之九⼗九

'language': ''表⽰⽂件内容的语⾔，如 “Chinese”、“English”等，经过测试发现，这个参数并不是所有⽂件都能被检测出来此时，我们就可以按照检测得到的结果，按照已知⽂件编码格式的情况，查看⽂件内容即可。

688IT编程网

Python中文件编码的检测

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

Python中文件编码的检测

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则