pythoncodec读写_python读取文件解决‘utf8’codeccan’--688IT编程网

pythoncodec读写_python读取⽂件解决‘utf8’codeccan’tdec。

。。

⼀般这种⽂件存在类似字符：

乱码⽂件

如果UTF-8搞不定，可以采取ISO-8859-1编码⽅式解决：

with open(file, 'r', encoding='utf-8') as f:

python怎么读的try:

text = f.read()

except:

with open(file, 'r', encoding='ISO-8859-1') as f:

text = f.read()

编码知识：

编码基本知识

最早的编码是iso8859-1，和ascii编码相似。但为了⽅便表⽰各种各样的语⾔，逐渐出现了很多标准编码，重要的有如下⼏个。

iso8859-1

属于单字节编码，最多能表⽰的字符范围是0-255，应⽤于英⽂系列。⽐如，字母a的编码为0x61=97。

很明显，iso8859-1编码表⽰的字符范围很窄，⽆法表⽰中⽂字符。但是，由于是单字节编码，和计算机最基础的表⽰单位⼀致，所以很多时候，仍旧使⽤iso8859-1编码来表⽰。⽽且在很多协议上，默认使⽤该编码。⽐如，虽然"中⽂"两个字不存在iso8859-1编码，以

gb2312编码为例，应该是"d6d0 cec4"两个字符，使⽤iso8859-1编码的时候则将它拆开为4个字节来表⽰："d6 d0 ce c4"(事实上，在进⾏存储的时候，也是以字节为单位处理的)。⽽如果是UTF编码，则是6个字节"e4 b8 ad e6 96 87"。很明显，这种表⽰⽅法还需要以另⼀种编码为基础。

GB2312/GBK

这就是汉⼦的国标码，专门⽤来表⽰汉字，是双字节编码，⽽英⽂字母和iso8859-1⼀致(兼容iso8859-1编码)。其中gbk编码能够⽤来同时表⽰繁体字和简体字，⽽gb2312只能表⽰简体字，gbk是兼容gb2312编码的。

unicode

这是最统⼀的编码，可以⽤来表⽰所有语⾔的字符，⽽且是定长双字节(也有四字节的)编码，包括英⽂字母在内。所以可以说它是不兼容iso8859-1编码的，也不兼容任何编码。不过，相对于iso8859-1编码来说，uniocode编码只是在前⾯增加了⼀个0字节，⽐如字母a 为"00 61"。

需要说明的是，定长编码便于计算机处理(注意GB2312/GBK不是定长编码)，⽽unicode⼜可以⽤来表⽰所有字符，所以在很多软件内部是使⽤unicode编码来处理的，⽐如java。

UTF

考虑到unicode编码不兼容iso8859-1编码，⽽且容易占⽤更多的空间：因为对于英⽂字母，unicode也需要两个字节来表⽰。所以unicode不便于传输和存储。因此⽽产⽣了utf编码，utf编码兼容iso8859-1编码，同时也可以⽤来表⽰所有语⾔的字符，不过，utf编码是不定长编码，每⼀个字符的长度从1-6个字节不等。另外，utf编码⾃带简单的校验功能。⼀般来讲，英⽂字母都是⽤⼀个字节表⽰，⽽汉字使⽤三个字节。

注意，虽然说utf是为了使⽤更少的空间⽽使⽤的，但那只是相对于unicode编码来说，如果已经知道是汉字，则使⽤GB2312/GBK⽆疑是最节省的。不过另⼀⽅⾯，值得说明的是，虽然utf编码对汉字使⽤3个字节，但即使对于汉字⽹页，utf编码也会⽐unicode编码节省，因为⽹页中包含了很多的英⽂字符。

688IT编程网

pythoncodec读写_python读取文件解决‘utf8’codeccan’

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

pythoncodec读写_python读取文件解决‘utf8’codeccan’

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式