怎么查看csv文件的编码_python学习笔记:read

怎么查看csv⽂件的编码_python学习笔记：read_csv（）——

encoding（。。。

前⾔：

前⾔

在使⽤pandas读取csv⽂件时，通常需要指定解码⽅式，最常⽤的是UTF-8。

UTF-8不解释了，国际化编码标准，html现在最标准的编码格式。

但是有时使⽤UTF-8还是会报错，到底是什么原因呢？

请看⼀个案例：

import pandas as pd

file_path=r'E:test_dataAdventureWorksDW-data-warehouse-install-scriptDimAccount.csv'

df = pd.read_csv(file_path,sep="|",encoding="utf-8",header=None,na_values='null',dtype=str)

运⾏后报错：

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte

接下来重点来了，请注意看报错语句，它提醒你utf-8不能解码0xff 。

那么0xff 是什么呢？

⾸先思考⼀个问题：既然有这么多编码⽅式，那⽂件打开的时候，windows系统是如何判断该使⽤哪种编码⽅式呢？

答案是 windows 在⽂件头部增加了⼏个字节以表⽰编码⽅式。

python怎么读文件夹下的文件夹三个字节（0xef, 0xbb, 0xbf）表⽰UTF-8；

两个字节（0xff, 0xfe或者0xfe, 0xff）表⽰UTF-16（Unicode）；

⽆表⽰GB**。

0xff需要使⽤UTF-16才能解码。

说明0xff需要使⽤UTF-16才能解码

这⾥提⼀下，LE（little-endian）和BE（big-endian）。LE和BE代表字节序，分别表⽰字节从低位/⾼位开始。我们常接触到的CPU都是LE，所以windows⾥Unicode未指明字节序时默认指的是LE。此处

encoding="utf-16LE" 。

# 接下来，修改解码⽅式为UTF-16LE：

df = pd.read_csv(file_path,sep="|",encoding="utf-16LE",header=None,na_values='null',dtype=str)

执⾏成功。打印第0⾏验证下：

print(df.iloc[0])

还有⼀种更简单的⽅法，如果csv⽂件不⼤，可以⽤记事本打开，查看-状态栏，可以看到⽂件下⽅有编码⽅式：UTF-16LE 。

总结：

总结

使⽤read_csv()时，怎么知道csv⽂件的编码⽅式呢？

⽅法⼀：不妨先试试encoding="UTF-8"，如果报错，可以通过分析报错信息获取编码⽅式。

⽅法⼆：⽤记事本打开csv⽂件，查看状态栏，显⽰编码⽅式。

688IT编程网

怎么查看csv文件的编码_python学习笔记:read_csv()——

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

怎么查看csv文件的编码_python学习笔记:read_csv()——

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则