python删除excel表格重复行,数据预处理操作--688IT编程网

python删除excel表格重复⾏，数据预处理操作

使⽤python删除excel表格重复⾏。

# 导⼊pandas包并重命名为pd

import pandas as pd

# 读取Excel中Sheet1中的数据

data = pd.ad_excel('test.xls', 'Sheet1'))

# 查看读取数据内容

print(data)

# 查看是否有重复⾏

re_row = data.duplicated()

print(re_row)

# 查看去除重复⾏的数据

no_re_row = data.drop_duplicates()

print(no_re_row)

# 查看基于[物品]列去除重复⾏的数据

#wp = data.drop_duplicates(['物品'])

#print(wp)

# 将去除重复⾏的数据输出到excel表中

no__excel("test2.xls")

补充知识：Python数据预处理（删除重复值和空值）

pandas⼏个函数的使⽤，⼤数据的预处理（删除重复值和空值），⼈⼯删除很⿇烦

Python恰好能够解决

注释很详细在这不⼀⼀解释了

>>>>>>>###

> 读写excel(xls lsx)⽂件

import pandas as pd

import numpy as np

df_excel = pd.read_excel('data3.xlsx')

print('数据量⾏*列',df_excel.shape)

# # _excel('df_excel.xlsx',header=None)#⽣成⽂件保存，⽆表头

print('数据集中存在重复观测的数量：\n',np.sum(df_excel.duplicated())) #F为不存在，T为存在，⽤sum显⽰重复的数量

print('删除⾏重复后的数据\n',df_excel.drop_duplicates(subset=None,keep='first',inplace=None))#excel⽂件中设定第⼀和第⼆⾏为重复⾏，结果删除了第⼆⾏保留第⼀⾏ ###df_excel.drop_duplicate

s(subset=['A','B'],keep='first',inplace=True)

#### 代码中subset对应的值是列名，表⽰只考虑这两列，将这两列对应值相同的⾏进⾏去重。默认值为subset=None表⽰考虑所有列。

两个表格核对重复数据

>keep='first'表⽰保留第⼀次出现的重复⾏，是默认值。keep另外两个取值为"last"和False，分别表⽰保留最后⼀次出现的重复⾏和去除所有重复⾏。

>inplace=True表⽰直接在原来的DataFrame上删除重复项，⽽默认值False表⽰⽣成⼀个副本

print('数据集列中是否存在缺失值：\n',df_excel.isnull().any()) #F为不存在，T为存在

print('每⼀⾏的缺失值个数：',df_excel.isnull().sum(axis=1))

print('每⼀列的缺失值个数：',df_excel.isnull().sum(axis=0))

>## df.isnull().sum(axis=0)每⼀列的缺失值个数

>df.isnull().any()则会判断哪些”列”存在缺失值

df=df_excel.dropna()

print(df_excel.dropna(thresh=5))

# #axis=0: 删除包含缺失值（NaN）的⾏

# #axis=1: 删除包含缺失值（NaN）的列

# # how=‘any' ：要有缺失值（NaN）出现删除

# # how=‘all': 所有的值都缺失（NaN）才删除

# 还有⼀个thresh参数

# thresh=n，保留⾄少有 n 个⾮ NaN 数的⾏

>#drop⽤法

print(df_excel.drop(['edu'],axis=1))#按照列删除edu这⼀列

print(df_excel.drop([0],axis=0))#按照⾏删除0这⼀⾏

以上这篇python 删除excel表格重复⾏，数据预处理操作就是⼩编分享给⼤家的全部内容了，希望能给⼤家⼀个参考，也希望⼤家多多⽀持。

2011部门决算工作培训内容部门决算报表编报的原则:一、对单位...

« 上一篇

合并表格中相同物质的总数

688IT编程网

python删除excel表格重复行,数据预处理操作

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

python删除excel表格重复行,数据预处理操作

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式