盘点66个Pandas函数,轻松搞定“数据清洗”!
今天我们来盘点66个Pandas函数合集,包括数据预览、数值数据操作、文本数据操作、行/列操作等等,涉及“数据清洗”的方方面面。
Pandas 是基于NumPy的一种工具,该工具是为解决数据分析任务而创建的。它提供了大量能使我们快速便捷地处理数据的函数和方法。
数据预览
对于探索性数据分析来说,做数据分析前需要先看一下数据的总体概况。info()方法用来查看数据集信息,describe()方法将返回描述性统计信息,这两个函数大家应该都很熟悉了。
字符串比较函数实现describe方法默认只给出数值型变量的常用统计量,要想对DataFrame中的每个变量进行汇总统计,可以将其中的参数include设为all。
head()方法和tail() 方法则是分别显示数据集的前n和后n行数据。如果想要随机看N行的数据,可以使用sample()方法。
df.sample(3)
输出:
如果要检查数据中各列的数据类型,可以使用.dtypes;如果想要值查看所有的列名,可以使用.columns
df.columns
输出:
Index(['日期', '销量'], dtype='object')
前面介绍的函数主要是读取数据集的数据信息,想要获得数据集的大小(长宽),可以使用.shape方法。
df.shape
输出:
(5, 2)
另外,len()可以查看某列的行数,count()则可以查看该列值的有效个数,不包含无效值(Nan)。
缺失值与重复值
Pandas清洗数据时,判断缺失值一般采用isnull()方法。此外,isnull().any()会判断哪些”列”存在缺失值,isnull().sum()用于将列中为空的个数统计出来。
df.isnull().any()
输出:
日期    False
销量    True
dtype: bool
发现“销量”这列存在缺失值后,处理办法要么删除dropna() ,要么填充fillna()

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。