pythondataframe计算上下两⾏的差值_⽤Python进⾏数据清
洗!
导读:数据清洗是数据分析的必备环节,在进⾏分析过程中,会有很多不符合分析要求的数据,例如重复、错误、缺失、异常类数据。
Python资源共享:626017123
01 重复值处理
数据录⼊过程、数据整合过程都可能会产⽣重复数据,直接删除是重复数据处理的主要⽅法。pandas提供查看、处理重复数据的⽅法duplicated和drop_duplicates。以如下数据为例:
>sample = pd.DataFrame({'id':[1,1,1,3,4,5],
'name':['Bob','Bob','Mark','Miki','Sully','Rose'],
'score':[99,99,87,77,77,np.nan],
'group':[1,1,1,2,1,2],})
>sample
group id name score
0 1 1 Bob 99.0
1 1 1 Bob 99.0
2 1 1 Mark 87.0
3 2 3 Miki 77.0
4 1 4 Sully 77.0
5 2 5 Rose NaN
发现重复数据通过duplicated⽅法完成,如下所⽰,可以通过该⽅法查看重复的数据。
>sample[sample.duplicated()]
group id name score
1 1 1 Bob 99.0
需要去重时,可drop_duplicates⽅法完成:
>sample.drop_duplicates()
group id name score
0 1 1 Bob 99.0
2 1 1 Mark 87.0
3 2 3 Miki 77.0
4 1 4 Sully 77.0
5 2 5 Rose NaN
drop_duplicates⽅法还可以按照某列去重,例如去除id列重复的所有记录:
>sample.drop_duplicates('id')
group id name score
0 1 1 Bob 99.0
3 2 3 Miki 77.0
4 1 4 Sully 77.0
5 2 5 Rose NaN
02 缺失值处理
缺失值是数据清洗中⽐较常见的问题,缺失值⼀般由NA表⽰,在处理缺失值时要遵循⼀定的原则。
⾸先,需要根据业务理解处理缺失值,弄清楚缺失值产⽣的原因是故意缺失还是随机缺失,再通过⼀些业务经验进⾏填补。⼀般来说当缺失值少于20%时,连续变量可以使⽤均值或中位数填补;分类变量不需要填补,单算⼀类即可,或者也可以⽤众数填补分类变量。
当缺失值处于20%-80%之间时,填补⽅法同上。另外每个有缺失值的变量可以⽣成⼀个指⽰哑变量,参与后续的建模。当缺失值多于80%时,每个有缺失值的变量⽣成⼀个指⽰哑变量,参与后续的建模,不使⽤原始变量。
在下图中展⽰了中位数填补缺失值和缺失值指⽰变量的⽣成过程。
▲图5-8:缺失值填补⽰例
Pandas提供了fillna⽅法⽤于替换缺失值数据,其功能类似于之前的replace⽅法,例如对于如下数据:
> sample
group id name score
0 1.0 1.0 Bob 99.0
1 1.0 1.0 Bob NaN
2 NaN 1.0 Mark 87.0
3 2.0 3.0 Miki 77.0
4 1.0 4.0 Sully 77.0
5 NaN NaN NaN NaN
分步骤进⾏缺失值的查看和填补如下:
1. 查看缺失情况
在进⾏数据分析前,⼀般需要了解数据的缺失情况,在Python中可以构造⼀个lambda函数来查看缺失值,该lambda函数中,sum(col.isnull())表⽰当前列有多少缺失,col.size表⽰当前列总共多少⾏数据:
>sample.apply(lambda col:sum(col.isnull())/col.size)
group 0.333333
id 0.166667
name 0.166667
score 0.333333
dtype: float64
2. 以指定值填补
pandas数据框提供了fillna⽅法完成对缺失值的填补,例如对sample表的列score填补缺失值,填补⽅法为均值:
>sample.score.fillna(an())
0 99.0
1 85.0
2 87.0
3 77.0
4 77.0
5 85.0
Name: score, dtype: float64
当然还可以以分位数等⽅法进⾏填补:
>sample.score.fillna(dian())
0 99.0
1 82.0
2 87.0
3 77.0
4 77.0
5 82.0
Name: score, dtype: float64
3. 缺失值指⽰变量
pandas数据框对象可以直接调⽤⽅法isnull产⽣缺失值指⽰变量,例如产⽣score变量的缺失值指⽰变量:
>sample.score.isnull()
0 False
1 True
2 False
3 False
4 False
5 True
Name: score, dtype: bool
若想转换为数值0,1型指⽰变量,可以使⽤apply⽅法,int表⽰将该列替换为int类型。
>sample.score.isnull().apply(int)
0 0
1 1
2 0
3 0
4 0
5 1
Name: score, dtype: int64
03 噪声值处理
噪声值指数据中有⼀个或⼏个数值与其他数值相⽐差异较⼤,⼜称为异常值、离值(outlier)。
对于⼤部分的模型⽽⾔,噪声值会严重⼲扰模型的结果,并且使结论不真实或偏颇,如图5-9。需要在数据预处理的时候清除所以噪声值。噪声值的处理⽅法很多,对于单变量,常见的⽅法有盖帽法、分箱法;多变量的处理⽅法为聚类法。下⾯进⾏详细介绍:
▲图5-9:噪声值(异常值、离值)⽰例:年龄数据,圆圈为噪声值
1. 盖帽法
盖帽法将某连续变量均值上下三倍标准差范围外的记录替换为均值上下三倍标准差值,即盖帽处理(图5-10)。
▲图5-10:盖帽法处理噪声值⽰例
isnull的用法Python中可⾃定义函数完成盖帽法。如下所⽰,参数x表⽰⼀个pd.Series列,quantile指盖帽的范围区间,默认凡⼩于百分之1分位数和⼤于百分之99分位数的值将会被百分之1分位数和百分之99分位数替代:
>def cap(x,quantile=[0.01,0.99]):
"""盖帽法处理异常值
Args:
x:pd.Series列,连续变量
quantile:指定盖帽法的上下分位数范围
"""
# ⽣成分位数
Q01,Q99=x.quantile(quantile).list()
# 替换异常值为指定的分位数
if Q01 > x.min():
x = x.copy()
x.loc[x<Q01] = Q01
if Q99 < x.max():
x = x.copy()
x.loc[x>Q99] = Q99
return(x)
现⽣成⼀组服从正态分布的随机数,sample.hist表⽰产⽣直⽅图,更多绘图⽅法会在下⼀章节进⾏讲解:
>sample = pd.DataFrame({‘normal’:np.random.randn(1000)})
>sample.hist(bins=50)
▲图5-11:未处理噪声时的变量直⽅图
对pandas数据框所有列进⾏盖帽法转换,可以以如下写法,从直⽅图对⽐可以看出盖帽后极端值频数的变化。>new = sample.apply(cap,quantile=[0.01,0.99])
>new.hist(bins=50)
▲图5-12:处理完噪声后的变量直⽅图
2. 分箱法

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。