[455]pandas.DataFrame基本操作及缺失值处理--688IT编程网

[455]pandas.DataFrame基本操作及缺失值处理

查看DataFrame数据及属性

import pandas as pd

df_obj = pd.DataFrame() #创建DataFrame对象

df_obj.dtypes #查看各⾏的数据格式

df_obj['列名'].astype(int)#转换某列的数据类型

df_obj.head() #查看前⼏⾏的数据，默认前5⾏

df_obj.tail() #查看后⼏⾏的数据，默认后5⾏

df_obj.index #查看索引

lumns #查看列名

df_obj.values #查看数据值

df_obj.describe() #描述性统计

df_obj.T #转置

df_obj.sort_values(by=['',''])#同上

为DataFrame添加新的属性列

import pandas as pd

import numpy as np

df = pd.DataFrame(np.random.randint(0, 10, (2, 4)), columns=list('ABCD'))

df['total'] = df['A'] + df['B'] + df['C'] + df['D']

# 等价于 df['total'] = df.A + df.B + df.C + df.D

数据类型

df.values⇒ 返回的是 numpy 下的多维数组；

df.dtypes：返回的是各个属性列的类型；

df.select_dtypes([np.object])，df.select_dypes([bool])

简单数据统计

统计某⼀属性可能的取值：df.column_name.unique()

统计出现的次数：df.column_name.value_counts()

column_name 对应的是该 DataFrame 中某列的列名；也即 pandas 下的 DataFrame 对象直接⽀持点+列名的⽅式进⾏索引；

缺失值的处理

所有缺失值字段填充为 0：df.fillna(0)，⼀定要⼗分注意的⼀点是，df.fillna() 操作默认（inplace=False）不是 inplace，也即不是对原始 data frame 直接操作修改的，⽽是创建⼀个副本，对副本进⾏修改；

df.fillna(0, inplace=True)

df = df.fillna(0)

舍弃那些全⾏为 NaN 的⾏，以及全列为 NaN 的⾏：

df.dropna(axis=[0, 1], how=’all’)

删除某些⾏和列：

df.drop([], axis=1, inplace=True) ⇒ axis = 1，删除列；

df.drop([], axis=0, inplace=True) ⇒ axis = 0，删除⾏；

⾸先创建具有缺失值NaN(Not A Number)的CSV(comma-separated values)⽂件：

import pandas as pd

from io import StringIO

csv_data = '''A,B,C,D

1.0,

2.0,

3.0,

4.0

5.0,

6.0,,8.0

0.0,11.0,12.0,'''

df = pd.read_csv(StringIO(csv_data))

删除含缺失值的样本

具体处理⽅法：

df.isnull()#是缺失值返回True，否则范围False

df.isnull().sum()#返回每列包含的缺失值的个数

df.dropna()#直接删除含有缺失值的⾏

df.dropna(axis = 1)#直接删除含有缺失值的列

df.dropna(how = ‘all’)#只删除全是缺失值的⾏

df.dropna(thresh = 4)#保留⾄少有4个缺失值的⾏

df.dropna(subset = [‘C’])#删除含有缺失值的特定的列

填充缺失值

数值型数值(Numerical Data)

⽅法⼀：fillna()函数

df.fillna(0)：⽤0填充

df.fillna(method=‘pad’)：⽤前⼀个数值填充

df.an())：⽤该列均值填充

均值填充

age_mean = an()

# age_mean = data['Age'].mean()

data.Age[data['Age'].isnull()] = age_mean

# data['Age'] == data.Age ⼆者是等效的

⽅法⼆：Imputer

from sklearn.preprocessing import Imputer

imr = Imputer(missing_values='NaN', strategy='mean', axis=0)#均值填充缺失值

imr = imr.fit(df)

imputed_data = ansform(df.values)

DataFrame的基本操作，增、减、改、查

⼀. 数据选取

从已有的DataFrame中取出其中⼀列或⼏列，并对其进⾏操作。

Pandas取出DataFrame的列有两种⽅式，两个⽅式没有好与坏之分，还是看个⼈喜欢⽤哪个

#-*- coding:utf-8 -*-

import pandas as pd

df = pd.DataFrame({'goods':['coke cola', 'eggplant','condom'], 'quantity':[12,3,1], 'price':[20,12,80]})

df['goods'] #选择df的goods这⼀列

需要注意的是，第⼀种⽅法看似像是⼀种列表形式，但是如果像是如下⽅式书写代码会报错

df['goods','quantity'] #会报错，不要妄想通过这种⽅式获取多列。

上⽅的形式会引发⼀个KeyError的错误。如果想通过第⼀种形式获取多列，正确的形式如下

df[['goods','quantity']]

将多列的列名按照⼀个list的形式传⼊，就可以获取⼀个DataFrame的多列。

⼆. 数据筛选

往往选取出⼏个DataFrame的列并不能满⾜筛选，DataFrame的筛选的形式⽐较特殊，对列进⾏筛选时⽤到的是之前所讲的第⼆种选取列的形式，有点像是把列名视为⼀个DataFrame的属性。

#-*- coding:utf-8 -*-

import pandas as pd

df = pd.DataFrame({'goods':['coke cola', 'eggplant','condom'], 'quantity':[12,3,1], 'price':[20,12,80]})

print ds =='eggplant']

# goods price quantity

# 1 eggplant 12 3

上⾯代码的意思是选取DataFrame中，goods列的值为’eggplant‘的所有⾏。DataFrame中也⽀持多条件筛选，与Python的判断语句相同，and、or、not 和 xor分别代表和、或、⾮、抑或。也可以⽤符号代替 &、|、~、^。每个判断条件要⽤圆括号括起来，否则会报错

df[(df.goods =='eggplant') & (df.quantity == 12)]

选取df中 goods列值为 eggplant且对应的 quantity值为12的所有列。

在筛选数据时候也可以使⽤loc和iloc函数实现⼦集的选取，意思并不是说上⽅的筛选语句不对，亲测同样很好⽤，⽽且代码简单了点。loc 和iloc进⾏数据筛选的格式如下：

df = df.ds=='eggplant', :]

.loc[]相当于是把想要筛选的列通过 ':'全部选出来。loc⽅法同样⽀持多条件筛选。

df = df.loc[(df.goods =='eggplant') & (df.quantity == 12), :]

loc形式的多条件筛选，条件与条件之间同样要使⽤括号分割开。这两⾏loc⽅法筛选的结果与之前没⽤loc⽅法写的代码效果是⼀样的，格式规范⽽⾔肯定是有loc的更容易让⼈理解。但是如果只是给⾃⼰写脚本完全可以⽤前⼀种，必要时候做个注释即可。

条件筛选的另⼀种形式，就是选取⼀个DataFrame中满⾜条件的⾏的某⼏列（并不是全部列）。此时只需将上⾯的代码做⼀⼩点改变即可。

df = df.loc[(df.goods =='eggplant') & (df.quantity == 12), ['goods', 'price']]

此时亲测使⽤loc⽅式会⽐较好⼀些，因为之前loc形式后⽅的 ‘:’ 代表的是满⾜条件的全部⾏的所有列的数据，⼀个冒号囊括了所有列。此时要是指定其中的某⼏列，通过list的形式，list的元素是DataFrame的列名，元素类型是字符串。上⽅的代码所表达的是满⾜条件的所有⾏的 goods 和 price 两列。

三. 数据的修改

数据的修改往往有这⼏种形式

① 针对某个值或者某个范围的值的修改。

② 增加列、删除列

③ 增加⾏、删除⾏

④修改索引

⑤修改列名

数据值的修改常见于分类的问题中，⽐如将⼀个列作为分类的列，有时候往往该列的值不是想要的数字表⽰的不同分类，或者更复杂是⼀个连续变量，此时针对DataFrame的修改就格外重要。

添加列

df['price'][df.price > 15] = 'expensive'

通过这⼀⾏代码，就将df的 price ⼀列的⼤于15的商品定义为 ‘expensive’。分类问题中不同的类常常⽤不同的数字来表⽰，⽽不同类之间的转换需要的就是这样的筛选与修改。

增加列的⽅法很简单，⽽且很常⽤，⽐如想要在之前的df中添加⼀个叫‘remain’的列，记录是否有货，可以直接使⽤下⾯的代码：

df['remain'] = 'yes'

这样就在之前的df后⾯⼜加了⼀列‘remain’，但是这⼀整列的值为‘yes’。如果不想在末尾加列，⽽是想在某列之间添加⼀列，那么就需要使⽤insert⽅法。

df.insert(int=0, column = 'remain', value='yes')

int参数传⼊的是⼀个整数，这个整数是插⼊列所在的位置，0代表列的索引为0的位置，也就是第⼀列。 column参数是设置列名。 value 值是给这列赋值，可以是字符串，如果是字符串，那么这⼀列的值都会是这个字符串；也可以是Pandas的Series，或者是Python的list。这样可以使得这⼀整列不是同⼀个值。

删除列

列的删除使⽤Pandas模块中的drop()⽅法最为⾼效。假如要删除刚才添加的remain列。

df.drop(labels='remain', axis=1, inplace=True)

上⽅这⾏代码会成功删除DataFrame中的‘remain’列，注意：如果inplace参数不指定为True，只会在内部删除，df并不会被真正改变。axis参数默认是0，也就是代表着⾏，所以删除列时要把axis改为1。

如果想删除df中多个列，drop()⽅法也是可以的。

df.drop(labels=['remain', 'quantity'], axis=1, inplace=True)

将想删除的多个列名以Python的列表形式传给labels参数，就可以在该数据框中删除列表中的列。

添加⾏

Pandas的添加⾏⽅式有很多种不过最为直观的⽅式是这样的

df.loc[3]={'goods':'shampoo','quantity':13, 'price':50}

loc⼜出现，在索引为3的⾏（第四⾏）插⼊⼀组数据。数据的形式按照字典的形式传⼊。还有⼀种⽅法是通过append⽅法。

df = df.append({'goods':'shampoo','quantity':13, 'price':50}, ignore_index=True)

也是使⽤dict形式传⼊。

删除⾏

df.drop(labels = 1, axis=0,inplace = True)

删除索引为1的⾏，axis=0表⽰横向删除⾏。删除多⾏时，传⼊labels的参数是⼀个list，元素是列的索引值。

df.drop(labels = [1, 4, 6], axis=0,inplace = True)

删除df中的索引为1,4,6的⾏。

修改索引

修改索引有两种情况，改变索引和不改变索引。

① 不改变索引，可以看做是将原始数据按照索引顺序排序

df.sort_index(axis=1,ascending=False)

axis表⽰所有列都随着索引⼀起变位置，ascending是降序的意思，默认是False。

② 改变索引

set_index()⽅法

df.set_index(keys='goods',inplace=True)

将df的goods这⼀列设置成索引，在原数据框中改。这个⽅法感觉更适合之前没有索引的情况下。当之前设置了索引的情况下需要的是reindex⽅法。

values什么意思new_index可以是Python列表，元素是现在已有的索引的⼀部分值，这个⽅法常常⽤于保留想留下的⾏。

修改列名

修改列名需要⽤到的是rename()⽅法。

这就是rename改变列名的⽤法，传⼊的形式是字典，键值是新名字；value值是原本的列名。这样的好处是做到了⼀⼀对应。之后⼀定要加上inplace参数，设置为TRUE，否则不会在原有的dataframe中改动。

数据类型转化

dataframe中的astype()⽅法是对数据类型进⾏转换的函数。以⼀个例⼦进⾏说明

df = pd.DataFrame({'id': range(4), 'age': ['13', '34', '23'], 'weight': ['45.7', '60.9', '55.5']})

df.dtypes

dtype的结果会显⽰出，id列的数据类型是 int，⽽age和weight列的数据类型都是 object。现在将age转化为 int类型，weight转化为float类型。此时astype函数的作⽤就有所体现。

df.astype({'age':'int', 'weight':'float'})

通过字典的形式传⼊，将两列转换成了想要的数据类型。

数据排序

dataframe中索引排序⽤到的是sort_index⽅法，相似的列数值排序运⽤的是sort_values()⽅法。

df.sort_values( by=['age'], ascending=False, inplace=True) #只通过age进⾏排序；升序；如有缺失值放在最后。

df.sort_values(by=['age', 'weight'], ascending=True, inplace=True, na_position='first') #先通过age排序，在其基础上通过weight排序；降序，缺失值放在最前⽅。

数据的排序在实际问题中很有⽤，⽐如出聚类中得分最⾼的⼏个项等等。

688IT编程网

[455]pandas.DataFrame基本操作及缺失值处理

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

[455]pandas.DataFrame基本操作及缺失值处理

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式