python积累--pandas读取数据积累--dataframe用法--688IT编程网

python积累--pandas读取数据积累--dataframe⽤法

通过带有标签的列和索引，Pandas 使我们可以以⼀种所有⼈都能理解的⽅式来处理数据。它可以让我们毫不费⼒地从诸如 csv 类型的⽂件中导⼊数据。我们可以⽤它快速地对数据进⾏复杂的转换和过滤等操作。

pandas和 Numpy、Matplotlib ⼀起构成了⼀个 Python 数据探索和分析的强⼤基础。Scipy是同类型的库，感兴趣的可以进⾏了解。

本⽂记录和收集积累pandas的⽤法。

导⼊ Pandas

import pandas as pd # This is the standard

这是导⼊ pandas 的标准⽅法。我们不想⼀直写 pandas 的全名，但是保证代码的简洁和避免命名冲突都很重要，所以折中使⽤ pd 。如果你去看别⼈使⽤ pandas 的代码，就会看到这种导⼊⽅式。

Pandas 中的数据类型

Pandas 基于两种数据类型，series 和 dataframe。

series 是⼀种⼀维的数据类型，其中的每个元素都有各⾃的标签。你可以把它当作⼀个由带标签的元素组成的 numpy 数组。标签可以是数字或者字符。通俗的理解就是带有标签的⾏或者带有标签的列。

dataframe 是⼀个⼆维的、表格型的数据结构。Pandas 的 dataframe 可以储存许多不同类型的数据，并且每个轴都有标签。你可以把它当作⼀个 series 的字典。通俗的理解就是⾏列带有标签的表格。

将数据导⼊ Pandas

# Reading a csv into Pandas.

df = pd.read_csv('my_data.csv', header=0)

如果你的数据集中有中⽂的话，最好在⾥⾯加上 encoding = ‘gbk’ ，以避免乱码问题。后⾯的导出数据的时候也⼀样。

这⾥我们从 csv ⽂件⾥导⼊了数据，并储存在 dataframe 中。这⼀步⾮常简单，你只需要调⽤ read_csv 然后将⽂件的路径传进去就⾏了。header 关键字告诉 Pandas 哪些是数据的列名。如果没有列名的话就将它设定为 None 。

查看前 x ⾏的数据

# Getting first x rows.

df.head(5)

我们只需要调⽤ head() 函数并且将想要查看的⾏数传⼊。

查看某列所有的值

df[column].unique()

查看后 x ⾏的数据

# Getting last x rows.

df.tail(5)

跟 head ⼀样，我们只需要调⽤ tail 并且传⼊想要查看的⾏数即可。注意，它并不是从最后⼀⾏倒着显⽰的，⽽是按照数据原来的顺序显⽰。

修改列名

输⼊新列名即可

# Changing column labels.

'rain_decfeb', 'outflow_decfeb', 'rain_junaug', 'outflow_junaug']

选取指定的列

final_result= tree_have_mbarcode_wbarcode_manwife_wifeman[['r_id','source','man','wife','relation']]

查询总⾏数

在 Pandas 中，⼀条记录对应着⼀⾏，所以我们可以对数据集调⽤ len ⽅法，它将返回数据集的总⾏数：

# Finding out how many rows dataset has.

len(df)

上⾯的代码返回⼀个表⽰数据⾏数的整数

统计表格

你可能还想知道数据集的⼀些基本的统计数据，在 Pandas 中，这个操作简单到哭：

# Finding out basic statistical information on your dataset.

pd.options.display.float_format = '{:,.3f}'.format # Limit output to 3 decimal places.

df.describe()

这将返回⼀张表，其中有诸如总数、均值、标准差之类的统计数据：

提取⼀整列

使⽤列的标签可以⾮常简单地做到：

# Getting a column by label

df['rain_octsep']

注意，当我们提取列的时候，会得到⼀个 series ，⽽不是 dataframe 。记得我们前⾯提到过，你可以把 dataframe 看作是⼀个 series 的字典，所以在抽取列的时候，我们就会得到⼀个 series。

使⽤点号获取列

访问对象属性⼀样访问数据集的列——只⽤⼀个点号。

# Getting a column by label using .

df.rain_octsep

这句代码返回的结果与前⼀个例⼦完全⼀样——是我们选择的那列数据。

返回列是否符合条件

pandas可以使⽤布尔过滤（boolean masking）的技术，通过在⼀个数组上运⾏条件来得到⼀个布林数组。

# Creating a series of booleans based on a conditional

df.rain_octsep < 1000 # Or df['rain_octsep] < 1000

上⾯的代码将会返回⼀个由布尔值构成的 dataframe。True 表⽰在⼗⽉-九⽉降⾬量⼩于 1000 mm，False 表⽰⼤于等于 1000 mm。我们可以⽤这些条件表达式来过滤现有的 dataframe。

筛选符合条件的列

# Using a series of booleans to filter

df[df.rain_octsep < 1000]

这条代码只返回⼗⽉-九⽉降⾬量⼩于 1000 mm 的记录：

也可以通过复合条件表达式来进⾏过滤：

# Filtering by multiple conditionals

df[(df.rain_octsep < 1000) & (df.outflow_octsep < 4000)] # Can't use the keyword 'and'

这条代码只会返回 rain_octsep 中⼩于 1000 的和 outflow_octsep 中⼩于 4000 的记录：

注意重要的⼀点：这⾥不能⽤ and 关键字，因为会引发操作顺序的问题。必须⽤ & 和圆括号。

和操作使⽤&、或操作使⽤|、not操作使⽤ ~

df = df[(df['user:Name'].str.find('condor')>=0) | (df['UsageType'].str.find('CNW1-SpotUsage:c4.8xlarge')>=0)]

列筛选–字符串匹配–包含等

如果你的数据是字符串，你也可以使⽤字符串⽅法来进⾏过滤：

# Filtering by string methods

df[df.water_year.str.startswith('199')]

注意，你必须⽤ .str.[string method] ，⽽不能直接在字符串上调⽤字符⽅法。上⾯的代码返回所有 90 年代的记录。

⾏选择的前提—设置索引

可以设置⼀个（或者多个）新的索引：

# Setting a new index from an existing column

df = df.set_index(['water_year'])

df.head(5)

上⾯的代码将 water_year 列设置为索引。注意，列的名字实际上是⼀个列表，虽然上⾯的例⼦中只有⼀个元素。如果你想设置多个索引，只需要在列表中加⼊列的名字即可。

数字型的标签–⾏选择–iloc

之前的部分展⽰了如何通过列操作来得到数据，但是 Pandas 的⾏也有标签。⾏标签可以是基于数字的或者是标签，⽽且获取⾏数据的⽅法也根据标签的类型各有不同。

如果你的⾏标签是数字型的，你可以通过 iloc 来引⽤：

# Getting a row via a numerical index

df.iloc[30]

iloc 只对数字型的标签有⽤。它会返回给定⾏的 series，⾏中的每⼀列都是返回 series 的⼀个元素。

字符型的标签–⾏选择–loc

我们设置的索引列中都是字符型数据，这意味着我们不能继续使⽤ iloc 来引⽤，那我们⽤什么呢？⽤ loc 。

# Getting a row via a label-based index

df.loc['2000/01']

和 iloc ⼀样，loc 会返回你查询的⾏，唯⼀⼀点不同就是此时你使⽤的是基于字符串的引⽤，⽽不是基于数字的。

字符型和数字类型的标签–⾏选择–ix

还有⼀个引⽤列的常⽤常⽤⽅法—— ix 。如果 loc 是基于标签的，⽽ iloc 是基于数字的，那 ix 是基于什么的？事实上，ix 是基于标签的查询⽅法，但它同时也⽀持数字型索引作为备选。

# Getting a row via a label-based or numerical index

df.ix['1999/00'] # Label based with numerical index fallback *Not recommended

与 iloc、loc ⼀样，它也会返回你查询的⾏。

如果 ix 可以同时起到 loc 和 iloc 的作⽤，那为什么还要⽤后两个？⼀⼤原因就是 ix 具有轻微的不可预测性。还记得我说过它所⽀持的数字型索引只是备选吗？这⼀特性可能会导致 ix 产⽣⼀些奇怪的结果，⽐如讲⼀个数字解释为⼀个位置。⽽使⽤ iloc 和 loc 会很安全、可预测并且让⼈放⼼。但是我要指出的是，ix ⽐ iloc 和 loc 要快⼀些。

选取等于某些值的⾏记录

⽤ ==

df.loc[df['column_name'] == some_value]

选取某列是否需要的数值⽤ isin

df.loc[df['column_name'].isin(some_values)]

多种条件的选取⽤ &

df.loc[(df['column'] == some_value) & df['other_column'].isin(some_values)]

选取不等于某些值的⾏记录⽤！=

df.loc[df['column_name'] != some_value]

isin返回⼀系列的数值，如果要选择不符合这个条件的数值使⽤~ df.loc[~df['column_name'].isin(some_values)]

按位置选择

通过传递的整数的位置进⾏选择：

df.iloc[3] #取出第三⾏

Clipboard Image.png

通过整数切⽚，类似于numpy / python：

df.iloc[3:5,0:2]

Clipboard Image.png

切出3-4⾏，1-2列⼀块区域

通过整数位置列表切分，类似numpy的/ Python的风格：

df.iloc[[1,2,4],[0,2]]

切分出某些⾏：

df.iloc[1:3,:]

切分出某些列：

df.iloc[:,1:3]

获取某个值

df.iloc[1,1]

快速访问某个值（等同于先前的⽅法）：

df.iat[1,1]

⼀个dataframe拆分成多个

df = pd.read_csv('data/tgnb_merge.csv', encoding='utf-8')

# df.drop_duplicates(keep='first', inplace=True) # 去重，只保留第⼀次出现的样本

df = df.sample(frac=1.0) # 全部打乱

cut_idx = int(round(0.1 * df.shape[0]))

df_test, df_train = df.iloc[:cut_idx], df.iloc[cut_idx:]

print df.shape, df_test.shape, df_train.shape # (3184, 12) (318, 12) (2866, 12)

合并连接多个dataframe

df1=DataFrame(np.random.randn(3,4),columns=['a','b','c','d'])

df2=DataFrame(np.random.randn(2,3),columns=['b','d','a'])

a b c d

0 -0.848557 -1.163877 -0.306148 -1.163944

1 1.358759 1.159369 -0.532110 2.183934

2 0.532117 0.788350 0.703752 -2.620643

0 -0.316156 -0.707832 NaN -0.416589

1 0.406830 1.34593

2 NaN -1.874817

a b c dpython新手代码userid

0 -0.848557 -1.163877 -0.306148 -1.163944

1 1.358759 1.159369 -0.532110 2.183934

2 0.532117 0.788350 0.703752 -2.620643

3 -0.316156 -0.707832 NaN -0.416589

4 0.406830 1.345932 NaN -1.874817

排序去重取第⼀条数据

df_user = df_user.sort_values(['#account_id'],ascending=False)

df_user_distinct = upby(['#account_id']).head(1)

根据多列分组，对其中⼀列进⾏统计

根据A、B列分组，对C列进⾏求和：

upby(['A','B'])[['C']].sum()

根据A、B列分组，对C列进⾏计数：

upby(['A','B'])[['C']].count()

根据某列分组后，拼接字符串列

order_info['productname'] = upby(['userid_db_order'])['productname'].transform(lambda x : ' '.join(x)) order_info = order_info.drop_duplicates()

print(order_info)

索引排序

将索引排序通常会很有⽤，在 Pandas 中，我们可以对 dataframe 调⽤ sort_index ⽅法进⾏排序。

688IT编程网

python积累--pandas读取数据积累--dataframe用法

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

python积累--pandas读取数据积累--dataframe用法

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则