python中的pandas库_数据分析中pandas库的基本用法详解--688IT编程网

python中的pandas库_数据分析中pandas库的基本⽤法详解上篇分享了数据分析⽤到的⼀个库：Numpy 库，今天分享⼀个⽐ Numpy 更⾼效的库：pandas，它可以对数据进⾏导⼊、清洗、处理、统计和输出。pandas 是基于 Numpy 库的，可以说，pandas 库就是为数据分析⽽⽣的。

环境

语⾔：Python 3.6

安装&导⼊

⽤ pip 命令快速安装 pandas 库。

Python

pip install pandas

安装完后再编辑器中导⼊。

Python

import pandas as pd

读取⽂件

读取你的 excel ⽂件，并另存为 csv 格式的⽂件。

Python

import pandas as pd

from pandas import DataFrame, Series

df = ad_excel('test.xlsx'))

<_csv('test1.csv')

print(df)

importpandasaspd

frompandasimportDataFrame,Series

df=ad_excel('test.xlsx'))

<_csv('test1.csv')

print(df)

读取过程中可能会报错，提⽰你缺少 xlrd 模块的情况，⽤ pip 命令安装即可。

打印出读取到的数据，我们发现，⽂件中单元格为空的数据以 NAN 代替了。

当然，也可以直接读取⽂件并打印，不给参数的话默认只打印前 5 ⾏数据。以我之前爬取的热门歌⼿⽂件为例。Python

import pandas as pd

from pandas import DataFrame, Series

df = ad_excel('歌⼿.xlsx'))

print(df.head(8))

importpandasaspd

frompandasimportDataFrame,Series

df=ad_excel('歌⼿.xlsx'))

print(df.head(8))

打印结果如下：

Python

歌⼿名字歌⼿ID

0 周杰伦 6452

1 陈奕迅 2116

2 薛之谦 5781

3 林俊杰 3684

4 李荣浩 4292

5 张学友 6460

6 杨宗纬 6066

7 许巍 5770

歌⼿名字歌⼿ID

0周杰伦6452

1陈奕迅2116

2薛之谦5781

3林俊杰3684

4李荣浩4292

5张学友6460

6杨宗纬6066

7许巍5770

清洗数据

我们知道，从事数据分析⼯作的，80% 的时间都花在数据清洗上⾯，因为我们从各个渠道获取的信息格式不统⼀，我们需要对他们进⾏清洗。

清洗数据主要内容如下：

删除 DataFrame 中的不必要列和⾏。

重命名 columns 为⼀组更易识别的标签。

更改数据格式。

去除数据间空格或者特定字符。

去除重复的⾏。

查空值。

删除⾏或者列

我们还是以刚才歌⼿信息为例，为了看删除效果，我加了⼀列信息：性别，下⾯只显⽰部分信息。

Python

歌⼿名字歌⼿ID 性别

0 周杰伦 6452 男

1 陈奕迅 2116 男

2 薛之谦 5781 男

3 林俊杰 368

4 男

4 李荣浩 4292 男

5 张学友 6460 男

6 杨宗纬 6066 男

7 许巍 5770 男

歌⼿名字歌⼿ID性别

0周杰伦6452男

1陈奕迅2116男

2薛之谦5781男

3林俊杰3684男

4李荣浩4292男

5张学友6460男

6杨宗纬6066男

7许巍5770男

删除性别这⼀列。

Python

import pandas as pd

from pandas import DataFrame, Series

df = ad_excel('歌⼿.xlsx')) df1 = df.drop(columns=['性别'])

print(df1)

importpandasaspd frompandasimportDataFrame,Series

df=ad_excel('歌⼿.xlsx'))

df1=df.drop(columns=['性别'])

print(df1)

执⾏后发现刚加的「性别」这⼀列已被删除。

删除某⼀⾏，⽐如删除李荣浩这⼀⾏信息，我们通过上⾯可以知道这⼀⾏的 index 是 4。Python

import pandas as pd

from pandas import DataFrame, Series

df = ad_excel('歌⼿.xlsx'))

df1 = df.drop(index=['李荣浩'])

print(df1)

importpandasaspd

frompandasimportDataFrame,Series

df=ad_excel('歌⼿.xlsx'))

df1=df.drop(index=['李荣浩'])

print(df1)

执⾏后结果如下，我们发现，index 为 4 的这⼀⾏信息已被删除。

isnull的用法Python

歌⼿名字歌⼿ID 性别

0 周杰伦 6452 男

1 陈奕迅 2116 男

2 薛之谦 5781 男

3 林俊杰 368

4 男

5 张学友 6460 男

6 杨宗纬 6066 男

7 许巍 5770 男

688IT编程网

python中的pandas库_数据分析中pandas库的基本用法详解

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

python中的pandas库_数据分析中pandas库的基本用法详解

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式