pandas 是⼀个Python包,提供快速、灵活和富有表现⼒的数据结构,旨在使处理“关系”或“标记”数据既简单⼜直观。它旨在成为在 Python 中进⾏实⽤、真实世界数据分析的基本⾼级构建块。此外,它还有⼀个更⼴泛的⽬标,即成为任何语⾔中可⽤的最强⼤、最灵活的开源数据分析/操作⼯具。它已经在朝着这个⽬标前进。pandas ⾮常适合许多不同类型的数据:
具有异构类型列的表格数据,如 SQL 表或 Excel 电⼦表格
pandas 的两个主要数据结构Series(⼀维)和DataFrame(⼆维)处理⾦融、统计、社会科学和许多⼯程
领域的绝⼤多数典型⽤例。对于 R ⽤户,DataFrame提供R提供的⼀切 data.frame以及更多。pandas 建⽴在NumPy 之上,旨在与许多其他 3rd ⽅库在科学计算环境中很好地集成。
以下是 Pandas 擅长的⼀些事情:
轻松处理浮点和⾮浮点数据中的缺失数据(表⽰为 NaN)
⼤⼩可变性:可以从 DataFrame 和更⾼维度的对象中插⼊和删除列
强⼤的 IO ⼯具,⽤于从平⾯⽂件(CSV 和带分隔符)、Excel ⽂件、数据库加载数据,以及从超快HDF5 格式保存/加载数据
这些原则中有许多是为了解决使⽤其他语⾔/科学研究环境时经常遇到的缺点。对于数据科学家来说,处理数据通常分为多个阶段:处理和清理数据、分析/建模,然后将分析结果组织成适合绘图或表格显⽰的形式。pandas 是所有这些任务的理想⼯具。
Pandas基于两种数据类型: series 与 dataframe 。
import numpy as np
import pandas as pd
s = pd.Series([1, 2, 5, np.nan, 6, 8])
0 1.0
1 2.0
2 5.0
3 NaN
4 6.0
5 8.0
dtype: float64
#创建⼀个 DateFrame:
dates =pd.date_range('20130101', periods=6)
#创建Dataframe,其中 index 决定索引序列,columns 决定列名
df =pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
<class 'indexes.datetimes.DatetimeIndex'>
2013-01-01 0.406575 -1.356139 0.188997 -1.308049
2013-01-02 -0.412154 0.123879 0.907458 0.201024
2013-01-03 0.576566 -1.875753 1.967512 -1.044405
2013-01-04 1.116106 -0.796381 0.432589 0.764339
2013-01-05 -1.851676 0.378964 -0.282481 0.296629
2013-01-06 -1.051984 0.960433 -1.313190 -0.093666
#字典创建 DataFrame
df2 =pd.DataFrame({'A' : 1.,
'B': pd.Timestamp('20130102'),
'C': pd.Series(1,index=list(range(4)),dtype='float32'),
'D': np.array([3]*4,dtype='int32'),
'E': pd.Categorical(["test","train","test","train"]),
'F':'foo' })
0 1.0 2013-01-02 1.0 3 test foo
1 1.0 2013-01-0
2 1.0
3 train foo
2 1.0 2013-01-02 1.0
3 test foo
3 1.0 2013-01-02 1.0 3 train foo
1. 导⼊模块
import pandas as pd
import numpy as np
2. 读取excel⽂件
df = pd.read_csv(path='file.csv')
参数:header=None ⽤默认⾏名,0,1,2,3...
names=['A', 'B', 'C'...] ⾃定义列名
index_col='A'|['A', 'B'...] 给索引列指定名称,如果是多重索引,可以传list
skiprows=[0,1,2] 需要跳过的⾏号,从⽂件头0开始,skip_footer从⽂件尾开始
nrows=N 需要读取的⾏数,前N⾏
chunksize=M 返回迭代类型TextFileReader,每M条迭代⼀次,数据占⽤较⼤内存时使⽤
skip_blank_lines=False 默认为True,跳过空⾏,如果选择不跳过,会填充NaN
converters={'col1', func} 对选定列使⽤函数func转换,通常表⽰编号的列会使⽤(避免转换成int)
dfjs = pd.read_json('file.json') 可以传⼊json格式字符串
dfex = pd.read_excel('file.xls', sheetname=[0,1..]) 读取多个sheet页,返回多个df的字典
3. 查询数据
df.shape #显⽰数据的多少⾏和多少列
df.dtypes #显⽰数据的格式
df.head(n) #显⽰数据的前n=5⾏
df.tail(n) #显⽰数据的后n=5⾏
df.head(1)[‘date’] #获取第⼀⾏的date列
df.head(1)[‘date’][0] #获取第⼀⾏的date列的元素值
df.describe(include='all') # all代表需要将所有列都列出
df.T #对数据的转置:
df.isnull() #isnull是Python中检验空值的函数,返回的结果是逻辑值,包含空值返回True,不包含则返回False。可以对整个数据表进⾏检查,也可以单独对某⼀列进⾏空值检查。df[“列名”] #返回这⼀列(“列名”)的数据
df[[“name”,”age”]] #返回列名为name和 age的两列数据
df[‘列字段名’].unique() #显⽰数据某列的所有唯⼀值, 有0值是因为对数据缺失值进⾏了填充
df = pd.read_excel(file,skiprows=[2] ) #不读取哪⾥数据,可⽤skiprows=[i],跳过⽂件的第i⾏不读取
df.loc[0] #使⽤loc[]⽅法来选择第⼀⾏的数据
df.loc[0][“name”] #使⽤loc[]⽅法来选择第⼀⾏且列名为name的数据
df.loc[2:4] #返回第3⾏到第4⾏的数据
df.loc[[2,5,10]] #返回⾏标号为2,5,10三⾏数据,注意必须是由列表包含起来的数据。
df.loc[:,’test1’] #获取test1的那⼀列,这个冒号的意思是所有⾏,逗号表⽰⾏与列的区分
df.loc[:,[‘test1’,’test2’]] #获取test1列和test2列的数据
df.loc[1,[‘test1’,’test2’]] #获取第⼆⾏的test1和test2列的数据[1,’test1’] #表⽰取第⼆⾏,test1列的数据,和上⾯的⽅法类似
df.iloc[0] #获取第⼀⾏
df.iloc[0:2,0:2] #获取前两⾏前两列的数据
df.iloc[[1,2,4],[0,2]] #获取第1,2,4⾏中的0,2列的数据
4. 数据处理
import pandas as pd
import numpy as np
excel_data = pd.read_excel("test.xlsx")
print excel_data.shape #显⽰数据多少⾏多少列
print excel_data.index #显⽰数据所有⾏的索引数
print lumns #显⽰数据所有列的列名
print #显⽰所有列的列名
print excel_data.dtypes #显⽰数据的类型
excel_data.head(5) #显⽰数据的前5⾏
excel_data.tail(5) #显⽰数据的后5⾏
excel_data.loc[0] #获取第⼀⾏的数据
excel_data.loc[2:4] #返回第3⾏到第4⾏的数据
excel_data.loc[[2,5,10]] #返回⾏标号为2,5,10三⾏数据,注意必须是由列表包含起来的数据。
excel_data.iloc[0] #获取第⼀⾏
excel_data["name"] #返回这⼀列("name")的数据
excel_data[["name","age"]] #返回列名为name和 age的两列数据
excel_data["name"].unique() #显⽰数据name列的所有唯⼀值, 有0值是因为对数据缺失值进⾏了填充
excel_data.head(5)["name"] #获取前5⾏的name列
excel_data.head(5)["name"][0] #获取前5⾏的name列的元素值[1,"age"] #表⽰取第⼆⾏"age"列的数据
excel_data.loc[0]["name"] #获取第⼀⾏且列名为name的数据
excel_data.loc[:,"age"] #获取age的那⼀列,这个冒号的意思是所有⾏,逗号表⽰⾏与列的区分
excel_data.loc[:,["age","time"]] #获取所有⾏的age列和time列的数据
excel_data.loc[1,["age","time"]] #获取第⼆⾏的age和time列的数据
excel_data.iloc[0:2,0:2] #获取前两⾏前两列的数据
excel_data.iloc[[1,2,4],[0,2]] #获取第1,2,4⾏中的0,2列的数据
ull() #excel_data的⾮空值为True
excel_data.isnull() #isnull是Python中检验空值的函数,返回的结果是逻辑值,包含空值返回True,不包含则返回False。可以对整个数据表进⾏检查,也可以单独对某⼀列进⾏空值检查。(2)数据清洗转换
