python学习:pandas库之DataFrame官⽅⽂档简介Pandas库是基于Numpy库来创建的,Numpy主要⽤于矩阵操作,⽽Pandas主要⽤于数据处理。
Pandas主要有两种重要的数据结构:Series和DataFrame.
Series: 类似⼀个⼀维数组,⼀个Series对应DataFrame的⼀列
DataFrame:类似⼀个⼆维数组,⼀个DataFrame由⼏个Series列构成。
在我们学习任何⼀种开源框架,必须得学会阅读其官⽅⽂档:
根据官⽅⽂档,我们先看其最左边的⽬录:
我们通过对各⼦⽬录的简单介绍,来了解DataFrame如何运⽤:
英⽂⽬录中⽂⽬录该⽬录下常⽤属性/⽅法
Constructor构造⽅法可以由numpy数组/字典/DataFrame⽣成
Attributes and underlying data 属性值
index:数据表的⾏索引
columns:数据表的列索引
shape:数据表的形状
dtypes:数据表值的数据类型
Conversion转换astype:转换数据类型Indexing, iteration索引/迭代iloc/loc/iteritems/iterrows/isin
Binary operator functions ⼆元运算符函数
add/sub/mul/div:加减乘除,元素级计算
dot:点乘
df1bine_first(df2):⽤df2的值填充df1的空值
Function application, GroupBy & Window apply⽅法/分组/
apply:在数据表中沿着⾏/列⽅向调⽤某⽅法
groupby:通过mapping/⽅法/标签/标签集进⾏分
组,返回⼀个GroupBy对象。GroupBy对象可进⾏统
计学各值计算或调⽤其apply/agg⽅法+D15。
agg/aggregate:聚合函数
Computations / Descriptive Stats 计算/描述性统计
describe:输出数据表各列统计值-中位值/⽅差等
/
max/mean/var/corr
reindex:重命名⾏/列
Reindexing /
Selection/
Label manipulation 重新索引/选择数
据/通过标签操作
reindex:重命名⾏/列python官方文档中文版
rename:可以通过字典的⽅法重命名⾏/列
/reset_index/
head:选择前N⾏数据,默认前5⾏
tail:选择最后N⾏数据,默认后5⾏
drop_duplicates:返回丢弃了重复值的dataframe
duplicated:根据是否是重复值返回布尔值Series
drop
Missing data
handling
缺失值处理dropna/fillna/replace
Reshaping/ sorting,/ transposing 改变数组形状/
排序/转换
sort_values:按表中内容值⼤⼩排序,
sort_index:按⾏/列的值⼤⼩排序
T:矩阵转置
pivot_table:数据透视表
Combining /
joining / merging 合并/连接
append:在数据表末尾添加⾏数据
/join/
merge:类似SQL的连接,内连接/外连接
Time series-related时间序列
Plotting绘制图形plot:通过kind参数绘制不同图形
Serialization /
IO /
Conversion
读取操作from_csv/to_csv
Sparse稀疏矩阵
数据分箱技术Binning:pandas.cut()
数据分组技术GroupBy:_group(groupname1)--> 得到其中⼀组类别的dataframe
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论