Pandas基础知识点总结(python)
pandas 数据结构
维数名称描述
1Series带标签的⼀维同构数组
2DataFrame带标签的,⼤⼩可变的,⼆维异构表格
⽤值列表⽣成 Series 时,Pandas 默认⾃动⽣成整数索引,
DataFrame 的每⼀列都可以看作⼀个 Series
Pandas 所有数据结构的值都是可变的,但数据结构的⼤⼩并⾮都是可变的,⽐如,Series 的长度不可改变,但 DataFrame ⾥就可以插⼊列。
Pandas ⾥,绝⼤多数⽅法都不改变原始的输⼊数据,⽽是复制数据,⽣成新的对象。 ⼀般来说,原始输⼊数据不变更稳妥。
遍历 DataFrame
#index(⾏)即默认值axis=0;或 columns(列),即 axis=1大学python知识点汇总
for col lumns:
series = df[col]
# do something with series
head() 与 tail() ⽤于快速预览 Series 与 DataFrame,默认显⽰ 5 条数据,也可以指定显⽰数据的数量。
含义属性
查看后5条数据df.tail()
查看数据类型df2.dtypes
显⽰索引与列名df.index ⾏, df.columns
按轴排序df.sort_index(axis=1, ascending=False)
按值排序df.sort_values(by=‘B’)
函数计算 Series 与 DataFrame 数据列的各种数据统计量,这⾥排除了空值。对于混合型的 DataFrame 对象,
describe() 只返回数值列的汇总统计量,如果没有数值列,则只显⽰类别型的列。
df.describe()
将数据转换成 numpy对象,输出不包含⾏索引和列标签_numpy()数据选择
属性含义
选择单列df[‘列名’]
选择前3⾏,⽤ index 名切⽚⾏df[0:3] 或者 df[“index_name0” : “index_name2”]
⽤ 标签 选择df.loc[ “A”]
⽤ 位置 选择df.iloc[3]
df.iloc[3:5, 0:2]
df.iloc[[1, 2, 4], [0, 2]]
删除Dataframe指定⾏列drop()
返回 最⼤值/最⼩值的索引,当多⾏或多列中存在多个最⼤值或最⼩值
返回 最⼤值/最⼩值的索引,当多⾏或多列中存在多个最⼤值或最⼩值
时,只返回匹配到的第⼀个值的 Index:
idxmax() 与 idxmin()对Series⾥⾯的每个值进⾏计数并且排序,默认降序。value_counts(),.value_counts(ascending=True)(升序))
把⼀组数据分割成离散的区间,并设置标签pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates=‘raise’)
属性含义
缺失值
Pandas 主要⽤ np.nan 表⽰缺失数据。 计算时,默认不包含空值。
删除所有含缺失值的⾏df1.dropna(how=‘any’)填充缺失值df1.fillna(value=5)
统计
函数描述
count统计⾮空值数量
sum汇总值
mean平均值
mad平均绝对偏差
median算数中位数
min最⼩值
max最⼤值
mode众数
abs绝对值
prod乘积
std贝塞尔校正的样本标准偏差
var⽆偏⽅差
sem平均值的标准误差
skew样本偏度 (第三阶)
kurt样本峰度 (第四阶)
quantile样本分位数 (不同 % 的值)
cumsum累加
cumprod累乘
cummax累积最⼤值
cummin累积最⼩值

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。