pandas中⽂教程⽂档导航
索引
模块|
下⼀个|
pandas 0.19.2 documentation»
⽬录
新功能
安装
为pandas贡献
trimmean函数怎么运行的常见问题(FAQ)
套装概述
10分钟⼊门pandas
教程
⾷谱
数据结构简介
基本基本功能fetching on command
使⽤⽂本数据
选项和设置
索引和选择数据
MultiIndex /⾼级索引
计算⼯具
使⽤缺失数据
分组:split-apply-combine
合并,连接和连接
整形和数据透视表
时间系列/⽇期功能
时间Deltas
分类数据
可视化
样式
IO⼯具(⽂本,CSV,HDF5,...)
远程数据访问
增强性能
稀疏数据结构
告诫和诀窍
rpy2 / R interface
pandas⽣态系统
与R / R库⽐较
与SQL⽐较
与SAS的⽐较
API参考
内部
发⾏说明
搜索
输⼊搜索字词或模块,类或函数名称。
pandas:强⼤的Python数据分析⼯具包¶
PDF版本
已压缩的HTML
版本:0.19.2
⽇期
⽇期:2016年12⽉24⽇版本
pandas是⼀个提供快速,灵活和表达性数据结构的Python包,旨在使“关系”或“标记”数据变得简单直观。它旨在成为在Python中进⾏实
网页源代码有什么作用最强⼤和最灵活的任何语⾔的开源数据分析/操作⼯具。它已经很好真实世界数据分析的基本⾼级构建块。此外,它的更⼴泛的⽬标是成为最强⼤和最灵活的任何语⾔
⽤的真实世界
地朝着这个⽬标前进了。
pandas⾮常适合许多不同类型的数据:
具有⾮均匀类型列的表格数据,如在SQL表或Excel电⼦表格中
有序和⽆序(不⼀定是固定频率)时间序列数据。
python入门教程(非常详细)书带有⾏和列标签的任意矩阵数据(均匀类型或异质)
任何其他形式的观测/统计数据集。数据实际上不需要被标记就可以被放置到Pandas的数据结构中
pandas的两个主要数据结构Series(⼀维)和DataFrame(⼆维)处理了⾦融,统计,社会中的绝⼤多数典型⽤例科学,以及许多⼯程领域。
对于R⽤户,DataFrame提供R的data.frame所有功能及其他功能。pandas建⽴在NumPy之上,旨在包含更多其他第三⽅库并与之集成为优秀的科学计算环境。
这⾥只是⼏个pandas做得很好的事情:
dw设计模板缺失数据(表⽰为NaN)以及⾮浮点数据
轻松处理浮点数据中的缺失数据
插⼊和删除
⼤⼩可变性:列可以从DataFrame和更⾼维度的对象中插⼊和删除
数据对齐:对象可以显式地对齐到⼀组标签,或者⽤户可以简单地忽略标签,让Series,DataFrame 等在计算中为您⾃动对齐数据⾃动和显式数据对齐
分组功能对数据集执⾏拆分应⽤组合操作,以聚合和转换数据
功能强⼤,灵活的分组
易于将其他Python和NumPy数据结构中的粗糙,不同索引的数据转换为DataFrame对象
使易于将其他Python和NumPy数据结构中的
⼦集化⼤数据集
花式索引和⼦集化
切⽚,花式索引
基于智能标签的切⽚
连接数据集
合并和连接
直观的合并
重塑和数据集的旋转
灵活的重塑
轴的分层标签(每个标记可能有多个标签)
轴的分层
HDF5格式的数据的强⼤IO⼯具
⽤于从平⾯⽂件
平⾯⽂件(CSV和定界),Excel⽂件,数据库加载数据并保存/加载超快速HDF5格式的数据的强⼤IO⼯具
时间序列- 特定功能:⽇期范围⽣成和频率转换,移动窗⼝统计,移动窗⼝线性回归,⽇期移动和滞后等。
时间序列
许多此处原则是为了解决在使⽤其他语⾔/科学研究环境时常常所遇到的不⾜。对于数据科学家,处理数据通常分为多个阶段:清理和清理数据,分析/建模,然后将分析的结果组织成适合于绘图或表格显⽰的形式。pandas是处理所有这些任务的理想⼯具。
其他⼀些注释
快速的。许多低级算法位已在Cython代码中⼴泛调整。然⽽,与任何其他泛化通常牺牲性能。因此,如果您专注于应⽤程序的⼀个功pandas是快速的
能,您可以创建⼀个更快的专业⼯具。
pandas是statsmodels的依赖项,使其成为Python中统计计算⽣态系统的重要组成部分。
pandas已⼴泛⽤于⾦融应⽤的产品。
注意
本⽂档假定⼤家熟悉NumPy。如果你还没有熟练使⽤NumPy或者根本没⽤过numpy,请先花⼀些时间在学习NumPy。
有关库中的内容的更多详细信息,请参阅软件包概述。
新功能
v0.19.2(2016年12⽉24⽇)
增强功能
性能改进
错误修正
v0.19.1(2016年11⽉3⽇)
性能改进
错误修正
v0.19.0(2016年10⽉2⽇)
新功能
merge_asof⽤于asof风格的时间序列加⼊
.rolling()现在是时间系列感知
read_csv已改进对重复列名称的⽀持
read_csv⽀持直接解析Categorical
分类连接
半⽉偏移
新建索引⽅法
Google BigQuery增强功能
细粒度数字错误状态
get_dummies现在返回整数dtypes
将to_numeric中的最⼩可能dtype向下转换
pandas开发API
其他增强功能
API更改
Series系列
Series在分配时促销
.to_datetime()更改
合并更改
.describe()更改
Period更改
索引+/-不再⽤于设置操作
Index.difference和.symmetric_difference更改
Index.unique始终返回Index
MultiIndex构造函数,groupby和set_index保留分类dtypes read_csv将逐步枚举块
稀疏更改
索引器dtype更改
其他API更改
弃⽤
删除以前的版本弃⽤/更改
性能改进
错误修正
v0.18.1(2016年5⽉3⽇)
新功能
⾃订⼯作时间
.groupby(..)语法与窗⼝和重新抽样操作
⽅法链改进
当MultiIndex的⼀部分时,DateTimeIndex 汇编数据时
其他增强功能
稀疏变化
API更改
.groupby(..).nth()更改
numpy功能兼容性
在groupby重新取样上使⽤.apply
read_csv异常中的更改
to_datetime错误更改
其他API更改sql数据库游标的使用
弃⽤
性能改进
错误修正
v0.18.0(2016年3⽉13⽇)
新功能
窗⼝函数现在是⽅法
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论