python读取sas数据集_Python数据处理库pandas⼊门教程基
本操作
pandas是⼀个Python语⾔的软件包,在我们使⽤Python语⾔进⾏机器学习编程的时候,这是⼀个⾮常常⽤的基础编程库。本⽂是对它的⼀个⼊门教程。
pandas提供了快速,灵活和富有表现⼒的数据结构,⽬的是使“关系”或“标记”数据的⼯作既简单⼜直观。它旨在成为在Python中进⾏实际数据分析的⾼级构建块。
⼊门介绍
pandas适合于许多不同类型的数据,包括:
具有异构类型列的表格数据,例如SQL表格或Excel数据
有序和⽆序(不⼀定是固定频率)时间序列数据。
具有⾏列标签的任意矩阵数据(均匀类型或不同类型)
任何其他形式的观测/统计数据集。
由于这是⼀个Python语⾔的软件包,因此需要你的机器上⾸先需要具备Python语⾔的环境。关于这⼀点,请⾃⾏在⽹络上搜索获取⽅法。
关于如何获取pandas请参阅官⽹上的说明:pandas Installation。
通常情况下,我们可以通过pip来执⾏安装:
sudo pip3 install pandas
或者通过conda来安装pandas:
conda install pandas
⽬前(2018年2⽉)pandas的最新版本是v0.22.0(发布时间:2017年12⽉29⽇)。
我已经将本⽂的源码和测试数据放到Github上:pandas_tutorial,读者可以前往获取。
另外,pandas常常和NumPy⼀起使⽤,本⽂中的源码中也会⽤到NumPy。
建议读者先对NumPy有⼀定的熟悉再来学习pandas,我之前也写过⼀个NumPy的基础教程,参见这⾥:Python 机器学习库 NumPy 教程
核⼼数据结构
电商数据分析pandas最核⼼的就是Series和DataFrame两个数据结构。
这两种类型的数据结构对⽐如下:
DataFrame可以看做是Series的容器,即:⼀个DataFrame中可以包含若⼲个Series。
注:在0.20.0版本之前,还有⼀个三维的数据结构,名称为Panel。这也是pandas库取名的原因:pan-da-s。但这种数据结构由于很少被使⽤到,因此已经被废弃了。
Series
由于Series是⼀维结构的数据,我们可以直接通过数组来创建这种数据,像这样:
# data_structure.py
import pandas as pd
import numpy as np
series1 = pd.Series([1, 2, 3, 4])
print("series1:\n{}\n".format(series1))
这段代码输出如下:
series1:
0 1
1 2
2 3
3 4
dtype: int64
这段输出说明如下:
输出的最后⼀⾏是Series中数据的类型,这⾥的数据都是int64类型的。
数据在第⼆列输出,第⼀列是数据的索引,在pandas中称之为Index。
我们可以分别打印出Series中的数据和索引:
# data_structure.py
print("series1.values: {}\n".format(series1.values))
print("series1.index: {}\n".format(series1.index))
这两⾏代码输出如下:
series1.values: [1 2 3 4]
series1.index: RangeIndex(start=0, stop=4, step=1)
如果不指定(像上⾯这样),索引是[1, N-1]的形式。不过我们也可以在创建Series的时候指定索引。索引未必⼀定需要是整数,可以是任何类型的数据,例如字符串。例如我们以七个字母来映射七个⾳符。索引的⽬的是可以通过它来获取对应的数据,例如下⾯这样:
# data_structure.py
series2 = pd.Series([1, 2, 3, 4, 5, 6, 7],
index=["C", "D", "E", "F", "G", "A", "B"])
print("series2:\n{}\n".format(series2))
print("E is {}\n".format(series2["E"]))
这段代码输出如下:
series2:oracle 删除字段
C 1
D 2
E 3
F 4
G 5
A 6
B 7
dtype: int64python入门教程 非常详细 pdf
E is 3
DataFrame
下⾯我们来看⼀下DataFrame的创建。我们可以通过NumPy的接⼝来创建⼀个4x4的矩阵,以此来创建⼀个DataFrame,像这样:# data_structure.py
df1 = pd.DataFrame(np.arange(16).reshape(4,4))
print("df1:\n{}\n".format(df1))
这段代码输出如下:
df1:
0 1 2 3
0 0 1 2 3
1 4 5 6 7
2 8 9 10 11
3 12 13 1
4 15
从这个输出我们可以看到,默认的索引和列名都是[0, N-1]的形式。
我们可以在创建DataFrame的时候指定列名和索引,像这样:
# data_structure.py
df2 = pd.DataFrame(np.arange(16).reshape(4,4),
columns=["column1", "column2", "column3", "column4"],
worktile手机版index=["a", "b", "c", "d"])
print("df2:\n{}\n".format(df2))
这段代码输出如下:
df2:
column1 column2 column3 column4
a 0 1 2 3
b 4 5 6 7
c 8 9 10 11
d 12 13 14 15
我们也可以直接指定列数据来创建DataFrame:
# data_structure.py
df3 = pd.DataFrme({"note" : ["C", "D", "E", "F", "G", "A", "B"],
"weekday": ["Mon", "Tue", "Wed", "Thu", "Fri", "Sat", "Sun"]})
print("df3:\n{}\n".format(df3))
jquery源代码这段代码输出如下:
df3:
note weekday
0 C Mon
1 D Tue
2 E Wed
3 F Thu
4 G Fri
5 A Sat
6 B Sun
请注意:
DataFrame的不同列可以是不同的数据类型
如果以Series数组来创建DataFrame,每个Series将成为⼀⾏,⽽不是⼀列
例如:
# data_structure.py
noteSeries = pd.Series(["C", "D", "E", "F", "G", "A", "B"],
index=[1, 2, 3, 4, 5, 6, 7])
weekdaySeries = pd.Series(["Mon", "Tue", "Wed", "Thu", "Fri", "Sat", "Sun"], index=[1, 2, 3, 4, 5, 6, 7])
df4 = pd.DataFrame([noteSeries, weekdaySeries])
print("df4:\n{}\n".format(df4))
df4的输出如下:
df4:
1 2 3 4 5 6 7
0 C D E F G A B
1 Mon Tue Wed Thu Fri Sat Sun
我们可以通过下⾯的形式给DataFrame添加或者删除列数据:
# data_structure.py
df3["No."] = pd.Series([1, 2, 3, 4, 5, 6, 7])
print("df3:\n{}\n".format(df3))
del df3["weekday"]
print("df3:\n{}\n".format(df3))
这段代码输出如下:
df3:
note weekday No.
0 C Mon 1
1 D Tue 2
2 E Wed 3
3 F Thu 4
4 G Fri 5
5 A Sat 6
6 B Sun 7
外贸网站源码怎么建df3:
note No.
0 C 1
1 D 2
2 E 3
3 F 4
4 G 5
5 A 6
6 B 7
Index对象与数据访问
pandas的Index对象包含了描述轴的元数据信息。当创建Series或者DataFrame的时候,标签的数组或者序列会被转换成Index。可以通过下⾯的⽅式获取到DataFrame的列和⾏的Index对象:
# data_structure.py
print("lumns\n{}\n".lumns))
print("df3.index\n{}\n".format(df3.index))
这两⾏代码输出如下:
Index(['note', 'No.'], dtype='object')
df3.index
RangeIndex(start=0, stop=7, step=1)
请注意:
Index并⾮集合,因此其中可以包含重复的数据
Index对象的值是不可以改变,因此可以通过它安全的访问数据
DataFrame提供了下⾯两个操作符来访问其中的数据:
loc:通过⾏和列的索引来访问数据
iloc:通过⾏和列的下标来访问数据
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论