python读取sas数据集_Python数据处理库pandas入门教程基本操作--688IT编程网

python读取sas数据集_Python数据处理库pandas⼊门教程基

本操作

pandas是⼀个Python语⾔的软件包，在我们使⽤Python语⾔进⾏机器学习编程的时候，这是⼀个⾮常常⽤的基础编程库。本⽂是对它的⼀个⼊门教程。

pandas提供了快速，灵活和富有表现⼒的数据结构，⽬的是使“关系”或“标记”数据的⼯作既简单⼜直观。它旨在成为在Python中进⾏实际数据分析的⾼级构建块。

⼊门介绍

pandas适合于许多不同类型的数据，包括：

具有异构类型列的表格数据，例如SQL表格或Excel数据

有序和⽆序（不⼀定是固定频率）时间序列数据。

具有⾏列标签的任意矩阵数据（均匀类型或不同类型）

任何其他形式的观测/统计数据集。

由于这是⼀个Python语⾔的软件包，因此需要你的机器上⾸先需要具备Python语⾔的环境。关于这⼀点，请⾃⾏在⽹络上搜索获取⽅法。

关于如何获取pandas请参阅官⽹上的说明：pandas Installation。

通常情况下，我们可以通过pip来执⾏安装：

sudo pip3 install pandas

或者通过conda来安装pandas：

conda install pandas

⽬前（2018年2⽉）pandas的最新版本是v0.22.0（发布时间：2017年12⽉29⽇）。

我已经将本⽂的源码和测试数据放到Github上：pandas_tutorial，读者可以前往获取。

另外，pandas常常和NumPy⼀起使⽤，本⽂中的源码中也会⽤到NumPy。

建议读者先对NumPy有⼀定的熟悉再来学习pandas，我之前也写过⼀个NumPy的基础教程，参见这⾥：Python 机器学习库 NumPy 教程

核⼼数据结构

电商数据分析

pandas最核⼼的就是Series和DataFrame两个数据结构。

这两种类型的数据结构对⽐如下：

DataFrame可以看做是Series的容器，即：⼀个DataFrame中可以包含若⼲个Series。

注：在0.20.0版本之前，还有⼀个三维的数据结构，名称为Panel。这也是pandas库取名的原因：pan-da-s。但这种数据结构由于很少被使⽤到，因此已经被废弃了。

Series

由于Series是⼀维结构的数据，我们可以直接通过数组来创建这种数据，像这样：

# data_structure.py

import pandas as pd

import numpy as np

series1 = pd.Series([1, 2, 3, 4])

print("series1:\n{}\n".format(series1))

这段代码输出如下：

series1:

0 1

1 2

2 3

3 4

dtype: int64

这段输出说明如下：

输出的最后⼀⾏是Series中数据的类型，这⾥的数据都是int64类型的。

数据在第⼆列输出，第⼀列是数据的索引，在pandas中称之为Index。

我们可以分别打印出Series中的数据和索引：

# data_structure.py

print("series1.values: {}\n".format(series1.values))

print("series1.index: {}\n".format(series1.index))

这两⾏代码输出如下：

series1.values: [1 2 3 4]

series1.index: RangeIndex(start=0, stop=4, step=1)

如果不指定（像上⾯这样），索引是[1, N-1]的形式。不过我们也可以在创建Series的时候指定索引。索引未必⼀定需要是整数，可以是任何类型的数据，例如字符串。例如我们以七个字母来映射七个⾳符。索引的⽬的是可以通过它来获取对应的数据，例如下⾯这样：

# data_structure.py

series2 = pd.Series([1, 2, 3, 4, 5, 6, 7],

index=["C", "D", "E", "F", "G", "A", "B"])

print("series2:\n{}\n".format(series2))

print("E is {}\n".format(series2["E"]))

这段代码输出如下：

series2:oracle 删除字段

C 1

D 2

E 3

F 4

G 5

A 6

B 7

dtype: int64python入门教程非常详细 pdf

E is 3

DataFrame

下⾯我们来看⼀下DataFrame的创建。我们可以通过NumPy的接⼝来创建⼀个4x4的矩阵，以此来创建⼀个DataFrame，像这样：# data_structure.py

df1 = pd.DataFrame(np.arange(16).reshape(4,4))

print("df1:\n{}\n".format(df1))

这段代码输出如下：

df1:

0 1 2 3

0 0 1 2 3

1 4 5 6 7

2 8 9 10 11

3 12 13 1

4 15

从这个输出我们可以看到，默认的索引和列名都是[0, N-1]的形式。

我们可以在创建DataFrame的时候指定列名和索引，像这样：

# data_structure.py

df2 = pd.DataFrame(np.arange(16).reshape(4,4),

columns=["column1", "column2", "column3", "column4"],

worktile手机版

index=["a", "b", "c", "d"])

print("df2:\n{}\n".format(df2))

这段代码输出如下：

df2:

column1 column2 column3 column4

a 0 1 2 3

b 4 5 6 7

c 8 9 10 11

d 12 13 14 15

我们也可以直接指定列数据来创建DataFrame：

# data_structure.py

df3 = pd.DataFrme({"note" : ["C", "D", "E", "F", "G", "A", "B"],

"weekday": ["Mon", "Tue", "Wed", "Thu", "Fri", "Sat", "Sun"]})

print("df3:\n{}\n".format(df3))

jquery源代码这段代码输出如下：

df3:

note weekday

0 C Mon

1 D Tue

2 E Wed

3 F Thu

4 G Fri

5 A Sat

6 B Sun

请注意：

DataFrame的不同列可以是不同的数据类型

如果以Series数组来创建DataFrame，每个Series将成为⼀⾏，⽽不是⼀列

例如：

# data_structure.py

noteSeries = pd.Series(["C", "D", "E", "F", "G", "A", "B"],

index=[1, 2, 3, 4, 5, 6, 7])

weekdaySeries = pd.Series(["Mon", "Tue", "Wed", "Thu", "Fri", "Sat", "Sun"], index=[1, 2, 3, 4, 5, 6, 7])

df4 = pd.DataFrame([noteSeries, weekdaySeries])

print("df4:\n{}\n".format(df4))

df4的输出如下：

df4:

1 2 3 4 5 6 7

0 C D E F G A B

1 Mon Tue Wed Thu Fri Sat Sun

我们可以通过下⾯的形式给DataFrame添加或者删除列数据：

# data_structure.py

df3["No."] = pd.Series([1, 2, 3, 4, 5, 6, 7])

print("df3:\n{}\n".format(df3))

del df3["weekday"]

print("df3:\n{}\n".format(df3))

这段代码输出如下：

df3:

note weekday No.

0 C Mon 1

1 D Tue 2

2 E Wed 3

3 F Thu 4

4 G Fri 5

5 A Sat 6

6 B Sun 7

外贸网站源码怎么建df3:

note No.

0 C 1

1 D 2

2 E 3

3 F 4

4 G 5

5 A 6

6 B 7

Index对象与数据访问

pandas的Index对象包含了描述轴的元数据信息。当创建Series或者DataFrame的时候，标签的数组或者序列会被转换成Index。可以通过下⾯的⽅式获取到DataFrame的列和⾏的Index对象：

# data_structure.py

print("lumns\n{}\n".lumns))

print("df3.index\n{}\n".format(df3.index))

这两⾏代码输出如下：

Index(['note', 'No.'], dtype='object')

df3.index

RangeIndex(start=0, stop=7, step=1)

请注意：

Index并⾮集合，因此其中可以包含重复的数据

Index对象的值是不可以改变，因此可以通过它安全的访问数据

DataFrame提供了下⾯两个操作符来访问其中的数据：

loc：通过⾏和列的索引来访问数据

iloc：通过⾏和列的下标来访问数据

688IT编程网

python读取sas数据集_Python数据处理库pandas入门教程基本操作

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

688IT编程网

python读取sas数据集_Python数据处理库pandas入门教程基本操作

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式 最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

nginx map用法正则

shell 正则表达式最后一行