Python中的第三方库——Numpy--688IT编程网

Python中的第三⽅库——Numpy

这⾥快速学习⼀下Python 中⼀个⾮常重要的第三⽅库 NumPy。

它不仅是 Python 中使⽤最多的第三⽅库，⽽且还是 SciPy、Pandas 等数据科学的基础库。它所提供的数据结构⽐ Python ⾃⾝的“更⾼级、更⾼效”，可以这么说，NumPy 所提供的数据结构是 Python 数据分析的基础。

在Python 数组结构中的列表 list，它实际上相当于⼀个数组的结构。⽽ NumPy 中⼀个关键数据类型就是关于数组的，那为什么还存在这样⼀个第三⽅的数组结构呢？

实际上，标准的 Python 中，⽤列表 list 保存数组的数值。由于列表中的元素可以是任意的对象，所以列表中 list 保存的是对象的指针。

虽然在 Python 编程中隐去了指针的概念，但是数组有指针，Python 的列表 list 其实就是数组。这样如果我要保存⼀个简单的数

组 [0,1,2]，就需要有 3 个指针和 3 个整数的对象，这样对于 Python 来说是⾮常不经济的，浪费了内存和计算时间。

使⽤第三⽅库 NumPy让我们的的 Python 科学计算更⾼效！

为什么要⽤ NumPy 数组结构⽽不是 Python 本⾝的列表 list？

这是因为列表 list 的元素在系统内存中是分散存储的，⽽ NumPy 数组存储在⼀个均匀连续的内存块中。这样数组计算遍历所有的元素，不像列表 list 还需要对内存地址进⾏查，从⽽节省了计算资源。另外在内存访问模式中，缓存会直接把字节块从 RAM 加载到 CPU 寄存器中。因为数据连续的存储在内存中，NumPy 直接利⽤现代 CPU 的⽮量化指令计算，加载寄存器中的多个连续浮点数。另外 NumPy 中的矩阵计算可以采⽤多线程的⽅式，充分利⽤多核 CPU 计算资源，⼤⼤提升了计算效率。

当然除了使⽤ NumPy 外，我们还需要⼀些技巧来提升内存和提⾼计算资源的利⽤率。⼀个重要的规则就是：避免采⽤隐式拷贝，⽽是采⽤就地操作的⽅式。举个例⼦，如果我想让⼀个数值 x 是原来的两倍，可以直接写成 x*=2，⽽不要写成 y=x*2。这样速度能快到 2 倍甚⾄更多。

既然 NumPy 这么厉害，我们快速学习从哪⼉⼊⼿学习呢？在 NumPy ⾥有两个重要的对象：ndarray（N-dimensional array object）解决了多维数组问题，⽽ ufunc（universal function object）则是解决对数组进⾏处理的函数。下⾯，我们来⼀⼀学习。

ndarray 对象

ndarray 实际上是多维数组的含义。在 NumPy 数组中，维数称为秩（rank），⼀维数组的秩为 1，⼆维数组的秩为 2，以此类推。

在 NumPy 中，每⼀个线性的数组称为⼀个轴（axes），其实秩就是描述轴的数量。

ndarray 对象是如何创建数组的，⼜是如何处理结构数组的呢？

import numpy as np

a = np.array([1,2,3])

b = np.array([[1,2,3],[4,5,6]])

b[1,1] = 10

print(a.shape,b.shape)

print(a.dtype)

print(b)

结果如下：

创建数组前，你需要引⽤ NumPy 库，可以直接通过 array 函数创建数组

如果是多重数组，⽐如⽰例⾥的 b，那么该怎么做呢？你可以先把⼀个数组作为⼀个元素，然后嵌套起来。

⽐如⽰例 b 中的 [1,2,3] 就是⼀个元素，然后 [4,5,6][7,8,9] 也是作为元素，然后把三个元素再放到 [] 数组⾥，赋值给变量 b。

当然数组也是有属性的，⽐如你可以通过函数 shape 属性获得数组的⼤⼩，通过 dtype 获得元素的属性。

如果你想对数组⾥的数值进⾏修改的话，直接赋值即可，注意下标是从 0 开始计的，所以如果你想对 b 数组，九宫格⾥的中间元素进⾏修改的话，下标应该是 [1,1]。

结构数组

如果你想统计⼀个班级⾥⾯学⽣的姓名、年龄，以及语⽂、英语、数学成绩该怎么办？当然你可以⽤数组的下标来代表不同的字段。⽐如下标为 0 的是姓名、⼩标为 1 的是年龄等，但是这样不显性。

实际上在 C 语⾔⾥，可以定义结构数组，也就是通过 struct 定义结构类型，结构中的字段占据连续的内存空间，每个结构体占⽤的内存⼤⼩都相同，那在 NumPy 中是怎样操作的呢？

import numpy as np

persontype = np.dtype({'names':['name', 'age', 'chinese', 'math', 'english'],'formats':['S32','i', 'i', 'i', 'f']})

peoples = np.array([("ZhangFei",32,75,100, 90),("GuanYu",24,85,96,88.5),("ZhaoYun",28,85,92,96.5),("HuangZhong",29,65,85,100)],dtype=persontype)

ages = peoples[:]['age']

chineses = peoples[:]['chinese']

maths = peoples[:]['math']

englishs = peoples[:]['english']

print (np.mean(ages))

print (np.mean(chineses))

print (np.mean(maths))

print (np.mean(englishs))

这个例⼦，⾸先在 NumPy 中是⽤ dtype 定义的结构类型，然后在定义数组的时候，⽤ array 中指定了结构数组的类

型 dtype=persontype，这样你就可以⾃由地使⽤⾃定义的 persontype 了。⽐如想知道每个⼈的语⽂成绩，就可以⽤ chineses = peoples[:] [‘chinese’]，当然 NumPy 中还有⼀些⾃带的数学运算，⽐如计算平均值使⽤ np.mean。

ufunc 运算

ufunc 是 universal function 的缩写，确如其名，它能对数组中每个元素进⾏函数操作。NumPy 中很多 ufunc 函数计算速度⾮常快，因为都是采⽤ C 语⾔实现的。

连续数组的创建

NumPy 可以很⽅便地创建连续数组，⽐如我使⽤ arange（注意这⾥最新版的numpy已经没有这个函数（被range取代了））或 linspace 函数进⾏创建

import numpy as np

x1 = range(1,11,2)

x2 = np.linspace(1,9,5)

print(x1,x2) #[1. 3. 5. 7. 9.]

range 和 np.linspace 起到的作⽤是⼀样的，都是创建等差数组。这两个数组的结果 x1,x2 都是 [1 3 5 7 9]。结果相同，但是你能看出来创建的⽅式是不同的。

内置函数 range()，通过指定初始值、终值、步长来创建等差数列的⼀维数组，默认是不包括终值的。

linspace 是 linear space 的缩写，代表线性等分向量的含义。linspace() 通过指定初始值、终值、元素个数来创建等差数列的⼀维数组，默认是包括终值的。

算数运算

通过 NumPy 可以⾃由地创建等差数组，同时也可以进⾏加、减、乘、除、求 n 次⽅和取余数。

import numpy as np

x1 = range(1,11,2)

x2 = np.linspace(1,9,5)

print(np.add(x1,x2))

print(np.subtract(x1,x2))

print(np.multiply(x1,x2))

print(np.divide(x1,x2))

print(np.power(x1,x2))

ainder(x1,x2))

以 x1, x2 数组为例，求这两个数组之间的加、减、乘、除、求 n 次⽅和取余数。在 n 次⽅中，x2 数组中的元素实际上是次⽅的次数，x1 数组的元素为基数

在取余函数⾥，你既可以⽤ np.remainder(x1, x2)，也可以⽤ np.mod(x1, x2)，结果是⼀样的。

统计函数

当我们想要对⼀堆数据有更清晰的认识，就需要对这些数据进⾏描述性的统计分析，⽐如了解这些数据中的最⼤值、最⼩值、平均值，是否符合正态分布，⽅差、标准差多少等等。它们可以让你更清楚

地对这组数据有认知。在 NumPy 中如何使⽤这些统计函数？

计数组 / 矩阵中的最⼤值函数 amax()，最⼩值函数 amin()（注意是延着哪个轴）

import numpy as np

a = np.array([[1,2,3], [4,5,6], [7,8,9]])

print(np.amin(a)) # 1

print (np.amin(a,0)) # [1 2 3]

print (np.amin(a,1)) # [1 4 7]

print (np.amax(a)) # 9

print (np.amax(a,0)) # [7 8 9]

print (np.amax(a,1)) # [3 6 9]

amin() ⽤于计算数组中的元素沿指定轴的最⼩值。对于⼀个⼆维数组 a，amin(a) 指的是数组中全部元素的最⼩值

amin(a,0) 是延着 axis=0 轴的最⼩值（理解成横轴），axis=0 轴是把元素看成了 [1,4,7], [2,5,8], [3,6,9] 三个元素，所以最⼩值为 [1,2,3] amin(a,1) 是延着 axis=1 轴的最⼩值（理解成纵轴），axis=1 轴是把元素看成了 [1,2,3], [4,5,6], [7,8,9] 三个元素，所以最⼩值为 [1,4,7]同理 amax() 是计算数组中元素沿指定轴的最⼤值。

统计最⼤值与最⼩值之差 ptp()

import numpy as np

a = np.array([[1,2,3], [4,5,6], [7,8,9]])

print (np.ptp(a)) # 8

print (np.ptp(a,0)) # [6,6,6]

print (np.ptp(a,1)) # [2,2,2]

对于相同的数组 a，np.ptp(a) 可以统计数组中最⼤值与最⼩值的差，即 9-1=8。

同样 ptp(a,0) 统计的是沿着 axis=0 轴的最⼤值与最⼩值之差，即 7-1=6（当然 8-2=6,9-3=6，第三⾏

减去第⼀⾏的 ptp 差均为 6）ptp(a,1) 统计的是沿着 axis=1 轴的最⼤值与最⼩值之差，即 3-1=2（当然 6-4=2, 9-7=2，即第三列与第⼀列的 ptp 差均为 2）。

统计数组的百分位数 percentile()

import numpy as np

a = np.array([[1,2,3], [4,5,6], [7,8,9]])

编程先学c语言还是pythonprint (np.percentile(a, 50)) # 5.0

print (np.percentile(a, 50, axis=0)) # [4,5,6]

print (np.percentile(a, 50, axis=1)) # [2,5,8]

同样，percentile() 代表着第 p 个百分位数，这⾥ p 的取值范围是 0-100，如果 p=0，那么就是求最⼩值，如果 p=50 就是求平均值，如果 p=100 就是求最⼤值。

同样你也可以求得在 axis=0 和 axis=1 两个轴上的 p% 的百分位数。

统计数组中的中位数 median()、平均数 mean()

import numpy as np

a = np.array([[1,2,3], [4,5,6], [7,8,9]])

# 求中位数

print (np.median(a)) # 5.0

print (np.median(a, axis=0)) # [4. 5. 6.]

print (np.median(a, axis=1)) # [2. 5. 8.]

# 求平均数

print (np.mean(a)) # 5.0

print (np.mean(a, axis=0)) # [4. 5. 6.]

print (np.mean(a, axis=1)) # [2. 5. 8.]

⽤ median() 和 mean() 求数组的中位数、平均值，同样也可以求得在 axis=0 和 1 两个轴上的中位数、平均值。

统计数组中的加权平均值 average()

import numpy as np

a = np.array([1,2,3,4])

wts = np.array([1,2,3,4])

print (np.average(a)) # 2.5

print (np.average(a,weights=wts)) # 3.0

average() 函数可以求加权平均，加权平均的意思就是每个元素可以设置个权重，默认情况下每个元素的权重是相同的

所以 np.average(a)=(1+2+3+4)/4=2.5，你也可以指定权重数组 wts=[1,2,3,4]，这样加权平均 np.average(a,weights=wts)=

(1*1+2*2+3*3+4*4)/(1+2+3+4)=3.0。

统计数组中的标准差 std()、⽅差 var()

import numpy as np

a = np.array([1,2,3,4])

print(np.std(a),np.var(a)) # 1.118033988749895 1.25

⽅差的计算是指每个数值与平均值之差的平⽅求和的平均值，即 mean((x - x.mean())** 2)。

标准差是⽅差的算术平⽅根。在数学意义上，代表的是⼀组数据离平均值的分散程度。

所以 np.var(a)=1.25, np.std(a)=1.118033988749895。

NumPy 排序

排序是算法中使⽤频率最⾼的⼀种，也是在数据分析⼯作中常⽤的⽅法，在⼤学期间的算法是（数据结构）课中学习（排序是必修课）。

那么这些排序算法在 NumPy 中实现起来其实⾮常简单，⼀条语句就可以搞定。这⾥你可以使⽤ sort 函数，sort(a, axis=-

1, kind=‘quicksort’, order=None)

默认情况下使⽤的是快速排序；在 kind ⾥，可以指定 quicksort、mergesort、heapsort 分别表⽰快速排序、合并排序、堆排序。同

样 axis 默认是 -1，即沿着数组的最后⼀个轴进⾏排序，也可以取不同的 axis 轴，或者 axis=None 代表采⽤扁平化的⽅式作为⼀个向量进⾏排序。另外 order 字段，对于结构化的数组可以指定按照某个字段进⾏排序。

import numpy as np

a = np.array([[4,3,2],[2,4,1]])

print (np.sort(a))

print()

print (np.sort(a, axis=None))

print()

print (np.sort(a, axis=0))

print()

print (np.sort(a, axis=1))

总结

在 NumPy 学习中，重点要掌握的就是对数组的使⽤，因为这是 NumPy 和标准 Python 最⼤的区别。在 NumPy 中重新对数组进⾏了定义，同时提供了算术和统计运算，你也可以使⽤ NumPy ⾃带的排序功能，⼀句话就搞定各种排序算法。

当然要理解 NumPy 提供的数据结构为什么⽐ Python ⾃⾝的“更⾼级、更⾼效”，要从对数据指针的引⽤⾓度进⾏理解。

688IT编程网

Python中的第三方库——Numpy

发表评论

推荐文章

mongodb中match多个条件

纯数字正则表达式

zipkin tagquery用法

excel匹配正则 -回复

re正则匹配之findall

热门文章

js 数值型验证正则

oracle模糊查询正则

符合ca91的社会信用代码的正则表达式

C#中使用正则表达式校验输入的是否为英文字母【转载自】

Java正则表达式验证至少6位表达式中至少包含数字大小写字母中的一种

强密码校验正则

hive正则表达式解析

p开头的正则表达式

思源笔记正则表达

用正则表达式限制文本框只能输入数字,小数点,英文字母,汉字等各类代 ...

Powerquery分离数字字母汉字

php+正则将字符串中的字母数字和中文分割

前端密码的正则表达式

vue 正则表达式 function 开头中文字母数字 (结尾

el-input 英文名称的正则

32个字符正则

四位英文和数字正则

字母正则匹配中文规则

8-14位字母、数字或符号组合正则

长度不小于4的正则表达式

最新文章

纯数字正则表达式

zipkin tagquery用法

1-4096的整数正则表达式

正则10-360之间的整数

验证整数的正则表达式

正则匹配整数

标签列表

688IT编程网

Python中的第三方库——Numpy

发表评论

推荐文章

mongodb中match多个条件

纯数字正则表达式

zipkin tagquery用法

excel匹配正则 -回复

re正则匹配之findall

热门文章

js 数值型 验证 正则

oracle模糊查询正则

符合ca91的社会信用代码的正则表达式

C#中使用正则表达式校验输入的是否为英文字母【转载自】

Java正则表达式验证至少6位表达式中至少包含数字大小写字母中的一种

强密码校验正则

hive正则表达式解析

p开头的正则表达式

思源笔记正则表达

用正则表达式限制文本框只能输入数字,小数点,英文字母,汉字等各类代 ...

Powerquery分离数字字母汉字

php+正则将字符串中的字母数字和中文分割

前端密码的正则表达式

vue 正则表达式 function 开头 中文字母数字 (结尾

el-input 英文名称的正则

32个字符正则

四位英文和数字 正则

字母正则匹配中文规则

8-14位字母、数字或符号组合正则

长度不小于4的正则表达式

最新文章

纯数字正则表达式

zipkin tagquery用法

1-4096的整数正则表达式

正则10-360之间的整数

验证整数的正则表达式

正则匹配整数

标签列表

js 数值型验证正则

vue 正则表达式 function 开头中文字母数字 (结尾

四位英文和数字正则