Numpy和Pandas的区别
Numpy:
⾸先来说说ndarray,numpy提供了⼀个N维度的数据类型(ndarray),他描述了相同类型的items集合
1.ndarray中所有元素的类型都是相同的,⽽python列表中的元素类型是任意的,所以,ndarray在存储元素的时候,内存可以连续。⽽python原⽣list就只通过寻址法到下⼀个元素,这虽然也导致了在通⽤性能⽅⾯,numpy的ndarray不及python原声的list,但在科学计算中,numpy的ndarray就可以省掉很多循环语句,代码使⽤⽅⾯也⽐python原⽣的list简单得多
2.ndarray⽀持并⾏化运算
3.numpy底层使⽤c语⾔编写,内部解除了GIL锁,对数组的操作速度不受python机制的限制,效率远远⾼于纯python的代码
GIL锁:
熟悉python的都知道,在c语⾔写的python解释器中存在全局解释器锁,由于全局解释器锁的存在,
在同⼀时间,python 解释器之只能运⾏⼀个线程,这⼤⼤影响了python多线程的性功能。⽽这个解释器由于历史原因,现在⼏乎⽆法消除。
python的GIL锁之所以会影响多线程等性能,是因为在多线程的情况下,只有当多线程获得了⼀个全局锁的时候,那么该线程的代码才能运⾏,⽽全局锁只有⼀个,所以使⽤python多线程在同⼀时间也只有⼀个线程在运⾏,因此在即使多核的情况下也只能发挥出单核的性能y
python机制:
解释器是⼀种让其他程序运⾏起来的程序,他是代码与机器硬件之间的软件逻辑层,
python解释器就是能够让python程序在机器上执⾏的⼀套程序。
当我们执⾏写好的python代码的时候,python解释器会执⾏两个步骤:
1.把原始代码编译成字节码
2.把编译好的字节码转发到pthon虚拟机(PVM)中执⾏
内存管理机制:引⽤计数、垃圾回收、内存池。
引⽤计数:
引⽤计数是⼀种⾮常⾼效的内存管理⼿段,当⼀个 Python 对象被引⽤时其引⽤计数增加1,当其不再被⼀个变量引⽤时则计数减 1. 当引⽤计数等于0时对象被删除。
垃圾回收:
1. 引⽤计数
引⽤计数也是⼀种垃圾收集机制,⽽且也是⼀种最直观,最简单的垃圾收集技术。当 Python 的某个对象的引⽤计数降为 0 时,说明没有任何引⽤指向该对象,该对象就成为要被回收的垃圾了。⽐如某个新建对象,它被分配给某个引⽤,对象的引⽤计数变为 1。如果引⽤被删除,对象的引⽤计数为 0,那么该对象就可以被垃圾回收。不过如果出现循环引⽤的话,引⽤计数机制就不再起有效的作⽤了
2. 标记清除
如果两个对象的引⽤计数都为 1,但是仅仅存在他们之间的循环引⽤,那么这两个对象都是需要被回收的,也就是说,它们的引⽤计数虽然表现为⾮ 0,但实际上有效的引⽤计数为 0。所以先将循环引⽤摘掉,就会得出这两个对象的有效计数。
3. 分代回收
从前⾯“标记-清除”这样的垃圾收集机制来看,这种垃圾收集机制所带来的额外操作实际上与系统中总的内存块的数量是相关的,当需要回收的内存块越多时,垃圾检测带来的额外操作就越多,⽽垃圾回收带来的额外操作就越少;反之,当需回收的内存块越少时,垃圾检测就将⽐垃圾回收带来更少的额外操作。
举个例⼦:
当某些内存块 M 经过了 3 次垃圾收集的清洗之后还存活时,我们就将内存块 M 划到⼀个集合 A 中去,⽽新分配的内存都划分到集合 B 中去。当垃圾收集开始⼯作时,⼤多数情况都只对集合 B 进⾏垃圾回收,⽽对集合 A 进⾏垃圾回收要隔相当长⼀段时间后才进⾏,这就使得垃圾收集机制需要处理的内存少了,效率⾃然就提⾼了。在这个过程中,集合 B 中的某些内存块由于存活时间长⽽
会被转移到集合 A 中,当然,集合 A 中实际上也存在⼀些垃圾,这些垃圾的回收会因为这种分代的机制⽽被延迟。
内存池:
Python 的内存机制呈现⾦字塔形状,-1,-2 层主要有操作系统进⾏操作;
第 0 层是 C 中的 malloc,free 等内存分配和释放函数进⾏操作;
第1 层和第 2 层是内存池,有 Python 的接⼝函数 PyMem_Malloc 函数实现,当对象⼩于 256K 时有该层直接分配内存;
第3层是最上层,也就是我们对 Python 对象的直接操作;
python虚拟机 Python 在运⾏期间会⼤量地执⾏ malloc 和 free 的操作,频繁地在⽤户态和核⼼态之间进⾏切换,这将严重影响Python 的执⾏效率。为了加速Python 的执⾏效率,Python 引⼊了⼀个内存池机制,⽤于管理对⼩块内存的申请和释放。
Python 内部默认的⼩块内存与⼤块内存的分界点定在 256 个字节,当申请的内存⼩于 256 字节
时,PyObject_Malloc会在内存池中申请内存;当申请的内存⼤于 256 字节时,PyObject_Malloc 的⾏为将蜕化为 malloc 的⾏为。当然,通过修改 Python 源代码,我们可以改变这个默认值,从⽽改变 Python 的默认内存管理⾏为。
pandas:
pandas是基于numpy的⼀种⼯具,该⼯具是为了解决数据分析任务⽽建的,pandas纳⼊了⼤量库和⼀些标准的数据库模型,提供了⾼效率的操作⼤型数据集所需要的⼯具,pandas提供了⼤量快速便捷的处理数据的函数和⽅法,使python成为了强⼤⽽⾼效的数据分析环境的重要因素之⼀
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论