Python之所以位于编程语言排行榜榜首,是因为它包含了大量的第三方扩展库,这其中包括数据分析三剑客,负责数组计算的NumPy、负责数据分析的Pandas,以及负责绘图的Matplotlib。有了它们的辅助,才使得Python数据分析变得简单高效。下面我们就来认识一下Python数据分析三剑客。
3.1  NumPy
3.1.1  什么是NumPy
NumPy(如图3.1所示),它是Python数组计算、矩阵运算和科学计算的核心库,NumPy这个
词来源于Numerical和Python两个单词。NumPy提供了一个高性能的数组对象,让我们轻松创建一维数组、二维数组和多维数组,以及大量的函数和方法,帮助我们轻松地进行数组计算,从而广泛地应用于数据分析、机器学习、图像处理和计算机图形学、数学任务等领域当中。
图3.1  NumPy
3.1.2  NumPy的功能
NumPy是数据分析三剑客之一,它的用途是以数组的形式对数据进行操作。而在机器学习中也充斥了大量的数组运算,而NumPy使得这些操作变得简单!由于NumPy是C语言实现的,所以其运算速度非常快。具体功能如下:
有一个强大的n维数组对象ndarray。
pycharm下载第三方库广播机制。
线性代数、傅立叶变换、随机数生成、图形操作等功能。
整合C/C++/Fortran代码的工具。
3.1.3  安装NumPy
了解了NumPy,下面来安装NumPy,安装方法有两种。
3.1.3.1  使用pip命令安装
安装NumPy最简单的方法是使用pip工具,在系统“搜索”文本框中输入cmd,打开“命令提示符”窗口,输入如下安装命令:
pip install numpy
3.1.3.2  在PyCharm开发环境中安装
(1)运行PyCharm,选择FileSettings,打开“Settings”窗口,选择工程下的“Project Interpreter”选项,然后单击添加模块的按钮(“+”),如图3.2所示。这里要注意,在“Project Interprter”列表中应选择当前工程项目使用的Python版本。
图3.2  Settings窗口
单击“+”按钮打开“Available Packages”窗口,在搜索栏输入需要添加的模块名称为“numpy”,然后在列表中选择该模块,如图3.3所示,单击“Install Package”按钮即可安装NumPy模块。
图3.3  在PyCharm开发环境中安装NumPy模块
3.1.3.3  安装验证
测试是否安装成功。运行Pycharm开发环境,新建一个Python文件(例如“测试1.py”),程序代码如下:
01 from numpy import * # 导入numpy库
02 print(eye(4))      # 生成对角矩阵
运行程序,效果如图3.4所示。
图3.4  测试是否安装成功
如果得到上述运行结果,那么证明numpy模块安装成功了。
3.2  Pandas
3.2.1  什么是Pandas
2008年,当我们正在举办举世瞩目的北京奥运会时,美国纽约一家量化投资公司的分析师韦斯·麦金尼(Wes McKinney),由于在日常数据分析工作中备受Excel与SQL等工具的折磨,于是他开始构建了一个新项目——Pandas,用来解决数据处理过程中遇到的全部任务,就这样Pandas诞生了。
那么,什么是Pandas?
Pandas并非是大熊猫Pandas,它其实是面板数据Panel data和Python数据分析Python data analysis的简称(如图3.5所示),是Python的核心数据分析库,它提供了快速、灵活、明确的数据结构,能够简单、直观、快速地处理分析各种类型的数据。
图3.5  Pandas名字的由来
3.2.2  Pandas的功能和优势
为什么要学习Pandas,它有哪些功能和优势?
成熟的导入导出工具,导入文本文件(CSV等支持分隔符的文件)、Excel文件、数据库等来源的数据,导出Excel文件、文本文件等,利用超快的HDF5格式保存或加载数据。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。