python中的库有哪些_python主流的九个库,你了解了⼏个?Python 近⼏年在数据科学⾏业获得了⼈们的极⼤青睐,各种资源也层出不穷。数据科学解决⽅案公司ActiveWizards 近⽇根据他们⾃⼰的应⽤开发经验,总结了数据科学家和⼯程师将在2017 年最常使⽤的 Python 库。
核⼼库
1、NumPy
当使⽤ Python 开始处理科学任务时,不可避免地需要求助 Python 的 SciPy Stack,它是专门为 Python 中的科学计算⽽设计的软件的集合(不要与 SciPy 混淆,它只是这个 stack 的⼀部分,以及围绕这个 stack 的社区)。这个 stack 相当庞⼤,其中有⼗⼏个库,所以我们想聚焦在核⼼包上(特别是最重要的)。
NumPy(代表 Numerical Python)是构建科学计算 stack 的最基础的包。它为 Python 中的 n 维数组和矩阵的操作提供了⼤量有⽤的功能。该库还提供了 NumPy 数组类型的数学运算向量化,可以提升性能,从⽽加快执⾏速度。
2、SciPy
SciPy 是⼀个⼯程和科学软件库。除此以外,你还要了解 SciPy Stack 和 SciPy 库之间的区别。SciPy 包含线性代数、优化、集成和统计的模块。SciPy 库的主要功能建⽴在 NumPy 的基础之上,因此它的
数组⼤量使⽤了 NumPy。它通过其特定的⼦模块提供⾼效的数值例程操作,⽐如数值积分、优化和许多其他例程。SciPy 的所有⼦模块中的函数都有详细的⽂档,这也是⼀个优势。
3、Pandas
Pandas 是⼀个 Python 包,旨在通过「标记(labeled)」和「关系(relational)」数据进⾏⼯作,简单直观。Pandas 是 data wrangling 的完美⼯具。它设计⽤于快速简单的数据操作、聚合和可视化。库中有两个主要的数据结构:
例如,当你要从这两种类型的结构中接收到⼀个新的「Dataframe」类型的数据时,
你将通过传递⼀个「Series」来将⼀⾏添加到「Dataframe」中来接收这样的 Dataframe:
这⾥只是⼀⼩撮你可以⽤ Pandas 做的事情:
1.轻松删除并添加「Dataframe」中的列
2. 将数据结构转换为「Dataframe」对象
3. 处理丢失数据,表⽰为 NaN(Not a Number)
4.功能强⼤的分组
可视化
4、Matplotlib
Matplotlib 是另⼀个 SciPy Stack 核⼼软件包和另⼀个 Python 库,专为轻松⽣成简单⽽强⼤的可视化⽽量⾝定制。它是⼀个顶尖的软件,使得 Python(在 NumPy、SciPy 和 Pandas 的帮助下)成为 MatLab 或 Mathematica 等科学⼯具的显著竞争对⼿。然⽽, 这个库⽐较底层,
这意味着你需要编写更多的代码才能达到⾼级的可视化效果,通常会⽐使⽤更⾼级⼯具付出更多努⼒,但总的来说值得⼀试。花⼀点⼒⽓,你就可以做到任何可视化:
1.线图
2.散点图
3.条状图和直⽅图
4.饼状图
5.茎图
6.轮廓图
7.场图
8.频谱图
还有使⽤Matplotlib 创建标签、⽹格、图例和许多其他格式化实体的功能。基本上,⼀切都是可定制的。
5、Seaborn
Seaborn 主要关注统计模型的可视化;这种可视化包括热度图(heat map),可以总结数据但也描绘总体分布。Seaborn 基于
Matplotlib,并⾼度依赖于它。
6、Bokeh
Bokeh 也是⼀个很好的可视化库,其⽬的是交互式可视化。与之前的库相反,这个库独⽴于 Matplotlib。
正如我们已经提到的那
样,Bokeh 的重点是交互性,它通过现代浏览器以数据驱动⽂档(D3.js)的风格呈现。
7、Plotly
再说⼀下 Plotly。它是⼀个基于 Web 的⼯具箱,⽤于构建可视化,将 API 呈现给某些编程语⾔(其中包括Python)。在 plot.ly ⽹站上有⼀些强⼤的、开箱即⽤的图形。为了使⽤ Plotly,你需要设置你的API 密钥。图形处理会放在服务器端,并在互联⽹上发布,但也有⼀种⽅法可以避免这么做。
数据挖掘与统计
8、Scrapy
Scrapy 是⽤于从⽹络检索结构化数据(如联系⼈信息或 URL)的爬⾍程序(也称为 spider bots)的库。它是开源的,⽤Python 编写。它最初是为 scraping 设计的,正如其名字所⽰的那样,但它现在已经发展成了⼀个完整的框架,可以从
API 收集数据,也可以⽤作通⽤的爬⾍。 该库在接⼝设计上遵循著名的 Don』t Repeat Yourself 原则——提醒⽤户编写通⽤的可复⽤的代码,因此可以⽤来开发和扩展⼤型爬⾍。 Scrapy 的架构围绕 Spider 类构建,该类包含了⼀套爬⾍所遵循的指令。
9、Statsmodels
statsmodels 是⼀个⽤于 Python 的库,正如你可能从名称中猜出的那样,其让⽤户能够
通过使⽤各种统计模型估计⽅法以及执⾏统计断⾔和分析来进⾏数据探索。许多有⽤的特征是描述性的,并可通过使⽤线性回归模型、⼴义线性模型、离散选择模型、稳健的线性模型、时序分析模型、各种估计器进⾏统计。该库还提供了⼴泛的绘图函数,专门⽤于统计分析和调整使⽤⼤数据统计数据的良好性能。
结论
能运行python的软件这个列表中的库被很多数据科学家和⼯程师认为是最顶级的,了解和熟悉它们是很有价值
的。这⾥有这些库在 GitHub 上活动的详细统计:
当然,这并不是⼀份完全详尽的列表,还有其它很多值得关注的库、⼯具包和框架。⽐如说
⽤于特定任务的SciKit 包,其中包括⽤于图像的 SciKit-Image。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论