作者 | Parul Pandey
【导读】工具包 datatable 的功能特征与 Pandas 非常类似,但更侧重于速度以及对大数据的支持。此外,datatable 还致力于实现更好的用户体验,提供有用的错误提示消息和强大的
API 功能。通过本文的介绍,你将学习到如何在大型数据集中使用 datatable 包进行数据处理,特别在数据量特别大的时候你可以发现它可能比 Pandas 更加强大。
前言
data.table 是 R 中一个非常通用和高性能的包,使用简单、方便而且速度快,在 R 语言社区非常受欢迎,每个月的下载量超过 40 万,有近 650 个 CRAN 和 Bioconductor 软件包使用它。如果你是 R 的使用者,可能已经使用过 data.table 包。
而对于 Python 用户,同样存在一个名为 datatable 包,专注于大数据支持、高性能内存/内存不足的数据集以及多线程算法等问题。在某种程度上,datatable 可以被称为是 Python 中的 data.table。
Datatable初教程
为了能够更准确地构建模型,现在机器学习应用通常要处理大量的数据并生成多种特征,这已成为必要的。而 Python 的 datatable 模块为解决这个问题提供了良好的支持,以可能的最大速度在单节点机器上进行大数据操作 (最多100GB)。datatable 包的开发由 H2O.ai
赞助,它的第一个用户是 Driverless.ai。
接下来,我们就开始初体验一下 datatable 的简单使用。
安装
在 MacOS 系统上,datatable 包可以通过 pip 命令安装,如下图所示:
pip install datatable
在 Linux 平台上,安装过程需要通过二进制分布来实现,如下所示:
# If you have Python 3.5pip install  If you have Python 3.6pip install
很遗憾的是,目前 datatable 包还不能在 Windows 系统上工作,但 Python 官方也在努力地增加其对 Windows 的支持。更多的信息可以查看 Build instructions 的说明。
地址:
数据读取
这里使用的数据集是来自 Kaggle 竞赛中的 Lending Club Loan Data 数据集 该数据集包含2007-2015期间所有贷款人完整的贷款数据,即当前贷款状态 (当前,延迟,全额支付等) 和最新支付信息等。整个文件共包含226万行和145列数据,数据量规模非常适合演示 datatable 包的功能。
# Importing necessary Librariesimport numpy as npimport pandas as pdimport datatable as dt
首先将数据加载到 frxxxxame 对象中,datatable 的基本分析单位是 frxxxxame,这与Pandas Datafrxxxxame 或 SQL table 的概念是相同的:即数据以行和列的二维数组排列展示。
datatable 读取%%timedatatable_df = dt.fread("data.csv")____________________________________________________________________CPU times: user 30 s sys: 3.39 s total: 33.4 s Wall time: 23.6 s
如上图,fread() 是一个强大又快速的函数,能够自动检测并解析文本文件中大多数的参数,
所支持的文件格式包括 .zip 文件、URL 数据,Excel 文件等等。此外,datatable 解析器具有如下几大功能:
能够自动检测分隔符,标题,列类型,引用规则等。能够读取多种文件的数据,包括文件,URL,shell,原始文本,档案和 glob 等。提供多线程文件读取功能,以获得最大的速度。在读取大文件时包含进度指示器。可以读取 RFC4180 兼容和不兼容的文件。
python怎么读取excel文件数据pandas 读取
下面,使用 Pandas 包来读取相同的一批数据,并查看程序所运行的时间。
%%timepandas_df= pd.read_csv("data.csv")___________________________________________________________CPU times: user 47.5 s sys: 12.1 s total: 59.6 sWall time: 1min 4s
由上图可以看到,结果表明在读取大型数据时 datatable 包的性能明显优于 Pandas,Pandas 需要一分多钟时间来读取这些数据,而 datatable 只需要二十多秒。
帧转换 (frxxxxame Conversion)
对于当前存在的帧,可以将其转换为一个 Numpy 或 Pandas datafrxxxxame 的形式,如下所示:
numpy_df = _numpy()pandas_df = _pandas()
下面,将 datatable 读取的数据帧转换为 Pandas datafrxxxxame 形式,并比较所需的时间,如下所示:
%%timedatatable_pandas = _pandas()___________________________________________________________________CPU times: user 17.1 s sys: 4 s total: 21.1 sWall time: 21.4 s
看起来将文件作为一个 datatable frxxxxame 读取,然后将其转换为 Pandas datafrxxxxame比直接读取 Pandas datafrxxxxame 的方式所花费的时间更少。因此,通过 datatable 包导入大型的数据文件再将其转换为 Pandas datafrxxxxame 的做法是个不错的主意。
type(datatable_pandas)___________________________________________________________________frxxxxame.Datafrxxxxame
帧的基础属性
下面来介绍 datatable 中 frxxxxame 的一些基础属性,这与 Pandas 中 datafrxxxxame 的一些功能类似。
print(datatable_df.shape) # (nrows ncols)print(datatable_df.names[:5]) # top 5 column namesprint(datatable_df.stypes[:5]) # column types(top 5)______________________________________________________________(2260668 145)('id' 'member_id' 'loan_amnt' 'funded_amnt' 'funded_amnt_inv')(stype.bool8 stype.bool8 stype.int32 stype.int32 stype.float64)
也可以通过使用 head 命令来打印出输出的前 n 行数据,如下所示:
datatable_df.head(10)
注意:这里用颜来指代数据的类型,其中红表示字符串,绿表示整型,而蓝代表浮点型。
统计总结
在 Pandas 中,总结并计算数据的统计信息是一个非常消耗内存的过程,但这个过程在 datatable 包中是很方便的。如下所示,使用 datatable 包计算以下每列的统计信息:
datatable_df.sum() datatable_df.nunique()datatable_df.sd() datatable_df.max()de() datatable_df.min()dal() an()
下面分别使用 datatable 和Pandas 来计算每列数据的均值,并比较二者运行时间的差异。
datatable 读取%%an()_______________________________________________________________CPU times: user 5.11 s sys: 51.8 ms total: 5.16 sWall time: 1.43 s
Pandas 读取an()__________________________________________________________________Throws memory error.
可以看到,使用 Pandas 计算时抛出内存错误的异常。
数据操作
和 datafrxxxxame 一样,datatable 也是柱状数据结构。在 datatable 中,所有这些操作的主要工具是方括号,其灵感来自传统的矩阵索引,但它包含更多的功能。诸如矩阵索引,C/C++,R,Pandas,Numpy 中都使用相同的 DT[i,j] 的数学表示法。下面来看看如何使用 datatable 来进行一些常见的数据处理工作。
选择行/列的子集
下面的代码能够从整个数据集中筛选出所有行及 funded_amnt 列:
datatable_df[:'funded_amnt']
这里展示的是如何选择数据集中前5行3列的数据,如下所示:
datatable_df[:5:3]
帧排序
datatable 排序
在 datatable 中通过特定的列来对帧进行排序操作,如下所示:
%%timedatatable_df.sort('funded_amnt_inv')_________________________________________________________________CPU times: user 534 ms sys: 67.9 ms total: 602 msWall time: 179 ms

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。