媲美Pandas?告诉你Python的Datatable包到底怎么用!--688IT编程网

作者 | Parul Pandey

【导读】工具包 datatable 的功能特征与 Pandas 非常类似，但更侧重于速度以及对大数据的支持。此外，datatable 还致力于实现更好的用户体验，提供有用的错误提示消息和强大的

API 功能。通过本文的介绍，你将学习到如何在大型数据集中使用 datatable 包进行数据处理，特别在数据量特别大的时候你可以发现它可能比 Pandas 更加强大。

前言

data.table 是 R 中一个非常通用和高性能的包，使用简单、方便而且速度快，在 R 语言社区非常受欢迎，每个月的下载量超过 40 万，有近 650 个 CRAN 和 Bioconductor 软件包使用它。如果你是 R 的使用者，可能已经使用过 data.table 包。

而对于 Python 用户，同样存在一个名为 datatable 包，专注于大数据支持、高性能内存/内存不足的数据集以及多线程算法等问题。在某种程度上，datatable 可以被称为是 Python 中的 data.table。

Datatable初教程

为了能够更准确地构建模型，现在机器学习应用通常要处理大量的数据并生成多种特征，这已成为必要的。而 Python 的 datatable 模块为解决这个问题提供了良好的支持，以可能的最大速度在单节点机器上进行大数据操作 (最多100GB)。datatable 包的开发由 H2O.ai

赞助，它的第一个用户是 Driverless.ai。

接下来，我们就开始初体验一下 datatable 的简单使用。

安装

在 MacOS 系统上，datatable 包可以通过 pip 命令安装，如下图所示：

pip install datatable

在 Linux 平台上，安装过程需要通过二进制分布来实现，如下所示：

# If you have Python 3.5pip install If you have Python 3.6pip install

很遗憾的是，目前 datatable 包还不能在 Windows 系统上工作，但 Python 官方也在努力地增加其对 Windows 的支持。更多的信息可以查看 Build instructions 的说明。

地址：

数据读取

这里使用的数据集是来自 Kaggle 竞赛中的 Lending Club Loan Data 数据集该数据集包含2007-2015期间所有贷款人完整的贷款数据，即当前贷款状态 (当前，延迟，全额支付等) 和最新支付信息等。整个文件共包含226万行和145列数据，数据量规模非常适合演示 datatable 包的功能。

# Importing necessary Librariesimport numpy as npimport pandas as pdimport datatable as dt

首先将数据加载到 frxxxxame 对象中，datatable 的基本分析单位是 frxxxxame，这与Pandas Datafrxxxxame 或 SQL table 的概念是相同的：即数据以行和列的二维数组排列展示。

datatable 读取%%timedatatable_df = dt.fread("data.csv")____________________________________________________________________CPU times: user 30 s sys: 3.39 s total: 33.4 s Wall time: 23.6 s

如上图，fread() 是一个强大又快速的函数，能够自动检测并解析文本文件中大多数的参数，

所支持的文件格式包括 .zip 文件、URL 数据，Excel 文件等等。此外，datatable 解析器具有如下几大功能：

能够自动检测分隔符，标题，列类型，引用规则等。能够读取多种文件的数据，包括文件，URL，shell，原始文本，档案和 glob 等。提供多线程文件读取功能，以获得最大的速度。在读取大文件时包含进度指示器。可以读取 RFC4180 兼容和不兼容的文件。

python怎么读取excel文件数据pandas 读取

下面，使用 Pandas 包来读取相同的一批数据，并查看程序所运行的时间。

%%timepandas_df= pd.read_csv("data.csv")___________________________________________________________CPU times: user 47.5 s sys: 12.1 s total: 59.6 sWall time: 1min 4s

由上图可以看到，结果表明在读取大型数据时 datatable 包的性能明显优于 Pandas，Pandas 需要一分多钟时间来读取这些数据，而 datatable 只需要二十多秒。

帧转换 (frxxxxame Conversion)

对于当前存在的帧，可以将其转换为一个 Numpy 或 Pandas datafrxxxxame 的形式，如下所示：

numpy_df = _numpy()pandas_df = _pandas()

下面，将 datatable 读取的数据帧转换为 Pandas datafrxxxxame 形式，并比较所需的时间，如下所示：

%%timedatatable_pandas = _pandas()___________________________________________________________________CPU times: user 17.1 s sys: 4 s total: 21.1 sWall time: 21.4 s

看起来将文件作为一个 datatable frxxxxame 读取，然后将其转换为 Pandas datafrxxxxame比直接读取 Pandas datafrxxxxame 的方式所花费的时间更少。因此，通过 datatable 包导入大型的数据文件再将其转换为 Pandas datafrxxxxame 的做法是个不错的主意。

type(datatable_pandas)___________________________________________________________________frxxxxame.Datafrxxxxame

帧的基础属性

下面来介绍 datatable 中 frxxxxame 的一些基础属性，这与 Pandas 中 datafrxxxxame 的一些功能类似。

print(datatable_df.shape) # (nrows ncols)print(datatable_df.names[:5]) # top 5 column namesprint(datatable_df.stypes[:5]) # column types(top 5)______________________________________________________________(2260668 145)('id' 'member_id' 'loan_amnt' 'funded_amnt' 'funded_amnt_inv')(stype.bool8 stype.bool8 stype.int32 stype.int32 stype.float64)

也可以通过使用 head 命令来打印出输出的前 n 行数据，如下所示：

datatable_df.head(10)

注意：这里用颜来指代数据的类型，其中红表示字符串，绿表示整型，而蓝代表浮点型。

统计总结

在 Pandas 中，总结并计算数据的统计信息是一个非常消耗内存的过程，但这个过程在 datatable 包中是很方便的。如下所示，使用 datatable 包计算以下每列的统计信息：

datatable_df.sum() datatable_df.nunique()datatable_df.sd() datatable_df.max()de() datatable_df.min()dal() an()

下面分别使用 datatable 和Pandas 来计算每列数据的均值，并比较二者运行时间的差异。

datatable 读取%%an()_______________________________________________________________CPU times: user 5.11 s sys: 51.8 ms total: 5.16 sWall time: 1.43 s

Pandas 读取an()__________________________________________________________________Throws memory error.

可以看到，使用 Pandas 计算时抛出内存错误的异常。

数据操作

和 datafrxxxxame 一样，datatable 也是柱状数据结构。在 datatable 中，所有这些操作的主要工具是方括号，其灵感来自传统的矩阵索引，但它包含更多的功能。诸如矩阵索引，C/C++，R，Pandas，Numpy 中都使用相同的 DT[i，j] 的数学表示法。下面来看看如何使用 datatable 来进行一些常见的数据处理工作。

选择行/列的子集

下面的代码能够从整个数据集中筛选出所有行及 funded_amnt 列：

datatable_df[:'funded_amnt']

这里展示的是如何选择数据集中前5行3列的数据，如下所示：

datatable_df[:5:3]

帧排序

datatable 排序

在 datatable 中通过特定的列来对帧进行排序操作，如下所示：

%%timedatatable_df.sort('funded_amnt_inv')_________________________________________________________________CPU times: user 534 ms sys: 67.9 ms total: 602 msWall time: 179 ms

688IT编程网

媲美Pandas?告诉你Python的Datatable包到底怎么用!

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

媲美Pandas?告诉你Python的Datatable包到底怎么用!

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式