data.table 是 R 中一个很是通用和高性能的包,使用简单、方便并且速度快,在 R 语言社区很是受欢迎,每月的下载量超过 40 万,有近 650 个 CRAN 和 Bioconductor 软件包使用它。若是你是 R 的使用者,可能已经使用过 data.table 包。html
而对于 Python 用户,一样存在一个名为 datatable 包,专一于大数据支持、高性能内存/内存不足的数据集以及多线程算法等问题。在某种程度上,datatable 能够被称为是 Python 中的 data.table。python
为了可以更准确地构建模型,如今机器学习应用一般要处理大量的数据并生成多种特征,这已成为必要的。而 Python 的 datatable 模块为解决这个问题提供了良好的支持,以可能的最大速度在单节点机器上进行大数据操做 (最多100GB)。datatable 包的开发由 H2O.ai 赞助,它的第一个用户是 Driverless.ai。linux
Mac OS系统算法
pip install datatable
Linux系统shell
安装过程须要经过二进制分布来实现数组
# If you have Python 3.5 pip install https://s3.amazonaws.com/h2o-release/datatable/stable/datatable-0.8.0/datatable-0.8.0-cp35-cp35m-linux_x86_64.whl # If you have Python 3.6 pip install https://s3.amazonaws.com/h2o-release/datatable/stable/datatable-0.8.0/datatable-0.8.0-cp36-cp36m-linux_x86_64.whl
很遗憾的是,目前 datatable 包还不能在 Windows 系统上工做,但 Python 官方也在努力地增长其对 Windows 的支持。更多的信息能够查看 Build instructions 的说明。数据结构
https://datatable.readthedocs.io/en/latest/install.html多线程
这里使用的数据集是来自 Kaggle 竞赛中的 Lending Club Loan Data 数据集, 该数据集包含2007-2015期间全部贷款人完整的贷款数据,即当前贷款状态 (当前,延迟,全额支付等) 和最新支付信息等。整个文件共包含226万行和145列数据,数据量规模很是适合演示 datatable 包的功能。less
数据集:机器学习
""" 连接:https://pan.baidu.com/s/1_vVviJWj6A9I05F7bmQNlg 密码:y4jd """
import numpy as np import pandas as pd import datatable as dt
首先将数据加载到 Frame 对象中,datatable 的基本分析单位是 Frame,这与Pandas DataFrame 或 SQL table 的概念是相同的:即数据以行和列的二维数组排列展现。
使用datatable读取数据
%%time dft = dt.fread('loan.csv') CPU times: user 23.8 s, sys: 2.32 s, total: 26.1 s Wall time: 2.54 s
这个数据集一共226万行,145列,将近1.2G的数据,经过datatable读取只用了2.54s
如上所示,fread() 是一个强大又快速的函数,可以自动检测并解析文本文件中大多数的参数,所支持的文件格式包括 .zip 文件、URL 数据,Excel 文件等等。此外,datatable 解析器具备以下几大功能:
使用pandas读取数据
%%time df = pd.read_csv('loan.csv') CPU times: user 27.3 s, sys: 4.68 s, total: 31.9 s Wall time: 28.5 s
由此能够看出,结果代表在读取大型数据时 datatable 包的性能明显优于 Pandas,Pandas 须要接近30秒的时间来读取这些数据,而 datatable 只须要2秒多。
对于当前存在的帧,能够将其转换为一个 Numpy 或 Pandas dataframe 的形式,以下所示:
numpy_df = dft.to_numpy() pandas_df = dft.to_pandas()
下面,将 datatable 读取的数据帧转换为 Pandas dataframe 形式,并比较所需的时间,以下所示:
因为 Lending Club Loan Data 数据集的数据量过大,使用to_padnas操做,jupyte服务容易挂机,因此使用一个数据集较小的进行测试。
%%time dft = dt.fread('baba.csv') pandas_df = dft.to_pandas() CPU times: user 2.44 ms, sys: 287 µs, total: 2.72 ms Wall time: 2.62 ms
经过datatable读取数据加上将其转换为DataFrame数组,一共是2.62ms.
%%time dft = pd.read_csv('baba.csv') CPU times: user 7.95 ms, sys: 3.18 ms, total: 11.1 ms Wall time: 14.4 ms
单经过pandas读取数据,总共须要14.4ms。
看起来将文件做为一个 datatable frame 读取,而后将其转换为 Pandas dataframe比直接读取 Pandas dataframe 的方式所花费的时间更少。所以,经过 datatable 包导入大型的数据文件再将其转换为 Pandas dataframe 的作法是个不错的主意。
下面来介绍 datatable 中 frame 的一些基础属性,这与 Pandas 中 dataframe 的一些功能相似。
print(dft.shape) # (nrows, ncols) print(dft.names[:5]) # top 5 column names print(dft.stypes[:5]) # column types(top 5) ______________________________________________________________ (2260668, 145) ('id', 'member_id', 'loan_amnt', 'funded_amnt', 'funded_amnt_inv') (stype.bool8, stype.bool8, stype.int32, stype.int32, stype.float64)
也能够经过使用 head 命令来打印出输出的前 n 行数据,以下所示:
dft.head(10)
注意:这里用颜色来指代数据的类型,其中红色表示字符串,绿色表示整型,而蓝色表明浮点型。
在 Pandas 中,总结并计算数据的统计信息是一个很是消耗内存的过程,但这个过程在 datatable 包中是很方便的。以下所示,使用 datatable 包计算如下每列的统计信息:
dft.sum() dft.nunique() dft.sd() dft.max() dft.mode() dft.min() dft.nmodal() dft.mean()
下面分别使用 datatable 和Pandas 来计算每列数据的均值,并比较两者运行时间的差别。
Datatable读取
%%time dft.mean() __________________________________________________________________ CPU times: user 3.56 s, sys: 5.35 ms, total: 3.56 s Wall time: 302 ms
Pandas读取
pandas_df.mean() __________________________________________________________________ Throws memory error.
使用 Pandas 计算时抛出内存错误的异常。
和 dataframe 同样,datatable 也是柱状数据结构。在 datatable 中,全部这些操做的主要工具是方括号,其灵感来自传统的矩阵索引,但它包含更多的功能。诸如矩阵索引,C/C++,R,Pandas,Numpy 中都使用相同的 DT[i,j] 的数学表示法。下面来看看如何使用 datatable 来进行一些常见的数据处理工做。
下面的代码可以从整个数据集中筛选出全部行及 funded_amnt 列:
dft[:,'funded_amnt']
展现如何选择数据集中前5行3列的数据,以下所示:
dft[:5,:3]
在 datatable 中经过特定的列来对帧进行排序操做,以下所示:
%%time dft.sort('funded_amnt_inv') CPU times: user 1.47 s, sys: 77.1 ms, total: 1.55 s Wall time: 147 ms
%%time pandas_df.sort_values(by = 'funded_amnt_inv') ___________________________________________________________________ CPU times: user 8.76 s, sys: 2.87 s, total: 11.6 s Wall time: 12.4 s
能够看到两种包在排序时间方面存在明显的差别。
下面展现如何删除 member_id 这一列的数据:
del dft[:, 'member_id']
与 Pandas 相似,datatable 一样具备分组 (GroupBy) 操做。下面来看看如何在 datatable 和 Pandas 中,经过对 grade 分组来获得 funded_amout 列的均值:
%%time for i in range(100): dft[:, dt.sum(dt.f.funded_amnt), dt.by(dt.f.grade)] CPU times: user 9.45 s, sys: 643 ms, total: 10.1 s Wall time: 861 ms
%%time for i in range(100): pandas_df.groupby("grade")["funded_amnt"].sum() ____________________________________________________________________ CPU times: user 12.9 s, sys: 859 ms, total: 13.7 s Wall time: 13.9 s
在 datatable 中,f 表明 frame_proxy,它提供一种简单的方式来引用当前正在操做的帧。在上面的例子中,dt.f 只表明 dt_df。
在 datatable 中,过滤行的语法与GroupBy的语法很是类似。下面就来展现如何过滤掉 loan_amnt 中大于 funding_amnt 的值,以下所示。
dft[dt.f.loan_amnt>dt.f.funded_amnt,"loan_amnt"]
在 datatable 中,一样能够经过将帧的内容写入一个 csv 文件来保存,以便往后使用。以下所示:
dft.to_csv('output.csv')
有关数据操做的更多功能,可查看 datatable 包的说明文档
地址:https://datatable.readthedocs.io/en/latest/using-datatable.html
在数据科学领域,与默认的 Pandas 包相比,datatable 模块具备更快的执行速度,这是其在处理大型数据集时的一大优点所在。然而,就功能而言,目前 datatable 包所包含的功能还不如 pandas 完善。相信在不久的未来,不断完善的 datatable 可以更增强大。