pandas处理大数据的技巧

时间 2019-11-25

标签 pandas 处理数据技巧繁體版

原文原文链接

refer ： https://yq.aliyun.com/articles/530060?spm=a2c4e.11153940.blogcont181452.16.413f2ef21NKngz#python

http://www.datayuan.cn/article/6737.htm程序员

https://yq.aliyun.com/articles/210393?spm=a2c4e.11153940.blogcont381482.21.77131127S0t3io

-
数组

--

大文本数据的读写
有时候咱们会拿到一些很大的文本文件，完整读入内存，读入的过程会很慢，甚至可能没法读入内存，或者能够读入内存，可是无法进行进一步的计算，这个时候若是咱们不是要进行很复杂的运算，可使用read_csv提供的chunksize或者iterator参数，来部分读入文件，处理完以后再经过to_csv的mode='a'，将每部分结果逐步写入文件。数据结构

to_csv, to_excel的选择
在输出结果时统称会遇到输出格式的选择，平时你们用的最多的.csv, .xls, .xlsx，后二者一个是excel2003，一个是excel2007，个人经验是csv>xls>xlsx，大文件输出csv比输出excel要快的多，xls只支持60000+条记录，xlsx虽然支持记录变多了，可是，若是内容有中文经常会出现诡异的内容丢失。所以，若是数量较小能够选择xls，而数量较大则建议输出到csv，xlsx仍是有数量限制，并且大数据量的话，会让你以为python都死掉了app

读入时处理日期列
我以前都是在数据读入后经过to_datetime函数再去处理日期列，若是数据量较大这又是一个浪费时间的过程，其实在读入数据时，能够经过parse_dates参数来直接指定解析为日期的列。它有几种参数，TRUE的时候会将index解析为日期格式，将列名做为list传入则将每个列都解析为日期格式ide

关于to_datetime函数再多说几句，咱们拿到的时期格式经常出现一些乱七八糟的怪数据，遇到这些数据to_datimetime函数默认会报错，其实，这些数据是能够忽略的，只须要在函数中将errors参数设置为'ignore'就能够了。函数

另外，to_datetime就像函数名字显示的，返回的是一个时间戳，有时咱们只须要日期部分，咱们能够在日期列上作这个修改，datetime_col = datetime_col.apply(lambda x: x.date())，用map函数也是同样的datetime_col = datetime_col.map(lambda x: x.date())工具

把一些数值编码转化为文字
前面提到了map方法，我就又想到了一个小技巧，咱们拿到的一些数据每每是经过数字编码的，好比咱们有gender这一列，其中0表明男，1表明女。固然咱们能够用索引的方式来完成性能

其实咱们有更简单的方法，对要修改的列传入一个dict，就会达到一样的效果。大数据

经过shift函数求用户的相邻两次登陆记录的时间差
以前有个项目须要计算用户相邻两次登陆记录的时间差，咋看起来其实这个需求很简单，可是数据量大起来的话，就不是一个简单的任务，拆解开来作的话，须要两个步骤，第一步将登陆数据按照用户分组，再计算每一个用户两次登陆之间的时间间隔。数据的格式很单纯，以下所示

若是数据量不大的，能够先unique uid，再每次计算一个用户的两次登陆间隔，相似这样

这种方法虽然计算逻辑比较清晰易懂，可是缺点也很是明显，计算量巨大，至关与有多少许记录就要计算多少次。

那么为何说pandas的shift函数适合这个计算呢?来看一下shift函数的做用

恰好把值向下错位了一位，是否是刚好是咱们须要的。让咱们用shift函数来改造一下上面的代码。

上面的代码就把pandas向量化计算的优点发挥出来了，规避掉了计算过程当中最耗费时间的按uid循环。若是咱们的uid都是一个只要排序后用shift(1)就能够取到全部前一次登陆的时间，不过真实的登陆数据中有不少的不用的uid，所以再将uid也shift一下命名为uid0，保留uid和uid0匹配的记录就能够了。

-

Python数据预处理：使用Dask和Numba并行化加速

【方向】 2018-03-12 11:11:49 浏览2650 评论0
python

大数据
摘要：本文是针对Python设计一种并行处理数据的解决方案——使用Dask和Numba并行化加速运算速度。案例对比分析了几种不一样方法的运算速度，很是直观，可供参考。

若是你善于使用Pandas变换数据、建立特征以及清洗数据等，那么你就可以轻松地使用Dask和Numba并行加速你的工做。单纯从速度上比较，Dask完胜Python，而Numba战胜Dask，那么Numba+Dask基本上算是无敌的存在。将数值计算分红Numba sub-function和使用Dask map_partition+apply，而不是使用Pandas。对于100万行数据，使用Pandas方法和混合数值计算建立新特征的速度比使用Numba+Dask方法的速度要慢许多倍。

Python：60.9x | Dask：8.4x | Numba：5.8x |Numba+Dask：1x

8be99f10ed908533e525b81fcd04bcdf3b27db2d

做为旧金山大学的一名数据科学硕士，会常常跟数据打交道。使用Apply函数是我用来建立新特征或清理数据的众多技巧之一。如今，我只是一名数据科学家，而不是计算机科学方面的专家，但我是一个喜欢捣鼓并使得代码运行更快的程序员。如今，我将会分享我在并行应用上的经验。

大多Python爱好者可能了解Python实现的全局解释器锁（GIL），GIL会占用计算机中全部的CPU性能。更糟糕的是，咱们主要的数据处理包，好比Pandas，不多能实现并行处理代码。

Apply函数vs Multiprocessing.map

Tidyverse已经为处理数据作了一些美好的事情，Plyr是我最喜好的数据包之一，它容许R语言使用者轻松地并行化他们的数据应用。Hadley Wickham说过：

“plyr是一套处理一组问题的工具：须要把一个大的数据结构分解成一些均匀的数据块，以后对每一数据块应用一个函数，最后将全部结果组合在一块儿。”

对于Python而言，我但愿有相似于plyr这样的数据包可供使用。然而，目前这样的数据包还不存在，但我可使用并行数据包构成一个简单的解决方案。

Dask

bbcc3ca9a96dc7ad7129d9047a2d58be57a4ed84

以前在Spark上花费了一些时间，所以当我开始使用Dask时，仍是比较容易地掌握其重点内容。Dask被设计成可以在多核CPU上并行处理任务，此外也借鉴了许多Pandas的语法规则。

如今开始本文所举例子。对于最近的数据挑战而言，我试图获取一个外部数据源（包含许多地理编码点），并将其与要分析的一大堆街区相匹配。在计算欧几里得距离的同时，使用最大启发式将最大值分配给一个街区。

8809febd555c55a69522a58770971c8cf0c57af5

最初的apply：

Dask apply:

两者看起来很类似，apply核心语句是map_partitions，最后有一个compute()语句。此外，不得不对npartitions初始化。分区的工做原理就是将Pandas数据帧划分红块，对于个人电脑而言，配置是6核-12线程，我只需告诉它使用的是12分区，Dask就会完成剩下的工做。

接下来，将map_partitions的lambda函数应用于每一个分区。因为许多数据处理代码都是独立地运行，因此没必要过多地担忧这些操做的顺序问题。最后，compute()函数告诉Dask来处理剩余的事情，并把最终计算结果反馈给我。在这里，compute()调用Dask将apply适用于每一个分区，并使其并行处理。

因为我经过迭代行来生成一个新队列（特征），而Dask apply只在列上起做用，所以我没有使用Dask apply，如下是Dask程序：

Numba、Numpy和Broadcasting

因为我是根据一些简单的线性运算（基本上是勾股定理）对数据进行分类，因此认为使用相似下面的Python代码会运行得更快一些。

d31908d0ecfefd263b3e5373461b34374de9adf5

Broadcasting用以描述Numpy中对两个形状不一样的矩阵进行数学计算的处理机制。假设我有一个数组，我会经过迭代并逐个变换每一个单元格来改变它

相反，我彻底能够跳过for循环，并对整个数组执行操做。Numpy与broadcasting混合使用，用来执行元素智能乘积（对位相乘）。

Broadcasting能够实现更多的功能，如今看看骨架代码：

从本质上讲，代码的功能是改变数组。好的一方面是运行很快，甚至能和Dask并行处理速度比较。其次，若是使用的是最基本的Numpy和Python，那么就能够及时编译任何函数。坏的一面在于它只适合Numpy和简单Python语法。我不得不把全部的数值计算从个人函数转换成子函数，但其计算速度会增长得很是快。

将其一块儿使用

简单地使用map_partition()就能够将Numba函数与Dask结合在一块儿，若是并行操做和broadcasting可以密切合做以加快运行速度，那么对于大数据集而言，将会看到其运行速度获得大幅提高。

09e60c6e34586f4760449a2159928877d49958cf

d9d0d60dc749ba864cbb200bb05b60e71ff6adcf

上面的第一张图代表，没有broadcasting的线性计算其表现不佳，并行处理和Dask对速度提高也有效果。此外，能够明显地发现，Dask和Numba组合的性能优于其它方法。

上面的第二张图稍微有些复杂，其横坐标是对行数取对数。从第二张图能够发现，对于1k到10k这样小的数据集，单独使用Numba的性能要比联合使用Numba+Dask的性能更好，尽管在大数据集上Numba+Dask的性能很是好。

优化

为了可以使用Numba编译JIT，我重写了函数以更好地利用broadcasting。以后，从新运行这些函数后发现，平均而言，对于相同的代码，JIT的执行速度大约快了24%。

c9f6a34759b5b1298033c2e4ffd5d78a63994af5

能够确定的说，必定有进一步的优化方法使得执行速度更快，但目前没有发现。Dask是一个很是友好的工具，本文使用Dask+Numba实现的最好成果是提高运行速度60倍。