pandas高效实现条件逻辑

时间 2020-11-12

标签 html python git github 算法编程多线程 app 机器学习编程语言栏目 HTML 繁體版

原文原文链接

做者|Louis Chan
编译|VK
来源|Towards Data Sciencehtml

Python能够说是当今最酷的编程语言（多亏了机器学习和数据科学），但与最好的编程语言之一C相比，它的效率并非很高。python

在开发机器学习模型时，很常见的状况是，咱们须要根据从统计分析或上一次迭代的结果导出的硬编码规则，而后以编程方式更新。认可这一点并不羞耻：我一直在用Pandas apply编写代码，直到有一天我对嵌套很是厌烦，因而决定研究（又称Google）其余更可维护、更高效的方法git

演示数据集

咱们将要使用的数据集是iris数据集，你能够经过pandas或seaborn免费得到它。github

import pandas as pd
iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')

# import seaborn as sns
# iris = sns.load_dataset("iris")

iris数据集的前5行算法

数据统计信息编程

假设在初始分析以后，咱们但愿用如下逻辑标记数据集：多线程

若是萼片长度（sepal length）< 5.1，则标签为0；app
不然，若是萼片宽度（sepal width）> 3.3和萼片长度< 5.8，则标签为1；机器学习
不然，若是萼片宽度> 3.3，花瓣长度（petal length）> 5.1，则标签为2；编程语言
不然，若是萼片宽度> 3.3，花瓣长度< 1.6且萼片长度< 6.4或花瓣宽度< 1.3，则标签3；
不然，若是萼片宽度>3.3且萼片长度< 6.4或花瓣宽度< 1.3，则标签为4；
不然，若是萼片宽度> 3.3，则标签为5；
不然标签6

在深刻研究代码以前，让咱们快速地将一个新的label列设置为None：

iris['label'] = None

Pandas.iterrows+嵌套If Else块

若是你还在用这个，这篇博文绝对是适合你的地方！

%%timeit
for idx, row in iris.iterrows():
  if row['sepal_length'] < 5.1:
    iris.loc[idx, 'label'] = 0
  elif row['sepal_width'] > 3.3:
    if row['sepal_length'] < 5.8:
      iris.loc[idx, 'label'] = 1
    elif row['petal_length'] > 5.1:
      iris.loc[idx, 'label'] = 2
    elif (row['sepal_length'] < 6.4) or (row['petal_width'] < 1.3):
      if row['petal_length'] < 1.6:
        iris.loc[idx, 'label'] = 3
      else:
        iris.loc[idx, 'label'] = 4
    else:
      iris.loc[idx, 'label'] = 5
  else:
    iris.loc[idx, 'label'] = 6

1min 29s ± 8.91 s per loop (mean ± std. dev. of 7 runs, 1 loop each)

时间挺长…好吧，咱们继续…

Pandas .apply

Pandas.apply直接用于沿数据帧的轴或Series来应用函数。例如，若是咱们有一个函数f，它能够是一个数列的和（例如，能够是一个list, np.array, tuple等），并将其传递给以下数据帧，咱们将跨行求和：

def f(numbers):
    return sum(numbers)
    
df['Row Subtotal'] = df.apply(f, axis=1)

在axis=1上应用函数。默认状况下，apply参数axis=0，即逐行应用函数；而axis=1将逐列应用函数。

如今咱们已经对pandas.apply有了基本的了解，如今让咱们编写分配标签的逻辑代码，看看它运行多长时间：

%%timeit
def rules(row):
  if row['sepal_length'] < 5.1:
    return 0
  elif row['sepal_width'] > 3.3:
    if row['sepal_length'] < 5.8:
      return 1
    elif row['petal_length'] > 5.1:
      return 2
    elif (row['sepal_length'] < 6.4) or (row['petal_width'] < 1.3):
      if row['petal_length'] < 1.6:
        return 3
      return 4
    return 5
  return 6

iris['label'] = iris.apply(rules, 1)

1.43 s ± 115 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

15万行只须要1.43s比以前的水平有了很大的提升，但仍然很是缓慢。

想象一下，若是你须要处理一个由数百万个交易数据或信贷批准组成的数据集，那么每次咱们要应用一组规则并将函数应用在一个列时，它将占用14秒以上。运行足够多的列，你一个下午可能就没了。

Pandas.loc[]

若是你熟悉SQL，那么使用.loc[]为新列赋值实际上只是一个带有WHERE条件的UPDATE语句。所以，这应该比将函数应用于每一个行或列要好得多。

%%timeit
iris['label'] = 6
iris.loc[iris['sepal_width'] > 3.3, 'label'] = 5
iris.loc[
  (iris['sepal_width'] > 3.3) & 
  ((iris['sepal_length'] < 6.4) | (iris['petal_width'] < 1.3)), 
  'label'] = 4
iris.loc[
  (iris['sepal_width'] > 3.3) & 
  ((iris['sepal_length'] < 6.4) | (iris['petal_width'] < 1.3)) & 
  (iris['petal_length'] < 1.6), 
  'label'] = 3
iris.loc[
  (iris['sepal_width'] > 3.3) & 
  (iris['petal_length'] > 5.1), 
  'label'] = 2
iris.loc[
  (iris['sepal_width'] > 3.3) & 
  (iris['sepal_length'] < 5.8), 
  'label'] = 1
iris.loc[
  (iris['sepal_length'] < 5.1), 
  'label'] = 0

13.3 ms ± 837 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

如今咱们只花了前一次的十分之一的时间，这意味着当你在家工做的时候，你没有更多的借口离开办公桌。不过，咱们目前只使用pandas内置的函数。尽管pandas为咱们提供了一个很是方便的高级接口来与数据表交互，可是经过层层抽象，效率可能会下降。

Numpy.where

Numpy有一个较低级别的接口，容许与n维iterables（即向量、矩阵、张量等）进行更有效的交互。它的方法一般是基于C语言的，当涉及到更复杂的计算时，它使用了优化的算法，使得它比咱们从新发明的轮子更快。

根据numpy的官方文件，np.where()接受如下语法：

np.where(condition, return value if True, return value if False)

本质上，这是一种二分，其中条件将被计算为布尔值并相应地返回值。这里的技巧是条件实际上能够是iterable（即布尔ndarray类型）。这意味着咱们能够将df['feature']==1做为条件，并将where逻辑编码为：

np.where(
    df['feature'] == 1, 
    'It is one', 
    'It is not one'
)

因此你可能会问，咱们如何用一个像np.where()这样的二分函数来实现上述逻辑呢?答案很简单，但却使人不安。嵌套np.where()

%%timeit
iris['label'] = np.where(
  iris['sepal_length'] < 5.1,
  0,
  np.where(
    iris['sepal_width'] > 3.3,
    np.where(
      iris['sepal_length'] < 5.8,
      1,
      np.where(
        iris['petal_length'] > 5.1,
        2,
        np.where(
          (iris['sepal_length'] < 6.4) | (iris['petal_width'] < 1.3),
          np.where(
            iris['petal_length'] < 1.6,
            3,
            4
          ),
          5
        )
      )
    ),
    6
  )
)

3.6 ms ± 149 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

恭喜你，你挺过来了。我不能告诉你我花了多少次来计算右括号，可是嘿，这就完成了！咱们又从pandas身上砍下了10毫秒。loc[]。然而，这个代码片断是不可维护的，这意味着，它是不可接受的。

Numpy.select

Numpy.select，它与.where不一样，它是用来实现多线程逻辑的函数。

np.select(condlist, choicelist, default=0)

它的语法近似于np.where，但第一个参数如今是一个条件列表，它的长度应该与选项的长度相同。使用时要记住一件事np.select是在知足第一个条件后当即选择一个选项。

这意味着，若是超集规则出如今列表中的子集规则以前，那么子集选择将永远不会被选择。具体说来:

condlist = [
    df['A'] <= 1,
    df['A'] < 1
]

choicelist = ['<=1', '<1']

selection = np.select(condlist, choicelist, default='>1')

由于全部命中df['A']<1的行也将被df['A']<=1捕获，所以没有行最终被标记为'<1'。为了不这种状况发生，请务必在更具体的规则以前先制定一个不太具体的规则：

condlist = [
    df['A'] < 1, # < ───┬ 交换
    df['A'] <= 1 # < ───┘
]

choicelist = ['<1', '<=1'] # 记住也要更新这个!

selection = np.select(condlist, choicelist, default='>1')

从上面能够看到，你须要同时更新condlist和choicelsit，以确保代码顺利运行。但说真的，这一步也耗咱们本身的时间。经过将其更改成字典，咱们将达到大体相同的时间和内存复杂性，但使用更易于维护的代码片断：

%%timeit
rules = {
  0: (iris['sepal_length'] < 5.1),
  1: (iris['sepal_width'] > 3.3) & (iris['sepal_length'] < 5.8),
  2: (iris['sepal_width'] > 3.3) & (iris['petal_length'] > 5.1),
  3: (
    (iris['sepal_width'] > 3.3) & \
    ((iris['sepal_length'] < 6.4) | (iris['petal_width'] < 1.3)) & \
    (iris['petal_length'] < 1.6)
  ),
  4: (
    (iris['sepal_width'] > 3.3) & \
    ((iris['sepal_length'] < 6.4) | (iris['petal_width'] < 1.3))
  ),
  5: (iris['sepal_width'] > 3.3),
}

iris['label'] = np.select(rules.values(), rules.keys(), default=6)

6.29 ms ± 475 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

大约是np.where的一半，但这不只使你免于对各类嵌套的调试，并且使choicelist发生了变化。以前我已经忘记更新choicelist太屡次了，以致于我花了四倍多的时间来调试个人机器学习模型。相信我，np.select和dict。这是很是好的选择

优秀函数

Numpy的向量化操做：若是你的代码涉及循环和计算一元函数、二进制函数或对数字序列进行操做的函数。你应该经过将数据转换为numpy-ndarray来重构代码，并充分利用numpy的向量化操做来极大地提升脚本的速度。在Numpy的官方文档中查看一元函数、二元函数或对数字序列进行操做的函数的示例：https://www.pythonlikeyoumeanit.com/Module3_IntroducingNumpy/VectorizedOperations.html#NumPy’s-Mathematical-Functions
np.vectorize：不要被这个函数的名字愚弄。这只是一个方便的函数，并不会使代码运行得更快。要使用此函数，首先须要将逻辑编码为可调用函数，而后运行np.vectorize（你的函数）（你的数据系列）。另外一个大的缺点是须要将数据帧转换为一维的iterable，以便传递到“矢量化”函数中。结论：若是不方便使用np.vectorize，别使用。
numba.njit：如今这是真正的向量化。它试图将任何numpy值移动到尽量接近C语言，以提升其效率。虽然它能够加速数值计算，但它也将本身限制为数值计算，这意味着没有pandas系列，没有字符串索引，只有具备int、float、datetime、bool和category类型的numpy的ndarray。结论:若是你可以轻松地使用Numpy的ndarray并将逻辑转换为数值计算或仅转换为数值计算，那么它将是一个很是优秀的选择。从这里了解更多：https://numba.pydata.org/numba-doc/dev/user/5minguide.html

结尾

若是可能的话，去争取numba.njit；不然，使用np.select和dict就能够帮助你远航了。记住，每一点改进都会有帮助！

原文连接：https://towardsdatascience.com/efficient-implementation-of-conditional-logic-on-pandas-dataframes-4afa61eb7fce

欢迎关注磐创AI博客站：
http://panchuang.net/

sklearn机器学习中文官方文档：
http://sklearn123.com/

欢迎关注磐创博客资源汇总站：
http://docs.panchuang.net/