5个PyCaret的常见误解

时间 2020-11-21

标签 html python git github 后端 api 服务器 app dom 机器学习栏目 HTML 繁體版

原文原文链接

做者|Moez Ali
编译|VK
来源|Towards Data Sciencehtml

PyCaret

PyCaret是Python中的一个开源、低代码的机器学习库，它自动化了机器学习工做流。它是一个端到端的机器学习和模型管理工具，能够加快机器学习实验的周期，并使你更有效率。python

与其余开放源代码机器学习库相比，PyCaret是一个低代码库，能够用不多的代码来替换数百行代码。这使得实验具备指数级的速度和效率开发。git

官方：https://www.pycaret.orggithub
文档：https://pycaret.readthedocs.io/en/latest/后端
git：https://www.github.com/pycaret/pycaretapi

compare_models比你想的要好

当咱们在2020年4月发布了PyCaret的1.0版本时，compare_models函数会比较库中的全部模型，以返回平均的交叉验证性能指标。在此基础上，你可使用create_model来训练性能最好的模型，并得到可用于预测的训练模型输出。服务器

这种行为后来在版本2.0中进行了更改。compare_models如今根据n_select参数返回最佳模型，该参数默认设置为1，这意味着它将返回最佳模型（默认状况下）。app

经过将默认的n_select参数更改成3，能够得到前3个模型的列表。例如：dom

返回的对象是通过训练的模型，实际上不须要再次调用create_model来训练它们。若是你愿意，你可使用这些模型来生成诊断图，甚至能够将它们用于预测。例如：机器学习

你认为你只限于scikit-learn模型

咱们收到不少请求，要求在模型库中包含非scikit-learn模型。不少人没有意识到你不只仅局限于默认模型。create_model函数除了接受模型库中可用的模型ID以外，还接受未经训练的模型对象。

只要你的对象与scikit learn-fit/predict-API兼容，它就能够正常工做。例如，咱们只需导入未经训练的NGBClassifier，就能够从ngboost库中训练和评估NGBClassifier ：

你也能够把未经训练的模型传递到compare_models 的include参数中，这样它就能够正常工做了。

注意，包含的参数包括模型库中三个未训练模型的ID，即Logistic回归、决策树和K近邻，以及ngboost库中的一个未训练对象。另外，请注意，索引表示在include参数中输入的模型的位置。

你不知道的pull

PyCaret中的全部训练函数（create_model、tune_model、ensembly_model等）都会显示一个分数网格，但不会返回分数网格。所以，你不能将分数网格存储在DataFrame. 可是，有一个名为pull的函数容许你这样作。例如：

当你使用predict_model函数时，这也适用于保存分数网格。

如今你能够像pandas同样访问度量了。例如，你能够建立一个循环来训练具备不一样参数的模型，并使用如下简单代码建立一个比较表:

你认为PyCaret是个黑匣子，其实否则。

另外一个常见的困惑是，全部的预处理都是在幕后进行的，用户没法访问。所以，你没法审核运行设置函数时发生的状况。这不是真的。

PyCaret get_config和set_config中有两个函数，容许你访问和更改后台的全部内容，从训练集到模型的随机状态。只需调用help（get_config）便可查看get_config函数的文档，查看哪些变量可供你访问：

你能够经过在get_config函数中调用它来访问该变量。例如，要访问X_train 转换后的数据集，请编写如下内容：

你可使用set_config函数更改环境变量。根据你目前对pull、get_config和set_config函数的了解，你能够建立一些很是复杂的工做流。例如，能够对保留集从新采样N次，以评估平均性能指标，而不是依赖于一个保留集：

import numpy as np
Xtest = get_config('X_test')
ytest = get_config('y_test')

AUC = []

for i in np.random.randint(0,1000,size=10):
    Xtest_sampled = Xtest.sample(n = 100, random_state = i)
    ytest_sampled = ytest[Xtest_sampled.index]
    set_config('X_test', Xtest_sampled)
    set_config('y_test', ytest_sampled)
    predict_model(dt);
    AUC.append(pull()['AUC'][0])
    
>>> print(AUC)

[Output]: [0.8182, 0.7483, 0.7812, 0.7887, 0.7799, 0.7967, 0.7812, 0.7209, 0.7958, 0.7404]

>>> print(np.array(AUC).mean())

[Output]: 0.77513

你没有保存你的实验

若是你没有保存你的实验，你应该当即开始保存它们。不管你是否要使用MLFlow后端服务器，你仍然应该记录全部的实验。当你执行任何实验时，你会生成大量的元数据，这些元数据是不可能手动跟踪的。

PyCaret的日志功能将在使用get_logs函数时生成一个漂亮、轻量级、易于理解的excel电子表格。例如：

# 加载数据集
from pycaret.datasets import get_data
data = get_data('juice')

# 初始化setup
from pycaret.classification import *
s = setup(data, target = 'Purchase', silent = True, log_experiment = True, experiment_name = 'juice1')

# 比较基线模型
best = compare_models()

# 生成日志
get_logs()

在这个很是短的实验中，咱们已经生成了3000多个元数据点（度量、超参数、运行时等）。想象一下，你将如何手动跟踪这些数据点？也许，这实际上不可能。幸运的是，PyCaret提供了一种简单的方法来完成它。只需在设置函数中将log_experiment设置为True便可。

要了解PyCareT2.2中的全部更新的更多信息，请参阅发行说明或阅读此公告:https://www.github.com/pycaret/pycaret/