选自arXiv, 做者:Tony Duan、Anand Avati等,机器之心编译,参与:熊猫。在此论文中,来自斯坦福的研究者们提出了 NGBoost 梯度提高方法以解决现有梯度提高方法难以处理的通用几率预测中的技术难题。算法
天然梯度提高(NGBoost / Natural Gradient Boosting)是一种算法,其以通用的方式将几率预测能力引入到了梯度提高中。预测式不肯定性估计在医疗和天气预测等不少应用中都相当重要。几率预测是一种量化这种不肯定性的天然方法,这种模型会输出在整个结果空间上的完整几率分布。梯度提高机(Gradient Boosting Machine)已经在结构化输入数据的预测任务上取得了普遍的成功,但目前尚未用于实数值输出的几率预测的简单提高方案。NGBoost 这种梯度提高方法使用了天然梯度(Natural Gradient),以解决现有梯度提高方法难以处理的通用几率预测中的技术难题。这种新提出的方法是模块化的,基础学习器、几率分布和评分标准均可灵活选择。研究者在多个回归数据集上进行了实验,结果代表 NGBoost 在不肯定性估计和传统指标上的预测表现都具有竞争力。app
连接:https://arxiv.org/pdf/1910.03225v1.pdf机器学习
引言
模块化
不少真实世界的监督机器学习问题都具备表格式的特征和实数值的目标。但模型不多应该对预测结果有绝对的信心。在这样的任务中,估计预测结果中的不肯定性就很重要了,尤为是当预测结果与自动化决策直接相关时——由于几率式不肯定性估计在肯定工做流程中的人工后备方案方面很是重要。函数
而梯度提高机(GBM)是一系列能很好地处理结构化输入数据的高度模块化的方法,即便数据集相对较小时也能很好地完成。可是,若是方差被假定为常数,那么这种几率式解释就没什么用处。预测获得的分布须要有至少两个自由度(两个参数),才能有效地体现预测结果的幅度和不肯定度。正是这个基础学习器多个参数同时提高的问题使得 GBM 难以处理几率式预测,而 NGBoost 经过使用天然梯度可以解决这个问题。学习
这篇论文提出了天然梯度提高,这是一种用于几率预测的模块化的提高算法,其使用了天然梯度,从而能够灵活地整合不一样的如下模块:
测试
基础学习器(好比决策树)优化
参数几率分布ui
评分规则(MLE、CRPS 等)spa
NGBoost:天然梯度提高
NGBoost 算法是一种用于几率预测的监督学习方法,其实现提高的方式是以函数形式预测条件几率分布的参数。研究者这里的实验关注的重点是实数值输出,但他们也表示这些方法全均可用于其它模式的预测,好比分类和事件发生时间预测。
基础学习器(f)
参数几率分布(P_θ)
合适的评分规则(S)
在每次迭代 m,对于每一个样本 i,算法都会根据该样本直到该阶段的预测结果参数计算评分规则 S 的天然梯度 g_i。注意 g_i 和维度与 θ 一致。该迭代的一组基础学习器 f 将进行拟合,以便预测每一个样本 x_i 的天然梯度的对应份量。
实验