决策树purity/基尼系数/信息增益 Decision Trees

决策树简单描述

决策树的样子大概是这个样子的:
在这里插入图片描述3d

选择一个特征做为根节点,把这个特征划分红两个孩子节点,每一个孩子节点就是原始数据集的子集,而后再找一个特征做为划分……orm


划分的好坏,如图所示:
在这里插入图片描述blog

用纯度Purity来衡量划分的效果,若是划分的好,那么每个子集都是某一类占据大多数,若是每个子集都是跟父节点同样的状态,那么就是Low purity。图片

一个好的划分要知足下面两个特色:ci

  1. 划分是High purity
  2. 划分产生的两个子节点的样本数量相近,避免产生很是小的子集。

决策树的终止条件it

  1. 树的深度到达必定条件;
  2. 每个节点中的样本数量到达一个下线
  3. 不会再有划分,能够增长节点的purity了

衡量purity的三种方法

有不一样的衡量purity的方法,不一样的衡量方法会致使不一样的分裂。io

Gini Coefficient

在这里插入图片描述

  • Pr(k)是一个样本属于类别K的几率;
  • C就是类别的总数

GINI系数的计算方法:form

在这里插入图片描述


Entropy熵

在这里插入图片描述
能够看出来,GINI系数是类别的几率乘上类别的几率,而熵是类别的几率呈上类别几率的logarithmclass

  • GINI的取值范围是0.5~1,越大越purity;
  • Entropy的取值范围是0~1,越小越purity
    介绍完了熵,那么什么是信息增益
    是要最大化的信息增益:
    在这里插入图片描述
    由于Entropy取值范围是0就purity,因此information gain越大,那么说明分割的purity越好。

看一下Entropy的计算方法:
在这里插入图片描述方法

相关文章
相关标签/搜索