手撕算法_决策树

基本概念 特征选择 1.信息增益 信息增益以熵为依据选择特征。用熵来度量信息的随机性或者不确定性,熵值越大,信息的不确定性就越大。 熵的计算公式为: 以下面的数据为示例: 样本标签共有两个(是否逾期),则其熵值为:0.2873 如果选择特征“是否拥有房产”,则熵值为:0.1827 计算方式:每个“是否拥有房产”的分类中分别计算其熵值,最后做和。 熵值变小,说明使用该特征做决策是好于不用该特征的。
相关文章
相关标签/搜索