数据挖掘 笔记(4)

1.特征选择 要领:最大可能选择区分度大的特征,比如下图将两个群体划分的较为明确。 2.熵(Entrophy) 比如有有一个人让你猜,是男是女,此时猜中的可能性(区分度)很低。 在熵中,这个事件为1,即非常不确定。 此时给一个distribution的情况,比如90%的烟民是男人,则区分度大大提高。 图中给出了一个熵的公式: 当熵=1,不确定性最高 若给出事件:不抽烟的20%是男生,80%是女生
相关文章
相关标签/搜索