降低基数,连续变量分段

数据准备非常重要: 1.从不同的渠道收集数据; 2.清理数据中意外错误或被认为是极端值的取值; 3.生成衍生的变量(feature)。 在数据处理过程,需要进行的操作: 当名义变量的取值大于12个,考虑降低基数: 1>将相同含义的变量合并; 2>出现频率下的类别被合并为一个新的类别,并给予一个合理的标识,如other。 3>合并变量的类别使得某些预测力指标最大化。 下面是采用决策树的方法,对于有1
相关文章
相关标签/搜索