数据分箱的经常使用方法

假设要将某个自变量的观测值分为k个分箱,一些经常使用的分箱方法有:1.无监督分箱(1)等宽分箱:将变量的取值范围分为k个等宽的区间,每一个区间看成一个分箱。ip (2)等频分箱:把观测值按照从小到大的顺序排列,根据观测的个数等分为k部分,每部分看成一个分箱,例如,数值最小的1/k比例的观测造成第一个分箱,等等。io (3)基于k均值聚类的分箱:使用第五章将介绍的k均值聚类法将观测值聚为k类,但在聚
相关文章
相关标签/搜索