数据分箱概念与python实现

数据分箱指的是将连续数据离散化。 离散化对异常值具有鲁棒性,运算更快方便存储,而且特征可变性更强方便迭代,特征离散后的模型更加稳定。   在这里主要介绍卡方分箱: 1.先确定最终分几个箱,也就是最后分几个离散值。 2.如果变量样本大于100,那么先等距的划分为100箱。 3.计算每一对相邻箱间的卡方值 4.将卡方值最小的两个区间合并,一直重复3-4直到满足最终分箱个数。   二、分箱评估 通过IV
相关文章
相关标签/搜索