box-cox变换

参加kaggle比赛过程中,看到很多人在预处理阶段会对某些特征X做如下操作 Y = log(1+X), 说是可以把这个特征的分布正态化, 使其更加符合后面数据挖掘方法对数据分布的假设. 自己试了一下,有时的确可以提高准确度,有时却降低了准确度,很好奇其中的原理,遂在网上搜索了一番,整理如下. Y = log(1+X)这个操作的真名应该时boxcox变换,用来降低X的skewness值,达到接近正态
相关文章
相关标签/搜索