使用SPSS进行分箱功能将连续数据离散化的步骤

“分箱法”相信学过统计学的小伙伴们都不会陌生,它的主要做用就在于对噪音数据进行剔除,同时将连续型数据进行离散处理。在模型分析开始前,咱们常常须要使用到分箱法来处理和清洗数据。html

做为一款功能全面、专业性强的统计分析软件,IBM SPSS Statistic一样具有分箱功能,下面咱们一块儿来经过一篇教程了解一下。url

图1是咱们准备要分箱的数据,咱们将对年龄列进行分箱,按照每10岁为一个标准进行分箱。spa

 

 
 
 

图1:要分箱的数据.net

点击“转换”中的“可视分箱”,进入分箱设置界面。htm

 

 
 
 

图2:可视分箱blog

将“年龄”拉入到“要分箱的变量”中,而后点击“继续”。教程

 

 
 
 

图3:拉入要分箱的变量get

在图4所示界面,咱们能够看到要扫描的个案数共34个,其中最大的变量值为67,最小为22,也就是说要分箱的数据年龄段在22到67岁之间。io

咱们在“分箱化变量”中,填入“年龄段”,做为一个以后新生成的变量,随后点击“生成分割点”按钮。class

 

 
 
 

图4:分箱化变量

按照咱们的分箱目的,咱们要每隔10岁分组一次,最小的年龄为22岁,则咱们须要在第一个分割点位置填写“20”,而后在宽度填写“10”,此时点击键盘Tap键,SPSS会自动生成分割点数的值为“5”,如图5所示。

这样子SPSS会自动帮咱们将20到30、30到40、40到50、50到60、60到70的年龄段进行分组,一共5组。

 

 
 
 

图5:生成分割点

点击“应用”按钮后,回到“可视分箱”界面中,咱们能够在图6红框位置看到后续的分箱值,标签栏默认是空值,咱们能够进行自定义填写,如设置20的分箱标签为2。

 

 
 
 

图6:设置自定义标签

最后点击“肯定”按钮,开始进行数据分箱,分箱后的新数据结果如图7所示,生成了新的“年龄段”列,数据也很是正确地进行了分箱,如年龄为27的那行数据,被正确地设置到了标签为2的分箱中。

 

 
 
 

图7:分箱结果

以上就是使用IBM SPSS Statistic对演示数据中的年龄指标,按照每隔10岁的标准,进行分箱的所有教程,上述演示的是等距分箱,小伙伴也能够本身动手在IBM SPSS Statistic中尝试一下不等距分箱哦。

相关文章
相关标签/搜索