处理缺失数据的高级方法

  • 处理缺失值的基本步骤

一、识别缺失的数据大数据

二、检查致使数据缺失的缘由spa

三、删除包含缺失值的实例或用合理的数值代替(插补)缺失值对象

  • 缺失数据的分类

a、彻底随机缺失it

若某变量的缺失数据与其余任何观测或未观测变量都不相关,则数据为彻底随机缺失(MCAR),注意,若是每一个有缺失值的变量都是MCAR,那么能够将数据完整的实例看做对更大数据集的一个简单随机抽样(即完整的观测只是全数据的一个随机样本)变量

如:随机数

有一份问卷调查,可是有一些项经常一同缺失,缺失的缘由是调查对象没有意识到问卷背面还有信息须要填写,可认为这些确实就是MCAR方法

(由于是子集,背面未填写的 样本量的减小对统计检验效力不会形成严重影响im

 

b、随机缺失统计

若某变量上的缺失数据与其余观测变量相关,与它本身的未观测值不相关,则数据为随机缺失(MAR)数据

如:

关于全球领导风格的调查中,学历变量常常性的缺失,调查显示欧洲的调查对象更可能在此项目上留白,这说明某些特定国家的调查对象并无理解变量的分类,此时,这种数据最多是MAR

 

c、非随机缺失

若缺失数据不属于MCAR和MAR,则数据为非随机数据缺失(NMAR)

如:

抑郁症研究中,不少人不肯认可症状,或者因为抑郁症自己致使没法集中注意力,而忽略了这项,这种数据可认为是 NMAR

 

大部分处理缺失数据的方法都是假定数据是 MCAR或MAR,此时能够忽略缺失数据的生成机制,能够处理后之间建模,当数据是NMAR,分析比较苦难,有 模型选择法和模式混合法

 

处理缺失数据的方法:

 

  • 理解缺失数据的由来和影响

识别缺失数据的数目、分布和模式有两个目的

a、分析生成缺失数据的潜在机制

b、评价缺失数据对回答实质性问题的影响

具体来说咱们要弄清楚如下几个问题

一、缺失数据的比例多大?

二、缺失数据是否集中在少数几个变量上亦或普遍存在

三、缺失是随机产生的吗?

四、缺失数据间的相关性或可观测数据间的相关性,是否能够代表产生缺失值的机制?

回答这些问题,而后判断用哪一种统计方法来分析数据

相关文章
相关标签/搜索