特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ,或属性选择( Attribute Selection ) ,是指从所有特征中选取一个特征子集,使构造出来的模型更好。机器学习
在机器学习的实际应用中,特征数量每每较多,其中可能存在不相关的特征,特征之间也可能存在相互依赖,容易致使以下的后果:学习
特征个数越多,分析特征、训练模型所需的时间就越长。spa
特征个数越多,容易引发“维度灾难”,模型也会越复杂,其推广(泛化)能力会降低。orm
特征选择能剔除不相关(irrelevant)或亢余(redundant )的特征,从而达到减小特征个数,提升模型精确度,减小运行时间的目的。另外一方面,选取出真正相关的特征简化了模型,使研究人员易于理解数据产生的过程。
事件
MI度量的是词项的存在与否给类别c的正确判断所带来的信息量。若是信息量越大,那么特征和这个类别的相关性越大。文档
用于检验两个事件的独立性,分别指词项的出现和类别的出现。
io
先假设两个事件是独立的,若卡方值越大,显著性越大,说明二者差异越明显,更可能相互独立。卡方值越小,说明二者相互依赖,词项的出现也会使某个类别的出现更有可能。form
选择那些在类别中频率较高的词项做为特征。
方法
这里的频率能够定义为文档频率(类别中包含某个词项c的文档数目),或文档集频率(c类别中全部文档中t出现的总次数)。
统计
文档频率更适合贝努利模型,而文档集频率更适合多项式模型。
因为X2基于显著统计性来选择特征,所以它会比MI选出更多的罕见词项,而这些词项出现次数太少所提供的信息量是不够的,由于对分类来讲是不太可靠的。