特征选择

时间 2019-11-12

标签特征选择繁體版

原文原文链接

特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ，或属性选择( Attribute Selection ) ，是指从所有特征中选取一个特征子集，使构造出来的模型更好。机器学习

在机器学习的实际应用中，特征数量每每较多，其中可能存在不相关的特征，特征之间也可能存在相互依赖，容易致使以下的后果：学习

特征选择能剔除不相关(irrelevant)或亢余(redundant )的特征，从而达到减小特征个数，提升模型精确度，减小运行时间的目的。另外一方面，选取出真正相关的特征简化了模型，使研究人员易于理解数据产生的过程。
事件

MI度量的是词项的存在与否给类别c的正确判断所带来的信息量。若是信息量越大，那么特征和这个类别的相关性越大。文档

^{用于检验两个事件的独立性，分别指词项的出现和类别的出现。}io

^{先假设两个事件是独立的，若卡方值越大，显著性越大，说明二者差异越明显，更可能相互独立。卡方值越小，说明二者相互依赖，词项的出现也会使某个类别的出现更有可能。}form

选择那些在类别中频率较高的词项做为特征。
方法

这里的频率能够定义为文档频率（类别中包含某个词项c的文档数目），或文档集频率（c类别中全部文档中t出现的总次数）。
统计

文档频率更适合贝努利模型，而文档集频率更适合多项式模型。

因为X²基于显著统计性来选择特征，所以它会比MI选出更多的罕见词项，而这些词项出现次数太少所提供的信息量是不够的，由于对分类来讲是不太可靠的。