[ML] 特征工程

时间 2020-05-11

标签特征工程繁體版

原文原文链接

特征工程

特征工程包括：特征构建、特征提取、特征选择三个部分算法

从原始数据中人工的构建新的特征，对数据敏感、分析能力强app

将原始特征转换成一组具备物理意义或统计意义特征的过程，好比：减小原始数据中某个特征的取值个数spa

Signal Representation 信号表示
The goal of the feature extraction mapping is to represent the samples accurately in a low-dimensional space.orm

即：特征抽取后的特征要可以精确地表示样本信息，使得嘻嘻你丢失很小（对应于PCA）递归

信号分类
The goal of the feature extraction mapping is to enhance the class-discriminatory information in a low-dimensional space.深度学习

特征抽取后的特征，要使得分类后的准确率很高，不能比原来特征进行分类的准确率低，对线性来讲，对应的方法是LDAio

PCA、ICA、LDA、SIFT（图像数据）form

从特征集合中挑选一组最具统计意义的特征子集，从而达到降维的效果

从特征集合搜索特征子集

描述：实质上是一个分类器，封装器用选取的特征子集对样本集进行分类，分类的精度做为衡量特征子集好坏的标准，通过比较选出最好的特征子集
产生特征子集
1. Classifier error rate（错误分类率）：使用特定的分类器，用给定的特征子集对样本集进行分类，用分类的精度来衡量特征子集的好坏
2. Forward Search（前向搜索）：初始时假设已选特征的集合为空集，算法采起贪心的方式逐步扩充该集合，直到该集合的特征数达到一个阈值，该阈值可预先设定，也可经过交叉验证获取
3. Backward Search（后向搜索）：初始时假设预选特征集合F为特征的全集，算法每次删掉一个特征，直到F的特征数达到指定的阈值或者F被删空，该算法在选择删除哪个特征时和Forward Search在选择一个特征加入F时的作法一致
评价方法：根据产生的子集，使用交叉验证进行试验
优势：考虑到特征与特征间的关联
缺点：1. 观测数据较少时容易过拟合；2. 特征数较多时计算时间较长

思路：学习器自身自动选择特征
方法：
1. Regularization正则化：L一、L2
2. 决策树算法（ID三、C4.五、CART）：决策树在树增加过程的每一个递归步都必须选择一个特征，将样本划分红较小的子集，选择特征的依据一般是划分后子节点的纯度，划分后子节点越纯，则说明划分效果越好，决策树生成的过程也是特征选择的过程
3. 深度学习
优势：结合了前面两种方法的优势
缺点：必须事先知道什么是好的选择

在验证数据集上验证选出来的特征子集的有效性