数据处理和特征工程

数据处理

离群点处理

特征工程

特征选择

特征工程是数据分析中最耗时间和精力的工做,
更可能是工程上的经验和权衡。

问题导向+专家导向:
    咨询业务数据相关的专家对特征维度有个初步了解。
    哪些特征影响大,特征影响小

筛选方法:

过滤法:

小于某个阈值的特征过滤掉。

    方差:
        小于某个阈值直接舍弃。

    相关系数:
        主要用于输出连续值的监督学习算法中。

        分别计算全部训练集中各个特征与输出值之间的相关系数。         
    假设检验:
        卡方检验,检验某个特征分布和输出值分布之间的相关性。          
        F检验和t检验

    互信息(信息增益):    
        互信息值越大,说明该特征和输出值之间的相关性越大,越须要保留。

包装法

根据目标函数,每次选择若干特征或者排除若干特征,直到选择出最佳的子集。
    
    嵌入法:先使用某些机器学习的算法和模型进行训练,获得各个特征的权值系数,根据系数从大到小选择特征。相似于Filter方法,可是是经过训练来肯定特征的优劣。

决策树

相关系数

参考
相关文章
相关标签/搜索