特征工程_note

首先明确概念:用来训练模型的数据集越大,数据质量越好,数据模型的复杂度就越低web 若是特征来自于不一样的文件、数据库表、csv等,就要把不一样地方的数据进行规整,统一存储在一个方便之后使用的地方算法 数据清洗 数据样本抽样 异常值、空值处理数据库 数据样本抽样要注意: 抽样要具备表明性:样本各个特征的比例要尽可能与总体的比例保持一致 样本比例要平衡以及样本不平衡时要如何处理 尽可能考虑使用所有的
相关文章
相关标签/搜索