机器学习知识点整理（一）

时间 2020-12-03

标签算法机器学习函数性能学习测试编码 spa 设计 3d 栏目系统性能繁體版

原文原文链接

1、特征工程

1.为何要对特征作归一化？算法

2.什么是组合特征？如何处理高维组合特征？机器学习

3.请比较欧式距离与曼哈顿距离？函数

4.为何一些场景中使用余弦类似度而不是欧式距离性能

5.One-hot的做用是什么？为何不直接使用数字做为表示？学习

One-hot 主要用来编码类别特征，即采用哑变量(dummy variables) 对类别进行编码。它的做用是避免因将类别用数字做为表示而给函数带来抖动。直接使用数字会给将人工偏差而致使的假设引入到类别特征中，好比类别之间的大小关系，以及差别关系等等。测试

2、模型评估

6.在模型评估过程当中，过拟合和欠拟合具体指什么现象？编码

过拟合是指模型对于训练数据拟合呈过当的状况，反映到评估指标上，就是模型在训练集上的表现好，可是在测试集和新数据上的表现较差。欠拟合指的是模型在训练和预测时表现都很差。用模型在数据上的误差和方差指标来表示就是。欠拟合时候，误差和方差都比较大，而过拟合时，误差较小但方差较大。spa

7.设计

8.3d

9.对于树形结构为何不须要归一化？

决策树的学习过程本质上是选择合适的特征，分裂并构建树节点的过程；而分裂节点的标准是由树构建先后的信息增益，信息增益比以及基尼系数等指标决定的。这些指标与当前特征值的大小自己并没有关系。

10.什么是数据不平衡，如何解决？

数据不平衡主要指的是在有监督机器学习任务中，样本标签值的分布不均匀。这将使得模型更倾向于将结果预测为样本标签分布较多的值，从而使得少数样本的预测性能降低。绝大多数常见的机器学习算法对于不平衡数据集都不能很好地工做。
解决方法：
1. 从新采样训练集
a.       欠采样 –减小丰富类的大小来平衡数据集
b.       过采样 – 增长稀有样本，经过使用重复，自举或合成少数类
2. 设计使用不平衡数据集的模型
a.       在代价函数中惩罚稀有类别的错误分类。

3、线性回归与逻辑回归

11.

12.

13.

14.

15.

4、朴素贝叶斯

1.写出全几率公式&贝叶斯公式

2.朴素贝叶斯为何“朴素naive”？

3.朴素贝叶斯有没有超参数能够调？

4.朴素贝叶斯的工做流程是怎样的？

5.朴素贝叶斯对异常值敏不敏感？

机器学习知识点整理（一）

1、特征工程

2、模型评估

3、线性回归与逻辑回归

4、朴素贝叶斯

5、集成学习

6、随机森林

7、GBDT