机器学习笔记（一）----基本概念

时间 2019-11-13

标签机器学习笔记基本概念繁體版

原文原文链接

好记性不如烂笔头，打算以博客连载的方式把最近机器学习的一些学习笔记记下来，机器学习涉及的知识点不少，时间一长很容易遗忘，写在博客上也方便本身随时查阅及复习。学习笔记偏重实用工程，尽可能不涉及复杂的数学推导。网络

机器学习分类
-- 监督学习：训练数据中带有标记（分类、回归）；机器学习

-- 无监督学习：训练数据中无标记（聚类、异常检测、密度分析）；性能

-- 半监督学习：训练数据中带有少许标记（分类、回归）；学习

-- 强化学习：经过状态空间的大量试错学习达成最佳决策（决策）；测试

-- 深度学习：利用多层神经网络进行监督、无监督或是强化学习的方法（分类、回归、聚类）。3d

数据划分
-- 留出法：直接将数据集D划分为两个互斥的集合，一个集合做为训练集S，另外一个做为测试机T。blog

-- 交叉验证法：将数据集D划分为k个大小相同的互斥子集，每次用k-1个子集做为训练集，余下的做为测试集，可进行k次训练和验证，最后取测试结果的均值。深度学习

-- 自助法：有m个样本的数据集D，每次随机从D中挑选一个样本放入D‘，再把此样本放回D中，重复执行m次后，获得训练数据集D’。约有1/3的数据没在训练数据中出现过，用于包外估计。（数据集较小时使用效果较好）博客

模型评估
泛化能力：指模型对未知数据的预测能力。数学

-- 泛化偏差：误差、方差、噪声之和。

-- 过拟合：模型在训练及上表现很好，但在未知数据上不能很好的预测。

-- 欠拟合：模型在训练集和测试集上都不能很好的预测。

性能度量指标：

-- 均方偏差：m个样本的方差的平均数，均方偏差小的模型性能好，主要用于回归。

-- 错误率：分类错误的样本占样本总数的比例。

-- 精度：分类正确的样本占样本总数的比例。

-- 查准率：真正例样本数（TP）和预测结果是正例的样本数（TP（真正例数）+FP（假正例数））的比值。

-- 查全率（召回率）：真正例样本数（TP）和真实正例样本数（TP（真正例数）+FN（假反例数））的比值。

-- P-R图：以查全率作x轴，查准率作y轴的平面图。判断模型优劣的两种方式：一、平衡点（查全率=查准率时的取值）更大的性能更好；二、曲线没有交叉的状况下，被“包住”的曲线模型性能弱于外侧的模型，以下图，A模型优于C模型。

-- 混淆矩阵：用在分类问题中的NxN矩阵，N为分类的个数。以下图猫、狗、兔子的三分类系统，每一列表明预测值，每一行表明实际值，对角线两边的都是预测错误的，从混淆矩阵中能够很直观地发现问题在哪里。

-- ROC和AUC：ROC（受试者工做特征曲线）以假正例率为x轴，真正例率为y轴，AUC是ROC曲线下的面积，面积越大分类效果越好（真正例率越高，假正例率越低越好）。

误差（Bias）：反映的是模型在样本上的输出与真实值之间的偏差,即模型自己的精准度，高误差，即为欠拟合。

方差（Variance）：反映的是一样大小的训练集的变更致使的学习性能的波动，即刻画了数据扰动所形成的影响，即模型的稳定性。高方差，即为过拟合。模型复杂度和误差、方差的关系以下图，随着模型复杂度增大，误差减少，方差变大，预测错误率在模型复杂度到达必定程度后，反而会增大，误差和方差从某种程度上说是一对矛盾体，很难作到误差和方差都很低，只能从误差、方差和模型复杂度中找到一个平衡点。