【Google 机器学习笔记】三、深入了解机器学习

【Google 机器学习笔记】

三、深入了解机器学习

本节主要介绍线性回归以及训练(Train)损失(Loss)


  • 线性关系:两个变量之间存在一次方函数关系,就称它们之间存在线性关系。例如,对于:
    y = m x + b y=mx+b 我们称 x x y y 之间存在线性关系。
    在ML中,线性关系的模型方程式一般表示如下:
    y = w 1 x 1 + b y'=w_1x_1+b
  • y y' :预测标签(理想输出值)。
  • w 1 w_1 :特征 1 的权重。权重与上面 m m 表示的斜率概念相同。
  • x 1 x_1 :特征(已知输入项)。
  • b b :偏差(y 轴截距)。在一些机器学习文档中,它成为 w 0 w_0

  可以用多个特征来表示更复杂的模型。例如,具有n个特征的线性关系模型可以采用以下方程式:
y = b + w 1 x 1 + w 2 x 2 + + w n x n n N + y'=b+w_1x_1+w_2x_2+…+w_nx_n,n\in\mathbb{N_+}


  • 训练【Train】:简单来说,训练模型表示通过有标签样本来学习(确定)所有权重和偏差的理想值。在监督式学习中,机器学习算法通过以下方式构建模型:检查多个样本并尝试找出可最大限度地减少损失的模型;这一过程称为经验风险最小化

  • 损失【Loss】:一个数值,表示对于单个样本而言模型预测的准确程度。如果模型的预测完全准确,则损失为零,否则存在损失。(因而训练模型的目标是从所有样本中找到一组平均损失“较小”的权重和偏差。
    关于损失的理解,可以用下图来表示:
    LossSideBySide

    红色箭头表示损失,蓝线表示预测。

    可以看到,左侧模型的损失较大,而右侧模型的损失较小。

  • 如何衡量损失?
    衡量损失的方法有很多,这里列举几个比较常用的函数:L1损失函数L2损失函数均方误差(MSE)……
    L1损失函数:也被称为最小绝对值偏差(LAD),最小绝对值误差(LAE)。公示表示如下,其中 y y 表示真实标签:
    L 1 = i = 1 n y y L_1=\sum_{i=1}^n|y-y'|
    L2损失函数:也被称为最小平方误差(LSE),平方损失。公示表示如下:
    L 2 = i = 1 n ( y y ) 2 L_2=\sum_{i=1}^n(y-y')^2
    均方误差 (MSE):指的是每个样本的平均平方损失。要计算 MSE,先求出各个样本的所有L2损失之和,然后除以样本数量:
    M S E = 1 n i = 1 n ( y y ) 2 = 1 n L 2 MSE=\frac 1n\sum_{i=1}^n(y-y')^2=\frac 1nL_2


上一篇:【Google 机器学习笔记】二、机器学习主要术语 下一篇:【Google 机器学习笔记】四、降低损失(勤奋一点的话预计15-17号更新,懒得话……)