机器学习概念区分(一)性能度量 vs 损失函数

1.机器学习的三要素就是:表示,评估和优化。

(1)表示:

样本空间映射到一个合适的特征空间,通常地,咱们更青睐于这样的表示是低维度的,是更加稀疏交互的,同时也但愿是相互独立的。【从大量特征挑出好的特征,降维】html

让机器来学习怎样表示,就是表示学习。机器学习

(2)评估:

模型在数据上表现量化形式,咱们选取合适的函数来表示什么样子的模型是好的性能度量就是评估。【用来评价模型好坏的函数】ide

(3)优化:

前两步都完成后,最后要作的就是优化,就是对评估函数进行求解,找出最合适的解,来肯定最终的模型。函数

2.性能度量

性能度量(performance measure)是关于真实值和预测值的关系。真实值与预测值越接近,或者说真实的分布与预测分布越接近,性能越好。性能

(1)回归问题的性能度量:

均方偏差(mean squared error,MSE),均方根偏差(RMSE),平均绝对偏差(MAE),均方对数偏差(MSLE),均方根对数偏差(RMSLE),学习

绝对偏差(absolute Loss),决定系数(coefficient of determination )以及Huber Loss。测试

(2)分类问题的性能度量:

准确率,错误率,优化

获得混淆矩阵,进一步获得查准率(precision)、查全率(recall)以及P-R曲线和ROC曲线。spa

 

3.损失函数

(1)损失函数、代价函数、目标函数

损失函数(Loss Function)

    是定义在单个样本上的,是指一个样本的偏差,度量模型一次预测的好坏。.net

    \LARGE L(Y,f(X))

代价函数(Cost Function)

    又叫成本函数,经验风险(empirical risk)【局部】基于训练集全部样本损失函数的平均最小化。经验风险是局部最优,是现实的可求的。

    仅仅经验风险最小化是不行的,这样容易致使过拟合,咱们不只要让经验风险最小化,还要考虑模型复杂度,让结构风险最小化。

    \LARGE \frac{1}{n}\sum_{i=1}^{n}L(Y,f(X))               [公式] 

目标函数(Object Function)

    是指最终须要优化的函数,就是结构风险=经验风险+正则项(惩罚项)。【按照李航《统计xx》,结构风险=目标函数(多数)】

    \large R_{srm}=\frac{1}{n}\sum_{i=1}^{n}L(y_{i},f(x_{i})))+\lambda J(f)

    正则项:定义了一个函数 [公式] ,这个函数专门用来度量模型的复杂度,在机器学习中也叫正则化(regularization)。经常使用的有 [公式] , [公式] 范数。

目标函数和代价函数区别(通俗

    目标函数是最大化或者最小化,而代价函数/经验风险是最小化。

(2)指望风险、经验风险、结构风险

(3)广义上的损失函数

我的理解:广义上,或者人们习惯上,人们所说的损失函数实际上是“代价函数”。或者提到上述三者中的任一个都叫损失函数。

损失函数用于衡量模型拟合的程度,越小就表明拟合得越好。

(4)损失函数知足条件

损失函数必须连续

 

(5)为何既要有损失函数,也有要性能评估呢?

损失函数(Loss function)也与性能度量相似,真实值与预测值差异越大,Loss越大,咱们的优化的目标就是减少Loss。从评估的角度来讲,损失函数和性能度量所起到的做用是相同的,那么咱们为何既要有损失函数,也有要性能评估呢?

事实上,常见的均方偏差既能够被看成性能度量,同时也是回归问题的损失函数。

但在更多的问题中,咱们会发现,咱们每每会为了减少模型的错误率并不直接优化错误率而是会优化另外一个函数

好比在logistic回归中,咱们会优化对数似然,在SVM中,咱们会优化hinge loss,在adaboost中会优化指数损失

(6)损失函数:学习vs评估

【与(5)应该是同一个问题,评估中的损失函数就是(5)的性能评估,学习中的损失函数就是(5)的损失函数】

统计学习的目的,模型对未知数据都能有很好的预测能力。
当损失函数给定时,基于损失函数的模型的训练偏差(training error)和模型的测试偏差(test error)就天然成为学习方法评估的标准。
统计学习中采用的损失函数未必是评估时使用的损失函数。二者一致是比较理想的。

 

 

 

参考:

https://baijiahao.baidu.com/s?id=1611678624768980723&wfr=spider&for=pc

https://blog.csdn.net/Vici__/article/details/101927918?utm_medium=distribute.pc_relevant.none-task-blog-baidulandingword-6&spm=1001.2101.3001.4242

相关文章
相关标签/搜索