矩阵范数及其求导

时间 2019-11-18

标签矩阵及其栏目应用数学繁體版

原文原文链接

在机器学习的特征选择中，利用选择矩阵的范数对选择矩阵进行约束，便是正则化技术，是一种稀疏学习。机器学习

矩阵的L0, $L_{1}$

$L_{1}$ 函数

$L_{1}$ 学习

$L_{1}$ 测试

$L_{1}$ 优化

矩阵的L2 $L_{1}$

L2范数，又叫“岭回归”（Ridge Regression）、“权值衰减”（weight decay）。它的做用是改善过拟合。过拟合是：模型训练时候的偏差很小，可是测试偏差很大，也就是说模型复杂到能够拟合到全部训练数据，但在预测新的数据的时候，结果不好。atom

L2范数是指向量中各元素的平方和而后开根。咱们让L2范数的规则项||W||₂最小，可使得W的每一个元素都很小，都接近于0。而越小的参数说明模型越简单，越简单的模型则越不容易产生过拟合现象。spa

L1是绝对值最小，L2是平方最小：L1会趋向于产生少许的特征，而其余的特征都是0，而L2会选择更多的特征，这些特征都会接近于0。.net

矩阵的 $L_{2, 1}$

而为了进一步说明矩阵的稀疏性，来讲明特征选择中矩阵 $L_{2, 1}$ orm

在特征选择中，经过稀疏化的特征选择矩阵来选取特征，即至关因而一种线性变换。视频

对于特征选择矩阵 $W$

这即是矩阵的 L 2, 1

那么，在线性学习模型，损失函数如：

在优化中，矩阵的范数该如何求导？关于矩阵的F范数求导，能够参考矩阵的 Frobenius 范数及其求偏导法则（https://blog.csdn.net/txwh0820/article/details/46392293）。而矩阵 $L_{2, 1}$

对于一个矩阵 $W = [w_{1}, \dots, w_{d}]^{T}$

$W = [w_{1}, \dots, w_{d}]^{T}$

那么 $L_{2, 1}$ ：

矩阵通常化 $L_{2, P}$

就矩阵通常化 $L_{2, P}$

$L_{2, P}$

矩阵的核 $L_{1}$

$L_{1}$

$L_{1}$ $L_{1}$

$L_{1}$

$L_{1}$

$L_{1}$

$L_{1}$

与经典PCA问题同样，Robust PCA本质上也是寻找数据在低维空间上的最佳投影问题。对于低秩数据观测矩阵X，假如X受到随机（稀疏）噪声的影响，则X的低秩性就会破坏，使X变成满秩的。因此就须要将X分解成包含其真实结构的低秩矩阵和稀疏噪声矩阵之和。找到了低秩矩阵，实际上就找到了数据的本质低维空间。PCA假设数据的噪声是高斯的，对于大的噪声或者严重的离群点，PCA会被它影响，致使没法正常工做。而Robust PCA则不存在这个假设，它只是假设噪声是稀疏的，而无论噪声的强弱如何。

因为rank和L0范数在优化上存在非凸和非光滑特性，因此通常将它转换成求解如下一个松弛的凸优化问题：

具体应用：考虑同一副人脸的多幅图像，若是将每一副人脸图像当作是一个行向量，并将这些向量组成一个矩阵的话，那么能够确定，理论上，这个矩阵应当是低秩的。可是，因为在实际操做中，每幅图像会受到必定程度的影响，例如遮挡，噪声，光照变化，平移等。这些干扰因素的做用能够看作是一个噪声矩阵的做用。因此能够把同一我的脸的多个不一样状况下的图片各自拉长一列，而后摆成一个矩阵，对这个矩阵进行低秩和稀疏的分解，就能够获得干净的人脸图像（低秩矩阵）和噪声的矩阵了（稀疏矩阵），例如光照，遮挡等等。

矩阵的迹 $L_{1}$

$L_{1}$

令p = 1 ，获得迹范数：

本文为本身学习过程当中对其余资源的学习整理而得的学习笔记，内容源自：https://blog.csdn.net/lqzdreamer/article/details/79676305；https://blog.csdn.net/zchang81/article/details/70208061；https://blog.csdn.net/lj695242104/article/details/38801025

矩阵范数及其求导

矩阵的L0,L1范数

矩阵的L2范数

矩阵的L2,1范数

矩阵通常化L2,P范数的求导

矩阵的核范数Nuclear Norm

矩阵的迹范数Trace Norm

矩阵的L0, $L_{1}$

矩阵的L2 $L_{1}$

矩阵的 $L_{2, 1}$

矩阵通常化 $L_{2, P}$

矩阵的核 $L_{1}$

矩阵的迹 $L_{1}$