算法工程狮2、数学基础线性代数

时间 2021-02-15

标签算法函数学习 spa orm 基础变量 lambda 并行栏目应用数学繁體版

原文原文链接

线性代数内容都很连贯，总体就是 [ 行列式-->矩阵-->n维向量-->线性方程组-->类似对角型-->二次型 ]。行列式就是一个值，行列式为0则对应线性方程组有多解，且对应矩阵不可逆，若为0则解惟一。n维向量可由矩阵表示。线性方程组又可表示成n维向量的形式，有齐次和非齐次两种。
经过特征分解能够将方阵类似对角化，让矩阵的特征更直观的体现。一种有趣的思想是，矩阵能够看做一个变换，他做用在特定的正交基上，对每一个维度进行拉伸和收缩。特征分解正是获得了这个正交基（特征向量）以及相应的收放系数（特征值）。其中，实对称矩阵必定能够正交类似对角化。
二次型与解方程组息息相关。咱们一般关注的是如何将二次型转化为标准型，这里也会引伸出正定负定的概念。转化为标准型后，每个变量仅与本身相互做用，这和PCA降维很像啊。
学习线性代数我认为有两个做用。一是读论文能看懂每一步在干吗，二是理解数据的并行处理。下面补充一下比较重要的知识点。算法

1.行列式

一切都要从行列式提及。行列式$D$能够经过行列展开式计算，即$D=a_{i1}A_{i1}+a_{i2}A_{i2}+a_{i3}A_{i3}+...+a_{in}A_{in}$，其中$A=(-1)^{i+j}M_{ij}$称为代数余子式，$M$为余子式。行列式的性质包括：函数

互换两行变号
若是两行相等则$D=0$（将这两行变号后，$-D=D$）
$k\times D$等价于$D$的某一行/列乘上$k$（将行列式按此行展开，能够将k提出）
行列式某一行+另外一行后，值不变
齐次线性方程组$AX=0$若要有非0解，须要$|A|=0$，即行列式奇异，若是不为0，则线性方程组只有惟一0解。

2.矩阵

最重要的一点，只有方阵才能够讨论其行列式及可逆性。这一部分的知识点连起来很好记，注：初等变换不改变行列式是否为0
$$\begin{array}{lcl} 矩阵满秩 \\\ \Leftrightarrow行列式不为0 \\\ \Leftrightarrow矩阵非奇异 \\\ \Leftrightarrow矩阵可表示为一系列初等矩阵的乘积 \\\ \Leftrightarrow矩阵与E等价 \\\ \Leftrightarrow矩阵可逆 \\\ \Leftrightarrow方程组有惟一解 \end{array}$$
其余的知识点，以下：学习

同阶方阵$|AB|=|A||B|$
伴随阵$A\cdot A^* = A^*\cdot A = |A|E$
由伴随阵咱们也就获得了逆矩阵的求解方式之一：$A^{-1}=\dfrac{A^*}{|A|}$

3.n维向量

首先要了解线性相关：1个向量可由其他m-1个向量线性表示，称做线性相关，因此任意包含0向量的向量组均线性相关
m个n维向量若是线性相关，则秩$ r(A)_ {m\times n}<m $，当 m>n时，必定线性相关，由于 $ r(A)_ {m\times n} <=n<m $
矩阵相乘秩不会增大$r(A\cdot B)<=min\{r(A),r(B)\}$
正交阵不只要求行列正交，而且行列都是单位向量，即单位正交阵$|A|=_-^+1,AA^T=E$

4.线性方程组

m个n维向量（m个方程，n个未知变量）组成的方程组，当其系数矩阵A(m*n)的秩r(A)<n时，则其基础解系基向量有n-r个，当m小于n时，能够看做约束条件少，秩r(A)<=m<n则必定能够有基础解系，当秩r(A)=n时，只有0解。线性方程组恰好能够和数据集联系起来。每一条样本看成一个方程，当只用线性模型拟合数据集时，样本越多，表明约束越多。当样本数太多，线性模型参数解将会惟一，而当特征增多时，表明信息越多，数据集越容易线性可分，当特征数超过样本数时，其秩必定小于行数，则必定存在基础解系。其余的本身想吧。
$$\Bigg( \begin{array}{lcl} 1 \\\ 2 \\\ ... \\\ m \end{array} \Bigg)x_1+\Bigg( \begin{array}{lcl} 1 \\\ 2 \\\ ... \\\ m \end{array} \Bigg)x_2+...+\Bigg( \begin{array}{lcl} 1 \\\ 2 \\\ ... \\\ m \end{array} \Bigg)x_n=0$$
初等变换等价标准型：
$$\bold I_{m\times n}=\Bigg( \begin{array}{lcl} 1\quad\quad\space b_{1,1}\space...\space b_{1,n-r}\\\ \quad...\quad b_{2,1}\space...\space b_{2,n-r} \\\ \quad\quad 1 \space b_{r,1}\space...\space b_{r,n-r} \\\ 0 \quad...\quad 0 \quad ... \quad 0 \\\ 0 \quad...\quad 0 \quad ... \quad 0 \end{array} \Bigg)$$
对于非齐次方程$AX=b$，只有当$r(A)=r(\bar{A})$时，方程组有惟一解，后者为增广矩阵。类比于线性模型的数据集，只有当特征数>样本数时，若特征无关（PCA降维前驱），则必定线性可分，label必定能够线性表示。当特征数少于样本数时，则特征只能线性表示样本中的一类点，而不能表示所有。spa

5.类似对角型和二次型

$A\sim B:B=P^{-1}AP,|A|=|B|$
特征向量与特征值：$A\alpha=\lambda\alpha，解特征值可经过解方程(A-\lambda E)\alpha=0获得$
类似对角化：实对称矩阵必定能够类似对角化，且是正交类似
正交合同：$A=P^TBP$，能够发现，类似和正交合同必定是等价标准型，可是类似不只要求等价标准，还要求行列变换互逆；而正交合同则要求行列变换互为转置。
二次型必定能够化为标准型，由于实对称矩阵正交类似即合同
实对称矩阵正定则各阶主子式>0，则特征值全>0
二次型变换与PCA神似。都是正交基的转换，不过PCA会涉及到降维

矩阵正定

判断矩阵正定有多种方式，经常使用的就是：orm

顺序主子式>0
$A=C^TC$
合同于E
特征值全为正

6.范数

范数(norm)常常做为参数约束使用，像多任务学习中的约束项、目标函数中的权重衰减、RNN中的梯度裁剪等都会用到范数。it

向量范数

L1范数:$||W||_1$，在每一个位置的斜率相同均为1
L2范数:$||W||_2$，与总体向量相关
L2平方范数:$||W||_2^2$，每一个元素仅与自身相关，但原点处增加十分缓慢
正无穷范数:$||x||_{+\infin}=max|x_i|$
负无穷范数:$||x||_{-\infin}=min|x_i|$

矩阵范数

矩阵F范数:$||A||_ F=\sqrt{\sum\limits_ {ij}A_{ij}^2} $，相似于向量L2范数
列和范数:$||A||_ 1=\max\limits_{1\leq j\leq n}\sum\limits_{i=1}^m|a_{ij}|$
行和范数:$||A||_ \infin=\max\limits_{1\leq i\leq m}\sum\limits_{j=1}^n|a_{ij}|$
核范数:奇异值之和
L0、L1范数:相似于向量的L0和L1范数
L2范数:$||A||_2=\sqrt{\lambda max(A^TA)}$
$L_{2,1}$范数:每一列求L2范数后，再求L1范数

7.其余

对角阵

对角阵与X的矩阵乘积至关于将X的每一个元素放大了Vi倍，这个性质应该颇有用，虽然我也想不起来哪里有用
$$diag(V)\cdot X=V\bigodot X$$基础

正交阵

仍是单独点一下，实际前面类似对角化提到过了，正交阵是单位正交，矩阵的逆和矩阵的转置相同
$$A^TA=AA^T=I$$变量

$$A^{-1}=A^T$$lambda

特征分解

针对方阵咱们有特征分解可使用（前提是矩阵可逆），矩阵分解能够看做矩阵A做用于n个特征向量所组成的正交基，至关于在每一个方向$V_i$上延展了特征值$\lambda_i$倍，对正交空间拉伸或收缩。特征分解常常用于各类降维算法里面，像PCA和LDA（线性判别分析，不是潜在迪利克雷分布模型）。有一些有趣的性质须要记一下：并行

$A=Q\Lambda Q^{-1}$，前提是A有n个线性无关的特征向量，实对称矩阵必定能够类似对角化
若是A有0特征值，那么A将是奇异的。$Av=0$，因此A列向量线性相关，因此A不满秩，因此A不可逆，因此A奇异
半正定矩阵可保证$X^TAX>=0$

SVD

对于方阵有特征分解，那对于通常矩阵就可使用奇异值分解。
$$A_{m\times n}=U_{m\times m}D_{m\times n}V^T_{n\times n}\begin{cases}U:AA^T的特征向量，左奇异向量 \\\ D:A^TA的特征值的平方根，奇异值 \\\ V^T:A^TA的特征向量，右奇异向量\end{cases}$$
奇异值分解做为一种矩阵分解方法，也常常用到降维场景，像PCA，相较于特征分解的优势是：在使用右奇异向量对特征进行降维时，避免了与数据量线性相关，速度更快。
奇异值有个良好的特性，就是奇异值减少的特别快，前10%甚至前1%就占所有奇异值99%以上，所以可使用前r个奇异值描述矩阵。

理解

行列式|D|描述矩阵乘以后空间体积大小。特征值/奇异值表明在特征向量方向上缩放对应的λ倍，舍弃小的λ或δ，至关于舍弃了变换小的某一正交基向量，由于在此维度上，数据变化很是小，体现不出特征，丢弃变化小的维度至关于去噪。好比，三维空间上，X方向上的数据几乎不多变化，Z=f(X,Y)更与y相关，那么直接将X舍弃，Z=g(Y)精度也不会损失太多。
具体到PCA，$A=B^TB$，方差方向小的λ，数据不怎么变化，去掉也不要紧，当特征是相关的，协方差会很小，对应的λ小，删掉λ对应方向等于去相关，同时方差变化小，也意味着噪声方向，至关于去噪。

Moore-Penrose伪逆

奇异矩阵不可逆，那有没有办法求逆呢？答案是有的，对于$AX=y$，矩阵A的伪逆运算$A^+=\lim\limits_{\alpha\rightarrow 0}(A^T+\alpha I)^{-1}A^T$，实际中常常会用奇异值分解进行伪逆求解$A^+=VD^+U^T$。伪逆运算能够这么理解，加入正则化后，使得欠定问题可定。

当A行数<列数时，$X=A^+y$是$||x||_2$最小的一个
当行数>列数时，可能无解，有解时获得的x使得$||AX-y||_2$最小

能够看出，这就是正则化的做用。

迹运算

迹运算就是对角线元素的乘积。最有用的一条性质是：$||A||_F=\sqrt{Tr(AA^T)}$

行列式

算法工程狮2、数学基础 线性代数