注: 本文总结得内容来源比较杂, 主要方便我的对知识的深度理解, 基本上看<深度学习>这本书中遇到的线性代数方面比较模糊的概念都会随时掌握并补充到下文中.python
一个标量就是一个单独的数,通常用小写的的变量名称表示。算法
一个向量就是一列数,这些数是有序排列的:数组
$$ \begin{bmatrix} x_1\\ x_2\\ ...\\ x_5 \end{bmatrix} $$网络
矩阵是二维数组:框架
$$ \begin{bmatrix} a_{11}& a_{12}& ...& a_{1n}& \\ a_{21}& a_{22}& ...& a_{2n}& \\ ...& ...& & ...& \\ a_{m1}& a_{m2}& ...& a_{mn}& \end{bmatrix} $$机器学习
多维数组中元素分布在若干位坐标的规则网络中, 称之为张量. 几何代数中定义的张量是基于向量和矩阵的推广,通俗一点理解的话,咱们能够将标量视为零阶张量,矢量视为一阶张量,那么矩阵就是**ide
张量在深度学习中是一个很重要的概念,由于它是一个深度学习框架中的一个核心组件,后续的全部运算和优化算法几乎都是基于张量进行的。函数
主对角线: 矩阵从左上角到右下角的对角线称为主对角线.矩阵的转置是指以主对角线为轴的镜像.
令矩阵$\mathbf{A}$的转置表示为$\mathbf{A}^T$, 则定义以下:
$$(\mathbf(A)^T)_{i,j}=A_{i,j}$$
Tips:
向量是单列矩阵, 向量的转置是单行矩阵. 标量可看作单元素矩阵, 所以标量的转置是它自己: $a=a^T$.工具
矩阵加法定义: $\mathbf{C}=\mathbf{A}+\mathbf{B}$学习
在深度学习中, 容许矩阵和向量相加, 产生一个新的矩阵, 简写为:$\mathbf{C}=\mathbf{A}+\mathbf{b}$, 表示向量$\mathbf{b}$和矩阵$\mathbf{A}$的每一行都相加. 这种隐式地幅值向量$\mathbf{b}$到不少位置的方式成为广播.
分配律: $\mathbf{A(B+C)}$
结合律: $\mathbf{A(BC)=(AB)C}$
矩阵乘积不知足交换律: $\mathbf{AB\neq{BA}}$
向量点积知足交换律: $\mathbf{x^Ty=y^Tx}$
乘积的转置: $\mathbf{(AB)^T=B^TA^T}$
主对角线元素都是1, 其他位置全部元素都是0的矩阵:
$$ \begin{pmatrix} 1& 0& 0 \\ 0& 1& 0 \\ 0& 0& 1 \end{pmatrix} $$
咱们将n维向量不变的单位矩阵即为$\mathbf{I_n}$:
$$\forall \mathbf{x} \in R^n, \mathbf{I_nx = x}, 其中\mathbf{I_n \in R^{nxn}}$$
矩阵逆是强大的工具, 对于大多数矩阵, 均可以经过矩阵逆解析求$\mathbf{Ax=b}$的解.
矩阵$\mathbf{A}$的矩阵逆记做: $\mathbf{A^{-1}}$, 矩阵逆知足以下条件:
$$\mathbf{A^{-1}A=I_n}$$
设A是n阶方阵,若是存在数$\lambda$和非零n维列向量$\vec x$,使得 $A\vec x=\lambda \vec x$ 成立,则称$\lambda$ 是矩阵A的一个特征值, $\vec x$称为矩阵A的特征向量.
$Ax=λx$也能够写成: $(A-λE)X=0$, 这是n个未知数n个方程的齐次线性方程组,它有非零解的充分必要条件是系数行列式$|A-λE|=0$:
$|A-λE|=0$是一个n次代数方程,称为A的特征方程, |λE-A|=0的根称为A的特征根(或特征值)
以A的特征值$λ_0$代入$(λE-A)X=θ$,得方程组($λ_0E-A)X=θ$,是一个齐次方程组,称为A的关于$λ_0$的特征方程组.
由于$|λ_0E-A|=0$,$(λ_0E-A)X=θ$必存在非零解$X^{(0)}$,$X^{(0)}$称为A的属于$λ_0$的特征向量。
举例, 求矩阵$\begin{pmatrix} 1 & -3 & 3 \\ 3 & -5 & 3 \\6 & -6 & 4 \end{pmatrix}$的特征值与特征向量.
解:
特征向量的性质:
矩阵X只有是方阵, 若列向量线性相关, 则成该方阵X是奇异的.
对角矩阵是一个主对角线以外的元素皆为0的矩阵:
$$ \begin{pmatrix} \lambda_1 & & &\\ & \lambda_2 & &\\ & & \ddots &\\ & & & \lambda_n \end{pmatrix} $$
对角矩阵能够记做: $A=diag(\lambda_1,\lambda_2,...,\lambda_n)$
若n阶方阵A与对角矩阵类似,则称A为可对角化矩阵, 即, 对于n阶方阵A,若存在可逆矩阵P, 使其为对角阵,则称方阵A可对角化。
若矩阵可对角化,则可按下列步骤来实现:
(1) 求出的所有特征值;
(2)对每个特征值,设其重数为k,则对应齐次方程组的基础解系由k个向量构成,即为对应的线性无关的特征向量;
(3)上面求出的特征向量刚好为矩阵的各个线性无关的特征向量。
推论:
判断两个矩阵是否类似的辅助方法(必要条件非充要条件):
若是$AA^T=E$(E为单位矩阵,$A^T$表示“矩阵A的转置矩阵”),则n阶实矩阵A称为正交矩阵。
若是A为正交阵, 则:
问:
为何实对称矩阵的类似对角化要用正交矩阵?
答: 对称矩阵也能够用通常的由特征向量组成的非奇异阵作对角化,只不过它有特殊的性质(对称),所以咱们就能够考虑特殊的对角化,也就是正交类似对角化。这么作有好处:正交矩阵的逆矩阵很容易求,就是它的转置,不像通常的可逆阵须要半天才能求出来。你想一想,若是是一个1000*1000的矩阵求逆,那要多长时间才能作完?但正交矩阵就太容易了,只要转置一下就好了。
设A,B为n阶矩阵,若是有n阶可逆矩阵P存在,使得$P^{-1}AP=B$, 则称矩阵A与B类似,记为$A\sim B$。
性质:
定理:
对称矩阵转置后与原矩阵相等, 对称元素都相等,也就是$A(x,y)=A(y,x)$, 所以不难看出其中一个必要条件是矩阵必须知足是n阶方阵.
实对称矩阵的特性:
结论:若是不作正交单位话,咱们同样能够经过U(把特征向量按照列写成的矩阵),把一个实对称矩阵对角化为以它的特征值为对角元的对角矩阵。
咱们知道,对应一个特征值的特征向量乘以任何一个非零的系数,仍然仍是对应着这个特征值的特征向量,若是一个特征值对应多个特征向量,那在它们张成的空间里找出一样数量的线性不相关的向量,也都是这个特征值的特征向量,因此说特征向量并不惟一,也就是说这里的U是不惟一的。
而对于一个实对称矩阵,它的属于不一样特征值的特征向量天生就是正交的,这使得咱们只要在每一个特征值内部选取合适的互相正交的特征向量,就能保证全部的特征向量都正交。而咱们刚刚说过,特征向量乘以一个系数,仍然仍是特征向量。因此,对于实对称矩阵来讲,咱们彻底能够在诸多的U中选出一个特殊的Q,让Q的每个列向量都互相正交并且长度为1。这时咱们就惊喜的发现,这样的至关于由一组标准正交基当作列向量组成的矩阵Q,正是一个正交矩阵。
因而,咱们就清楚的知道了,对实对称矩阵对角化的时候,正交单位化不是必须的,只有当咱们想在实对称矩阵的诸多U里选取一个正交矩阵Q时,才须要作。正交矩阵有不少很好的性质,因而乎想从U里找到一个Q也变得情有可原了不是?
$$X\cdot \vec{b} = \vec{y}$$
X 中各个列向量乘以对应的系数之和: $$\sum_{i}b_i x^{(i)}$$
X中的原始向量线性组合后能抵达的点的集合. 肯定上述方程是否有解至关于肯定向量$\vec{y}$ 是否在X 的列向量的生成子空间中.
矩阵X可逆时解为$\vec b = X^{-1}\cdot y$ , 然而矩阵可逆是一个十分苛刻的条件,X 的列空间构成整个m维欧式空间$R^m$, 若$X\cdot \vec{b} = \vec{y}$对于每个y值最多有一个解, 则X矩阵至多有m个列向量.
所以, 矩阵X只有是方阵且全部列向量都是线性无关的时候才知足要求, 若列向量线性相关, 则成该方阵X是奇异的.
这里引出了线性模型的基本模型: $$X\cdot \vec{b} = \vec{y}$$
X可逆时 ,咱们能够直接对两边求逆, 获得线性模型的惟一解:
$$\vec b = X^{-1}\cdot y$$
然而,样本特征组成的矩阵X每每是不可逆的, 即X每每不是方阵, 或者是奇异的方阵.
正由于在现实世界里, 直接对矩阵求逆来获得惟一解 $\vec{b}$ 几乎是不可能的, 因此咱们才会退而求其次, 用最小化偏差来逼近惟一解, 这叫作松弛求解.
求最小化偏差的通常方法是求残差的平方和最小化, 这也就是所谓的线性最小二乘法.
在机器学习中, 一般用范数来衡量一个矩阵的大小, $L^p$范数公式: $$||x||_p = \left( \sum_i|x_i|^p \right)^\frac 1 p$$
注意抓重点: 范数在机器学习中是用来衡量一个向量的大小.
是将向量映射到非负值的函数. 简单来说, 向量$\vec x$的范数是原点到$\vec x$的距离. 这里之因此介绍范数, 是由于它涉及到机器学习中很是重要的正则化技术.
$p = 2$时, $L^2$称为欧几里得范数(Euclidean norm), 表示原点到向量$\vec x$的欧氏距离, $L^2$范数一般简写为$||x||$ , 它很是频繁地出如今机器学习中. 此外, 平方$L^2$范数$\left(||x||\right)^2$也常常用来衡量向量的大小, 能够简单地用点积$\left( \vec x \right)^\top \cdot \vec x$计算.
$L^2$范数: $$||x||_2 = (\sum_i|x_i|^2)^\frac 1 2 $$
平方$L^2$范数: $$ ||x|| = \sum_i|x_i|^2$$
$L^1$范数: $$ ||x||_1 = \sum_i|x_i| $$
Frobenius范数: $$||A||_F=\sqrt{\sum_{i,j}{A_{i,j}}^{2}}$$
关于范数, 注意如下几点:
在机器学习中, $L^2$和$L^1$范数分别对应$L^2$和$L^1$正则化, 详情参考线性模型中的岭回归(Ridge Regression)和套索回归(Lasso).
非方阵方程,其逆矩阵没有意义. 假设要求解线性方程
$$\vec{A} \cdot x = \vec{y}$$
等式两边左乘左逆$\vec{B}$后: $$x = \vec{B}y$$
是否存在惟一映射, 将$\vec{A}$映射到$\vec{B}$取决于问题形式:
伪逆能够解决上述问题. 矩阵A的伪逆定义为:
$$\lim_{a \searrow 0}(\vec{A^T}\vec{A} + \alpha \vec{I})^{-1}\cdot\vec{A^T}$$
违逆计算的简化公式为:
$$\vec{A^+} = \vec{V}\vec{D^+}\vec{U^T}$$
其中, 矩阵U, D, V是矩阵A的奇异值分解后的特殊矩阵, 其中$\vec{U}$和$\vec{V}$都是正交矩阵, $\vec{D}$为对角矩阵(不必定是方阵). 对角矩阵D的伪逆$\vec{D^+}$是非零元素取倒数后再转置获得的.奇异值分解称为SVD(Singular Value Decomposition).
也称为城市街区距离,数学定义以下:
$$ d=\sum_{k=1}^n|x_{1k}-x_{2k}| $$
曼哈顿距离的Python实现:
from numpy import * vector1 = mat([1,2,3]) vector2 = mat([4,5,6]) print sum(abs(vector1-vector2))
前面提到过, 欧氏距离就是$L_2$范数, 定义以下:
$$ d = \sqrt{\sum_{k=1}^n(x_{1k}-x_{2k})^2} $$
欧氏距离的Python实现:
vector1 = np.mat([1,2,3]) vector2 = np.mat([4,5,6]) print np.sqrt((vector1-vector2)*(vector1-vector2).T)
上述两种距离的更通常形式, 完整的定义以下:
$$ d = \sqrt[p]{\sum_{k=1}^n(x_{1k}-x_{2k})^p} $$
即前面提到过的无穷范数$L^\infty$范数, 数学表达式:
$$ d=max(|x_{1k}-x_{2k}|) $$
Python实现以下
from numpy import * vector1 = mat([1,2,3]) vector2 = mat([4,5,6]) print sqrt(abs(vector1-vector2).max)
用来衡量两个向量方向的差别, 夹角余弦越大,表示两个向量的夹角越小
机器学习中用这一律念来衡量样本向量之间的差别,其数学表达式以下:
$$cos\theta=\frac{AB}{|A||B|}=\frac{\sum_{k=1}^{n}x_{1k} \cdot x_{2k}}{\sqrt{\sum_{k=1}^{n}x_{1k}^2}\cdot\sqrt{\sum_{k=1}^{n}x_{2k}^2}}$$
python实现:
from numpy import * vector1 = mat([1,2,3]) vector2 = mat([4,5,6]) print dot(vector1,vector2)/(linalg.norm(vector1)*linalg.norm(vector2))
表示两个字符串中不相同位数的数目, 例如:字符串‘1111’与‘1001’之间的汉明距离为2.
信息编码中通常应使得编码间的汉明距离尽量的小.
python实现:
from numpy import * matV = mat([1,1,1,1],[1,0,0,1]) smstr = nonzero(matV[0]-matV[1]) print smstr
杰卡德类似系数: 两个集合A和B的交集元素在A和B的并集中所占的比例称为两个集合的杰卡德类似系数,用符号$J(A,B)$表示.
数学表达式:
$$J(A,B)=\frac{\left | A \bigcap B \right |}{\left | A \bigcup B \right |}$$
杰卡德距离: 用杰卡德类似系数来描述, 用符号$J_\sigma$表示.
数学表达式:
$$J_\sigma=1-J(A,B)=\frac{\left | A \bigcup B \right | - \left | A \bigcap B \right |}{\left | A \bigcup B \right |}$$
Python实现:
from numpy import * import scipy.spatial.distance as dist matV = mat([1,1,1,1],[1,0,0,1]) print dist.pdist(matV,'jaccard')
许多数学对象能够经过将它们分解成多个组成部分。特征分解是使用最广的矩阵分解之一,即将矩阵分解成一组特征向量和特征值。
方阵A的特征向量是指与A相乘后至关于对该向量进行缩放的非零向量$\nu$:
$$A\nu =\lambda \nu$$
标量$\lambda$被称为这个特征向量对应的特征值。
使用特征分解去分析矩阵A时,获得特征向量构成的矩阵V和特征值构成的向量$\lambda$,咱们能够从新将A的特征分解记做:
$$ A=Vdiag\left( \lambda \right) V^{-1} $$
每一个实对称矩阵均可以分解成实特征向量和实特征值: $ A=Q \Lambda Q^T$
$Q$ 是$A$的特征向量组成的正交矩阵,$Λ$ 是对角矩阵
任意一个实对称矩阵 A 都有特征分解,可是特征分解可能并不惟一.
矩阵是奇异的当且仅当含 有零特征值.
正定矩阵: 全部特征值都是正数的矩阵.
负定矩阵: 全部特征值都是负数的矩阵.
半正定矩阵: 全部特征值都是非负数的矩阵.
下图展现了特征值和特征向量的做用效果:
在上图中,矩阵 $A$ 有两个标准正交的特征向量,对应特征值为$λ_1$ 的 $v^(1)$ 以及对应特征值为 $λ2$ 的 $v^(2)$。(左) 我 们画出了全部的单位向量 $u ∈ R2$ 的集合,构成一个单位圆。(右) 咱们画出了全部的 $Au$ 点的集 合。经过观察 $A$ 拉伸单位圆的方式,咱们能够看到它将 $v^(i)$ 方向的空间拉伸了 $λ_i$ 倍.
除了特征分解,还有一种分解矩阵的方法,被称为奇异值分解(SVD)。将矩阵分解为奇异向量和奇异值。经过奇异分解,咱们会获得一些相似于特征分解的信息。然而,奇异分解有更普遍的应用。
每一个实数矩阵都有一个奇异值分解,但不必定都有特征分解。例如,非方阵的矩阵没有特征分解,这时咱们只能使用奇异值分解。
奇异分解与特征分解相似,只不过这回咱们将矩阵A分解成三个矩阵的乘积:
$$A=UDV^{T}$$
假设A是一个 $m\times n$ 矩阵,那么U是一个 $m\times m$ 矩阵,D是一个 $m\times n $矩阵,V是一个 $n\times n $ 矩阵。
这些矩阵每个都拥有特殊的结构,其中U和V都是正交矩阵,D是对角矩阵(注意,D不必定是方阵)。对角矩阵D对角线上的元素被称为矩阵A的奇异值。矩阵U的列向量被称为左奇异向量,矩阵V 的列向量被称右奇异向量。
SVD最有用的一个性质多是拓展矩阵求逆到非方矩阵上。另外,SVD可用于推荐系统中。