线性代数应该这样学9：上三角矩阵、对角矩阵

时间 2021-02-16

标签 spa get 数学 class angular 基础 lambda 方法集合栏目应用数学繁體版

原文原文链接

在本系列中，个人我的看法将使用斜体标注。因为时间关系，移除了例题部分，可参考答案连接，若有疑问，可在评论区处留言。因为文章是我独自整理的，缺少审阅，不免出现错误，若有发现欢迎在评论区中指正。spa

Part 1：上三角矩阵

本节含有许多实用性的结果，而且证实手段每每不惟一，应当认真体会一下不一样证实方法之间的异同。get

本征值的存在性 有限维非零复向量空间上，每一个算子均有本征值。数学

注意，这里并无涉及本征值的个数，也不涉及重特征值问题。class

设\(\dim V=n>0\)，\(T\in\mathcal L(V)\)。取\(v\in V\)且\(v\ne 0\)，\(n+1\)个向量\(v,Tv,\cdots,T^nv\)线性相关，故存在不全为0的实数\(a_0,a_1,\cdots,a_n\)，使得angular

\[0=a_0v+a_1Tv+\cdots+a_nT^nv. \]

若是\(a_1=\cdots=a_n=0\)，则因为\(v\ne 0\)必有\(a_0=0\)，这与线性相关矛盾。令基础

\[p(z)=a_0+a_1z+\cdots+a_nz^n, \]

由上面的分析，它不是一个常值多项式，故存在\(\lambda_1,\cdots,\lambda_m\in\mathbb{C}\)，使得lambda

\[p(z)=a_0+a_1z+\cdots+a_nz^n=c(z-\lambda_1)\cdots(z-\lambda_m) \]

因此方法

\[0=p(T)v=c(T-\lambda_1I)\cdots(T-\lambda_mI)v \]

至少存在一个\(j\)，使得\(T-\lambda_jI\)不可逆（不然容易得出\(v=0\)），故找到了\(T\)的一个本征值\(\lambda_j\)。im

习题1六、17分别利用线性映射证实本征值的存在性，下面给出证实。集合

对于\(T\in\mathcal L(V)\)，构造线性映射\(f\in\mathcal L(\mathcal P_n(\mathbb{C}),V)\)，其中\(\forall p\in\mathcal P_n(\mathbb{C})\)，有

\[f(p)=p(T)v\in V. \]

因为\(\dim\mathcal P_n(\mathbb{C})=n+1>n=\dim V\)，因此\(f\)不是单射，存在\(p\ne 0\)使得

\[p(T)v=0. \]

显然\(p(z)\)不能是非零常数，由代数基本定理，能够分解为

\[c(T-\lambda_1I)\cdots(T-\lambda_mI)=0, \]

因此存在一个\(\lambda_j\)是\(T\)的特征值。

对于\(T\in\mathcal L(V)\)，构造线性映射\(g\in\mathcal L(P_{n^2}(\mathbb{C}),\mathcal L(V))\)，其中\(\forall p\in\mathcal P_{n^2}(\mathbb{C})\)，有

\[g(p)=p(T), \]

因为\(\dim\mathcal P_{n^2}(C)=n^2+1>n^2=\dim\mathcal L(V)\)，因此\(g\)不是单射，存在\(p\ne 0\)使得

\[p(T)=0 \]

显然\(p(z)\)不能使非零常数，故依旧有如上的分解。

算子的矩阵(matrix of an operator) 设\(T\in\mathcal L(V)\)，并设\(v_1,\cdots,v_n\)是\(V\)的基，\(T\)关于该基的矩阵定义为\(\mathcal M(T)=(A_{i,k})_{n\times n}\)，其元素定义为

\[Tv_k=A_{1,k}v_1+\cdots+A_{n,k}v_k. \]

在讨论线性映射的矩阵时，为\(V,W\)都找了一组基；而进入到算子的矩阵，因为线性空间只有一个，因此只使用\(V\)的一组基，而且通常使用标准基。

矩阵的对角线(diagonal of a matrix) 方阵的对角线由位于左上角到右下角的直线上的元素组成。

上三角矩阵(upper-triangular matrix) 若是位于方阵对角线下方的元素都是0，则这个方阵称为上三角矩阵。

上三角矩阵与不变子空间之间存在联系，若\(T\in\mathcal L(V)\)，且\(v_1,\cdots,v_n\)是\(V\)的基，则如下三个说法等价：

\(T\)关于\(v_1,\cdots,v_n\)的矩阵\(\mathcal M(T)\)是上三角的。
\(\forall j=1,\cdots,n\)，\(Tv_j\in\mathrm{span}(v_1,\cdots,v_j)\)。
\(\forall j=1,\cdots,n\)，\(\mathrm{span}(v_1,\cdots,v_j)\)是\(T\)下的不变子空间。

上三角矩阵的存在性 在\(V(\mathbb{C})\)上，每一个算子\(T\in\mathcal L(V)\)均有上三角矩阵。

这个定理的实用之处在于，将特征值关联到了线性映射上。而且，书上给出的两个证实，一个基于限制算子，一个基于商算子，因为商算子咱们平时不经常使用，所以更应该注意商算子的用法。

限制算子：使用数学概括法，若\(\dim V=1\)，则结论显然成立。

现设\(\dim V>1\)，且对于全部维数比\(V\)小的复向量空间都成立这样的结论。设\(\lambda\)是\(T\)的任意本征值，\(U=\mathrm{range}(T-\lambda I)\)，则因为\(T-\lambda I\)不是满射，有\(\dim U<\dim V\)。下证实\(U\)是\(T\)下的不变子空间，\(\forall u\in U\)，有

\[Tu=(T-\lambda I+\lambda I)u=(T-\lambda I)u+\lambda u\in U. \]

故\(T|_U\)是\(U\)上的算子，由概括假设，\(U\)有基\(u_1,\cdots,u_m\)使得\(T|_U\)关于这个基有上三角矩阵，所以对每一个\(j=1,\cdots,m\)都有

\[Tu_j=T|_U (u_j)\in\mathrm{span}(u_1,\cdots,u_j). \]

将\(u_1,\cdots,u_m\)扩充成\(V\)的基\(u_1,\cdots,u_m,v_1,\cdots,v_n\)，对每一个\(k\)，都有

\[Tv_k=(T-\lambda I)v_k+\lambda v_k, \]

因为\((T-\lambda I)v_k\in U\)，\(\lambda v_k\in\mathrm{span}(v_k)\subset\mathrm{span}(v_1,\cdots,v_k)\)，因此

\[Tv_k\in\mathrm{span}(u_1,\cdots,u_m,v_1,\cdots,v_k), \]

故\(T\)关于基\(u_1,\cdots,u_m,v_1,\cdots,v_n\)有上三角矩阵。

商算子：使用数学概括法，若\(\dim V=1\)，则结论显然成立。

现设\(\dim V=n>1\)，并设对于全部\(n-1\)维复向量空间都成立这样的结论。设\(v_1\)是\(T\)的任意一个本征向量，\(U=\mathrm{span}(v_1)\)，则\(U\)是\(T\)下的不变子空间，且\(\dim U=1\)，故\(\dim V/U=n-1\)。

对\(V/U\)，由概括假设，存在一组基\(v_2+U,\cdots,v_n+U\)，使得\(T/U\)关于该基有上三角矩阵，即\(\forall j=2,\cdots,v_n\)有

\[(T/U)(v_j+U)\in\mathrm{span}(v_2+U,\cdots,v_j+U), \]

即

\[Tv_j+U=a_2v_2+\cdots+a_jv_j+U, \]

因此

\[Tv_j-(a_2v_2+\cdots+a_jv_j)=a_1v_1, \]

故

\[Tv_j\in\mathrm{span}(v_1,\cdots,v_j). \]

这就证实\(T\)关于\(v_1,\cdots,v_n\)这组基（这一组确实是基）存在上三角矩阵。

上三角矩阵与可逆性 若\(T\in\mathcal L(V)\)关于\(V\)的某个基有上三角矩阵，则\(T\)是可逆的当且仅当这个上三角矩阵对角线上的元素都不是0。

这是一个基础定理，由此能够很容易获得其余推论。

设\(v_1,\cdots,v_n\)是\(V\)的基，\(T\)关于这组基存在上三角矩阵：

\[\mathcal M(T)=\begin{pmatrix} \lambda_1 & & & * \\ \vdots & \lambda _2 & & \\ 0 & 0 & \ddots & \\ 0 & 0 & \cdots & \lambda_n \end{pmatrix}. \]

先证充分性。上面的矩阵代表\(Tv_1=\lambda_1v_1\)，因为\(\lambda_1\ne 0\)，因此\(T(v_1/\lambda_1)=v_1\)，即\(v_1\in\mathrm{range}T\)。从而

\[T(v_2/\lambda_2)=a_1v_1+v_2,\quad v_2\in\mathrm{range}T,\\ T(v_3/\lambda_3)=b_1v_1+b_2v_2+v_3,\quad v_3\in\mathrm{range}T,\\ \vdots \]

以此类推，\(v_1,\cdots,v_n\in\mathrm{range}T\)，故\(T\)是满的，等价于\(T\)是可逆的。

再证必要性。\(T\)是可逆的故\(\mathrm{null}T=\{0\}\)，因此\(Tv_1=\lambda_1v_1\ne 0\)，\(\lambda_1\ne 0\)。若是存在某个\(\lambda_j=0\)，且\(\forall k<j\)都有\(\lambda_k\ne 0\)，则

\[Tv_j\in\mathrm{span}(v_1,\cdots,v_{j-1}), \]

同时\(T\)将\(\mathrm{span}(v_1,\cdots,v_{j})\)映射到\(\mathrm{span}(v_1,\cdots,v_{j-1})\)上，即\(T\)在子空间\(\mathrm{span}(v_1,\cdots,v_{j-1})\)上不是单射，存在某个\(v\in\mathrm{span}(v_1,\cdots,v_j)\)使得\(v\ne 0\)且\(Tv=0\)，这与\(T\)的可逆性矛盾。

上三角矩阵的特征值 设\(T\in\mathcal L(V)\)关于\(V\)的某个基有上三角矩阵，则\(T\)的本征值恰为这个上三角矩阵对角线上的元素。

设\(\lambda \in\mathbb{F}\)，则

\[\mathcal M(T-\lambda I)=\begin{pmatrix} \lambda_1-\lambda & & & * \\ \vdots & \lambda _2-\lambda & & \\ 0 & 0 & \ddots & \\ 0 & 0 & \cdots & \lambda_n-\lambda \end{pmatrix}. \]

为使得\(T-\lambda I\)可逆，必有\(\lambda\)等于\(\lambda_1,\cdots,\lambda_n\)中的某一个，即\(\lambda_1,\cdots,\lambda_n\)是\(T\)的所有特征值。

Part 2：对角矩阵

对角矩阵(diagonal matrix) 对角矩阵是对角线之外的元素全是0的方阵。

若一个算子关于某个基有对角矩阵，则对角线上的元素恰为该算子的本征值。

本征空间(eigenspace) 设\(T\in\mathcal L(V)\)且\(\lambda \in \mathbb{F}\)，则\(T\)相应于\(\lambda\)的本征空间定义为

\[E(\lambda,T)=\mathrm{null}(T-\lambda I). \]

若是\(\lambda\)不是\(T\)的本征值，则\(E(\lambda,T)=\{0\}\)，反之亦然。
\(E(\lambda,T)\)是\(T\)的相对应于\(\lambda\)的全体本征向量加上\(0\)构成的集合。
\(E(\lambda,T)\)是\(V\)关于\(T\)的不变子空间，\(\forall v\in E(\lambda,T)\)，\(Tv=\lambda v\)。

本征空间的和是直和 设\(V\)是有限维的，\(T\in\mathcal L(V)\)，且\(\lambda_1\cdots,\lambda_m\)是\(T\)的互异本征值，则

\[E(\lambda_1,T)+\cdots+E(\lambda_m,T) \]

是直和，且

\[\dim E(\lambda_1,T)+\cdots+\dim E(\lambda_m,T)\le \dim V. \]

这说明，不一样本征空间是互不相交的（除了\(0\)）。这里用的是小于等于号，说明\(V\)中并不是全部向量都是特征向量。

假设\(u_j\in E(\lambda_j,T)\)，且\(u_1+\cdots+u_m=0\)。因为相应于不一样本征值的本征向量线性无关，因此\(u_j=0,\forall j\)，这说明

\[E(\lambda_1,T)+\cdots+E(\lambda_m,T) \]

是直和，天然成立下方的不等式。

可对角化(diagonalizable) 若是算子\(T\)关于\(V\)的某个基有对角矩阵，则\(T\)是可对角化的。

可对角化的算子具备很简洁的表达形式，若是要计算\(Tv\)，只要将\(v\)关于对角基分解便可。

如下说法等价：

\(T\)可对角化。
\(V\)有由\(T\)的本征向量构成的基。
\(V\)有在\(T\)下不变的一维子空间\(U_1,\cdots,U_n\)，使得\(V=U_1\oplus\cdots\oplus U_n\)。
\(V=E(\lambda_1,T)\oplus\cdots\oplus E(\lambda_m,T)\)。
\(\dim V=\dim E(\lambda_1,T)+\cdots+\dim E(\lambda_m,T)\)。

以上五点，\(1\Leftrightarrow 2\Leftrightarrow 3\)和\(4\Leftrightarrow 5\)都是显然的，下证\(2\Leftrightarrow 4\)。

先证\(2\Rightarrow 4\)，若\(V\)有\(T\)的本征向量构成的基，则显然

\[V=E(\lambda_1,T)+\cdots+E(\lambda_m,T). \]

又由于不一样本征值对应的本征空间是直和，因此

\[V=E(\lambda_1,T)\oplus\cdots\oplus E(\lambda_m,T). \]

最后证\(4\Rightarrow 2\)，在每一个\(E(\lambda_j,T)\)内取一组基，将其合在一块儿就获得\(V\)的本征向量构成的基。

本征值足够多则可对角化 若\(T\in\mathcal L(V)\)有\(\dim V\)个互异的本征值，则\(T\)可对角化。

设\(\dim V=n\)，\(\lambda_1,\cdots,\lambda_n\)是\(T\)的\(n\)个互异本征值，对应的本征向量为\(v_j\)，则这些\(v_j\)是线性无关的，因为长度为\(n\)的线性无关组是\(V\)的基，因此\(v_1,\cdots,v_j\)是\(V\)的一组基，故\(T\)可对角化。

事实上，因为不一样本征空间都是\(T\)下的不变子空间，因此将不一样本征空间的基组成整个\(V\)上的一组线性无关向量，对应的矩阵是一个对角子矩阵；进而将这个向量组扩充成一组基。