Skip to content

10 相似标准形

相似描述的是同一个线性变换在不同基下的矩阵(不同于相抵出发空间和到达空间不一定相同,且即便相同也未必取到同一组基),研究的是线性变换本身. 目标是找到所有在任意一组基下描述同一个线性变换的矩阵中最简单的一个(相似标准形 —— 理想情况下矩阵可对角化,标准形为对角矩阵;普遍情况下为若当标准形),并用这个最简单的代表元把所有该空间的线性变换分类,发现线性变换由特征结构决定.

相似的定义与性质

回顾定理:基的选择对变换矩阵的影响

设线性变换 \(\sigma \in \mathcal{L}(V, V )\)\(B_1 = \{\alpha_1, \dots , \alpha_n\}\)\(B_2 = \{\beta_1, \dots , \beta_n\}\) 是线性空间 \(V (F)\) 的两组基,基 \(B_1\) 变为基 \(B_2\) 的过渡矩阵为 \(C\). 如果 \(\sigma\) 在基 \(B_1\) 下的矩阵为 \(A\),则 \(\sigma\) 关于基 \(B_2\) 所对应的矩阵为 \(C^ {−1}AC\).

定义:相似与相似标准形

若对于 \(A, B \in M_n(F)\),存在可逆矩阵 \(C \in M_n(F)\), 使得 \(C ^{−1}AC = B\),则称 \(A\) 相似于 \(B\),记作 \(A \sim B\).

因此从矩阵的角度出发,我们的目标是找到一个可逆矩阵 \(P\),使得 \(P^{-1}AP\) 是“比较简单”的。或者说,我们的目标是找到一个与 \(A\) 相似的“比较简单”的矩阵 \(B\),这样合乎要求的矩阵 \(B\) 就是我们所谓的矩阵 \(A\)相似标准形.

相似的基本性质
  1. 相似是一种等价关系;两矩阵相似必相抵(相似矩阵的秩相等),反之不一定成立;
  2. \(A \sim B\) 可以得到 \(A^T \sim B^T\)\(A^m \sim B^m\). 更一般地,对于任意多项式 \(f(x)\) 都有 \(f(A) \sim f(B)\),且若 \(B = P ^{−1}AP\),有 \(f(B) = P ^{−1}f(A)P\). 除此之外还有 \(A, B\) 可逆时,\(A^{−1} \sim B^{−1},A^∗ \sim B^∗\)
  3. \(A_1 \sim B_1,A_2 \sim B_2\) 不一定有 \(A_1+A_2 \sim B_1+B_2\),只有当 \(P ^{−1}A_1P = B_1, P ^{−1}A_2P = B_2\) 时(即相同的过渡矩阵 \(P\) )才有 \(P ^{−1} (A_1 + A_2)P = B_1 + B_2\)
  4. \(A_1 \sim B_1\)\(A_2 \sim B_2\),则有
\[ \begin{pmatrix} A_1 & O \\ O & A_2 \end{pmatrix} \sim \begin{pmatrix} B_1 & O \\ O & B_2 \end{pmatrix}; \]
  1. 与数量矩阵相似的为其自身,与幂等矩阵相似的仍幂等,与对合矩阵相似的仍对合,与幂零矩阵相似的仍幂零,与正交矩阵正交相似(过度矩阵是正交矩阵)的仍正交(但与正交矩阵相似的不一定正交).

不变子空间

定义:不变子空间

\(\sigma \in \mathcal(V)\),若 \(V\) 的子空间 \(U\) 满足 \(\forall\alpha \in U, \sigma(\alpha) \in U\),则称 \(U\)\(\sigma\) 的不变子空间,或称 \(U\)\(\sigma\) 下不变,简称为 \(σ\) - 子空间.

定理

设有限维线性空间 \(V\) 上的线性变换 \(\sigma \in \mathcal{L}(V)\) 在某组基下的表示矩阵为分块对角矩阵 \(A = \text{diag}(A_1, \ldots, A_m)\),当且仅当 \(V\) 可以分解为不变子空间 \(U_1, \ldots, U_m\) 的直和,即

\[ V = U_1 \oplus \cdots \oplus U_m, \]

其中每个 \(U_i\) 都是 \(\sigma\) 的不变子空间,且 \(\sigma|_{U_i}\)\(U_i\) 对应的基下的表示矩阵为 \(A_i\)

特征值与特征向量

特征向量描述的是线性变换中方向不改变的向量,特征值描述的是线性变换中特征向量在自己方向上伸缩变换的大小. 可以想象一个特征向量方向上的所有向量都是特征向量,它们的集合就形成了一个一维不变子空间,某个特征子空间就是相应的特征值对应的所有这样的一维不变子空间的集合.

定义:线性变换的特征值与特征向量

\(\sigma\) 是线性空间 \(V (F)\) 上的一个线性变换,如果存在数 \(\lambda \in F\) 和非零向量 \(\xi \in V\) 使得 \(\sigma(\xi) = \lambda\xi\),则称数 \(\lambda\)\(\sigma\) 的一个特征值,并称非零向量 \(\xi\)\(\sigma\) 属于其特征值 \(\lambda\)特征向量.

注:必须注意特征向量为非零向量,否则零向量 \(\xi = 0\) 对任意 \(\lambda\) 都满足上面定义,从而失去 “特征” 的含义. 但是特征值可以为 0,此时 \(\sigma(\xi) = 0\),即全体特征向量的集合就是线性变换的核空间.

  • 对于某一个 \(\lambda \in \mathbb{F}\),我们将所有满足 \(\sigma(\xi) = \lambda\xi\) 的向量构成的集合记为 \(E(\lambda, \sigma) = \{\xi |\sigma(\xi) = \lambda\xi, \xi \in V \}\)(在去除线性变换不引起歧义的情况下可简写为 \(V_{\lambda}\)),称为 \(\sigma\) 关于其特征值 \(\lambda\) 的特征子空间.
  • \(V_\lambda\) 的维数不一定是 1,而至少是 1(前提是 \(\sigma\) 属于其特征值 \(\lambda\) 的特征向量存在)
  • 一维不变子空间的选取是不唯一的,因为 \(V_\lambda\) 的基的选取是不唯一的,因此 \(U_i\) 的选取也是不唯一的.
定义:矩阵的特征值与特征向量

设矩阵 \(A \in M_n(F)\),如果存在数 \(\lambda \in \mathbb{F}\) 和非零向量 \(X \in \mathbb{F}^n\) 使得 \(AX = \lambda X\),则称数 \(\lambda\)\(A\) 的一个特征值,称非零向量 \(X\)\(A\) 属于其特征值 \(\lambda\) 的特征向量.

定理

\(\sigma\)\(V (F)\) 上的线性变换,\(I\) 为恒等映射,则下述条件等价:

  1. \(\lambda \in \mathbb{F}\)\(\sigma\) 的特征值;
  2. \(\sigma − \lambda I\) 不是单射;
  3. \(\sigma − \lambda I\) 不是满射;
  4. \(\sigma − \lambda I\) 不可逆.
特征值与特征向量求解

由上述定理,\(\lambda \in \mathbb{F}\)\(\sigma\) 的特征值等价于 \(\sigma − \lambda I\) 不可逆,因此其在 \(V\) 的任意一组基 \(\alpha_1, \dots , \alpha_n\) 下的矩阵 \(A − \lambda E\) 也不可逆(其中 \(A\)\(\sigma\) 在这组基下的矩阵,\(E\) 为单位矩阵),这又等价于 \(|A − \lambda E| = 0\). 因此我们可以通过 \(|\lambda E − A| = 0\) 求解特征值.

对于特征向量的求解,求出 \((\lambda E −A)X = 0\) 的非零解就是特征向量在基 \(\alpha_1, \dots , \alpha_n\) 下的坐标.

定义:特征多项式、几何重数与代数重数

我们称 \(f(\lambda) = |\lambda E−A|\) 为矩阵 \(A\)特征多项式,其 \(k\) 重根称为 \(k\) 重特征值(称 k 为代数重数),该特征值对应的特征子空间维数称为该特征值的几何重数.

定义:矩阵的迹

\(A = (a_{ij} )_{n×n}\)\(n\) 阶方阵,\(A\) 的主对角线上的元素之和称为 \(A\) 的迹,记为 \(tr(A)\),即

\[ tr(A) =\sum\limits_{i=1}^{n}a_{ii} \]
定理:特征多项式的展开

对于 \(A = (a_{ij}) \in M_n(\mathbb{F})\),记

\[ f(\lambda) = |\lambda E - A| = a_0 \lambda^n + a_1 \lambda^{n-1} + \cdots + a_{n-1} \lambda + a_n \]

\(a_0 = 1\)\(a_1 = -\operatorname{tr}(A)\)\(a_n = (-1)^n |A|\),且 \(a_k\) 等于所有 \(k\) 级主子式之和乘以 \((-1)^k\)

由韦达定理,有

\[ \sum_{i=1}^n \lambda_i = \sum_{i=1}^n a_{ii}; \]
\[ \prod_{i=1}^n \lambda_i = |A|. \]

即,特征值按重数求和为矩阵的迹(即矩阵对角线元素之和),特征值按重数求积为矩阵行列式.

定理

相似矩阵有相同的特征多项式(逆命题不成立),即 \(A \sim B\)\(|\lambda E − A| = |\lambda E − B|\),从而有相同的迹,行列式,特征值,但特征向量不一定相同.

注:相似矩阵的特征向量是线性变换的特征向量在不同基下的坐标,因此不一定相同.

特征值的基本性质
  1. \(\lambda\) 是线性空间 \(V(\mathbb{F})\) 上的线性变换 \(\sigma\) 的特征值,\(\xi\)\(\sigma\) 属于 \(\lambda\) 的特征向量,则
    (1) \(k\lambda\)\(k\sigma\) 的特征值,\(\lambda^m\)\(\sigma^m\) 的特征值,且 \(\xi\) 仍是相应特征向量;
    (2) 若 \(f(x) = a_n x^n + a_{n-1} x^{n-1} + \cdots + a_1 x + a_0\)\(F\) 上的多项式,则 \(f(\sigma)(\xi) = f(\lambda)\xi\)

  2. \(\lambda\)\(n\) 阶矩阵 \(A\) 的特征值,\(A\) 可逆,则 \(\lambda^{-1}\)\(A^{-1}\) 的特征值,\(|A|\lambda^{-1}\)\(A\) 的伴随矩阵 \(A^*\) 的特征值,且特征向量不变.

  3. \(A\)\(n\) 阶矩阵,则 \(A\)\(A^T\) 有相同的特征值(含重数).

特征向量的基本性质

设 V 是有限维的,\(\sigma \in \mathcal{L}(V)\)\(\lambda \in \mathbb{F}\),则

  1. \(\sigma\) 的不同特征值对应的特征向量线性无关;
  2. \(\sigma\) 的不同特征值对应的特征子空间的和为直和;
  3. \(\sigma\) 最多有 \(\operatorname{dim} V\) 个不同的特征值.
推论
  1. \(\lambda_1, \ldots, \lambda_m\) 是线性映射 \(\sigma\) 互异的特征值,则 \(V_{\lambda_i} \cap \sum\limits_{j \neq i} V_{\lambda_j} = \{0\} \ (i=1, \ldots, m)\),即一个特征向量不能属于多个特征值.
  2. \(\sigma\) 的不同特征值 \(\lambda_1, \ldots, \lambda_m\) 对应的特征子空间 \(V_{\lambda_1}, \ldots, V_{\lambda_m}\) 的基向量合在一起构成的向量组线性无关,且是 \(V_{\lambda_1} + V_{\lambda_2} + \cdots + V_{\lambda_m}\) 的基.
定理:代数重数与几何重数的关系

\(n\) 维线性空间 \(V (\mathbb{F})\) 的线性变换 \(\sigma\) 的每个特征值 \(\lambda_0\) 的重数(代数重数)大于等于其特征子空间 \(V_{λ_0}\) 的维数(几何重数).

推论:所有特征子空间的直和不一定能够得到原空间 \(V\).

定理

\(\sigma \in \mathcal{L}(V)\)\(V\)\(n\) 维复线性空间,则 \(\sigma\) 必有特征值. 注:实线性空间上不一定有特征值,因为 f(λ) = 0可能无实根.

对角矩阵

定义:可对角化

\(\sigma \in \mathcal{L}(V)\),如果存在 \(V\) 的一组基使得 \(\sigma\) 在这组基下的矩阵是对角矩阵,则称 \(\sigma\) 可对角化.

定理:线性变换可对角化的等价条件

\(V\) 是数域 \(\mathbf{F}\) 上的 \(n\) 维线性空间,\(\sigma\)\(V\) 上的线性变换,\(\lambda_1, \lambda_2, \ldots, \lambda_s \in \mathbf{F}\)\(\sigma\) 的所有互异特征值,则以下条件等价:

  1. \(\sigma\) 可对角化;
  2. \(\sigma\)\(n\) 个线性无关的特征向量,它们构成 \(V\) 的一组基;
  3. \(V\) 有在 \(\sigma\) 下不变的一维子空间 \(U_1, \ldots, U_n\),使得 \(V = U_1 \oplus \cdots \oplus U_n\)
  4. \(V = V_{\lambda_1} \oplus V_{\lambda_2} \oplus \cdots \oplus V_{\lambda_s}\)
  5. \(n = \dim V_{\lambda_1} + \dim V_{\lambda_2} + \cdots + \dim V_{\lambda_s}\)
  6. \(\sigma\) 每个特征值的代数重数等于几何重数。
推论

\(n\) 维空间上的线性变换 \(\sigma\)\(n\) 个不同的特征值,则 \(\sigma\) 可对角化. 反之,\(\sigma\) 可对角化不一定有 \(n\) 个特征值.

注:是否可对角化主要依赖于是否有 \(n\) 个线性无关的特征向量(相应的一维不变子空间),与特征值是否有重数无关. 第一句话成立是因为 \(V_{\lambda}\) 的维数至少是1.

定义:矩阵的可对角化

\(A \in \mathbf{F}^{n×n}\),如果存在可逆矩阵 \(P\) 使得 \(P^{−1}AP\) 是对角矩阵,则称 \(A\) 可对角化(等价于 \(A\) 相似于对角矩阵).

定理:矩阵可对角化的等价条件

\(A\) 是数域 \(\mathbf{F}\) 上的 \(n\) 阶矩阵,\(\lambda_1, \lambda_2, \ldots, \lambda_s \in \mathbf{F}\)\(A\) 的所有互异特征值,则以下条件等价:

  1. \(A\) 可对角化;
  2. \(A\)\(n\) 个线性无关的特征向量,它们构成 \(\mathbf{F}^n\) 的一组基;
  3. \(n = \dim V_{\lambda_1} + \dim V_{\lambda_2} + \cdots + \dim V_{\lambda_s}\)
  4. \(A\) 每个特征值的代数重数等于几何重数。

注:由于矩阵没有讨论不变子空间,没有对应于线性变换可对角化的等价条件3和4的相应条件,其它都能从线性变换直接推广到矩阵.

推论

\(n\) 阶矩阵 \(A\)\(n\) 个不同的特征值,则 \(A\) 可对角化. 反之,\(A\) 可对角化不一定有 \(n\) 个特征值.

定理:上三角矩阵的特征值

\(A\) 为上三角矩阵,则 \(A\) 的特征值恰好就是其主对角元,且在对角线上出现的次数就等于特征值的代数重数.