Post

矩阵论知识点

矩阵论知识点

这是一个非常好的学习习惯!在矩阵论中,定义性质是解题的地基。很多证明题之所以难,是因为没有把这些性质联系起来。

既然你提到了 $A^H$、Hermite 矩阵、$A^H A$ 等形式,我将基于我们刚才做过的题目,把涉及到的核心矩阵类型及其性质做一个系统性的归纳。你可以把这个列表保存下来复习。


一、 基础运算:共轭转置 ($A^H$)

在复数域中,我们用 $H$ (Conjugate Transpose) 代替实数域的 $T$ (Transpose)。

  • 定义:$(A^H){ij} = \overline{a{ji}}$。即先转置,再取共轭。

  • 基础运算律

    1. $(A^H)^H = A$

    2. $(A + B)^H = A^H + B^H$

    3. $(\lambda A)^H = \bar{\lambda} A^H$ (注意系数要变共轭)

    4. $(AB)^H = B^H A^H$ (非常重要,次序要颠倒)

    5. $(A^{-1})^H = (A^H)^{-1}$


二、 核心矩阵类型总结

1. Hermite 矩阵 (Hermitian Matrix)

这是考试中最常考的矩阵类型,相当于实数域中的实对称矩阵

  • 定义:$A^H = A$。

  • 核心性质(必背)

    1. 特征值:全是实数($\lambda \in \mathbb{R}$)。

    2. 特征向量:属于不同特征值的特征向量相互正交

    3. 谱分解:必可酉对角化。即存在酉矩阵 $U$,使得 $A = U \Lambda U^H$,其中 $\Lambda$ 是实对角阵。

    4. 二次型:对于任意向量 $x$,二次型 $x^H A x$ 的值一定是实数

2. 反 Hermite 矩阵 (Skew-Hermitian Matrix)

  • 定义:$A^H = -A$。

  • 核心性质

    1. 特征值:全是纯虚数0(即实部为0)。 1. 设特征值与特征向量设 $\lambda$ 是矩阵 $B$ 的一个特征值,$x$ 是对应的非零特征向量($x \in \mathbb{C}^n, x \neq 0$)。则有:\(Bx = \lambda x \quad \dots (1)\)取共轭转置对等式 (1) 两边取共轭转置(Hermite 转置):\((Bx)^H = (\lambda x)^H\)\(x^H B^H = \bar{\lambda} x^H\)利用反 Hermite 性质因为 $B$ 是反 Hermite 矩阵,即 $B^H = -B$。代入上式:\(x^H (-B) = \bar{\lambda} x^H \implies x^H B = -\bar{\lambda} x^H \quad \dots (2)\)计算二次型 $x^H B x$我们用两种方式计算标量 $x^H B x$:利用 (1) 式:$x^H (Bx) = x^H (\lambda x) = \lambda (x^H x)$利用 (2) 式:$(x^H B) x = (-\bar{\lambda} x^H) x = -\bar{\lambda} (x^H x)$比较结果所以 $\lambda (x^H x) = -\bar{\lambda} (x^H x)$。因为 $x \neq 0$,所以 $x^H x = |x|^2 > 0$,可以约去。得到:\(\lambda = -\bar{\lambda}\)分析 $\lambda$设 $\lambda = a + bi$($a, b \in \mathbb{R}$),则 $\bar{\lambda} = a - bi$。代入得 $a + bi = -(a - bi) = -a + bi$。对比实部:$a = -a \implies 2a = 0 \implies a = 0$。所以 $\lambda = bi$,即 $\lambda$ 是零(当 $b=0$)或纯虚数(当 $b \neq 0$)。

    2. 联系:如果 $H$ 是 Hermite 矩阵,那么 $iH$ 就是反 Hermite 矩阵。

3. 酉矩阵 (Unitary Matrix)

相当于实数域中的正交矩阵。它是保持长度和角度不变的变换。

  • 定义:$U^H U = U U^H = I$ (即 $U^{-1} = U^H$)。

  • 核心性质

    1. 特征值:模长均为 1(即 $\lambda= 1$,分布在复平面的单位圆上)。
    2. 列/行向量:构成了 $\mathbb{C}^n$ 空间的一组标准正交基

    3. 等距性:$|Ux|_2 = |x|_2$。乘以酉矩阵不改变向量的长度(2-范数)。

    4. 行列式:$|\det(U)| = 1$。

      4.正交矩阵

如果 $Q \in \mathbb{R}^{n \times n}$ 满足以下任一条件,则称为正交矩阵:

  1. $Q^T Q = I$ (最常用定义)

  2. $Q^{-1} = Q^T$ (逆矩阵等于转置矩阵)

  3. $Q Q^T = I$ (左逆等于右逆)


二、 几何性质(保距同构)

这是正交矩阵最直观的物理意义,做题时经常用来简化范数计算。

  1. 保范数(保长度):

    对于任意向量 $x$,正交变换不改变其长度。

    \[\|Qx\|_2 = \|x\|_2\]
    • 证明:$|Qx|^2 = (Qx)^T (Qx) = x^T Q^T Q x = x^T I x = |x|^2$。
  2. 保内积(保角度):

    对于任意向量 $x, y$,正交变换不改变它们之间的夹角。

    \[\langle Qx, Qy \rangle = \langle x, y \rangle\] \[(Qx)^T (Qy) = x^T y\]
  3. 刚体变换:

    正交矩阵代表了坐标系的旋转 (Rotation) 或 反射 (Reflection),不会让物体发生形变(拉伸或压缩)。


三、 向量性质(行与列)

正交矩阵的“正交”二字,其实是指它的行向量组和列向量组是标准正交基

  1. 列向量:

    $Q$ 的列向量 $q_1, \dots, q_n$ 两两正交,且模长为 1。

    \[q_i^T q_j = \delta_{ij} = \begin{cases} 1, & i=j \\ 0, & i \ne j \end{cases}\]
  2. 行向量:

    $Q$ 的行向量同样构成一组标准正交基。

    • 注意:如果一个方阵的列是标准正交的,那么它的行也必然是标准正交的。

四、 代数与谱性质(特征值与行列式)
  1. 行列式:

    \[\det(Q) = \pm 1\]
    • $\det(Q) = 1$:表示纯旋转(如旋转矩阵)。

    • $\det(Q) = -1$:表示包含了反射/镜像(如 Householder 变换)。

    • 证明:$\det(Q^T Q) = \det(I) \Rightarrow (\det Q)^2 = 1$。

  2. 特征值:

    如果 $\lambda$ 是 $Q$ 的特征值,那么它的模长必须为 1。

    \[|\lambda| = 1\]
    • 实特征值只能是 $1$$-1$

    • 复特征值成对出现(共轭),形式为 $e^{i\theta} = \cos\theta + i\sin\theta$。

  3. 范数

    • 2-范数(谱范数):$|Q|_2 = 1$。

    • F-范数:$|Q|_F = \sqrt{n}$。

    • 条件数:$\kappa_2(Q) = |Q|_2 |Q^{-1}|_2 = 1 \cdot 1 = 1$。

      • 这说明正交矩阵是数值计算最稳定的矩阵(不会放大误差)。

五、 运算封闭性(群性质)

正交矩阵的集合构成了正交群 (Orthogonal Group, $O(n)$)

  1. 乘积封闭:

    若 $Q_1, Q_2$ 是正交矩阵,则 $Q_1 Q_2$ 也是正交矩阵。

    • 解释:先旋转一下,再旋转一下,总效果还是旋转。
  2. 求逆封闭:

    若 $Q$ 是正交矩阵,则 $Q^{-1}$(即 $Q^T$)也是正交矩阵。


六、 常见的正交矩阵例子(考试常考)
  1. 置换矩阵 (Permutation Matrix):

    每一行、每一列只有一个 1,其余为 0。它只交换坐标顺序,不改变数值。

  2. 旋转矩阵 (Rotation Matrix) ($2 \times 2$):

    \[Q = \begin{pmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{pmatrix}\]
  3. 反射矩阵 / Householder 矩阵:

    \[H = I - 2uu^T\]

    其中 $u$ 是单位向量 ($|u|=1$)。它关于法向量 $u$ 的超平面进行镜像反射。

    • 性质:既是正交阵,又是对称阵,还是对合阵 ($H^2=I$)。

4. 正规矩阵 (Normal Matrix)

这是 Hermite 矩阵、酉矩阵的“父类”,是它们性质的推广。

  • 定义:$A^H A = A A^H$。

  • 包含关系

    • Hermite 矩阵 ($A^H=A$) $\subset$ 正规矩阵

    • 反 Hermite 矩阵 ($A^H=-A$) $\subset$ 正规矩阵

    • 酉矩阵 ($A^H=A^{-1}$) $\subset$ 正规矩阵

  • 核心性质(必背)

    1. 谱定理:$A$ 是正规矩阵 $\iff$ $A$ 可以酉对角化

    2. 长度性质:$|Ax| = |A^H x|$ (我们刚证明过)。

    3. 特征向量:$A$ 和 $A^H$ 拥有完全相同的特征向量(但特征值互为共轭)。
    4. 平移不变性

三、 特殊组合形式:$A^H A$

不管 $A$ 是什么矩阵(甚至是长方形的),$A^H A$ 这个组合形式在矩阵论和机器学习中地位极高。

  • 性质 1:它一定是 Hermite 矩阵

    • 证明:$(A^H A)^H = A^H (A^H)^H = A^H A$。
  • 性质 2:它一定是半正定矩阵

    • 这意味着它的特征值全部 $\ge 0$。

    • 证明:$x^H (A^H A) x = (Ax)^H (Ax) = |Ax|^2 \ge 0$。

  • 性质 3:秩的关系

    • $\text{rank}(A^H A) = \text{rank}(A)$。
  • 性质 4:与奇异值 (SVD) 的关系

    • $A$ 的奇异值 ($\sigma_i$) 定义为 $A^H A$ 的特征值 ($\lambda_i$) 的平方根。即 $\sigma_i = \sqrt{\lambda_i(A^H A)}$。

    • $A$ 的 2-范数 $|A|2 = \sqrt{\lambda{\max}(A^H A)} = \sigma_{\max}$。

  • 性质5:非零特征值相等
  • 性质6:迹和F范数的开方相等

四、 其他在题目中出现的矩阵

1. 幂等矩阵 (Idempotent Matrix)

  • 定义:$P^2 = P$。

  • 性质

    • 特征值只能是 0 或 1。

    • $\text{tr}(P) = \text{rank}(P)$。

    • 正交投影矩阵:既是幂等矩阵,又是 Hermite 矩阵的矩阵。
    • 相似于对角阵

2. 半正定矩阵 (Positive Semi-definite)

  • 定义:是 Hermite 矩阵,且对于任意 $x \ne 0$,都有 $x^H A x \ge 0$。

  • 判据:所有特征值 $\lambda_i \ge 0$。

3. Kronecker 积 ($A \otimes B$)

  • 性质

    • $(A \otimes B)^H = A^H \otimes B^H$

    • $(A \otimes B)(C \otimes D) = (AC) \otimes (BD)$

    • $|A \otimes B|_2 = |A|_2 |B|_2$

    • 特征值是 $\lambda_i(A) \cdot \lambda_j(B)$ 4.可交换矩阵 可交换矩阵族可以同时酉三角化。即如果 $AB=BA$,则存在同一个酉矩阵 $U$,使得 $U^H AU$ 和 $U^H BU$ 同时为上三角矩阵。非零特征值相同,迹相同 这是一个非常高阶的线性代数命题。你提到的“非零特征值相同”和“迹相同”通常是一般矩阵乘积($AB$ vs $BA$)的性质,但对于可交换矩阵($AB=BA$),我们能得到更强、更具体的结论。

这里我将分三步为你清晰地证明:

  1. 引理: 可交换矩阵拥有至少一个公共特征向量。

  2. 核心证明: 可交换矩阵可以同时酉三角化(Simultaneous Unitary Triangularization)。

  3. 推论: 利用三角化结果证明特征值和迹的关系。


第一步:引理——公共特征向量

命题:若 $A, B \in \mathbb{C}^{n \times n}$ 且 $AB=BA$,则它们存在一个公共特征向量。

证明

  1. 设 $\lambda$ 是矩阵 $A$ 的一个特征值,$V_\lambda$ 是 $A$ 关于 $\lambda$ 的特征子空间(即 $V_\lambda = {x \mid Ax = \lambda x}$)。

  2. 任取 $x \in V_\lambda$,我们需要考察 $B$ 对这个向量的作用。计算 $A(Bx)$:

    \[A(Bx) = (AB)x = (BA)x = B(Ax) = B(\lambda x) = \lambda (Bx)\]
  3. 上式说明:如果你把 $x$ 放在 $V_\lambda$ 里,经过 $B$ 变换后的向量 $Bx$ 依然满足 $A$ 的特征方程。也就是说,$Bx \in V_\lambda$。

  4. 结论:$V_\lambda$ 是 $B$ 的不变子空间

  5. 既然 $B$ 限制在空间 $V_\lambda$ 内依然是一个线性变换,那么在复数域下,$B$ 在这个子空间内一定至少有一个特征向量 $v$。

  6. 这个 $v$ 既在 $V_\lambda$ 内(是 $A$ 的特征向量),又是 $B$ 的特征向量。因此,$v$ 是 $A$和$B$ 的公共特征向量。


第二步:核心证明——同时酉三角化

命题:若 $AB=BA$,则存在酉矩阵 $U$,使得 $U^H AU = T_A$ 和 $U^H BU = T_B$ 均为上三角矩阵。

证明(数学归纳法)

  1. 基础情况:当 $n=1$ 时,矩阵本身就是标量(上三角),结论显然成立。

  2. 归纳假设:假设对于 $n-1$ 阶的可交换矩阵,结论成立。

  3. 归纳步骤

    • 根据第一步的引理,$A$ 和 $B$ 存在一个公共特征向量 $x_1$。将其单位化,设为 $u_1$。

    • 将 $u_1$ 扩充为 $\mathbb{C}^n$ 的一组标准正交基 $U_1 = [u_1, u_2, \dots, u_n]$。这是一个酉矩阵。

    • 对 $A$ 进行基变换:

      因为 $Au_1 = \lambda_1 u_1$,所以 $U_1^H A U_1$ 的第一列是 $(\lambda_1, 0, \dots, 0)^T$。

      \[A^{(1)} = U_1^H A U_1 = \begin{pmatrix} \lambda_1 & * \\ 0 & A_2 \end{pmatrix}\]
    • 对 $B$ 进行同样的基变换:

      因为 $Bu_1 = \mu_1 u_1$,同理可得:

      \[B^{(1)} = U_1^H B U_1 = \begin{pmatrix} \mu_1 & * \\ 0 & B_2 \end{pmatrix}\]
    • 关键点:检查 $A^{(1)}$和$B^{(1)}$ 的交换性。

      因为 $AB=BA$,所以 $U_1^H A U_1 \cdot U_1^H B U_1 = U_1^H (AB) U_1 = U_1^H (BA) U_1 = U_1^H B U_1 \cdot U_1^H A U_1$。

      即 $A^{(1)} B^{(1)} = B^{(1)} A^{(1)}$。

      代入分块矩阵计算乘积,你会发现右下角的 $(n-1)$ 阶子块必须满足:

      \[A_2 B_2 = B_2 A_2\]
    • 既然 $A_2, B_2$ 是 $(n-1)$ 阶的可交换矩阵,由归纳假设,存在 $(n-1)$ 阶酉矩阵 $\hat{U}$ 使得它们同时三角化。

    • 构造最终的酉矩阵 $U = U_1 \begin{pmatrix} 1 & 0 \ 0 & \hat{U} \end{pmatrix}$,即可将 $A, B$ 同时化为上三角矩阵。

证毕。


第三步:推论(特征值与迹的性质)

既然 $A$ 和 $B$ 可以通过同一个 $U$ 变成上三角矩阵 $T_A$ 和 $T_B$:

\[T_A = \begin{pmatrix} \lambda_1 & * & * \\ 0 & \ddots & * \\ 0 & 0 & \lambda_n \end{pmatrix}, \quad T_B = \begin{pmatrix} \mu_1 & * & * \\ 0 & \ddots & * \\ 0 & 0 & \mu_n \end{pmatrix}\]

这里的对角元 $\lambda_i$ 和 $\mu_i$ 分别是 $A$ 和 $B$ 的特征值,且顺序是对应的(对应同一个公共特征向量)。

1. 关于 $AB$ 的特征值

我们计算乘积 $AB$ 的相似矩阵:

\[U^H (AB) U = (U^H A U)(U^H B U) = T_A T_B\]

两个上三角矩阵的乘积依然是上三角矩阵,且对角线元素是对角线元素的乘积。

\[T_A T_B = \begin{pmatrix} \lambda_1 \mu_1 & * & * \\ 0 & \ddots & * \\ 0 & 0 & \lambda_n \mu_n \end{pmatrix}\]

结论:

  • $AB$ 的特征值就是 $\lambda_i \mu_i$。

  • $BA$ 的特征值也是 $\mu_i \lambda_i$。

  • 因此,$AB$ 和 $BA$ 不仅非零特征值相同,连特征值的顺序和代数重数都完全对应相同

2. 关于迹 (Trace)

迹等于对角线元素之和。

利用上述三角化结果:

\[\text{tr}(AB) = \text{tr}(T_A T_B) = \sum_{i=1}^n \lambda_i \mu_i\] \[\text{tr}(BA) = \text{tr}(T_B T_A) = \sum_{i=1}^n \mu_i \lambda_i\]

显然 $\sum \lambda_i \mu_i = \sum \mu_i \lambda_i$。

总结:

对于可交换矩阵,我们通过同时酉三角化得到了比一般矩阵更细致的结构信息:它们可以被视为在同一组基(虽然这组基下的矩阵是三角阵而非对角阵)下的操作,从而使得它们的和、积的特征值可以直接由各自的特征值相加、相乘得到。


五、 快速记忆图谱

遇到题目,先判断属于哪一类,然后调用对应的性质库:

  1. 看到 $A^H A = A A^H$ $\to$ 想到 正规矩阵 $\to$ 想到 酉对角化

  2. 看到 $A^H = A$ $\to$ 想到 Hermite $\to$ 想到 实特征值

  3. 看到 $U^H U = I$ $\to$ 想到 酉矩阵 $\to$ 想到 保范数、模长为1

  4. 看到 $A^H A$ $\to$ 想到 奇异值分解 (SVD)半正定

  5. 看到 2-范数 $|A|_2$ $\to$ 想到 最大奇异值

这也是一个非常棒的总结需求!Moore-Penrose 广义逆(通常记为 $A^+$) 是现代矩阵论解决最小二乘问题、不适定问题的核心工具。

它之所以被称为“广义逆”,是因为它让不可逆的矩阵(甚至长方形矩阵)也能像可逆矩阵一样进行运算。

以下是 $A^+$ 的核心性质清单,你可以把它当作复习的“速查表”:


一、 核心定义(Penrose 四方程)

一个矩阵 $X$ 被称为矩阵 $A$ 的 Moore-Penrose 广义逆(记为 $A^+$),当且仅当它同时满足以下 4 个条件:

  1. $AXA = A$ ($A$ 的广义逆性质)

  2. $XAX = X$ ($X$ 的广义逆性质,即反射性)

  3. $(AX)^H = AX$ ($AX$ 是 Hermite 矩阵)

  4. $(XA)^H = XA$ ($XA$ 是 Hermite 矩阵)

:满足全部 4 条的 $A^+$ 是唯一存在的。如果只满足第 1 条,称为减号逆 $A^-$(不唯一)。


二、 基础运算性质

这些性质和普通逆矩阵 $A^{-1}$ 很像,但要小心“反序定律”不总是成立。

  1. 双重广义逆:

    \[(A^+)^+ = A\]
  2. 转置/共轭转置:

    \[(A^H)^+ = (A^+)^H\] \[(A^T)^+ = (A^+)^T\]
  3. 数乘($\alpha \ne 0$):

    \[(\alpha A)^+ = \frac{1}{\alpha} A^+\]
  4. 秩的关系:

    \[\text{rank}(A^+) = \text{rank}(A)\]
  5. 值域与核空间

    • $R(A^+) = R(A^H)$ ($A^+$ 的列空间等于 $A^H$ 的列空间)

    • $N(A^+) = N(A^H)$


三、 极其重要的投影性质(考点高频)

$A^+$ 最本质的几何意义是正交投影。这一条在证明题(特别是涉及最小二乘解)中经常用到。

  1. 向列空间投影:

    \[P_{R(A)} = A A^+\]
    • $AA^+$ 是向 $A$ 的值域(列空间) 的正交投影矩阵。

    • 满足 $(AA^+)^2 = AA^+$ 和 $(AA^+)^H = AA^+$。

  2. 向行空间投影:

    \[P_{R(A^H)} = A^+ A\]
    • $A^+A$ 是向 $A$ 的行空间(即 $A^H$ 的值域)的正交投影矩阵。
  3. 互补投影

    • $I - A^+ A$ 是向 $A$ 的零空间(核空间) 的正交投影。

四、 计算公式(分情况讨论)

这是做计算题时必须掌握的。

  1. 情形 1:$A$ 是可逆方阵

    \[A^+ = A^{-1}\]
  2. 情形 2:$A$ 列满秩(Full Column Rank,瘦高型)

    此时 $A^H A$ 可逆。

    \[A^+ = (A^H A)^{-1} A^H \quad \text{(左逆)}\]
  3. 情形 3:$A$ 行满秩(Full Row Rank,矮胖型)

    此时 $A A^H$ 可逆。

    \[A^+ = A^H (A A^H)^{-1} \quad \text{(右逆)}\]
  4. 情形 4:秩-1 矩阵(Rank-1)

    若 $A = xy^H$(或 $A=uv^T$),则:

    \[A^+ = \frac{1}{\|x\|^2 \|y\|^2} A^H\]

    (这就是你刚才做的那道证明题的推广形式)。

  5. 情形 5:通用情况(SVD 分解)

    若 $A = U \Sigma V^H$,其中 $\Sigma = \text{diag}(\sigma_1, \dots, \sigma_r, 0, \dots, 0)$。

    则:

    \[A^+ = V \Sigma^+ U^H\]

    其中 $\Sigma^+$ 是将 $\Sigma$ 的非零奇异值取倒数,再转置(如果是长方形)。

    \[A^+ = U \Lambda^+ U^H\]

五、 容易踩的坑(Warning)

在普通逆矩阵中,$(AB)^{-1} = B^{-1} A^{-1}$ 总是成立的。

但在广义逆中,$(AB)^+ = B^+ A^+$ 不一定成立!

它成立的充分条件(常见考点):

  • $A$ 列满秩 且 $B$ 行满秩。

  • 或者 $A, B$ 是酉矩阵。


六、 极限性质(Tikhonov 正则化)

这就是你刚才证明的那道极限题的结论,它建立了广义逆与微扰矩阵求逆的联系:

\[A^+ = \lim_{t \to 0} (A^H A + tI)^{-1} A^H\]

或者

\[A^+ = \lim_{t \to 0} A^H (A A^H + tI)^{-1}\]

总结记忆法

  • 算数上:它是“倒数”概念的推广(非零取倒数,零还是零)。

  • 几何上:它代表“正交投影”到有效子空间后倒过来映射。

  • 代数上:记住 $A A^+$ 是投影算子,这一点解题最有用。

这是一个非常系统化的总结需求。在矩阵论中,投影矩阵(Projection Matrix)正交投影矩阵(Orthogonal Projection Matrix) 是两个容易混淆但界限分明的概念。

简单来说:正交投影矩阵是投影矩阵的一个特例,它要求投影的方向必须垂直于投影面。

以下是它们的性质对比与详细总结表,适合复习背诵:


一、 一般投影矩阵 (Idempotent Matrix)

在几何上,这对应于“斜投影”(Oblique Projection)。比如夕阳下的影子,影子被拉长了,投影线和地面不是垂直的。

1. 定义

  • 仅需满足 幂等性

    \[P^2 = P\]

2. 核心性质

  • 特征值:只能是 01

  • 迹与秩

    \[\text{tr}(P) = \text{rank}(P)\]
    • 解释:因为特征值只有0和1,迹(特征值之和)就等于非零特征值的个数(秩)。
  • 互补性质

    • 若 $P$ 是投影矩阵,则 $I - P$ 也是投影矩阵。

    • $P$ 是向值域 $R(P)$ 投影,$I-P$ 是向核空间 $N(P)$ 投影。

  • 空间分解

    • 全空间 $V$ 被分解为直和:

      \[V = R(P) \oplus N(P)\]
    • 注意:这里的两个子空间 $R(P)$ 和 $N(P)$ 不一定垂直

  • 可对角化

    • $P$ 一定相似于对角阵 $\text{diag}(1, \dots, 1, 0, \dots, 0)$。

二、 正交投影矩阵 (Orthogonal Projection Matrix)

在几何上,这对应于“正投影”。比如正午太阳直射下的影子,投影线垂直于地面。它是连接线性代数与几何优化的桥梁(如最小二乘法)。

1. 定义

  • 必须同时满足两个条件:

    1. 幂等性

      \[P^2 = P\]

      (它是投影)

    2. Hermite性

      \[P^H = P\]

      (它是正交的)

2. 核心性质(包含所有一般投影的性质,并增加了以下性质)

  • 正规性:它是正规矩阵(因为 $P^H P = P P = P^2 = P$,且 $P P^H = P^2 = P$),所以可以酉对角化

  • 半正定性:它是半正定矩阵(特征值 0 或 1,均非负)。

  • 正交性

    • 值域与核空间相互垂直:

      \[R(P) \perp N(P)\]
    • 全空间是正交直和:

      \[V = R(P) \perp N(P)\]
  • 范数性质(不放大长度)

    • \[\|Px\|_2 \le \|x\|_2\]
    • 对于一般投影矩阵,这不一定成立(斜投影可能会把向量拉得很长)。
  • 最小距离性质(几何意义)

    • 对于任意向量 $x$, $Px$ 是子空间 $R(P)$ 中距离 $x$ 最近的点。

    • 即 $\min_{y \in R(P)} |x - y|_2 = |x - Px|_2$。


三、 两个重要的计算公式(考研/考试必背)

假设子空间 $V$ 由矩阵 $A$ 的列向量张成(即 $V = R(A)$)。我们想求向 $V$ 投影的矩阵 $P_V$。

情况 1:$A$ 的列向量是任意基(仅要求列满秩)

\[P = A(A^H A)^{-1} A^H\]

(这就是最小二乘法 $A^T A \hat{x} = A^T b$ 对应的投影算子)

情况 2:$A$ 的列向量是标准正交基(即 $A^H A = I$)

此时公式极大简化:

\[P = A A^H\]

关联复习:结合你刚才问的广义逆,对于任意矩阵 $A$,向其列空间投影的正交投影矩阵就是 $P = A A^+$


四、 一张表总结差异

性质一般投影矩阵 (P)正交投影矩阵 (Porth​)
定义$P^2=P$$P^2=P$ $P^H=P$
几何名称斜投影 (Oblique)正投影 (Orthogonal)
子空间关系$R(P)$ 与 $N(P)$ 互补但不一定垂直$R(P) \perp N(P)$ (相互垂直)
2-范数$|P|_2 \ge$ (除非 $ $P$)$|P|$ 只有 0 或 1
向量长度可能拉长向量 ($|Px| > $)永不拉长向量 ($|Px| \le $)
矩阵类型可能是非对称阵必定是 Hermite 阵 (实对称阵)

希望这个总结能帮你彻底分清这两个概念!在做题时,只要看到“投影”二字,先看有没有“正交”或者“对称/Hermite”这个条件,结论会大不相同。

这也是矩阵论的核心骨架——“四个基本子空间”(Four Fundamental Subspaces)。

搞清楚像空间(即列空间)、零空间以及它们之间的正交关系,是你理解线性方程组解的结构、最小二乘法以及投影矩阵的基础。

我将从定义、维度关系、正交关系、以及物理意义四个维度为你总结。


一、 核心定义与等价关系

假设 $A \in \mathbb{C}^{m \times n}$ 是一个 $m \times n$ 的矩阵。

1. 像空间 (Image Space) / 列空间 (Column Space)

这两个概念在矩阵语境下通常是指同一个东西。

  • 符号:$\text{Im}(A)$ 或 $R(A)$ (Range) 或 $\text{Col}(A)$。

  • 定义:矩阵 $A$ 的所有列向量张成的空间。

  • 数学表达:

    \[R(A) = \{ y \in \mathbb{C}^m \mid \exists x \in \mathbb{C}^n, y = Ax \}\]
  • 直观理解:所有可能的输出向量组成的集合。也就是方程组 $Ax=b$ 中,当 $x$ 变化时,$b$ 能取到的所有值的集合。

2. 零空间 (Null Space) / 核空间 (Kernel)

  • 符号:$\text{Nul}(A)$ 或 $\text{Ker}(A)$ 或 $N(A)$。

  • 定义:所有被矩阵 $A$ 变换为零向量的输入向量的集合。

  • 数学表达:

    \[N(A) = \{ x \in \mathbb{C}^n \mid Ax = 0 \}\]
  • 直观理解:线性变换中的“盲区”或“塌缩区”。在这个空间里的向量,经过 $A$ 作用后都消失了(变成了0)。


二、 维度的灵魂:秩-零化度定理

这是线性代数最著名的定理之一,它连接了输入空间和输出空间。

  1. 秩 (Rank)

    • $\text{rank}(A) = \dim(R(A))$。

    • 即列空间的维数(线性无关列的个数)。

  2. 零化度 (Nullity)

    • $\text{nullity}(A) = \dim(N(A))$。

    • 即方程 $Ax=0$ 基础解系中向量的个数(自由变量的个数)。

定理公式:

\[\text{rank}(A) + \text{nullity}(A) = n \quad (\text{列数,即输入维度})\]

物理意义:输入空间的维度 $n$ 被拆分成了两部分:一部分真正传递出去了(变成了秩),另一部分被压缩没了(变成了零化度)。


三、 空间的正交互补关系(矩阵论高阶考点)

这是做证明题(尤其是涉及 $A^H, A^T$)时的关键。在复数域下,我们讨论 $A^H$;实数域下讨论 $A^T$。

基本互补定理:

整个空间可以被完美地切分为互不相交且垂直的两部分。

  1. 输入空间 $\mathbb{C}^n$ 的分解:

    \[\text{Nul}(A) \perp \text{Col}(A^H)\] \[N(A) = R(A^H)^\perp\]
    • 解释:$Ax=0$ 意味着 $x$ 垂直于 $A$ 的每一行(即 $A^H$ 的每一列)。

    • 结论:任意输入向量 $x$ 都可以唯一分解为 $x = x_r + x_n$,其中 $x_r$ 来自行空间,$x_n$ 来自零空间。

  2. 输出空间 $\mathbb{C}^m$ 的分解:

    \[\text{Nul}(A^H) \perp \text{Col}(A)\] \[N(A^H) = R(A)^\perp\]
    • 这是“弗雷德霍姆择一性定理”的基础:方程 $Ax=b$ 有解 $\iff b \perp N(A^H)$。

    • 几何意义:列空间的正交补是左零空间。


四、 它们在解方程组中的角色

对于方程 $Ax = b$:

  1. 要有解:

    向量 $b$ 必须落在 列空间 $R(A)$ 里。

  2. 解的结构:

    通解 = 特解 $x_p$ + 齐次通解 $x_n$。

    • $x_p$ 负责“够得着” $b$。

    • $x_n$ 来自 零空间 $N(A)$,它负责由 $Ax=0$ 带来的自由度。

  3. 解的唯一性

    • 零空间 $N(A) = {0}$,则解唯一(列满秩)。

    • 若零空间不为零,则有无穷多解。


五、 总结与记忆表

概念符号所在空间维度公式几何意义关联的正交投影矩阵
列空间 (像)$R(A)$$\mathbb{C}^m$ (输出)$r = \text{rank}(A)$$A$ 能生成的空间$P = A A^+$
零空间 (核)$N(A)$$\mathbb{C}^n$ (输入)$n - r$$A$ 把它压缩为0的空间$P = I - A^+ A$
行空间$R(A^H)$$\mathbb{C}^n$ (输入)$r$$A$ 的行张成的空间$P = A^+ A$
左零空间$N(A^H)$$\mathbb{C}^m$ (输出)$m - r$$A$ 无法覆盖的空间方向$P = I - A A^+$

最重要的一句话总结:

矩阵 $A$ 像一个筛子,把输入空间 $\mathbb{C}^n$ 中的 零空间 $N(A)$ 筛掉(变成0),剩下的 行空间 $R(A^H)$ 被无损地(一一对应地)映射到了输出空间的 列空间 $R(A)$ 中。

简单来说,$AB$ 和 $BA$ 的特征多项式仅仅相差一个因子 $\lambda^{m-n}$。这意味着它们的非零特征值完全相同,只有 0 特征值的个数不同。

我们可以通过两种方式来理解:一种是直观的代数推导(容易懂),另一种是严格的行列式证明(通过特征多项式)。


方法一:直观推导(利用特征向量定义)

这是最容易理解的方法。我们直接看特征值的定义式。

证明步骤:

  1. 假设 $\lambda$ 是矩阵 $AB$ 的一个非零特征值

  2. 设 $x$ 是对应的特征向量($x \neq 0$)。

    根据定义有:

    \[ABx = \lambda x\]
  3. 关键一步:在这个等式两边同时左乘矩阵 $B$。

    \[B(ABx) = B(\lambda x)\]

    利用结合律:

    \[(BA)(Bx) = \lambda (Bx)\]
  4. 分析结果:

    上式看起来很像 $BA$ 的特征值定义式:$(BA)y = \lambda y$,其中 $y = Bx$。

    为了证明 $\lambda$ 确实是 $BA$ 的特征值,我们要确保新的向量 $y = Bx$ 不是零向量。

    • 假设 $Bx = 0$,代回最开始的式子 $ABx = \lambda x$,会得到 $A(0) = \lambda x \implies 0 = \lambda x$。

    • 因为我们已知 $x \neq 0$ 且假设 $\lambda \neq 0$,所以 $0 = \lambda x$ 是不可能成立的。

    • 结论:因此 $Bx$ 一定不为 0。

  5. 最终结论:

    $\lambda$ 也是 $BA$ 的特征值,且对应的特征向量是 $Bx$。

反之亦然:如果 $\lambda$ 是 $BA$ 的非零特征值,同理左乘 $A$,可证 $\lambda$ 也是 $AB$ 的特征值。

这也是矩阵论中非常基础且高频考察的知识点。矩阵的迹(Trace) 虽然定义简单(对角线元素之和),但它连接了矩阵的代数形式、几何性质和谱理论(特征值)。

以下是关于迹 ($\text{tr}(A)$) 的全方位性质总结,建议按分类记忆:

一、 基础代数性质(计算规则)

定义:$\text{tr}(A) = \sum_{i=1}^n a_{ii}$。

  1. 线性性质:

    \[\text{tr}(\alpha A + \beta B) = \alpha \text{tr}(A) + \beta \text{tr}(B)\]
    • 这意味着迹是一个线性算子。
  2. 转置不变性:

    \[\text{tr}(A^T) = \text{tr}(A)\]
    • 若是共轭转置:$\text{tr}(A^H) = \overline{\text{tr}(A)}$ (复数共轭)。
  3. 循环性质(最重要考点):

    \[\text{tr}(AB) = \text{tr}(BA)\]
    • 即使 $A$ 是 $m \times n$, $B$ 是 $n \times m$(此时 $AB$ 和 $BA$ 尺寸不同),结论依然成立。

    • 推广:$\text{tr}(ABC) = \text{tr}(BCA) = \text{tr}(CAB)$。

    • 警告:$\text{tr}(ABC) \neq \text{tr}(ACB)$ (一般情况下,不能随意交换非相邻矩阵的顺序)。


二、 谱性质(与特征值的关系)

这是迹在证明题中最强大的功能。

  1. 特征值之和:

    \[\text{tr}(A) = \sum_{i=1}^n \lambda_i\]
    • 推论:如果 $A$ 是幂零矩阵(即 $A^k=0$),特征值全为 0,则 $\text{tr}(A) = 0$。
  2. 相似不变性(酉不变性):

    如果 $A \sim B$(即 $B = P^{-1} A P$),则:

    \[\text{tr}(A) = \text{tr}(B)\]
    • 这是因为特征值相同,或者直接用循环性证明:$\text{tr}(P^{-1}AP) = \text{tr}(APP^{-1}) = \text{tr}(A)$。
  3. 特征多项式系数:

    特征多项式 $f(\lambda) = \det(\lambda I - A) = \lambda^n - c_1 \lambda^{n-1} + \dots$

    其中次高次项系数 $c_1 = \text{tr}(A)$。


三、 几何与范数性质(与长度的关系)

  1. Frobenius 范数(F-范数):

    \[\|A\|_F^2 = \sum_{i,j} |a_{ij}|^2 = \text{tr}(A^H A) = \sum_{i=1}^n \sigma_i^2\]
    • 这是迹最常用的几何意义,表示矩阵元素的平方和,也等于奇异值平方和。
  2. 内积定义:

    在矩阵空间中,标准的内积定义为:

    \[\langle A, B \rangle = \text{tr}(A^H B)\]
  3. 秩与投影(高频考点):

    如果 $P$ 是幂等矩阵($P^2=P$,即投影矩阵),则:

    \[\text{tr}(P) = \text{rank}(P)\]
    • 原因:投影矩阵的特征值只能是 1 或 0,非零特征值个数(秩)即为特征值之和(迹)。

四、 高级运算性质

  1. Kronecker 积:

    \[\text{tr}(A \otimes B) = \text{tr}(A) \cdot \text{tr}(B)\]
  2. Hadamard 积(元素对应相乘):

    \[\text{tr}(A^T (B \circ C)) = \text{tr}((A \circ B)^T C)\]
  3. 微积分(矩阵求导)

    • $\frac{\partial \text{tr}(AX)}{\partial X} = A^T$

    • $\frac{\partial \text{tr}(X^T A X)}{\partial X} = (A + A^T)X$

    • 这些在机器学习推导(如最小二乘法)中非常常用。


五、 易错点提醒

  1. 迹的乘积 $\neq$ 乘积的迹:

    一般情况下,$\text{tr}(AB) \neq \text{tr}(A) \cdot \text{tr}(B)$。

    (除非是 Kronecker 积,那是 $\otimes$,不是矩阵乘法)。

  2. 不等式:

    $\text{tr}(AB) \le \text{tr}(A) \text{tr}(B)$ 这种结论通常是不成立的。

    正确的类似结论是 Cauchy-Schwarz 不等式:

    $\text{tr}(A^H B)\le |A|_F |B|_F$。

一句话总结:

遇到求和、范数、或者特征值求和的问题,优先想 $\text{tr}(A)$;遇到 $AB$ 和 $BA$ 交换的问题,优先利用 $\text{tr}(AB)=\text{tr}(BA)$。

这是一道非常经典的矩阵论题目,被称为 Schur 不等式。它揭示了矩阵的特征值(Eigenvalues)与奇异值(Singular Values)之间的深刻关系,同时给出了正规矩阵(Normal Matrix)的一个重要判定准则。

以下是详细的解答、证明过程及考点扩展。


一、 详细证明过程

题目:设 $A \in \mathbb{C}^{n \times n}$, $\lambda_i$ 是 $A$ 的特征值,$\sigma_i$ 是 $A$ 的奇异值。证明 $\sum_i\lambda_i^2 \le \text{tr}(A^H A) = \sum_i \sigma_i^2$,且等式成立的充要条件是 $A$ 为正规矩阵。

证明思路:

利用 Schur 三角化定理(任何方阵都可以通过酉相似变换变为上三角矩阵)以及 Frobenius 范数的酉不变性。

步骤 1:利用 Schur 分解

根据 Schur 定理,对于任意 $n$ 阶复方阵 $A$,存在一个酉矩阵 $U$(满足 $U^H U = I$)和一个上三角矩阵 $T$,使得:

\[A = U T U^H\]

其中,$T$ 的主对角线元素 $t_{ii}$ 正是 $A$ 的特征值 $\lambda_1, \lambda_2, \dots, \lambda_n$。

即 $T$ 的形式为:

\[T = \begin{pmatrix} \lambda_1 & t_{12} & \dots & t_{1n} \\ 0 & \lambda_2 & \dots & t_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \dots & \lambda_n \end{pmatrix}\]

步骤 2:利用 F-范数(Frobenius Norm)的酉不变性

考察 $\text{tr}(A^H A)$。根据定义,这实际上是矩阵 $A$ 的 Frobenius 范数的平方 $|A|_F^2$。

由于 F-范数是酉不变的(即乘以酉矩阵不改变矩阵元素的平方和),我们有:

\[\begin{aligned} \text{tr}(A^H A) &= \|A\|_F^2 \\ &= \|U T U^H\|_F^2 \\ &= \|T\|_F^2 \quad (\text{因为 } U \text{ 是酉矩阵}) \end{aligned}\]

(注:这一步也可以直接通过迹的循环性证明:$\text{tr}(A^H A) = \text{tr}(U T^H U^H U T U^H) = \text{tr}(U T^H T U^H) = \text{tr}(T^H T)$)

步骤 3:展开上三角矩阵的范数

计算上三角矩阵 $T$ 的 F-范数平方(所有元素的模长平方和):

\[\|T\|_F^2 = \sum_{i=1}^n \sum_{j=1}^n |t_{ij}|^2\]

将对角线元素和非对角线元素分开:

\[\|T\|_F^2 = \sum_{i=1}^n |t_{ii}|^2 + \sum_{i < j} |t_{ij}|^2\]

因为 $t_{ii} = \lambda_i$,代入得:

\[\text{tr}(A^H A) = \sum_{i=1}^n |\lambda_i|^2 + \sum_{i < j} |t_{ij}|^2\]

步骤 4:证明不等式

显然,矩阵元素的模平方和 $\sum_{i < j}t_{ij}^2 \ge 0$。

因此:

\[\text{tr}(A^H A) \ge \sum_{i=1}^n |\lambda_i|^2\]

又因为 $A$ 的奇异值 $\sigma_i$ 定义为 $A^H A$ 的特征值的平方根,所以 $\text{tr}(A^H A) = \sum \sigma_i^2$。

综上得证:

\[\sum_{i=1}^n |\lambda_i|^2 \le \sum_{i=1}^n \sigma_i^2\]

步骤 5:证明等式成立的充要条件

观察步骤 3 中的等式,不等式变成等式的充要条件是:

\[\sum_{i < j} |t_{ij}|^2 = 0\]

这意味着 $T$ 的所有非对角元素($i < j$)都必须为 0。

$\iff T$ 是一个对角矩阵。

$\iff A$ 酉相似于一个对角矩阵 ($A = U \Lambda U^H$)。

$\iff A$ 是正规矩阵 (Normal Matrix)。

(注:正规矩阵的定义是 $A^H A = A A^H$,它的核心性质就是可以被酉对角化)

证毕。


二、 核心知识点归纳

这道题串联了矩阵论中几个极其重要的概念:

  1. Schur 分解 (Schur Decomposition)

    • $A = U T U^H$。这是处理非对称矩阵特征值问题的首选工具。

    • 相比于 Jordan 标准型,Schur 分解涉及的是酉矩阵,数值上更稳定。

  2. 正规矩阵 (Normal Matrix)

    • 定义:$A^H A = A A^H$。

    • 判定:$A$ 是正规矩阵 $\iff$ $\sum\lambda_i^2 = |A|_F^2$。
    • 常见例子:Hermite 矩阵、反 Hermite 矩阵、酉矩阵都是正规矩阵。
  3. 奇异值与特征值的关系

    • 奇异值 $\sigma_i$ 描述矩阵的几何拉伸长度。

    • 特征值 $\lambda_i$ 描述矩阵的谱性质。

    • 一般来说 $\sigma_i \ne\lambda_i$,但对于正规矩阵,$\sigma_i =\lambda_i$(对于对应的排序)。

三、 考点扩展与变式

这道题在考试中常有以下变种,建议掌握:

1. 变式:Hermite 矩阵的情况

  • 如果 $A$ 是 Hermite 矩阵($A^H = A$),它是正规矩阵的一种。

  • 此时等式成立,且特征值 $\lambda_i$ 都是实数。结论退化为 $\sum \lambda_i^2 = \text{tr}(A^2) = \sum \sigma_i^2$。

2. 变式:如果是一般矩阵,差值是多少?

  • 不等式 $\sum \sigma_i^2 - \sum\lambda_i^2$ 的差值被称为矩阵的 非正规度 (Departure from Normality)。这个值越大,说明矩阵 $A$ 离正规矩阵越远,这在数值分析中意味着特征值的计算可能越不稳定。

3. 关联不等式:Weyl 不等式

  • Schur 不等式是关于平方和的。如果是乘积呢?

    \[\prod_{i=1}^k |\lambda_i| \le \prod_{i=1}^k \sigma_i\]

    (其中特征值和奇异值都按模降序排列)。

    特别地,当 $k=n$ 时,取等号:$\det(A)= \prod\lambda_i= \prod \sigma_i$(这是你图片中第 14 题的结论)。

希望这个解答能帮你彻底吃透这道题!如果有不懂的步骤,欢迎继续提问。

This post is licensed under CC BY 4.0 by the author.