矩阵论知识点
这是一个非常好的学习习惯!在矩阵论中,定义和性质是解题的地基。很多证明题之所以难,是因为没有把这些性质联系起来。
既然你提到了 $A^H$、Hermite 矩阵、$A^H A$ 等形式,我将基于我们刚才做过的题目,把涉及到的核心矩阵类型及其性质做一个系统性的归纳。你可以把这个列表保存下来复习。
一、 基础运算:共轭转置 ($A^H$)
在复数域中,我们用 $H$ (Conjugate Transpose) 代替实数域的 $T$ (Transpose)。
定义:$(A^H){ij} = \overline{a{ji}}$。即先转置,再取共轭。
基础运算律:
$(A^H)^H = A$
$(A + B)^H = A^H + B^H$
$(\lambda A)^H = \bar{\lambda} A^H$ (注意系数要变共轭)
$(AB)^H = B^H A^H$ (非常重要,次序要颠倒)
$(A^{-1})^H = (A^H)^{-1}$
二、 核心矩阵类型总结
1. Hermite 矩阵 (Hermitian Matrix)
这是考试中最常考的矩阵类型,相当于实数域中的实对称矩阵。
定义:$A^H = A$。
核心性质(必背):
特征值:全是实数($\lambda \in \mathbb{R}$)。
特征向量:属于不同特征值的特征向量相互正交。
谱分解:必可酉对角化。即存在酉矩阵 $U$,使得 $A = U \Lambda U^H$,其中 $\Lambda$ 是实对角阵。
二次型:对于任意向量 $x$,二次型 $x^H A x$ 的值一定是实数。
2. 反 Hermite 矩阵 (Skew-Hermitian Matrix)
定义:$A^H = -A$。
核心性质:
特征值:全是纯虚数或 0(即实部为0)。 1. 设特征值与特征向量设 $\lambda$ 是矩阵 $B$ 的一个特征值,$x$ 是对应的非零特征向量($x \in \mathbb{C}^n, x \neq 0$)。则有:\(Bx = \lambda x \quad \dots (1)\)取共轭转置对等式 (1) 两边取共轭转置(Hermite 转置):\((Bx)^H = (\lambda x)^H\)\(x^H B^H = \bar{\lambda} x^H\)利用反 Hermite 性质因为 $B$ 是反 Hermite 矩阵,即 $B^H = -B$。代入上式:\(x^H (-B) = \bar{\lambda} x^H \implies x^H B = -\bar{\lambda} x^H \quad \dots (2)\)计算二次型 $x^H B x$我们用两种方式计算标量 $x^H B x$:利用 (1) 式:$x^H (Bx) = x^H (\lambda x) = \lambda (x^H x)$利用 (2) 式:$(x^H B) x = (-\bar{\lambda} x^H) x = -\bar{\lambda} (x^H x)$比较结果所以 $\lambda (x^H x) = -\bar{\lambda} (x^H x)$。因为 $x \neq 0$,所以 $x^H x = |x|^2 > 0$,可以约去。得到:\(\lambda = -\bar{\lambda}\)分析 $\lambda$设 $\lambda = a + bi$($a, b \in \mathbb{R}$),则 $\bar{\lambda} = a - bi$。代入得 $a + bi = -(a - bi) = -a + bi$。对比实部:$a = -a \implies 2a = 0 \implies a = 0$。所以 $\lambda = bi$,即 $\lambda$ 是零(当 $b=0$)或纯虚数(当 $b \neq 0$)。
联系:如果 $H$ 是 Hermite 矩阵,那么 $iH$ 就是反 Hermite 矩阵。
3. 酉矩阵 (Unitary Matrix)
相当于实数域中的正交矩阵。它是保持长度和角度不变的变换。
定义:$U^H U = U U^H = I$ (即 $U^{-1} = U^H$)。
核心性质:
如果 $Q \in \mathbb{R}^{n \times n}$ 满足以下任一条件,则称为正交矩阵:
$Q^T Q = I$ (最常用定义)
$Q^{-1} = Q^T$ (逆矩阵等于转置矩阵)
$Q Q^T = I$ (左逆等于右逆)
二、 几何性质(保距同构)
这是正交矩阵最直观的物理意义,做题时经常用来简化范数计算。
保范数(保长度):
对于任意向量 $x$,正交变换不改变其长度。
\[\|Qx\|_2 = \|x\|_2\]- 证明:$|Qx|^2 = (Qx)^T (Qx) = x^T Q^T Q x = x^T I x = |x|^2$。
保内积(保角度):
对于任意向量 $x, y$,正交变换不改变它们之间的夹角。
\[\langle Qx, Qy \rangle = \langle x, y \rangle\] \[(Qx)^T (Qy) = x^T y\]刚体变换:
正交矩阵代表了坐标系的旋转 (Rotation) 或 反射 (Reflection),不会让物体发生形变(拉伸或压缩)。
三、 向量性质(行与列)
正交矩阵的“正交”二字,其实是指它的行向量组和列向量组是标准正交基。
列向量:
$Q$ 的列向量 $q_1, \dots, q_n$ 两两正交,且模长为 1。
\[q_i^T q_j = \delta_{ij} = \begin{cases} 1, & i=j \\ 0, & i \ne j \end{cases}\]行向量:
$Q$ 的行向量同样构成一组标准正交基。
- 注意:如果一个方阵的列是标准正交的,那么它的行也必然是标准正交的。
四、 代数与谱性质(特征值与行列式)
行列式:
\[\det(Q) = \pm 1\]$\det(Q) = 1$:表示纯旋转(如旋转矩阵)。
$\det(Q) = -1$:表示包含了反射/镜像(如 Householder 变换)。
证明:$\det(Q^T Q) = \det(I) \Rightarrow (\det Q)^2 = 1$。
特征值:
如果 $\lambda$ 是 $Q$ 的特征值,那么它的模长必须为 1。
\[|\lambda| = 1\]实特征值只能是 $1$ 或 $-1$。
复特征值成对出现(共轭),形式为 $e^{i\theta} = \cos\theta + i\sin\theta$。
范数:
2-范数(谱范数):$|Q|_2 = 1$。
F-范数:$|Q|_F = \sqrt{n}$。
条件数:$\kappa_2(Q) = |Q|_2 |Q^{-1}|_2 = 1 \cdot 1 = 1$。
- 这说明正交矩阵是数值计算最稳定的矩阵(不会放大误差)。
五、 运算封闭性(群性质)
正交矩阵的集合构成了正交群 (Orthogonal Group, $O(n)$)。
乘积封闭:
若 $Q_1, Q_2$ 是正交矩阵,则 $Q_1 Q_2$ 也是正交矩阵。
- 解释:先旋转一下,再旋转一下,总效果还是旋转。
求逆封闭:
若 $Q$ 是正交矩阵,则 $Q^{-1}$(即 $Q^T$)也是正交矩阵。
六、 常见的正交矩阵例子(考试常考)
置换矩阵 (Permutation Matrix):
每一行、每一列只有一个 1,其余为 0。它只交换坐标顺序,不改变数值。
旋转矩阵 (Rotation Matrix) ($2 \times 2$):
\[Q = \begin{pmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{pmatrix}\]反射矩阵 / Householder 矩阵:
\[H = I - 2uu^T\]其中 $u$ 是单位向量 ($|u|=1$)。它关于法向量 $u$ 的超平面进行镜像反射。
- 性质:既是正交阵,又是对称阵,还是对合阵 ($H^2=I$)。
4. 正规矩阵 (Normal Matrix)
这是 Hermite 矩阵、酉矩阵的“父类”,是它们性质的推广。
定义:$A^H A = A A^H$。
包含关系:
Hermite 矩阵 ($A^H=A$) $\subset$ 正规矩阵
反 Hermite 矩阵 ($A^H=-A$) $\subset$ 正规矩阵
酉矩阵 ($A^H=A^{-1}$) $\subset$ 正规矩阵
核心性质(必背):
谱定理:$A$ 是正规矩阵 $\iff$ $A$ 可以酉对角化。
长度性质:$|Ax| = |A^H x|$ (我们刚证明过)。
- 特征向量:$A$ 和 $A^H$ 拥有完全相同的特征向量(但特征值互为共轭)。
- 平移不变性
三、 特殊组合形式:$A^H A$
不管 $A$ 是什么矩阵(甚至是长方形的),$A^H A$ 这个组合形式在矩阵论和机器学习中地位极高。
性质 1:它一定是 Hermite 矩阵
- 证明:$(A^H A)^H = A^H (A^H)^H = A^H A$。
性质 2:它一定是半正定矩阵
这意味着它的特征值全部 $\ge 0$。
证明:$x^H (A^H A) x = (Ax)^H (Ax) = |Ax|^2 \ge 0$。
性质 3:秩的关系
- $\text{rank}(A^H A) = \text{rank}(A)$。
性质 4:与奇异值 (SVD) 的关系
$A$ 的奇异值 ($\sigma_i$) 定义为 $A^H A$ 的特征值 ($\lambda_i$) 的平方根。即 $\sigma_i = \sqrt{\lambda_i(A^H A)}$。
$A$ 的 2-范数 $|A|2 = \sqrt{\lambda{\max}(A^H A)} = \sigma_{\max}$。
- 性质5:非零特征值相等
- 性质6:迹和F范数的开方相等
四、 其他在题目中出现的矩阵
1. 幂等矩阵 (Idempotent Matrix)
定义:$P^2 = P$。
性质:
特征值只能是 0 或 1。
$\text{tr}(P) = \text{rank}(P)$。
- 正交投影矩阵:既是幂等矩阵,又是 Hermite 矩阵的矩阵。
- 相似于对角阵
2. 半正定矩阵 (Positive Semi-definite)
定义:是 Hermite 矩阵,且对于任意 $x \ne 0$,都有 $x^H A x \ge 0$。
判据:所有特征值 $\lambda_i \ge 0$。
3. Kronecker 积 ($A \otimes B$)
性质:
$(A \otimes B)^H = A^H \otimes B^H$
$(A \otimes B)(C \otimes D) = (AC) \otimes (BD)$
$|A \otimes B|_2 = |A|_2 |B|_2$
特征值是 $\lambda_i(A) \cdot \lambda_j(B)$ 4.可交换矩阵 可交换矩阵族可以同时酉三角化。即如果 $AB=BA$,则存在同一个酉矩阵 $U$,使得 $U^H AU$ 和 $U^H BU$ 同时为上三角矩阵。非零特征值相同,迹相同 这是一个非常高阶的线性代数命题。你提到的“非零特征值相同”和“迹相同”通常是一般矩阵乘积($AB$ vs $BA$)的性质,但对于可交换矩阵($AB=BA$),我们能得到更强、更具体的结论。
这里我将分三步为你清晰地证明:
引理: 可交换矩阵拥有至少一个公共特征向量。
核心证明: 可交换矩阵可以同时酉三角化(Simultaneous Unitary Triangularization)。
推论: 利用三角化结果证明特征值和迹的关系。
第一步:引理——公共特征向量
命题:若 $A, B \in \mathbb{C}^{n \times n}$ 且 $AB=BA$,则它们存在一个公共特征向量。
证明:
设 $\lambda$ 是矩阵 $A$ 的一个特征值,$V_\lambda$ 是 $A$ 关于 $\lambda$ 的特征子空间(即 $V_\lambda = {x \mid Ax = \lambda x}$)。
任取 $x \in V_\lambda$,我们需要考察 $B$ 对这个向量的作用。计算 $A(Bx)$:
\[A(Bx) = (AB)x = (BA)x = B(Ax) = B(\lambda x) = \lambda (Bx)\]上式说明:如果你把 $x$ 放在 $V_\lambda$ 里,经过 $B$ 变换后的向量 $Bx$ 依然满足 $A$ 的特征方程。也就是说,$Bx \in V_\lambda$。
结论:$V_\lambda$ 是 $B$ 的不变子空间。
既然 $B$ 限制在空间 $V_\lambda$ 内依然是一个线性变换,那么在复数域下,$B$ 在这个子空间内一定至少有一个特征向量 $v$。
这个 $v$ 既在 $V_\lambda$ 内(是 $A$ 的特征向量),又是 $B$ 的特征向量。因此,$v$ 是 $A$和$B$ 的公共特征向量。
第二步:核心证明——同时酉三角化
命题:若 $AB=BA$,则存在酉矩阵 $U$,使得 $U^H AU = T_A$ 和 $U^H BU = T_B$ 均为上三角矩阵。
证明(数学归纳法):
基础情况:当 $n=1$ 时,矩阵本身就是标量(上三角),结论显然成立。
归纳假设:假设对于 $n-1$ 阶的可交换矩阵,结论成立。
归纳步骤:
根据第一步的引理,$A$ 和 $B$ 存在一个公共特征向量 $x_1$。将其单位化,设为 $u_1$。
将 $u_1$ 扩充为 $\mathbb{C}^n$ 的一组标准正交基 $U_1 = [u_1, u_2, \dots, u_n]$。这是一个酉矩阵。
对 $A$ 进行基变换:
因为 $Au_1 = \lambda_1 u_1$,所以 $U_1^H A U_1$ 的第一列是 $(\lambda_1, 0, \dots, 0)^T$。
\[A^{(1)} = U_1^H A U_1 = \begin{pmatrix} \lambda_1 & * \\ 0 & A_2 \end{pmatrix}\]对 $B$ 进行同样的基变换:
因为 $Bu_1 = \mu_1 u_1$,同理可得:
\[B^{(1)} = U_1^H B U_1 = \begin{pmatrix} \mu_1 & * \\ 0 & B_2 \end{pmatrix}\]关键点:检查 $A^{(1)}$和$B^{(1)}$ 的交换性。
因为 $AB=BA$,所以 $U_1^H A U_1 \cdot U_1^H B U_1 = U_1^H (AB) U_1 = U_1^H (BA) U_1 = U_1^H B U_1 \cdot U_1^H A U_1$。
即 $A^{(1)} B^{(1)} = B^{(1)} A^{(1)}$。
代入分块矩阵计算乘积,你会发现右下角的 $(n-1)$ 阶子块必须满足:
\[A_2 B_2 = B_2 A_2\]既然 $A_2, B_2$ 是 $(n-1)$ 阶的可交换矩阵,由归纳假设,存在 $(n-1)$ 阶酉矩阵 $\hat{U}$ 使得它们同时三角化。
构造最终的酉矩阵 $U = U_1 \begin{pmatrix} 1 & 0 \ 0 & \hat{U} \end{pmatrix}$,即可将 $A, B$ 同时化为上三角矩阵。
证毕。
第三步:推论(特征值与迹的性质)
既然 $A$ 和 $B$ 可以通过同一个 $U$ 变成上三角矩阵 $T_A$ 和 $T_B$:
\[T_A = \begin{pmatrix} \lambda_1 & * & * \\ 0 & \ddots & * \\ 0 & 0 & \lambda_n \end{pmatrix}, \quad T_B = \begin{pmatrix} \mu_1 & * & * \\ 0 & \ddots & * \\ 0 & 0 & \mu_n \end{pmatrix}\]这里的对角元 $\lambda_i$ 和 $\mu_i$ 分别是 $A$ 和 $B$ 的特征值,且顺序是对应的(对应同一个公共特征向量)。
1. 关于 $AB$ 的特征值
我们计算乘积 $AB$ 的相似矩阵:
\[U^H (AB) U = (U^H A U)(U^H B U) = T_A T_B\]两个上三角矩阵的乘积依然是上三角矩阵,且对角线元素是对角线元素的乘积。
\[T_A T_B = \begin{pmatrix} \lambda_1 \mu_1 & * & * \\ 0 & \ddots & * \\ 0 & 0 & \lambda_n \mu_n \end{pmatrix}\]结论:
$AB$ 的特征值就是 $\lambda_i \mu_i$。
$BA$ 的特征值也是 $\mu_i \lambda_i$。
因此,$AB$ 和 $BA$ 不仅非零特征值相同,连特征值的顺序和代数重数都完全对应相同。
2. 关于迹 (Trace)
迹等于对角线元素之和。
利用上述三角化结果:
\[\text{tr}(AB) = \text{tr}(T_A T_B) = \sum_{i=1}^n \lambda_i \mu_i\] \[\text{tr}(BA) = \text{tr}(T_B T_A) = \sum_{i=1}^n \mu_i \lambda_i\]显然 $\sum \lambda_i \mu_i = \sum \mu_i \lambda_i$。
总结:
对于可交换矩阵,我们通过同时酉三角化得到了比一般矩阵更细致的结构信息:它们可以被视为在同一组基(虽然这组基下的矩阵是三角阵而非对角阵)下的操作,从而使得它们的和、积的特征值可以直接由各自的特征值相加、相乘得到。
五、 快速记忆图谱
遇到题目,先判断属于哪一类,然后调用对应的性质库:
看到 $A^H A = A A^H$ $\to$ 想到 正规矩阵 $\to$ 想到 酉对角化。
看到 $A^H = A$ $\to$ 想到 Hermite $\to$ 想到 实特征值。
看到 $U^H U = I$ $\to$ 想到 酉矩阵 $\to$ 想到 保范数、模长为1。
看到 $A^H A$ $\to$ 想到 奇异值分解 (SVD) 和 半正定。
看到 2-范数 $|A|_2$ $\to$ 想到 最大奇异值。
这也是一个非常棒的总结需求!Moore-Penrose 广义逆(通常记为 $A^+$) 是现代矩阵论解决最小二乘问题、不适定问题的核心工具。
它之所以被称为“广义逆”,是因为它让不可逆的矩阵(甚至长方形矩阵)也能像可逆矩阵一样进行运算。
以下是 $A^+$ 的核心性质清单,你可以把它当作复习的“速查表”:
一、 核心定义(Penrose 四方程)
一个矩阵 $X$ 被称为矩阵 $A$ 的 Moore-Penrose 广义逆(记为 $A^+$),当且仅当它同时满足以下 4 个条件:
$AXA = A$ ($A$ 的广义逆性质)
$XAX = X$ ($X$ 的广义逆性质,即反射性)
$(AX)^H = AX$ ($AX$ 是 Hermite 矩阵)
$(XA)^H = XA$ ($XA$ 是 Hermite 矩阵)
注:满足全部 4 条的 $A^+$ 是唯一存在的。如果只满足第 1 条,称为减号逆 $A^-$(不唯一)。
二、 基础运算性质
这些性质和普通逆矩阵 $A^{-1}$ 很像,但要小心“反序定律”不总是成立。
双重广义逆:
\[(A^+)^+ = A\]转置/共轭转置:
\[(A^H)^+ = (A^+)^H\] \[(A^T)^+ = (A^+)^T\]数乘($\alpha \ne 0$):
\[(\alpha A)^+ = \frac{1}{\alpha} A^+\]秩的关系:
\[\text{rank}(A^+) = \text{rank}(A)\]值域与核空间:
$R(A^+) = R(A^H)$ ($A^+$ 的列空间等于 $A^H$ 的列空间)
$N(A^+) = N(A^H)$
三、 极其重要的投影性质(考点高频)
$A^+$ 最本质的几何意义是正交投影。这一条在证明题(特别是涉及最小二乘解)中经常用到。
向列空间投影:
\[P_{R(A)} = A A^+\]$AA^+$ 是向 $A$ 的值域(列空间) 的正交投影矩阵。
满足 $(AA^+)^2 = AA^+$ 和 $(AA^+)^H = AA^+$。
向行空间投影:
\[P_{R(A^H)} = A^+ A\]- $A^+A$ 是向 $A$ 的行空间(即 $A^H$ 的值域)的正交投影矩阵。
互补投影:
- $I - A^+ A$ 是向 $A$ 的零空间(核空间) 的正交投影。
四、 计算公式(分情况讨论)
这是做计算题时必须掌握的。
情形 1:$A$ 是可逆方阵
\[A^+ = A^{-1}\]情形 2:$A$ 列满秩(Full Column Rank,瘦高型)
此时 $A^H A$ 可逆。
\[A^+ = (A^H A)^{-1} A^H \quad \text{(左逆)}\]情形 3:$A$ 行满秩(Full Row Rank,矮胖型)
此时 $A A^H$ 可逆。
\[A^+ = A^H (A A^H)^{-1} \quad \text{(右逆)}\]情形 4:秩-1 矩阵(Rank-1)
若 $A = xy^H$(或 $A=uv^T$),则:
\[A^+ = \frac{1}{\|x\|^2 \|y\|^2} A^H\](这就是你刚才做的那道证明题的推广形式)。
情形 5:通用情况(SVD 分解)
若 $A = U \Sigma V^H$,其中 $\Sigma = \text{diag}(\sigma_1, \dots, \sigma_r, 0, \dots, 0)$。
则:
\[A^+ = V \Sigma^+ U^H\]其中 $\Sigma^+$ 是将 $\Sigma$ 的非零奇异值取倒数,再转置(如果是长方形)。
\[A^+ = U \Lambda^+ U^H\]
五、 容易踩的坑(Warning)
在普通逆矩阵中,$(AB)^{-1} = B^{-1} A^{-1}$ 总是成立的。
但在广义逆中,$(AB)^+ = B^+ A^+$ 不一定成立!
它成立的充分条件(常见考点):
$A$ 列满秩 且 $B$ 行满秩。
或者 $A, B$ 是酉矩阵。
六、 极限性质(Tikhonov 正则化)
这就是你刚才证明的那道极限题的结论,它建立了广义逆与微扰矩阵求逆的联系:
\[A^+ = \lim_{t \to 0} (A^H A + tI)^{-1} A^H\]或者
\[A^+ = \lim_{t \to 0} A^H (A A^H + tI)^{-1}\]总结记忆法
算数上:它是“倒数”概念的推广(非零取倒数,零还是零)。
几何上:它代表“正交投影”到有效子空间后倒过来映射。
代数上:记住 $A A^+$ 是投影算子,这一点解题最有用。
这是一个非常系统化的总结需求。在矩阵论中,投影矩阵(Projection Matrix) 和 正交投影矩阵(Orthogonal Projection Matrix) 是两个容易混淆但界限分明的概念。
简单来说:正交投影矩阵是投影矩阵的一个特例,它要求投影的方向必须垂直于投影面。
以下是它们的性质对比与详细总结表,适合复习背诵:
一、 一般投影矩阵 (Idempotent Matrix)
在几何上,这对应于“斜投影”(Oblique Projection)。比如夕阳下的影子,影子被拉长了,投影线和地面不是垂直的。
1. 定义
仅需满足 幂等性:
\[P^2 = P\]
2. 核心性质
特征值:只能是 0 或 1。
迹与秩:
\[\text{tr}(P) = \text{rank}(P)\]- 解释:因为特征值只有0和1,迹(特征值之和)就等于非零特征值的个数(秩)。
互补性质:
若 $P$ 是投影矩阵,则 $I - P$ 也是投影矩阵。
$P$ 是向值域 $R(P)$ 投影,$I-P$ 是向核空间 $N(P)$ 投影。
空间分解:
全空间 $V$ 被分解为直和:
\[V = R(P) \oplus N(P)\]注意:这里的两个子空间 $R(P)$ 和 $N(P)$ 不一定垂直。
可对角化:
- $P$ 一定相似于对角阵 $\text{diag}(1, \dots, 1, 0, \dots, 0)$。
二、 正交投影矩阵 (Orthogonal Projection Matrix)
在几何上,这对应于“正投影”。比如正午太阳直射下的影子,投影线垂直于地面。它是连接线性代数与几何优化的桥梁(如最小二乘法)。
1. 定义
必须同时满足两个条件:
幂等性:
\[P^2 = P\](它是投影)
Hermite性:
\[P^H = P\](它是正交的)
2. 核心性质(包含所有一般投影的性质,并增加了以下性质)
正规性:它是正规矩阵(因为 $P^H P = P P = P^2 = P$,且 $P P^H = P^2 = P$),所以可以酉对角化。
半正定性:它是半正定矩阵(特征值 0 或 1,均非负)。
正交性:
值域与核空间相互垂直:
\[R(P) \perp N(P)\]全空间是正交直和:
\[V = R(P) \perp N(P)\]
范数性质(不放大长度):
- \[\|Px\|_2 \le \|x\|_2\]
- 对于一般投影矩阵,这不一定成立(斜投影可能会把向量拉得很长)。
最小距离性质(几何意义):
对于任意向量 $x$, $Px$ 是子空间 $R(P)$ 中距离 $x$ 最近的点。
即 $\min_{y \in R(P)} |x - y|_2 = |x - Px|_2$。
三、 两个重要的计算公式(考研/考试必背)
假设子空间 $V$ 由矩阵 $A$ 的列向量张成(即 $V = R(A)$)。我们想求向 $V$ 投影的矩阵 $P_V$。
情况 1:$A$ 的列向量是任意基(仅要求列满秩)
\[P = A(A^H A)^{-1} A^H\](这就是最小二乘法 $A^T A \hat{x} = A^T b$ 对应的投影算子)
情况 2:$A$ 的列向量是标准正交基(即 $A^H A = I$)
此时公式极大简化:
\[P = A A^H\]关联复习:结合你刚才问的广义逆,对于任意矩阵 $A$,向其列空间投影的正交投影矩阵就是 $P = A A^+$。
四、 一张表总结差异
| 性质 | 一般投影矩阵 (P) | 正交投影矩阵 (Porth) |
|---|---|---|
| 定义 | $P^2=P$ | $P^2=P$ 且 $P^H=P$ |
| 几何名称 | 斜投影 (Oblique) | 正投影 (Orthogonal) |
| 子空间关系 | $R(P)$ 与 $N(P)$ 互补但不一定垂直 | $R(P) \perp N(P)$ (相互垂直) |
| 2-范数 | $|P|_2 \ge$ (除非 $ $P$) | $|P|$ 只有 0 或 1 |
| 向量长度 | 可能拉长向量 ($|Px| > $) | 永不拉长向量 ($|Px| \le $) |
| 矩阵类型 | 可能是非对称阵 | 必定是 Hermite 阵 (实对称阵) |
希望这个总结能帮你彻底分清这两个概念!在做题时,只要看到“投影”二字,先看有没有“正交”或者“对称/Hermite”这个条件,结论会大不相同。
这也是矩阵论的核心骨架——“四个基本子空间”(Four Fundamental Subspaces)。
搞清楚像空间(即列空间)、零空间以及它们之间的正交关系,是你理解线性方程组解的结构、最小二乘法以及投影矩阵的基础。
我将从定义、维度关系、正交关系、以及物理意义四个维度为你总结。
一、 核心定义与等价关系
假设 $A \in \mathbb{C}^{m \times n}$ 是一个 $m \times n$ 的矩阵。
1. 像空间 (Image Space) / 列空间 (Column Space)
这两个概念在矩阵语境下通常是指同一个东西。
符号:$\text{Im}(A)$ 或 $R(A)$ (Range) 或 $\text{Col}(A)$。
定义:矩阵 $A$ 的所有列向量张成的空间。
数学表达:
\[R(A) = \{ y \in \mathbb{C}^m \mid \exists x \in \mathbb{C}^n, y = Ax \}\]直观理解:所有可能的输出向量组成的集合。也就是方程组 $Ax=b$ 中,当 $x$ 变化时,$b$ 能取到的所有值的集合。
2. 零空间 (Null Space) / 核空间 (Kernel)
符号:$\text{Nul}(A)$ 或 $\text{Ker}(A)$ 或 $N(A)$。
定义:所有被矩阵 $A$ 变换为零向量的输入向量的集合。
数学表达:
\[N(A) = \{ x \in \mathbb{C}^n \mid Ax = 0 \}\]直观理解:线性变换中的“盲区”或“塌缩区”。在这个空间里的向量,经过 $A$ 作用后都消失了(变成了0)。
二、 维度的灵魂:秩-零化度定理
这是线性代数最著名的定理之一,它连接了输入空间和输出空间。
秩 (Rank):
$\text{rank}(A) = \dim(R(A))$。
即列空间的维数(线性无关列的个数)。
零化度 (Nullity):
$\text{nullity}(A) = \dim(N(A))$。
即方程 $Ax=0$ 基础解系中向量的个数(自由变量的个数)。
定理公式:
\[\text{rank}(A) + \text{nullity}(A) = n \quad (\text{列数,即输入维度})\]物理意义:输入空间的维度 $n$ 被拆分成了两部分:一部分真正传递出去了(变成了秩),另一部分被压缩没了(变成了零化度)。
三、 空间的正交互补关系(矩阵论高阶考点)
这是做证明题(尤其是涉及 $A^H, A^T$)时的关键。在复数域下,我们讨论 $A^H$;实数域下讨论 $A^T$。
基本互补定理:
整个空间可以被完美地切分为互不相交且垂直的两部分。
输入空间 $\mathbb{C}^n$ 的分解:
\[\text{Nul}(A) \perp \text{Col}(A^H)\] \[N(A) = R(A^H)^\perp\]解释:$Ax=0$ 意味着 $x$ 垂直于 $A$ 的每一行(即 $A^H$ 的每一列)。
结论:任意输入向量 $x$ 都可以唯一分解为 $x = x_r + x_n$,其中 $x_r$ 来自行空间,$x_n$ 来自零空间。
输出空间 $\mathbb{C}^m$ 的分解:
\[\text{Nul}(A^H) \perp \text{Col}(A)\] \[N(A^H) = R(A)^\perp\]这是“弗雷德霍姆择一性定理”的基础:方程 $Ax=b$ 有解 $\iff b \perp N(A^H)$。
几何意义:列空间的正交补是左零空间。
四、 它们在解方程组中的角色
对于方程 $Ax = b$:
要有解:
向量 $b$ 必须落在 列空间 $R(A)$ 里。
解的结构:
通解 = 特解 $x_p$ + 齐次通解 $x_n$。
$x_p$ 负责“够得着” $b$。
$x_n$ 来自 零空间 $N(A)$,它负责由 $Ax=0$ 带来的自由度。
解的唯一性:
若 零空间 $N(A) = {0}$,则解唯一(列满秩)。
若零空间不为零,则有无穷多解。
五、 总结与记忆表
| 概念 | 符号 | 所在空间 | 维度公式 | 几何意义 | 关联的正交投影矩阵 |
|---|---|---|---|---|---|
| 列空间 (像) | $R(A)$ | $\mathbb{C}^m$ (输出) | $r = \text{rank}(A)$ | $A$ 能生成的空间 | $P = A A^+$ |
| 零空间 (核) | $N(A)$ | $\mathbb{C}^n$ (输入) | $n - r$ | $A$ 把它压缩为0的空间 | $P = I - A^+ A$ |
| 行空间 | $R(A^H)$ | $\mathbb{C}^n$ (输入) | $r$ | $A$ 的行张成的空间 | $P = A^+ A$ |
| 左零空间 | $N(A^H)$ | $\mathbb{C}^m$ (输出) | $m - r$ | $A$ 无法覆盖的空间方向 | $P = I - A A^+$ |
最重要的一句话总结:
矩阵 $A$ 像一个筛子,把输入空间 $\mathbb{C}^n$ 中的 零空间 $N(A)$ 筛掉(变成0),剩下的 行空间 $R(A^H)$ 被无损地(一一对应地)映射到了输出空间的 列空间 $R(A)$ 中。
简单来说,$AB$ 和 $BA$ 的特征多项式仅仅相差一个因子 $\lambda^{m-n}$。这意味着它们的非零特征值完全相同,只有 0 特征值的个数不同。
我们可以通过两种方式来理解:一种是直观的代数推导(容易懂),另一种是严格的行列式证明(通过特征多项式)。
方法一:直观推导(利用特征向量定义)
这是最容易理解的方法。我们直接看特征值的定义式。
证明步骤:
假设 $\lambda$ 是矩阵 $AB$ 的一个非零特征值。
设 $x$ 是对应的特征向量($x \neq 0$)。
根据定义有:
\[ABx = \lambda x\]关键一步:在这个等式两边同时左乘矩阵 $B$。
\[B(ABx) = B(\lambda x)\]利用结合律:
\[(BA)(Bx) = \lambda (Bx)\]分析结果:
上式看起来很像 $BA$ 的特征值定义式:$(BA)y = \lambda y$,其中 $y = Bx$。
为了证明 $\lambda$ 确实是 $BA$ 的特征值,我们要确保新的向量 $y = Bx$ 不是零向量。
假设 $Bx = 0$,代回最开始的式子 $ABx = \lambda x$,会得到 $A(0) = \lambda x \implies 0 = \lambda x$。
因为我们已知 $x \neq 0$ 且假设 $\lambda \neq 0$,所以 $0 = \lambda x$ 是不可能成立的。
结论:因此 $Bx$ 一定不为 0。
最终结论:
$\lambda$ 也是 $BA$ 的特征值,且对应的特征向量是 $Bx$。
反之亦然:如果 $\lambda$ 是 $BA$ 的非零特征值,同理左乘 $A$,可证 $\lambda$ 也是 $AB$ 的特征值。
这也是矩阵论中非常基础且高频考察的知识点。矩阵的迹(Trace) 虽然定义简单(对角线元素之和),但它连接了矩阵的代数形式、几何性质和谱理论(特征值)。
以下是关于迹 ($\text{tr}(A)$) 的全方位性质总结,建议按分类记忆:
一、 基础代数性质(计算规则)
定义:$\text{tr}(A) = \sum_{i=1}^n a_{ii}$。
线性性质:
\[\text{tr}(\alpha A + \beta B) = \alpha \text{tr}(A) + \beta \text{tr}(B)\]- 这意味着迹是一个线性算子。
转置不变性:
\[\text{tr}(A^T) = \text{tr}(A)\]- 若是共轭转置:$\text{tr}(A^H) = \overline{\text{tr}(A)}$ (复数共轭)。
循环性质(最重要考点):
\[\text{tr}(AB) = \text{tr}(BA)\]即使 $A$ 是 $m \times n$, $B$ 是 $n \times m$(此时 $AB$ 和 $BA$ 尺寸不同),结论依然成立。
推广:$\text{tr}(ABC) = \text{tr}(BCA) = \text{tr}(CAB)$。
警告:$\text{tr}(ABC) \neq \text{tr}(ACB)$ (一般情况下,不能随意交换非相邻矩阵的顺序)。
二、 谱性质(与特征值的关系)
这是迹在证明题中最强大的功能。
特征值之和:
\[\text{tr}(A) = \sum_{i=1}^n \lambda_i\]- 推论:如果 $A$ 是幂零矩阵(即 $A^k=0$),特征值全为 0,则 $\text{tr}(A) = 0$。
相似不变性(酉不变性):
如果 $A \sim B$(即 $B = P^{-1} A P$),则:
\[\text{tr}(A) = \text{tr}(B)\]- 这是因为特征值相同,或者直接用循环性证明:$\text{tr}(P^{-1}AP) = \text{tr}(APP^{-1}) = \text{tr}(A)$。
特征多项式系数:
特征多项式 $f(\lambda) = \det(\lambda I - A) = \lambda^n - c_1 \lambda^{n-1} + \dots$
其中次高次项系数 $c_1 = \text{tr}(A)$。
三、 几何与范数性质(与长度的关系)
Frobenius 范数(F-范数):
\[\|A\|_F^2 = \sum_{i,j} |a_{ij}|^2 = \text{tr}(A^H A) = \sum_{i=1}^n \sigma_i^2\]- 这是迹最常用的几何意义,表示矩阵元素的平方和,也等于奇异值平方和。
内积定义:
在矩阵空间中,标准的内积定义为:
\[\langle A, B \rangle = \text{tr}(A^H B)\]秩与投影(高频考点):
如果 $P$ 是幂等矩阵($P^2=P$,即投影矩阵),则:
\[\text{tr}(P) = \text{rank}(P)\]- 原因:投影矩阵的特征值只能是 1 或 0,非零特征值个数(秩)即为特征值之和(迹)。
四、 高级运算性质
Kronecker 积:
\[\text{tr}(A \otimes B) = \text{tr}(A) \cdot \text{tr}(B)\]Hadamard 积(元素对应相乘):
\[\text{tr}(A^T (B \circ C)) = \text{tr}((A \circ B)^T C)\]微积分(矩阵求导):
$\frac{\partial \text{tr}(AX)}{\partial X} = A^T$
$\frac{\partial \text{tr}(X^T A X)}{\partial X} = (A + A^T)X$
这些在机器学习推导(如最小二乘法)中非常常用。
五、 易错点提醒
迹的乘积 $\neq$ 乘积的迹:
一般情况下,$\text{tr}(AB) \neq \text{tr}(A) \cdot \text{tr}(B)$。
(除非是 Kronecker 积,那是 $\otimes$,不是矩阵乘法)。
不等式:
$\text{tr}(AB) \le \text{tr}(A) \text{tr}(B)$ 这种结论通常是不成立的。
正确的类似结论是 Cauchy-Schwarz 不等式:
$ \text{tr}(A^H B) \le |A|_F |B|_F$。
一句话总结:
遇到求和、范数、或者特征值求和的问题,优先想 $\text{tr}(A)$;遇到 $AB$ 和 $BA$ 交换的问题,优先利用 $\text{tr}(AB)=\text{tr}(BA)$。
这是一道非常经典的矩阵论题目,被称为 Schur 不等式。它揭示了矩阵的特征值(Eigenvalues)与奇异值(Singular Values)之间的深刻关系,同时给出了正规矩阵(Normal Matrix)的一个重要判定准则。
以下是详细的解答、证明过程及考点扩展。
一、 详细证明过程
| 题目:设 $A \in \mathbb{C}^{n \times n}$, $\lambda_i$ 是 $A$ 的特征值,$\sigma_i$ 是 $A$ 的奇异值。证明 $\sum_i | \lambda_i | ^2 \le \text{tr}(A^H A) = \sum_i \sigma_i^2$,且等式成立的充要条件是 $A$ 为正规矩阵。 |
证明思路:
利用 Schur 三角化定理(任何方阵都可以通过酉相似变换变为上三角矩阵)以及 Frobenius 范数的酉不变性。
步骤 1:利用 Schur 分解
根据 Schur 定理,对于任意 $n$ 阶复方阵 $A$,存在一个酉矩阵 $U$(满足 $U^H U = I$)和一个上三角矩阵 $T$,使得:
\[A = U T U^H\]其中,$T$ 的主对角线元素 $t_{ii}$ 正是 $A$ 的特征值 $\lambda_1, \lambda_2, \dots, \lambda_n$。
即 $T$ 的形式为:
\[T = \begin{pmatrix} \lambda_1 & t_{12} & \dots & t_{1n} \\ 0 & \lambda_2 & \dots & t_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \dots & \lambda_n \end{pmatrix}\]步骤 2:利用 F-范数(Frobenius Norm)的酉不变性
考察 $\text{tr}(A^H A)$。根据定义,这实际上是矩阵 $A$ 的 Frobenius 范数的平方 $|A|_F^2$。
由于 F-范数是酉不变的(即乘以酉矩阵不改变矩阵元素的平方和),我们有:
\[\begin{aligned} \text{tr}(A^H A) &= \|A\|_F^2 \\ &= \|U T U^H\|_F^2 \\ &= \|T\|_F^2 \quad (\text{因为 } U \text{ 是酉矩阵}) \end{aligned}\](注:这一步也可以直接通过迹的循环性证明:$\text{tr}(A^H A) = \text{tr}(U T^H U^H U T U^H) = \text{tr}(U T^H T U^H) = \text{tr}(T^H T)$)
步骤 3:展开上三角矩阵的范数
计算上三角矩阵 $T$ 的 F-范数平方(所有元素的模长平方和):
\[\|T\|_F^2 = \sum_{i=1}^n \sum_{j=1}^n |t_{ij}|^2\]将对角线元素和非对角线元素分开:
\[\|T\|_F^2 = \sum_{i=1}^n |t_{ii}|^2 + \sum_{i < j} |t_{ij}|^2\]因为 $t_{ii} = \lambda_i$,代入得:
\[\text{tr}(A^H A) = \sum_{i=1}^n |\lambda_i|^2 + \sum_{i < j} |t_{ij}|^2\]步骤 4:证明不等式
| 显然,矩阵元素的模平方和 $\sum_{i < j} | t_{ij} | ^2 \ge 0$。 |
因此:
\[\text{tr}(A^H A) \ge \sum_{i=1}^n |\lambda_i|^2\]又因为 $A$ 的奇异值 $\sigma_i$ 定义为 $A^H A$ 的特征值的平方根,所以 $\text{tr}(A^H A) = \sum \sigma_i^2$。
综上得证:
\[\sum_{i=1}^n |\lambda_i|^2 \le \sum_{i=1}^n \sigma_i^2\]步骤 5:证明等式成立的充要条件
观察步骤 3 中的等式,不等式变成等式的充要条件是:
\[\sum_{i < j} |t_{ij}|^2 = 0\]这意味着 $T$ 的所有非对角元素($i < j$)都必须为 0。
$\iff T$ 是一个对角矩阵。
$\iff A$ 酉相似于一个对角矩阵 ($A = U \Lambda U^H$)。
$\iff A$ 是正规矩阵 (Normal Matrix)。
(注:正规矩阵的定义是 $A^H A = A A^H$,它的核心性质就是可以被酉对角化)
证毕。
二、 核心知识点归纳
这道题串联了矩阵论中几个极其重要的概念:
Schur 分解 (Schur Decomposition):
$A = U T U^H$。这是处理非对称矩阵特征值问题的首选工具。
相比于 Jordan 标准型,Schur 分解涉及的是酉矩阵,数值上更稳定。
正规矩阵 (Normal Matrix):
定义:$A^H A = A A^H$。
判定:$A$ 是正规矩阵 $\iff$ $\sum \lambda_i ^2 = |A|_F^2$。 - 常见例子:Hermite 矩阵、反 Hermite 矩阵、酉矩阵都是正规矩阵。
奇异值与特征值的关系:
奇异值 $\sigma_i$ 描述矩阵的几何拉伸长度。
特征值 $\lambda_i$ 描述矩阵的谱性质。
一般来说 $\sigma_i \ne \lambda_i $,但对于正规矩阵,$\sigma_i = \lambda_i $(对于对应的排序)。
三、 考点扩展与变式
这道题在考试中常有以下变种,建议掌握:
1. 变式:Hermite 矩阵的情况
如果 $A$ 是 Hermite 矩阵($A^H = A$),它是正规矩阵的一种。
此时等式成立,且特征值 $\lambda_i$ 都是实数。结论退化为 $\sum \lambda_i^2 = \text{tr}(A^2) = \sum \sigma_i^2$。
2. 变式:如果是一般矩阵,差值是多少?
不等式 $\sum \sigma_i^2 - \sum \lambda_i ^2$ 的差值被称为矩阵的 非正规度 (Departure from Normality)。这个值越大,说明矩阵 $A$ 离正规矩阵越远,这在数值分析中意味着特征值的计算可能越不稳定。
3. 关联不等式:Weyl 不等式
Schur 不等式是关于平方和的。如果是乘积呢?
\[\prod_{i=1}^k |\lambda_i| \le \prod_{i=1}^k \sigma_i\](其中特征值和奇异值都按模降序排列)。
特别地,当 $k=n$ 时,取等号:$ \det(A) = \prod \lambda_i = \prod \sigma_i$(这是你图片中第 14 题的结论)。
希望这个解答能帮你彻底吃透这道题!如果有不懂的步骤,欢迎继续提问。