深入理解谱范数
原始定义
对于矩阵 $B \in \mathbb{C}^{n \times n}$ ,其谱范数(又称算子范数)定义为:
$$
|B|_2=\sup _{|x|_2=1}|B x|_2,
$$
其中 $|x|_2=\sqrt{x^H x}$ 是向量的欧几里得范数。
谱范数的物理意义是:它能将单位球面映射到的像集合的"最大拉伸倍数"。
为什么要限制 $|x|_2=1$,如果不限制输入长度,放大倍数没有意义,因此这里限制向量长度是单位1。
第二定义
教材定义:$|A|2=\sqrt{\lambda{\max }\left(A^H A\right)}$
$$
|A x|_2^2=x^H A^H A x,
$$
而 $x^H A^H A x$ 是一个标准的"二次型",有一个著名结论:
$$
\max _{|x|2=1} x^H A^H A x=\lambda{\max }\left(A^H A\right) .
$$
为什么?有一个结论,对称矩阵作用在一个方向上的伸缩量 = 该方向对应的特征值
而以上矩阵一定是对称矩阵,所以这个伸缩量一定是最大特征值,也就是第二个定义。
把两边开平方:
$$
\max _{|x|_2=1}|A x|2=\sqrt{\lambda{\max }\left(A^H A\right)} .
$$
也就是:
$$
|A|2=\sqrt{\lambda{\max }\left(A^H A\right)} .
$$
对于对称矩阵来说,存在如下性质:
根据 Hermite 矩阵的性质,$\left|A^H A\right|2=\lambda{\max }\left(A^H A\right)$(谱范数等于自身最大特征值)
假如说A本身就是对称矩阵,则$\left|A\right|2=\lambda{\max }\left( A\right)$
性质
(1)$|A|_2=\left|A^H\right|_2=\left|A^T\right|_2=|\bar{A}|_2$
(2)$\left|A^H A\right|_2=\left|A^H A\right|_2=|A|_2^2$
(3)对任何 $n$ 阶西知阵 $U$ 及 $V$ 都有
$$
|U A|_2=|A V|_2=|U A V|_2=|A|_2
$$
第一点,就是转置不影响拉伸,可以理解吗?
第二点通过对称性可以证明
第三点非常可以理解,就是旋转这些操作不会影响矩阵对于向量的伸缩性能。
第二点证明
第一步:分析 $A^H A$ 的矩阵类型
$A^H A$ 是 Hermite 矩阵,因为:
$$
\left(A^H A\right)^H=A^H\left(A^H\right)^H=A^H A
$$
根据 Hermite 矩阵的性质,$\left|A^H A\right|2=\lambda{\max }\left(A^H A\right)$(谱范数等于自身最大特征值)。
第二步:计算 $|A|_2^2$
由谱范数的定义,$|A|2=\sqrt{\lambda{\max }\left(A^H A\right)}$ ,两边平方得:
$$
|A|2^2=\lambda{\max }\left(A^H A\right)
$$
第三步:联立得结论
因为 $\left|A^H A\right|2=\lambda{\max }\left(A^H A\right)$ ,且 $|A|2^2=\lambda{\max }\left(A^H A\right)$ ,所以:
$$
\left|A^H A\right|_2=|A|_2^2
$$
算子范数
定义
在矩阵理论中,常说的“矩阵范数”=“算子范数”(除非特意说明别的特殊范数)。
原始定义:算子范数是由"向量范数"诱导出来的矩阵范数,本质是"矩阵对向量的最大拉伸倍数"。
可以理解为,其原始的定义就是算子范数和矩阵范数的几何意义,可以帮助我们理解。
公式翻译:$|A|_v=\max _{\vec{x} \neq \overrightarrow{0}} \frac{|A \vec{x}|_v}{|\vec{x}|_v}$
简单计算:
例子 1:用矩阵 $\infty$-范数(行和最大)验证
- 矩阵 $A=\left(\begin{array}{ll}1 & 2 \ 3 & 4\end{array}\right)$(之前常用的矩阵,好计算);
- 向量范数 v :选 「向量 $\infty$-范数」(记为 $|\cdot|{\infty}$ ),比如 $\vec{x}=(a, b)^T$ ,则 $|\vec{x}|{\infty}=\max {|a|,|b|}$
(1)选 $\vec{x}_1=(1,0)^T$(沿 x 轴)
- 计算 $A \vec{x}_1: A \vec{x}_1=\binom{1 \times 1+2 \times 0}{3 \times 1+4 \times 0}=\binom{1}{3}$ ;
- 计算范数:$\left|\vec{x}1\right|{\infty}=\max {|1|,|0|}=1,\left|A \vec{x}1\right|{\infty}=\max {|1|,|3|}=3$ ;
- 比值:$\frac{3}{1}=3$ 。
(2)选 $\vec{x}_2=(0,1)^T$(沿 $y$ 轴) - 计算 $A \vec{x}_2=\binom{1 \times 0+2 \times 1}{3 \times 0+4 \times 1}=\binom{2}{4}$ ;
- 范数:$\left|\vec{x}2\right|{\infty}=1,\left|A \vec{x}2\right|{\infty}=\max {|2|,|4|}=4$ ;
- 比值:$\frac{4}{1}=4$(比之前的 3 大)。
OK,这里是使用穷举的方法不断试错,最后慢慢得到一个最大的比值。但是通过数学的方式可以得到严格证明,矩阵的列和范数(1 - 范数)就是 “由向量 1 - 范数诱导的算子范数”(1-范数 就是列和最大)
扩展定理
算子范数是 “向量范数诱导的矩阵范数”,核心是 “矩阵对向量的最大拉伸倍数”;
3 种常用算子范数的计算方法:1 - 范数(列和最大)、∞- 范数(行和最大)、2 - 范数(谱范数,特征值开根);
这就是算子范数的计算方法,直接记住结论即可。
| 诱导的向量范数 | 算子范数名称 | 计算方法(直接套) | 例子 $\left(A=\left(\begin{array}{ll}1 & 2 \ 3 & 4\end{array}\right)\right)$ |
|---|---|---|---|
| 向量 1 - 范数 | 矩阵 1 - 范数(列和范数) | 所有列的 “元素模的和” 取最大值 | 列和:1+3=4,2+4=6 →$|A|_1=6$ |
| 向量∞- 范数 | 矩阵∞- 范数(行和范数) | 所有行的 “元素模的和” 取最大值 | 行和:1+2=3,3+4=7 → $|A|_{\infty}=7$ |
| 向量 2 - 范数 | 矩阵 2 - 范数(谱范数) | $\sqrt{\lambda_{\text{max}}(A^H A)}(A^H A的最大特征值开根)$ | $A^H A=\left(\begin{array}{ll}10 & 14 \ 14 & 20\end{array}\right)$ ,最大特征值 $\approx 29.866 \rightarrow$ 范数 $\approx 5.464$ |
常见范数重新梳理
行和范数(∞- 范数)≥ 列和范数(1 - 范数)≥ F - 范数 ≥ 谱范数(2 - 范数)
F范数,是欧氏距离那个
F-范数(Frobenius 范数):中等大小
-定义:矩阵所有元素的"模的平方和"开根号(类似"把矩阵拆成向量后的 $2-$ 范数",描述矩阵元素的整体大小)。
公式:$|A|F=\sqrt{\sum{i=1}^m \sum_{j=1}^n\left|a_{i j}\right|^2}=\sqrt{\operatorname{tr}\left(A^H A\right)}$(tr 是迹,即对角线元素和)
-计算(以 $A$ 为例):
元素平方和: $1^2+2^2+3^2+4^2=30 \rightarrow|A|_F=\sqrt{30} \approx 5.477$
谱范数,是矩阵转置乘自己,最大特征值的那个。
谱范数(矩阵 2 -范数):通常最小
-定义:矩阵 $A^H A$(共轭转置 × 原矩阵)的"最大特征值"开根号(描述矩阵对"欧氏长度向量"的最大拉伸能力,是所有自相容范数中最小的)。
公式:$|A|2=\sqrt{\lambda{\max }\left(A^H A\right)}$( $\lambda_{\max }$ 表示最大特征值)
-计算(以 $A$ 为例):
1.先算 $A^H A=\left(\begin{array}{ll}1 & 3 \ 2 & 4\end{array}\right)\left(\begin{array}{ll}1 & 2 \ 3 & 4\end{array}\right)=\left(\begin{array}{ll}10 & 14 \ 14 & 20\end{array}\right)$ ;
2.求 $A^H A$ 的最大特征值:解方程 $\operatorname{det}\left(\lambda I-A^H A\right)=0$ ,得最大特征值 $\approx 29.866$ ;
3.开根号:$|A|_2 \approx \sqrt{29.866} \approx 5.464$
谱范数重要结论:
Hermite矩阵定义:
对于复数域上的方阵 $A \in \mathbb{C}^{n \times n}$ ,若满足:
$$
A=A^H
$$
其中 $A^H$ 表示 $A$ 的共轭转置(即先取转置,再对每个元素取复共轭),则称 $A$ 为 Hermite 矩阵(或自伴矩阵)。
Hermite矩阵是实对称矩阵在复数域上的推广:
- 当矩阵元素全为实数时,$A^H=A^T$ ,Hermite矩阵退化为实对称矩阵
- 因此,Hermite矩阵保持了实对称矩阵"特征值为实数"的良好性质,并拓展到复数域
谱半径的定义
$\rho(A)=\max _{1 \leq i \leq n}\left|\lambda_i\right|$
其中 $\lambda_1, \lambda_2, \ldots, \lambda_n$ 是 $A$ 的特征值。
可以看到,其物理意义是判断矩阵是否收敛。
以矩阵 $A=\left(\begin{array}{ll}1 & 2 \ 3 & 4\end{array}\right)$ 为例:
- $A$ 的特征值:$\lambda_1=\frac{5+\sqrt{33}}{2} \approx 5.372, \lambda_2=\frac{5-\sqrt{33}}{2} \approx-0.372$ ;
- 谱半径:$\rho(A)=\max {|5.372|,|-0.372|}=5.372$ ;
- 对比范数:$\rho(A) \approx 5.372<|A|_2 \approx 5.464<|A|_F \approx 5.477<|A|1=6<|A|{\infty}=7$ 一一 符合"谱半径 $\leq$ 任意自相容范数"。
这里的意思就是,谱半径就是最小的
Jordan标准型–行列式因子、不变因子、初等因子
Jordan标准型定义
Jordan 标准型是矩阵分析的 “终极化简工具”—— 把任意复矩阵化为 “最简洁的分块对角矩阵”,核心意义是暴露矩阵的本质结构(特征值、不变方向、幂运算规律)
基础背景知识
基础概念回顾(计算前必懂)
- 特征矩阵:$\lambda I-A$(把 A 的对角线元素减 $\lambda$ ,其余元素变号);
- 行列式因子 $D_k(\lambda): ~ \lambda I-A$ 中所有非零 k 阶子式的最大公因式(首一多项式);
- 不变因子 $d_k(\lambda): d_k(\lambda)=\frac{D_k(\lambda)}{D_{k-1}(\lambda)}\left(D_0(\lambda)=1\right)$ ,满足 $d_1\left|d_2\right| \ldots \mid d_n$ ;
- 初等因子:不变因子分解为一次因式的幂(如 $(\lambda-2)^3 、 \lambda-3$ ),一个初等因子对应一个 Jordan 块(幂次 $=$ Jordan 块阶数,常数项 $=$ 特征值)。
A、特征矩阵
假设矩阵$A=\left(\begin{array}{lll}2 & 1 & 0 \ 0 & 2 & 0 \ 0 & 0 & 3\end{array}\right)$ (3 阶)
则特征矩阵如下:
$\lambda I-A=\left(\begin{array}{ccc}\lambda-2 & -1 & 0 \ 0 & \lambda-2 & 0 \ 0 & 0 & \lambda-3\end{array}\right)$
B、行列式因子
- k 阶子式:从特征矩阵中 “任取 k 行、任取 k 列”,交叉位置的元素组成的 k 阶小矩阵,计算这个小矩阵的行列式,结果就是一个 k 阶子式。
关键:k 可以取 1 到 n(n 是矩阵阶数),1 阶子式就是特征矩阵的 “单个元素”,n 阶子式就是特征矩阵本身的行列式。 - $D_0(\lambda)=1$(0 阶行列式因子默认是 1 ,后续计算要用到);
- $D_n(\lambda)=\operatorname{det}(\lambda I-A)$( n 阶子式只有特征矩阵本身的行列式,所以 n 阶行列式因子就是特征多项式)。
行列式因子 $D_k(\lambda)$ 的核心定义就是 “所有非零 k 阶子式的最大公因式” —— 必须能被每一个非零 k 阶子式整除,而不是只满足其中几个
举例(二阶):
矩阵 $A=\left(\begin{array}{ll}2 & 1 \ 0 & 2\end{array}\right)$, 求行列式因子 $D_1(\lambda) 、 D_2(\lambda)$
步骤 1:写特征矩阵 $\lambda I-A$
$$
\lambda I-A=\left(\begin{array}{cc}
\lambda-2 & -1 \
0 & \lambda-2
\end{array}\right)
$$
步骤 2:计算 $D_1(\lambda)$(1 阶行列式因子)
- 1 阶子式:所有单个元素,即 $\lambda-2 、-1 、 0 、 \lambda-2$ ;
- 剔除零子式:剩下 $\lambda-2 、-1 、 \lambda-2$ ;
- 求最大公因式:$\lambda-2$ 是一次多项式,-1 是常数多项式,它们的最大公因式是 1 (首一);
- 结论:$D_1(\lambda)=1$ 。
步骤 3:计算 $D_2(\lambda)$(2 阶行列式因子)
- 2 阶子式:只有 1 个(取所有行和列),即特征矩阵的行列式:
$$
\operatorname{det}(\lambda I-A)=(\lambda-2)(\lambda-2)-(-1) \times 0=(\lambda-2)^2
$$
- 非零子式只有 $(\lambda-2)^2$ ,最大公因式就是它本身;
- 结论:$D_2(\lambda)=(\lambda-2)^2$ 。
最终行列式因子:$D_0=1, D_1=1, D_2=(\lambda-2)^2$ 。
举例(三阶):
矩阵 $A=\left(\begin{array}{lll}2 & 1 & 0 \ 0 & 2 & 0 \ 0 & 0 & 3\end{array}\right)$ 的特征矩阵,2阶非零子式包括:
1.子式 1:$(\lambda-2)^2$(第 1、2 行,第 1、2 列);
2.子式 2:$(\lambda-2)(\lambda-3)$(第 1、3行,第 1、3 列);
3.子式 3:$-(\lambda-3)$(第 1、3行,第 2、3 列)。
最大公因式:这些多项式没有共同的一次因式,所以 $D_1(\lambda)=1$ 。
所以二阶就只能是1,所以 $D_2(\lambda)=1$
最终行列式因子:$D_0=1, D_1=1, D_2=1, D_3=(\lambda-2)^2(\lambda-3)$ 。
C、求不变因子 + 初等因子
不变因子 $d_k(\lambda): d_k(\lambda)=\frac{D_k(\lambda)}{D_{k-1}(\lambda)}\left(D_0(\lambda)=1\right)$ ,满足 $d_1\left|d_2\right| \ldots \mid d_n$ ;
初等因子:不变因子分解为一次因式的幂(如 $(\lambda-2)^3 、 \lambda-3$ ),一个初等因子对应一个 Jordan 块(幂次 $=$ Jordan 块阶数,常数项 $=$ 特征值)。初等因子(elementary divisors)就是所有不变因子 $d_i$ 分解成一次多项式幂后的全部因子。
举例:
$D_0=1, D_1=1, D_2=(\lambda-2), D_3=(\lambda-2)^2(\lambda-3)$ 。
不变因子:$d_1=\frac{D_1}{D_0}=1 ; d_2=\frac{D_2}{D_1}=\lambda-2 ; d_3=\frac{D_3}{D_2}=\frac{(\lambda-2)^2(\lambda-3)}{\lambda-2}=(\lambda-2)(\lambda-3)$ ;
- $d_1=1$ :没有一次因子
- $d_2=(\lambda-2)$ :贡献1个初等因子 $(\lambda-2)$
- $d_3=(\lambda-2)(\lambda-3)$ :贡献 2 个初等因子
所以,初等因子 = $(\lambda-2),(\lambda-2),(\lambda-3)$(共 3 个,和矩阵阶数 3 —致)
D、Jordan矩阵
方法:
| 初等因子的形式 | 对应的 Jordan 块(阶数 + 结构) | 例子(初等因子 → Jordan 块 |
|---|---|---|
| $\left(\lambda-\lambda_0\right)^1$( 1 次幂) | 1 阶 Jordan 块:$\left[\lambda_0\right]$(无次对角线 1) | $(\lambda-2)^1 \rightarrow[2]$ |
| $\left(\lambda-\lambda_0\right)^2$(2 次幂) | 2 阶 Jordan 块:$\left(\begin{array}{cc}\lambda_0 & 1 \ 0 & \lambda_0\end{array}\right)$ | $(\lambda-3)^2 \rightarrow\left(\begin{array}{ll}3 & 1 \ 0 & 3\end{array}\right)$ |
| $\left(\lambda-\lambda_0\right)^m$( m 次幂) | m 阶 Jordan 块:主对角线 $\lambda_0$ ,次对角线 $\mathrm{m}-1$ 个 1 | $(\lambda-1)^3 \rightarrow\left(\begin{array}{lll}1 & 1 & 0 \ 0 & 1 & 1 \ 0 & 0 & 1\end{array}\right)$ |
举例:
根据初等因子集合 ${\lambda-2, \lambda-2, \lambda-3}$ ,对应 3 个 1 阶 Jordan 块:
1.初等因子 $\lambda-2 \rightarrow 1$ 阶 Jordan 块 $[2]$ ;
2.初等因子 $\lambda-2 \rightarrow 1$ 阶 Jordan 块 $[2]$ ;
3.初等因子 $\lambda-3 \rightarrow 1$ 阶 Jordan 块[3]。
将这 3 个 Jordan 块按"分块对角矩阵"形式拼接,得到 Jordan 标准型:
$$
J=\left(\begin{array}{lll}
2 & 0 & 0 \
0 & 2 & 0 \
0 & 0 & 3
\end{array}\right)
$$
也就是每一个初等因子对应一个Jordan块,把每个因子对应的Jordan块拼凑起来,就是最后的答案。
举例2:
初等因子集合:$\left{(\lambda-2)^2,(\lambda-3)^1\right}$
步骤 2:写 Jordan 块:2 阶块 $\left(\begin{array}{ll}2 & 1 \ 0 & 2\end{array}\right)$ 、1 阶块[3]
步骤 3:排列成 Jordan 矩阵:
$$
J=\left(\begin{array}{cc}
\left(\begin{array}{cc}
2 & 1 \
0 & 2
\end{array}\right) & 0 \
0 & {[3]}
\end{array}\right)=\left(\begin{array}{lll}
2 & 1 & 0 \
0 & 2 & 0 \
0 & 0 & 3
\end{array}\right)
$$
转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 kipleyarch@gmail.com