2025-12-10 矩阵理论02--算子范数

深入理解谱范数

原始定义

对于矩阵 $B \in \mathbb{C}^{n \times n}$ ,其谱范数(又称算子范数)定义为:
$$
|B|_2=\sup _{|x|_2=1}|B x|_2,
$$
其中 $|x|_2=\sqrt{x^H x}$ 是向量的欧几里得范数。
谱范数的物理意义是:它能将单位球面映射到的像集合的"最大拉伸倍数"。

为什么要限制 $|x|_2=1$,如果不限制输入长度,放大倍数没有意义,因此这里限制向量长度是单位1。

第二定义

教材定义:$|A|2=\sqrt{\lambda{\max }\left(A^H A\right)}$
$$
|A x|_2^2=x^H A^H A x,
$$
而 $x^H A^H A x$ 是一个标准的"二次型",有一个著名结论:
$$
\max _{|x|2=1} x^H A^H A x=\lambda{\max }\left(A^H A\right) .
$$
为什么?有一个结论,对称矩阵作用在一个方向上的伸缩量 = 该方向对应的特征值
而以上矩阵一定是对称矩阵,所以这个伸缩量一定是最大特征值,也就是第二个定义。

把两边开平方:
$$
\max _{|x|_2=1}|A x|2=\sqrt{\lambda{\max }\left(A^H A\right)} .
$$
也就是:
$$
|A|2=\sqrt{\lambda{\max }\left(A^H A\right)} .
$$
对于对称矩阵来说,存在如下性质:

根据 Hermite 矩阵的性质,$\left|A^H A\right|2=\lambda{\max }\left(A^H A\right)$(谱范数等于自身最大特征值)
假如说A本身就是对称矩阵,则$\left|A\right|2=\lambda{\max }\left( A\right)$

性质

(1)$|A|_2=\left|A^H\right|_2=\left|A^T\right|_2=|\bar{A}|_2$
(2)$\left|A^H A\right|_2=\left|A^H A\right|_2=|A|_2^2$
(3)对任何 $n$ 阶西知阵 $U$ 及 $V$ 都有
$$
|U A|_2=|A V|_2=|U A V|_2=|A|_2
$$
第一点,就是转置不影响拉伸,可以理解吗?
第二点通过对称性可以证明
第三点非常可以理解,就是旋转这些操作不会影响矩阵对于向量的伸缩性能。

第二点证明

第一步:分析 $A^H A$ 的矩阵类型
$A^H A$ 是 Hermite 矩阵,因为:
$$
\left(A^H A\right)^H=A^H\left(A^H\right)^H=A^H A
$$
根据 Hermite 矩阵的性质,$\left|A^H A\right|2=\lambda{\max }\left(A^H A\right)$(谱范数等于自身最大特征值)。

第二步:计算 $|A|_2^2$
由谱范数的定义,$|A|2=\sqrt{\lambda{\max }\left(A^H A\right)}$ ,两边平方得:
$$
|A|2^2=\lambda{\max }\left(A^H A\right)
$$

第三步:联立得结论
因为 $\left|A^H A\right|2=\lambda{\max }\left(A^H A\right)$ ,且 $|A|2^2=\lambda{\max }\left(A^H A\right)$ ,所以:
$$
\left|A^H A\right|_2=|A|_2^2
$$

算子范数

定义

在矩阵理论中,常说的“矩阵范数”=“算子范数”(除非特意说明别的特殊范数)。

原始定义:算子范数是由"向量范数"诱导出来的矩阵范数,本质是"矩阵对向量的最大拉伸倍数"。
可以理解为,其原始的定义就是算子范数和矩阵范数的几何意义,可以帮助我们理解。

公式翻译:$|A|_v=\max _{\vec{x} \neq \overrightarrow{0}} \frac{|A \vec{x}|_v}{|\vec{x}|_v}$

简单计算:

例子 1:用矩阵 $\infty$-范数(行和最大)验证

  • 矩阵 $A=\left(\begin{array}{ll}1 & 2 \ 3 & 4\end{array}\right)$(之前常用的矩阵,好计算);
  • 向量范数 v :选 「向量 $\infty$-范数」(记为 $|\cdot|{\infty}$ ),比如 $\vec{x}=(a, b)^T$ ,则 $|\vec{x}|{\infty}=\max {|a|,|b|}$

(1)选 $\vec{x}_1=(1,0)^T$(沿 x 轴)

  • 计算 $A \vec{x}_1: A \vec{x}_1=\binom{1 \times 1+2 \times 0}{3 \times 1+4 \times 0}=\binom{1}{3}$ ;
  • 计算范数:$\left|\vec{x}1\right|{\infty}=\max {|1|,|0|}=1,\left|A \vec{x}1\right|{\infty}=\max {|1|,|3|}=3$ ;
  • 比值:$\frac{3}{1}=3$ 。
    (2)选 $\vec{x}_2=(0,1)^T$(沿 $y$ 轴)
  • 计算 $A \vec{x}_2=\binom{1 \times 0+2 \times 1}{3 \times 0+4 \times 1}=\binom{2}{4}$ ;
  • 范数:$\left|\vec{x}2\right|{\infty}=1,\left|A \vec{x}2\right|{\infty}=\max {|2|,|4|}=4$ ;
  • 比值:$\frac{4}{1}=4$(比之前的 3 大)。

OK,这里是使用穷举的方法不断试错,最后慢慢得到一个最大的比值。但是通过数学的方式可以得到严格证明,矩阵的列和范数(1 - 范数)就是 “由向量 1 - 范数诱导的算子范数”(1-范数 就是列和最大)

扩展定理

算子范数是 “向量范数诱导的矩阵范数”,核心是 “矩阵对向量的最大拉伸倍数”;

3 种常用算子范数的计算方法:1 - 范数(列和最大)、∞- 范数(行和最大)、2 - 范数(谱范数,特征值开根);
这就是算子范数的计算方法,直接记住结论即可。

诱导的向量范数 算子范数名称 计算方法(直接套) 例子 $\left(A=\left(\begin{array}{ll}1 & 2 \ 3 & 4\end{array}\right)\right)$
向量 1 - 范数 矩阵 1 - 范数(列和范数) 所有列的 “元素模的和” 取最大值 列和:1+3=4,2+4=6 →$|A|_1=6$
向量∞- 范数 矩阵∞- 范数(行和范数) 所有行的 “元素模的和” 取最大值 行和:1+2=3,3+4=7 → $|A|_{\infty}=7$
向量 2 - 范数 矩阵 2 - 范数(谱范数) $\sqrt{\lambda_{\text{max}}(A^H A)}(A^H A的最大特征值开根)$ $A^H A=\left(\begin{array}{ll}10 & 14 \ 14 & 20\end{array}\right)$ ,最大特征值 $\approx 29.866 \rightarrow$ 范数 $\approx 5.464$

常见范数重新梳理

行和范数(∞- 范数)≥ 列和范数(1 - 范数)≥ F - 范数 ≥ 谱范数(2 - 范数)

F范数,是欧氏距离那个
F-范数(Frobenius 范数):中等大小
-定义:矩阵所有元素的"模的平方和"开根号(类似"把矩阵拆成向量后的 $2-$ 范数",描述矩阵元素的整体大小)。
公式:$|A|F=\sqrt{\sum{i=1}^m \sum_{j=1}^n\left|a_{i j}\right|^2}=\sqrt{\operatorname{tr}\left(A^H A\right)}$(tr 是迹,即对角线元素和)
-计算(以 $A$ 为例):
元素平方和: $1^2+2^2+3^2+4^2=30 \rightarrow|A|_F=\sqrt{30} \approx 5.477$

谱范数,是矩阵转置乘自己,最大特征值的那个。
谱范数(矩阵 2 -范数):通常最小
-定义:矩阵 $A^H A$(共轭转置 × 原矩阵)的"最大特征值"开根号(描述矩阵对"欧氏长度向量"的最大拉伸能力,是所有自相容范数中最小的)。

公式:$|A|2=\sqrt{\lambda{\max }\left(A^H A\right)}$( $\lambda_{\max }$ 表示最大特征值)
-计算(以 $A$ 为例):
1.先算 $A^H A=\left(\begin{array}{ll}1 & 3 \ 2 & 4\end{array}\right)\left(\begin{array}{ll}1 & 2 \ 3 & 4\end{array}\right)=\left(\begin{array}{ll}10 & 14 \ 14 & 20\end{array}\right)$ ;
2.求 $A^H A$ 的最大特征值:解方程 $\operatorname{det}\left(\lambda I-A^H A\right)=0$ ,得最大特征值 $\approx 29.866$ ;
3.开根号:$|A|_2 \approx \sqrt{29.866} \approx 5.464$

谱范数重要结论:

Hermite矩阵定义:

对于复数域上的方阵 $A \in \mathbb{C}^{n \times n}$ ,若满足:
$$
A=A^H
$$
其中 $A^H$ 表示 $A$ 的共轭转置(即先取转置,再对每个元素取复共轭),则称 $A$ 为 Hermite 矩阵(或自伴矩阵)。

Hermite矩阵是实对称矩阵在复数域上的推广:

  • 当矩阵元素全为实数时,$A^H=A^T$ ,Hermite矩阵退化为实对称矩阵
  • 因此,Hermite矩阵保持了实对称矩阵"特征值为实数"的良好性质,并拓展到复数域

谱半径的定义

$\rho(A)=\max _{1 \leq i \leq n}\left|\lambda_i\right|$
其中 $\lambda_1, \lambda_2, \ldots, \lambda_n$ 是 $A$ 的特征值。

可以看到,其物理意义是判断矩阵是否收敛。

以矩阵 $A=\left(\begin{array}{ll}1 & 2 \ 3 & 4\end{array}\right)$ 为例:

  • $A$ 的特征值:$\lambda_1=\frac{5+\sqrt{33}}{2} \approx 5.372, \lambda_2=\frac{5-\sqrt{33}}{2} \approx-0.372$ ;
  • 谱半径:$\rho(A)=\max {|5.372|,|-0.372|}=5.372$ ;
  • 对比范数:$\rho(A) \approx 5.372<|A|_2 \approx 5.464<|A|_F \approx 5.477<|A|1=6<|A|{\infty}=7$ 一一 符合"谱半径 $\leq$ 任意自相容范数"。
    这里的意思就是,谱半径就是最小的

Jordan标准型–行列式因子、不变因子、初等因子

Jordan标准型定义

Jordan 标准型是矩阵分析的 “终极化简工具”—— 把任意复矩阵化为 “最简洁的分块对角矩阵”,核心意义是暴露矩阵的本质结构(特征值、不变方向、幂运算规律)

基础背景知识

基础概念回顾(计算前必懂)

  • 特征矩阵:$\lambda I-A$(把 A 的对角线元素减 $\lambda$ ,其余元素变号);
  • 行列式因子 $D_k(\lambda): ~ \lambda I-A$ 中所有非零 k 阶子式的最大公因式(首一多项式);
  • 不变因子 $d_k(\lambda): d_k(\lambda)=\frac{D_k(\lambda)}{D_{k-1}(\lambda)}\left(D_0(\lambda)=1\right)$ ,满足 $d_1\left|d_2\right| \ldots \mid d_n$ ;
  • 初等因子:不变因子分解为一次因式的幂(如 $(\lambda-2)^3 、 \lambda-3$ ),一个初等因子对应一个 Jordan 块(幂次 $=$ Jordan 块阶数,常数项 $=$ 特征值)。

A、特征矩阵

假设矩阵$A=\left(\begin{array}{lll}2 & 1 & 0 \ 0 & 2 & 0 \ 0 & 0 & 3\end{array}\right)$ (3 阶)

则特征矩阵如下:

$\lambda I-A=\left(\begin{array}{ccc}\lambda-2 & -1 & 0 \ 0 & \lambda-2 & 0 \ 0 & 0 & \lambda-3\end{array}\right)$

B、行列式因子

  • k 阶子式:从特征矩阵中 “任取 k 行、任取 k 列”,交叉位置的元素组成的 k 阶小矩阵,计算这个小矩阵的行列式,结果就是一个 k 阶子式。
    关键:k 可以取 1 到 n(n 是矩阵阶数),1 阶子式就是特征矩阵的 “单个元素”,n 阶子式就是特征矩阵本身的行列式。
  • $D_0(\lambda)=1$(0 阶行列式因子默认是 1 ,后续计算要用到);
  • $D_n(\lambda)=\operatorname{det}(\lambda I-A)$( n 阶子式只有特征矩阵本身的行列式,所以 n 阶行列式因子就是特征多项式)。

行列式因子 $D_k(\lambda)$ 的核心定义就是 “所有非零 k 阶子式的最大公因式” —— 必须能被每一个非零 k 阶子式整除,而不是只满足其中几个

举例(二阶):

矩阵 $A=\left(\begin{array}{ll}2 & 1 \ 0 & 2\end{array}\right)$, 求行列式因子 $D_1(\lambda) 、 D_2(\lambda)$
步骤 1:写特征矩阵 $\lambda I-A$

$$
\lambda I-A=\left(\begin{array}{cc}
\lambda-2 & -1 \
0 & \lambda-2
\end{array}\right)
$$
步骤 2:计算 $D_1(\lambda)$(1 阶行列式因子)

  • 1 阶子式:所有单个元素,即 $\lambda-2 、-1 、 0 、 \lambda-2$ ;
  • 剔除零子式:剩下 $\lambda-2 、-1 、 \lambda-2$ ;
  • 求最大公因式:$\lambda-2$ 是一次多项式,-1 是常数多项式,它们的最大公因式是 1 (首一);
  • 结论:$D_1(\lambda)=1$ 。

步骤 3:计算 $D_2(\lambda)$(2 阶行列式因子)

  • 2 阶子式:只有 1 个(取所有行和列),即特征矩阵的行列式:

$$
\operatorname{det}(\lambda I-A)=(\lambda-2)(\lambda-2)-(-1) \times 0=(\lambda-2)^2
$$

  • 非零子式只有 $(\lambda-2)^2$ ,最大公因式就是它本身;
  • 结论:$D_2(\lambda)=(\lambda-2)^2$ 。

最终行列式因子:$D_0=1, D_1=1, D_2=(\lambda-2)^2$ 。

举例(三阶):

矩阵 $A=\left(\begin{array}{lll}2 & 1 & 0 \ 0 & 2 & 0 \ 0 & 0 & 3\end{array}\right)$ 的特征矩阵,2阶非零子式包括:

1.子式 1:$(\lambda-2)^2$(第 1、2 行,第 1、2 列);
2.子式 2:$(\lambda-2)(\lambda-3)$(第 1、3行,第 1、3 列);
3.子式 3:$-(\lambda-3)$(第 1、3行,第 2、3 列)。

最大公因式:这些多项式没有共同的一次因式,所以 $D_1(\lambda)=1$ 。
所以二阶就只能是1,所以 $D_2(\lambda)=1$

最终行列式因子:$D_0=1, D_1=1, D_2=1, D_3=(\lambda-2)^2(\lambda-3)$ 。

C、求不变因子 + 初等因子

不变因子 $d_k(\lambda): d_k(\lambda)=\frac{D_k(\lambda)}{D_{k-1}(\lambda)}\left(D_0(\lambda)=1\right)$ ,满足 $d_1\left|d_2\right| \ldots \mid d_n$ ;

初等因子:不变因子分解为一次因式的幂(如 $(\lambda-2)^3 、 \lambda-3$ ),一个初等因子对应一个 Jordan 块(幂次 $=$ Jordan 块阶数,常数项 $=$ 特征值)。初等因子(elementary divisors)就是所有不变因子 $d_i$ 分解成一次多项式幂后的全部因子。

举例:

$D_0=1, D_1=1, D_2=(\lambda-2), D_3=(\lambda-2)^2(\lambda-3)$ 。

不变因子:$d_1=\frac{D_1}{D_0}=1 ; d_2=\frac{D_2}{D_1}=\lambda-2 ; d_3=\frac{D_3}{D_2}=\frac{(\lambda-2)^2(\lambda-3)}{\lambda-2}=(\lambda-2)(\lambda-3)$ ;

  • $d_1=1$ :没有一次因子
  • $d_2=(\lambda-2)$ :贡献1个初等因子 $(\lambda-2)$
  • $d_3=(\lambda-2)(\lambda-3)$ :贡献 2 个初等因子

所以,初等因子 = $(\lambda-2),(\lambda-2),(\lambda-3)$(共 3 个,和矩阵阶数 3 —致)

D、Jordan矩阵

方法:

初等因子的形式 对应的 Jordan 块(阶数 + 结构) 例子(初等因子 → Jordan 块
$\left(\lambda-\lambda_0\right)^1$( 1 次幂) 1 阶 Jordan 块:$\left[\lambda_0\right]$(无次对角线 1) $(\lambda-2)^1 \rightarrow[2]$
$\left(\lambda-\lambda_0\right)^2$(2 次幂) 2 阶 Jordan 块:$\left(\begin{array}{cc}\lambda_0 & 1 \ 0 & \lambda_0\end{array}\right)$ $(\lambda-3)^2 \rightarrow\left(\begin{array}{ll}3 & 1 \ 0 & 3\end{array}\right)$
$\left(\lambda-\lambda_0\right)^m$( m 次幂) m 阶 Jordan 块:主对角线 $\lambda_0$ ,次对角线 $\mathrm{m}-1$ 个 1 $(\lambda-1)^3 \rightarrow\left(\begin{array}{lll}1 & 1 & 0 \ 0 & 1 & 1 \ 0 & 0 & 1\end{array}\right)$

举例:

根据初等因子集合 ${\lambda-2, \lambda-2, \lambda-3}$ ,对应 3 个 1 阶 Jordan 块:

1.初等因子 $\lambda-2 \rightarrow 1$ 阶 Jordan 块 $[2]$ ;
2.初等因子 $\lambda-2 \rightarrow 1$ 阶 Jordan 块 $[2]$ ;
3.初等因子 $\lambda-3 \rightarrow 1$ 阶 Jordan 块[3]。

将这 3 个 Jordan 块按"分块对角矩阵"形式拼接,得到 Jordan 标准型:
$$
J=\left(\begin{array}{lll}
2 & 0 & 0 \
0 & 2 & 0 \
0 & 0 & 3
\end{array}\right)
$$
也就是每一个初等因子对应一个Jordan块,把每个因子对应的Jordan块拼凑起来,就是最后的答案。

举例2:

初等因子集合:$\left{(\lambda-2)^2,(\lambda-3)^1\right}$
步骤 2:写 Jordan 块:2 阶块 $\left(\begin{array}{ll}2 & 1 \ 0 & 2\end{array}\right)$ 、1 阶块[3]
步骤 3:排列成 Jordan 矩阵:
$$
J=\left(\begin{array}{cc}
\left(\begin{array}{cc}
2 & 1 \
0 & 2
\end{array}\right) & 0 \
0 & {[3]}
\end{array}\right)=\left(\begin{array}{lll}
2 & 1 & 0 \
0 & 2 & 0 \
0 & 0 & 3
\end{array}\right)
$$


转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 kipleyarch@gmail.com
Obsidian