极分解(Polar Decomposition)的详解

引言

在数值线性代数中,极分解(Polar Decomposition) 是一种重要的矩阵分解形式,类似于复数的极坐标表示。若将一个复数 z z z 表示为
z = r e i θ , r ≥ 0 , θ ∈ R , z = r e^{i\theta}, \quad r \ge 0, \quad \theta \in \mathbb{R}, z=reiθ,r0,θR,
则可以将“长度” r r r 与“相位” e i θ e^{i\theta} eiθ 分开。极分解就是将这一思想推广到矩阵的情境中,通过将矩阵分为“正定(或半正定)部分”和“酉(或正交)部分”来描述其变换。


极分解的基本概念

A A A 为一个 m × n m \times n m×n 矩阵(实或复)。极分解所要做的是把 A A A 分解为
A = U   P , A = U\,P, A=UP,
其中:

  • P P P 为一个对称(或厄米)正定(或半正定)矩阵
  • U U U 为一个正交(或酉)部分矩阵(若 A A A 可逆且方阵,则 U U U 为正交(或酉)矩阵)。

如果 A A A 是方阵且可逆,那就可以得到唯一的极分解:
A = U   P , A = U\,P, A=UP,
其中 U U U正交(或酉)矩阵 P P P对称(或厄米)正定矩阵


极分解的存在性与形式

3.1 复矩阵情形

A ∈ C m × n A \in \mathbb{C}^{m \times n} ACm×n

  1. 定义 A ∗ : = A ‾ T A^* := \overline{A}^T A:=AT A A A 的共轭转置。
  2. 注意到 A ∗ A A^* A AA 是一个 n × n n \times n n×n 的厄米矩阵。并且若 rank ⁡ ( A ) = r \operatorname{rank}(A) = r rank(A)=r,则 A ∗ A A^* A AA 至多是半正定(Hermitian Positive Semi-definite)。
  3. 定义
    P = A ∗ A , P = \sqrt{A^* A}, P=AA ,
    其中“ ⋅ \sqrt{\cdot} ”表示对厄米正定/半正定矩阵取它的唯一正定/半正定平方根。由矩阵函数理论可知,如果 X X X 是厄米正定矩阵,则存在唯一的厄米正定矩阵 Y Y Y 满足 Y 2 = X Y^2 = X Y2=X
  4. A A A 的秩为 r r r,则可把 P P P 看作一个 n × n n \times n n×n 的厄米正定/半正定矩阵。

  5. U = A   P † , U = A\,P^\dagger, U=AP,
    其中 P † P^\dagger P P P PMoore-Penrose 伪逆。可以证明 U U U 满足特定的酉性(或部分酉性)条件。于是得到
    A = U   P . A = U\,P. A=UP.

A A A方阵且满秩(可逆),则 A ∗ A A^* A AA 也是可逆的,并且 A ∗ A \sqrt{A^* A} AA 就是厄米正定(非退化)。此时
P = A ∗ A , U = A P − 1 . P = \sqrt{A^* A}, \quad U = A P^{-1}. P=AA ,U=AP1.
其中 U U U 是一个酉矩阵,即满足
U ∗ U = U U ∗ = I . U^* U = U U^* = I. UU=UU=I.

3.2 实矩阵情形

类似地,对一个实矩阵 A ∈ R m × n A \in \mathbb{R}^{m \times n} ARm×n,定义
P = A T A , P = \sqrt{A^T A}, P=ATA ,
这里 A T A A^T A ATA 是一个实对称(Symmetric)半正定矩阵。于是我们得到极分解
A = Q   P , A = Q\,P, A=QP,
其中 Q Q Q正交(Orthogonal)部分矩阵;若 A A A 为可逆方阵,则 Q Q Q 是正交矩阵( Q T Q = I Q^T Q = I QTQ=I)。

3.3 部分酉 (Partial Isometry) 与秩的关系

A A A 的秩 r < n r < n r<n(列数为 n n n),则 P = A ∗ A P = \sqrt{A^*A} P=AA 不是可逆的,而是半正定秩也为 r r r。这时 U U U 并不能满足完全的 U ∗ U = I U^* U = I UU=I(若行数 m ≠ n m\neq n m=n 则也需要考虑不同维度),但它是一个部分酉矩阵(Partial Isometry)。也就是说,它在某子空间上具有酉的特性。

形式上可写为:
U ∗ U = Π , U^* U = \Pi, UU=Π,
其中 Π \Pi Π 是相应的投影算子(秩为 r r r)。


极分解与奇异值分解 (SVD) 的关系

事实上,极分解可通过 SVD 来理解。设 A A A 的奇异值分解为
A = U s v d   Σ   V ∗ , A = U_\mathrm{svd} \, \Sigma \, V^*, A=UsvdΣV,
其中:

  • U s v d ∈ C m × m U_\mathrm{svd} \in \mathbb{C}^{m \times m} UsvdCm×m V ∈ C n × n V \in \mathbb{C}^{n \times n} VCn×n 都是酉矩阵(若是实矩阵则为正交);
  • Σ \Sigma Σ 是一个 m × n m \times n m×n 的对角块矩阵,其对角线为奇异值 σ 1 , σ 2 , … \sigma_1, \sigma_2, \dots σ1,σ2,

m = n m=n m=n A A A 可逆,则所有奇异值严格正 σ i > 0 \sigma_i>0 σi>0

  1. 计算
    A ∗ A = ( U s v d Σ V ∗ ) ∗   ( U s v d Σ V ∗ ) = V Σ ∗ U s v d ∗ U s v d Σ V ∗ = V Σ ∗ Σ V ∗ . A^* A = (U_\mathrm{svd} \Sigma V^*)^* \,(U_\mathrm{svd} \Sigma V^*) = V \Sigma^* U_\mathrm{svd}^* U_\mathrm{svd} \Sigma V^* = V \Sigma^* \Sigma V^*. AA=(UsvdΣV)(UsvdΣV)=VΣUsvdUsvdΣV=VΣΣV.
    因为 Σ ∗ Σ \Sigma^* \Sigma ΣΣ 是对角(奇异值的平方),可写成 Σ 2 \Sigma^2 Σ2
  2. 所以
    P = A ∗ A = V Σ 2 V ∗ = V Σ V ∗ . P = \sqrt{A^*A} = \sqrt{V \Sigma^2 V^*} = V \Sigma V^*. P=AA =VΣ2V =VΣV.

  3. U = U s v d   V ∗ . U = U_\mathrm{svd} \, V^*. U=UsvdV.
    那么
    A = U s v d Σ V ∗ = ( U s v d V ∗ )   ( V Σ V ∗ ) = U   P . A = U_\mathrm{svd} \Sigma V^* = (U_\mathrm{svd} V^*) \,(V \Sigma V^*) = U \,P. A=UsvdΣV=(UsvdV)(VΣV)=UP.
    这样就得到了极分解所需的 U U U P P P。其中 U U U 是酉矩阵, P P P 是厄米正定矩阵。

A A A 不可逆或维度不等时,也可以用部分酉的思想得到相应的极分解。总之:

极分解SVD 的一个“子产物”,它揭示了矩阵映射先“拉伸”再“旋转/反射”的本质。


极分解的主要性质与常见公式

  1. P P P 的定义:
    P = A ∗ A , P  为厄米(或对称)半正定矩阵 . P = \sqrt{A^* A}, \quad P \text{ 为厄米(或对称)半正定矩阵}. P=AA ,P 为厄米(或对称)半正定矩阵.
    A A A 满秩可逆时, P P P 就是正定矩阵。

  2. “旋转/正交”部分:
    U = A   P † , U = A\, P^\dagger, U=AP,
    其中 P † P^\dagger P P P P 的 Moore-Penrose 伪逆。当 P P P 可逆时, P † = P − 1 P^\dagger = P^{-1} P=P1
    在可逆情形下, U U U 满足
    U ∗ U = I , U U ∗ = I , U^* U = I, \quad UU^* = I, UU=I,UU=I,
    U U U 为酉(或正交)矩阵。

  3. 范数关系:
    ∥ ⋅ ∥ \|\cdot\| 表示算子范数(如谱范数,对应最大奇异值),则
    ∥ P ∥ = ∥ A ∗ A ∥ = ∥ A ∗ A ∥ = ∥ A ∥ . \|P\| = \|\sqrt{A^*A}\| = \sqrt{\|A^* A\|} = \|A\|. P=AA =AA =A∥.
    同理,对于核范数、Frobenius 范数等,也能有相应关系。

  4. 唯一性:
    A A A 为方阵且可逆时,极分解是唯一的;当 A A A 不可逆或非方形时,则 U U U 含有某些自由度(部分酉),从而不唯一。

  5. 等距变换与伸缩:
    U U U 可被视为等距变换(旋转+可能的反射), P P P 则是一个“伸缩/扭曲”操作。

  6. 关键方程:
    A ∗ A = P 2 , 且  A = U   P . A^* A = P^2,\quad \text{且 } A = U\,P. AA=P2, A=UP.


直观理解与几何解释

  • 在复数中: z = r e i θ \displaystyle z = r e^{i\theta} z=reiθ 分为“模”( r r r) 与“相位”( e i θ e^{i\theta} eiθ)。
  • 在矩阵中: A = U P \displaystyle A = U P A=UP 分为 “旋转(或酉)”“对称(或厄米)正定” ,正如把“长度”与“方向”剥离出来。

如果你在 R n \mathbb{R}^n Rn 中考虑一个线性变换 A A A,它可以被理解为先拉伸/扭曲,再旋转/反射


极分解的计算方法

7.1 基于SVD的显式求解

  1. A A A 做 SVD:
    A = U s v d   Σ   V ∗ . A = U_\mathrm{svd}\, \Sigma \, V^*. A=UsvdΣV.
  2. 构造 P P P
    P = A ∗ A = V   Σ 2   V ∗ = V   Σ   V ∗ . P = \sqrt{A^*A} = \sqrt{V \,\Sigma^2\, V^*} = V \,\Sigma\, V^*. P=AA =VΣ2V =VΣV.
  3. 构造 U U U
    U = U s v d   V ∗ . U = U_\mathrm{svd}\, V^*. U=UsvdV.
  4. 得到极分解: A = U P A = U P A=UP

该方法是最常用的数值实现方式之一,因为 SVD 在数值上相对稳定且广泛可用。

7.2 基于迭代算法的计算

在大型稀疏问题或需要在线迭代时,也可使用迭代方法直接近似求 A ∗ A \sqrt{A^* A} AA 。例如 Newton-Schulz 迭代Denman–Beavers 迭代 等:

  • 给定 X 0 = α I X_0 = \alpha I X0=αI(某初始猜测),通过迭代更新
    X k + 1 = 1 2 ( X k + ( A ∗ A ) X k − 1 ) , X_{k+1} = \tfrac{1}{2}\bigl(X_k + (A^*A)X_k^{-1}\bigr), Xk+1=21(Xk+(AA)Xk1),
    在一定条件下可收敛到 A ∗ A \sqrt{A^* A} AA
  • 然后令 P = X ∞ P = X_{\infty} P=X,再有 U = A   P † U = A\,P^\dagger U=AP

这些方法在大规模矩阵情形下有时更具优势。


示例:2×2 矩阵极分解

让我们做一个简单的 2 × 2 2 \times 2 2×2 矩阵示例。
A = ( 1 2 2 1 ) . A = \begin{pmatrix} 1 & 2\\ 2 & 1 \end{pmatrix}. A=(1221).

  1. 首先计算 A T A A^T A ATA(因为这里是实矩阵):
    A T = A , A T A = A 2 = ( 1 2 2 1 ) ( 1 2 2 1 ) = ( 5 4 4 5 ) . A^T = A, \quad A^T A = A^2 =\begin{pmatrix} 1 & 2\\ 2 & 1 \end{pmatrix} \begin{pmatrix} 1 & 2\\ 2 & 1 \end{pmatrix}= \begin{pmatrix} 5 & 4 \\ 4 & 5 \end{pmatrix}. AT=A,ATA=A2=(1221)(1221)=(5445).
  2. 计算特征值与特征向量(因为 A T A A^T A ATA 是对称阵):
    λ 1 = 9 , λ 2 = 1. \lambda_1 = 9, \quad \lambda_2 = 1. λ1=9,λ2=1.
    对应特征向量可取
    v 1 = 1 2 ( 1 1 ) , v 2 = 1 2 ( 1 − 1 ) . v_1 = \frac{1}{\sqrt{2}} \begin{pmatrix}1\\1\end{pmatrix}, \quad v_2 = \frac{1}{\sqrt{2}} \begin{pmatrix}1\\-1\end{pmatrix}. v1=2 1(11),v2=2 1(11).
  3. 所以
    A T A = V   Λ   V T , V = 1 2 ( 1 1 1 − 1 ) , Λ = ( 9 0 0 1 ) . A^T A = V \,\Lambda\,V^T, \quad V = \frac{1}{\sqrt{2}} \begin{pmatrix} 1 & 1\\ 1 & -1 \end{pmatrix},\quad \Lambda = \begin{pmatrix} 9 & 0\\ 0 & 1 \end{pmatrix}. ATA=VΛVT,V=2 1(1111),Λ=(9001).
  4. 矩阵平方根 P = A T A P = \sqrt{A^T A} P=ATA
    P = V   Λ   V T = 1 2 ( 1 1 1 − 1 ) ( 3 0 0 1 ) 1 2 ( 1 1 1 − 1 ) . P = V \,\sqrt{\Lambda}\,V^T = \frac{1}{\sqrt{2}} \begin{pmatrix} 1 & 1\\ 1 & -1 \end{pmatrix} \begin{pmatrix} 3 & 0\\ 0 & 1 \end{pmatrix} \frac{1}{\sqrt{2}} \begin{pmatrix} 1 & 1\\ 1 & -1 \end{pmatrix}. P=VΛ VT=2 1(1111)(3001)2 1(1111).
    具体展开可得
    P = ( 2 1 1 2 ) . P = \begin{pmatrix} 2 & 1\\ 1 & 2 \end{pmatrix}. P=(2112).
  5. 然后
    U = A   P − 1 . U = A\,P^{-1}. U=AP1.
    若继续计算可得到:
    P − 1 = 1 3 ( 2 − 1 − 1 2 ) , P^{-1} = \frac{1}{3} \begin{pmatrix} 2 & -1\\ -1 & 2 \end{pmatrix}, P1=31(2112),
    U = ( 1 2 2 1 ) ⋅ 1 3 ( 2 − 1 − 1 2 ) = 1 3 ( 0 5 5 0 ) = ( 0 5 3 5 3 0 ) . U = \begin{pmatrix} 1 & 2\\ 2 & 1 \end{pmatrix} \cdot \frac{1}{3} \begin{pmatrix} 2 & -1\\ -1 & 2 \end{pmatrix}= \frac{1}{3} \begin{pmatrix} 0 & 5\\ 5 & 0 \end{pmatrix}= \begin{pmatrix} 0 & \frac{5}{3}\\ \frac{5}{3} & 0 \end{pmatrix}. U=(1221)31(2112)=31(0550)=(035350).
    直接可验证 U T U = I U^T U = I UTU=I 或等价地 U T = U − 1 U^T = U^{-1} UT=U1。由此
    A = U   P = ( 0 5 3 5 3 0 ) ( 2 1 1 2 ) = ( 1 2 2 1 ) . A = U\,P=\begin{pmatrix} 0 & \frac{5}{3}\\ \frac{5}{3} & 0 \end{pmatrix} \begin{pmatrix} 2 & 1\\ 1 & 2 \end{pmatrix}= \begin{pmatrix} 1 & 2\\ 2 & 1 \end{pmatrix}. A=UP=(035350)(2112)=(1221).
    这样我们得到了一个明确的 2×2 极分解示例。

更多应用场景

  1. 图像变换:2D 仿射变换中,极分解可将变换矩阵拆解为“旋转/反射” Q Q Q 与“拉伸” P P P
  2. 正定约束:在某些优化或迭代中,可以借助极分解把某个矩阵投影到最接近的正定矩阵或最接近的正交矩阵之上。
  3. 量子力学与酉演化:在量子信息领域,酉操作是常见的可逆演化,而对称正定矩阵可视为某些状态算子的平方根等,极分解在某些算子分解中也发挥作用。

总结

  • 极分解(Polar Decomposition):将一个矩阵分解为一个酉(或正交)矩阵与一个厄米(或对称)正定/半正定矩阵的乘积。
  • 核心公式 A = U P A = U P A=UP P = A ∗ A P = \sqrt{A^*A} P=AA
  • 当矩阵可逆且方阵时,分解唯一, U U U 完全酉, P P P 完全正定;否则会出现部分酉情形。
  • SVD 密切相关,常通过SVD来获得极分解;也可用矩阵函数迭代算法直接求解。
  • 在几何上,极分解可以被视作把线性映射拆分成**“纯旋转/正交”“拉伸/扭曲”**两部分。

参考文献

  1. Horn, R. A. and Johnson, C. R. (2013). Matrix Analysis, 2nd Edition, Cambridge University Press.
  2. Golub, G. H. and Van Loan, C. F. (2013). Matrix Computations, 4th Edition, Johns Hopkins University Press.
  3. Higham, N. J. (1986). “Computing the Polar Decomposition—With Applications.” SIAM Journal on Scientific and Statistical Computing, 7(4): 1160–1174.
  4. Kenney, C. and Laub, A. J. (1991). “A Schur–Frechet Algorithm for Computing the Logarithm and Exponential of a Matrix.” SIAM Journal on Matrix Analysis and Applications, 12(3): 661–679.
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐