Woodbury矩阵恒等式

伍德伯里矩阵恒等式(Woodbury matrix identity)是一个非常有用的矩阵恒等式,它提供了一种计算矩阵求逆的方法,特别是当矩阵是分块形式时。这个恒等式可以简化矩阵求逆的计算,特别是在处理大规模矩阵时。

伍德伯里矩阵恒等式表述如下:

给定四个矩阵 A , U , C , V A,U,C,V A,U,C,V,其中 A A A 是一个可逆的 n × n n \times n n×n矩阵, U U U 是一个 n × k n \times k n×k 矩阵, C C C 是一个 k × k k \times k k×k 可逆矩阵, V V V 是一个 k × n k \times n k×n 矩阵,那么以下等式成立:

( A + U C V ) − 1 = A − 1 − A − 1 U ( C − 1 + V A − 1 U ) − 1 V A − 1 (A + UCV)^{-1} = A^{-1} - A^{-1}U(C^{-1} + VA^{-1}U)^{-1}VA^{-1} (A+UCV)1=A1A1U(C1+VA1U)1VA1

这里, A + U C V A + UCV A+UCV 是一个 n × n n \times n n×n 矩阵, ( A + U C V ) − 1 (A + UCV)^{-1} (A+UCV)1 是它的逆矩阵。

在高斯分布协方差矩阵中的应用

考虑两个协方差矩阵 Σ 1 \boldsymbol{\Sigma}_1 Σ1 Σ 2 \boldsymbol{\Sigma}_2 Σ2,带入到Woodbury矩阵恒等式,下面两个等式恒成立:
( Σ 1 + Σ 2 ) − 1 = Σ 1 − 1 − Σ 1 − 1 Σ Σ 1 − 1 ( Σ 1 + Σ 2 ) − 1 = Σ 2 − 1 − Σ 2 − 1 Σ Σ 2 − 1 \begin{aligned} (\boldsymbol{\Sigma}_1 + \boldsymbol{\Sigma}_2)^{-1} &= \boldsymbol{\Sigma}_1^{-1} - \boldsymbol{\Sigma}_1^{-1} \boldsymbol{\Sigma} \boldsymbol{\Sigma}_1^{-1} \\ (\boldsymbol{\Sigma}_1 + \boldsymbol{\Sigma}_2)^{-1} &= \boldsymbol{\Sigma}_2^{-1} - \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\Sigma} \boldsymbol{\Sigma}_2^{-1} \end{aligned} (Σ1+Σ2)1(Σ1+Σ2)1=Σ11Σ11ΣΣ11=Σ21Σ21ΣΣ21

此外,如果令
Σ − 1 = Σ 1 − 1 + Σ 2 − 1 \boldsymbol{\Sigma}^{-1} = \boldsymbol{\Sigma}_1^{-1} + \boldsymbol{\Sigma}_2^{-1} Σ1=Σ11+Σ21
则,
Σ 1 − 1 Σ Σ 2 − 1 = Σ 1 − 1 ( Σ 1 − 1 + Σ 2 − 1 ) − 1 Σ 2 − 1 = ( Σ 1 + Σ 2 ) − 1 \boldsymbol{\Sigma}_1^{-1} \boldsymbol{\Sigma} \boldsymbol{\Sigma}_2^{-1} = \boldsymbol{\Sigma}_1^{-1} \left( \boldsymbol{\Sigma}_1^{-1} + \boldsymbol{\Sigma}_2^{-1} \right)^{-1} \boldsymbol{\Sigma}_2^{-1} =( \boldsymbol{\Sigma}_1 + \boldsymbol{\Sigma}_2 )^{-1} Σ11ΣΣ21=Σ11(Σ11+Σ21)1Σ21=(Σ1+Σ2)1

我们可以把 Σ \boldsymbol{\Sigma} Σ表示为:
Σ = Σ 1 ( Σ 1 + Σ 2 ) − 1 Σ 2 \boldsymbol{\Sigma}= \boldsymbol{\Sigma}_1 ( \boldsymbol{\Sigma}_1 + \boldsymbol{\Sigma}_2 )^{-1} \boldsymbol{\Sigma}_2 Σ=Σ1(Σ1+Σ2)1Σ2

行列式的性质

因为
Σ 1 − 1 Σ Σ 2 − 1 = ( Σ 1 + Σ 2 ) − 1 \boldsymbol{\Sigma}_1^{-1} \boldsymbol{\Sigma} \boldsymbol{\Sigma}_2^{-1} = ( \boldsymbol{\Sigma}_1 + \boldsymbol{\Sigma}_2 )^{-1} Σ11ΣΣ21=(Σ1+Σ2)1
即,
( Σ 1 + Σ 2 ) = Σ 2 Σ − 1 Σ 1 ( \boldsymbol{\Sigma}_1 + \boldsymbol{\Sigma}_2 ) = \boldsymbol{\Sigma}_2 \boldsymbol{\Sigma}^{-1} \boldsymbol{\Sigma}_1 (Σ1+Σ2)=Σ2Σ1Σ1
因此
∣ ( Σ 1 + Σ 2 ) ∣ = ∣ Σ 1 ∣ ∣ Σ 2 ∣ ∣ ( Σ 1 − 1 + Σ 2 − 1 ) − 1 ∣ | ( \boldsymbol{\Sigma}_1 + \boldsymbol{\Sigma}_2 )| = \frac{|\boldsymbol{\Sigma}_1 ||\boldsymbol{\Sigma}_2|}{| (\boldsymbol{\Sigma}_1^{-1} + \boldsymbol{\Sigma}_2^{-1})^{-1} |} (Σ1+Σ2)=(Σ11+Σ21)1Σ1∣∣Σ2

1 ∣ Σ 1 ∣ ∣ Σ 2 ∣ = 1 ∣ ( Σ 1 + Σ 2 ) ∣ ⋅ 1 ∣ ( Σ 1 − 1 + Σ 2 − 1 ) − 1 ∣ \frac{1}{|\boldsymbol{\Sigma}_1 ||\boldsymbol{\Sigma}_2|}=\frac{1}{| ( \boldsymbol{\Sigma}_1 + \boldsymbol{\Sigma}_2 )|} \cdot \frac{1}{| (\boldsymbol{\Sigma}_1^{-1} + \boldsymbol{\Sigma}_2^{-1})^{-1} |} Σ1∣∣Σ21=(Σ1+Σ2)1(Σ11+Σ21)11

两个高维高斯高斯分布相乘的完整结果

对于同一个随机向量 (\mathbf{x}) 对应的两个不同的高斯分布,我们可以将这两个高斯分布分别表示为:

x ∼ N ( μ 1 , Σ 1 ) 和 x ∼ N ( μ 2 , Σ 2 ) \mathbf{x} \sim \mathcal{N}(\boldsymbol{\mu}_1, \boldsymbol{\Sigma}_1) \quad \text{和} \quad \mathbf{x} \sim \mathcal{N}(\boldsymbol{\mu}_2, \boldsymbol{\Sigma}_2) xN(μ1,Σ1)xN(μ2,Σ2)

其中, μ 1 \boldsymbol{\mu}_1 μ1 μ 2 \boldsymbol{\mu}_2 μ2 是两个分布的均值向量, Σ 1 \boldsymbol{\Sigma}_1 Σ1 Σ 2 \boldsymbol{\Sigma}_2 Σ2 是两个分布的协方差矩阵。

当我们谈论两个高斯分布的“乘积”时,我们通常是指这两个分布的概率密度函数(PDF)的乘积。对于两个高斯分布,它们的PDF相乘的结果是另一个函数,但这个函数不再是一个标准的高斯分布。两个高斯分布的PDF相乘的完整表达式为:

f ( x ) = f 1 ( x ) ⋅ f 2 ( x ) f(\mathbf{x}) = f_1(\mathbf{x}) \cdot f_2(\mathbf{x}) f(x)=f1(x)f2(x)

其中, f 1 ( x ) f_1(\mathbf{x}) f1(x) f 2 ( x ) f_2(\mathbf{x}) f2(x) 分别是两个高斯分布的PDF,可以写为:

f 1 ( x ) = 1 ( 2 π ) D ∣ Σ 1 ∣ exp ⁡ ( − 1 2 ( x − μ 1 ) T Σ 1 − 1 ( x − μ 1 ) ) f_1(\mathbf{x}) = \frac{1}{\sqrt{(2\pi)^D |\boldsymbol{\Sigma}_1|}} \exp\left(-\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu}_1)^T \boldsymbol{\Sigma}_1^{-1} (\mathbf{x} - \boldsymbol{\mu}_1)\right) f1(x)=(2π)DΣ1 1exp(21(xμ1)TΣ11(xμ1))

f 2 ( x ) = 1 ( 2 π ) D ∣ Σ 2 ∣ exp ⁡ ( − 1 2 ( x − μ 2 ) T Σ 2 − 1 ( x − μ 2 ) ) f_2(\mathbf{x}) = \frac{1}{\sqrt{(2\pi)^D |\boldsymbol{\Sigma}_2|}} \exp\left(-\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu}_2)^T \boldsymbol{\Sigma}_2^{-1} (\mathbf{x} - \boldsymbol{\mu}_2)\right) f2(x)=(2π)DΣ2 1exp(21(xμ2)TΣ21(xμ2))

因此,两个PDF的乘积为:

f ( x ) = 1 ( 2 π ) D / 2 ∣ Σ 1 ∣ 1 / 2 ∣ Σ 2 ∣ 1 / 2 exp ⁡ ( − 1 2 [ ( x − μ 1 ) T Σ 1 − 1 ( x − μ 1 ) + ( x − μ 2 ) T Σ 2 − 1 ( x − μ 2 ) ] ) f(\mathbf{x}) = \frac{1}{(2\pi)^{D/2} |\boldsymbol{\Sigma}_1|^{1/2} |\boldsymbol{\Sigma}_2|^{1/2}} \exp\left(-\frac{1}{2} \left[ (\mathbf{x} - \boldsymbol{\mu}_1)^T \boldsymbol{\Sigma}_1^{-1} (\mathbf{x} - \boldsymbol{\mu}_1) + (\mathbf{x} - \boldsymbol{\mu}_2)^T \boldsymbol{\Sigma}_2^{-1} (\mathbf{x} - \boldsymbol{\mu}_2) \right] \right) f(x)=(2π)D/2Σ11/2Σ21/21exp(21[(xμ1)TΣ11(xμ1)+(xμ2)TΣ21(xμ2)])

这个结果是一个关于 x \mathbf{x} x的函数,但它不是一个高斯分布,因为它的指数部分不是 x \mathbf{x} x 的二次型,且分母中的协方差矩阵的乘积也不是一个协方差矩阵。

要化简两个高斯分布的概率密度函数(PDF)的乘积,我们从以下表达式开始:

f ( x ) = 1 ( 2 π ) D / 2 ∣ Σ 1 ∣ 1 / 2 ∣ Σ 2 ∣ 1 / 2 exp ⁡ ( − 1 2 [ ( x − μ 1 ) T Σ 1 − 1 ( x − μ 1 ) + ( x − μ 2 ) T Σ 2 − 1 ( x − μ 2 ) ] ) f(\mathbf{x}) = \frac{1}{(2\pi)^{D/2} |\boldsymbol{\Sigma}_1|^{1/2} |\boldsymbol{\Sigma}_2|^{1/2}} \exp\left(-\frac{1}{2} \left[ (\mathbf{x} - \boldsymbol{\mu}_1)^T \boldsymbol{\Sigma}_1^{-1} (\mathbf{x} - \boldsymbol{\mu}_1) + (\mathbf{x} - \boldsymbol{\mu}_2)^T \boldsymbol{\Sigma}_2^{-1} (\mathbf{x} - \boldsymbol{\mu}_2) \right] \right) f(x)=(2π)D/2Σ11/2Σ21/21exp(21[(xμ1)TΣ11(xμ1)+(xμ2)TΣ21(xμ2)])

我们的目标是将指数部分合并为一个关于 x \mathbf{x} x 的二次型。这可以通过完成平方来实现。让我们逐步进行:

  1. 展开指数部分:

( x − μ 1 ) T Σ 1 − 1 ( x − μ 1 ) + ( x − μ 2 ) T Σ 2 − 1 ( x − μ 2 ) (\mathbf{x} - \boldsymbol{\mu}_1)^T \boldsymbol{\Sigma}_1^{-1} (\mathbf{x} - \boldsymbol{\mu}_1) + (\mathbf{x} - \boldsymbol{\mu}_2)^T \boldsymbol{\Sigma}_2^{-1} (\mathbf{x} - \boldsymbol{\mu}_2) (xμ1)TΣ11(xμ1)+(xμ2)TΣ21(xμ2)

  1. 合并项:

= x T Σ 1 − 1 x − 2 x T Σ 1 − 1 μ 1 + μ 1 T Σ 1 − 1 μ 1 + x T Σ 2 − 1 x − 2 x T Σ 2 − 1 μ 2 + μ 2 T Σ 2 − 1 μ 2 = \mathbf{x}^T \boldsymbol{\Sigma}_1^{-1} \mathbf{x} - 2 \mathbf{x}^T \boldsymbol{\Sigma}_1^{-1} \boldsymbol{\mu}_1 + \boldsymbol{\mu}_1^T \boldsymbol{\Sigma}_1^{-1} \boldsymbol{\mu}_1 + \mathbf{x}^T \boldsymbol{\Sigma}_2^{-1} \mathbf{x} - 2 \mathbf{x}^T \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\mu}_2 + \boldsymbol{\mu}_2^T \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\mu}_2 =xTΣ11x2xTΣ11μ1+μ1TΣ11μ1+xTΣ21x2xTΣ21μ2+μ2TΣ21μ2

  1. 合并 (\mathbf{x}^T) 项:

= x T ( Σ 1 − 1 + Σ 2 − 1 ) x − 2 x T ( Σ 1 − 1 μ 1 + Σ 2 − 1 μ 2 ) + μ 1 T Σ 1 − 1 μ 1 + μ 2 T Σ 2 − 1 μ 2 = \mathbf{x}^T (\boldsymbol{\Sigma}_1^{-1} + \boldsymbol{\Sigma}_2^{-1}) \mathbf{x} - 2 \mathbf{x}^T (\boldsymbol{\Sigma}_1^{-1} \boldsymbol{\mu}_1 + \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\mu}_2) + \boldsymbol{\mu}_1^T \boldsymbol{\Sigma}_1^{-1} \boldsymbol{\mu}_1 + \boldsymbol{\mu}_2^T \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\mu}_2 =xT(Σ11+Σ21)x2xT(Σ11μ1+Σ21μ2)+μ1TΣ11μ1+μ2TΣ21μ2

  1. 完成平方:

为了完成平方,我们需要找到一个矩阵 Σ \boldsymbol{\Sigma} Σ 和一个向量 μ \boldsymbol{\mu} μ 使得:

x T ( Σ 1 − 1 + Σ 2 − 1 ) x − 2 x T ( Σ 1 − 1 μ 1 + Σ 2 − 1 μ 2 ) = ( x − μ ) T Σ − 1 ( x − μ ) \mathbf{x}^T (\boldsymbol{\Sigma}_1^{-1} + \boldsymbol{\Sigma}_2^{-1}) \mathbf{x} - 2 \mathbf{x}^T (\boldsymbol{\Sigma}_1^{-1} \boldsymbol{\mu}_1 + \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\mu}_2) = (\mathbf{x} - \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) xT(Σ11+Σ21)x2xT(Σ11μ1+Σ21μ2)=(xμ)TΣ1(xμ)

其中, μ \boldsymbol{\mu} μ Σ \boldsymbol{\Sigma} Σ 可以通过解以下方程得到:

Σ − 1 = Σ 1 − 1 + Σ 2 − 1 \boldsymbol{\Sigma}^{-1} = \boldsymbol{\Sigma}_1^{-1} + \boldsymbol{\Sigma}_2^{-1} Σ1=Σ11+Σ21

μ = Σ ( Σ 1 − 1 μ 1 + Σ 2 − 1 μ 2 ) \boldsymbol{\mu} = \boldsymbol{\Sigma} (\boldsymbol{\Sigma}_1^{-1} \boldsymbol{\mu}_1 + \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\mu}_2) μ=Σ(Σ11μ1+Σ21μ2)

  1. 代入并化简:

Σ \boldsymbol{\Sigma} Σ μ \boldsymbol{\mu} μ代入原式,我们得到:

f ( x ) = 1 ( 2 π ) D / 2 ∣ Σ 1 ∣ 1 / 2 ∣ Σ 2 ∣ 1 / 2 exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) + 常数项 ) f(\mathbf{x}) = \frac{1}{(2\pi)^{D/2} |\boldsymbol{\Sigma}_1|^{1/2} |\boldsymbol{\Sigma}_2|^{1/2}} \exp\left(-\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) + \text{常数项} \right) f(x)=(2π)D/2Σ11/2Σ21/21exp(21(xμ)TΣ1(xμ)+常数项)

其中,常数项包括:

μ 1 T Σ 1 − 1 μ 1 + μ 2 T Σ 2 − 1 μ 2 − μ T Σ − 1 μ \boldsymbol{\mu}_1^T \boldsymbol{\Sigma}_1^{-1} \boldsymbol{\mu}_1 + \boldsymbol{\mu}_2^T \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\mu}_2 - \boldsymbol{\mu}^T \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu} μ1TΣ11μ1+μ2TΣ21μ2μTΣ1μ

因此,最终化简后的表达式为:

f ( x ) = 1 ( 2 π ) D / 2 ∣ Σ ∣ 1 / 2 exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) + 常数项 ) f(\mathbf{x}) = \frac{1}{(2\pi)^{D/2} |\boldsymbol{\Sigma}|^{1/2}} \exp\left(-\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) + \text{常数项} \right) f(x)=(2π)D/2Σ1/21exp(21(xμ)TΣ1(xμ)+常数项)

这是一个关于 x \mathbf{x} x 的二次型,其中 μ \boldsymbol{\mu} μ Σ \boldsymbol{\Sigma} Σ 由上述方程确定。

  1. 常数项化简:
    因为 μ = Σ ( Σ 1 − 1 μ 1 + Σ 2 − 1 μ 2 ) \boldsymbol{\mu} = \boldsymbol{\Sigma} (\boldsymbol{\Sigma}_1^{-1} \boldsymbol{\mu}_1 + \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\mu}_2) μ=Σ(Σ11μ1+Σ21μ2),所以
    μ T Σ − 1 μ = μ T ( Σ 1 − 1 μ 1 + Σ 2 − 1 μ 2 ) = ( μ 1 T Σ 1 − 1 + μ 2 T Σ 2 ) − 1 Σ ( Σ 1 − 1 μ 1 + Σ 2 − 1 μ 2 ) = μ 1 T Σ 1 − 1 Σ Σ 1 − 1 μ 1 + μ 2 T Σ 2 − 1 Σ Σ 2 − 1 μ 2 + 2 μ 1 T Σ 1 − 1 Σ Σ 2 − 1 μ 2 \begin{aligned} \boldsymbol{\mu}^T \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}&= \boldsymbol{\mu}^T (\boldsymbol{\Sigma}_1^{-1} \boldsymbol{\mu}_1 + \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\mu}_2) \\ &=(\boldsymbol{\mu}_1^T \boldsymbol{\Sigma}_1^{-1} + \boldsymbol{\mu}_2^T \boldsymbol{\Sigma}_2)^{-1} \boldsymbol{\Sigma} (\boldsymbol{\Sigma}_1^{-1} \boldsymbol{\mu}_1 + \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\mu}_2) \\ &=\boldsymbol{\mu}_1^T \boldsymbol{\Sigma}_1^{-1} \boldsymbol{\Sigma} \boldsymbol{\Sigma}_1^{-1} \boldsymbol{\mu}_1 + \boldsymbol{\mu}_2^T \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\Sigma} \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\mu}_2 + 2 \boldsymbol{\mu}_1^T \boldsymbol{\Sigma}_1^{-1} \boldsymbol{\Sigma} \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\mu}_2 \end{aligned} μTΣ1μ=μT(Σ11μ1+Σ21μ2)=(μ1TΣ11+μ2TΣ2)1Σ(Σ11μ1+Σ21μ2)=μ1TΣ11ΣΣ11μ1+μ2TΣ21ΣΣ21μ2+2μ1TΣ11ΣΣ21μ2
    进一步,结合 μ 1 T Σ 1 − 1 μ 1 + μ 2 T Σ 2 − 1 μ 2 − μ T Σ − 1 μ \boldsymbol{\mu}_1^T \boldsymbol{\Sigma}_1^{-1} \boldsymbol{\mu}_1 + \boldsymbol{\mu}_2^T \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\mu}_2 - \boldsymbol{\mu}^T \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu} μ1TΣ11μ1+μ2TΣ21μ2μTΣ1μ,我们可以把常数项分成一下三部分

( i ) : μ 1 T ( Σ 1 − 1 − Σ 1 − 1 Σ Σ 1 − 1 ) μ 1 ( i i ) : μ 2 T ( Σ 2 − 1 − Σ 2 − 1 Σ Σ 2 − 1 ) μ 2 ( i i i ) : − 2 μ 1 T Σ 1 − 1 Σ Σ 2 − 1 μ 2 \begin{aligned} (i): \quad & \boldsymbol{\mu}_1^T \left( \boldsymbol{\Sigma}_1^{-1} - \boldsymbol{\Sigma}_1^{-1} \boldsymbol{\Sigma} \boldsymbol{\Sigma}_1^{-1} \right ) \boldsymbol{\mu}_1 \\ (ii): \quad & \boldsymbol{\mu}_2^T \left( \boldsymbol{\Sigma}_2^{-1} - \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\Sigma} \boldsymbol{\Sigma}_2^{-1} \right ) \boldsymbol{\mu}_2 \\ (iii): \quad & -2 \boldsymbol{\mu}_1^T \boldsymbol{\Sigma}_1^{-1} \boldsymbol{\Sigma} \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\mu}_2 \end{aligned} (i):(ii):(iii):μ1T(Σ11Σ11ΣΣ11)μ1μ2T(Σ21Σ21ΣΣ21)μ22μ1TΣ11ΣΣ21μ2
利用Woodbury矩阵恒等式的相关性质,我们得到:
常数项 = − 1 2 ( μ 1 − μ 2 ) T ( Σ 1 + Σ 2 ) − 1 ( μ 1 − μ 2 ) \text{常数项}= -\frac{1}{2}(\boldsymbol{\mu}_1 - \boldsymbol{\mu}_2)^T (\boldsymbol{\Sigma}_1+\boldsymbol{\Sigma}_2)^{-1} (\boldsymbol{\mu}_1 - \boldsymbol{\mu}_2) 常数项=21(μ1μ2)T(Σ1+Σ2)1(μ1μ2)

最后,我们利用行列式的相关性质,得到如下结论。

结论

N ( x ; μ 1 , Σ 1 ) ⋅ N ( x ; μ 2 , Σ 2 ) = N ( μ 1 ; μ 2 , Σ 1 + Σ 2 ) ⋅ N ( x ; μ , Σ ) \begin{aligned} & \quad \mathcal{N}(\boldsymbol{x}; \boldsymbol{\mu}_1, \boldsymbol{\Sigma}_1) \cdot \mathcal{N}(\boldsymbol{x}; \boldsymbol{\mu}_2, \boldsymbol{\Sigma}_2)\\ & = \mathcal{N}(\boldsymbol{\mu}_1; \boldsymbol{\mu}_2, \boldsymbol{\Sigma}_1 + \boldsymbol{\Sigma}_2) \cdot \mathcal{N}(\boldsymbol{x}; \boldsymbol{\mu}, \boldsymbol{\Sigma}) \end{aligned} N(x;μ1,Σ1)N(x;μ2,Σ2)=N(μ1;μ2,Σ1+Σ2)N(x;μ,Σ)
其中
Σ − 1 = Σ 1 − 1 + Σ 2 − 1 μ = Σ ( Σ 1 − 1 μ 1 + Σ 2 − 1 μ 2 ) \begin{aligned} \boldsymbol{\Sigma}^{-1} &= \boldsymbol{\Sigma}_1^{-1} + \boldsymbol{\Sigma}_2^{-1} \\ \boldsymbol{\mu} &= \boldsymbol{\Sigma} (\boldsymbol{\Sigma}_1^{-1} \boldsymbol{\mu}_1 + \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\mu}_2) \end{aligned} Σ1μ=Σ11+Σ21=Σ(Σ11μ1+Σ21μ2)
或者
μ = Σ 2 ( Σ 1 + Σ 2 ) − 1 Σ 1 ⋅ Σ 1 − 1 μ 1 + Σ 1 ( Σ 1 + Σ 2 ) − 1 Σ 2 ⋅ Σ 2 − 1 μ 2 ) = Σ 2 ( Σ 1 + Σ 2 ) − 1 μ 1 + Σ 1 ( Σ 1 + Σ 2 ) − 1 μ 2 \begin{aligned} \boldsymbol{\mu} &= \boldsymbol{\Sigma}_2 ( \boldsymbol{\Sigma}_1 + \boldsymbol{\Sigma}_2 )^{-1} \boldsymbol{\Sigma}_1 \cdot \boldsymbol{\Sigma}_1^{-1} \boldsymbol{\mu}_1 + \boldsymbol{\Sigma}_1 ( \boldsymbol{\Sigma}_1 + \boldsymbol{\Sigma}_2 )^{-1} \boldsymbol{\Sigma}_2 \cdot \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\mu}_2) \\ &= \boldsymbol{\Sigma}_2 ( \boldsymbol{\Sigma}_1 + \boldsymbol{\Sigma}_2 )^{-1} \boldsymbol{\mu}_1 + \boldsymbol{\Sigma}_1 ( \boldsymbol{\Sigma}_1 + \boldsymbol{\Sigma}_2 )^{-1} \boldsymbol{\mu}_2 \end{aligned} μ=Σ2(Σ1+Σ2)1Σ1Σ11μ1+Σ1(Σ1+Σ2)1Σ2Σ21μ2)=Σ2(Σ1+Σ2)1μ1+Σ1(Σ1+Σ2)1μ2

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐