两个高维高斯高斯分布相乘的完整结果
两个高维高斯高斯分布相乘的完整结果
Woodbury矩阵恒等式
伍德伯里矩阵恒等式(Woodbury matrix identity)是一个非常有用的矩阵恒等式,它提供了一种计算矩阵求逆的方法,特别是当矩阵是分块形式时。这个恒等式可以简化矩阵求逆的计算,特别是在处理大规模矩阵时。
伍德伯里矩阵恒等式表述如下:
给定四个矩阵 A , U , C , V A,U,C,V A,U,C,V,其中 A A A 是一个可逆的 n × n n \times n n×n矩阵, U U U 是一个 n × k n \times k n×k 矩阵, C C C 是一个 k × k k \times k k×k 可逆矩阵, V V V 是一个 k × n k \times n k×n 矩阵,那么以下等式成立:
( A + U C V ) − 1 = A − 1 − A − 1 U ( C − 1 + V A − 1 U ) − 1 V A − 1 (A + UCV)^{-1} = A^{-1} - A^{-1}U(C^{-1} + VA^{-1}U)^{-1}VA^{-1} (A+UCV)−1=A−1−A−1U(C−1+VA−1U)−1VA−1
这里, A + U C V A + UCV A+UCV 是一个 n × n n \times n n×n 矩阵, ( A + U C V ) − 1 (A + UCV)^{-1} (A+UCV)−1 是它的逆矩阵。
在高斯分布协方差矩阵中的应用
考虑两个协方差矩阵 Σ 1 \boldsymbol{\Sigma}_1 Σ1, Σ 2 \boldsymbol{\Sigma}_2 Σ2,带入到Woodbury矩阵恒等式,下面两个等式恒成立:
( Σ 1 + Σ 2 ) − 1 = Σ 1 − 1 − Σ 1 − 1 Σ Σ 1 − 1 ( Σ 1 + Σ 2 ) − 1 = Σ 2 − 1 − Σ 2 − 1 Σ Σ 2 − 1 \begin{aligned} (\boldsymbol{\Sigma}_1 + \boldsymbol{\Sigma}_2)^{-1} &= \boldsymbol{\Sigma}_1^{-1} - \boldsymbol{\Sigma}_1^{-1} \boldsymbol{\Sigma} \boldsymbol{\Sigma}_1^{-1} \\ (\boldsymbol{\Sigma}_1 + \boldsymbol{\Sigma}_2)^{-1} &= \boldsymbol{\Sigma}_2^{-1} - \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\Sigma} \boldsymbol{\Sigma}_2^{-1} \end{aligned} (Σ1+Σ2)−1(Σ1+Σ2)−1=Σ1−1−Σ1−1ΣΣ1−1=Σ2−1−Σ2−1ΣΣ2−1
此外,如果令
Σ − 1 = Σ 1 − 1 + Σ 2 − 1 \boldsymbol{\Sigma}^{-1} = \boldsymbol{\Sigma}_1^{-1} + \boldsymbol{\Sigma}_2^{-1} Σ−1=Σ1−1+Σ2−1
则,
Σ 1 − 1 Σ Σ 2 − 1 = Σ 1 − 1 ( Σ 1 − 1 + Σ 2 − 1 ) − 1 Σ 2 − 1 = ( Σ 1 + Σ 2 ) − 1 \boldsymbol{\Sigma}_1^{-1} \boldsymbol{\Sigma} \boldsymbol{\Sigma}_2^{-1} = \boldsymbol{\Sigma}_1^{-1} \left( \boldsymbol{\Sigma}_1^{-1} + \boldsymbol{\Sigma}_2^{-1} \right)^{-1} \boldsymbol{\Sigma}_2^{-1} =( \boldsymbol{\Sigma}_1 + \boldsymbol{\Sigma}_2 )^{-1} Σ1−1ΣΣ2−1=Σ1−1(Σ1−1+Σ2−1)−1Σ2−1=(Σ1+Σ2)−1
我们可以把 Σ \boldsymbol{\Sigma} Σ表示为:
Σ = Σ 1 ( Σ 1 + Σ 2 ) − 1 Σ 2 \boldsymbol{\Sigma}= \boldsymbol{\Sigma}_1 ( \boldsymbol{\Sigma}_1 + \boldsymbol{\Sigma}_2 )^{-1} \boldsymbol{\Sigma}_2 Σ=Σ1(Σ1+Σ2)−1Σ2
行列式的性质
因为
Σ 1 − 1 Σ Σ 2 − 1 = ( Σ 1 + Σ 2 ) − 1 \boldsymbol{\Sigma}_1^{-1} \boldsymbol{\Sigma} \boldsymbol{\Sigma}_2^{-1} = ( \boldsymbol{\Sigma}_1 + \boldsymbol{\Sigma}_2 )^{-1} Σ1−1ΣΣ2−1=(Σ1+Σ2)−1
即,
( Σ 1 + Σ 2 ) = Σ 2 Σ − 1 Σ 1 ( \boldsymbol{\Sigma}_1 + \boldsymbol{\Sigma}_2 ) = \boldsymbol{\Sigma}_2 \boldsymbol{\Sigma}^{-1} \boldsymbol{\Sigma}_1 (Σ1+Σ2)=Σ2Σ−1Σ1
因此
∣ ( Σ 1 + Σ 2 ) ∣ = ∣ Σ 1 ∣ ∣ Σ 2 ∣ ∣ ( Σ 1 − 1 + Σ 2 − 1 ) − 1 ∣ | ( \boldsymbol{\Sigma}_1 + \boldsymbol{\Sigma}_2 )| = \frac{|\boldsymbol{\Sigma}_1 ||\boldsymbol{\Sigma}_2|}{| (\boldsymbol{\Sigma}_1^{-1} + \boldsymbol{\Sigma}_2^{-1})^{-1} |} ∣(Σ1+Σ2)∣=∣(Σ1−1+Σ2−1)−1∣∣Σ1∣∣Σ2∣
即
1 ∣ Σ 1 ∣ ∣ Σ 2 ∣ = 1 ∣ ( Σ 1 + Σ 2 ) ∣ ⋅ 1 ∣ ( Σ 1 − 1 + Σ 2 − 1 ) − 1 ∣ \frac{1}{|\boldsymbol{\Sigma}_1 ||\boldsymbol{\Sigma}_2|}=\frac{1}{| ( \boldsymbol{\Sigma}_1 + \boldsymbol{\Sigma}_2 )|} \cdot \frac{1}{| (\boldsymbol{\Sigma}_1^{-1} + \boldsymbol{\Sigma}_2^{-1})^{-1} |} ∣Σ1∣∣Σ2∣1=∣(Σ1+Σ2)∣1⋅∣(Σ1−1+Σ2−1)−1∣1
两个高维高斯高斯分布相乘的完整结果
对于同一个随机向量 (\mathbf{x}) 对应的两个不同的高斯分布,我们可以将这两个高斯分布分别表示为:
x ∼ N ( μ 1 , Σ 1 ) 和 x ∼ N ( μ 2 , Σ 2 ) \mathbf{x} \sim \mathcal{N}(\boldsymbol{\mu}_1, \boldsymbol{\Sigma}_1) \quad \text{和} \quad \mathbf{x} \sim \mathcal{N}(\boldsymbol{\mu}_2, \boldsymbol{\Sigma}_2) x∼N(μ1,Σ1)和x∼N(μ2,Σ2)
其中, μ 1 \boldsymbol{\mu}_1 μ1 和 μ 2 \boldsymbol{\mu}_2 μ2 是两个分布的均值向量, Σ 1 \boldsymbol{\Sigma}_1 Σ1 和 Σ 2 \boldsymbol{\Sigma}_2 Σ2 是两个分布的协方差矩阵。
当我们谈论两个高斯分布的“乘积”时,我们通常是指这两个分布的概率密度函数(PDF)的乘积。对于两个高斯分布,它们的PDF相乘的结果是另一个函数,但这个函数不再是一个标准的高斯分布。两个高斯分布的PDF相乘的完整表达式为:
f ( x ) = f 1 ( x ) ⋅ f 2 ( x ) f(\mathbf{x}) = f_1(\mathbf{x}) \cdot f_2(\mathbf{x}) f(x)=f1(x)⋅f2(x)
其中, f 1 ( x ) f_1(\mathbf{x}) f1(x) 和 f 2 ( x ) f_2(\mathbf{x}) f2(x) 分别是两个高斯分布的PDF,可以写为:
f 1 ( x ) = 1 ( 2 π ) D ∣ Σ 1 ∣ exp ( − 1 2 ( x − μ 1 ) T Σ 1 − 1 ( x − μ 1 ) ) f_1(\mathbf{x}) = \frac{1}{\sqrt{(2\pi)^D |\boldsymbol{\Sigma}_1|}} \exp\left(-\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu}_1)^T \boldsymbol{\Sigma}_1^{-1} (\mathbf{x} - \boldsymbol{\mu}_1)\right) f1(x)=(2π)D∣Σ1∣1exp(−21(x−μ1)TΣ1−1(x−μ1))
f 2 ( x ) = 1 ( 2 π ) D ∣ Σ 2 ∣ exp ( − 1 2 ( x − μ 2 ) T Σ 2 − 1 ( x − μ 2 ) ) f_2(\mathbf{x}) = \frac{1}{\sqrt{(2\pi)^D |\boldsymbol{\Sigma}_2|}} \exp\left(-\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu}_2)^T \boldsymbol{\Sigma}_2^{-1} (\mathbf{x} - \boldsymbol{\mu}_2)\right) f2(x)=(2π)D∣Σ2∣1exp(−21(x−μ2)TΣ2−1(x−μ2))
因此,两个PDF的乘积为:
f ( x ) = 1 ( 2 π ) D / 2 ∣ Σ 1 ∣ 1 / 2 ∣ Σ 2 ∣ 1 / 2 exp ( − 1 2 [ ( x − μ 1 ) T Σ 1 − 1 ( x − μ 1 ) + ( x − μ 2 ) T Σ 2 − 1 ( x − μ 2 ) ] ) f(\mathbf{x}) = \frac{1}{(2\pi)^{D/2} |\boldsymbol{\Sigma}_1|^{1/2} |\boldsymbol{\Sigma}_2|^{1/2}} \exp\left(-\frac{1}{2} \left[ (\mathbf{x} - \boldsymbol{\mu}_1)^T \boldsymbol{\Sigma}_1^{-1} (\mathbf{x} - \boldsymbol{\mu}_1) + (\mathbf{x} - \boldsymbol{\mu}_2)^T \boldsymbol{\Sigma}_2^{-1} (\mathbf{x} - \boldsymbol{\mu}_2) \right] \right) f(x)=(2π)D/2∣Σ1∣1/2∣Σ2∣1/21exp(−21[(x−μ1)TΣ1−1(x−μ1)+(x−μ2)TΣ2−1(x−μ2)])
这个结果是一个关于 x \mathbf{x} x的函数,但它不是一个高斯分布,因为它的指数部分不是 x \mathbf{x} x 的二次型,且分母中的协方差矩阵的乘积也不是一个协方差矩阵。
要化简两个高斯分布的概率密度函数(PDF)的乘积,我们从以下表达式开始:
f ( x ) = 1 ( 2 π ) D / 2 ∣ Σ 1 ∣ 1 / 2 ∣ Σ 2 ∣ 1 / 2 exp ( − 1 2 [ ( x − μ 1 ) T Σ 1 − 1 ( x − μ 1 ) + ( x − μ 2 ) T Σ 2 − 1 ( x − μ 2 ) ] ) f(\mathbf{x}) = \frac{1}{(2\pi)^{D/2} |\boldsymbol{\Sigma}_1|^{1/2} |\boldsymbol{\Sigma}_2|^{1/2}} \exp\left(-\frac{1}{2} \left[ (\mathbf{x} - \boldsymbol{\mu}_1)^T \boldsymbol{\Sigma}_1^{-1} (\mathbf{x} - \boldsymbol{\mu}_1) + (\mathbf{x} - \boldsymbol{\mu}_2)^T \boldsymbol{\Sigma}_2^{-1} (\mathbf{x} - \boldsymbol{\mu}_2) \right] \right) f(x)=(2π)D/2∣Σ1∣1/2∣Σ2∣1/21exp(−21[(x−μ1)TΣ1−1(x−μ1)+(x−μ2)TΣ2−1(x−μ2)])
我们的目标是将指数部分合并为一个关于 x \mathbf{x} x 的二次型。这可以通过完成平方来实现。让我们逐步进行:
- 展开指数部分:
( x − μ 1 ) T Σ 1 − 1 ( x − μ 1 ) + ( x − μ 2 ) T Σ 2 − 1 ( x − μ 2 ) (\mathbf{x} - \boldsymbol{\mu}_1)^T \boldsymbol{\Sigma}_1^{-1} (\mathbf{x} - \boldsymbol{\mu}_1) + (\mathbf{x} - \boldsymbol{\mu}_2)^T \boldsymbol{\Sigma}_2^{-1} (\mathbf{x} - \boldsymbol{\mu}_2) (x−μ1)TΣ1−1(x−μ1)+(x−μ2)TΣ2−1(x−μ2)
- 合并项:
= x T Σ 1 − 1 x − 2 x T Σ 1 − 1 μ 1 + μ 1 T Σ 1 − 1 μ 1 + x T Σ 2 − 1 x − 2 x T Σ 2 − 1 μ 2 + μ 2 T Σ 2 − 1 μ 2 = \mathbf{x}^T \boldsymbol{\Sigma}_1^{-1} \mathbf{x} - 2 \mathbf{x}^T \boldsymbol{\Sigma}_1^{-1} \boldsymbol{\mu}_1 + \boldsymbol{\mu}_1^T \boldsymbol{\Sigma}_1^{-1} \boldsymbol{\mu}_1 + \mathbf{x}^T \boldsymbol{\Sigma}_2^{-1} \mathbf{x} - 2 \mathbf{x}^T \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\mu}_2 + \boldsymbol{\mu}_2^T \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\mu}_2 =xTΣ1−1x−2xTΣ1−1μ1+μ1TΣ1−1μ1+xTΣ2−1x−2xTΣ2−1μ2+μ2TΣ2−1μ2
- 合并 (\mathbf{x}^T) 项:
= x T ( Σ 1 − 1 + Σ 2 − 1 ) x − 2 x T ( Σ 1 − 1 μ 1 + Σ 2 − 1 μ 2 ) + μ 1 T Σ 1 − 1 μ 1 + μ 2 T Σ 2 − 1 μ 2 = \mathbf{x}^T (\boldsymbol{\Sigma}_1^{-1} + \boldsymbol{\Sigma}_2^{-1}) \mathbf{x} - 2 \mathbf{x}^T (\boldsymbol{\Sigma}_1^{-1} \boldsymbol{\mu}_1 + \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\mu}_2) + \boldsymbol{\mu}_1^T \boldsymbol{\Sigma}_1^{-1} \boldsymbol{\mu}_1 + \boldsymbol{\mu}_2^T \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\mu}_2 =xT(Σ1−1+Σ2−1)x−2xT(Σ1−1μ1+Σ2−1μ2)+μ1TΣ1−1μ1+μ2TΣ2−1μ2
- 完成平方:
为了完成平方,我们需要找到一个矩阵 Σ \boldsymbol{\Sigma} Σ 和一个向量 μ \boldsymbol{\mu} μ 使得:
x T ( Σ 1 − 1 + Σ 2 − 1 ) x − 2 x T ( Σ 1 − 1 μ 1 + Σ 2 − 1 μ 2 ) = ( x − μ ) T Σ − 1 ( x − μ ) \mathbf{x}^T (\boldsymbol{\Sigma}_1^{-1} + \boldsymbol{\Sigma}_2^{-1}) \mathbf{x} - 2 \mathbf{x}^T (\boldsymbol{\Sigma}_1^{-1} \boldsymbol{\mu}_1 + \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\mu}_2) = (\mathbf{x} - \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) xT(Σ1−1+Σ2−1)x−2xT(Σ1−1μ1+Σ2−1μ2)=(x−μ)TΣ−1(x−μ)
其中, μ \boldsymbol{\mu} μ 和 Σ \boldsymbol{\Sigma} Σ 可以通过解以下方程得到:
Σ − 1 = Σ 1 − 1 + Σ 2 − 1 \boldsymbol{\Sigma}^{-1} = \boldsymbol{\Sigma}_1^{-1} + \boldsymbol{\Sigma}_2^{-1} Σ−1=Σ1−1+Σ2−1
μ = Σ ( Σ 1 − 1 μ 1 + Σ 2 − 1 μ 2 ) \boldsymbol{\mu} = \boldsymbol{\Sigma} (\boldsymbol{\Sigma}_1^{-1} \boldsymbol{\mu}_1 + \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\mu}_2) μ=Σ(Σ1−1μ1+Σ2−1μ2)
- 代入并化简:
将 Σ \boldsymbol{\Sigma} Σ和 μ \boldsymbol{\mu} μ代入原式,我们得到:
f ( x ) = 1 ( 2 π ) D / 2 ∣ Σ 1 ∣ 1 / 2 ∣ Σ 2 ∣ 1 / 2 exp ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) + 常数项 ) f(\mathbf{x}) = \frac{1}{(2\pi)^{D/2} |\boldsymbol{\Sigma}_1|^{1/2} |\boldsymbol{\Sigma}_2|^{1/2}} \exp\left(-\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) + \text{常数项} \right) f(x)=(2π)D/2∣Σ1∣1/2∣Σ2∣1/21exp(−21(x−μ)TΣ−1(x−μ)+常数项)
其中,常数项包括:
μ 1 T Σ 1 − 1 μ 1 + μ 2 T Σ 2 − 1 μ 2 − μ T Σ − 1 μ \boldsymbol{\mu}_1^T \boldsymbol{\Sigma}_1^{-1} \boldsymbol{\mu}_1 + \boldsymbol{\mu}_2^T \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\mu}_2 - \boldsymbol{\mu}^T \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu} μ1TΣ1−1μ1+μ2TΣ2−1μ2−μTΣ−1μ
因此,最终化简后的表达式为:
f ( x ) = 1 ( 2 π ) D / 2 ∣ Σ ∣ 1 / 2 exp ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) + 常数项 ) f(\mathbf{x}) = \frac{1}{(2\pi)^{D/2} |\boldsymbol{\Sigma}|^{1/2}} \exp\left(-\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) + \text{常数项} \right) f(x)=(2π)D/2∣Σ∣1/21exp(−21(x−μ)TΣ−1(x−μ)+常数项)
这是一个关于 x \mathbf{x} x 的二次型,其中 μ \boldsymbol{\mu} μ 和 Σ \boldsymbol{\Sigma} Σ 由上述方程确定。
- 常数项化简:
因为 μ = Σ ( Σ 1 − 1 μ 1 + Σ 2 − 1 μ 2 ) \boldsymbol{\mu} = \boldsymbol{\Sigma} (\boldsymbol{\Sigma}_1^{-1} \boldsymbol{\mu}_1 + \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\mu}_2) μ=Σ(Σ1−1μ1+Σ2−1μ2),所以
μ T Σ − 1 μ = μ T ( Σ 1 − 1 μ 1 + Σ 2 − 1 μ 2 ) = ( μ 1 T Σ 1 − 1 + μ 2 T Σ 2 ) − 1 Σ ( Σ 1 − 1 μ 1 + Σ 2 − 1 μ 2 ) = μ 1 T Σ 1 − 1 Σ Σ 1 − 1 μ 1 + μ 2 T Σ 2 − 1 Σ Σ 2 − 1 μ 2 + 2 μ 1 T Σ 1 − 1 Σ Σ 2 − 1 μ 2 \begin{aligned} \boldsymbol{\mu}^T \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}&= \boldsymbol{\mu}^T (\boldsymbol{\Sigma}_1^{-1} \boldsymbol{\mu}_1 + \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\mu}_2) \\ &=(\boldsymbol{\mu}_1^T \boldsymbol{\Sigma}_1^{-1} + \boldsymbol{\mu}_2^T \boldsymbol{\Sigma}_2)^{-1} \boldsymbol{\Sigma} (\boldsymbol{\Sigma}_1^{-1} \boldsymbol{\mu}_1 + \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\mu}_2) \\ &=\boldsymbol{\mu}_1^T \boldsymbol{\Sigma}_1^{-1} \boldsymbol{\Sigma} \boldsymbol{\Sigma}_1^{-1} \boldsymbol{\mu}_1 + \boldsymbol{\mu}_2^T \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\Sigma} \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\mu}_2 + 2 \boldsymbol{\mu}_1^T \boldsymbol{\Sigma}_1^{-1} \boldsymbol{\Sigma} \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\mu}_2 \end{aligned} μTΣ−1μ=μT(Σ1−1μ1+Σ2−1μ2)=(μ1TΣ1−1+μ2TΣ2)−1Σ(Σ1−1μ1+Σ2−1μ2)=μ1TΣ1−1ΣΣ1−1μ1+μ2TΣ2−1ΣΣ2−1μ2+2μ1TΣ1−1ΣΣ2−1μ2
进一步,结合 μ 1 T Σ 1 − 1 μ 1 + μ 2 T Σ 2 − 1 μ 2 − μ T Σ − 1 μ \boldsymbol{\mu}_1^T \boldsymbol{\Sigma}_1^{-1} \boldsymbol{\mu}_1 + \boldsymbol{\mu}_2^T \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\mu}_2 - \boldsymbol{\mu}^T \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu} μ1TΣ1−1μ1+μ2TΣ2−1μ2−μTΣ−1μ,我们可以把常数项分成一下三部分
( i ) : μ 1 T ( Σ 1 − 1 − Σ 1 − 1 Σ Σ 1 − 1 ) μ 1 ( i i ) : μ 2 T ( Σ 2 − 1 − Σ 2 − 1 Σ Σ 2 − 1 ) μ 2 ( i i i ) : − 2 μ 1 T Σ 1 − 1 Σ Σ 2 − 1 μ 2 \begin{aligned} (i): \quad & \boldsymbol{\mu}_1^T \left( \boldsymbol{\Sigma}_1^{-1} - \boldsymbol{\Sigma}_1^{-1} \boldsymbol{\Sigma} \boldsymbol{\Sigma}_1^{-1} \right ) \boldsymbol{\mu}_1 \\ (ii): \quad & \boldsymbol{\mu}_2^T \left( \boldsymbol{\Sigma}_2^{-1} - \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\Sigma} \boldsymbol{\Sigma}_2^{-1} \right ) \boldsymbol{\mu}_2 \\ (iii): \quad & -2 \boldsymbol{\mu}_1^T \boldsymbol{\Sigma}_1^{-1} \boldsymbol{\Sigma} \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\mu}_2 \end{aligned} (i):(ii):(iii):μ1T(Σ1−1−Σ1−1ΣΣ1−1)μ1μ2T(Σ2−1−Σ2−1ΣΣ2−1)μ2−2μ1TΣ1−1ΣΣ2−1μ2
利用Woodbury矩阵恒等式的相关性质,我们得到:
常数项 = − 1 2 ( μ 1 − μ 2 ) T ( Σ 1 + Σ 2 ) − 1 ( μ 1 − μ 2 ) \text{常数项}= -\frac{1}{2}(\boldsymbol{\mu}_1 - \boldsymbol{\mu}_2)^T (\boldsymbol{\Sigma}_1+\boldsymbol{\Sigma}_2)^{-1} (\boldsymbol{\mu}_1 - \boldsymbol{\mu}_2) 常数项=−21(μ1−μ2)T(Σ1+Σ2)−1(μ1−μ2)
最后,我们利用行列式的相关性质,得到如下结论。
结论
N ( x ; μ 1 , Σ 1 ) ⋅ N ( x ; μ 2 , Σ 2 ) = N ( μ 1 ; μ 2 , Σ 1 + Σ 2 ) ⋅ N ( x ; μ , Σ ) \begin{aligned} & \quad \mathcal{N}(\boldsymbol{x}; \boldsymbol{\mu}_1, \boldsymbol{\Sigma}_1) \cdot \mathcal{N}(\boldsymbol{x}; \boldsymbol{\mu}_2, \boldsymbol{\Sigma}_2)\\ & = \mathcal{N}(\boldsymbol{\mu}_1; \boldsymbol{\mu}_2, \boldsymbol{\Sigma}_1 + \boldsymbol{\Sigma}_2) \cdot \mathcal{N}(\boldsymbol{x}; \boldsymbol{\mu}, \boldsymbol{\Sigma}) \end{aligned} N(x;μ1,Σ1)⋅N(x;μ2,Σ2)=N(μ1;μ2,Σ1+Σ2)⋅N(x;μ,Σ)
其中
Σ − 1 = Σ 1 − 1 + Σ 2 − 1 μ = Σ ( Σ 1 − 1 μ 1 + Σ 2 − 1 μ 2 ) \begin{aligned} \boldsymbol{\Sigma}^{-1} &= \boldsymbol{\Sigma}_1^{-1} + \boldsymbol{\Sigma}_2^{-1} \\ \boldsymbol{\mu} &= \boldsymbol{\Sigma} (\boldsymbol{\Sigma}_1^{-1} \boldsymbol{\mu}_1 + \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\mu}_2) \end{aligned} Σ−1μ=Σ1−1+Σ2−1=Σ(Σ1−1μ1+Σ2−1μ2)
或者
μ = Σ 2 ( Σ 1 + Σ 2 ) − 1 Σ 1 ⋅ Σ 1 − 1 μ 1 + Σ 1 ( Σ 1 + Σ 2 ) − 1 Σ 2 ⋅ Σ 2 − 1 μ 2 ) = Σ 2 ( Σ 1 + Σ 2 ) − 1 μ 1 + Σ 1 ( Σ 1 + Σ 2 ) − 1 μ 2 \begin{aligned} \boldsymbol{\mu} &= \boldsymbol{\Sigma}_2 ( \boldsymbol{\Sigma}_1 + \boldsymbol{\Sigma}_2 )^{-1} \boldsymbol{\Sigma}_1 \cdot \boldsymbol{\Sigma}_1^{-1} \boldsymbol{\mu}_1 + \boldsymbol{\Sigma}_1 ( \boldsymbol{\Sigma}_1 + \boldsymbol{\Sigma}_2 )^{-1} \boldsymbol{\Sigma}_2 \cdot \boldsymbol{\Sigma}_2^{-1} \boldsymbol{\mu}_2) \\ &= \boldsymbol{\Sigma}_2 ( \boldsymbol{\Sigma}_1 + \boldsymbol{\Sigma}_2 )^{-1} \boldsymbol{\mu}_1 + \boldsymbol{\Sigma}_1 ( \boldsymbol{\Sigma}_1 + \boldsymbol{\Sigma}_2 )^{-1} \boldsymbol{\mu}_2 \end{aligned} μ=Σ2(Σ1+Σ2)−1Σ1⋅Σ1−1μ1+Σ1(Σ1+Σ2)−1Σ2⋅Σ2−1μ2)=Σ2(Σ1+Σ2)−1μ1+Σ1(Σ1+Σ2)−1μ2
更多推荐
所有评论(0)