似然函数与费舍尔信息矩阵的讲解

本笔记将更详尽地介绍似然函数(Likelihood Function)费舍尔信息矩阵(Fisher Information Matrix)


1. 似然函数:从“已知参数的分布”到“已知数据的参数函数”

1.1 问题背景:参数与数据

在统计建模中,我们常常设想:

  • X X X 是一个随机变量(或随机向量),其分布由一个(或多个)参数 θ \theta θ 决定。
  • X X X 的分布为某个已知家族(如正态、指数分布等),该分布可以用联合密度(或概率质量函数) p ( x ∣ θ ) p(x \mid \theta) p(xθ) 表示。

在实际应用中,我们先观测到一些样本数据,再去推断(估计)分布背后的参数 θ \theta θ


1.2 似然函数: L ( θ ∣ x ) L(\theta\mid x) L(θx)

给定一个观测值 x x x,如果知道参数 θ \theta θ,则 p ( x ∣ θ ) p(x \mid \theta) p(xθ) 表示的是“ X = x X = x X=x 出现的概率密度或概率质量”。
然而,当我们真正拿到数据 x x x 后,我们往往对 θ \theta θ 不确定,这时我们会将同一个表达式换个视角来解释:“若观测到了 x x x,究竟哪个 θ \theta θ 能更好地解释这份数据?”于是定义似然函数 L ( θ ∣ x ) L(\theta\mid x) L(θx)

L ( θ ∣ x )    =    p ( x ∣ θ ) . L(\theta\mid x) \;=\; p(x \mid \theta). L(θx)=p(xθ).

  • 概率分布 p ( x ∣ θ ) p(x\mid \theta) p(xθ) θ \theta θ 当作已知常量,把 x x x 当作随机变量;
  • 似然函数 L ( θ ∣ x ) L(\theta\mid x) L(θx) x x x 已经是观测到的固定值,把 θ \theta θ 当作变量来“度量”对数据的解释力。
多个独立同分布样本

如果我们有 n n n 个独立同分布(i.i.d.)样本 { x 1 , x 2 , … , x n } \{x_1, x_2, \dots, x_n\} {x1,x2,,xn},那么总似然函数是单个似然的乘积:

L ( θ ∣ x 1 , x 2 , … , x n ) = ∏ i = 1 n p ( x i ∣ θ ) . L(\theta \mid x_1, x_2, \dots, x_n) = \prod_{i=1}^n p(x_i \mid \theta). L(θx1,x2,,xn)=i=1np(xiθ).

在记法上,也常简写为

L ( θ ) = ∏ i = 1 n p ( x i ∣ θ ) , L(\theta) = \prod_{i=1}^n p(x_i \mid \theta), L(θ)=i=1np(xiθ),

其中 x i x_i xi 在外都是已知数据。


1.3 对数似然函数: ℓ ( θ ) \ell(\theta) (θ)

为了简化乘积并且使得数值计算更稳定,通常使用对数形式的似然:

ℓ ( θ )    =    log ⁡ L ( θ )    =    ∑ i = 1 n log ⁡ p ( x i ∣ θ ) . \ell(\theta) \;=\; \log L(\theta) \;=\; \sum_{i=1}^n \log p(x_i \mid \theta). (θ)=logL(θ)=i=1nlogp(xiθ).

  • 优点:将乘法变为加法,方便求导、简化分析;
  • 在最大化问题中, log ⁡ \log log 函数是单调递增的,因此最大化对数似然与最大化似然本身等价

2. 费舍尔信息:衡量参数信息量的刻度

2.1 直观动机

我们希望知道:一个分布家族 p ( x ∣ θ ) p(x\mid \theta) p(xθ),对于参数 θ \theta θ 的变化到底有多敏感?如果少量数据就能很好地区分不同 θ \theta θ 值(即数据对 θ \theta θ 很“敏感”),说明分布对 θ \theta θ 的依赖强,我们能获得的关于 θ \theta θ 的信息就很多;如果分布对 θ \theta θ 的微调并不敏感,很难“区分”不同 θ \theta θ,说明信息量就会小。

费舍尔信息(Fisher Information)就是用来描述这种参数可辨识度的重要指标。


2.2 标量参数的费舍尔信息

最初我们先假设参数是标量 θ \theta θ。有两种常见且等价的定义形式。

定义 1:导数方差形式

I ( θ )    =    E  ⁣ [ ( ∂ ∂ θ log ⁡ p ( X ∣ θ ) ) 2 ] , I(\theta) \;=\; \mathbb{E}\!\Bigg[\bigg(\frac{\partial}{\partial\theta} \log p(X\mid \theta)\bigg)^2\Bigg], I(θ)=E[(θlogp(Xθ))2],

其中期望 E [ ⋅ ] \mathbb{E}[\cdot] E[] 对随机变量 X X X 取, θ \theta θ 被视为常数。

  • ∂ ∂ θ log ⁡ p ( X ∣ θ ) \frac{\partial}{\partial\theta} \log p(X\mid \theta) θlogp(Xθ) θ \theta θ 变化很大,则表示分布对参数很敏感,也就信息量大
  • 若对 θ \theta θ 改变不敏感,则信息量小
定义 2:对数似然的二阶导数形式

I ( θ )    =    −   E  ⁣ [ ∂ 2 ∂ θ 2 log ⁡ p ( X ∣ θ ) ] . I(\theta) \;=\; -\,\mathbb{E}\!\Bigg[\frac{\partial^2}{\partial\theta^2} \log p(X\mid \theta)\Bigg]. I(θ)=E[θ22logp(Xθ)].

可以证明,以上两种定义是等价的。简要示意如下:

g ( θ ) = ∂ ∂ θ log ⁡ p ( X ∣ θ ) , g(\theta) = \frac{\partial}{\partial \theta} \log p(X\mid \theta), g(θ)=θlogp(Xθ),

E [ g ( θ ) ] = E [ ∂ ∂ θ log ⁡ p ( X ∣ θ ) ] = ∂ ∂ θ E [ log ⁡ p ( X ∣ θ ) ] = ∂ ∂ θ ( ∫ p ( x ∣ θ ) log ⁡ p ( x ∣ θ )   d x ) . \mathbb{E}[g(\theta)] = \mathbb{E}\Big[\frac{\partial}{\partial \theta} \log p(X\mid \theta)\Big] = \frac{\partial}{\partial \theta} \mathbb{E}[\log p(X\mid \theta)] = \frac{\partial}{\partial \theta} \Bigg(\int p(x\mid \theta)\log p(x\mid \theta)\, dx \Bigg). E[g(θ)]=E[θlogp(Xθ)]=θE[logp(Xθ)]=θ(p(xθ)logp(xθ)dx).

再利用分布的正则条件、积分互换以及 ∫ p ( x ∣ θ ) d x = 1 \int p(x\mid \theta) dx = 1 p(xθ)dx=1 等技巧,可以推导出 E [ g ( θ ) ] = 0 \mathbb{E}[g(\theta)] = 0 E[g(θ)]=0,以及

E [ g ( θ ) 2 ] = −   E [ ∂ 2 ∂ θ 2 log ⁡ p ( X ∣ θ ) ] . \mathbb{E}[g(\theta)^2] = -\, \mathbb{E}\Bigg[\frac{\partial^2}{\partial\theta^2} \log p(X\mid \theta)\Bigg]. E[g(θ)2]=E[θ22logp(Xθ)].

因而得到前后两个定义的等价性。


2.3 多维参数(向量)情形

若参数是维度为 k k k 的向量 θ = ( θ 1 , θ 2 , … , θ k ) \boldsymbol{\theta} = (\theta_1, \theta_2, \dots, \theta_k) θ=(θ1,θ2,,θk),则费舍尔信息会成为一个 k × k k \times k k×k 对称的矩阵

I ( θ ) = E  ⁣ [ ∇ θ log ⁡ p ( X ∣ θ )    ∇ θ log ⁡ p ( X ∣ θ ) ⊤ ] , \mathbf{I}(\boldsymbol{\theta}) = \mathbb{E}\!\Big[ \nabla_{\boldsymbol{\theta}} \log p(X\mid \boldsymbol{\theta}) \;\nabla_{\boldsymbol{\theta}} \log p(X\mid \boldsymbol{\theta})^\top \Big], I(θ)=E[θlogp(Xθ)θlogp(Xθ)],

其中
∇ θ log ⁡ p ( X ∣ θ ) = ( ∂ ∂ θ 1 log ⁡ p ( X ∣ θ ) ,   … ,   ∂ ∂ θ k log ⁡ p ( X ∣ θ ) ) ⊤ \nabla_{\boldsymbol{\theta}} \log p(X\mid \boldsymbol{\theta}) = \bigg(\frac{\partial}{\partial \theta_1}\log p(X\mid \boldsymbol{\theta}),\,\dots,\,\frac{\partial}{\partial \theta_k}\log p(X\mid \boldsymbol{\theta})\bigg)^\top θlogp(Xθ)=(θ1logp(Xθ),,θklogp(Xθ))
梯度向量。

或等价地可以写成 Hessian(对数似然的二阶偏导)形式的负期望:

I ( θ )    =    −   E [ ∇ θ ∇ θ ⊤   log ⁡ p ( X ∣ θ ) ] . \mathbf{I}(\boldsymbol{\theta}) \;=\; -\,\mathbb{E}\Big[ \nabla_{\boldsymbol{\theta}} \nabla_{\boldsymbol{\theta}}^\top \,\log p(X\mid \boldsymbol{\theta}) \Big]. I(θ)=E[θθlogp(Xθ)].


3. 最大似然估计(MLE)与费舍尔信息的关系

3.1 MLE 的求解思路

给定样本 { x 1 , x 2 , … , x n } \{x_1, x_2, \dots, x_n\} {x1,x2,,xn},我们将参数 θ \theta θ 视作未知量,用 最大似然估计(MLE) 方法来估计它。定义对数似然函数

ℓ ( θ ) = ∑ i = 1 n log ⁡ p ( x i ∣ θ ) . \ell(\theta) = \sum_{i=1}^n \log p(x_i\mid \theta). (θ)=i=1nlogp(xiθ).

然后:

θ ^ MLE = arg max ⁡ θ    ℓ ( θ ) . \hat{\theta}_{\text{MLE}} = \operatorname*{arg\,max}_{\theta} \;\ell(\theta). θ^MLE=θargmax(θ).

通常通过设置导数为 0 来求解,即

∂ ∂ θ   ℓ ( θ ) ∣ θ = θ ^ = 0. \frac{\partial}{\partial\theta}\,\ell(\theta)\bigg|_{\theta = \hat{\theta}} = 0. θ(θ) θ=θ^=0.

θ \theta θ 是多维向量,就需要解

∇ θ   ℓ ( θ )    =    0. \nabla_{\boldsymbol{\theta}}\, \ell(\boldsymbol{\theta}) \;=\; 0. θ(θ)=0.

3.2 Cramér-Rao 下界

对于任意无偏估计量 θ ^ \hat{\theta} θ^,其方差不能小于费舍尔信息的倒数(标量情形)或矩阵逆(向量情形)。

  • 标量情形
    V a r ( θ ^ )    ≥    1 n   I ( θ ) . \mathrm{Var}(\hat{\theta}) \;\ge\; \frac{1}{n\,I(\theta)}. Var(θ^)nI(θ)1.
    这里 n n n 是样本量, I ( θ ) I(\theta) I(θ) 是单个样本的费舍尔信息。因此总费舍尔信息通常是 n   I ( θ ) n\, I(\theta) nI(θ),对应估计量的方差下界为 ( n   I ( θ ) ) − 1 \big(n\,I(\theta)\big)^{-1} (nI(θ))1

  • 向量情形
    C o v ( θ ^ )    ⪰    1 n   I ( θ ) − 1 . \mathrm{Cov}\big(\hat{\boldsymbol{\theta}}\big) \;\succeq\; \frac{1}{n}\,\mathbf{I}(\boldsymbol{\theta})^{-1}. Cov(θ^)n1I(θ)1.
    其中 ⪰ \succeq 表示矩阵意义上的正定序关系。

含义:费舍尔信息越大,能够获得的估计精度越高,Cramér-Rao下界越低。

3.3 渐近正态性

当样本量 n → ∞ n\rightarrow \infty n,在满足一定的正则条件时,最大似然估计量通常满足:

n ( θ ^ − θ ∗ )    → d    N ( 0 ,    I ( θ ∗ ) − 1 ) ( 标量情况 ) , \sqrt{n}\big(\hat{\theta} - \theta^*\big) \;\xrightarrow{d}\; N\Big(0,\; I(\theta^*)^{-1}\Big)\quad (\text{标量情况}), n (θ^θ)d N(0,I(θ)1)(标量情况),

或多维情形:

n ( θ ^ − θ ∗ )    → d    N ( 0 ,    I ( θ ∗ ) − 1 ) . \sqrt{n}\big(\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}^*\big) \;\xrightarrow{d}\; \mathcal{N}\Big(\mathbf{0},\; \mathbf{I}(\boldsymbol{\theta}^*)^{-1}\Big). n (θ^θ)d N(0,I(θ)1).

这里 θ ∗ \theta^* θ(或 θ ∗ \boldsymbol{\theta}^* θ)是真实参数值。这说明 MLE 在大样本下具有“正态分布”近似,其方差(协方差)与费舍尔信息的倒数(逆矩阵)密切相关。


4. 具体示例与详细推导

下面以两类常见分布:伯努利分布正态分布,来演示似然函数与费舍尔信息的计算过程。在此过程中,会给出更多的公式化展开。


4.1 伯努利分布

4.1.1 分布定义与似然函数
  • 分布 X ∼ B e r n o u l l i ( p ) X \sim \mathrm{Bernoulli}(p) XBernoulli(p),参数 θ = p ∈ ( 0 , 1 ) \theta = p \in (0,1) θ=p(0,1)
    概率质量函数:
    p ( x ∣ p ) = p x ( 1 − p )   1 − x , x ∈ { 0 , 1 } . p(x\mid p) = p^x (1-p)^{\,1-x}, \quad x \in \{0,1\}. p(xp)=px(1p)1x,x{0,1}.
  • 样本 x 1 , … , x n ∈ { 0 , 1 } x_1, \dots, x_n \in \{0,1\} x1,,xn{0,1},假设独立同分布。
  • 似然函数
    L ( p ) = ∏ i = 1 n p   x i ( 1 − p )   1 − x i . L(p) = \prod_{i=1}^n p^{\,x_i} (1-p)^{\,1-x_i}. L(p)=i=1npxi(1p)1xi.
  • 对数似然
    ℓ ( p ) = ∑ i = 1 n [ x i log ⁡ p    +    ( 1 − x i ) log ⁡ ( 1 − p ) ] . \ell(p) = \sum_{i=1}^n \Big[x_i \log p \;+\; (1-x_i)\log(1-p)\Big]. (p)=i=1n[xilogp+(1xi)log(1p)].
4.1.2 MLE 求解

ℓ ( p ) \ell(p) (p) 关于 p p p 求导,并令其为 0:

d d p   ℓ ( p ) = ∑ i = 1 n [ x i p    −    1 − x i 1 − p ] = 0. \frac{\mathrm{d}}{\mathrm{d}p}\,\ell(p) = \sum_{i=1}^n \Big[\frac{x_i}{p} \;-\; \frac{1 - x_i}{1-p}\Big] = 0. dpd(p)=i=1n[pxi1p1xi]=0.

简化整理可得:

∑ i = 1 n x i ⋅ 1 p    −    ∑ i = 1 n ( 1 − x i )   1 1 − p = 0 , \sum_{i=1}^n x_i \cdot \frac{1}{p} \;-\; \sum_{i=1}^n (1-x_i)\,\frac{1}{1-p} = 0, i=1nxip1i=1n(1xi)1p1=0,

∑ i = 1 n x i ⋅ 1 p = ∑ i = 1 n ( 1 − x i )   1 1 − p . \sum_{i=1}^n x_i \cdot \frac{1}{p}= \sum_{i=1}^n (1-x_i)\,\frac{1}{1-p}. i=1nxip1=i=1n(1xi)1p1.

∑ i = 1 n x i = ∑ x i \sum_{i=1}^n x_i = \sum x_i i=1nxi=xi(样本中 1 的总数),可写为:

∑ x i p = n − ∑ x i   1 − p   . \frac{\sum x_i}{p}= \frac{n - \sum x_i}{\,1 - p\,}. pxi=1pnxi.

解得最大似然估计

p ^ = 1 n ∑ i = 1 n x i    ≡    x ˉ . \hat{p} = \frac{1}{n}\sum_{i=1}^n x_i \;\equiv\; \bar{x}. p^=n1i=1nxixˉ.

这就是“样本中 1 的平均出现率”作为伯努利分布参数 p p p 的估计。

4.1.3 费舍尔信息计算
  1. 使用定义 1(方差定义)

    单个样本 X X X 的对数似然为
    log ⁡ p ( X ∣ p ) = X log ⁡ p + ( 1 − X ) log ⁡ ( 1 − p ) . \log p(X\mid p) = X \log p + (1-X)\log(1-p). logp(Xp)=Xlogp+(1X)log(1p).
    一阶导数:
    g ( p ) = ∂ ∂ p   log ⁡ p ( X ∣ p ) = X p − 1 − X 1 − p . g(p) = \frac{\partial}{\partial p}\,\log p(X\mid p) = \frac{X}{p} - \frac{1-X}{1-p}. g(p)=plogp(Xp)=pX1p1X.
    因此
    ( g ( p ) ) 2 = ( X p − 1 − X 1 − p ) 2 . \big(g(p)\big)^2 = \biggl(\frac{X}{p} - \frac{1-X}{1-p}\biggr)^2. (g(p))2=(pX1p1X)2.
    取期望 E [ ⋅ ] \mathbb{E}[\cdot] E[] 时,需要注意 X ∼ B e r n o u l l i ( p ) X\sim \mathrm{Bernoulli}(p) XBernoulli(p),故 E [ X ] = p \mathbb{E}[X]=p E[X]=p。详细展开后可最终得到

    I ( p ) = 1 p ( 1 − p ) . I(p) = \frac{1}{p(1-p)}. I(p)=p(1p)1.

    这表明:单个样本包含的费舍尔信息为 1 p ( 1 − p ) \tfrac{1}{p(1-p)} p(1p)1
    n n n 个 i.i.d. 样本时,总费舍尔信息为

    I n ( p ) = n   1 p ( 1 − p ) . I_n(p) = n \,\frac{1}{p(1-p)}. In(p)=np(1p)1.

  2. 使用定义 2(二阶导数定义)(简要示意):

    ∂ 2 ∂ p 2   log ⁡ p ( X ∣ p ) = −   X p 2 − 1 − X ( 1 − p ) 2 . \frac{\partial^2}{\partial p^2}\,\log p(X\mid p) = -\,\frac{X}{p^2} - \frac{1 - X}{(1-p)^2}. p22logp(Xp)=p2X(1p)21X.

    再对 X X X 取期望,就可以得到

    −   E [ ∂ 2 ∂ p 2   log ⁡ p ( X ∣ p ) ] = 1 p ( 1 − p ) . -\,\mathbb{E}\bigg[\frac{\partial^2}{\partial p^2}\,\log p(X\mid p)\bigg] = \frac{1}{p(1-p)}. E[p22logp(Xp)]=p(1p)1.

    结果与第一种方法一致。

4.1.4 Cramér-Rao 下界与 MLE 方差
  • 总费舍尔信息: I n ( p ) = n p ( 1 − p ) I_n(p)=\frac{n}{p(1-p)} In(p)=p(1p)n

  • Cramér-Rao下界(对于无偏估计量 p ^ \hat{p} p^):

    V a r ( p ^ )    ≥    1   I n ( p )   = p ( 1 − p ) n . \mathrm{Var}(\hat{p}) \;\ge\; \frac{1}{\,I_n(p)\,} = \frac{p(1-p)}{n}. Var(p^)In(p)1=np(1p).

  • 事实上,MLE 的 p ^ = X ˉ \hat{p} = \bar{X} p^=Xˉ 具有方差 p ( 1 − p ) n \frac{p(1-p)}{n} np(1p),恰好达到该下界。


4.2 正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)

现在我们看一个连续型分布的例子。设 X ∼ N ( μ , σ 2 ) X \sim \mathcal{N}(\mu, \sigma^2) XN(μ,σ2)。参数是 θ = ( μ , σ 2 ) \boldsymbol{\theta} = (\mu, \sigma^2) θ=(μ,σ2)。为简明,这里只列示关键步骤,但会给出尽量多的公式化细节。


4.2.1 似然与对数似然
  • 单个样本 x x x 的密度函数:

    p ( x ∣ μ , σ 2 ) = 1 2 π   σ exp ⁡  ⁣ ( − ( x − μ ) 2   2 σ 2   ) . p(x \mid \mu,\sigma^2) = \frac{1}{\sqrt{2\pi}\,\sigma} \exp\!\Big(-\frac{(x-\mu)^2}{\,2\sigma^2\,}\Big). p(xμ,σ2)=2π σ1exp(2σ2(xμ)2).

  • 对数似然(单个样本) ℓ 1 ( μ , σ 2 ) \ell_1(\mu,\sigma^2) 1(μ,σ2)

    log ⁡ p ( x ∣ μ , σ 2 ) = − 1 2   log ⁡ ( 2 π ) − 1 2   log ⁡ ( σ 2 ) − ( x − μ ) 2   2 σ 2   . \log p(x\mid \mu,\sigma^2) = -\frac{1}{2}\,\log(2\pi) -\frac{1}{2}\,\log(\sigma^2) -\frac{(x-\mu)^2}{\,2\sigma^2\,}. logp(xμ,σ2)=21log(2π)21log(σ2)2σ2(xμ)2.

    常数项 − 1 2 log ⁡ ( 2 π ) -\tfrac{1}{2}\log(2\pi) 21log(2π) 与参数无关,可在求导时省略。

  • n n n 个样本 x 1 , … , x n x_1,\dots,x_n x1,,xn 的对数似然 ℓ ( μ , σ 2 ) \ell(\mu,\sigma^2) (μ,σ2)

    ℓ ( μ , σ 2 ) = ∑ i = 1 n log ⁡ p ( x i ∣ μ , σ 2 )    =    − n 2   log ⁡ ( σ 2 ) − 1 2 σ 2   ∑ i = 1 n ( x i − μ ) 2    +    常数 . \ell(\mu,\sigma^2)= \sum_{i=1}^n \log p(x_i\mid \mu,\sigma^2) \;=\; -\frac{n}{2}\,\log(\sigma^2)- \frac{1}{2\sigma^2}\,\sum_{i=1}^n (x_i - \mu)^2 \;+\; \text{常数}. (μ,σ2)=i=1nlogp(xiμ,σ2)=2nlog(σ2)2σ21i=1n(xiμ)2+常数.


4.2.2 最大似然估计

为找 μ ^ \hat{\mu} μ^ σ ^ 2 \hat{\sigma}^2 σ^2 的 MLE,计算对数似然关于 μ \mu μ σ 2 \sigma^2 σ2 的偏导数并令其为 0 即可。

  1. μ \mu μ 的偏导:

    ∂ ∂ μ   ℓ ( μ , σ 2 ) = ∂ ∂ μ [ − n 2 log ⁡ ( σ 2 ) − 1 2 σ 2   ∑ i = 1 n ( x i − μ ) 2 ] = −   1   σ 2     ∑ i = 1 n ( x i − μ ) . \frac{\partial}{\partial \mu}\,\ell(\mu,\sigma^2)= \frac{\partial}{\partial \mu} \Bigg[-\frac{n}{2}\log(\sigma^2)- \frac{1}{2\sigma^2}\,\sum_{i=1}^n (x_i - \mu)^2 \Bigg]= -\,\frac{1}{\,\sigma^2\,}\,\sum_{i=1}^n (x_i - \mu). μ(μ,σ2)=μ[2nlog(σ2)2σ21i=1n(xiμ)2]=σ21i=1n(xiμ).

    设此为 0,则有

    ∑ i = 1 n ( x i − μ ) = 0      ⟹      μ ^    =    1 n ∑ i = 1 n x i . \sum_{i=1}^n (x_i - \mu) = 0 \;\;\Longrightarrow\;\; \hat{\mu} \;=\; \frac{1}{n}\sum_{i=1}^n x_i. i=1n(xiμ)=0μ^=n1i=1nxi.

  2. σ 2 \sigma^2 σ2 的偏导:

    σ 2 = α \sigma^2 = \alpha σ2=α(单纯为符号区别),对 ℓ ( μ , α ) \ell(\mu,\alpha) (μ,α) 求导:

    ∂ ∂ α   ℓ ( μ , α ) = − n 2   1 α + 1 2   α 2   ∑ i = 1 n ( x i − μ ) 2 . \frac{\partial}{\partial \alpha}\,\ell(\mu,\alpha) = -\frac{n}{2}\,\frac{1}{\alpha}+ \frac{1}{2\,\alpha^2}\,\sum_{i=1}^n (x_i - \mu)^2. α(μ,α)=2nα1+2α21i=1n(xiμ)2.

    设此为 0,得

    − n 2 α + 1 2   α 2   ∑ i = 1 n ( x i − μ ) 2 = 0      ⟹      ∑ i = 1 n ( x i − μ ) 2 = n   α ^ , -\frac{n}{2\alpha} + \frac{1}{2\,\alpha^2}\,\sum_{i=1}^n (x_i - \mu)^2= 0 \;\;\Longrightarrow\;\; \sum_{i=1}^n (x_i - \mu)^2= n\,\hat{\alpha}, 2αn+2α21i=1n(xiμ)2=0i=1n(xiμ)2=nα^,

    σ ^ 2 = α ^ = 1 n ∑ i = 1 n ( x i − μ ^ ) 2 . \hat{\sigma}^2 = \hat{\alpha} = \frac{1}{n}\sum_{i=1}^n (x_i - \hat{\mu})^2. σ^2=α^=n1i=1n(xiμ^)2.

  • 由此得到 MLE: μ ^ = x ‾ \hat{\mu} = \overline{x} μ^=x σ ^ 2 = 1 n ∑ i ( x i − x ‾ ) 2 \hat{\sigma}^2 = \frac{1}{n}\sum_{i}(x_i-\overline{x})^2 σ^2=n1i(xix)2

4.2.3 费舍尔信息矩阵(单个样本)

现在来计算 I ( μ , σ 2 ) \mathbf{I}(\mu,\sigma^2) I(μ,σ2) 2 × 2 2\times 2 2×2 矩阵)。要么用梯度外积,要么用负的 Hessian 矩阵期望

先写出单个样本的对数似然(省略常数):

ℓ 1 ( μ , σ 2 ) = − 1 2 log ⁡ ( σ 2 ) − ( x − μ ) 2 2   σ 2 . \ell_1(\mu,\sigma^2) = -\frac12 \log(\sigma^2)- \frac{(x-\mu)^2}{2\,\sigma^2}. 1(μ,σ2)=21log(σ2)2σ2(xμ)2.

我们可以先计算其一阶偏导(梯度),再用定义 1(外积法)求期望;也可以直接算 Hessian,然后再取负的期望。下面演示 Hessian 形式,能一次得出矩阵中各项。

  1. 一阶偏导

    • μ \mu μ

      ∂ ∂ μ   ℓ 1 ( μ , σ 2 ) = ( x − μ ) σ 2 . \frac{\partial}{\partial \mu}\,\ell_1(\mu,\sigma^2) = \frac{(x-\mu)}{\sigma^2}. μ1(μ,σ2)=σ2(xμ).

    • σ 2 \sigma^2 σ2

      ∂ ∂ σ 2   ℓ 1 ( μ , σ 2 ) = − 1 2   1 σ 2 + ( x − μ ) 2   2   ( σ 2 ) 2   . \frac{\partial}{\partial \sigma^2}\,\ell_1(\mu,\sigma^2)= -\frac{1}{2}\,\frac{1}{\sigma^2} + \frac{(x-\mu)^2}{\,2\,(\sigma^2)^2\,}. σ21(μ,σ2)=21σ21+2(σ2)2(xμ)2.

  2. 二阶偏导(Hessian 矩阵)

    • ∂ 2 ∂ μ 2   ℓ 1 ( μ , σ 2 ) \displaystyle \frac{\partial^2}{\partial \mu^2}\,\ell_1(\mu,\sigma^2) μ221(μ,σ2):

      ∂ ∂ μ ( x − μ σ 2 ) = − 1 σ 2 . \frac{\partial}{\partial \mu}\bigg(\frac{x-\mu}{\sigma^2}\bigg) = -\frac{1}{\sigma^2}. μ(σ2xμ)=σ21.

    • ∂ 2 ∂ ( σ 2 ) 2   ℓ 1 ( μ , σ 2 ) \displaystyle \frac{\partial^2}{\partial (\sigma^2)^2}\,\ell_1(\mu,\sigma^2) (σ2)221(μ,σ2):

      ∂ ∂ σ 2 ( − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 ) . \frac{\partial}{\partial \sigma^2}\biggl(-\frac{1}{2\sigma^2} + \frac{(x-\mu)^2}{2(\sigma^2)^2}\biggr). σ2(2σ21+2(σ2)2(xμ)2).

      分别求导后合并,可得

      ∂ 2 ∂ ( σ 2 ) 2   ℓ 1 ( μ , σ 2 ) = 1 2 ( σ 2 ) − 2 − ( x − μ ) 2 ( σ 2 ) 3 . \frac{\partial^2}{\partial (\sigma^2)^2}\,\ell_1(\mu,\sigma^2)= \frac{1}{2}(\sigma^2)^{-2}- \frac{(x-\mu)^2}{(\sigma^2)^3}. (σ2)221(μ,σ2)=21(σ2)2(σ2)3(xμ)2.

    • ∂ 2 ∂ μ ∂ ( σ 2 )   ℓ 1 ( μ , σ 2 ) \displaystyle \frac{\partial^2}{\partial \mu \partial (\sigma^2)}\,\ell_1(\mu,\sigma^2) μ(σ2)21(μ,σ2):

      ∂ ∂ ( σ 2 ) ( x − μ σ 2 ) = − ( x − μ )   ( σ 2 ) − 2 . \frac{\partial}{\partial (\sigma^2)}\Bigl(\frac{x-\mu}{\sigma^2}\Bigr)= -(x-\mu)\,(\sigma^2)^{-2}. (σ2)(σ2xμ)=(xμ)(σ2)2.

      这在最终 Hessian 的 (1,2) 和 (2,1) 位置会相同(混合偏导相等)。

  3. 期望 E [ ⋅ ] \mathbb{E}[\cdot] E[] 并加上负号
    费舍尔信息矩阵(单个样本)是

    I ( μ , σ 2 ) = −   E  ⁣ [ ( ∂ 2 ∂ μ 2   ℓ 1 ∂ 2 ∂ μ ∂ ( σ 2 )   ℓ 1 ∂ 2 ∂ ( σ 2 ) ∂ μ   ℓ 1 ∂ 2 ∂ ( σ 2 ) 2   ℓ 1 ) ] . \mathbf{I}(\mu,\sigma^2)= -\,\mathbb{E}\!\Bigg[ \begin{pmatrix} \frac{\partial^2}{\partial \mu^2}\,\ell_1 & \frac{\partial^2}{\partial \mu \partial(\sigma^2)}\,\ell_1 \\ \frac{\partial^2}{\partial(\sigma^2)\partial \mu}\,\ell_1 & \frac{\partial^2}{\partial (\sigma^2)^2}\,\ell_1 \end{pmatrix} \Bigg]. I(μ,σ2)=E[(μ221(σ2)μ21μ(σ2)21(σ2)221)].

    将上面结果插入并对 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) XN(μ,σ2) 取期望,可得:

    I ( μ , σ 2 ) = ( 1 σ 2 0 0 1 2 ( σ 2 ) 2 ) . \mathbf{I}(\mu,\sigma^2)= \begin{pmatrix} \frac{1}{\sigma^2} & 0 \\ 0 & \frac{1}{2(\sigma^2)^2} \end{pmatrix}. I(μ,σ2)=(σ21002(σ2)21).

    当样本量是 n n n 时,总费舍尔信息就是

    n ⋅ ( 1 σ 2 0 0 1 2 ( σ 2 ) 2 ) . n \cdot \begin{pmatrix} \frac{1}{\sigma^2} & 0 \\ 0 & \frac{1}{2(\sigma^2)^2} \end{pmatrix}. n(σ21002(σ2)21).

  4. Cramér-Rao 下界

    C o v ( μ ^ , σ ^ 2 )    ⪰    ( 1   n / σ 2   0 0 1   n / ( 2 ( σ 2 ) 2 )   ) = ( σ 2   n   0 0 2 ( σ 2 ) 2   n   ) . \mathrm{Cov}\big(\hat{\mu}, \hat{\sigma}^2\big) \;\succeq\; \begin{pmatrix} \tfrac{1}{\,n/\sigma^2\,} & 0 \\ 0 & \tfrac{1}{\,n/(2(\sigma^2)^2)\,} \end{pmatrix}= \begin{pmatrix} \tfrac{\sigma^2}{\,n\,} & 0 \\ 0 & \tfrac{2(\sigma^2)^2}{\,n\,} \end{pmatrix}. Cov(μ^,σ^2)(n/σ2100n/(2(σ2)2)1)=(nσ200n2(σ2)2).

    这正好对应我们熟悉的结论: μ ^ \hat{\mu} μ^ 的方差下界是 σ 2 n \frac{\sigma^2}{n} nσ2 σ ^ 2 \hat{\sigma}^2 σ^2 的方差下界是 2 ( σ 2 ) 2 n \frac{2(\sigma^2)^2}{n} n2(σ2)2。MLE 在大样本时渐近地达到此界。


5. 总结与回顾

  1. 似然函数对数似然函数

    • 核心在于把“给定 θ \theta θ 的分布 p ( x ∣ θ ) p(x\mid \theta) p(xθ)”换成“给定观测 x x x 时,对参数 θ \theta θ 的一个函数”。
    • 实际应用中常常求最大似然估计,通过对数似然求偏导=0 来找最优参数。
  2. 费舍尔信息

    • 衡量在给定分布家族下,数据(随机变量)对参数 θ \theta θ 的敏感程度。
    • 有两种常见且等价的定义形式:
      I ( θ ) = E [ ( ∂ ∂ θ log ⁡ p ( X ∣ θ ) ) 2 ] I(\theta) = \mathbb{E}\Big[\Big(\frac{\partial}{\partial \theta}\log p(X\mid \theta)\Big)^2\Big] I(θ)=E[(θlogp(Xθ))2]
      以及
      I ( θ ) = −   E [ ∂ 2 ∂ θ 2 log ⁡ p ( X ∣ θ ) ] . I(\theta) = -\,\mathbb{E}\Big[\frac{\partial^2}{\partial \theta^2}\log p(X\mid \theta)\Big]. I(θ)=E[θ22logp(Xθ)].
    • 对于多参数向量 θ \boldsymbol{\theta} θ,推广成费舍尔信息矩阵
  3. Cramér-Rao下界

    • 给任何无偏估计量提供了一个方差的理论极限: V a r ( θ ^ ) ≥ [ n   I ( θ ) ] − 1 \mathrm{Var}(\hat{\theta})\ge [n\,I(\theta)]^{-1} Var(θ^)[nI(θ)]1
    • 费舍尔信息越大,估计误差的下界越小。
    • 大样本下,MLE 通常是渐近无偏,并且达到该下界,呈现正态分布。

6. 补充与展望

  • 实际问题而言,似然函数有时需要与先验信息结合变成贝叶斯推断;费舍尔信息在贝叶斯框架中也有相应推广(如观测信息矩阵、先验信息等)。
  • 高维统计非正态分布场景,有更复杂的似然函数形式,需要数值方法(如梯度下降、EM算法)来求 MLE。
  • 费舍尔信息还可以和**实验设计(Optimal Experimental Design)**联系起来,设计实验以最大化费舍尔信息,从而更精确地估计参数。
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐