似然函数与费舍尔信息矩阵的讲解

本笔记将更详尽地介绍似然函数（Likelihood Function）和费舍尔信息矩阵（Fisher Information Matrix）。在统计建模中，我们常常设想：在实际应用中，我们先观测到一些样本数据，再去推断（估计）分布背后的参数 θ\thetaθ。给定一个观测值 xxx，如果知道参数 θ\thetaθ，则 p(x∣θ)p(x \mid \theta)p(x∣θ) 表示的是“X=xX =

DuHz

936人浏览 · 2025-03-18 01:20:14

DuHz · 2025-03-18 01:20:14 发布

似然函数与费舍尔信息矩阵的讲解

本笔记将更详尽地介绍似然函数（Likelihood Function）和费舍尔信息矩阵（Fisher Information Matrix）。

1. 似然函数：从“已知参数的分布”到“已知数据的参数函数”

1.1 问题背景：参数与数据

在统计建模中，我们常常设想：

$X$ 是一个随机变量（或随机向量），其分布由一个（或多个）参数 $\theta$ 决定。
若 $X$ 的分布为某个已知家族（如正态、指数分布等），该分布可以用联合密度（或概率质量函数） $\mid \theta)$ 表示。

在实际应用中，我们先观测到一些样本数据，再去推断（估计）分布背后的参数 $\theta$ 。

1.2 似然函数： $L(\theta\mid x)$

给定一个观测值 $x$ ，如果知道参数 $\theta$ ，则 $\mid \theta)$ 表示的是“ $X = x$ 出现的概率密度或概率质量”。
然而，当我们真正拿到数据 $x$ 后，我们往往对 $\theta$ 不确定，这时我们会将同一个表达式换个视角来解释：“若观测到了 $x$ ，究竟哪个 $\theta$ 能更好地解释这份数据？”于是定义似然函数 $L(\theta\mid x)$ 为

$L(\theta\mid x) \;=\; p(x \mid \theta).$

概率分布： $p(x\mid \theta)$ 把 $\theta$ 当作已知常量，把 $x$ 当作随机变量；
似然函数： $L(\theta\mid x)$ 中 $x$ 已经是观测到的固定值，把 $\theta$ 当作变量来“度量”对数据的解释力。

多个独立同分布样本

如果我们有 $n$ 个独立同分布（i.i.d.）样本 $\{x_1, x_2, \dots, x_n\}$ ，那么总似然函数是单个似然的乘积：

$L(\theta \mid x_1, x_2, \dots, x_n) = \prod_{i=1}^n p(x_i \mid \theta).$

在记法上，也常简写为

$L(\theta) = \prod_{i=1}^n p(x_i \mid \theta),$

其中 $x_i$ 在外都是已知数据。

1.3 对数似然函数： $\ell(\theta)$

为了简化乘积并且使得数值计算更稳定，通常使用对数形式的似然：

$\ell(\theta) \;=\; \log L(\theta) \;=\; \sum_{i=1}^n \log p(x_i \mid \theta).$

优点：将乘法变为加法，方便求导、简化分析；
在最大化问题中， $\log$ 函数是单调递增的，因此最大化对数似然与最大化似然本身等价。

2. 费舍尔信息：衡量参数信息量的刻度

2.1 直观动机

我们希望知道：一个分布家族 $p(x\mid \theta)$ ，对于参数 $\theta$ 的变化到底有多敏感？如果少量数据就能很好地区分不同 $\theta$ 值（即数据对 $\theta$ 很“敏感”），说明分布对 $\theta$ 的依赖强，我们能获得的关于 $\theta$ 的信息就很多；如果分布对 $\theta$ 的微调并不敏感，很难“区分”不同 $\theta$ ，说明信息量就会小。

费舍尔信息（Fisher Information）就是用来描述这种参数可辨识度的重要指标。

2.2 标量参数的费舍尔信息

最初我们先假设参数是标量 $\theta$ 。有两种常见且等价的定义形式。

定义 1：导数方差形式

$I(\theta) \;=\; \mathbb{E}\!\Bigg[\bigg(\frac{\partial}{\partial\theta} \log p(X\mid \theta)\bigg)^2\Bigg],$

其中期望 $\mathbb{E}[\cdot]$ 对随机变量 $X$ 取， $\theta$ 被视为常数。

若 $\frac{\partial}{\partial\theta} \log p(X\mid \theta)$ 对 $\theta$ 变化很大，则表示分布对参数很敏感，也就信息量大；
若对 $\theta$ 改变不敏感，则信息量小。

定义 2：对数似然的二阶导数形式

$I(\theta) \;=\; -\,\mathbb{E}\!\Bigg[\frac{\partial^2}{\partial\theta^2} \log p(X\mid \theta)\Bigg].$

可以证明，以上两种定义是等价的。简要示意如下：
设

$g(\theta) = \frac{\partial}{\partial \theta} \log p(X\mid \theta),$

则

$\mathbb{E}[g(\theta)] = \mathbb{E}\Big[\frac{\partial}{\partial \theta} \log p(X\mid \theta)\Big] = \frac{\partial}{\partial \theta} \mathbb{E}[\log p(X\mid \theta)] = \frac{\partial}{\partial \theta} \Bigg(\int p(x\mid \theta)\log p(x\mid \theta)\, dx \Bigg).$

再利用分布的正则条件、积分互换以及 $\int p(x\mid \theta) dx = 1$ 等技巧，可以推导出 $\mathbb{E}[g(\theta)] = 0$ ，以及

$\mathbb{E}[g(\theta)^2] = -\, \mathbb{E}\Bigg[\frac{\partial^2}{\partial\theta^2} \log p(X\mid \theta)\Bigg].$

因而得到前后两个定义的等价性。

2.3 多维参数（向量）情形

若参数是维度为 $k$ 的向量 $\boldsymbol{\theta} = (\theta_1, \theta_2, \dots, \theta_k)$ ，则费舍尔信息会成为一个 $\times k$ 对称的矩阵：

$\mathbf{I}(\boldsymbol{\theta}) = \mathbb{E}\!\Big[ \nabla_{\boldsymbol{\theta}} \log p(X\mid \boldsymbol{\theta}) \;\nabla_{\boldsymbol{\theta}} \log p(X\mid \boldsymbol{\theta})^\top \Big],$

其中
$\nabla_{\boldsymbol{\theta}} \log p(X\mid \boldsymbol{\theta}) = \bigg(\frac{\partial}{\partial \theta_1}\log p(X\mid \boldsymbol{\theta}),\,\dots,\,\frac{\partial}{\partial \theta_k}\log p(X\mid \boldsymbol{\theta})\bigg)^\top$
是梯度向量。

或等价地可以写成 Hessian（对数似然的二阶偏导）形式的负期望：

$\mathbf{I}(\boldsymbol{\theta}) \;=\; -\,\mathbb{E}\Big[ \nabla_{\boldsymbol{\theta}} \nabla_{\boldsymbol{\theta}}^\top \,\log p(X\mid \boldsymbol{\theta}) \Big].$

3. 最大似然估计（MLE）与费舍尔信息的关系

3.1 MLE 的求解思路

给定样本 $\{x_1, x_2, \dots, x_n\}$ ，我们将参数 $\theta$ 视作未知量，用 最大似然估计（MLE） 方法来估计它。定义对数似然函数

$\ell(\theta) = \sum_{i=1}^n \log p(x_i\mid \theta).$

然后：

$\hat{\theta}_{\text{MLE}} = \operatorname*{arg\,max}_{\theta} \;\ell(\theta).$

通常通过设置导数为 0 来求解，即

$\frac{\partial}{\partial\theta}\,\ell(\theta)\bigg|_{\theta = \hat{\theta}} = 0.$

若 $\theta$ 是多维向量，就需要解

$\nabla_{\boldsymbol{\theta}}\, \ell(\boldsymbol{\theta}) \;=\; 0.$

3.2 Cramér-Rao 下界

对于任意无偏估计量 $\hat{\theta}$ ，其方差不能小于费舍尔信息的倒数（标量情形）或矩阵逆（向量情形）。

标量情形：
$\mathrm{Var}(\hat{\theta}) \;\ge\; \frac{1}{n\,I(\theta)}.$
这里 $n$ 是样本量， $I(\theta)$ 是单个样本的费舍尔信息。因此总费舍尔信息通常是 $n\, I(\theta)$ ，对应估计量的方差下界为 $\big(n\,I(\theta)\big)^{-1}$ 。
向量情形：
$\mathrm{Cov}\big(\hat{\boldsymbol{\theta}}\big) \;\succeq\; \frac{1}{n}\,\mathbf{I}(\boldsymbol{\theta})^{-1}.$
其中 $\succeq$ 表示矩阵意义上的正定序关系。

含义：费舍尔信息越大，能够获得的估计精度越高，Cramér-Rao下界越低。

3.3 渐近正态性

当样本量 $n\rightarrow \infty$ ，在满足一定的正则条件时，最大似然估计量通常满足：

$\sqrt{n}\big(\hat{\theta} - \theta^*\big) \;\xrightarrow{d}\; N\Big(0,\; I(\theta^*)^{-1}\Big)\quad (\text{标量情况}),$

或多维情形：

$\sqrt{n}\big(\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}^*\big) \;\xrightarrow{d}\; \mathcal{N}\Big(\mathbf{0},\; \mathbf{I}(\boldsymbol{\theta}^*)^{-1}\Big).$

这里 $\theta^*$ （或 $\boldsymbol{\theta}^*$ ）是真实参数值。这说明 MLE 在大样本下具有“正态分布”近似，其方差（协方差）与费舍尔信息的倒数（逆矩阵）密切相关。

4. 具体示例与详细推导

下面以两类常见分布：伯努利分布和正态分布，来演示似然函数与费舍尔信息的计算过程。在此过程中，会给出更多的公式化展开。

4.1 伯努利分布

4.1.1 分布定义与似然函数

分布： $\sim \mathrm{Bernoulli}(p)$ ，参数 $\theta = p \in (0,1)$ 。
概率质量函数：
$p(x\mid p) = p^x (1-p)^{\,1-x}, \quad x \in \{0,1\}.$
样本： $x_1, \dots, x_n \in \{0,1\}$ ，假设独立同分布。
似然函数：
$\prod_{i=1}^n p^{\,x_i} (1-p)^{\,1-x_i}.$
对数似然：
$\ell(p) = \sum_{i=1}^n \Big[x_i \log p \;+\; (1-x_i)\log(1-p)\Big].$

4.1.2 MLE 求解

对 $\ell(p)$ 关于 $p$ 求导，并令其为 0：

$\frac{\mathrm{d}}{\mathrm{d}p}\,\ell(p) = \sum_{i=1}^n \Big[\frac{x_i}{p} \;-\; \frac{1 - x_i}{1-p}\Big] = 0.$

简化整理可得：

$\sum_{i=1}^n x_i \cdot \frac{1}{p} \;-\; \sum_{i=1}^n (1-x_i)\,\frac{1}{1-p} = 0,$

$\sum_{i=1}^n x_i \cdot \frac{1}{p}= \sum_{i=1}^n (1-x_i)\,\frac{1}{1-p}.$

令 $\sum_{i=1}^n x_i = \sum x_i$ （样本中 1 的总数），可写为：

$\frac{\sum x_i}{p}= \frac{n - \sum x_i}{\,1 - p\,}.$

解得最大似然估计：

$\hat{p} = \frac{1}{n}\sum_{i=1}^n x_i \;\equiv\; \bar{x}.$

这就是“样本中 1 的平均出现率”作为伯努利分布参数 $p$ 的估计。

4.1.3 费舍尔信息计算

使用定义 1（方差定义）：

单个样本 $X$ 的对数似然为
$\log p(X\mid p) = X \log p + (1-X)\log(1-p).$
一阶导数：
$\frac{\partial}{\partial p}\,\log p(X\mid p) = \frac{X}{p} - \frac{1-X}{1-p}.$
因此
$\big(g(p)\big)^2 = \biggl(\frac{X}{p} - \frac{1-X}{1-p}\biggr)^2.$
取期望 $\mathbb{E}[\cdot]$ 时，需要注意 $X\sim \mathrm{Bernoulli}(p)$ ，故 $\mathbb{E}[X]=p$ 。详细展开后可最终得到

$\frac{1}{p(1-p)}.$

这表明：单个样本包含的费舍尔信息为 $\tfrac{1}{p(1-p)}$ 。
$n$ 个 i.i.d. 样本时，总费舍尔信息为

$I_n(p) = n \,\frac{1}{p(1-p)}.$
使用定义 2（二阶导数定义）（简要示意）：

$\frac{\partial^2}{\partial p^2}\,\log p(X\mid p) = -\,\frac{X}{p^2} - \frac{1 - X}{(1-p)^2}.$

再对 $X$ 取期望，就可以得到

$-\,\mathbb{E}\bigg[\frac{\partial^2}{\partial p^2}\,\log p(X\mid p)\bigg] = \frac{1}{p(1-p)}.$

结果与第一种方法一致。

4.1.4 Cramér-Rao 下界与 MLE 方差

总费舍尔信息： $I_n(p)=\frac{n}{p(1-p)}$ 。
Cramér-Rao下界（对于无偏估计量 $\hat{p}$ ）：

$\mathrm{Var}(\hat{p}) \;\ge\; \frac{1}{\,I_n(p)\,} = \frac{p(1-p)}{n}.$
事实上，MLE 的 $\hat{p} = \bar{X}$ 具有方差 $\frac{p(1-p)}{n}$ ，恰好达到该下界。

4.2 正态分布 $N(\mu,\sigma^2)$

现在我们看一个连续型分布的例子。设 $\sim \mathcal{N}(\mu, \sigma^2)$ 。参数是 $\boldsymbol{\theta} = (\mu, \sigma^2)$ 。为简明，这里只列示关键步骤，但会给出尽量多的公式化细节。

4.2.1 似然与对数似然

单个样本 $x$ 的密度函数：

$\mid \mu,\sigma^2) = \frac{1}{\sqrt{2\pi}\,\sigma} \exp\!\Big(-\frac{(x-\mu)^2}{\,2\sigma^2\,}\Big).$
对数似然（单个样本） $\ell_1(\mu,\sigma^2)$ ：

$\log p(x\mid \mu,\sigma^2) = -\frac{1}{2}\,\log(2\pi) -\frac{1}{2}\,\log(\sigma^2) -\frac{(x-\mu)^2}{\,2\sigma^2\,}.$

常数项 $-\tfrac{1}{2}\log(2\pi)$ 与参数无关，可在求导时省略。
$n$ 个样本 $x_1,\dots,x_n$ 的对数似然 $\ell(\mu,\sigma^2)$ ：

$\ell(\mu,\sigma^2)= \sum_{i=1}^n \log p(x_i\mid \mu,\sigma^2) \;=\; -\frac{n}{2}\,\log(\sigma^2)- \frac{1}{2\sigma^2}\,\sum_{i=1}^n (x_i - \mu)^2 \;+\; \text{常数}.$

4.2.2 最大似然估计

为找 $\hat{\mu}$ 与 $\hat{\sigma}^2$ 的 MLE，计算对数似然关于 $\mu$ 和 $\sigma^2$ 的偏导数并令其为 0 即可。

$\mu$ 的偏导:

$\frac{\partial}{\partial \mu}\,\ell(\mu,\sigma^2)= \frac{\partial}{\partial \mu} \Bigg[-\frac{n}{2}\log(\sigma^2)- \frac{1}{2\sigma^2}\,\sum_{i=1}^n (x_i - \mu)^2 \Bigg]= -\,\frac{1}{\,\sigma^2\,}\,\sum_{i=1}^n (x_i - \mu).$

设此为 0，则有

$\sum_{i=1}^n (x_i - \mu) = 0 \;\;\Longrightarrow\;\; \hat{\mu} \;=\; \frac{1}{n}\sum_{i=1}^n x_i.$
$\sigma^2$ 的偏导:

令 $\sigma^2 = \alpha$ （单纯为符号区别），对 $\ell(\mu,\alpha)$ 求导：

$\frac{\partial}{\partial \alpha}\,\ell(\mu,\alpha) = -\frac{n}{2}\,\frac{1}{\alpha}+ \frac{1}{2\,\alpha^2}\,\sum_{i=1}^n (x_i - \mu)^2.$

设此为 0，得

$-\frac{n}{2\alpha} + \frac{1}{2\,\alpha^2}\,\sum_{i=1}^n (x_i - \mu)^2= 0 \;\;\Longrightarrow\;\; \sum_{i=1}^n (x_i - \mu)^2= n\,\hat{\alpha},$

即

$\hat{\sigma}^2 = \hat{\alpha} = \frac{1}{n}\sum_{i=1}^n (x_i - \hat{\mu})^2.$

由此得到 MLE： $\hat{\mu} = \overline{x}$ ， $\hat{\sigma}^2 = \frac{1}{n}\sum_{i}(x_i-\overline{x})^2$ 。

4.2.3 费舍尔信息矩阵（单个样本）

现在来计算 $\mathbf{I}(\mu,\sigma^2)$ （ $2\times 2$ 矩阵）。要么用梯度外积，要么用负的 Hessian 矩阵期望。

先写出单个样本的对数似然（省略常数）：

$\ell_1(\mu,\sigma^2) = -\frac12 \log(\sigma^2)- \frac{(x-\mu)^2}{2\,\sigma^2}.$

我们可以先计算其一阶偏导（梯度），再用定义 1（外积法）求期望；也可以直接算 Hessian，然后再取负的期望。下面演示 Hessian 形式，能一次得出矩阵中各项。

一阶偏导：
- 对 $\mu$ ：
  
  $\frac{\partial}{\partial \mu}\,\ell_1(\mu,\sigma^2) = \frac{(x-\mu)}{\sigma^2}.$
- 对 $\sigma^2$ ：
  
  $\frac{\partial}{\partial \sigma^2}\,\ell_1(\mu,\sigma^2)= -\frac{1}{2}\,\frac{1}{\sigma^2} + \frac{(x-\mu)^2}{\,2\,(\sigma^2)^2\,}.$
二阶偏导（Hessian 矩阵）：
- $\displaystyle \frac{\partial^2}{\partial \mu^2}\,\ell_1(\mu,\sigma^2)$ :
  
  $\frac{\partial}{\partial \mu}\bigg(\frac{x-\mu}{\sigma^2}\bigg) = -\frac{1}{\sigma^2}.$
- $\displaystyle \frac{\partial^2}{\partial (\sigma^2)^2}\,\ell_1(\mu,\sigma^2)$ :
  
  $\frac{\partial}{\partial \sigma^2}\biggl(-\frac{1}{2\sigma^2} + \frac{(x-\mu)^2}{2(\sigma^2)^2}\biggr).$
  
  分别求导后合并，可得
  
  $\frac{\partial^2}{\partial (\sigma^2)^2}\,\ell_1(\mu,\sigma^2)= \frac{1}{2}(\sigma^2)^{-2}- \frac{(x-\mu)^2}{(\sigma^2)^3}.$
- $\displaystyle \frac{\partial^2}{\partial \mu \partial (\sigma^2)}\,\ell_1(\mu,\sigma^2)$ :
  
  $\frac{\partial}{\partial (\sigma^2)}\Bigl(\frac{x-\mu}{\sigma^2}\Bigr)= -(x-\mu)\,(\sigma^2)^{-2}.$
  
  这在最终 Hessian 的 (1,2) 和 (2,1) 位置会相同（混合偏导相等）。
期望 $\mathbb{E}[\cdot]$ 并加上负号：
费舍尔信息矩阵（单个样本）是

$\mathbf{I}(\mu,\sigma^2)= -\,\mathbb{E}\!\Bigg[ \begin{pmatrix} \frac{\partial^2}{\partial \mu^2}\,\ell_1 & \frac{\partial^2}{\partial \mu \partial(\sigma^2)}\,\ell_1 \\ \frac{\partial^2}{\partial(\sigma^2)\partial \mu}\,\ell_1 & \frac{\partial^2}{\partial (\sigma^2)^2}\,\ell_1 \end{pmatrix} \Bigg].$

将上面结果插入并对 $X\sim N(\mu,\sigma^2)$ 取期望，可得：

$\mathbf{I}(\mu,\sigma^2)= \begin{pmatrix} \frac{1}{\sigma^2} & 0 \\ 0 & \frac{1}{2(\sigma^2)^2} \end{pmatrix}.$

当样本量是 $n$ 时，总费舍尔信息就是

$\cdot \begin{pmatrix} \frac{1}{\sigma^2} & 0 \\ 0 & \frac{1}{2(\sigma^2)^2} \end{pmatrix}.$
Cramér-Rao 下界：

$\mathrm{Cov}\big(\hat{\mu}, \hat{\sigma}^2\big) \;\succeq\; \begin{pmatrix} \tfrac{1}{\,n/\sigma^2\,} & 0 \\ 0 & \tfrac{1}{\,n/(2(\sigma^2)^2)\,} \end{pmatrix}= \begin{pmatrix} \tfrac{\sigma^2}{\,n\,} & 0 \\ 0 & \tfrac{2(\sigma^2)^2}{\,n\,} \end{pmatrix}.$

这正好对应我们熟悉的结论： $\hat{\mu}$ 的方差下界是 $\frac{\sigma^2}{n}$ ， $\hat{\sigma}^2$ 的方差下界是 $\frac{2(\sigma^2)^2}{n}$ 。MLE 在大样本时渐近地达到此界。

5. 总结与回顾

似然函数和对数似然函数：
- 核心在于把“给定 $\theta$ 的分布 $p(x\mid \theta)$ ”换成“给定观测 $x$ 时，对参数 $\theta$ 的一个函数”。
- 实际应用中常常求最大似然估计，通过对数似然求偏导=0 来找最优参数。
费舍尔信息：
- 衡量在给定分布家族下，数据（随机变量）对参数 $\theta$ 的敏感程度。
- 有两种常见且等价的定义形式：
  $I(\theta) = \mathbb{E}\Big[\Big(\frac{\partial}{\partial \theta}\log p(X\mid \theta)\Big)^2\Big]$
  以及
  $I(\theta) = -\,\mathbb{E}\Big[\frac{\partial^2}{\partial \theta^2}\log p(X\mid \theta)\Big].$
- 对于多参数向量 $\boldsymbol{\theta}$ ，推广成费舍尔信息矩阵。
Cramér-Rao下界：
- 给任何无偏估计量提供了一个方差的理论极限： $\mathrm{Var}(\hat{\theta})\ge [n\,I(\theta)]^{-1}$ 。
- 费舍尔信息越大，估计误差的下界越小。
- 大样本下，MLE 通常是渐近无偏，并且达到该下界，呈现正态分布。

6. 补充与展望

对实际问题而言，似然函数有时需要与先验信息结合变成贝叶斯推断；费舍尔信息在贝叶斯框架中也有相应推广（如观测信息矩阵、先验信息等）。
在高维统计或非正态分布场景，有更复杂的似然函数形式，需要数值方法（如梯度下降、EM算法）来求 MLE。
费舍尔信息还可以和**实验设计（Optimal Experimental Design）**联系起来，设计实验以最大化费舍尔信息，从而更精确地估计参数。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

机器学习决策树-分类

2048 AI社区

软考中级-软件设计师 UML图详解（类图，对象图，用例图，序列图，通信图，状态图，活动图，构件图，部署图）

2048 AI社区

不懂编程本科毕业生手搓三个APP，用ChatGPT两年狂赚千万美金！

而现在更厉害的是，有了多模态能力的ChatGPT，直接上传设计图片、截图，并告诉它「我要做成这个样子，这些按钮要实现xxx功能，帮我把代码写出来」。ChatGPT发布那天，Walter Isaacson在课上也是表现的异常热情激动，他的眼睛闪烁着兴奋的光芒，就像孩子看到了心爱的玩具一样。也就是说，假设你能做对80%的决策，另一个人也能做对80%，并且你们的专长领域不重叠，那么当你们联手的时候，正确