后验概率是在给定某些证据或数据的情况下,某一假设为真的概率。在贝叶斯统计中,后验概率是通过先验概率(prior probability)结合观测数据(likelihood)并根据贝叶斯定理计算得出的。

贝叶斯定理

贝叶斯定理可以用以下公式来表述:

P ( H ∣ E ) = P ( E ∣ H ) ⋅ P ( H ) P ( E ) P(H|E) = \frac{P(E|H) \cdot P(H)}{P(E)} P(HE)=P(E)P(EH)P(H)

其中:

  • P ( H ∣ E ) P(H|E) P(HE) 是在给定证据 E E E 的条件下,假设 H H H 成立的概率,称为后验概率(posterior probability)。
  • P ( E ∣ H ) P(E|H) P(EH) 是在假设 H H H 成立的情况下,观测到证据 E E E 的概率,称为似然度(likelihood)。
  • P ( H ) P(H) P(H) 是假设 H H H 本身的概率,不考虑任何证据 E E E,称为先验概率(prior probability)。
  • P ( E ) P(E) P(E) 是观测到证据 E E E 的总概率,也称为归一化常数,它可以被视为所有可能假设下观测到 E E E 的概率之和:

P ( E ) = ∑ i P ( E ∣ H i ) P ( H i ) P(E) = \sum_i P(E|H_i)P(H_i) P(E)=iP(EHi)P(Hi)

如果是连续的情况,这里的求和会被替换为积分。

应用场景

后验概率在实际应用中有广泛的用途,特别是在机器学习、模式识别、医学诊断、信号处理等领域。例如:

  1. 医学诊断:假设 H H H 是病人患有某种疾病的假设, E E E 是检测结果。医生可以通过后验概率来估计病人患病的概率。

  2. 垃圾邮件过滤:假设 H H H 是一封邮件是垃圾邮件, E E E 是邮件包含某些关键词。通过计算后验概率,可以决定是否将邮件标记为垃圾邮件。

  3. 自然语言处理:在语音识别或文本翻译中,假设 H H H 是一个句子的正确翻译, E E E 是听到的声音信号。系统可以基于后验概率选择最有可能的翻译。

计算实例

为了更好地理解后验概率,这里给出一个简单的计算实例:

假设一个稀有病在人群中的先验概率是 1%(即 P ( H ) = 0.01 P(H) = 0.01 P(H)=0.01),有一种测试方法,当人患病时,测试正确的概率是 99%(即 P ( E ∣ H ) = 0.99 P(E|H) = 0.99 P(EH)=0.99),当人未患病时,测试错误的概率是 1%(即 P ( E ∣ ¬ H ) = 0.01 P(E|\neg H) = 0.01 P(E∣¬H)=0.01)。现在,某个人的测试结果是阳性( E E E),我们想知道这个人患病的后验概率是多少?

首先计算 P ( E ) P(E) P(E)

P ( E ) = P ( E ∣ H ) P ( H ) + P ( E ∣ ¬ H ) P ( ¬ H ) = 0.99 × 0.01 + 0.01 × 0.99 = 0.0198 P(E) = P(E|H)P(H) + P(E|\neg H)P(\neg H) = 0.99 \times 0.01 + 0.01 \times 0.99 = 0.0198 P(E)=P(EH)P(H)+P(E∣¬H)P(¬H)=0.99×0.01+0.01×0.99=0.0198

然后计算后验概率 P ( H ∣ E ) P(H|E) P(HE)

P ( H ∣ E ) = P ( E ∣ H ) ⋅ P ( H ) P ( E ) = 0.99 × 0.01 0.0198 = 0.0099 0.0198 = 0.5 P(H|E) = \frac{P(E|H) \cdot P(H)}{P(E)} = \frac{0.99 \times 0.01}{0.0198} = \frac{0.0099}{0.0198} = 0.5 P(HE)=P(E)P(EH)P(H)=0.01980.99×0.01=0.01980.0099=0.5

所以,即使测试结果为阳性,这个人患病的后验概率也只有 50%,这是因为疾病本身非常罕见。这个例子说明了贝叶斯定理的重要性,尤其是在处理稀有事件时。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐