贝叶斯分类器中的后验概率
贝叶斯分类器中的后验概率说明、应用和举例
后验概率是在给定某些证据或数据的情况下,某一假设为真的概率。在贝叶斯统计中,后验概率是通过先验概率(prior probability)结合观测数据(likelihood)并根据贝叶斯定理计算得出的。
贝叶斯定理
贝叶斯定理可以用以下公式来表述:
P ( H ∣ E ) = P ( E ∣ H ) ⋅ P ( H ) P ( E ) P(H|E) = \frac{P(E|H) \cdot P(H)}{P(E)} P(H∣E)=P(E)P(E∣H)⋅P(H)
其中:
- P ( H ∣ E ) P(H|E) P(H∣E) 是在给定证据 E E E 的条件下,假设 H H H 成立的概率,称为后验概率(posterior probability)。
- P ( E ∣ H ) P(E|H) P(E∣H) 是在假设 H H H 成立的情况下,观测到证据 E E E 的概率,称为似然度(likelihood)。
- P ( H ) P(H) P(H) 是假设 H H H 本身的概率,不考虑任何证据 E E E,称为先验概率(prior probability)。
- P ( E ) P(E) P(E) 是观测到证据 E E E 的总概率,也称为归一化常数,它可以被视为所有可能假设下观测到 E E E 的概率之和:
P ( E ) = ∑ i P ( E ∣ H i ) P ( H i ) P(E) = \sum_i P(E|H_i)P(H_i) P(E)=i∑P(E∣Hi)P(Hi)
如果是连续的情况,这里的求和会被替换为积分。
应用场景
后验概率在实际应用中有广泛的用途,特别是在机器学习、模式识别、医学诊断、信号处理等领域。例如:
-
医学诊断:假设 H H H 是病人患有某种疾病的假设, E E E 是检测结果。医生可以通过后验概率来估计病人患病的概率。
-
垃圾邮件过滤:假设 H H H 是一封邮件是垃圾邮件, E E E 是邮件包含某些关键词。通过计算后验概率,可以决定是否将邮件标记为垃圾邮件。
-
自然语言处理:在语音识别或文本翻译中,假设 H H H 是一个句子的正确翻译, E E E 是听到的声音信号。系统可以基于后验概率选择最有可能的翻译。
计算实例
为了更好地理解后验概率,这里给出一个简单的计算实例:
假设一个稀有病在人群中的先验概率是 1%(即 P ( H ) = 0.01 P(H) = 0.01 P(H)=0.01),有一种测试方法,当人患病时,测试正确的概率是 99%(即 P ( E ∣ H ) = 0.99 P(E|H) = 0.99 P(E∣H)=0.99),当人未患病时,测试错误的概率是 1%(即 P ( E ∣ ¬ H ) = 0.01 P(E|\neg H) = 0.01 P(E∣¬H)=0.01)。现在,某个人的测试结果是阳性( E E E),我们想知道这个人患病的后验概率是多少?
首先计算 P ( E ) P(E) P(E):
P ( E ) = P ( E ∣ H ) P ( H ) + P ( E ∣ ¬ H ) P ( ¬ H ) = 0.99 × 0.01 + 0.01 × 0.99 = 0.0198 P(E) = P(E|H)P(H) + P(E|\neg H)P(\neg H) = 0.99 \times 0.01 + 0.01 \times 0.99 = 0.0198 P(E)=P(E∣H)P(H)+P(E∣¬H)P(¬H)=0.99×0.01+0.01×0.99=0.0198
然后计算后验概率 P ( H ∣ E ) P(H|E) P(H∣E) :
P ( H ∣ E ) = P ( E ∣ H ) ⋅ P ( H ) P ( E ) = 0.99 × 0.01 0.0198 = 0.0099 0.0198 = 0.5 P(H|E) = \frac{P(E|H) \cdot P(H)}{P(E)} = \frac{0.99 \times 0.01}{0.0198} = \frac{0.0099}{0.0198} = 0.5 P(H∣E)=P(E)P(E∣H)⋅P(H)=0.01980.99×0.01=0.01980.0099=0.5
所以,即使测试结果为阳性,这个人患病的后验概率也只有 50%,这是因为疾病本身非常罕见。这个例子说明了贝叶斯定理的重要性,尤其是在处理稀有事件时。
更多推荐
所有评论(0)