最大后验概率 vs 极大似然估计
(本文未经许可禁止转载)
本文默认读者学过两者定义,这里仅讨论两者区别
抛3枚硬币的问题
有一枚不公平的硬币,它出现正面的概率是未知的,我们讨论:抛3次这枚硬币,如果出现2次正面(N=2
),这个硬币抛出正面的概率\theta
推测为多少比较好。
频率主义的想法
频率主义认为,\theta
是一个未知的定值。把不同的\theta
代入似然函数中算,看哪个\theta
能带来最大的似然性就取谁。
\hat{\theta}_1:=\mathrm{argmax}_{\theta}p(2|\theta)\\
这里p(2|\theta)\overset{\mathrm{def}}{=}\mathrm{Pr}\{N=2|\Theta=\theta\}
注意:似然性绝不是概率。(所有\theta
的似然性之和不一定为1)
注意:这个方法也叫MLE
贝叶斯主义的想法
贝叶斯主义认为,\theta
是一个分布已知的概率变量。把不同的\theta
代入后验概率中算,看哪个\theta
能带来最大的后验概率就取谁。
\hat{\theta}_2:=\mathrm{argmax}_{\theta}p(\theta|2)=\mathrm{argmax}_{\theta}{\frac{p(\theta)p(2|\theta)}{p(2)}}=\mathrm{argmax}_{\theta}{p(\theta)p(2|\theta)}
注意:后验概率就是一种概率。(所有\theta
的后验概率之和一定为1)
注意:这个方法也叫MAP
对比
\hat{\theta}_1:=\mathrm{argmax}_{\theta}p(2|\theta)\\
\hat{\theta}_2:=\mathrm{argmax}_{\theta}{p(\theta)p(2|\theta)}
讨论
MLE是对似然性最大化;
MAP是对加权的似然性的最大化。
反过来也可以说:
MAP是对后验概率的最大化;
MLE是对假定\theta
服从均匀分布的后验概率的最大化。
各自利弊的讨论
问题在于:统计时到底该不该对似然性加权。
现实生活中抛硬币,从硬币的形状和物理性质来观察,\theta
应该在0.5附近的值。
用MAP法时可以事先给\theta
一个均值0.5的正态分布,让推测结果更符合我们的经验。
问题来了,统计结果是否要符合我们的经验?
计算
\mathrm{MLE}的结果:\\
\hat{\theta}_1=\frac{2}{3}\\
\mathrm{MAP}的结果:\\
先随意定义一个二点概率分布:若\Theta\sim D(a,b),当且仅当\mathrm{Pr}\{\Theta=a\}=0.99,\mathrm{Pr}\{\Theta=b\}=0.01\\
若\Theta \sim D(0.6,0.7), \quad 则\hat{\theta}_2=0.6\\
而若\Theta \sim D(0.7,0.6), \quad 则\hat{\theta}_2=0.7
很明显,加权概率p(\theta)
不同会导致不同的推测结果\hat{\theta}_2
。
因此,MAP推测的统计量具有主观性。而MLE没有所谓的主观性,它假设了事先所有\theta
的产生概率都是平等的。
什么时候需要主观性?
假设有人研究过发送中文信息时的汉字和词的概率分布后,把这个分布当作先验概率、就需要用MAP来对通过有噪信道的信息复原。因为这样的复原结果更符合我们的用语习惯——复原结果更像发信人发的信息。