From KL to MLE
MIT的课程 18.650 statistics for applications 在Lecture 4 讲MLE的时候,和一般书本上来就给出MLE公式的方法不同,这里使用Max variant distance -> KLdivergence ->MLE的方式,初看到这个过程,内心感觉还是比较有意思的,简单记录如下
假设我们要估算某个分布P的参数,记为,我们希望分布和越接近越好。 怎么衡量呢,使用total variant distance
其中A表示某个事件。然后我们的策略是构造一个Esitmator , 求使得它最小的, 即
那么问题在哪里呢,我们不知道怎么构造这个表达式,$\theta^*$我们不知道,而且A的取值空间那么大,也不知道该怎么算。 于是我们用KL divergence, 虽然KL不是一个距离,而且$KL(P,Q) \neq KL(Q,P)$,但是当KL(P,Q)=0时,P=Q。 于是我们的Estimator变成了求KL的最小值对应的,
代入KL的公式,
第一项是个常量, 第二项的是个期望值,我们可以从数据估算!
这样我们求第2项的最大值不就行了。
这不就是MLE了吗!
由于KL散度展开后第一项是信息熵,不变,第2项是交叉熵(cross entropy),所以其实我们是最小化两个分布的交叉熵。
注: 最后一步:
Comments