变分预备知识 - KL散度

KL散度的两种形式以下:函数

clipboard.png

对于q被高估或者低估的缘由为:spa

首先看上式KL(p||q)的表达式,目标是但愿KL(p||q)的值尽量的小,可是在p(x)的值很大的状况下,为了保证KL(p||q)的值尽量小,因此q(x)的值须要接近p(x),这样才能保证整个log(p(x)/q(x))总体变小。直观上来讲,就是在p(x)的几率密度大的地方,它应该尽可能与q(x)的几率密度保持一致,而在p(x)几率密度小的地方,p(x)和q(x)的差异对KL值的影响就很小了。因此会出现q(x)被高估的状况,KL(q||p)同理。blog

clipboard.png

因此在变分推导的过程当中,每每使用KL(q||p)的值做为推导的目标函数,实际中会出现锁定在局部极值点的状况。ip

相关文章
相关标签/搜索