Content #
Kullback-Leibler距离也称相对熵,是一种比较两个概率分布的方法。
给定连续概率分布 \(f(x)\) 与\(g(x)\),它们之间的KL距离定义为 \[\int_{-\infty}^{\infty}f(x)\cdot \log\frac{f(x)}{g(x)}\mathrm{d}x\]
信息检索中通常使用离散分布,这时KL距离定义为 \[\sum_x f(x) \cdot \log \frac{f(x)}{g(x)}\] 其值越大表示差异越大。当两个分布相同时,它们的KL距离为0。