理解KL散度(相对熵)

信息熵

信息熵:描述随机变量不确定性程度的量,对于连续型随机变量称为微分熵。

信息熵的表达式

信息熵可认为是表征编码分布 $p(x)$ 所需要的信息编码长度(单位:nats)。

当使用另一个编码分布函数 $q(x)$ 去编码 $p(x)$ 分布函数负责编码的信息时,由于$q(x)$和$p(x)$之间可能存在差距,导致编码效率不是最高的,因此会付出额外的一些冗余编码作为代价。对应的总编码长度(交叉熵)的计算公式:

$H(p.q)$称为交叉熵(cross entropy),前后两种分布函数进行编码导致的编码长度差就是本文需要强调的KL散度

KL散度

KL散度(相对熵):量化两种概率分布P和Q之间差异的指标。

KL散度的性质:

  1. KL散度大于等于
  2. KL散度不满足对称性,即$KL(p||q) \neq KL(q||p)$,因此其不是两种分布函数之间的距离度量;
  3. KL散度在机器学习中的目标是使其最小,也就是令一个参数化的分布q区接近真实的分布p

Reference

信息熵和KL散度

如何理解K-L散度(相对熵)

Some say the world will end in fire,

Some say in ice.

From what I’ve tasted of desire

I hold with those who favor fire.

But if it had to perish twice,

I think I know enough of hate

To say that for destruction ice

Is also great

And would suffice.

-------------本文结束感谢阅读-------------
Thanks for your rewarding ~
0%