Have a Question?
熵 | Entropy
1 定义
熵的概念最早起源于物理学,用于度量一个热力学系统的无序程度。在信息论里面,熵是对不确定性的测量。但是在信息世界,熵越高,则能传输越多的信息,熵越低,则意味着传输的信息越少。
2 公式
依据Boltzmann's H-theorem,香农把随机变量 X 的熵值 Η(希腊字母 \Eta)定义如下,其值域为 {x_1, ..., x_n}:
\mathrm{H}(X)=\mathrm{E}[\mathrm{I}(X)]=\mathrm{E}[-\ln (\mathrm{P}(X))]\tag{1}
其中 I(X)=-\ln (\mathrm{P}(X)) 又被称为 X 的信息量(自信息)。
对于一个离散随机变量 X=\left\{x_{1}, x_{2}, \cdots, x_{n}\right\},其概率 p_{i}=p\left(X=x_{i}\right),则其熵定义为:
H(X)=-\sum_{i=1}^{n} p\left(x_{i}\right) \log p\left(x_{i}\right)\tag{2}
其中当 p\left(x_{i}\right)=0 时:
p\left(x_{i}\right) \log p\left(x_{i}\right)=0\tag{3}
3 条件熵
定义事件 X 与 Y 分别取 xi 和 yj 时的条件熵为
\mathrm{H}(X \mid Y)=-\sum_{i, j} p\left(x_{i}, y_{j}\right) \log \frac{p\left(x_{i}, y_{j}\right)}{p\left(y_{j}\right)}\tag{4}
其中:
其中 p(xi, yj) 为 X = x_i 且 Y = y_j 时的概率。
参考文献
[1] https://zh.wikipedia.org/wiki/%E7%86%B5_(%E4%BF%A1%E6%81%AF%E8%AE%BA)
[2] https://hsinjhao.github.io/2019/05/22/KL-DivergenceIntroduction/