Have a Question?

熵 | Entropy

You are here:

1 定义

熵的概念最早起源于物理学,用于度量一个热力学系统的无序程度。在信息论里面,熵是对不确定性的测量。但是在信息世界,熵越高,则能传输越多的信息,熵越低,则意味着传输的信息越少。

2 公式

依据Boltzmann's H-theorem,香农把随机变量 \(X\) 的熵值 \(Η\)(希腊字母 \(\Eta\))定义如下,其值域为 \({x_1, ..., x_n}\):
\(\mathrm{H}(X)=\mathrm{E}[\mathrm{I}(X)]=\mathrm{E}[-\ln (\mathrm{P}(X))]\tag{1}\)
其中 \(I(X)=-\ln (\mathrm{P}(X))\) 又被称为 \(X\) 的信息量(自信息)。
对于一个离散随机变量 \(X=\left\{x_{1}, x_{2}, \cdots, x_{n}\right\}\),其概率 \(p_{i}=p\left(X=x_{i}\right)\),则其熵定义为:
\(H(X)=-\sum_{i=1}^{n} p\left(x_{i}\right) \log p\left(x_{i}\right)\tag{2}\)
其中当 \(p\left(x_{i}\right)=0\) 时:
\(p\left(x_{i}\right) \log p\left(x_{i}\right)=0\tag{3}\)

3 条件熵

定义事件 \(X\) 与 \(Y\) 分别取 \(xi\) 和 \(yj\) 时的条件熵为
\(\mathrm{H}(X \mid Y)=-\sum_{i, j} p\left(x_{i}, y_{j}\right) \log \frac{p\left(x_{i}, y_{j}\right)}{p\left(y_{j}\right)}\tag{4}\)
其中:
其中 \(p(xi, yj)\) 为 \(X = x_i\) 且 \(Y = y_j\) 时的概率。

参考文献

[1] https://zh.wikipedia.org/wiki/%E7%86%B5_(%E4%BF%A1%E6%81%AF%E8%AE%BA)
[2] https://hsinjhao.github.io/2019/05/22/KL-DivergenceIntroduction/

Add a Comment

您的电子邮箱地址不会被公开。 必填项已用*标注

Table of Contents