Have a Question?

熵 | Entropy

You are here:

1 定义

熵的概念最早起源于物理学,用于度量一个热力学系统的无序程度。在信息论里面,熵是对不确定性的测量。但是在信息世界,熵越高,则能传输越多的信息,熵越低,则意味着传输的信息越少。

2 公式

依据Boltzmann's H-theorem,香农把随机变量 X 的熵值 Η(希腊字母 \Eta)定义如下,其值域为 {x_1, ..., x_n}
\mathrm{H}(X)=\mathrm{E}[\mathrm{I}(X)]=\mathrm{E}[-\ln (\mathrm{P}(X))]\tag{1}
其中 I(X)=-\ln (\mathrm{P}(X)) 又被称为 X 的信息量(自信息)。
对于一个离散随机变量 X=\left\{x_{1}, x_{2}, \cdots, x_{n}\right\},其概率 p_{i}=p\left(X=x_{i}\right),则其熵定义为:
H(X)=-\sum_{i=1}^{n} p\left(x_{i}\right) \log p\left(x_{i}\right)\tag{2}
其中当 p\left(x_{i}\right)=0 时:
p\left(x_{i}\right) \log p\left(x_{i}\right)=0\tag{3}

3 条件熵

定义事件 XY 分别取 xiyj 时的条件熵为
\mathrm{H}(X \mid Y)=-\sum_{i, j} p\left(x_{i}, y_{j}\right) \log \frac{p\left(x_{i}, y_{j}\right)}{p\left(y_{j}\right)}\tag{4}
其中:
其中 p(xi, yj)X = x_iY = y_j 时的概率。

参考文献

[1] https://zh.wikipedia.org/wiki/%E7%86%B5_(%E4%BF%A1%E6%81%AF%E8%AE%BA)
[2] https://hsinjhao.github.io/2019/05/22/KL-DivergenceIntroduction/

Add a Comment

您的邮箱地址不会被公开。 必填项已用 * 标注

Table of Contents