概述
- Information Theory

概述

Information Theory

Information

一个事件的信息量被定义为：

\[I(x)=-\log{P(x)}\]

易得信息量的大小和事件发生的概率成反比，当某事件绝对发生($P(x)$=1)时，该事件不含信息量。

Entropy

熵可以衡量信息量的大小，定义为：

\[\begin{aligned} H(x)&=-\mathbb{E}_{x\sim{P}}[\log{P(x)}] \\ &=-\sum{P(x)}\log{P(x)} \\ \end{aligned}\]

熵越大，说明事件越具有随机性，那么所包含的信息量就越大。特别地，当$\log$函数以$2$为底时，信息熵指示了编码事件所有信息所需要的编码长度。如掷硬币这一事件的信息熵为：

\[\begin{aligned} H(coin)&=-P(head)\log{P(head)}-P(tail)\log{P(tail)} \\ &=-\frac{1}{2}\log{\frac{1}{2}}-\frac{1}{2}\log{\frac{1}{2}} \\ &=1 \end{aligned}\]

由此得编码掷硬币这一事件只需要$1$位。

Cross entropy

交叉熵可以用于衡量两个分布之间的差异性，定义为：

\[\begin{aligned} H(P,Q)&=-\mathbb{E}_{x\sim{P}}[\log{Q(x)}] \\ &=-\sum{P(x)}\log{Q(x)} \\ \end{aligned}\]

信息熵表示使用自身分布来编码信息所需要的位数，而交叉熵表示用一个错误分布$Q$来编码真实分布$P$所需要的平均位数。

KL Divergence

KL散度也称相对熵，是用于两个分布差异的方法之，其定义为：

\[\begin{aligned} KL(P\vert\vert{Q})&=\mathbb{E}_{x\sim{P}}\log\frac{P(x)}{Q(x)} \\ &=\sum{P(x)[\log{P(x)-\log{Q(x)}}]} \end{aligned}\]

注意KL散度具有不对称性。

Maximum Likelihood Estimation

如果已观测到事件$X$的一系列发生概率，求使得这一系列概率出现可能性最大的参数$\theta$，使用最大似然估计：

\[\hat{\theta}=\arg\max\limits_{\theta}\prod{P(x_{i}\vert\theta)}\]

其中$p(x_{i}\vert\theta)$为事件$x_{i}$在参数$\theta$下的发生概率。特别地，如果某条件概率为：

\[\begin{aligned} p(y\vert{x};\theta)&\sim{\mathcal{N}(x\theta,\sigma^{2})} \\ &=\frac{1}{\sigma\sqrt{2\pi}}\exp(\frac{-(y-x\theta)^{2}}{2\sigma^{2}}) \\ \end{aligned}\]

参数$\theta$在已有观测样本${(x_{i},y_{i})}$下的最大似然为：

\[\begin{aligned} \hat{\theta}&=\arg\max\limits_{\theta}\prod{P(y_{i}|x_{i};\theta)} \\ &=\arg\max\limits_{\theta}\sum{\log\frac{1}{\sigma\sqrt{2\pi}}\exp(\frac{-(y_{i}-x_{i}\theta)^{2}}{2\sigma^{2}})} \\ &=\arg\max\limits_{\theta}\sum{[\log\frac{1}{\sigma\sqrt{2\pi}}-\frac{(y_{i}-x_{i}\theta)^{2}}{2\sigma^{2}}]} \\ &=\arg\min\limits_{\theta}(y_{i}-x_{i}\theta)^{2} \end{aligned}\]

Maximum A Posteriori

在最大似然估计中，对于参数$\theta$没有做任何假设，意味着$\theta$可以服从任何分布，只要能使得观测事件发生的概率最大即可。假如在某些情况下，参数$\theta$也是服从某一分布的，那么最大似然估计就不再适用于参数估计了，而应该使用最大后验概率：

\[\begin{aligned} \hat{\theta}&=\arg\max\limits_{\theta}\prod{P(\theta|x_{i})} \\ &=\arg\max\limits_{\theta}\prod{\frac{P(x_{i}\vert\theta)P(\theta)}{P(x_{i})}} \end{aligned}\]

看可以看出MAP引入了参数$\theta$的先验分布。