作者: 引线小白-本文永久链接:http://www.limoncc.com/概率论/2017-01-10-多元高斯分布的熵/
知识共享许可协议: 本博客采用署名-非商业-禁止演绎4.0国际许可证

一、若干引理

1、引理1.0

1、连续随机向量函数

考虑一般情况,我们有随机向量 xf(x)\displaystyle \bm{x}\sim f(\bm{x})。现在有函数 y=g(x):RkRd\displaystyle \bm{y}=\bm{g}(\bm{x}):\mathbb{R}^k\mapsto\mathbb{R}^d。即有:

y=g(x)\begin{aligned} \bm{y}=\bm{g}(\bm{x}) \end{aligned}

若上述方程有唯一解:

x=h(y)\begin{aligned} \bm{x}=\bm{h}(\bm{y}) \end{aligned}

则称函数 x=h(y)\displaystyle \bm{x}=\bm{h}(\bm{y})y=g(x)\displaystyle \bm{y}=\bm{g}(\bm{x})的反函数。同时我们有雅可比行列式:

J=det[xyT]\begin{aligned} \bm{J}=\mathrm{det}\left[\frac{\partial \bm{x}}{\partial \bm{y}^\text{T}}\right] \end{aligned}

2、变量代换引理

【定理1.0】
对于连续随机向量 xf(x)\displaystyle \bm{x}\sim f(\bm{x}),函数 y=g(x)\displaystyle \bm{y}=\bm{g}(\bm{x})满足下列条件:
1、 y=g(x)\displaystyle \bm{y}=\bm{g}(\bm{x})有唯一反函数 x=h(y)\displaystyle \bm{x}=\bm{h}(\bm{y})
2、 y=g(x)\displaystyle \bm{y}=\bm{g}(\bm{x})x=h(y)\displaystyle \bm{x}=\bm{h}(\bm{y})连续
3、 J=det[xyT]\displaystyle \bm{J}=\mathrm{det}\left[\frac{\partial \bm{x}}{\partial \bm{y}^\text{T}}\right]存在而且连续
那么

f(y)={fx[h(y)]×J 若 yG 0 若 yG\begin{aligned} f(\bm{y})=\left\{\begin{array}{l}f_\bm{x}\left[\bm{h}\left(\bm{y}\right)\right]\times\left|\,\bm{J}\right|&\text{ 若 }\bm{y}\in G \\\ 0 &\text{ 若 }\bm{y}\notin G \end{array}\right. \end{aligned}

其中 G={yy=g(x),xRk}\displaystyle G=\{\bm{y}\mid \bm{y}=\bm{g(\bm{x})},\,\bm{x}\in \mathbb{R}^k\}J\displaystyle \left|\,\bm{J}\right|是雅可比行列式的绝对值,请勿与行列式符号混淆

证明:

为了区分随机变量与随机变量实例,我们定义 ξ\displaystyle \bm{\xi}是随机向量,而 x\displaystyle \bm{x}是随机向量ξ\displaystyle \bm{\xi}的实例;η\displaystyle \bm{\eta}是随机向量,而 y\displaystyle \bm{y}是随机向量η\displaystyle \bm{\eta}的实例
yG\displaystyle \bm{y}\notin G时, 显然有 fη(y)=0\displaystyle f_\bm{\eta}(\bm{y})=0
yG\displaystyle \bm{y}\in G时,有:

Fη(y)=P(ηy)=Afξ(x)dx\begin{aligned} F_ \bm{\eta}(\bm{y})=P(\bm{\eta}\leqslant \bm{y})=\int_A f_ \bm{\xi}(\bm{x})\mathrm{d}\bm{x} \end{aligned}

其中: A=j=1d{xgj(x)yj}\displaystyle A=\bigcap_{j=1}^{d}\{\bm{x}\mid g_j(\bm{x})\leqslant y_j\},在上式中换元: x=h(y)\displaystyle \bm{x}=\bm{h}(\bm{y})得:

Fη(y)=CIG(y)×fξ[h(y)]Jdy\begin{aligned} F_ \bm{\eta}(\bm{y})=\int_C\mathbb{I}_G(\bm{y})\times f_ \bm{\xi}\left[\bm{h}(\bm{y})\right]\cdot\left|\bm{J}\right|\mathrm{d}\bm{y} \end{aligned}

其中 C=j=1d(,yj]\displaystyle C=\prod_{j=1}^{d}(-\infty,y_j]IG(y)\displaystyle \mathbb{I}_G(\bm{y})G\displaystyle G的示性函数。由此当 yG\displaystyle \bm{y}\in G时:

fη(y)=fξ[h(y)]×J\begin{aligned} f_ \bm{\eta}(\bm{y})=f_\bm{\xi}\left[\bm{h}\left(\bm{y}\right)\right]\times\left|\,\bm{J}\right| \end{aligned}

证毕。
其中证明中最关键的地方在于: AC\displaystyle A\to C的转变中,函数增减涉及积分方向的问题。这一问题的清晰说明较为繁琐,可以参考《数学分析原理》229页定理10.9以及微分形式的积分。

2、引理2.0

定义方阵的幂(可以是分数) An=UΛnUT\displaystyle \bm{A}^n=\bm{U}\bm{\Lambda}^n\bm{U}^\text{T}。其中 A=UΛUT\displaystyle \bm{A}=\bm{U}\bm{\Lambda}\bm{U}^\text{T}是约当分解或者叫谱分解,简单说就是对角化。

1、马哈拉诺比斯变换引理
我们有任意高斯分布 xN(μ,Σ)\displaystyle \bm{x}\sim\mathcal{N}\left(\bm{\mu},\bm{\varSigma}\right)。我们称 y=Σ12[xμ]\displaystyle \bm{y}=\bm{\varSigma}^{-\frac{1}{2}}\left[\bm{x}-\bm{\mu}\right]为马哈拉诺比斯变换。其中

yN(0,Ik)\begin{aligned} \bm{y}\sim\mathcal{N}\left(\bm{0},\bm{I}_k\right) \end{aligned}

也就是说 yi\displaystyle y_i是标准高斯分布 N(0,1)\displaystyle \mathcal{N}\left(0,1\right)

证明:
知道:

p(x)=(2π)k2Σ12exp[12(xμ)TΣ1(xμ)]\begin{aligned} p(\bm{x})=(2\pi)^{-\frac{k}{2}}\left|\bm{\varSigma}\right|^{-\frac{1}{2}}\exp\left[-\frac{1}{2}(\bm{x}-\bm{\mu})^\mathrm{T}\bm{\varSigma}^{-1}(\bm{x}-\bm{\mu}) \right] \end{aligned}

同时有: x=Σ12y+μ\displaystyle \bm{x}=\bm{\varSigma}^{\frac{1}{2}}\bm{y}+\bm{\mu}J=det[xyT]=Σ12\displaystyle \bm{J}=\mathrm{det}\left[\frac{\partial \bm{x}}{\partial \bm{y}^\text{T}}\right]=\left|\bm{\varSigma}\right|^{\frac{1}{2}}
有变量代换定理有:

p(y)=(2π)k2exp[12yTy]\begin{aligned} p(\bm{y})=(2\pi)^{-\frac{k}{2}}\exp \left[-\frac{1}{2}\bm{y}^\text{T}\bm{y}\right] \end{aligned}

证毕。
当然我们也可以通过特征函数的方法对马哈拉诺比斯变换引理加以证明。

二、熵

对于连续随机变量有: H[x]=E[I(x)]=p(x)lnp(x)dx\displaystyle \mathrm{H}[\bm{x}] =\mathrm{E}[\mathrm{I}(\bm{x})] =-\int p(\bm{x})\ln p(\bm{x})\mathrm{d}\bm{x}
下面我们推导多元高斯分布的熵:

H[x]=p(x)lnp(x)dx=p(x)ln[(2π)k2Σ12exp[12(xμ)TΣ1(xμ)]]dx=p(x)[ln((2π)k2Σ12)12(xμ)TΣ1(xμ)]dx=ln((2π)k2Σ12)+12p(x)[(xμ)TΣ1(xμ)]dx=ln((2π)k2Σ12)+12p(y)×yTydy=ln((2π)k2Σ12)+12i=1kE[yi2]=ln((2π)k2Σ12)+k2=ln[(2πe)k2Σ12]=k2(ln2π+1)+12lnΣ\begin{aligned} \mathrm{H}[\bm{x}] &=-\int p(\bm{x})\ln p(\bm{x})\mathrm{d}\bm{x}\\ &=-\int p(\bm{x})\ln \left[(2\pi)^{-\frac{k}{2}}\left|\bm{\varSigma}\right|^{-\frac{1}{2}}\exp\left[-\frac{1}{2}(\bm{x}-\bm{\mu})^\mathrm{T}\bm{\varSigma}^{-1}(\bm{x}-\bm{\mu}) \right]\right]\mathrm{d}\bm{x}\\ &=-\int p(\bm{x}) \left[\ln \left((2\pi)^{-\frac{k}{2}}\left|\bm{\varSigma}\right|^{-\frac{1}{2}}\right)-\frac{1}{2}(\bm{x}-\bm{\mu})^\mathrm{T}\bm{\varSigma}^{-1}(\bm{x}-\bm{\mu}) \right]\mathrm{d}\bm{x}\\ &=\ln \left((2\pi)^{\frac{k}{2}}\left|\bm{\varSigma}\right|^{\frac{1}{2}}\right)+\frac{1}{2}\int p(\bm{x}) \left[(\bm{x}-\bm{\mu})^\mathrm{T}\bm{\varSigma}^{-1}(\bm{x}-\bm{\mu}) \right]\mathrm{d}\bm{x}\\ &=\ln \left((2\pi)^{\frac{k}{2}}\left|\bm{\varSigma}\right|^{\frac{1}{2}}\right)+\frac{1}{2}\int p(\bm{y})\times\bm{y}^\text{T}\bm{y}\mathrm{d}\bm{y}\\ &=\ln \left((2\pi)^{\frac{k}{2}}\left|\bm{\varSigma}\right|^{\frac{1}{2}}\right)+\frac{1}{2}\sum_{i=1}^k\mathrm{E}[y_i^2]\\ &=\ln \left((2\pi)^{\frac{k}{2}}\left|\bm{\varSigma}\right|^{\frac{1}{2}}\right)+\frac{k}{2}\\ &=\ln \left[(2\pi\mathrm{e})^{\frac{k}{2}}\left|\bm{\varSigma}\right|^{\frac{1}{2}}\right]\\ &=\frac{k}{2}\left(\ln2\pi+1\right)+\frac{1}{2}\ln\left|\bm{\varSigma}\right| \end{aligned}

注意:推导中我们使用了马哈拉诺比斯变换引理。

三、评述

1、在求解多元高斯分布的熵中,我们使用了变量代换,同时引用了马哈拉诺比斯变换引理。
2、深层次的原理涉及到微分形式的积分。同时我们也可以浅层次的理解:使用特征函数导出马哈拉诺比斯变换引理
3、好了我们不应止步,我们征途是星辰大海。


🍀碎碎念🍀
Hello米娜桑,这里是英国留学中的杨丝儿。我的博客的关键词集中在算法、机器人、人工智能、数学等等,点个关注吧,持续高质量输出中。
🌸唠嗑QQ群兔叽的魔术工房 (942848525)
⭐️B站账号杨丝儿今天也在科学修仙(UP主跨站求个关注)