平均と分散が既知の最大のエントロピーを持つ分布は正規分布


命題

平均 μRd\mu\in\mathbb R^d、分散共分散行列 ΣRd×d\Sigma\in\mathbb R^{d\times d} が既知の確率密度 p(x)p(x) の中で最大のエントロピーを持つものは正規分布 N(xμ,Σ)\mathcal N(x|\mu,\Sigma) の密度である。

記号

確率密度 p(x):RdRp(x):\mathbb R^d\to \mathbb R に対して微分エントロピーは次のように定義される。

h(p)=Rdp(x)logp(x)dxh(p) = -\int_{\mathbb R^d} p(x) \log p(x) dx

確率密度 ppqq の間の KL ダイバージェンスは次のように定義される。

KL(pq)=Rdp(x)logp(x)q(x)dx\text{KL}(p\|q) = \int_{\mathbb R^d} p(x) \log \frac{p(x)}{q(x)} dx

KL ダイバージェンスは以下の性質を持つ。

KL(pq)0,p,q\text{KL}(p\|q) \geq 0, \quad \forall p,q KL(pq)=0    p=q\text{KL}(p\|q) = 0 \iff p = q

KL ダイバージェンスと微分エントロピーの関係は次のようになる。

KL(pq)=h(p)Rdp(x)logq(x)dx\text{KL}(p\|q) = -h(p) - \int_{\mathbb R^d} p(x) \log q(x) dx

証明

正規分布 N(xμ,Σ)\mathcal N(x|\mu,\Sigma) の密度を q(x)q(x) としたとき、エントロピー h(q)h(q)

h(q)=Rdq(x)logq(x)dx=12logdet(2πeΣ).h(q) = -\int_{\mathbb R^d} q(x) \log q(x) dx = \frac{1}{2} \log \det(2\pi e \Sigma).

平均 μ\mu と分散共分散行列 Σ\Sigma を持つ確率密度 p(x)p(x)q(x)q(x) の間の KL ダイバージェンスを考えると、

KL(pq)=h(p)Rdp(x)logq(x)dx0.\text{KL}(p\|q) = -h(p) - \int_{\mathbb R^d} p(x) \log q(x) dx \geq 0.

ここで、

Rdp(x)logq(x)dx=d2log(2π)12logdetΣ12Exp[(xμ)TΣ1(xμ)]\int_{\mathbb R^d} p(x) \log q(x) dx = -\frac{d}{2}\log(2\pi) -\frac{1}{2}\log\det \Sigma - \frac{1}{2}\mathbb E_{x\sim p}[(x-\mu)^T \Sigma^{-1} (x-\mu)]

第3項について xTAy=Tr[ATxyT]x^T A y = \text{Tr}[A^T xy^T] が成り立つから

Exp[(xμ)TΣ1(xμ)]=Exp[Tr[Σ1(xμ)(xμ)T]]=Tr[Σ1Exp[(xμ)(xμ)T]]=Tr[Σ1Σ]=Tr[Id]=d.\begin{align} \mathbb E_{x\sim p}[(x-\mu)^T \Sigma^{-1} (x-\mu)] &= \mathbb E_{x\sim p}[\text{Tr}[\Sigma^{-1} (x-\mu) (x-\mu)^T]] \\ &= \text{Tr}[\Sigma^{-1} \mathbb E_{x\sim p}[(x-\mu) (x-\mu)^T]] \\ &= \text{Tr}[\Sigma^{-1} \Sigma] \\ &= \text{Tr}[I_d] \\ &= d. \end{align}

ここで、トレースと期待値が可換であることを利用した。 したがって、

KL(pq)=h(p)+d2log(2π)+12logdetΣ+12d=h(p)+12logdet(2πeΣ)=h(p)+h(q)0.\begin{align} \text{KL}(p\|q) &= -h(p) + \frac{d}{2}\log(2\pi) + \frac{1}{2}\log\det \Sigma + \frac{1}{2}d \\ &= -h(p) + \frac{1}{2} \log \det(2\pi e \Sigma) \\ &= -h(p) + h(q) \\ &\geq 0. \end{align}

よって h(p)h(q)h(p) \leq h(q) が成り立つ。 これは、平均 μ\mu、分散共分散行列 Σ\Sigma が既知の確率密度 p(x)p(x) の中で最大のエントロピーを持つものは正規分布 N(xμ,Σ)\mathcal N(x|\mu,\Sigma) の密度 q(x)q(x) であることを示している。 また、h(p)=h(q)h(p)=h(q) が成り立つとき、KL ダイバージェンスが 00 となるので、KL ダイバージェンスの性質から p=qp=q となり、最大のエントロピーを達成するのは正規分布 N(xμ,Σ)\mathcal N(x|\mu,\Sigma) の密度 q(x)q(x) のみである。

\square

References