平均と分散が既知の最大のエントロピーを持つ分布は正規分布
命題
平均 μ∈Rd、分散共分散行列 Σ∈Rd×d が既知の確率密度 p(x) の中で最大のエントロピーを持つものは正規分布 N(x∣μ,Σ) の密度である。
記号
確率密度 p(x):Rd→R に対して微分エントロピーは次のように定義される。
h(p)=−∫Rdp(x)logp(x)dx
確率密度 p と q の間の KL ダイバージェンスは次のように定義される。
KL(p∥q)=∫Rdp(x)logq(x)p(x)dx
KL ダイバージェンスは以下の性質を持つ。
KL(p∥q)≥0,∀p,q
KL(p∥q)=0⟺p=q
KL ダイバージェンスと微分エントロピーの関係は次のようになる。
KL(p∥q)=−h(p)−∫Rdp(x)logq(x)dx
証明
正規分布 N(x∣μ,Σ) の密度を q(x) としたとき、エントロピー h(q) は
h(q)=−∫Rdq(x)logq(x)dx=21logdet(2πeΣ).
平均 μ と分散共分散行列 Σ を持つ確率密度 p(x) と q(x) の間の KL ダイバージェンスを考えると、
KL(p∥q)=−h(p)−∫Rdp(x)logq(x)dx≥0.
ここで、
∫Rdp(x)logq(x)dx=−2dlog(2π)−21logdetΣ−21Ex∼p[(x−μ)TΣ−1(x−μ)]
第3項について xTAy=Tr[ATxyT] が成り立つから
Ex∼p[(x−μ)TΣ−1(x−μ)]=Ex∼p[Tr[Σ−1(x−μ)(x−μ)T]]=Tr[Σ−1Ex∼p[(x−μ)(x−μ)T]]=Tr[Σ−1Σ]=Tr[Id]=d.
ここで、トレースと期待値が可換であることを利用した。
したがって、
KL(p∥q)=−h(p)+2dlog(2π)+21logdetΣ+21d=−h(p)+21logdet(2πeΣ)=−h(p)+h(q)≥0.
よって h(p)≤h(q) が成り立つ。
これは、平均 μ、分散共分散行列 Σ が既知の確率密度 p(x) の中で最大のエントロピーを持つものは正規分布 N(x∣μ,Σ) の密度 q(x) であることを示している。
また、h(p)=h(q) が成り立つとき、KL ダイバージェンスが 0 となるので、KL ダイバージェンスの性質から p=q となり、最大のエントロピーを達成するのは正規分布 N(x∣μ,Σ) の密度 q(x) のみである。
□
References