多変量正規分布はリプシッツ連続


TL;DR

多変量正規分布の確率密度関数はリプシッツ連続であり、密度関数を

f(x)=1(2π)d/2Σ1/2exp(12(xμ)TΣ1(xμ))f(x) = \frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}} \exp\left(-\frac{1}{2}(x-\mu)^T \Sigma^{-1}(x-\mu)\right)

とするとリプシッツ定数は

L=e1/2(2π)d/2Σ1/2λmin(Σ)L = \frac{e^{-1/2}}{(2\pi)^{d/2}|\Sigma|^{1/2} \sqrt{\lambda_{\min}(\Sigma)}}

となります。

リプシッツ連続性

距離空間 (X,dX)(X, d_X)(Y,dY)(Y, d_Y) の間の写像 f:XYf: X \to Yリプシッツ連続であるとは、ある実数 LL が存在して

dY(f(x),f(y))LdX(x,y)(x,yX)d_Y(f(x), f(y)) \leq L\, d_X(x, y) \quad (\forall x, y \in X)

が成り立つことを言います。この最大の LLリプシッツ定数と呼びます。
要するに「入力の変化量に対して、出力の変化量が一定の範囲内に収まる」滑らかさの指標です。 また、ff が微分可能な場合、リプシッツ連続性は勾配のノルムの上限がリプシッツ定数と一致します。

詳細はこちらを参照してください。

多変量正規分布の確率密度関数

Rd\mathbb R^d 上の多変量正規分布の確率密度関数は次のように定義されます。

f(x)=1(2π)d/2Σ1/2exp(12(xμ)TΣ1(xμ))f(x) = \frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}} \exp\left(-\frac{1}{2}(x-\mu)^T \Sigma^{-1}(x-\mu)\right)

ここで

  • μ\mu:平均ベクトル
  • Σ\Sigma:分散共分散行列(正定値対称行列)

多変量正規分布の確率密度関数のリプシッツ連続性

f(x)=f(x)Σ1(xμ)\nabla f(x) = f(x)\, \Sigma^{-1}(x-\mu)

なので1勾配のノルムは

f(x)2=f(x)Σ1(xμ)2\|\nabla f(x)\|_2 = f(x)\, \|\Sigma^{-1}(x-\mu)\|_2

ノルムの最大値を求める

y=xμy = x - \mu とおくと、

f(x)=Cexp(12yΣ1y)f(x) = C \exp\left(-\frac{1}{2} y^\top \Sigma^{-1} y\right)

ただし、C=1(2π)d/2Σ1/2.C = \frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}}.

マラハラノビス距離を r=yΣ1yr = \sqrt{y^\top \Sigma^{-1} y} とすると、

f(x)2=Cexp(r22)Σ1y2\|\nabla f(x)\|_2 = C \exp\left(-\frac{r^2}{2}\right) \|\Sigma^{-1} y\|_2

となります。

Σ1y2\|\Sigma^{-1} y\|_2 の上界について以下が成り立ちます

Σ1y2rλmin(Σ)\|\Sigma^{-1} y\|_2 \leq \frac{r}{\sqrt{\lambda_{\min}(\Sigma)}}

ここで λmin(Σ)\lambda_{\min}(\Sigma) は最小固有値。統合成立条件は yy が最小固有値に対応する固有ベクトルの集合が生成する線形空間の元。したがって、

f(x)2Crλmin(Σ)exp(r22)\|\nabla f(x)\|_2 \leq C \frac{r}{\sqrt{\lambda_{\min}(\Sigma)}} \exp\left(-\frac{r^2}{2}\right)

この右辺は r=1r = 1 で最大値をとり、その値は e1/2e^{-1/2}

以上より、多変量正規分布の確率密度関数はリプシッツ連続であり、そのリプシッツ定数は

L=e1/2(2π)d/2Σ1/2λmin(Σ)L = \frac{e^{-1/2}}{(2\pi)^{d/2}|\Sigma|^{1/2} \sqrt{\lambda_{\min}(\Sigma)}}

となります。

特に、等方的な場合(Σ=σ2I\Sigma = \sigma^2 I)は

L=e1/2(2π)d/2σd+1L = \frac{e^{-1/2}}{(2\pi)^{d/2} \sigma^{d+1}}

とシンプルな形になります。

Σ1y2\|\Sigma^{-1}y\|_2 の上界

Σ\Sigma は正定値対称行列より、正規直交行列 QQ が存在して

Σ=QΛQT\Sigma = Q \Lambda Q^T

ここで Λ\Lambda は対角行列で、Σ\Sigma の固有値を λi\lambda_i とすると Λ=diag(λ1,λ2,,λd)\Lambda = \text{diag}(\lambda_1, \lambda_2, \ldots, \lambda_d) となります。

yyQQ の基底を用いて展開すると α\alpha を用いて y=Qαy = Q\alpha と書けます。

このとき、マラハラノビス距離は

r2=yTΣ1y=yTQΛ1QTy=αTQTQΛ1QTQα=αTΛ1α=i=1dαi2λi\begin{align*} r^2 &= y^T \Sigma^{-1} y \\ &= y^T Q \Lambda^{-1} Q^T y \\ &= \alpha^T Q^T Q \Lambda^{-1} Q^T Q \alpha \\ &= \alpha^T \Lambda^{-1} \alpha \\ &= \sum_{i=1}^d \frac{\alpha_i^2}{\lambda_i} \end{align*}

同様に Σ1y2\|\Sigma^{-1}y\|_2

Σ1y22=yTΣ2y=yTQΛ2QTy=αTQTQΛ2QTQα=αTΛ2α=i=1dαi2λi2\begin{align*} \|\Sigma^{-1}y\|_2^2 &= y^T \Sigma^{-2} y \\ &= y^T Q \Lambda^{-2} Q^T y \\ &= \alpha^T Q^T Q \Lambda^{-2} Q^T Q \alpha \\ &= \alpha^T \Lambda^{-2} \alpha \\ &= \sum_{i=1}^d \frac{\alpha_i^2}{\lambda_i^2} \end{align*}

任意の ii について λiλmin(Σ)\lambda_i \geq \lambda_{\min}(\Sigma) が成り立つから

Σ1y22=i=1dαi2λi21λmin(Σ)i=1dαi2λi=r2λmin(Σ)\|\Sigma^{-1}y\|_2^2 = \sum_{i=1}^d \frac{\alpha_i^2}{\lambda_i^2} \leq \frac{1}{\lambda_{\min}(\Sigma)}\sum_{i=1}^d \frac{\alpha_i^2}{\lambda_i} = \frac{r^2}{\lambda_{\min}(\Sigma)}

よって

Σ1y2rλmin(Σ)\|\Sigma^{-1}y\|_2 \leq \frac{r}{\sqrt{\lambda_{\min}(\Sigma)}}

統合成立条件は λi=λmin(Σ)\lambda_i=\lambda_{\min}(\Sigma) となるような ii についてのみ αi0\alpha_i\neq 0 であること。 つまり、yy が最小固有値に対応する固有ベクトルの集合が生成する線形空間の元であることです。

References


Footnotes

  1. 正規分布の平均に関する微分