softmax 関数のリプシッツ性
定義
ei∈Rd を i 番目の基本ベクトルとする。
Δd を d 次元確率単体とする。つまり
Δd={s∈Rdi=1∑dsi=1,任意の i でsi≥0}.
逆温度 λ>0 の softmax σλ:Rd→Δd を以下のように定義する
σλ(x)=i=1∑dexp(λxi)1exp(λx1)…exp(λxd).
命題
任意の 1≤p,q≤∞ と σλ について以下が成り立つ
∥σλ(x)−σλ(y)∥p≤Lp,q∥x−y∥q
ここで
Lp,q=λ2−1+p1−q1
証明
s=σλ(z) とするとヤコビ行列は以下のように書ける
J(z)=∇σλ(z)=λ(diag(s)−ssT).
平均値不等式より
∥σλ(x)−σλ(y)∥p≤(zsup∥u∥q=1sup∥J(z)u∥p)∥x−y∥q.
したがって supz∥J(z)∥q→p を評価すれば十分である。
まず,標準基底 {ei}i=1d に対して恒等式 diag(s)−ssT=∑i<jsisj(ei−ej)(ei−ej)T が成り立つから任意の u∈Rd で
J(z)u=λi<j∑sisj(ui−uj)(ei−ej).
三角不等式と ∥ei−ej∥p=21/p(i=j)より
∥J(z)u∥p≤λi<j∑sisj∣ui−uj∣∥ei−ej∥p=λ21/pi<j∑sisj∣ui−uj∣
ここで s=σλ(z) は単体の内点を走る。関数 s↦∑i<jsisj∣ui−uj∣ は連続なので, 境界を含む閉単体 Δd 上の上限と一致する。
したがって
zsup∥u∥q=1sup∥J(z)u∥p=∥u∥q=1supzsup∥J(z)u∥p=λ21/p∥u∥q=1sups∈Δdsupi<j∑sisj∣ui−uj∣.
imin=argminiui,imax=argmaxiui とする。右辺について s を imin,imax に集中させる場合が最も大きくなるから
s∈Δdsupi<j∑sisj∣ui−uj∣=∣uimax−uimin∣S∈[0,1]maxS(1−S)=∣uimax−uimin∣/4.
等号成立条件は simin=simax=21。
次に、任意の実数 a,b について ∣a−b∣q≤2q−1(∣a∣q+∣b∣q) が成り立つから a=uimax,b=ujmin に適用することで以下が成り立つ:
∣uimax−uimin∣≤21−1/q(∣uimax∣q+∣uimin∣q)1/q≤21−1/q
等号成立条件は uimax=2−1/q,uimin=−2−1/q 。
以上をまとめると
zsup∥u∥q=1sup∥J(z)u∥p≤λ21/p⋅41⋅21−1/q=λ2−1+1/p−1/q=:Lp,q.
□
具体例
- (2,2) のとき L2,2=λ/2
- (1,1) のとき L1,1=λ/2
- (1,∞) のとき L1,∞=λ
References