主成分分析の汎化誤差などについて
On Generalization Errors of Principal Component Analysis
赤間陽二
1∗上野康隆
1Yohji Akama
1and Yasutaka Uwano
11
東北大学 大学院理学研究科 数学専攻
1
Mathematical Institute, Tohoku University
Abstract: We are concerned with principal compnent analyses(PCA), which reduce the dimen- tionality of data, and we formulate them as empirical risk minimizations of Vapnik where the class of the loss functions of the empirical risk minimization is unbounded and non-negative. The classes of the loss functions of PCA induce natural classes of geometric concepts. In order to evaluate the generalization errors of PCA, we first evaluate the VC dimensions of the classes by using techniques of discrete geometry, such as Voronoi diagrams. Then, from any unbounded class of non-negative loss functions, we derive a distribution-independent sample complexity of the risk minimization, which corresponds to the sample complexity of PAC-learning.
1 はじめに
統計的学習理論[7]の枠組では,学習の一般的なモデ ルの構成要素は, (i) 空間 Z から得られる訓練データ z が従う未知の確率分布関数F(z), (ii) 表現クラスΛ, および (iii)損失関数 Q: Z×Λ→Rである. ただし
Q(z, α)は訓練データzと表現αに関する損失を表す.
学習の目標とは,リスク R(α) =
∫
Q(z, α)dF(z), α∈Λ, を最小化する
α0∈Λ s.t.R(α0) = min
α∈Λ R(α) を, Fに独立に従う訓練データ
z1,· · · , zl (1) から推定することである.
例えば, 教師つき学習では各ziはデータxi とそれ に対する教師の反応yiの組であり,学習機械は適当な
関数族 f(x, α), α ∈ Λ を実現することができる.特
にf(x, α)∈ {0,1}かつ, 損失関数Q((x, y), α)がy = f(x, α)ならば1さもなければ0であるとき,パターン 識別問題に対応する.
学習方法のひとつである経験リスク最小化原理とは, リスクのかわりに,経験データ(訓練データ)(1)に基づ
∗東北大学 大学院理学研究科 数学専攻
〒980-8578仙台市青葉区 荒巻字青葉6番3号 E-mail: [email protected]
く経験リスク
Remp(α) =1 l
∑l i=1
Q(zi, α)
を最小化する
αl∈Λ s.t.Remp(αl) = min
α∈Λ Remp(α)
でα0を近似しようというものである. この原理は一般 的であり, さまざまな統計的推論を含む. パターン識 別,最尤法,回帰分析などである.
汎化誤差
R(αl)−R(α0)
のlに関する上界は,訓練データの分布関数F(z)と独 立に与えることができるが, その上界は損失関数族の
VC次元(大まかにいうと表現力の強さ・繊細さ) [6]に
より支配されている. 汎化誤差の上界はサンプル複雑 度を導き,これは言語クラスのPAC学習におけるサン プル複雑度1 [1]に対応する.
そこで,我々は統計的推論におけるPrincipal Com- ponent Analysis(主成分分析, PCA)をリスク最小 化原理として定式化する(3節). PCAに現れる損失関 数族のVC次元(の下界)を, Voronoi図などによる議論 により求める(4節). これにより主成分分析の学習問題 の本質的難しさがわかることになる. 言語のPAC学習 の場合はいわば損失関数族が{0,1}値であるが, PCA
1データの分布に独立に, 1−η以上の確率で,誤差が高々εであ るような仮説を出力するために十分な入力データの個数のことであ り,言語クラスのVC次元で支配される[1,定理2.1].
の場合は損失関数族が非有界非負値である. 損失関数 族が非有界非負値の場合一般に対して,構成的な分布独 立な汎化誤差上界からサンプル複雑度を求める(5節).
最後の節では今後の課題を述べる.
2 VC 次元 , 成長関数に関する準備
S ⊆Z,C ⊆℘(Z)に対してΠC(S) :={A∩S |A∈ C} ⊂℘(S)とする. S がC によって細分されるという のはΠC(S) =℘(S)が成り立つことと定義される. 集 合 Aに対して[A]l :={Y ⊂A|#Y =l}, (l ∈N)と する.
Cを決めると,いくらでも要素数の多い適当な有限集 合SがあってCによって細分できるか,あるいは,適当 な数d∈Nがあって,dより大きな濃度の有限集合は Cではどれも細分できないかのいずれかである[7, 定 理4.3a, 146頁]. 後者の場合,CのVC次元VCdim (C) は,そのようなdの最小値として定義され,前者の場合, VCdim (C)を∞と定義される.
実数値関数族FのVC次元とは,集合族CF :={{z∈ Z; f(z)≥β}; f ∈ F, β∈R}のVC次元hである. F の成長関数GF(l) := log supS∈[Z]l#ΠCF(S)について
GF(l)≤h(log l
h+ 1) (l≥h). (2) が成立する[4].
3 損失関数による PCA の定式化
以下d次元ユークリッド空間をEdで表す.
PCA の定義は[3, 111頁]に従う. PCA は, デー タx1,· · · ,xl∈Edをd0(∈[0, d)∩Z)次元Affine空間 {Tz+b;z∈Ed0}(T ∈Md,d0(E),rankT =d0,b∈Ed) で近似することである.
そこで,我々は Λdd0 = {
(T,b)∈Md,d0(R)×Ed; rankT =d0} , (d0∈[1, d)∩Z);
Λd0 = Ed, (d0 = 0)
とおき, d0 ∈ [1, d)∩Zの場合, α= (T,b)∈Λdd0 と x に関する損失Qdd0(x, α)を,xとそのAffine空間{Tz+ b; z ∈Ed0}との距離の自乗で定義し,d0 = 0の場合, α=b∈Ed= Λd0とxに関する損失Qd0(x, α)を,xと bとの距離の自乗で定義する. すなわち
Qdd0(x,(T,b)) =°°°( T(
T>T)−1
T>−E )
(x−b)°°°2, (d0 ∈[1, d)∩Z);
Qd0(x, b) =kx−bk2, (d0 = 0).
ここで右上添字の>は転置を表す. PCAの損失関数 族は
Fdd0 ={
Qdd0(z, α) ; α∈Λdd0
} となる.
4 PCA の損失関数族の VC 次元
PCAの損失関数族Fdd0 のVC次元は次の集合族の VC次元となる:
定義 4.1 Cdd0 :=CFd0d,すなわち,
{ {x∈Ed; xとHの距離はβ以上}
;HはEdのd0次元Affine空間,かつβ≥0 }
とする. 特にCdd−1は「平行」な半空間の和集合全体と なる.
一般に, 集合族C の要素ごとの補集合全体 C˜c :=
{Z\C ; C ∈ C}のVC次元はCのそれと等しいか ら, VCdim(
Cdd−1
)は{
Edの適当な厚さの板}
∪ {∅}の VC次元と等しい.
一般に,v≥VCdim (C)を示すときには,vより大き な要素数のどんな集合SもCでは細分できないという 強い主張を証明する必要があるので,離散幾何や組み合 わせ幾何の命題を使う.
次の命題は,代数幾何学でVeronese mapping(または 線形化)として知られている手法による. この手法は EdのVoronoi図をEd+1の凸多面体に変換するときに も使われる.
命題 4.1 ([5, 命題10.3.2]) R[x1,· · · , xd]≤Dを,次数 が高々Dのd変数実多項式全体とする.
{ {x∈Ed; p(x)≥0}
; p∈R[x1,· · · , xd]≤D
} のVC次元は(d+D
d
)以下.
PCAの損失関数は,x= (x1,· · ·, xd)>の次数が高々 2のd変数実多項式だから
命題 4.2 VCdim( Ced
)≤(d+2
d
) (0≤e < d).
特にe= 0のときはEdからEd+1へのVeronese map- pingが取れるため次が言える.
命題 4.3 ([5, 245頁]) VCdim( C0d
)≤d+ 2.
VC次元の次の下界たちは初等的に証明できる.
定理 4.1 1. VCdim( C01
)= 2,VCdim( C12
)= 5.
2. VCdim( Cid+1
) ≥ VCdim( Cid
)+ 1 (d > i = 0,1).
3. VCdim( Ce+1d+1
)≥VCdim( Cde
)+ 1 (d > e≥0).
4. VCdim( Ced
)≥d+ 1 (d > e≥0).
5. VCdim( Ced
)≥d+ 3 (d > e≥1).
また, VCdim( C02
)の正確な値を求めるときはVoronoi 図の詳しい性質を用いる.
定理 4.2 ([2, 定理7.4]) E2の離散集合PのVoronoi
図Vor(P)について以下が成り立つ.
1. 点v∈E2 がVor(P)のvertexである.
⇔点vのlargest empty circle (vを中心とする, 内部にP の点を含まない最大半径の円盤)はそ の境界に点を3点以上含む.
2. 点p1, p2 ∈P についてp1p2 (p1とp2を結ぶ線 分)の垂直二等分線の一部がVor(P)の edge と して現れている.
⇔ ある点q ∈ E2 が存在して, 点q の largest empty circleの境界には点p1, p2しか含まれない.
まず正三角形の頂点を考えれば, VCdim(C02)≥3.
いまS ∈[E2]4がC20で細分できると仮定して矛盾を 導く.
点集合SのVoronoi図Vor(S)を考える. このとき定 理4.2(2)から, 2点p, q∈S がC02で切り出されるなら ばpq の垂直二等分線の一部としてedgeが現れる. な ぜなら,いま2点p, q∈S が円盤Cで切り出されたと すると,中心に関して縮小し,pまたはqと交わったら 交わった点を中心として縮小することで境界にp, qを 含む円盤C0が得られる. この円盤C0は内部にSの点 を含まない. この事実と定理4.2(2)を組み合わせれば よい. このことに注意すると,円盤全体がSの任意の2 点を切り出せることより, Vor(S)にはedgeが(4
2
)= 6 個必要である. このとき平面グラフに対するEulerの 公式からVor(S)のvertexは3個である.
ここで,このvertex を頂点にもつ三角形の内部にあ
るSの点をq,その他のSの点をpi(i= 1,2,3)とおく.
ただしp1, p2, p3は反時計回りでこの順に並んでいると する. するとVoronoi図の性質から, qと各piを結ぶ 線分はqを囲む3個のedgeとそれぞれ垂直に交わる.
ここでその交点をp0i (i= 1,2,3)とおくと,qは三角形 p01p02p03の内部に存在する. なぜなら,rを図1の位置の vertex としたとき, 四角形p01rp02qにおいて∠rp01q =
∠qp02r=π/2より,∠p01rp02+∠p02qp01=πである. ここ で∠p01rp02 は三角形の内角だから0<∠p01rp02< π. し たがって0<∠p02qp01< π. 以上よりqは三角形p01p02p03 の内部に存在することがわかる. 三角形p1p2p3はその 内部に三角形p01p02p03を含んでいるので,qは特に三角形 p1p2p3の内部に存在する. すると{p1, p2, p3}は円盤で 切り出せないことになり矛盾. ゆえにVCdim(C02)<4.
図 1: Voronoi図 Vor({p1, p2, p3, q}) (太線), 三角形 p1p2p3,三角形p01p02p03.
定理 4.3 VCdim( C02
)= 3.
一般にVC次元が高くなると, PAC学習では必要と なるサンプル数は大きくなり, Vapnik流の統計学習で は構造リスク最小化を無視すれば,すなわち,リスク最 小化原理に基づけば,汎化誤差はサンプル数lの増大に 対して減少する. 従って, Cdd0 のPAC学習のサンプル 複雑度,あるいは, PCAのVapnik流の統計学習の収束 速度の目安が得られる.
5 損失関数族が非有界非負値の場合 のサンプル複雑度
PCAの汎化誤差の構成的上界およびサンプル複雑度 を調べるために,より一般的な枠組みで調べる.
5.1 サンプル複雑度の導出
損失関数族が非有界非負値の場合のサンプル複雑度 を求める準備として次の定理を用いる.
定理 5.1 ([7, 定理5.4(1)]) p >2, F:={Q(z, α) ; α∈Λ},
が非有界(i.e., ¬∃β∀z ∈ Z∀f ∈ F. f(z) ≤ β), かつ Q(z, α)≥0 とする. このとき高々
4 exp
{(GF(2l) l −ε2
4 )
l }
の確率で sup
α∈Λ
∫ Q(z, α)dF(z)−1l∑l
i=1Q(zi, α)
(∫Q(z, α)pdF(z))1/p > εa(p) が成立する. ただし
a(p) := p
√ 1 2
(p−1 p−2
)p−1
.
3 4 5 6 7 8 9
1.2 1.4 1.6 1.8 2 2.2 2.4
図 2: a(p) = p
√
1 2
(p−1 p−2
)p−1
の グ ラ フ.
limp→2+0a(p) = ∞,limp→∞a(p) = 1 である単 調減少関数である.
これにより,損失関数族が非有界非負値である場合の 分布独立な構成的汎化誤差上界を導くことができる:
定理 5.2 損失関数族F :={Q(z, α) ; α∈Λ}が非有 界非負値で, 確率変数Q(z, α)のp(>2)次のモーメン トと期待値周りのp次モーメントのそれぞれのp乗根 を,期待値で割ったものが,ともにτ >0で上から抑え られるとする. このとき少なくとも1−η の確率で
R(αl)−R(α0)≤
R(α0)τ (
a(p)√
EF,η(l) +
√4 lη
) 1−τ a(p)√
EF,η(l)
∞
が成立する[7, (5.51)]. ただし
EF,η(l) := 4GF(2l)−log(η/8) (a l
b )
∞ :=
{ a
b, b >0;
∞, otherwise.
EF,η(l)はl=h/2のとき, (2)より次で上から抑えら れる:
Eˇh,η(l) := 4h( log(2l
h
)+ 1)
−log(η8)
l .
0 · · · h2√h η
8 · · · h2 · · · ∞
−∞ % 8/√h η
8 & 8 (
1 +h1logη8
) & 0
20 40 60 80 100
2 4 6 8
図 3: ˇEh,η(l) = 4h(log(2lh)+1)−log(η8)
l のlに関する増減 表(上図), および, VC次元h= 50, 信頼度η = 0.001 の場合の概形(下図).
すると定理5.2のEF,η(l)をEˇh,η(l)に置き換えたも のが成立する.
そこからサンプル複雑度に関する次の定理が従う.
定理 5.3
lh,η(c) = inf{
l0>0 ; ˇEh,η(l)< c (∀l≥l0)} . とすると以下が成立する.
1. R(α0) = 0の場合.
P{R(αl) = 0} ≥1−η の十分条件はl > l1,ただし
l1:= max {h
2, lh,η
( 1 τ2a(p)2
)}
.
2. R(α0)>0の場合.
P
{R(αl)−R(α0) R(α0) ≤ε
}
≥1−η
の十分条件は l > l2,ただしl2はh/2と
lh,η
1 τ2a(p)2
ε2 (
(1 +ε) +a(p)1
√4 η
)2
の最大値であり,l1以上である.
lh,η(c)は, ˇEh,η(l) =cに解があればより大きいほう を返し, そうでなければ0 を返す関数である. ˇEh,η(l) の概形(図3)から分かるとおり,cに関して単調減少で ある.
5.2 サンプル複雑度のパラメータへの依存
我々の導出したサンプル複雑度は,非有界非負値な損 失関数族の場合であるが,参考となるものとして言語の PAC学習におけるBlumerによるサンプル複雑度が挙 げられる.
定理 5.4 ([1, 定理2.1]) 言語のクラスCのVC次元が d <∞ならば, 1−η以上の確率で,誤差が高々εであ るような仮説を出力するために十分な入力データの個 数lbはmax
(4
εlog2η, d8εlog13ε )
.
l1, l2, lb の信頼度η, 誤差ε, VC次元hへの依存は 定性的には共通している. 実際
η <8eh(1−8a(p)2τ1 2) ⇒ ∂l2
∂η <∂l1
∂η <0,
∂l2
∂h >∂l1
∂h >0,
∂l2
∂ε <0
が証明できる. またこれらの式から, l2の方がl1よ りηとhへの依存が著しいことがわかる(これは手元 に正解がない学習問題の困難さを示唆している).
しかしl1とl2は前述のとおり損失関数族が非有界で あるため,データ分布の(期待値周りの)モーメントに も依存する. それは今の場合τやpというパラメータ を通して現れている.
pが大きいときは,zの確率分布が高次のモーメント まで持つことになり, 原点から遠いところでのzの分 布は問題を起こさないし,a(p)は小さい.
τが小さいときは,zの分布は原点から遠い部分の寄 与は小さく,また、zの確率密度関数の歪度も尖度も小 さいため対称に近く尖りも少ない.
a(p)が大きいときはzの分布は原点から遠いところ でも寄与が重く,また,τが大きいときは分布の対称性
も弱いかとがりが強くなる. このように特異性が強く なるため訓練データが多く必要になる. 実際,
η <8eh(1−8a(p)2τ1 2) ⇒ ∂l2
∂p <0, ∂l1
∂p <0,
∂l2
∂τ >0, ∂l1
∂τ >0 が証明できる.
6 今後の課題
PCAの汎化誤差の分析に離散幾何的なアプローチを 行ったが,今後はVCdim(
C0d
)をはじめVCdim( Ced
)に
対する更なる評価を試み,またFisher Discriminant Analysis(フィッシャー判別分析, FDA)も同様の取り 扱いができないか吟味する予定である. PCAもFDA
もRayleigh商の最大化で計算されるが, その第一固有
値が他の固有値に近接しているときは計算の条件(誤差 に対する頑健性など)が悪くなることが知られている.
そのことと, 分布独立な構成的汎化誤差の上界(5 節) との関連も考えていく.
参考文献
[1] Anselm Blumer, Andrzej Ehrenfeucht, David Haus- sler, and Manfred K. Warmuth. Learnability and the Vapnik-Chervonenkis dimension. J. Assoc. Comput.
Mach., 36(4):929–965, 1989.
[2] Mark de Berg, Marc van Kreveld, Mark Overmars, and Otfried Schwarzkopf. Computational geometry.
Springer-Verlag, Berlin, 1997. Algorithms and appli- cations.
[3] Richard O. Duda, Peter E. Hart, and David G.
Stork. Pattern Classification (2nd Edition). Wiley- Interscience, November 2000. パターン識別,尾上守夫 監訳,新技術者コミュニケーションズ, 2001.
[4] R. M. Dudley. A course on empirical processes. In Ecole d’´´ et´e de probabilit´es de Saint-Flour, XII—1982, volume 1097 ofLecture Notes in Math., pages 1–142.
Springer, Berlin, 1984.
[5] Jiˇr´ı Matouˇsek. Lectures on discrete geometry, vol- ume 212 ofGraduate Texts in Mathematics. Springer- Verlag, New York, 2002.
[6] Vladimir Vapnik.Estimation of dependences based on empirical data. Springer Series in Statistics. Springer- Verlag, New York, 1982. Translated from the Russian by Samuel Kotz.
[7] Vladimir N. Vapnik.Statistical learning theory. Adap- tive and Learning Systems for Signal Processing, Com- munications, and Control. John Wiley & Sons Inc., New York, 1998. A Wiley-Interscience Publication.