オンライン機械学習

(1)

オンライン機械学習

豊橋技術科学大学　梅村

(2)

前処理理：対象をモデル化

•  ⼊入⼒力力された⽣生データをキーとバリューで表現

2

自律移動ロボット自体の設計、

開発、評価などが総合的に書かれた文献、または、自律移動ロボットにおける部分的なシステム(経路制御、物体認識など)の設計について書かれた文献

キー／バリュー

自律移動 2 ロボット 1

設計 1

文献 1

情報工学分野

情報工学分野１

(3)

モデルのベクトル表現解釈

•  ⼊入⼒力力された⽣生データのラベルもベクトルで表す

次元のラベル（キー）／次元の値（バリュー）

3

語ベクトル

x¹= (0…0,2,0…0,1,…,0,1,0, …0,1,0...)

3

“自律移動”’に対応する次元

“ロボット”’に対応する次元

他の要素は0とする。

設計 1

文献 1

情報工学分野ラベル

情報工学分野 Yes/No

y¹= 1 または y¹= -‐1

(4)

モデルからの判定　

•  ⼊入⼒力力された⽣生データのラベルもベクトルで表す

次元のラベル（キー）／次元の値（バリュー）

4

語ベクトル

x¹= (0…0,2,0…0,1,…,0,1,0, …0,1,0...)

4

設計 1

文献 1

情報工学分野 ?

　y¹　←　if (w'^Tx < 0 ) then -‐1 else 1

ベクトル　w：判定のためのパラメータ

(5)

妥当な重みベクトルの例例

•  キー／バリューごとに，ラベルのyes/noに貢献する程度度がある。

•  その値がベクトルwのキーの次元の値

•  判定⽅方法を決めたので，ベクトルwの求め⽅方が次の問題になる。

5

語ベクトル

x¹= (0…0,2,0…0,1,…,0,1,0, …0,1,0...) w= (?…?, 5,?…?, 9,…,?,1,?, …? ,-‐1,?...)

5

設計 1

文献 1

情報工学分野 ?

　y¹　←　if (w'^Tx < 0 ) then -‐1 else 1

(6)

パラメータ（重み）の学習

(7)

準備

•  wをいろいろ変えて，f(w)の最小値を与えるw*を探す。数式ではargminという記号を使う。

•  xの関数fが，aという変数で変化するときに，aは関数の定義域として考えな事を明示するために";"で

xとaを区切る

•  ベクトルwとベクトルxの内積はw^Txと記述する

w^* = argmin

w

f (w)

f (x;a) = ax²

(8)

機械学習→重みの学習

•  問題：

– モデル化したデータのベクトルによる

２値分類線形識別関数の決定　→　wの決定

•  訓練例{(x_i, y_i)| i=1…N} を利用し、分類器を特

徴付けるパラメータwを学習する。

•  分類器　y= f(x)　は　y= if (w'^Tx < 0 ) then -‐1 else 1

　y_i= f(x_i)　(i=1…Nの大部分）となるのが目標

注:「全部」となる重みwがあるとは限らない

(9)

重みの学習

•  訓練例{(x_i, y_i)| i=1…N}を利用し、分類器を特徴付

けるパラメータwをコストを最小化する枠組みで学習

•  分類器　y= f(x) = if (w^Tx < 0 ) then -‐1 else 1

y_i= f(x_i)　(i=1…N) が最小解となるようなコスト関数

•  その一つパーセプトロンのコスト関数

y_i≠ f(x_i)　ということは、-‐y_i w^Tx_i> 0 でコスト：-‐y_i w^Tx_i y_i= f(x_i)　ということは　-‐y_i w^Tx_i< 0 でコスト：0

w^* = arg min

w

l(x_i, y_i;w)

i=1 n

∑

l(x, y;w) = ^max(0,−yw^Tx)

(10)

パーセプトロンのコスト関数による重みの学習

•  パーセプトロンのコスト関数

y_i≠ f(x_i)　ということは、-‐y_i w^Tx_i> 0 でコスト：-‐y_i w^Tx_i y_i= f(x_i)　ということは　-‐y_i w^Tx_i< 0 でコスト：0

•  山登り（山下り）法による更新

•  パーセプトロンのコスト関数の重みの更新 y_i≠ f(x_i)　のときw’=w+y_i x_iとするとコスト減少　　Δコスト：-‐y_i (w’-‐w)^Tx_i= -‐y_i (y_i x_i)^Tx_i= -‐y_i² x_i^Tx_i<0

y_i= f(x_i)　のときw'=wのままで、コスト不変

w^* = arg min

w

l(x_i, y_i;w)

i=1 n

∑

^l(^x^, ^y;^w⁾ ⁼ ^max(0,⁻^yw^T^x)

(11)

パーセプトロンアルゴリズム

⼊入⼒力力: {(x_i, y_i)| i = 1…N, y_i∈{+1,-‐1} } w = (0,0,….0) _{// 初期化}

repeat for 　i in [1,…,N] // 訓練データを取ってくる

s := y_iw^Txi // w^Tx_i の符号が現在の予測

　　　// y_iw^Tx_i の符号が現在の予測の正／誤

if (s <= 0) // 現在の予測が外れた: コストがある。

w := w + y_ix_i// 　現在のデータが正しく判定される // ⽅方向へ、重みを調整

endif endfor

unRl (訓練データが全部正解)

(12)

詳細の説明の前のパーセプトロンのデモ

(13)

パーセプトロンの動作（１）

２次元平⾯面上の問題：　

　原点を通る直線で領領域を分ける。

(a, b)のラベルが１と分かったとき、

ax+by=0 　の　直線でわけ

ax+by>0なら1,

ax+by<0なら0と推定する。

つまりw=(a, b)

⾼高次元ベクトルでも同様

（a,b)

w

(14)

パーセプトロンの動作（２）

⼤大きさ１のベクトル(a, b)のラベルが１,

⼤大きさ１のベクトル(c, d)のラベルが-‐1，

(a-‐c)x+(b-‐d)y=0 　の　直線でわけ

ax+by>0なら1,

つまり、w=(a,b) – (c, d)とする妥当

（a,b)

（c, d) w

(15)

パーセプトロンの動作（３）

(a, b)のラベルが１の場合、

(c, d)のラベルが-‐1の場合

(a-‐c)x+(b-‐d)y=0 　の　直線でわけ

ax+by>0なら1,

つまり、w=(a,b) – (c, d)

⾚赤い点が正しく分離離できる⽅方向へ回転

（コストが下がる）

（a,b)

（c, d)

(16)

パーセプトロンの動作（４）

(a, b)のラベルが１の場合

(c, d)のラベルが-‐1の場合

学習が進むと分離離できるところまでか回転が続くつまり、w=(a,b) –3(c, d)

⾚赤い点が正しく分離離できる

ところで、学習が停⽌止する。(コストが０)

（a,b)

（c, d)

w

(17)

実行例

(18)

パーセプトロンアルゴリズム

⼊入⼒力力: {(x_i, y_i)| i = 1…N，y_i∈{+1,-‐1} } w = (0,0,….0)_{// 初期化}

repeat for i in [1,…,N] // 訓練データを取ってくる

s := y_iw^Txi // w^Tx_i の符号が現在の予測

　　　// y_iw^Tx_i の符号が現在の予測の正／誤

if (s <= 0) // 現在の予測が外れた: コストがある。

w := w + y_ix_i// 　現在のデータが正しく判定される // ⽅方向へ、重みを調整

endif endfor

l(x, y;w) = ^max(0,−yw^Tx) ^{学習結果の}^w^は^xⁱ^{の線形結合}

(19)

下記入力に対するパーセプトロン学習ステップ

入力：{ ((1, 1), 1), ((1, -‐1), -‐1) } 初期値: (0, 0)

yw^tx w

i=1, ＿, (＿, ＿) i=2, ＿, (＿, ＿) i=1, ＿, (＿, ＿) i=2, ＿, (＿, ＿)

（１,１)

（１, −１)

(20)

同じ大きさの２つの入力のパーセプトロンのデモ

(21)

下記入力に対するパーセプトロン学習ステップ最初のyw^txと最後のwを示す

入力：{ ((1, 1), 1), ((1, -‐1), -‐1) } 初期値: (0, 0)

yw^tx w i=1, 0, (1, 1) i=2, 0, (0, 2) i=1, 2, (0, 2) i=2, 2, (0, 2)

xは無視して，yで判定すればよいと学習した。

（１,１)

（１, −１) w

(22)

演習：　下記入力に対するパーセプトロン学習ステップ最初のyw^txと最後のwを示せ

入力：{ ((1, 2), 1), ((1, 0), -‐1) } 初期値: (0, 0)

yw^tx w

i=1, __, (__, __) i=2, __, (__, __) i=1, __, (__, __) i=2, __, (__, __) i=1, __, (__, __) i=2, __, (__, __)

（1,2)

（1, 0)

(23)

異なる大きさの２つの入力のパーセプトロンのデモ

(24)

線形識別関数の制限の回避

モデルから特徴ベクトルへの写像

(25)

線形識別関数の制限

識識別できる問題の制限が⼤大きい

(26)

線形識別関数の制限

識識別できないときは，重みが求まらない

(27)

下記入力に対するパーセプトロン学習ステップ６回までの最初のyw^txと最後のwを示せ入力：{ ((2, 2), 1), ((1, 1), -‐1) }

初期値: (0, 0)

i=1, __, (__, __)

i=2, __, (__, __) i=1, __, (__, __)

i=2, __, (__, __) i=1, __, (__, __) i=2, __, (__, __)

（２,２)

（１, １)

(28)

分離できないの２つの入力のパーセプトロンのデモ

(29)

下記入力に対するパーセプトロン学習ステップ６回までの最初のyw^txと最後のwを示せ入力：{ ((2, 2), 1), ((1, 1), -‐1) }

初期値: (0, 0) i=1, 0, (2, 2) i=2, -‐4, (1, 1) i=1, 4, (1, 1) i=2, -‐2, (0, 0) i=1, 0, (2, 2) i=2, -‐4, (1, 1) 　停止しない

（２,２)

（１, １)

(30)

３次元空間への変換

２次元平⾯面上の問題を３次元の空間で解く。

２次元平⾯面上の(x, y)を

　３次元空間上の(x, y, 1)に対応つける。

パーセプトロン学習結果の

w₁x+w₂y+w₃z = 0の平⾯面は、

２次元空間では、

w₁x+w₂y+w₃=0の直線に対応

⼀一般の直線での分割の学習に対応

(31)

具体例

(32)

下記入力に対するパーセプトロン学習ステップ８回までの最初のyw^txと最後のwを示せ入力：{ ((1.0, 1.0, 1.0), 1), ((0.4, 0.4, 1.0), -‐1) } 初期値: (0.0, 0.0, 0.0)

i=1, __, (__, __, __) i=2, __, (__, __, __) i=1, __, (__, __, __) i=2, __, (__, __, __) i=1, __, (__, __, __) i=2, __, (__, __, __) i=1, __, (__, __, __) i=2, __, (__, __, __)

(33)

下記入力に対するパーセプトロン学習ステップ８回までの最初のyw^txと最後のwを示せ入力：{ ((1.0, 1.0, 1.0), 1), ((0.4, 0.4, 1.0), -‐1) } 初期値: (0.0, 0.0, 0.0)

i=1, 0.0, (1.0, 1.0, 1.0) i=2, -‐1.8, (0.6, 0.6, 0.0) i=1, 1.2, (0.6, 0.6, 0.0)

i=2, -‐0.48, (0.2, 0.2, -‐1.0) i=1, -‐0.6, (1.2, 1.2, 0.0) i=2, -‐0.96, (0.8, 0.8, -‐1.0) i=1, 0.6, (0.8, 0.8, -‐1.0) i=2, 0.36, (0.8, 0.8, -‐1.0)

(34)

６次元空間への変換

２次元平⾯面上の問題を６次元の空間で解く。

２次元平⾯面上の(x, y)を (x, y, x², y², xy, 1)に対応つける。

パーセプトロン学習結果のの超平⾯面は、

w₁x+w₂y+w₃x²+w₄y²+w₅xy+w₆=0の曲線に対応

２次曲線での分割の学習に対応

(35)

線形識別関数の制限の回避のデモ

(36)

線形識別関数の制限の回避のデモ

(37)

最大マージン識別関数

(38)

パーセプトロンの結果の問題点

分離離すれば、停⽌止する。

識識別境界と学習データが近い可能性が⾼高い遠いほうが良良いが、実現できない。

(39)

パーセプトロンのコスト関数

学習サンプルが間違っていれば、識識別⾯面を間違わない⽅方向に移動する。

yw^tx L

(40)

最大マージン識別関数のコスト関数

学習サンプルが⼗十分に⾃自信をもって判定されていなければ、識識別⾯面を⾃自信をもって判定する

⽅方向に移動する。

（境界上で正しく判定されても満⾜足しない。）

l(x, y;w) =

yw^tx

) 1

, 0

max( − yw^Tx

yw^tx

L L

(41)

単純な

最大マージン識別関数の学習

s := y_iw^Txi 　　// w^Tx_i の符号が現在の予測の正誤指標

if (s <=1) // 誤り（負）or⾃自信がない(⼩小さな正)

w := w + αy_ix_i// 特徴ベクトルを⾜足す

endif endfor

　ただしαは、⼗十分⼩小さな正の数, ⼤大きいとマージンが⼗十分にとれなくなる。

l(x, y;w) = ^max(⁰^,¹₋ ^y^w^T^x⁾

(42)

Passive Aggressive最大マージン識別関数

(43)

単純なアルゴリズムの問題点

更更新を⼩小さくするとマージンがとれるが、

⼩小さくすると学習速度度が遅い

(44)

単純な最大マージン識別関数の学習の問題

⼊入⼒力力: {(x_i, y_i)| i = 1…N, y_i∈{+1,-‐1} } w = (0,0,….0)_{// 初期化}

w := w + αy_ix_i// 特徴ベクトルを⾜足す

endif endfor

　αの上⼿手な決め⽅方が必要

l(x, y;w) = ^max(⁰^,¹₋ ^y^w^T^x⁾

(45)

Passive Aggressive Algorithm

[Crammer, JMLR 06]

•  直感的には

現在の訓練例はコストをぴったり０にする。

or 現在の訓練例の場所を，自信のあるなかでは，

いちばん自信の程度が小さい場所にする。

t_i 　= l(x_i, y_i; w) / x_i^Tx_i w := w + t_iy_ix_i

(46)

passive aggressive

最大マージン識別関数学習

⼊入⼒力力: {(x_i, y_i)| i = 1…N, y_i∈{+1,-‐1} } w = (0,0,….0)_{// 初期化}

　t_i 　= l(x_i, y_i; w) / x_i^Tx_i// 適切切な刻み幅を計算し

w := w + t_iy_ix_i// 特徴ベクトルを⾜足す

endif endfor

) =

; ,

(x y w

l max(0,1− yw^Tx)

(47)

Passive Aggressive最大マージン識別関数のデモ

(48)

過学習の問題

L1正則化

(49)

大きな値の重み　〜　過学習の問題

•  訓練例を正しく分類するために、大きな値の重みとなるケースがある。(過学習)

•  ひとつのW_i 大きな重み　

〜　対応する特徴i一つで識別がほぼ決まることになる。特徴がまれだと正当性に疑問がある。（モロッコ出身だと女性？）

w

^*

= arg min

w

l ( x

_i

, y

_i

; w )

i=1 n

∑

ボーイッシュなモロッコ出身の女性の訓練例があるとする。

正しく識別するため、モロッコ出身という特徴の重みが増える。

(50)

過学習を防ぐ最適化による学習

•  訓練例{(x_i, y_i)| (i=1…N)}を利用し、分類器を特

徴付けるパラメータwを学習

w

^*

= arg min

w

l ( x

_i

, y

_i

; w )

i=1 n

∑ ⁺ ^R( ^w ⁾

損失関数：どれだけ訓練例に合致しないものがある程度

正則化項：

wの形が事前知識と

違っている程度

(51)

正則化項のある凸最適化問題

•  F(w)を最小にするようなwを求める

よく使われる正則化項 L：ノルム　〜　wの大きさ

–  L1ノルム : 要素の絶対値の合計 –  L2ノルム : 要素の自乗の合計 –  両方とも凸関数

F ( w) = l ( x

_i

, y

_i

; w )

i=1 n

∑ ⁺ ^R(w ⁾

(52)

Wの形の事前知識

R(W)　＝　Σ　｜W_i|

これを最小化する山下りの更新方法は、

w'_i = sign(w_i)max(|w_i |– θ, 0) 　ただし、sign(α)は

　　αの同じ符号の１または-‐1

θは正の小さな定数

w_i w'_i

(53)

L1 正則化つき

最大マージン識別関数学習

　t_i 　= l(x_i, y_i; w) / x_i^tx_i// 適切切な刻み幅を計算し

w := w + t_iy_ix_i// 特徴ベクトルを⾜足す

elsefor(j ) { w_j = sign(w_j)max(|w_j |– θ, 0) ; } endif endfor

unRl (適切切な回数まで)

l(x, y;w) = ^max(⁰^,¹₋ ^y^w^T^x⁾

(54)

L₁正則化によるモデルのコンパクト化

L₁正則化を学習に使うと

学習時に特徴選択も同時に行うことになる。

重みの小さい特徴は、学習時に重みを０とすることによって、無視されることになる。

(55)

L

₁

正則化による学習結果の特徴

•  L₁正則化の場合、重みw_kの多くが0になる

– 特徴選択が実現できる

– 学習結果の解釈が易易しくなる。

– 識識別関数の実⾏行行が⾼高速でメモリも少なくて済む

(56)

L1正則化のデモ

(57)

オンライン学習アルゴリズムまとめ

(58)

オンライン学習

•  訓練例例を1つずつ⾒見見てwを更更新する

メモリ上に学習データが全部乗らなくても実⾏行行できる。

•  最近の巨⼤大なデータを対象に機械学習するために必要な性質

(59)

オンライン学習

•  実装は簡単／更更新⽅方法の解析は難しい更新のさじ加減が性能を左右する。

　学習の結果の重みは尊重する。

　新しい学習結果と矛盾したデータを無視しない。

(60)

オンライン学習実装は簡単だが、

最大マージン識別関数学習アルゴリズム

　は、Support Vector Machineの近似である。

実際上は　Support Vector Machineとして使える。

(61)

サンプル（デモプログラム）情報

processingで実装

ダウンロードurl:

hpp://www.ss.cs.tut.ac.jp/umemura/lecture-‐ML-‐2012/

MLOnLine.tazをtar –xvzfで展開後、processingで実行

サンプルデータの作成は、java MLControllerでSAMPLEで始まるファイルを作成。

(62)

やってみませんか？

デモプログラムをダウンロードし、実行する。

ファイル、"SAMPLE.dat"を書き換えて、自分の作った学習サンプルを用意し、それの学習結果を観察する。

なお、「p」のキーで画像ファイルができる。

オンライン機械学習

∑

∑

パーセプトロンアルゴリズム

パーセプトロンの動作（１）

パーセプトロンの動作（２）

パーセプトロンの動作（３）

パーセプトロンの動作（４）

パーセプトロンアルゴリズム

線形識別関数の制限

線形識別関数の制限

３次元空間への変換

６次元空間への変換

パーセプトロンの結果の問題点

パーセプトロンのコスト関数

最大マージン識別関数のコスト関数

単純な

最大マージン識別関数の学習

単純なアルゴリズムの問題点

単純な最大マージン識別関数の 学習の問題

Passive Aggressive Algorithm

passive aggressive

最大マージン識別関数学習

w

= arg min

l ( x

, y

; w )

∑

w

= arg min

l ( x

, y

; w )

∑ + R( w )

F ( w) = l ( x

, y

; w )

∑ + R(w )

L1 正則化つき

最大マージン識別関数学習

L

正則化による学習結果の特徴

単純な最大マージン識別関数の学習の問題

∑ ⁺ ^R( ^w ⁾

∑ ⁺ ^R(w ⁾