LRCN による参照点に依存した動作の認識
Recognition of Reference-Point-Dependent Motions Uisng LRCN
深井 海星
Kaisei Fukai
武井 豪介
Gosuke Takei
高渕 健太
Kenta Takabuchi
岩橋 直人
Naoto Iwahashi
イェ チョウ トゥ
Ye Kyaw Thu
国島 丈生
Takeo Kunishima
岡山県立大学
Okayama Prefectural University
This paper evaluates the performance of Long-term Recurrent Convolutional Networks (LRCN) for the recogni- tion of reference-point-dependent motions. The advantage of LRCN in this task is that the process of detecting landmark objects is not necessary. By experiments, we show the possibility and the problems of the use of LRCN for reference-point-dependent motion recognition.
1. はじめに
参照点に依存している空間的移動の概念が存在する.たと えば,図1の中で,人間によって動かされている縫いぐるみの 移動は,画面中央で静止している縫いぐるみを参照点のとれば とびこえる という概念であり,画面右側の箱を参照点にとれ ば のる という概念の例になる.認知言語学(e.g. [山梨00]) の基本的枠組みにおいて,認知される領域において焦点化され るオブジェクトの内,相対的に際立って認知されるオブジェク トはトラジェクター,これを背景的に位置付けるオブジェクト はランドマークとして区別することで複数のオブジェクトの関 係に基づく概念を記述している.図1の場合,移動している 縫いぐるみがトラジェくターで,参照点として機能する静止し ている縫いぐるみや箱が とびこえる , のる の概念のそれ ぞれにおけるランドマークとみなせる.
こういった参照点に依存した空間的移動の概念を機械学習さ せる試みが古くから行われてきている.たとえば,Regierは,
ランドマークに依存した動きの概念の学習について,認知科 学と計算科学の二つの視点で研究を行った[Regier 96].そこ では,ランドマークの情報が予め既知の情報として与えられ るものとされていた.しかし,実際の環境ではランドマークの 情報が必ずしも与えられるとは限らない.そこで,羽岡と岩 橋は,ランドマークがどのオブジェクトかわからない条件下で も,参照的に依存した動作の概念を学習できる手法,参照点 に依存した隠れマルコフモデル(Reference-Point-Dependent HMM (RPD-HMM)),を提案した[羽岡00].参照点を推定 しながら動作概念を学習することを可能した.さらに,この 手法の拡張として,HMMの代わりにガウス過程の隠れセミ マルコフモデルを用いた手法,(Reference-Point-Dependent GP-HSMM),が提案された[Nakamura 16].また,動作だけ ではなく,複数のオブジェクト間の相対的な位置関係の概念 を参照点を推定しながら学習する手法の研究も行われている [田口14].
しかしながら,参照点を推定しながら動作や相対位置の概 念を学習するこれらの手法では,事前に参照点となるオブジェ クトの候補を予め用意しておくために,オブジェクト検出プロ セスが必要となることが欠点であると言える.そこで,本稿で は,オブジェクト検出プロセスを必要としない参照点に依存し た動作の認識法として,Long-term Recurrnet Convolutional 連絡先:岩橋直人,岡山県立大学情報工学部,岡山県総社市窪
木111,0866-94-2001,[email protected]
図1: 参照点に依存した動作の例
図2: LRCNによる動作概念認識プロセスの概要
Networks (LRCN) [Donahue 15]を試み,その性能を評価した.
2. LRCN
LRCNによる動作の認識プロセスの概略は図2のとおり である.LRCNは,二種類のニューラルネットワークから構 成されるディープニューラルネットワークである.1つ目は,
Convolutional Neural Network (CNN)であり,入力動画像 情報を直接処理し低次元の特徴量を抽出する.2つ目は,Long Short-Term Memory (LSTM)により構成されるRecurrent Neural Networkであり,CNNの出力の時間構造を学習する.
これら全体のネットワークのパラメータが学習データに基づい て同時に学習される.
3. 実験
LRCNによる参照点に依存した動作の認識性能を実験によ り評価した.
3.1 データ
人間が卓上のオブジェクトを操作する様子を,RBGセンサー を用いてフレームレート30f psで収録し,実験用動画像デー タとした.比較評価のために,参照点に依存しない動作と参照
1
The 31st Annual Conference of the Japanese Society for Artificial Intelligence, 2017
4D2-OS-37d-2in2
図3: もちあげる の例 図4: さげる の例
図5: まわす の例
図6: ちかづける の例 図7: はなす の例
図8: のせる の例 図9: とびこえさせる の例
点に依存する動作を行い,以下の二つのデータベースを作成 した.
データベースA: 参照点に依存しない動作として, もちあげ る , さげる , まわす の3種類を,始点や終点の位 置などをさまざまに変えて20回ずつ行い計60の動画像 を収録した.各動画像中にあるオブジェクトの1個であ る.収録した動作の例を図3,4,5に示す.
データベースB: 参照点に依存した動作として, ちかづける , はなす , のせる , とびこえさせる の4種類を,
トラジェクターとランドマークの関係をさまざまに変え て20回ずつ行い,計80の動画像を収録した.各動画像 中にあるオブジェクトは2個である.収録した動作の例 を図6,7,8,9に示す.
3.2 条件
以下の三つの条件で実験を行った.
実験1 データベースAの中の各動作から16個ずつの動画像,
計48個をランダムに選択し,これを学習データとし残り の4個ずつの動画像,計12個をテストデータとした.
実験2 データベースBの中の各動作から16個ずつの動画像,
計64個をランダムに選択し,これを学習データとし残り の4個ずつの動画像,計16個をテストデータとした.
実験3 実験1と2の学習データを合わせた計112個の動画像 を学習データをし,実験1と2のテストデータを合わせ た計28個の動画像をテストデータとした.
3.3 結果と考察
実験結果は表1の通りである.まず,LRCNの学習が適切 に行えたかを検証する.学習データ数が少ないため過学習と なることを危惧していた.しかし,すべての実験における学習 データとテストデータの動作認識率の差はそれほど大きくなら ず,大きな問題になるほどの過学習が起きなかったと言える.
次に,参照点に依存した動作の認識が適切に行えたかを検 証する.実験1と実験2の動作認識率の差が小さかったことに より,参照点に依存した動作の認識が,参照点に依存しない動 作の認識と同程度の性能で実現できる可能性を示している.し かしながら,実験3の動作認識率が,実験1,2に比べ,大幅 に低くなっている.原因はまだ明らかではないが,訓練データ の動作認識率も低いことから,学習過程においてなんらかの問 題があったのではないかと考えられる.
表1: 動作認識率(%)
実験1 実験2 実験3 学習データ 98 97 54 テストデータ 86 81 50
4. まとめ
LCRNを用いた参照点に依存した動作の認識の性能を評価 した.良好な性能が得られる可能性を示すとともに,本手法の 問題点も明らかにした.
謝辞
本研究は,JSPS科研費15K00244,および,JST CREST
「記号創発ロボティクスによる人間機械コラボレーション基盤 創成」の助成を受けて実施したものである.
参考文献
[Donahue 15] Donahue, J. et al.: Long-term Recurrent Convolutional Networks for Visual Recognition and Description, inProc. Conf. Computer Vision and Pat- tern Recognition, pp.2625-2634 (2015)
[羽岡00] 羽岡哲郎, 岩橋直人: 言語獲得のための参照点に依 存した空間的移動の概念の学習,電子情報通信学会技術研 究報告, PRMU2000-105, pp.39-46 (2000)
[Nakamura 16] Nakamura, T. et al.: Continuous Motion Segmentation Based on Reference-Point-Dependent GP-HSMM, in Proc. IROS Workshop on Machine Learning Methods for High-Level Cognitive Capabili- ties in Robotics(2016)
[Regier 96] Regier, T.: The Human Semantic Potential - Spatial Language and Constrained Connectionism, The MIT Press (1996)
[田口14] 田口亮 他: SIGVerseを用いた語彙学習シミュレー ション,人工知能学会全国大会(2014)
[山梨00] 山梨正明: 認知言語学原理,くろしお出版, 2000.
2