視覚情報処理（Visual Image Processing

(1)

2014 年度研究室紹介

視覚情報処理

（ Visual Image Processing)

情報理工学科川中研究室

多次元信号処理

視覚パターンの表現

視覚パターンの認識

画像・映像符号化個人の認証、製品検査

CG, 人工現実感生成マシンビジョン（自動運転，ロボット）

視覚情報処理

映像：R(x,y,t)

G(x,y,t) B(x,y,t)

(2)

ＤＣＴ基底画像

（周波数パターン）

離散コサイン変換

（ DCT ）

（入力画像）

転送データ（ジグザグ走査）

：０ラン長と非零成分の振幅

多次元信号処理例： JPEG 符号化

容量：６ MB

現フレームのマクロブロック

（16x16画素）

前フレームの対応ブロック

現在のフレーム前のフレーム

検索範囲

予測画像：前フレームと動きベクトル転送データ：動きベクトルと予測誤差画像

映像認識の応用例： MPEG 動画像符号化

(3)

３次元形状の取得

(a) スリット光を用いる計測システム

の構成 (b) 距離データの例

光源スリット回転鏡

レンズ

対象物体

テレビカメラ

レンジデータと法線ベクトル

レンジデータの輝度変調表示法線ベクトルのX方向成分 z

θ

(4)

３次元形状のポリゴンメッシュ表現

2 3

10 11

13

15 14

7 9

8

1 4

6 5

0

12

16

連結情報

幾何情報

VRML形式

ポリゴンの各頂点の座標値

特性情報

色情報・法線情報

x

₀

,y

₀

,z

₀

x

₁

,y

₁

,z

₁

：

１つのポリゴンを構成する頂点番号

0,1,2,-1

0,2,3,-1 ：

r

₀

,g

₀

,b

₀

r

₁

,g

₁

,b

₁

：

リメッシングを用いたポリゴンメッシュ符号化

構造化例

2 次元画像の圧縮技術を適用するためにポリゴンメッシュの頂点を 2 次元平面上に割り当てる

オリジナルメッシュを縮退して、ベースメッシュを構造化構造化

縮退

一周ずつ外側の頂点列を構造化し、全ての頂点を構造化する

連結数最大の頂点を開始頂点と決定

開始頂点に隣接する頂点列を構造化

前の層と隣接する未処理の頂点列を同様に構造化、第１層と同じ方向で頂点を構造化していく

s : 層番号 k : 頂点番号系列 v ( s,k ) : 頂点番号テーブル

0

1 2

8

10 7

9 5 4

3

24 23 17 6

13 12

14 15 18 16

1 1

19

20 21

22 25

k

s 7

13 14 15 16 17 12 4 3

2 1 6 9 10 11 8

25

19 20 21 22 23 24 18

0 5

v ( s , k )

第０層第１層第２層第３層第４層

階層的に構造化データを拡大していく

(5)

IV. 実験結果

] dB peak [ log 20

PSNR ₁₀

D rms

=

peak : the diagonal length of the bounding box

D _rms: root mean square error

TAGC : adapted in MPEG - 4

TG : widely used as a benchmark

TG coder, MPEG - 4 はオリジナルメッシュを符号化

構造化したベースメッシュの細分割を 4 回行った

proposed scheme 2.06 bpv

74.1 dB

MPEG - 4 4.78 bpv

51.3 dB

“ re_venus ” 128002 vertices

“ venus_base ” 502 vertices

“ venus ” 134345 vertices

“Isis”

(vertices) 187644 → 662 →168962“venus”

球面とxyz軸の交点を初期頂点とする。これらを結ぶ円弧によって球面を8個の曲面に分割する。次に分割した各曲面に対し、各曲面の境界をなす円弧を3等分し得られた頂点を1次対応視線の候補の頂点とする。

y x

z z

x

y

(a) 球面の分割 (b) 各曲面に対する 1 次対応視線の候補の頂点 (c) 候補より作成したレンダリング画像の例 (?,?)

各頂点から原点に向かう視線を考え、これを1次対応視線の候補とする。これらの視点に対して作成したレンダリング画像とクエリ画像との一致度を求めることを考える。

レンダリング画像をクエリとして用いる

3D モデル検索

(6)

辞書モデル:bunny query:bunnyの右半身損

従来法提案法

s* 0.835044 1.049944 θ* 186.29 264.88 φ* 122.34 79.67

γ* -59.01 0.00

corr 0.691947 0.847412

従来法

query

辞書画像

提案法

query

辞書画像

モデルbunnyの右半身が欠損しているモデルから得られるクエリ画像が与えられた時、辞書モデル bunnyからクエリが得られた視線の方向とスケーリング値を推定できているかを比較評価した。

クエリがθ=265°,φ=80°,γ=0°,スケーリング値s=1.05で得られた時、両手法から推定される辞書モデルbunnyの視線方向θ*,φ*,γ*とスケーリング値s*，相関係数値corrを示し、推定された視線方向より得られたbunnyのレンダリング画像を示す。

慣性主軸を用いる方法と提案法の比較実験

3次元モデルの幾何変換を考慮した検索

 





= 

S z y x

S z y z x

y x

f 0 ( , , ) ) , , ( ) 1

, ,

( L

L



 

 





 

 

 -

 =

 

 



= 

- ^

t u y

x

dt v y x f v

u p

q q

q

cos sin

sin cos

) , , ( )

, , (

3 次元モデルとプロジェクションを以下のように定義する。

S

_{：曲面状の点の集合}

白に近い領域：表面が多く存在

(7)

結果

入力モデル

補正後の入力モデル

辞書モデル

補正後の辞書モデル

プロジェクションのサイズ：

512

×

512

角度の刻み幅：

10

° 近傍での刻み幅：

1

°

Rotatio n and Scaling

value

feline No tail No feather

No feathers

x axis 30.00 29.72 29.72 29.48 29.48 y axis 30.00 19.67 18.95 19.50 19.50 z axis 30.00 26.70 26.63 25.76 25.76

Scaling 1.15 1.14 1.14 1.16 1.16

C 0.9358 0.9439 0.9131 0.9075

推定された3次元パラメータとファクター

ステレオマッチング法におけるスパース性に基づいた視差の推定

14

近年、様々な分野で3Dモデルの利用が増加している。

映画、ゲーム、バーチャルショッピング

ステレオマッチング法

利点－3Dモデルの凹凸形状が表現できる。

欠点－大きな誤差が生じやすい。

凹凸表現が可能なステレオマッチング法による3D形状推定のアプローチを用い、その欠点を克服する新しい手法を提案することで、これまでよりもリアルな3Dモデルを生成する。

スパース性に基づいた修正処理

(8)

ステレオマッチング法の問題点

15

問題点

ステレオマッチング法での視差推定では誤推定を生じることが多く、

3D

形状を大きく崩してしまう。

解決策

ステレオマッチング法によって得られた視差データをスパース性に基づいて修正していく。

スパースでないスパース信号のスパース性

実際の視差は、雑音のない多くの自然界の信号と同様にスパース性を持っていると考えることもできる。

実験結果

16

従来法

E

：

10.01 [%]

PSNR ：25.22[dB]

E

：

9.35 [%]

PSNR ：28.68[dB]

提案法

3

次元形状

3次元形状

(9)

Camera image Camera image

3D model- based image

q1

f f

q2

) (

1

f

_{q }D_q ) (

2

f

_q_D_q

3D 形状モデルを利用した多視点画像生成

3次元形状モデルと撮影画像

を用いた多視点画像モデルの生成

課題 : 鏡面反射成分の生成

３Ｄモデルを用いた画像生成法により、いくつかの撮影画像を用いて任意視点方向の画像が生成される。しかし、このモデル生成画像は視点方向に輝度値が依存しない拡散反射成分は再現されるが、視点方向に依存して輝度が著しく変化する鏡面反射成分は正しく表現されない場合がある。

鏡面反射成分追跡を用いた画像生成

撮影画像

モデル生成画像

q1

f

q2

f

) (

1

fq Dq

) (

2

f

_qD_q

生成画像反射成分にずれが生じる

(10)

撮影画像

モデル生成画像鏡面反射追跡による生成画像

q1

f

^{３Dモデル} ^撮影画像

f

q2

入力データ

撮影画像

（生成画像方向）

原画像出力データ

実験結果

適応的ブロック分割モデル

（λ=100)

任意形状画像への電子透かしの埋め込み

画像信号形状マスク

任意形状画像：形状マスクと画像信号から形成電子透かし埋め込み：

SA-WTによる高周波成分の分離

高周波成分への透かし情報の埋め込み埋め込み画像の同定：

任意形状画像特徴に基づく画像認識

(11)

車載ビデオ画像デモ 0wisdeView.exe

車載ビデオカメラ画像からの領域抽出

道路平面、対向車、通行人の認識ナビゲーションシステムへの応用

映像からのオブジェクト認識

3次元モデル・撮影画像の取得にKONOKA MINOLTA製のVIVID910を使用している。

VIVID910は光切断法によって3次元情報を取得する。このVIVID910を取り付けた撮

像システムを回転させることにより、対象物体の距離画像列および全周画像列を取得している。この距離画像列を位置あわせ・統合することにより3次元モデルを得ることができる。

撮影環境

VIVID910

(12)

連絡先

電子メール [email protected]

URL http://pweb.cc.sophia.ac.jp/aklab

研究室市本館 ― ３１０

・研究内容、進路、就職分野

視覚情報処理 （Visual Image Processing

2014 年度研究室紹介

視覚パターンの 認識

ＤＣＴ基底画像

多次元信号処理例： JPEG 符号化

現フレームのマクロブロック

現在のフレーム 前のフレーム

(a) スリット光を用いる計測システム

光源 スリット 回転鏡

レンジデータと法線ベクトル

0

連結情報

ポリゴンの各頂点 の座標値

特性情報

色情報・法線情報

レンダリング画像をクエリとして用いる

従来法 提案法

従来法

慣性主軸を用いる方法と提案法の比較実験

白に近い領域： 表面が多く存在

プロジェクションのサイズ：

ステレオマッチング法における スパース性に基づいた視差の推定

近年、様々な分野で3Dモデルの利用が増加している。

凹凸表現が可能なステレオマッチング法による3D形状推定の アプローチを用い、その欠点を克服する新しい手法を提案する ことで、これまでよりもリアルな3Dモデルを生成する。

ステレオマッチング法の問題点

問題点

スパースでない スパース 信号のスパース性

実験結果

従来法

PSNR ：25.22[dB]

提案法

3次元形状

課題 : 鏡面反射成分の生成

鏡面反射成分追跡を用いた画像生成

撮影画像

入力データ

実験結果

画像信号 形状マスク

任意形状画像 ： 形状マスクと画像信号から形成 電子透かし埋め込み ：

車載ビデオカメラ画像からの領域抽出

撮影環境

・ 研究室見学 ： 随時

視覚情報処理（Visual Image Processing

視覚パターンの認識

現在のフレーム前のフレーム

光源スリット回転鏡

ポリゴンの各頂点の座標値

従来法提案法

白に近い領域：表面が多く存在

ステレオマッチング法におけるスパース性に基づいた視差の推定

凹凸表現が可能なステレオマッチング法による3D形状推定のアプローチを用い、その欠点を克服する新しい手法を提案することで、これまでよりもリアルな3Dモデルを生成する。

スパースでないスパース信号のスパース性

画像信号形状マスク

任意形状画像：形状マスクと画像信号から形成電子透かし埋め込み：

・研究室見学：随時