2014 年度研究室紹介
視覚情報処理
( Visual Image Processing)
情報理工学科 川中研究室
多次元信号処理
視覚パターンの 表現
視覚パターンの 認識
画像・映像符号化 個人の認証、製品検査
CG, 人工現実感生成 マシンビジョン(自動運転,ロボット)
視覚情報処理
映像:R(x,y,t)
G(x,y,t) B(x,y,t)
DCT基底画像
(周波数パターン)
離散コサイン変換
( DCT )
(入力画像)
転送データ(ジグザグ走査)
: 0ラン長と非零成分の振幅
多次元信号処理例: JPEG 符号化
容量:6 MB
現フレームのマクロブロック
(16x16画素)
前フレームの 対応ブロック
現在のフレーム 前のフレーム
検索範囲
予測画像 : 前フレームと 動きベクトル 転送データ : 動きベクトルと 予測誤差画像
映像認識の応用例: MPEG 動画像符号化
3次元形状の取得
(a) スリット光を用いる計測システム
の構成 (b) 距離データの例
光源 スリット 回転鏡
レンズ
対象物体
テレビカメラ
レンジデータと法線ベクトル
レンジデータの輝度変調表示 法線ベクトルのX方向成分 z
θ
3次元形状のポリゴンメッシュ表現
2 3
10 11
13
15 14
7 9
8
1 4
6 5
0
12
16
連結情報
幾何情報
VRML形式
ポリゴンの各頂点 の座標値
特性情報
色情報・法線情報
x
0,y
0,z
0x
1,y
1,z
1:
1つのポリゴンを 構成する頂点番号
0,1,2,-1
0,2,3,-1 :
r
0,g
0,b
0r
1,g
1,b
1:
リメッシングを用いたポリゴンメッシュ符号化
構造化例
2 次元画像の圧縮技術を適用するためにポリゴンメッシュの頂点を 2 次元平面上に割り当てる
オリジナルメッシュを 縮退 して 、 ベースメッシュ を 構造化 構造化
縮退
一周ずつ外側の頂点列を構造化し、全ての頂点を構造化する
連結数最大の頂点を 開始 頂点 と決定
開始頂点に 隣接する頂点 列 を構造化
前の層と隣接する未処理の頂点列 を同様に構造化、第1層と 同じ方 向 で頂点を構造化していく
s : 層番号 k : 頂点番号系列 v ( s,k ) : 頂点番号テーブル
0
1 2
8
10 7
9 5 4
3
24 23 17 6
13 12
14 15 18 16
1 1
19
20 21
22 25
k
s 7
13 14 15 16 17 12 4 3
2 1 6 9 10 11 8
25
19 20 21 22 23 24 18
0 5
v ( s , k )
第0層 第1層 第2層 第3層 第4層
階層的に構造化データを拡大 していく
IV. 実験結果
] dB peak [ log 20
PSNR 10
D rms
=
peak : the diagonal length of the bounding box
D rms : root mean square error
TAGC : adapted in MPEG - 4
TG : widely used as a benchmark
TG coder, MPEG - 4 はオリジ ナルメッシュを 符号化
構造化したベースメッシュの 細分割を 4 回行った
proposed scheme 2.06 bpv
74.1 dB
MPEG - 4 4.78 bpv
51.3 dB
“ re_venus ” 128002 vertices
“ venus_base ” 502 vertices
“ venus ” 134345 vertices
“Isis”
(vertices) 187644 → 662 →168962“venus”
球面とxyz軸の交点を初期頂点とする。これらを結ぶ円弧によって球面を8個の曲面に分割する。次に分割 した各曲面に対し、各曲面の境界をなす円弧を3等分し得られた頂点を1次対応視線の候補の頂点とする。
y x
z z
x
y
(a) 球面の分割 (b) 各曲面に対する 1 次対応視線の候補の頂点 (c) 候補より作成したレンダリング画像の例 (?,?)
各頂点から原点に向かう視線を考え、これを1次対応視線の候補とする。これらの視点に対して作成したレンダリン グ画像とクエリ画像との一致度を求めることを考える。
レンダリング画像をクエリとして用いる
3D モデル検索
辞書モデル:bunny query:bunnyの 右半身損
従来法 提案法
s* 0.835044 1.049944 θ* 186.29 264.88 φ* 122.34 79.67
γ* -59.01 0.00
corr 0.691947 0.847412
従来法
query
辞書画像提案法
query
辞書画像モデルbunnyの右半身が欠損しているモデルから得られるクエリ画像が与えられた時、辞書モデル bunnyからクエリが得られた視線の方向とスケーリング値を推定できているかを比較評価した。
クエリがθ=265°,φ=80°,γ=0°,スケーリング値s=1.05で得られた時、両手法から推定される辞書モ デルbunnyの視線方向θ*,φ*,γ*とスケーリング値s*,相関係数値corrを示し、推定された視線方向よ り得られたbunnyのレンダリング画像を示す。
慣性主軸を用いる方法と提案法の比較実験
3次元モデルの幾何変換を考慮した検索
=
S z y x
S z y z x
y x
f 0 ( , , ) ) , , ( ) 1
, ,
( L
L
-
=
=
- t u y
x
dt v y x f v
u p
q q
q q
q
cos sin
sin cos
) , , ( )
, , (
3 次元モデルと プロジェクション を以下の ように定義する。
S
:曲面状の点の集合白に近い領域: 表面が多く存在
結果
入力モデル
補正後の入力モデル
辞書モデル
補正後の辞書モデル
プロジェクションのサイズ:
512
×512
角度の刻み幅:10
° 近傍での刻み幅:1
°Rotatio n and Scaling
value
feline No tail No feather
No feathers
x axis 30.00 29.72 29.72 29.48 29.48 y axis 30.00 19.67 18.95 19.50 19.50 z axis 30.00 26.70 26.63 25.76 25.76
Scaling 1.15 1.14 1.14 1.16 1.16
C 0.9358 0.9439 0.9131 0.9075
推定された3次元パラメータとファクター
ステレオマッチング法における スパース性に基づいた視差の推定
14
近年、様々な分野で3Dモデルの利用が増加している。
映画、ゲーム、バーチャルショッピング
ステレオマッチング法
利点-3Dモデルの凹凸形状が表現できる。
欠点-大きな誤差が生じやすい。
凹凸表現が可能なステレオマッチング法による3D形状推定の アプローチを用い、その欠点を克服する新しい手法を提案する ことで、これまでよりもリアルな3Dモデルを生成する。
スパース性に基づいた修正処理
ステレオマッチング法の問題点
15
問題点
ステレオマッチング法での視差推定では誤推定 を生じることが多く、
3D
形状を大きく崩してしまう。解決策
ステレオマッチング法によって得られた視差データをスパース性に基づい て修正していく。
スパースでない スパース 信号のスパース性
実際の視差は、雑音のない多くの自然界 の信号と同様にスパース性を持っていると 考えることもできる。
実験結果
16
従来法
E
:10.01 [%]
PSNR :25.22[dB]
E
:9.35 [%]
PSNR :28.68[dB]
提案法
3
次元形状3次元形状
Camera image Camera image
3D model- based image
q1
f f
q2) (
1
f
q Dq ) (2
f
qDq3D 形状モデルを利用した多視点画像生成
3次元形状モデルと撮影画像
を用いた多視点画像モデル の生成課題 : 鏡面反射成分の生成
3Dモデルを用いた画像生成法により、いくつかの撮影画像を用いて任意視 点方向の画像が生成される。しかし、このモデル生成画像は視点方向に輝 度値が依存しない拡散反射成分は再現されるが、視点方向に依存して輝度 が著しく変化する鏡面反射成分は正しく表現されない場合がある。
鏡面反射成分追跡を用いた画像生成
撮影画像
撮影画像
モデル生成画像
モデル生成画像
q1
f
q2
f
) (
1
fq Dq
) (
2
f
qDq生成画像 反射成分にずれが生じ る
撮影画像
モデル生成画像 鏡面反射追跡による 生成画像
q1
f
3Dモデル 撮影画像f
q2入力データ
撮影画像
(生成画像方 向)
原画像 出力データ
実験結果
適応的ブロック 分割モデル
(λ=100)
任意形状画像への電子透かしの埋め込み
画像信号 形状マスク
任意形状画像 : 形状マスクと画像信号から形成 電子透かし埋め込み :
SA-WTによる高周波成分の分離
高周波成分への透かし情報の埋め込み 埋め込み画像の同定 :
任意形状画像特徴に基づく画像認識
車載ビデオ画像デモ 0wisdeView.exe
車載ビデオカメラ画像からの領域抽出
道路平面、対向車、通行人の認識 ナビゲーションシステムへの応用
映像からのオブジェクト認識
3次元モデル・撮影画像の取得にKONOKA MINOLTA製のVIVID910を使用している。
VIVID910は光切断法によって3次元情報を取得する。このVIVID910を取り付けた撮
像システムを回転させることにより、対象物体の距離画像列および全周画像列を取得 している。この距離画像列を位置あわせ・統合することにより3次元モデルを得ることが できる。撮影環境
VIVID910
連絡先
電子メール [email protected]
URL http://pweb.cc.sophia.ac.jp/aklab
研究室 市本館 ― 310
・ 研究内容、進路、就職分野