まずN クウィーンのプログラムを手動で変換して評価し,その結果をふまえてさらに
自動ベクトル化処理系を開発して評価した.6.6.1 節では手動ベクトル化による評価結果,
6.6.2 節では自動ベクトル化による評価結果をしめす.
6.6.1 手動ベクトル化による評価
われわれは,6.3 〜6.4 節でしめした論理型言語LIL のインタプリタをPrologで作成 して,N クウィーンのプログラムなどのベクトル化後のプログラムの動作をたしかめた.
また,N クウィーンのプログラムをFortranとPascalとに手動で変換し,Fortran部分 をベクトル・コンパイラでコンパイルしたうえ実行時間を測定した.なお,この実行系 にはガベジ・コレクタは実装していない.測定結果はすでに第3 章でしめしたが,表 6.1 に再掲する.18 〜19 ms の実行時間は,推論速度に換算すると4.5 MLIPS (Million Logical Inference Per Second)となる注5.
表6.1 からつぎのようなことがわかる.
(1)マスク演算方式,インデクス方式,圧縮方式のいずれも,エイト・クウィーン問題の プログラムの実行においては性能上ほとんど差はない.
(2)この性能は第2 章でしめした配列を基本データ構造とするエイト・クウィーンのプロ グラムの約半分である.
(3)いずれの方式もS-810 においては,同一プログラムのスカラ処理に対するベクトル処 理の加速率は8 〜9 倍である.
表6.1 ベクトル計算機S-810 むきにハンド・コンパイルした
エイト・クウィーン問題のプログラムの実行性能 プログラムの版
(主要な条件制御方式)
S-810
ベクトル処理時間(ms)
S-810
スカラ処理時間(ms) 加速率
マスク演算版 18 167 9.3
インデクス版 18 140 7.8
圧縮版 19 160 8.4
エイト・クウィーンの実行における実行時間のうちわけを図6.11 にしめす.図6.11 からつぎのようなことがわかる.
(1)いずれの方式においても,ベクトル要素が空リスト[] かどうかの判定(図中ではnil
注6Fortran で記述したためのオーバヘッドの例としては,シフト命令を生成することをうまく指示してや れないためにリストの分解においてベクトル除算命令が実行されてしまうことなどがあげられる.
判定) とリストの分解(car, cdr), 合成(cons) の実行比率がたかい(ベクトル処理のばあ いで40 % 程度).
(2)いずれの方式においてもリスト合成の加速率はひくい.これは,第3 章でしめした結 果にも一致している.
(3)ベクトルの複写・併合の実行比率は,マスク演算方式とインデクス方式においては数
% 程度,圧縮方式においては20% 程度である.
このように実行時間のうちわけが各方式によってことなることから,結果としていずれ の方式も実行時間の総和がほぼひとしくなったのは,エイト・クウィーン問題のプログ ラムにおける偶然にすぎないことがわかる.
これらの結果をもとにして考察すると,つぎのようなことがいえる.
(1)上記の結果には,Fortran で記述したことなどによるオーバヘッドがふくまれている ので,目的プログラムの最適化をはかれば,エイト・クウィーン問題の全解探索がS-
810 において10 ms 以下で実行できると期待することができる注6.
(2)リスト版N クウィーンの性能が第2 章でしめした配列版N クウィーンの約半分にと
どまっているのは,上記のオーバヘッドがあること,リスト・ベクトル(インデクス・
ベクトル) を多用しているために,逐次アクセスのばあいとくらべて主記憶とベクト ル・レジスタとのスルー・プットが減少していることなどがおもな理由だとかんがえ られる.
(3)マスク演算方式とインデクス方式とにおいては,N クウィーンにおいてはベクトルの 複写・併合は顕著なオーバヘッドになっていない.しかし,圧縮方式においてはオー バヘッドになっている.第2 章における配列版のプログラムにおいては配列複写・圧 縮の実行比率が40 % 以上であり,オーバヘッドになっている.これにくらべて,マ スク演算方式とインデクス方式とにおいては,データ構造のよりおおくの部分をプロ セス間で共有するようにしているため,オーバヘッドとなっていないのだとかんがえ られる.
なお,リスト合成の加速率に関しては第2 章ですでに考察したので,ここではくりかえ さない.
リスト演算 46.7 % nil 判定・分解 (car, cdr) 44.1 %
他 9.0 % スカラ処理
スカラ処理
スカラ処理 ベクトル処理
ベクトル処理
ベクトル処理 (1) マスク演算方式
(2) インデクス方式
(3) 圧縮方式
他 38.0 % 複写・併合 6.4 %
合成 (cons) 8.3 % nil 判定・分解 31.0 %
リスト演算 39.3 %
他 12.0 % リスト演算 60.5 %
nil 判定・分解 (car, cdr) 55.6 %
合成 (cons) 2.6 % 複写・併合 6.0 %
複写・併合 3.8 % 合成 (cons) 4.9 %
リスト演算 44.2 % nil 判定・分解 32.4%
合成 (cons) 11.8 %
他 25.0 % 複写・併合 6.1 %
リスト演算 43.6 %
リスト演算 34.4 %
nil 判定・分解 (car, cdr) 32.4% 合成 (cons) 10.2 % nil 判定・分解 39.4%
他 28.0 % 合成 (cons) 4.2 %
複写・併合 28.4 %
他 3.5 %
複写・併合 25.4 %
比較・四則演算 38.3 %
比較・四 則演算
16.3 %
比較・四則 演算 23.7 %
比較・四則 演算 24.7 %
比較・四則 演算 24.5 %
比較・四 則演算
12.2 %
図 6.11 ベクトル化後のエイト・クウィーンの実行における各種の演算の実行比率
6.6.2 自動ベクトル化処理系の試作による評価
さらに,この章でしめした手順にしたがってベクトル化をおこない,マスク演算方式 によるベクトル化後のプログラムを(LIL ではなく) Lispの構文・意味にしたがって出力 する自動ベクトライザを作成した.また,自動ベクトライザが出力するLispプログラム を,ベクトル計算機S-810 のベクトル命令をふくむライブラリ・プログラムをよびだす 目的プログラムに変換するコード生成系およびその実行系をLisp上に作成した.処理系
注7そのかわり,並列バックトラック計算法にもとづいて中間語を解釈して逐次MッMッ
実行するシミュレータを Prolog上に作成した.
じたいについては第8 章でのべる.
図6.1 にしめしたN クウィーンのPrologプログラムをこの処理系で翻訳して実行し,
動作を確認した.その結果,エイト・クウィーンで2.6 MLIPS の実行速度をえた.最適 化が不十分なため,自動変換したプログラムは手動変換したものにくらべて低速だが,
改良すれば,後者をうわまわる実行速度をえることも可能であろう.
なお,6.5 節でしめした並列バックトラック化により生成されたプログラムの実測によ る性能評価はおこなっていない注7.しかし,みつもりによると,完全OR ベクトル計算 法にくらべた並列バックトラック計算法のオーバヘッドは約1 % という結果がえられて いる.みつもりの根拠はつぎのとおりである.まず,エイト・クウィーン問題のプログ ラムの完全OR ベクトル計算法による実行時間は18 ms である.並列バックトラックの オーバヘッドを概算した結果,1 回のバックトラックにつき20 µs となった.エイト・ク ウィーンのばあいのバックトラック回数は10 回以下であるから,オーバヘッドの総計は
約0.2 ms とみつもられる.これは全実行時間の約1 % である.したがって,並列バック
トラック化においても完全OR ベクトル化と同程度の高い性能がえられるとかんがえら れる.