jido heiretsuka konpaira ni okeru deta rokaraizeshon ni kansuru kenkyu

(1)

?･稲田大学審査学位論文（溥七）

①二心

Kodak

Color

Control

Patches

Koclak

Gray

Sca一の

Ｓ ‘ r x ］ ω ４ひ 1 ( 7 )

Ｍ８

-5 Kodak｡2007 TM:K)dak O Kodak.2007 TM:Kodak − ; ' i ￥ｆｉｌＩＳＸａｌ

(2)

Ｗ - - 四

自動並列化コンパイラにおける

データローカライゼーションに関する研究

早稲田犬学犬学院理上学研究科アドバンスト電気工学専攻コンピューテすングシステム研究

古田明正

1996年３月

(3)

１序論 1.1 本研究の背景と目的１２本論文の概要 ‥ ２マルチプロセッサシステム用の自動並列化コンパイラ 2､1 まえがき 2.2 マルチグレイン並列処理 2.21 マクロデータフロー処理（粗粒度並列処理）‥ 2.2.2 中粒度並列処理（ループ並列化）‥‥‥‥ 2.23 近細粒度並列処理‥‥‥ 2.3 対象マルチプロセッサシステム（ＯＳＣＡ剛のアーキテクチャ 2.3ユ OSCIARの全体構成‥・・・・・・・・・・・・・・・・ 2.3.2 PE.のハードウェア構成 ‥ 2.3.3 メモリ構成 ‥・・・・・・・ 2.3.4 マクロデータフロー処理のためのアーキテクナャサ汗ト 2.3.5 近紛粒度並列処理のためのアーキテクチャサポート . 2.4 第２章のまとめ・・・・・・・・・・・・・・・・・・・・・・・・・１ rxl Q １１１２口 □ 2石 28 訓 31 37 3D 莉 42 に

(4)

11 ３データローカライゼーションのためのループ整合分割 3.1 まえがき・・・・・・・・・・・・・・・・・・・・・・・・・・・・ ;ロデータロー-カライゼ一ンョンの概要‥・・・・・・・・・・・ 3.3 ループ整合分割・・・・・・・・・・・・・・・・・・・・・・・・ :j.よ］ルー一一プ整合分割のためのターゲットループグループの生成 ‥・・・・・・・・・・・・・・・・・・・・・・・・おロターゲ･ットルーブグループ内でのルー-ﾌﾟ聞データ依存解析 3.3.:S ター一一ゲットルーブグループ内でのループ分割‥ 3.1 第３砥のまとめ・・・・・・・・・・・・・・・・・・・・・・４マクロデータフロー処理におけるデータローカライゼーション目 1.2 １圭太がき Doanループ間データローカライゼーション・・・・・・・． ↓.2.1 ループ整合分割・・・・・・・・・・・・・・・・・・・・劃2.2 マクロタスク融合‥・・・・・・・・・・・・・・・・・ 4.2.3 融合マクロタスク内でのローカルメモリ経由データ授受コード生成 4.2.4 0S(/AR上での性能評価３ Doal]/シーケンシャルループ聞データローカライゼーション ↓3.1 シーケンシャルループを考慮したループ整合分割 . 4.3.2 パーシャルスタティックタスク割当を用いたダイナミックスケジューリングルーチンの生成・・・・・・・・・ 4.3.3 データローカライゼーショングループ内でのローカルメモリ経由データ授受コード生成・・・・・・・・・・ 4.3.4（）SCAR上での性能評価‥‥‥ 目次 45 田豹ら0 Ｊ･頷 63 卵 69 川 72 72 一一_IJ 巧 82 87 88 り3 ％ 98 目次 L｡1 第一4章のまとめ‥‥‥ ５マルチグレイン並列処理におけるデータローカライゼーション１まえがき 1n 川↓ 103 且□ − ）２マクロタスクの分割とPC･へのダイナミックスケジューリング1圓 5.2.11 ループ整合分割‥‥ 5J2 マクロタスク融合‥．川C; 川り 5.3 中粒度タスクのPCI内PEへのスタティックスケジューリング11() 5.4 近細粒度タスクのPCI内ＰＥへのスタティックスケジューリング． 5.4.1 近細粒度タスクの融合 1」2 目２ 5.4.2 近細粒度タスクのスケジューリング・・・・・・・・・. 114 5.5 データローカライゼーションのためのデータ転送コード生.成 116 55.1 ローカルメモリ経由データ授受の有効な配夕￨｣変数の検出目G 5.5.2 PC内ＰＥ聞データ転送コード生成 ‥. 5.5.3 CISMとLM間データ転送コード生成‥ り − Ｊ６０ＳＣＡＲ。ﾋでの性能評価‥‥ 弟５章のまとめ６結論 6,1 本研究により得られた成果． 6.2 今後の課題参考文献謝辞著者研究業績 117 12(j 122 125 127 118 130 131 141 143

(5)

ｎ･ F - - ･ - ㎜目次

第

１

論

１

(6)

り一

1.1 本研究の背景と目的

-弟７章序論科学技術計算用のスーパコンビュー-タは、現在、流体力学、原子物理学、気象]s測、構造解析、資源探査、原f炉のシミュレーション等の各種研究分野で使用されている。このような研究分野において要求される計算能力は、現状のスーパコンビュータよりはるかに高く、より高速なスーパコンビュータの開発が切望されている。スｰ-パコンピュータのように最高性能を追い求める計算機において、その処理速度をさらに向上させるためには、プロセッサ自体の処理速度を速くするアブローチと、複数のプロセッサを接続したマルチプロセッサシステムを構成し、並列処理IKsl91.Mlua8G.Zi(lh91j をおこなうことによって高速化をはかろうとするアプローチがある。前者の単一プロセッサの高速化によるアプローチは物理的な限界が指摘されており、近年、後者の並列処理方式によるアプローチに高い関心が寄せられている。現在、並列処理はワークステーションからスーパコンピュータにいたるほとんどのコンピュータの基本構築技術となっている。これらのコンピュータでよく使用される並列処理方式としては、マイクロプロセッサ内で命令レベルの細粒度並列処理を行うスーパスカラ方式及びVLIW方式、従来よりスーパコンピュータで使用されている演算パイプライン(ベクリレプロセッサ)方式、ミニスーパコンピュータやスーパコンピュータなどで使用されているマルチプロセッサ方式などがあげられる(T･)S11鯛。これらの処理方式で共通している特徴は、ハードウェアのもつ高い処理性能を有効に引き出すためには、ソフトウェアによる強力なサポートが必須であるという点である。特に、マルチプロセッサシステムにおいては、従来より、ハードウェアの川．本研究の背景と目的ａもつピーク性能と実際のプログラムを実行したときの実行的な性能である実効性能との間のギャップがきわめて人きいという問題点があった。このような問題が生じる原因としては、並列処理ハードウェア技術に比較し、並列処理のためのシステムソフトウェア技術が犬幅におくれていることなどがあげられる。したがって、今後ピーク性能と実効性能との間のギャップを埋め、並列処理に関する専門知識のないユーザでも並列処理システムを容易に使用できるようにするためには、並列処理のためのシステムソフトウェアを高度化させることが重要となる。マルチプロセッサシステム上での自動並列化コンパイラを用いたFormm プログラムの並列処理では、従来より、D()aH、Doa巾)ss等のループ並列化 [PdW()86､Cytr86､Poly88バvolf891が広く用いられている。しかしながら、イタレーション間にまたがる複雑なデータ依存(Lo()p(.m1シdD(ylldeu(ソやループ外への条件分岐に起因し、ループ並列化か適用できないシーケンシャルループも依然存在する。また、ループ以外の部分の並列性、例えば基本ブロック内部の並列性や、ループ、サブルーチン、及び、基本ブロック間の並列性が、有効に利用されていないという問題点もあった。このような問題点を考慮し、最近では、ループ、サブルーチン、基本ブロック等の根粒度タスク間の並列性を利用するマクロデータフロー処理(粒粒度並列処理八シーケンシャルループ内部あるいはループ外部の基本ブロックをステートメントレペル(複数命令レベル)の粒度で並列処理する近根粒度並列処理、及び、これらと従来のループ亀列化(中粒度並列処理)を階層的に組み合わせたマルチグレイン並列処理が提案されている。このマクロデータフロー処理やマルチグレイン並列処理のように、ダイナミックスケジューリングを用いて根粒度タスク(マクロタスク)を実行時にプロセッサに割り当てる方式では、従来、マクロタスク間で共有され

(7)

↓ − 〃 y 〃 r ｀ミ･ 1 第バド乍論るデータを集中共有メモリ上に配置し、マクロタスク聞のデータ転送は集中共有メモリを介して行なう方法がとられていた。このため、集中共有メモリを介した共有データのための転送オーバヘッドが大きくなってしまうという問題が生じた。一方、マルチプロセッサシステムの構成としては、従来は、集中（グローバル）共有メモリのみを持った主記憶共有型マルチプロセッサシステムや、共有メモリを全く持たない分散メモリ型マルチプロセッサシステムが主流であ-jた。しかしながら、主記憶共有型マルチプロセッサシステムに関しては、接続するプロセッサ数が32台程度に限られるといった問題点があり、また、分散メモリーマルチプロセッサシステムに関しても、共有アドレス空間がないためプログラミングが困難であり、実効性能（実際の性能）が低いといった問題点｡があった。最近では、このような問題点を解決するために、集中共有メモリと分散共有メモリとローカルメモリを持つマルチプロセッサシステム、あるいは、集中共有メモリとローカルメモリを持つマルチプロセッサシステムが普及している。このようなローカルメモリを持つマルチプロセッサシステム上で、マクロタスク間データ転送オーバヘッドを軽減し効峠良い並列処理を実現するためには、ローカルメモリを有効利用できるようにデータを迫切に分割･配置し、各プロセッサ上のローカルメモリを介したマクロタスク間データ授受を可能とすることが重要となる。以上のような背景を踏まえて、本研究では、〔1〕集中共有メモリとローカルメモリをもつマルチプロセッサシステム上でのマルチグレイン並列処理において、タスク間データ転送にプロセッサ上のローカルメモリを有効利用し、データ転送オーバヘッドの最小化を実現するデータローカライゼーション手法、特に、ローカルメモ j.j.本研究の背景と目的 1 ）リ経由データ授受を実現するためのタスク及びデータの分割渋とタスクスケジューリング渋の考案、四六いで開発された手法を用いたマルチグレイン並列処理の有効性を検証するための、マルヂプロセッサシステム用自動並列化コンパイラの開発を目的とする。

(8)

｛１．２

本論文の概要

本論文の第２瞰以降の販女を以！ ’ トー述べる。弟丿章字論第２章｜マルチプロセッサシステム用の自動並列化コンパイラ｜では、本研究の基本となるマルチグレイン並列処理のための自動並列化コンパイラについて述べる。マルチグレイン並列処理は、マクロデータフロー一処理（粗粒度並列処理）、中粒度並列処理（ループ並列化）、近細粒度並列処理を階層的に組み合わせた自動並列処理手法である。まず、マクロデータフロー処理では、ループやサブルーチン等の粗粒度タスクをマクロタスクと定義し、マクロタスク間の並列性をコンパイラが自動抽出し、マクロタスクを実行時に動的にプロセッサクラスタ（PCに割り当て並列処理を行う。次に、マクロデータフロー処理によりPCに割り当てられたマクロタスクは、 PC内部のプロセッサにより、中粒度並列処理（ループのイタレーション間での並列処理）手法、近細粒度並列処理（基本ブロック内のステートメント間での並列処理）手法、または、階層型マクロデータフロー処理手法を用いて階層的に並列処理される。本章では本コンパイラの評価に用いたマルチプロセッサシステムOSCARのアーキテクチャについても述べる。第３章Fデータローカライゼーションのためのループ整合分割￨では、マクロデータフロー処理及びマルチグレイン並列処理において、複数のループ（粒粒度タスク）間でローカルメモリ経由データ授受（データローカライゼーション）を実現するためのループ分割法について述べる。データローカライゼーションを実現するには、桂粒度並列性が十分に得られ、かつ、粒粒度タスク間でローカルメモリを介したデータ授受を行えるように、粗粒度タスク（ループ）及び配列データを分割・配置する必要がある。そこで、本章では、データ依存関係にある複数ループを、分割後に生成される部分 j.2 本論文の概要ループ間でローカルメモリを介してデータ投受か行なえる（配列データの使用範囲が等しくなる）ように分割するループ整存分割注全提案する。第４章け7クロデータフロー処理におけるデータローカライゼーション｣では、マクロデータフロー処理において、各Doallループの並列性を利用しつつ、複数ループ間でのデータ転送にローカルメモリを有効に使用し集中共有メモリを介したデータ転送オーバヘッドを軽減するデータローカライゼーション手法を提案する。具体的に本章では、Doa11ループ間を対象としたタスク融合を用いたデータローカライゼーション手法と、D()a11ループとシーケンシャルループ間を対象としたパーシャルスタティックタスク割当を用いたデータローカライゼーション手法を提案する。 D()a1ドレープ間を対象としたタスク融合を用いたデータローカライゼーション手法では、まず、第３章で述べたループ整合分割法を用いて、Doall ループ間に存在する配列変数に関するデータ依存を局所化するように、各 D()a11ループを複数の部分D()aHループに分割する。次に、分割された部分 D()aHループ間即ちマクロタスク間で多量のデータ転送が生じる可能性のある場合、データ転送をローカルメモリ経由で行なうため、それらのマクロタスク集合をコンパイル時に融合して融合マクロタスクとし、実行時にはその融合マクロタスクをダイナミックスケジューリングにより１プロセッサに割り当てる方式をとる。コンパイラは、マクロタスク融合後、融合マクロタスク内の部分Doj1ループ間で、ローカルメモリを介したデータ授受を行なうマシンコードを生成する。この際、本手法では、データローカライゼーション適用時のデータ転送時間が、集中共有メモリ経由転送の場合より短縮される配列変数だけに、データローカライゼーションを適用する。本手法はマルチプロセッサOSCAR上でインプリメントされており、実アプリケーション(C右法等)プログラムを用いたOSCAR Lでの性能評価か

(9)

６第丿章序論ら、本手法により処理時間が14あぐべ?1.G‘ﾒ(プロセッサが３ヽＧ台の場合) 短縮される等ご戸法の有効性が確認された。 L)oa]1ループとシｰ一一ケンンャルループ聞を対象としたバー-シャルスタティックタスク割当を用いたデータローカライゼーション手法では、まず、第３庫で述べたループ整合分割法を拡張し、データ依存の存在するDoa11ループとシーケンシャルループの間で配列変数に関するデータ依存を局所化するようにい各ループを複数の部分D91いレープあるいは部分シーケンシャルループに分割し、これらをマクロタスクとする。次に、多量のデータ転送を必要とするマクロタスク集合(部分D()a11ループと部分シーケンシャルループ)が実行時に同一のプロセッサに割り当てられるように、パーシャルスタティックタスク割当を用いたダイナミックスケジューリング方式を適用する。パーシャルスタティックタスク割当方式は、コンパイル時に同一プロセッサに割り当てるべきマクロタスク集合を決定し、実行時にはそれらのマクロタスク集合をダイナミックスケジューリング環境下で同一-プロセッサに低オーバヘッドでスケジューリングする方式をとる。その後、コンパイラは、実行時に同一プロセッサに割り当てられる部分DoaUループと部分シーケンシャルループの聞で、ローカルメモリを介したデータ授受を行うマシンコードを生成する。スプライン補開法のプログラムを用いた(｡)SCAR上での性能評価の結果、本手法により処理時間が19.□∼23.9･X(プロセッサが3∼6台の場合)短縮される等、その有効性が確かめられた。第５章「マルチグレイン並列処理におけるデータローカライゼーション」では、マルチグレイン並列処理において、ローカルメモリを有効に使用しデータ転送オーバヘッドを軽減するデータローカライゼーション手法を提案する。本手法では、まず、粗粒度タスクに対して第３章で述べたループ整合分割法及び第４章で述べたマクロタスク融合法を適用する。次に、マＬ?，本論文の概要りクロタスク融合により生成された融分マクロタスク内のループをプロセンサクラスタヅＯ内の複数プロセッサ付生）トで並列処理するために、中粒度タスク及び近細粒度タスクを生成し、それらのタスクをＰＬ間データ転送が小さくなるようにPC’内Pﾄ:にスケジューリングレ融合マクロタスク内部のループ問でＰＥ上のローカルメモリを毎しかデータ授受コードを生成する。マルチグレイン七月処理では、同一PCに割り当てられる融合マクロタスク内の各ループは、PC内の複数PE士｡で階層的に並列処理されるため、融合マクロタスク内のループ間では必ずしも同一PE上のローカルメモリを介してデータ授受を行えるとは限らない。そこで、本手法では、必要に応じて融合マクロタスク内部のループ間にPC内ＰＥ間データ転送コードを挿入する。ＣＧＳ法のプログラムを用いたOSCAR上での性能評価の結果、本手法により処理時間が21.5ソ（PEが６台の場合）短縮されており、手法の有効性が確認された。第６瞰「結論」では本研究で得られた成果と今後の研究課題を述べている。

(10)

ふ 5 y 一１０第７章序論

第２章

マルチプロセッサシステム用の自動

並列化コンパイラ

１ ↓

(11)

一一１２第２章マルチプロセッサシステム用の自動並列化コンパイ

2.1 まえがき

− フマルチプロセッサシステムllでの自動並列化コンパイラを用いたFom all プログラムの並列処理ではU)oa11、D()a(･r(尚等のループ善則化貼爪￣()86. にぶ川｣が従来より広く用いられている。最近のデータ依存解析匹り侶8ヽ臨爪に灯).PMV()8G｣とプログラムリストラクチャリング技術[P翁V(砺6.W(訂卵. Ball囲七W()lm6｣の進歩により、多くのタイプのＤ()ループが並列化できるようになっている。しかし、イタレーション間にまたがる複雑なデータ依存臣ool)(ﾌdrl｀i(ヽdD(ヽげndぃn(･(ヽ)や、ループ外への条件分岐に起因し、ループ並列化か適用できないシーケンシャルループも依然存在する。また、ループよりヽ外の部分の並忖‰例えば基本ブロックトhsじ州内部の並列性やヽサブルーチン、ルーブ、及び基本ブロック聞の並列性が、有効に利用されていないという問題点もあった。マルチプロセッサ上での基本ブロックあるいはシーケンシャルループの

並列処理は、VLIWUFish8L CXOP詣8. E11ぶ八iFi84バい)泣lus八洲あ

るいはスーパスカラマシンレI()uP89｣と異なりヽ命令レベルの細粘度並列処理が困難であるため、従来実現されていなかった。また、粗粘度並列処理に関しては、cnAYのマルチタスキングに見られるようにユーザがサブルーチン間の並行目ﾐを指定し、OSあるいはランタイムライブラリがそれらのタスクをプロセッサに実行時に割り当てるという方式がとられている。しかしこの方式では、(Ｂ一部のエキスパートユーザーしかサブルーチン間の並列性を抽出できないU2)条件分岐を考慮してループ間あるいはループとサブルーチン間の並列性を引き出すのはエキスパートユーザでも極めて難しい、(3)OSコールはオーバヘッドが大きく大規模なサブルーチン間の並列処理にしか有効でない等の問題点がある。２ｊ．･まえ _がき _Ｕ以上のような問題点を考慮レ最近では、ループやサブルーチン等の粗粒度タスク問の並列性をコンパイラが自動的に袖出して並列処理を行うマクロデータフロー処理平沙匹)HO[L KAYOつ]､HAOIぐ絹、及び、複数命令あるいはステートメント程度の近細粒度タスクレペルで並列処理を行う近細紋度並列処理手法匹１ＨＸり庄ＨＭＫＸ側、さらにそれらを従来のループ並列化(中紋度並列処理)手法と階層的に組み合わせたマルチグレイン並列処理判帽ＫＨＭＯ句1八州Ｘ側か提案されている。本章では、以下、2.2節で本研究の対象とするマルチグレイン並列処理について述べ、2､3節でマルチグレイン並列処理の対象とするマルチプロセッサシステム(OSCΛR)のアーキテクチャについて述べる。

(12)

､ − ﾚ1 第２章マルチプロセッサシステム用の自動並列化コンパイラ

2.2 マルチグレイン並列処理

マルチグレイン截夕￣1｣処理医ＨＭＯ刎〕1.1､aHX911は、マクロデータフロー処理(粗粒度並ﾀﾞ1)処理川H(･IKgnぶＨｌｍ〔〕ＡＡＹｏ１９１ＨＡＯＩＪ２１、中粒度並ﾀﾞI』処理(ループ並列化川PaWo86. W･11fS9. P(かぶ)、近細粒度並列処理匹dIN9〔〕.HMKN9()]を階層的に組み合わせた並列処理手法である。以下にヽマルチグレイン並列処理を実現するための各並々￨』処理手法について述べる。２．２．１マクロデータフロー処理(粗粒度並列処理) 本節では、Fo1･nJnプログラムを根粒度タスク(ループやサブルーチン等) レベルで並列処理するためのマクロデータフロー処埋けI()IIO()､NHIH圓、 NAY(トリ2､HAOK92ドこついて述べる。 2.2.1.1 マクロタスク生成本マクロデータフロー処理では、F( ｢la､nプログラムをマクロタスクと呼ぶ並列処理単位に分割する。この時、マクロタスクの粒度は、並列実行時の各マクロタスクの処理時間、プロセッサ間データ転送オーバヘッド、同期オーバヘッド、スケジューリングオーバヘッドを考慮して適切に決定しなければならないISaH(ヽ861.ここではヽマルチプロセッサシステム()SCAR(2.3節参照)でのト記オーバヘッドの大きさを考慮して、擬似代入文ブロック(Blo(･k

〔〕fPs凹do Ass㈲mlellt stat(='uヽnts: BPA)、繰り返しブロック(Rrp(ヽtition

BI･)(･k:RB)、サプルーチンブロック(Sub1･outine Blo･･k: SB)の３種類のマ

クロタスクを生成するIKAYO句2]｡

BPAは基本的には単一の基本ブロック(Basi(･BI()(･k : BBUAhSU88)であ

るが、分割された基本ブロック、あるいは、融合された基本ブロックもＢＰＡ

2.ｼﾞ．マルチグレイン並列処理

(b)Possible Parallelism obtained from basic-block-decomposition

(a)An example of a baslcblock having djsjointtaskgraphs

図2.1:基本ブロック分割によるＢＰＡ生成

(13)

１６四 ■ - I F 第２章マルチプロセッサシステム用の自動並列化コンパイフ− と定義する。例えば、基本ブロック内のステートメント間のデータ依存グラフが独とした部分グラフから構成されている場背、元の基本ブロックをそれぞれの部分グラフからなる複数のブロックに分割し、それらのブロックを賢なったBPAとして定義するトＸＹＯ句2｣｡このような基本ブロックの分割により、マクロタスク間の並列性を高めることができる。図2､10) の例では基本ブロックBL32は、ＲＢ１の後処理の部分と、ＨＢ３とＢｌｎの前処理の部分に対応する２つの部分グラフを持っている。この２つの部分グラフは互いに依存関係がないので、BB2は図2.1(b)に示すようにHB2AとＢＢ２Ｕに分割することができる。このような分割により、ＲＤ１とＢＢ２Ａからなるグループと、BB2BとRB3及びnB4からなるグループとの間の並升目ﾐを引き出すことができる。一方、条性分成文を合む基本ブロックの後続ブロックが、ダイナミックスケジューリングオーバヘッドと比較して小さい処理時間を持つ基本ブロックである場合、これらの基本ブロックを融合しBPハとする。例えば、図 2.2(削のように複数の基本ブロック(BB)があり、条件分岐文を合むBB2 の後続ブロックであるBB4とＢＢらが小ブロックである場合、条件分岐文と BB･4とBB､5を図2.2(h)に示すように１つのグループにまとめ、これを１ステートメントであるかのように扱う。このようなステートメントを擬似文 (Ps凹do St4t(ヽm(ヽ10と呼び、融合によって生｡成されたマクロタスクをBPA とする。図2､2(○の例では、BB8がBB4及びBBぶにデータ依存しているため、↓2.22節で述べるデータ転送を考慮したマクロタスク融合法により、 BB8がBB2とBB4とBB5からなるBPAに融合され１つのL3PAとなる。ＨＢはＤ()ループまたは後ろ向き条件分岐により生成される繰り返しブロック、即ち殼外側ナチュラルループLAhSし網である。但しこのような定義では、Do証いレープが１つのマクロタスクとして１つのプロセッサク 2.2.マルチグレイン並列処理｢｣｣￣4￣￣〕 Dalaflow ､.､. 1 7'‘ 瓦2 ‘' J ……… ………￣¨･゛conlrolllow

(a)A fiow graph with several small basic blocks (BBs)

ＢＰＡＢＢ / ･･ - ｿﾞﾋﾟ] 、 J/〃〃jΦ j･●･･-I≒へj｀i゛-F4-. ●■■■■■■■・・■●■■・■■● ＳＢＳＲＢ９ＢＰＡ BB3 ●■●■■■■●■■■■■■■●■●●■■■■●●・・ n A pl●uda ＢＢ６ … … … Ｑ､． BB11

ド

ＢＢ７゛Ｉ“ＩｄＩＩＩＩｉ“ＩＩ slalement

)

･

B12

（blBpAs g●nel ･●dbyluslngsmlllBBs 図2.2:基本ブロック融合による】IPA生成

(14)

1j _{第２章マルチプロセッサシステム用の自動.並列化コンパイ} − フラスクに害」り当てられてしまうため、プロセッサクラスタ内のプロセッサ数分の並列性しか利用できない。この問題を解決するために、Ｄ､ｍｎループは、分割後の各ループの処理時間がダイナミックスケジューリング時間より大きい場合に限り、複数（プロセッサクラスタ数の倍数･）の別々のD・111 ループに自動分割される。この分割によりマクロデータフロー処理におけるDoan処理を、通常のループ並列化と同様、システム中の全プロセッサを用いて行なうことができる。本コンパイラでは、Ｘイタレーションを持つ Doa11ループがある場合、このループを「.VかＵＸ：イタレーション数川」:プロセッサクラスタ数の倍数）イタレーションからなる詞固のＤ。ｄＤレープに分割する方式をとっている。但し、本論文で提案するデータローカライゼーション手法が適用される場合には、第3章で述べるループ整合分割法によりルーブ（マクロタスク）が分割される。分割により生成される部分ループは、マクロタスクとして定義される。また、サブルーチンに関しては、基本的に可能な限りインライン展開を適用するが、コード長が長くなり過ぎ、効果的にインライン展開できない場合には、そのサプルーチンをマクロタスク（SB）として定義する。SBと他のマクロタスクとの間の並列性を十分に引き出すには強力なインタプロシージャ解析旧uCy86､TtIF祗LiY･ヽ88. HMAL゛951 の技術が必要である。なお、マルチグレイン並列処理ではマクロタスク内部で、中粒度並列処理、近細粒度並列処理、あるいは、階層的にマクロデータフロー処理が行われる。マクロタスク〔ＲＢまたはSB〕内部で階層的にマクロデータフロー処理【（）ＡＭＨ加41が適用される場合には、マクロタスク内部でサブマクロタスクが生成される。 2.2 _{マルチグレイン並列処理} 2.2.1.2 マクロフローグラフ（ＭＦＧ）生成 1りコンパイラは次に、BPA、RB、SBなどのマクロタスク間のコントロールフローとデータフローを解析する。解析されたマクロタスク聞のコントロールフローとデータフローは、図2言こ示すようなマクロフローグラフ（ＭＦＯで表現される。図2.3において、芥ノードはマクロタスクを表し、ノード中の小円は、条件分岐を表している。また、ノード間の点線エッジ、実線エッジはそれぞれマクロタスク聞のコントロールフローおよびデータ依存を大している。この図中で矢印は省略されているが、エッジの方向は全て下向きであることを仮定している。また、ループを構成する後方へのエッジ（バックエッジ）はnBの定義によりＲＢ内部に含まれるため、MFcいよ一一般に無サイクル有向グラフとなる。 2.2.1.3 マクロタスクグラフ（ＭＴＧ）生成マクロフローグラフ(ＭＦＧ)はマクロタスク間のコントロールフローとデータフロー関係を陽に表したものであったが、ＭＦＧはマクロタスク間の並列性を表現していない。マクロタスク間にデータ依存関係が存在しない場合には、コントロづレ依存グラフあるいはプログラム依存グラフ匿ＯＷ問と坪ばれるグラフにより最大の並列性を表現できる[ABCけ881.しかし、マクロタスク間には、普通、データ依存関係も存在する。従って、マクロフローグラフからマクロタスク間の並列性を効果的に抽出するためには、コントロール依存とデータ依存を同時に解析しなければならない。そこで、本マクロデータフロー処理では、コントロール依存とデータ依存を考慮したマクロタスク間の最大の並列性を表わすものとして、各マクロタスクの最早実行可能条件田oIK90ぶnHX91]を用いる。マクロタスクノ･ (訂で)の最早実行可能条件とは、ＭＴ、が最も早い時点で実行可能となるか

(15)

拍第］章マルチプロセッサシステム用の自動並列化コンパイラ Dalatlow ………Conlr()I張)ｇ ○ ＢＰＡＲＢ七 ……… [石回……… ……j

ズ圧亘］

言□

Ｃりnditionalbranch Block{}fPsucdo Assignment stalements Repelition Block 一一一を・をｉ一﹄ 7……… RB ………… ﾛ壷口

二三コ二王コ

１ □こ］

………… □毎回

一図2.3:マクロフローグラフ（ＭＦＧ）ど? − ・ − マルチグレイン並列処理 2 ］めの条件である。ただし、このマクロデータフロー処理における殼ﾘ･実行可能条件は、次のような実行条件を仮定して求められる。田マクロタスクり汀,jがマクロタ｡スク,ﾊﾞ汀/いにデータ依存するならばヽ-Ｕ乃の実行が終了するまでは.U瓦･は実行を開始できない。ロレＵ石の条件分岐先が確定すれば、訂乃の実行が終了しなくても、j/71 にコントロール依存する.U71は実行を開始することができる。訂77､･の最早実行ﾛj'能条件の一般形旧(jIK9【】.KaHN911は次の通りである。〔い77､がコントロール依存する訂石が1江に分岐する〕｡4XD ㈲江がデータ依存する全てのマクロタスク訂71.の実行が終了するμ]j?(訂石が実行されないことが確定するり) 例えば、訂7;iの最早実行可能条件は次のようになる。【(い汀1が訂乃に分岐する)り刑訂乃がj仔1に分岐するn ｡4×7) ((訂T=lの実行が終了するりJ/?(MTIが訂乃に分岐する川ＡＮＤの前の条件がコントロール依存に起因する実行確定条件である。 ΛＮＤの後の条件がデータ依存に起因するデータアクセス可能条件である、即ち、このＡＮＤの後の条件は、Ｍ乃の実行が終了するか、または.U乃が実行されないことが確定すれば、.U71を実行開始してよいということである。この条件において、訂7で､を実行するということは、が丁￨が訂771にすでに分岐していることを意味し、同様に.U石を実行するということは、訂7'1 が.U7!､にすでに分岐していることを意味している。したがって、冗長な条件を省略し、簡潔な形式になおすと、

(16)

りー − − ・第２章マルチプロセッサシステム用の自動啓ﾀﾞ￨』化コンパイ

回汀頌実行がが汀するげ爪訂石が訂耶二分妓す列

− フとなる。本マクロデータフロー処理用コンパイラでは、冗長な条件を排除した最早実行可能条件を自動的に得ることができる。図2.3のマクロフロークラフトの各マクロタスクの最早実行可能条件を衣2.1に示す。最早実行可能条件における冗長な条件を排除することは、ダイナミックスケジューリングによるオーバヘッドを滅らすために重要である。 Girka1･とI九)1y(竹(出ol)o ｢()s は、この最早実行可能条件の研究結果弗)IK剛を利用レ多少変更したァルゴリズムを提案しているIGiPoり1.GiPo92]。表2ユに示される各XITの最早実行可能条件は、図2.1のようなマクロタスクグラフ(ＭＴＣ;)と坪ばれる無サイクル有向グラフで表すことができる。ＭＴＧにおいて各ノードはマクロタスクを表す。点線のエッジは拡張されたコントロール依存を示し、実線のエッジはデータ依存を表す。この拡張コントロール依存エッジは、通常のコントロール依存だけでなく、ＭＴ、のデータ依存先行マクロタスクが実行されないための条件も表わしている。ＭＴＧ中のノード内の小円を起点とするデータ依存エッジつまり実線のエッジは、コントロール依存とデータ依存の２つを同時に表している(表2.1中のらに対応)。図中のエッジを束ねている実線のアークは、そのアークによって東ねられたエッジが互いにＡＮＤの関係にあることを示す。点線のアークは、そのアークで束ねられたエッジが互いにＯＲの関係にあることを示す。ノード内の小円は、ＭＦＧと同様条件分岐を表している。このＭＴＧにおいてもエッジの向きは下向きと仮定しており、ほとんどの矢印は省略されている。矢印がついているエッジは、元のＭＦＧ上での分岐方向を表すエッジである。 2 ，つ ●− - 「マルチグレイン並々i』処理表2土最早実行可能条件の論理式表現一一‥一一一一いｊマクロタスク番号最早実行可能条件刀貼耳聡対句 MT41 冠八万八ＭＴﾏ訂八 .リ八万八〇 j7万同 MTyl が万口月割4 Λ7TI5 ≒ (隔 24V巾3 (4ハ∧凰Ｖ巾:い３Ｖ(２)￨らＶ□仙に2)IV出3 (8)9 (8)10 脳V8田 111ﾊ(9V(8‰) 1113V1112 (8)9V(8)lo 2に：が77,-の実行が終了する：万7;が訂石に分岐する：ＭＴｉ-がj77S･に分岐し訂71･の実行が終了するｊ

(17)

24 第丿章マルチプロセッサシステム用の自動並列化コンパイラ

………Extended control dependence O Conditional branch .'゛｀'･OR

ﾊAND

＞Original control now

図２よマクロタスクグラフ（ＭＴ（剥 2.j2，マルチグレイン並列処理 2.2.1.4 ダイナミックスケジューリングルーチン生成匹マクロデータフロー処理では、条件分岐やマクロタスクの実行時間の変動のような、実行時不確定性の問題に対処するため、マクロタスクを実行時にプロセッサクラスタ（P（コあるいはプロセッサ（P口に割り当てる方式をとる。このダイナミックスケジューリングは、粗粒度タスクに対して適用されるため、スケジューリングオーバヘッドは相対的に小さく抑えられる。また、本手法では、（）Sコールやランタイムライブラリを用いず、コンパイラにより生成されたダイナミックスケジューリングルーチンを使用するため、オーバヘッドをさらに小さく抑えることができる。このスケジューリングルーチンは任意のプロセッサ（PE）上で実行可能である。ダイナミックスケジューリングアルゴリズムとしてはD､･lm.nli（･-CP法旧AOK921を用いる。DyllamioCP法はスタティックスケジューリングアルゴリズムであるCP法【Kasa91.Cofr761をダイナミックスケジューリング用に拡張したものである。D､･11ami（･-CP法は、コンパイル時にマクロタスクグラフ上の各マクロタスクから出ロノードまでの最長パスが長い順にマクロタスクの割り当てプライオリティを決定し、実行時にはレディタスクの中でプライオリティの高いマクロタスクを優先的に空きプロセッサクラスタに割り当てるデータ駆動的な手法である。２．２．２中粒度並列処理(ループ並列化) マルチグレイン並列処理では、マクロデータフロー処理により実行時にプロセッサクラスタ(P(ﾝ)に割り当てられて処理される各マクロクスクに対して、そのマクロタスク内部がループ並列化(D()j1処理あるいはD()a(･ross 処理)可能な場合には、PC内部の複数プロセッサ(PE)上でループ並列化 (中粒度並列処理)を行う。以下に、中粒度並列処理手法であるD()aH処理

(18)

￢･ I ･￣･ I ･㎜ ■ I ■ = -27 囲 _{第ク章マルチプロセッ升システム用の自動並列化コンパイラ} とD,j;1,1oss処理について述べる。 2.2.2.1 Dnan処理 r)､Jill】処理IP､IWo86.Polv88.Wd｀891はヽＤ(りﾚｰ'プの各イタレー-ション (繰り返し単位lにおけるループボディの処理を中粒度タスクとして、イタレーション(中粒度タスク)間の並列性を利用する並列処理手法である詞列えば、図2.5のループは、イタレーション間にはデータ依存は無いので、イタレーションはどのような順番で実行してもよい。よって、それぞれのイタレーションを別々のプロセッサに割り当てることによって並列処理することができる。 D()I＝I.N Λ(I)＝B出十(TI川ＥＮＤＤＯ図2.5: D(jaUレープの例各プロセッサは割り当てられた複数のイタレーションの実行を終了した後、他のプロセッサとバリア同期ﾄﾞvolf881をとって次の処理に進む。各イタレーションのプロセッサヘの割当て法にはいくつかの方法が提案されている。まず、コンパイル時に割当てを決定するスタティックな方式ではづ、台のプロセッサのうちｍ番目のプロセッサに／ j -一 (八'/がＸＯ･−１)十1･･‥，mill爪V/川×･jにV〕のイタレーションを割り当てる（各プロセッサに連続したイタレーションを割り当てる）方法と、７ (/−1)jj＋･･j≦y但し／＝Ｉ‥．‥い｀圧 2.2.マルチグレイン並列処理のイタレーションを割り』1てる(各プロセッサにプロセッサ数間隔のイタレーションを割り当てる)方法が･-一般的である。一方、実行時に割当てを決定するダイナミックな方式では、セルフスケジューリング、チャンクスケジューリング、ガイデッドセルフスケジューリング、トラペソイドセルフスケジューリング、アフィニティスケジューリングなどといったいくつかのダイナミックスケジューリング手法が提案されているIPOKn87､P(ホ･88. TzNi93. Li)j94､Kasa911｡本自動並列化コンパイラでは、OS(･AR(2.3節参照1がイタレーションをダイナミックスケジューリングするためのハードウェアをもっていないとしりことと、データのローカリティを高めるという理由で、スタティックスケジューリングを用いて、同数のイタレーションを各プロセッサに割り当てる方式を採用している。 2.2.2.2 Doacross処理イタレーション間にデータ依存が存在するループの場合には、前述のD()a11 処理を適用することができない。しかし、イタレーション間で同期囲()H耽 MiPa絹を取ることによって、各イタレーションをある程度オーバラップして並列処理できる可能性がある。例えば、図2.6のDoループでは、ステートメントs1は、１回前のイタレーションのステートメントs2にデータ依存しているので、Doa11処理を行うことはできない。しかし、前のイタレーションでのステートメントs2が終了してから次のイタレーションのステートメントslを実行するように、同期コードを挿入することによって、各イタレーションを異なるプロセッサに割り当て並列処理することが可能である。このような処理をD()a(･ross処理[Cyは86､Cyt187]という。本自動並列化コンパイラでは、プロセッサクラスタ(PC)に割り当てられ

(19)

28 第フ章マルチプロセッサシステム用の自動並列化コンパイラ︱りＩリリトｈ５ＤＯＴこ2.N AiTI＝lnl･}十(jl-11 印)けＤ山＋Λ出/20 F出＝Ｄ山十５ＥＮＤＤＯ図2.6: Doa,･rosりレープの例たマクロタスクがD(ja(･msりレープの場合、まず、コンパイラは同期オーバヘッドを短縮するリストラクチャリングIPaW(湖.W(jlf891を適用し、その時のDo;l､･｡s処理時間を推定する。次に、コンパイラはDoa.('1･oss処理を適用した場合の推定処理時間と、ループボディ部に2.2､3節で述べる近細粒度並列処理を適用した場合の推定処理時間を比較し、D､s･loss処理時間が近細粒度並列処理時間より短い場合にD()a(･1･()ss処理用のマシンコードを生成する。２．２．３近細粒度並列処理マルチグレイン並列処理では、マクロデータフロー処理により実行時にプロセッサクラスタ（PC）に割り当てられて処理されるマクロタスクが、ループ並列化（中粒度並列処理）を適用できないＲ司シーケンシャルループ）あるいはBPAである場合、PC内部の複数PE上で近細粒度並列処理 IHMKN901（ステートメント聞の並列処理）を行う。以下に、近細粒度並列処理のコンパイレーション手法を述べる。 2.2.3.1 タスク生成とタスクグラフ生成基本ブロック（BPA及びシーケンシャルループのボディ部の基本ブロック）を効率よく並列処理するためには、並列性jｹﾞ士分得られ、かつ、デー 2.2.マルチグレイン並列処理 2りタ転送や同期によるオーバヘッドをできるだけ少なくなるように、基本ブロックをタスクに分割することが必要である。本論文では、OSCAIU2､3節参照)の処理能力やデータ転送能力を考慮して、近損料度タスクの粒度としてステートメントレベルの粒度を用いている。図2.7は基本ブロックの一例である。なお、この基本ブロックは、クラウト渋によるスパース行列の求解を、シンボリックジエ水レーション渋[(:j1LXV701 を用いてループフリーコードに展開して行うプログラムである。この基本ブロック内のステートメントをタスクと定義すると、タスク間にはデータ依存LP爪LJ80.Paxvo86. mn(ヽ網が存在する。データ依存すなわちタスク測の先行制約は図2.8に示すようなタスクグラフ[C研爪I妬心鯛と坪ばれる無サイクル有内グラフで表される。図2､8において、各ノードはタスクに対応しており、ノード内の数字はタスク番号、を表し、ノードの脇の数字は PE上でのタスク処理時間/､を表す。ノードｙｶヽらノードバこ向かって引かれたニッジはタスク石がタスクフうに先行するという部分的な順序制約を表す。タスク間のデータ転送も考慮する場合には各々のエッジは通常、可変の重みを持つ。この重み仁は、タスクフでとタスク万が異なるＰＨこ割り当てられた場合には、２つのタスク間のデータ転送時間となる。また、一般のプロセッサ上でのタスク処理時間は、浮動小数点演算にかかる時間がオペランドの値によって変動することがあり、必ずしも一一-定の値であるとは限らない。この問題に対しては、各演算に必要な実行時間の平均値を用いることで解決することが、実際のフルチプロセッサシステム￨こで確認されている胎べa側。しかし、ｏｓｃΛｎではヽ2.3節で述べるように各命令を１クロックで実行するRISCプロセッサを採用しているので、コンパイル時にタスクの処理時間を正確に求めることができる。

(20)

− Ｗ ¶ り ’ ● ･ r l 図2.8:タスクグラフ Task No. Task processmg time Data transfer time t ︰り割拍 _{弟ク章マルチプロセッサシステム用の自動普列代コンパイラ} ＜（ＬＵＤｅｃｏｍｐｏｓｉｔｉｏｎ．． 1）２３’ ４５６Ｕ 12 2434544555 ＵＵＩＵＩ一一一一一一一一 a12 a24 ／／ 111 122 a34 /133 ＝ a '152 ａａ一一一一 45 55 ／㎜＊ U24 144 154 ＊Ｕ 45 （（FOrward Substitution .. ｙ︲Ｎｌｎｙｙｂｊｊｊ７８９１0） ’ｌｌｉ１１ 13） c9 9 1a ｙｙｂ y5 -一一一一 -bl b2 一一一一

咄咄咄

５５ｂｂ一一一一／／一／／・／ 111 19つら＊y2 !33ＩＩＩ 44 54 55 ＊ y4 ＜＜Backward Substitution＞＞ 14)x4＝y4 − u45 ＊y5 15)x3ニｙ３ ' ｕ３４＊ｘ４１６)ｘ２＝ｙ２ ' ｕ２４＊ｘ４１７)ｘｌ ° ｙｌ ‘ ｕ１２＊ｘ２図2.7:近細粒度タスクの例 2.2.マルチグレイン並列処理 19

(21)

− ･一一 − 33 32 第:ご章マルヂプロセッサシステム用の自動笠利化コンパイラ 2.2.3.2 近細粒度タスクのスタティックスケジューリンクタスク架台をマルチプロセッサ￨で効率よ＜処理するためには、タスクのＰＥへの最適な割当て、および回一プロセッサでのタスクの最適な実行順序の決定を行わなければならない。タスクの最適な割当で、及び最適な実行順序の決定問題は、実行時間最小マルチプロセッサスケジューリング問題戸)汀爪に万引として扱うことができる。ｏｓｃＡｎコンパイラでは、スケジューリングに要する時間と生成されるスケジュづレの質の双方を考えて、データ転送時間を考慮したヒューリスティックアルゴリズムである(ﾌP/DT/MISF法

(Ｃ雨i(帽Path / Dポa Trans副づMost llmnpdiate Su(･(･(yors Fi1･st)[I仙s訪L IらHX901あるいはＤＴ／ＣＰ法(Dnut TrnnshづＣ雨i(帽Path)[FSSIぐ921を採用している。なお、近根粒度タスクのスケジューリングの詳細については、y4節で述べる。 2.2.3.3 マシンコード生成実際のマルチプロセッサ上で近細粒度並列処理を効率良く行うためには、スタティックスケジューリング結果を用いて最適な並列マシンコードを生成する必要がある。本コンパイル手法では、スケジューリング結果より帽1）タスクの実行されるPE、（2）同一のPEで実行されるタスクの実行順序、（3）タスク間で必要なデータ転送及び同期に関する情報を得る。従って、PEに割り当てられたタスクの命令列を順番に並べ、データ転送兪今や同期命令を必要な箇所に挿入することにより、各PEのマシンコードを生成することができる。 OSCAR コンパイラでは、タスク問で同期をとるためにバージョンナンノ゛一法阪田ｘ側を用い、またヽ各基本ブロックの最後の部分で同期をとるために、OSCARのハードウェアでサポートしているバリア同期命令を各PEのプログラムに挿入する。 7.ﾆ?， −一一マルチグレイン並ﾀﾞ￨』処理また、スタティックスケジューリングで得られた情報を短大限に利用してコード最適化をコンパイラが行うこともできる。例えば、あるタスクが同一のPEに割り当てられた他のタスクにデータを受け渡す際に、そのPE内のレジスタを利用することができる。このレジスタの最適利用により、実行時間は著しく短縮できる。さらに、同期を必要とするタスクや、タスク割当て、実行順序に関する情報を熟慮することで、コンパイラは匯]期のオーバヘッドを最小化することができる。

(22)

- − ＳＭ PE ｎふ1 ２．３第２噂マルヂブロセッサシステム用の自動並列化コンバイ − フ

対象マルチプロセッサシステム(ＯＳＣＡＲ)の

アーキテクチャ

マルチグレイン載列処珊.では、図2.9に示すよ引プロセッサ上にローカルメモリまたは分散共有メモリを持ち、各プロセッサがインタコネクションネットワークを介して集中共有メモリに平等に接続されているマルチプロセッサシステムを対象とする。なお、分散共有メモリを持つシステムでは、集中共有メモリがない場合にも、マルチグレイン並列処理を実現することが可能である。また、インタコネクションネットワークに関しては、ソフ?ヽウェア的にプロセッサのクラスタリングfグループ化1を容易に実現できるバス結合やクロスバ結合が望ましい。以下の節では、マルチグレイン並列処理をインプリメントし、性能評価に使暦したマルチプロセッサシステムOS(T'ARのアーキテクチ列IGHN9(1. KnNH881(図2.10)について述べる。２．３．１０ＳＣＡＲの全体構成 OSCARは、図2.10に示すように、以下の構成要素からなる。・最大16台のプロセッサエレメント（PEj ・３個の集中共有メモリ（CSM）・Ｊントロール＆1/Oプロセッサ(CP) ・３本のシステムバス OSCARは３本のシステムバスを持っているため、バスの総合転送能力が高く、各バスにはバリア同期を効率よく実現するための制御ハードウェア 2.3.対象マルチプロセッサシステム巾朕yA川のアーキテクチャ

Centralized Shared Memory(CSM)

lnterconnection Network ＰＥ ● Ｉ ● IE ＳＭ LM ＰＥＤＳＭ一一 LM ＰＥ図2.9:対象アーキテクチャ PE 1………PC………1………PC……… 1………PC………1 DSM:Distribulad Shar自dM白mory LM : Local Memory PC :ProcessorCluster

(23)

36 第２章マルチプロセッサシステム用の自動並列化コンパイラ

ＨＯＳＴＣＯＭＰＵＴＥＲ

ＣＯＮＴＲＯＬ＆￨／ＯＰＲＯＣＥＳＳＯＲ CentralizedShared Memoryl (Simultaneous Readable)

CSM2

CSM3

RISC Processor ￨/O Processorl

Bankl Bank2 Bank3

￢

→

１

￢￣￣｜

Addr.n Addr.n Addr.n

Data Memory Pro9･ Memory Distributed Shared Memory ｜ Read＆Write Requests Arbitrator

Bus lnterface

ＰＥ５ (CP) PE6 PE8 (CP) PE9 PE10 (CP) PE11 PE15 (CP) PE16 Distributed Shared Memory (DualPort) (CP) -5MFLOPS 32bit RISC Processor

(64 Registers) -2 Banks of Local Pro9ram Memory

･Local Data Memory ･Stack Memory -DMA Controller PEI -５ＰＥＣＬＵＳＴＥＲ(ＳＰＣＩ)←ＳＰＣ２→-ＳＰＣ３一 ← )-→ 図2.1():()SCARのアーキテクチャ匹 2.3.対象マルチプロセッサシステム（OSC･,4刑のアーキテクチャ 37 が備えられている。また、ｏｓｃＡｎはcPを介して外部のホストコンピュータに接続されている。 2.3.2 PEのハードウェア構成図2.11にOSCARのPEのハードウェア構成を示す。各PEは以下の構成要素よりなる。・32ビットメイン演算ユニット（ＭＰ□ .32ビット整数演算ユニット（IPU）・32ビット浮動小数点演算ユニット（FPU）．ローカルプログラムメモリ（LPM）・ローカルデータメモリ（LDXI）・スタックメモリ（SM）・分散共有メモリ（ＤＳＭ）・ＤＭＡコントローラ（ＤＭＡ）・ローカルバス(2本) ・インストラクションバス・バスインタフェイス PEは最大5MFLOPSの処理能力を持つ１ワード（32ビット）固定命令長のカスタムメイドのRISCプロセッサを持っている。このように、全ての命令を１クロックで実行できるRISCプロセッサを採用することによって、

(24)

4ﾄﾞ弟フ争マルナプロセッサシステム用の自動並列化コンパイラＳＹＳＴＥＭＢＵＳＩＮＳＴＲＵＣＴＩＯＮＢＵＳＤＭＡＬＰＭＩＮＳＣＤＳＭＳＭＬＤＭＭＰＵＩＰＵＦＰＵＲＥＧＭＰＵＤＭＡＣＯＮＴＲＯＬＬＥＲＬＯＣＡＬＰＲＯＧＲＡＭＭＥＭＯＲＹぐ１２８ＫＩＶ＊２ＢＡＮＫ）ＩＮＳＴＲＵＣＴＩＯＮＣＯＮＴＲＯＬＵＮＩＴＤＩＳＴＲＩＢＵ’１モＤＳＨＡＲＥＤＭＥＭＯＲＹ（２ＫＷ）ＳＴＡＣＫＭＥＭＯＲＹ（４ＫＷ）Ｌ．０ＣＡＬＤＡＴＡＭＥＭＯＲＹ（２５６ＫＷ）ＭＡＩＮＰＲＯＣＥＳＳＩＮＧＵＮＩＴＩＮＴＥＧＥＲＰＲＯＣＥＳＳＩＮＧＵＮＩＴＦＬＯＷＴＩＮＧＰＲＯＣＥＳＳＩＮＧＵＮＩＴＲＥＧＩＳＴＥＲＦＩＬＥ（ＭＲＥＧＩＳ゛ｎＥＲｓ）図2.11:（.）SCARのＰＥのハードウェア構成 W jj 対象マルチプロセッサシステムげ班ＣＡ拓のアーキテクチャ 3りコンパイル時の実行計画と実行時の処理タイミングのずれを排除し、コンパイル時の最適化の効果を最大限に引き出すことができる。

2.3.3 メモリ構成

OSCIARは、図2.10及び図2七に不すように、集中共有メモリ（CSM八分散共有メモリ（ＤＳＭ）、ローカルメモリ（ＬＤＭ）を持っている。CSXIおよび他のPE内のＤＳＭに対するアクセスには、３本あるシステムバスのうちの１本を介して行ない、４クロックを要する。ＬＤＭとそのPE内のＤＳＭに対するアクセスには、ローカルバスを介して行ない、１クロックを要する。ＤＳＭは内外同時アクセス可能で、内部バスとの競合は起こらない。なお、本論文では、以後、ローカルメモリ（ＬＤＭ）及び分散共有メモリ（DSM）を単にローカルメモリ（LM）と呼ぶことにする。次に、OSCARのメモリ空間を図2.12に示す。 OSCAR は、ローカルメモリ空間とシステム（グローバル）メモリ空間が図2.12のように対応しており、それぞれ32ビットアドレスで表される領域を持っている。ローカルメモリ空間は、内部メモリ領域とシステムアクセス領域に分けられる。各MPU は、システムアクセス領域を通してシステムメモリ空間をアクセスすることができる。したがってMPUは、ロード・ストア命令を用いてシステムメモリ空間を内部メモリ空間と同じように扱うことができる。システムメモリ空間には、CPおよびPEの内部メモリ空間に相当する領域、CSMの領域、およびブロードキャスト領域が割り当てられている。 MPUは、ブロードキャスト領域に書き込むことにより、全てのＤＳＭに一斉に書き込むことができる。OSCARは上記のようなメモリ空間を持つため、以下のようなデータ転送が可能である。

(25)

抽第丿章マルチプロセッサシステム用の自動並列化コンパイラ

SYSTEM MEMORY SPACE IMXXXXSxl r･･…･･‥‥‥‥‥‥‥‥‥‥1 1 UNDEFINED i HXXXX） 2(XXXX) 1(XXXXX) ll(XXμ) 2(MXXX) 21(XXXX) 22(XXXX) 2F(XXXxj 3 ( X X ) 0 0 0 M(X)000 FFFFFFFF ＬＯＣＡＬＭＥＭＯＲＹＳＰＡＣＥ {XX賤jx幻 8(X) 1(Xが) 300(X) 4CXXX） 80(Mj R)o(X) CONTROL SYSTEM ＰＥＩ６ CSM],2.3 NOTUSE ACCESS】NG ＡＲＥＡ図2.12:（）SCARのメモリ空間 l(X)()(X) FFFFFFFF W 2.3，対象マルチプロセッサシステム田S(I.J?J のアーキテクチャ・ＤＳＭを使用した1PE対1PEの直接データ転送・ＤＳＭを使用した１ＰＥ対全ＰＥのブロードキャスト転送・CSMを使用した1PE対複数PEのデータ転送 11

2.3.4 マクロデータフロー処理のためのアーキテクチャサポ

ート

OSCARは、PEを集中共有メモリに平等結合したアーキテクチャとなっているが、複数のPEをグループ化することにより、３クラスタまでのマルチプロセッサクラスタシステムとして使用することができる。osc’Λnでは各プログラムの粒粒度タスク間の並列性に応じ、全プロセッサを２または３プロセッサクラスタに分け、マクロデータフロー処理を行うことができる。その際、各プロセッサクラスタでは、内部のPEを用いて、各マクロタスクを中粒度レベル（ループのイタレーションレペル）、近根粒度レベル（ステートメントレベル八または根粒度レベル（マクロタスク内のサブＲＢ、サブBP貼サブSBレペル）で階層的に並列処理することができる［I包HX91､OAMH個41｡本マシン上でのマクロデータフロー処理のインプリメント［HA（）K剛では、現在のところ、各プロセッサクラスタに同一のプログラムコード（全マクロタスクのコード）を持たせ、マクロタスク間の共有データはCSMに配置し、複数マクロタスク間での共有データの授受には、通常、CSMを介した間接データ転送を用いる。但し、本論文で提案するデータローカライゼーションを適用する場合には、マクロタスク間でのデータ授受をプロセッサ上のローカルメモリを介して行っている。また、ダイナミックスケジューリングコードはﾒLにより実行され、そ一ＥＥＥＭＧＭＧＭ３Ｅ 0Ｒ１１１６１Ｓ肌Ｅ宍﹁ＪＥＥ一闘ｍＮＮ一⋮⋮⋮⋮⋮

二］

(26)

-↓2 第］胆マルヂプロセッサシスナム用の目指並列化コンパイ − フのPEが実行時に各プロセッサクラスタヘのマクロタスクの割当てを決定し、その通知信号をプロセッサクラスタヘ送る。そして、その通知信号を受け取ったプロセッサクラスタは、通知信号に対応するマクロタスクを実行する。この際、ＤＳＭを使用したﾒﾄﾞ対1PEの直接データ転送やブロードキャスト転送が用いられる。２．３．５近細粒度並列処理のためのアーキテクチャサポート OS(￣｀Aロ士｡での近細粒度並列処理では、データ転送オーバヘッドの最小化のために、ＤＳＭを介した1PE対IPEの直接データ転送と、ブロードキャスト転送が用いられる。ＣＳＭを使用した間接データ転送では、CSMへの ‥書き込み｀'とＣＳＭから一説み込み‥の２回のデータ転送が必要となるのに対して、IPE対1PEの直接データ転送では、ＰＬからもう１つのPEへのヽヽ書き込み"の１回のデータ転送のみを要する。ﾌﾞロードキャスト転送も、 CSMによる間接データ転送と比較して転送時間を大幅に削減することができる。すなわち、スタティックスケジューリングを用いて、３種類のデータ転送モードを最適に使い分けることにより、データ転送によるオーバヘッドを大幅に削減することが可能である。さらに、ＤＳＭを使用した同期では、各PEがＤＳＭ上に書き込まれた同期フラグをPE内部でチェックするので、同期フラグがCSM上にある場合のビジーウェイトのために生じるバスのバンド幅の低下を防ぐことができ、同期のオーバヘッドを軽減できる。 W 2.4.第２章のまとめ

2.4 第２章のまとめ

詣本命では、F（）rtrallプログラムをマルチプロセッサシステム士｡で、粗粒度タスク（ループやサブルーチン等）レベル、中粒度タスク（ループのイタレーション）レベル、近細粒度タスク（ステートメント）レベルで階層的に並列処理するマルチグレイン並列処理のための自動並列化コンパイラについて述べた。また、本章では、マルチグレイン並列処理の対象アーキテクチヤについても述べた。

(27)

□ _{第丿章マルチプロセッサシステム用の自動並列化コンパイラ} − 一一

第３章

データローカライゼーションのため

のループ整合分割

４

(28)

-↓ ６第,j章データローカライゼーションのためのループ巻物分割

3.1 まえがき

2コ節で述べかマルナグレイン並列処理及びマクロデー-タフロー処理では、粒粒度クスク(マクロタスクバよ、ダイナミックスケジューリングにより、実行特にプロセッサあるいはプロセッサクラスタに割り当てられて処理される。このようなダイナミックスケジューリングを用いる方式では、マクロタスク間の共有データを集中共有メモリ上に配置し、マクロタスク間のデータ転送を集中共有メモリを介して行なうのが一般的であるが、集中共有メモリを介したデータ転送オーバヘッドが大きくなってしまうという問題が生じる。そこで、マクロタスク問データ転送オーバヘッドを軽減し効率良い首列処理を実現するためには、データ分割・配置を適切に行い各プロセッサ上のローカルメモリを介したマクロタスク間データ授受を実現することが重要となる。例えば、ローカルメモリの有効利用をはかり単一ループの処理の高速化を行なう基礎的な研究として、TnとPa(hla[TuPa93j、LilLi921、Ei即ｎｍｍﾊﾟEi問93] が、ΛΓ即づ)riv出z肘i()11法とその自動化手法を提案している。このÅ1Tay P出･川z川on法では、単一リレープ内で使用される作業配列変数を各プロセッサ上のローカルメモリに割り当てることにより、ループのイタレーション間並奸詐を向上させ、かつ、集中共有メモリアクセスによるオーバヘッドを軽減する方法である。しかし、このAITav Priv川z川()n法は、複数ループ問でのローカルメモリを介したデータ授受に適用することはできない。分散メモリ型マルチプロセッサシステム上でのデータ分割・配置に関しては、Hi油Pe汀()rnmnc(ヽFortran(HPF)IHPFF9刈ChMZ95]やFo出･anDtHKKIに011 等のFouran拡張言語を用いて、ユーザがデータの分割・配置を指定する方法が一般的である。しかし一般ユーザが最大の並列性と最小のプロセッ匹 3.J.まえがき -4 サ間通信を満たすデータ分割・配置を決定することは才知こ困難である。また、最近では、データ分割・配置を自動的に行う方法がいくつか提案されている.LiとChヅL回h問は、単一ループ内での配列データの参照パターンからデータ分割・配置を決定し、適切な通信ライブラリを用いた並列コードを生成する方法を提案している。 RamanuDm とSaday仲I)aO{ah911 は、ネストされたDoa11ループを、プロセッサ間通信なしで実行できるように分割する方法を提案している。 ChellとSh川Chsh問は、ネストされたループをプロセッサ間通信なしで実行できるように分割する方法、即ち、プロセッサ間通信なしで実行するために同じプロセッサに割り当てるべきイタレーション集合の解析方法を提案している。しかしながら、これらのアプローチは、単一のネストされたループに対してしか適用することができないという問題点がある。一方、GuptaとBan雨(ヽ(ﾘGuB ｢)2ﾄﾞよ、プログラム中の各ループで望まれるデータ分割・配置に関する制約とその制約が実行時間に与える影響を求め、プログラム全体で実行時間を最小化するように制約を調整して、データ分割・配置を決定する方法を提案している。また、AndelヽsonとLnﾊﾞAnLa931は、コンパイラがデータと処理を線形変換行列に基づいてプロセッサに割り当てできる場合に、データと処理を分割する方法を提案している。しかしながら、これらのデータ分割・配置法は、コンパイラが静的にデータ割当てを行える場合にしか適用できないという制約があり、マルチグレイン並列処理及びマクロデータフロー処理のように実行時にデータと処理を動的に配置する方式には適用できない。そこで、本章では、マルチグレイン並列処理及びマクロデータフロー処理において、複数ループ開でのローカルメモリを介したデータ授受(データローカライゼーション)を可能とするためにづレープ間に存在する配列変数に関するデータ依存を局所化するように、複数ループ(データと処理)を整合して

(29)

18 第３嘸データローカライゼーションのためのループ整合分割分割するループ整合分割法ＩＹＭＯＫ９=ｋＹＭ()()'９３．ＹＭＦＫ９１･･．ＹＭＦＫ９５ｂ] を提案する。本命では、以ド、3.2節でマルチグレイン並列処理及びマクロデータフロー処理におけるデータローカライゼーションの概要を述べ、3.3節でデータローカライゼーションのためのループ整合分割法について述べる。匹 j.2.データローカライゼーションの概要

3.2 データローカライゼーションの概要

49 本節では、集中共有メモリを介したデータ転送オーバヘッドを軽減するためのデー-タローカライゼーション手法の概要を述べる。デ≒-タローカライゼーションとは、マクロタスク間で必要なデータ授受を、集中共有メモリを介さず、ローカルメモリを介して行なう手法である。本手法のコンパイル手順を以下に示す。け）Ｄ（）｢ドレープの並列性を利用し、かつ、複数ループ間でローカルメモリ経由データ授受を行うために、3.3節で述べるループ整合分割法を用いてループを分割する。ループ整合分割法は、分割後に生成される部分ループ聞で、配列データの定義・参照範囲が等しくなる、即ち、部分ループ間でローカルメモリを介してデータ授受が行えるように、複数ループ（データ及び処理）を整合して分割する方法である。（2）多量のデータ転送を必要とするマクロタスク（ループ）聞で、PE士｡のローカルメモリを介してデータ授受を行うためには、それらのマクロタスク集合を実行時に同一のプロセッサ（あるいはプロセッサクラス帽に割り当てなければならない。そこで、本手法では、第1章及び第ら章で述べるマクロタスク融合法、あるいは、パーシャルスタティッククスク割当を用いたダイナミックスケジューリング法により実現する。（3）実行時に回一のプロセッサ（あるいはプロセッサクラスタ）に割り当てられるマクロタスク間で、プロセッサ七のローカルメモリを介してデータ授受を行なうためのマシンコードを生成する。本手法では、第 4章及び第5章で述べるデータ転送コー-ド生成法により実現する。