• Tidak ada hasil yang ditemukan

AN 97: 高集積PLDの性能比較

N/A
N/A
Protected

Academic year: 2024

Membagikan "AN 97: 高集積PLDの性能比較"

Copied!
12
0
0

Teks penuh

(1)

Altera Corporation Page 1

19985 月  ver.1 Application Note 97

高集積 PLD の性能比較

プログラマブル・ロジック・デバイス(PLD)を選択する場合、ほとんど の設計者は集積度、価格、性能を比較してデザインの要求を満足するデバイ スを決定しています。この場合、集積度と価格は業界標準のロジック・セル 数と見積価格から各デバイスを比較することができます。しかし、性能の比 較は、より困難なプロセスとなります。デバイスの性能を判断するために は、信号の配線、ロジックの複雑さ、メモリ・インタフェースの種類、ファ ン・アウトの数など、多くの要素を考慮する必要があります。ただし、性能 を個々の数値に分割することによって、各ベンダ間のデバイス・アーキテク チャの比較をより明確に行うことが可能になります。

このアプリケーション・ノートは、ザイリンクス社が発行したアプリケー ション・ブリーフ、XBRF015(Speed Metrics for High-Performance

FPGAs)で採用されているベンチマーク回路をベースにして、アルテラの

FLEX® 10KAの最高速デバイスとザイリンクス社のXC4000XLの最高速 デバイスの性能を比較したテスト結果を解説したものです。

このテストにはアルテラの開発ツール、MAX+PLUS® II のバージョン8.2 を使用し、回路図とアルテラ・ハードウェア記述言語(AHDL)を組み合わ せたデザイン入力により、各デザインをアルテラのEPF10K100A-1に実 現しました。そして、これらのベンチマークの結果をザイリンクス社のアプ リ ケ ー シ ョ ン ・ ブ リ ー フ 、 XBRF015(Speed  Metrics  for  High  - Performance FPGAs)で示されている結果と比較しました。ザイリンク スのテストでは、デザインがVHDLで記述されており、シノプシス社の FPGA  Expressで 論 理 合 成 さ れ た 後 、 ザ イ リ ン ク ス の ソ フ ト ウ ェ ア 、 XACT Step M1のバージョン3.7でコンパイルされています。このアプリ ケーション・ノートで取り上げられているすべてのベンチマーク回路の性能 は最高動作周波数を表しています。

このテストには、下記のベンチマーク回路が使用されています。

■ I/O周波数

■ 平均配線遅延時間

■ N レベルの組み合わせ回路ロジック

■ N 対1のマルチプレクサ

■ N ビットANDゲート

■ チェイン化されたアダー

イントロダク ション

設定の条件

性能の 測定方法

®

(2)

I/O周波数

I/O周波数のベンチマーク(fIOEXT)では、入力と出力をレジスタ付きにした 条件で、データをプログラマブル・ロジック・デバイス(PLD)の出力か ら入力に転送したときの最高周波数が測定されます。このfIOEXTの計算式は 下記の通りであり、ホールド・タイム(tH)はゼロであることを仮定してい ます。

1 fIOEXT =

tSU + tCO

ここで、tSU = 入力のセットアップ時間 tCO =「Clock-to-Output」遅延

このテストで、tSUとtCOの遅延は、図1に示されているように、I/Oセル・

レジスタに供給される専用グローバル・クロックの立ち上がりエッジで測 定されます。

基板上で、この 接続を行う。

ひとつのプリント基板(PCB)上に実装された2つのデバイス間でのfIOEXT を正確に測定するためには、各デバイスのtSUとtCOの値が必要になります。

この場合、システムの周波数は、デバイス-1のtCOとデバイス-2のtSU、そし てボードの遅延時間を加算することで決定されます(図2を参照)。この ため、tSUとtCOの遅延が小さくなると、システムの周波数が高くなります。

図1 fIOEXTの測定回路

デバイスのtCOとtSUの測定に使用されるfIOEXT 回路

Q D D Q

Global Clock

DFF

DFF In

Out FLEX 10K Device

(3)

これに対して、ザイリンクス社のアプリケーション・ブリーフ、XBRF015

(Speed Metrics for High-Performance FPGAs)で示されているfIOEXT の値は、ある出力ピンから信号が同じデバイスまたはボード上のまったく同 特性のデバイスの入力ピンに接続された条件にのみに適用されます。

デバイスのfIOEXTの値は各デバイスに与えられているtSUとtCOを使用した場合 のほうがより正確になりますが、アルテラはこのテストでEPF10K100A-1 とEPF10K100A-2が等価な性能を持つデバイスとインタフェースされた ことを想定してfIOEXTを計算しました。この計算を行うことで、アルテラはザ イリンクス社のアプリケーション・ブリーフ、XBRF015(Speed Metrics for High-Performance FPGAs)で示されているfIOEXTの値と直接比較す る こ と が で き ま す 。 表 1 は こ の ベ ン チ マ ー ク の テ ス ト 結 果 で あ り 、 EPF10K100A-1のI/O周波数がXC4085XL-09より95%も高速であることが 示されています。また、EPF10K100A-2のI/O周波数も XC4085XL-09より 高速となっています。

図2 システム周波数の測定回路 シ ス テ ム の 周 波 数 は 、 デ バ イ ス-1のtCO、デバイス-2のtSU、 ボードの遅延時間を加算するこ とによって決定される。

Device 1 Device 2 tCO tSU

CLK

ボード上の遅延

平均配線遅延

平均配線遅延のベンチマークでは、PLDの内部の多様な位置に配置された 2つのレジスタをダイレクトに接続したときに達成可能な最高クロック周波 数が測定されます。この平均配線遅延のベンチマークを使用することによっ て、2種類の異なるデバイス・アーキテクチャの配線遅延性能を比較するこ とができます。

このテストでは、図3に示されているように、レジスタの1組のペアが1本の グローバル・クロックでドライブされるシフトレジスタを構成しています。

外部fIOEXT (MHz) 111 94 57

tSU (ns) 3.7 4.5 8.4

tCO (ns) 5.3 6.1 9.0

tH (ns) 0.0 0.0 0.0

 表1 外部I/O周波数の結果

パラメータ EPF10K100A-1 EPF10K100A-2 XC4085XL-09

(4)

図3 平均配線遅延の測定回路

デバイス内部で水平、垂直、対角線方向に接続されるレジスタのペアで帰還型 のシフトレジスタを構成して、配線遅延時間を測定。

MAX+PLUS II のアサイメント・アンド・コンフィギュレーション・ファ イル(.acf)の中で、これらのレジスタがFLEX 10Kの特定のロジック・エ レメント(LE)に配置されるように設定しました。そして、PLD内部の同 じロウ、同じカラム、対角線方向に配置された2つのレジスタ間の最高動 作周波数を測定しました。(図4に示されるx軸、y軸、z軸の方向で接続)

Q D Q

D

Global Clock

DFF DFF

こ の 平 均 配 線 遅 延 の テ ス ト で は 、 レ ジ ス タ 間 の 距 離 を 順 次 増 加 さ せ 、 EPF10K100Aのデバイス全体がカバーされる距離までの測定が行われまし た。すなわち、水平方向では1から52のロジック・セルの距離まで、垂直 方向では1から96のロジック・セルまで、対角線上では1から148のロ ジック・セルの距離(x軸とy軸の最大値の和になる距離)までの範囲が測 定されています。ここで、クリティカル・パス(デザイン内でもっとも遅 いパス)は常に対角線方向の位置関係で発生します。このため、対角線上 での測定値がワースト・ケースの配線遅延時間にもっとも近くなります。

図4 平均配線遅延の測定方法 水平(x軸)、垂直(y軸)、 対角線

(z軸)の各方向で、その距離を順次 増加させて測定。

X

Y

Z

(5)

図5はアルテラが行ったテスト結果とザイリンクス社のアプリケーション・ブ リーフ、XBRF015(Speed Metrics for High-Performance FPGAs)で示 されている結果を比較したものです。EPF10K100Aは52カラム、12ロウ のロジック・ブロックで構成されたデバイスとなっており、各ロジック・ブ ロックには8個のロジック・セルが含まれています。このため、図5では、

水平方向では1から52のロジック・セルの距離まで、垂直方向では1から 96のロジック・セルまで、対角線方向では1から148のロジック・セルの 距離(x軸とy軸の最大値の和になる距離)までの範囲でEPF10K100A-1 とXC4085XLの最高動作周波数が比較されています。

図5 配線性能の測定結果

z方向の配線遅延の測定結果を示すトレンドライン

0 100 200 300 400 500 600

XC4085XL-09 EPF10K100A-1

y z x

1 52 1 96 1 148

水平、垂直、対角線の各方向での配線性能

距離(x=水平、y=垂直、z=対角線)

距離(z方向)

fMAX (MHz)

300 350

EPF10K100A-1 XC4085XL-09 250

200

150

100

50

148 0

3

fMAX

(MHz)

(6)

この結果は、FLEX 10KA-1デバイスの連続した配線構造が、XC4000XL-09 デバイスのセグメント化された配線構造よりも高速であることをはっきり と示しています。レジスタ間の距離が148ロジック・セルのワースト・ケー スの条件では、アルテラのEPF10K100A-1がXC4085XL-09より98%も 高速となっています。

Nレベルの組み合わせ回路ロジック

Nレベルの組み合わせ回路ロジックのベンチマークでは、1から6レベル までの深さにチェイン化されたルック・アップ・テーブル(LUT)による 組み合わせ回路の最高性能が測定されます。このテストでは、4入力と なっている各LUTのすべての入力に信号を接続し、またすべてのLUTの出 力に負荷が接続されるようにし、4個のLUTで1レベルのロジックを構成 して、1から6レベルまでの深さにチェイン化された4入力のLUTの性能 が測定されました。図6は、2レベルにチェイン化された4入力LUTの性 能を測定するときに使用された回路を示したものです。

図6 Nレベルの組み合わせ回路の測定回路

2レベルにチェイン化された4入力LUTの性能を測定する回路

Q D

Q D

Q D

Q D 4-Input

LUT 4-Input

LUT 4-Input

LUT

4-Input LUT 4-Input

LUT 4-Input

LUT 4-Input

LUT 4-Input

LUT

Global Clock

DFF

DFF

DFF

DFF

(7)

119

98 105

83

75

61 64

58

45 55 65 75 85 95 105 115 125

3 4 5 6

fMAX (MHz)

EPF10K100A-1 XC4085XL-09

EPF10K100A-1に実現されたデザインはAHDLで記述され、各LUTの構 成にはLCELLが使用されています。図7はこのテスト結果を示したもので す。

図7 組み合わせ回路の性能の測定結果 組み合わせ回路全体の性能

詳細A

454

242 256

149

119

75 61 98

105

64 58 83

0 50 100 150 200 250 300 350 400 450 500

1 2 3 4 5 6

Number of Logic Levels fMAX

( M H z )

EPF10K100A-1 XC4085XL-09

ロジック・レベルの段数 ロジック・レベルの段数

拡大された状態は 下図の詳細Aを参照

(8)

図7の結果は、EPF10K100A-1が各ロジック・レベルでXC4085XL-09 を常に上回る性能になることを示しています。例えば、4レベルの組み合 わせ回路のアプリケーションでは、EPF10K100A-1がXC4085XL-09よ り18%も高速で動作します。

平均配線遅延とNレベルの組み合わせ回路のベンチマークの結果を組み合わ せることで、異なるPLDアーキテクチャを比較するための最適なツールが 提供されます。実際のアプリケーションでは、内部性能がロジック・レベ ルの段数とロジック・レベル間の接続によって累積されたもっとも大きな 遅延を持つ信号パスで決定されます。FLEX 10KA-1デバイスの性能は双 方のベンチマークでXC4000XL-09デバイスの性能を上回っているため、

FLEX 10KA-1デバイスの内部性能がXC4000XL-09デバイスよりも高く なると判断するのが妥当です。

N 対1のマルチプレクサ

このテストでは、2対1、4対1、16対1、32対1、そして64対1のマル チプレクサをEPF10K100A-1に構成し、その入力と出力はレジスタ付き としました。すべてのマルチプレクサは64本の入力を持っています(32個 の2対1マルチプレクサ、16個の4対1マルチプレクサ、4個の16対1マ ルチプレクサ、2個の32対1マルチプレクサ、1個の64対1マルチプレク サ)。すべてのマルチプレクサは同じデザインで実現され、各マルチプレ クサが同じ入力を共有するように構成されており、これによってロジック と負荷遅延が生成されるようになっています。これらのデザインはLPM

(Library of Parameterized Modules)ファンクションであるlpm_mux を使用して、EPF10K100A-1に実現されています。図8を参照してくだ さい。

図8 lpm_muxファンクション

次ページの図9のベンチマーク結果は、6種類すべてのマルチプレクサ・

サイズでEPF10K100A-1がXC4085XL-09よりも高速であることを示し ています。

LPM_MUX data[][] result[]

sel[]

LPM_PIPELINE=

LPM_SIZE=

LPM_WIDTH=

LPM_WIDTHS=CEIL(LOG2(LPM_SIZE))

D Q D Q

input output

clk select

(9)

476

172

86 164

63 112 95

128

75 72 92

110

0 50 100 150 200 250 300 350 400 450 500

64:32 64:16 64:8 64:4 64:2 64:1

fMAX

( M H z )

EPF10K100A-1 XC4085XL-09

N ビット AND ゲート

NビットANDゲートのベンチマークでは、多入力のコンパレータなどのよう な 大 規 模 な 組 み 合 わ せ 回 路 の 性 能 が 測 定 さ れ ま す 。 こ の テ ス ト で は 、 EPF10K100A-1に4ビット、8ビット、16ビット、32ビット、そして64 ビットのANDゲートが構成されています。ANDゲートの入力と出力はレジ スタ付きとし、性能をMHz単位で測定できるようにしました。64ビット幅 の入力を持つ共通のデータ・パスを構成するため、デバイスに16個の4 ビットANDゲート、8個の8ビットANDゲート、4個の16ビットANDゲー トを実現しました。図10はこのベンチマークの結果を示したもので、64 ビットのANDゲートではEPF10K100A-1がXC4085XL-09より72%も高 速となっています。

図9 マルチプレクサ性能の測定結果

マルチプレクサのサイズ

(10)

285

112 182

65

159 151

125 112

74 143

0 50 100 150 200 250 300

4-Bit 8-Bit 16-Bit 32-Bit 64-Bit

fMAX

( M H z )

EPF10K100A-1 XC4085XL-09

チェイン化されたアダー

このベンチマークでは、2つのレジスタ間に配置したチェイン化されたア ダーの最高動作周波数が測定されます。このベンチマークは、マルチプラ イヤ、カウンタ、アダー、コンパレータのような、大規模で複雑な演算動 作で実現される標準的なディジタル信号処理(DSP)ファンクションの性 能を判断する上で重要となります。このテストでは、8ビット、16ビッ ト、24ビット、そして32ビットのアダーが、1、2および4レベルのチェ インを構成して配置されます。図11は、2個の8ビット・アダーによって 構成された1つのチェインをテストするときの回路図です。

図10 ANDゲートの性能の測定結果

ANDゲートのビット数

(11)

図12はこのベンチマーク・テストの結果を示したものであり、ここでnはア ダーのビット数、mはカスケード接続されたアダーの段数を表しています。

EPF10K100A-1は、32ビット・アダーによる1レベルのチェインと32 ビット・アダーによる4レベルのチェインの場合を除き、すべての構成でザ イリンクスのXC4085XL-09よりも高速となっています。アルテラ・デバ イスが性能での優位性を提供している理由のひとつは、ロジック・アレイ・

ブロック(LAB)内のLE間、および複数のLAB間を接続するためのキャ リー・チェイン・アーキテクチャが採用されているためです。これらのキャ リー・チェインは、アダーの実現に必要となる組み合わせ回路の段数を削減 します。

図11 チェイン化されたアダーの測定回路

2個の8ビット・アダーで1つのチェインを構成したときの測定回路。

Q D

Q D Q

D

Q D

Global Clock

out[7..0]

a[7..0]

b[7..0]

c[7..0]

DFF

DFF DFF

DFF

ADD ADD

8

8

8 8

8

8 8

8

8

(12)

Page 12 Altera Corporation

86

58 54

69 61

200

147

116

91 77

58 66

34 72

37 39 42 50 64

71 79 139

115 98

0 50 100 150 200 250

n=8 n=16 n=24 n=32 n=8 n=16 n=24 n=32 n=8 n=16 n=24 n=32 fMAX

( M H z )

EPF10K100A-1 XC4085XL-09

m=1 m=2 m=4

Altera、MAX、MAX+PLUS、MAX+PLUS II、FLEX、FLEX 10K、EPF10K100、EPF10K100Aは、Altera Corporationの米国および 該当各国におけるtrademarkまたはservice markです。Alteraはこの資料に記載されているその他の製品名またはサービスの名称が該当各社の trademarkであることを認めます。この資料はアルテラが発行した英文のアプリケーション・ノートを日本語化したものです。アルテラが各デバ

〒163-0436

東京都新宿区西新宿2-1-1 新宿三井ビル私書箱261号

TEL. 03-3340-9480  FAX. 03-3340-9487 http://www.altera.com/japan/

本社 AItera Corporation

101 Innovation Drive, San Jose, CA 95134 TEL : (408) 544-7000 http://www.altera.com

®

デザインの性能は各デバイス・アーキテクチャの配線遅延、デザイン内の ロジック・レベルの段数で決定されます。平均配線遅延とNレベルの組み合 わせ回路のベンチマークを利用することで、2種類のデバイス・アーキテ クチャの性能をダイレクトに比較することができます。他のベンチマーク はPLDに実現される特定の機能の性能を測定していますが、これらの特定 の回路機能とは関係ない要素も多少追加する結果となっています。ここで テストされたいくつかのベンチマークの手法は標準的なデザインとは直接 的な関係はないものの、これらのテスト結果はアルテラのEPF10K100A-1 が各ベンチマークでXC4000XL-09を常に上回る性能を実現することを証 明しています。

図12 アダーの性能の測定結果

結論

アダーの種類

Referensi

Dokumen terkait

ビジネス課題 インテルIT部門は他の組織と同様に、デー タセンターの電力と冷却に関する大きな課 題に直面しています。需要の急速な拡大に 伴い、コンピューティング・リソースの増加が 常に求められるようになりました。そのため、 データセンターの電力/冷却能力は限界に 達しつつあります。また、電力コストと冷却コ ストが総保有コスト(TCO)の中で大きな割

国際プロジェクトで共創を果たすためのクリティカル・シンキング力育成に関する研究 ― オンライン・ディスカッション発話機能別分類六ヶ国比較分析 ― 鈴木 千鶴子1 石田 憲一2 Julian VanderVeen2 吉原 将太2 横田 栞3 木山 沙樹4 前村 水奈子5 1, 2, 3長崎純心大学人文学部 〒852-8558 長崎県長崎市三ツ山町235,

現在、 読谷村には23の字と3つの自治会があ る。 自治会は、 一定のまとまりのある住宅団地 や集合住宅などここ数十年のうちに建設された 比較的新しい居住地域にあり、 都市に一般的に 見られる町内会や自治会と同様の行政の協力組 織的な機能を主とする住民自治組織である。 わ れわれが主要な対象としている 「字」 は、 これ とはまったく異なる伝統的な住民自治組織であ

村氏は聖神社の祭礼での舞大夫としてだけではな く、万才と似た芸能を行っていたのならば、信太 地域だけではなく他の地域にも訪れていた可能性 が浮かび上がってくる。 おわりに 以上が、信太森葛葉稲荷神社周辺、聖神社周辺 に伝わる葛の葉伝説、高梨氏と赤井信濃守が登場 する信濃堂の伝説の和泉市信太地域における四つ の狐女房譚の比較研究を行った結果である。

① 生産力の向上⇒資本の有機的構成C/V ⇒一定量の投下資本で充用される労働者数の =失業者の 作用⇒相対的過剰人口の発生 ② 資本蓄積⇒投下資本量の ⇒雇用労働者数の 作用 =労働力の 作用=失業者の 作用 ①と②両者の作用と相対的過剰人口の発生 資本蓄積の進展過程=生産力向上と資本蓄積の 促進的進展過程

総合研究所・都市減災研究センター(UDM)研究報告書(平成22年度) テーマ2 小課題番号2.1-1 変位計測記録は目標とほぼ一致している。 計測した波形をフーリエ解 析し、目標波との比較 を行った結果を図7に示す。加速度スペクトル では 2~5Hz 付近 にパ ルス の周 波数成 分が 明確 にわ かる。 変位スペクトルは誤差が少 なく、目標波形を再現で

後置記法の演算式のスタックを用いた計算 逆ポーランド電卓 • 数値 =⇒ push • 演算子 =⇒ 被演算子を所定の個数だけ pop −→ 演算を施し、結果を push • 入力終了 =⇒ pop −→ スタックが丁度空になったらその値が答え 問 : 後置記法逆ポーランド記法の式に対し スタックを用いて値を計算する

試作と観測が容易になるように動作周波数を大幅に低く設定するため,直列容 量C=10nFとしジャイレータに接続しBNC端子を介して同軸線路ZC = 50Ω,d = 2 mを 用いて次の回路に接続する.この周期構造5周期に正弦波を入力し,中央の単位セルの 入出力波形をオシロスコープで観測した.理論値と測定値の動作周波数をそれぞれf0,fm