オブジェクトの属性を用いた適応型高速データ展開
Adaptive and Fast Data Dissemination for Structured Peer-to-Peer Overlay Network with Object Attributes
黒宮 佑介(学籍番号: 80924567 ) 政策・メディア研究科 修士課程 2 年
主査:村井 純、副査:斉藤 賢爾・中村 修・江崎 浩
2010/10/17 2010年度秋学期修士論文中間発表
1
研究概要
• P2P
の価値–
専用のインフラが無くてもスケールして動作する•
目的:P2P
を利用したデータ展開の高速化–
データ展開=データをネットワーク上に配信する初期段階•
問題–
データ展開時の需要に対応できない•
ボトルネックが発生しやすくなっている•
結果として(データ展開が一段落するまでの)待ち時間が発生する•
解決方法–
事前にP2P
上にキャッシュとなるノードを配置する•
オブジェクト(ノード・データ)の特性を表す属性をネットワーク上で共有•
属性のマッチングを行うことでキャッシュとして適切なノードの選択を可能に•
期待される効果– P2P
オーバーレイネットワークの応用範囲の拡大– P2P
を利用する際のユーザエクスペリエンスの向上2010/10/17 2010年度秋学期修士論文中間発表
2
データ展開時における問題点
2010/10/17 2010年度秋学期修士論文中間発表
3
ノード数
時間
①データの公開
タイムラグ
②データの発見 需要最大
イノベーター理論
革新的採用者
=需要が供給を上回る
初期採用者
=需要が増加
前期追随者
=需要が急増
バランスしない
ダウンロード要求ノード数
(需要)
アップロード可能ノード数
≒ダウンロード完了ノード数
(供給)
既存のデータ展開高速化手法
• P2P を利用したデータ展開手法
– SkeedCast ( Winny ) (1) – ShareCast (2)
• 配信サーバを静的に設置して配信を行う
– P2P の価値を最大限に活かせない
•
配信サーバという専用のインフラを必要としている2010/10/17 2010年度秋学期修士論文中間発表
4
ShareCast
SkeedCast
(1) SkeedCast: http://www.skeedtools.com/
(2) ShareCast: http://scast.tv/sc2plus/
配信サーバ
P2P
配信サーバ
P2P
2010/10/17 2010年度秋学期修士論文中間発表
5
既存のデータ展開:一部 P2P
ノード数
時間
①データの公開
タイムラグ
②データの発見 需要最大
ダウンロード要求ノード数
(需要)
アップロード可能ノード数
≒ダウンロード完了ノード数
(供給)
配信サーバ供給分
バランスする
P2P
2010/10/17 2010年度秋学期修士論文中間発表
6
本研究の提案手法:全部 P2P
ノード数
時間
タイムラグ
②データの発見 需要最大
アップロード可能ノード数
≒ダウンロード完了ノード数
(供給)
ダウンロード要求ノード数
(需要)
需要減
①データの公開
キャッシュ作成 P2P 将来ダウンロードするノードにキャッシュを作成する
=ノードの需要を満たす+供給が増える
高速化バランスする
提案手法に対する要求
• キャッシュノードの動的な選択と配置
– 適切なキャッシュノードを選出する手法が必要 – キャッシュノードの条件
1.
ダウンロードを行うノードと近隣となる2.
データのキャッシュがノードにとって有益に働くこのノードはこのデータをダウンロードするはず!
Bottleneck
Originator Originator
Data Request Nodes Data Request Nodes
Cache Nodes
動的に選択2010/10/17 2010年度秋学期修士論文中間発表
7
ユーザの振る舞い方に着目
• ユーザの振る舞い方に以下の特徴がある
(ユーザ=ダウンローダー・アップローダー)
1. ある分野に以前から興味を持っている 2. ある分野に含まれるデータを持っている 3. 今後もある分野に興味を持つ
• ユーザの振る舞い方をノードに反映させる
1. ノードは以前からそのデータを探している 2. ノードはそのデータをダウンロードしている 3. ノードは今後もそのデータをダウンロードする
2010/10/17 2010年度秋学期修士論文中間発表
8
• オブジェクト(データ・ノード)は属性のタグを持つ
– データタグ
•
ユーザが指定を行う•
複数個のタグを付加– ノードタグ
•
各ノードはタグのテーブルを持つ•
ダウンロードしたデータによりタグの優先度を決定する•
優先度によりノードのタグを選択(上位N
個、閾値、etc…
)属性を用いたオブジェクトの紐付け
2010/10/17 2010年度秋学期修士論文中間発表
9
データ
映画 小説
ドラマ
映画 ドラマ
ノード
映画 映画
映画 小説 ドラマ 小説
ドラマ ドラマ
ダウンロードしたデータ
自動的に決定
映画 小説 ドラマ
4 1 4
P2P ネットワークの構成( 1/2 )
• 非構造化 P2P と構造化 P2P
– 非構造化 P2P (例: Winny 、 Share )
•
特徴:広く複製されているデータを見つけることが得意•
検索:任意のキーワードで検索が可能– 構造化 P2P (例: Chord, CAN, Pastry, Kademlia )
•
特徴:効率的にどんなデータでも確実に見つける•
検索:(直接的には)キーによる検索しか可能ではない• 目的: P2P を利用したデータ展開の高速化
– キャッシュをヒットしやすくする
•
ノードをクラスタリングする ・・・非構造化P2P
が得意– 基本的にどんなデータも検索可能
•
稀尐なデータも検索可能に ・・・構造化P2P
が得意2010/10/17 2010年度秋学期修士論文中間発表
10
P2P ネットワークの構成( 2/2 )
• 構造化 P2P に非構造化 P2P の特徴を持ち込む
– 利点:高速なデータ・ノードの発見が可能になる
•
データの属性にマッチするノードの発見が容易になる– 方法: Kademlia
(1
)を拡張する
•
全体のKademlia
とグループ毎のKademlia
• Kademlia を用いる理由
– トポロジー自体が特定の構造を持たない(非構造的)
• Kademlia
の構造を適応的に変化させることが可能になる1. 経路を複数持つことが可能
•
複数のグループに属する場合に有効に作用する2. ノードが頻繁に出入りする状況を想定している
• Kademlia
以外の構造化P2P
は専用のメッセージが必要2010/10/17 2010年度秋学期修士論文中間発表
11
(1)Kademlia: A Peer-to-peer Information System Based on the XOR Metric
P Maymounkov, D Mazieres - Peer-to-Peer Systems, 2002 - Springer
A
B C
評価指標と方針
• シミュレーションを用いて評価
–
規模拡張性•
ノード数•
データ数•
タグ(属性)数•
グループ内ノード数• Kademlia
の経路–
閾値•
ノードあたりのタグ数•
タグ選択(手法)–
キャッシュ配置効果•
転送時間•
キャッシュ効率–
ノードとデータの距離–
データ展開時間•
他のDHT
との比較2010/10/17 2010年度秋学期修士論文中間発表
12
ノード・タグの増加に対しての規模拡張性 規模に対しての可塑性・研究の有効性
最適なパラメータ・汎用的な手法の導出
キャッシュの配置が有効に作用したか
スケジュール
•
アルゴリズム設計–
ノードタグ決定•
ダウンロードしたデータからのタグ 抽出方法– タグの変更があった場合は?
•
ユーザからのタグ指定の受付–
キャッシュノード選択•
閾値の設定•
ノード発見の方法•
ネットワーク規模の測定方法•
ネットワーク設計–
想定環境•
ノード数・データ数・タグ数– Kademlia
•
グループ数•
グループ内のノード数–
ノード•
経路数•
データ・タグ数• Churn
耐性2010/10/17 2010年度秋学期修士論文中間発表
13
予定
10/
24 31 11/
7 14 21 28 12/
5 12 19 26 1/
2 9
アルゴリズム設計 ネットワーク設計 シミュレータ実装 評価(データ分析)
論文執筆
まとめ
• 目的
– P2P を利用したデータ展開の高速化
待ち時間なしで手に入れたい!
• 手法
– P2P ネットワークをタグ毎にグループ化 – 構造化 P2P の Kademlia を拡張
• 構造化 P2P に非構造化 P2P の特徴を持ち込む
• 評価
– 複数の視点から評価
• 規模性、閾値、キャッシュを配置する効果
2010/10/17 2010年度秋学期修士論文中間発表
14
ここから非表示スライド
2010/10/17 2010年度秋学期修士論文中間発表
15
• ジャンル
• タイトル
• サブタイトル
• 登場人物
– ヒーロー・ヒロインなど
• テーマソング
• 制作者
• スタッフ
2010/10/17 2010年度秋学期修士論文中間発表
16
• G-Tap
– Tapestry
で構成されたDHT
に基づいて構成される– 2
種類の経路制御方式をサポート• Destination-Specified
• Path-Constrained
–
グループ化手法• Group Membership Rendezvous
(GMR
)ツリー• Diminished Chord
– Chord
で構成されたDHT
に基づいて構成される–
経路制御方式(1
種類)• Destination-Specified
–
複数のグループ化手法をサポート•
ツリー型•
埋め込みツリー型•
スパースリング(With/Without Prefinger
)2010/10/17 2010年度秋学期修士論文中間発表
17
• HIBIKI
• Performance Analysis of DHT Algorithms for Range-Query and Multi-Attribute Resource Discovery in Grids
2010/10/17 2010年度秋学期修士論文中間発表
18
• ポイント:同じタグを持つノードが近隣になる 1. タグ毎に P2P ネットワークを形成する
– ○ P2P の構造が簡単になる
– ×リソースを多く消費する(非効率)
– ×複数タグを走査することが難しい
2. P2P ネットワークをタグ毎にグループ化
– ○リソースを有効に使用できる – ○複数タグを走査することが可能 – ×構造が複雑になる可能性がある
2010/10/17 2010年度秋学期修士論文中間発表
19
Tag A
Tag B Tag C
Tag A
Tag B Tag C
• 各ノードはタグのテーブルを持つ
– ダウンロードしたデータ数により優先度を決定 – ノードタグの選択(上位 N 個、閾値、 etc… )
• キャッシュノードの選択
1. それぞれのタグをグループに問い合わせ
• テーブルにおいて重みを持つ上位 N ノードを選出
• N はグループの規模により決定(パレートの法則)
2. 多くのタグにおいて AND がとれるノードを選択
• キャッシュノードとしてデータをキャッシュさせる
タグ
A
タグB
タグC
タグD
タグE
タグF
タグG
1 4 6 7 20 2 4
2010/10/17 2010年度修士論文中間発表
20
• イノベーションの普及に関する理論
– Diffusion of Innovations – Everett M.Rogers
• 消費者の商品購入態度
1. イノベーター
2. アーリー・アダプター 3. アーリー・マジョリティ 4. レイト・マジョリティ
5. ラガード
2010/10/17 2010年度秋学期修士論文中間発表
21