• Tidak ada hasil yang ditemukan

2019年度 ゲームの理論a 演習第3回解答

N/A
N/A
Protected

Academic year: 2024

Membagikan "2019年度 ゲームの理論a 演習第3回解答"

Copied!
2
0
0

Teks penuh

(1)

2019 年度 ゲームの理論 a 演習第 3 回解答

Takako Fujiwara-Greve 1. (a) 以下の四辺形のふちと内部である。

- u1

6 u2

t

(0,0) t

(5,0) t

(0,5)

t (4,4) CC

CC CC

CC XX XX XX XX

ふちと内部

(b) 以下の純戦略の組み合わせ(s1, s2)を考える。

s1:1期目はAを行い、2期目は1期目が(A,L)のときはBを、そうでないときはCをする。

s21期目はLを行い、2期目は1期目が(A,L)のときはMを、そうでないときはRをする。

(s1, s2)が部分ゲーム完全均衡であることを証明する。

2期目:歴史が(A,L)のときは(B,M)が行われ、これはGのナッシュ均衡である。

その他の歴史のときは(C,R)が行われ、これもGのナッシュ均衡である。

以上から2期目の期初から始まる全ての部分ゲームにおいて(s1, s2)をその部分ゲームに制 限した戦略の組み合わせはナッシュ均衡であることが示された。

あとは、1期目の期初から始まる部分ゲーム、すなわちG2そのものでもナッシュ均衡であ ることを示せばよい。

s2を所与として、Player 1のいろいろな戦略を考える。

s1に従うと、G2の総利得は4 + 3 = 7

1期目にBをすると2期目はPlayer2はRをしてくるので、最大でも5 + 1 = 6しか得られ ない。

1期目にCをしても、2期目はPlayer2はRをしてくるので、最大でも0 + 1 = 1しか得ら れない。

したがってs1s2に対する最適反応である。

同様にs1を所与として、Player 2のいろいろな戦略を考える。

s2に従うと、G2の総利得は4 + 3 = 7

1期目にMをすると2期目はPlayer1はCをしてくるので、最大でも0 + 1 = 1しか得られ ない。

1期目にRをしても、2期目はPlayer1Cをしてくるので、最大でも5 + 1 = 6しか得ら れない。

したがってs2s1に対する最適反応である。

2. (a) x >0であるから、どちらのプレイヤーについても純戦略XはYに支配されている。したがっ

てこれは囚人のジレンマであり、混合戦略を含めただ一つのナッシュ均衡は(Y,Y)である。

1

(2)

(b) グリム・トリガー戦略から任意の歴史の後でone-step deviationを行い、その後またsに従っ たとしても、ずっとsに従う方が長期利得が低くならない、ということを証明すればよい。

1回でも誰かがYを行なった歴史の後:

この歴史の後のs(の継続戦略)はずっとGのナッシュ均衡を行うということであるから、

この継続戦略から1期間だけ他の行動に変えて戻っても総利得は高まらない。

(Xを正の確率で行うことになるが、そのときの継続利得は最大で0 +δ·1 +δ2·1 +· · · なる。なぜなら相手はずっとYをするからである。これに対し、自分もsにしたがってずっ

とYを行えば1 +δ·1 +δ2·1 +· · · が得られる。)

これまでの歴史が(X, X)だけからなる場合、あるいは第1期の場合:

1期間だけYを行うことを考える。すると歴史は「1回でも誰かがYを行なったもの」に 変化するので次期からはお互いずっとYをすることになる。したがってこのようなone-step deviationから得られる総利得は

(3 +x) +δ·1 +δ2·1 +· · ·= (3 +x) + δ 1−δ である。これに対し、sにずっと従うと

3 +δ·3 +δ2·3 +· · ·= 3 1−δ が得られる。

また、1期間だけYとXを正の確率で行うとするとp[(3 +x) +δ·1 +δ2·1 +· · ·] + (1−p)[3 +

δ·3 +δ2·3 +· · ·]という長期利得になるので、Yを確実に行うようなone-step deviation

総利得がsの総利得より高くなければ、こちらのone-step deviation の総利得もsの総利 得より高くならない。

したがって、

3

1−δ ≧(3 +x) + δ 1−δ であれば、sが最適である。これは

δx 2 +x と同値である。したがって、δの下限は2+xx である。

(c) 2+xx xで微分すると

d dx

[ x 2 +x

]

= 2

(2 +x)2 >0

であるから、δの下限はxの増加関数である。ゲーム理論的な理由は、xが増えるということ は「目的行動の組み合わせ」(X, X)から1期間だけでも逸脱するときの利得の増分が増える ということなので、より逸脱しやすいゲームであるということであり、そのため、将来をよ り重視している状況(すなわち、より高いδ)でないと逸脱を防ぐことができないということ である。

3. (a) 期待利得を計算すると以下のようになる。

A\ B S H

(S,S’) 4, 4 0.4, 1 (S,H’) 1.6, 0.8 1.2, 1 (H,S’) 3.4, 3.6 0.2, 1 (H,H’) 1, 0.4 1, 1

(b) 純戦略の(ベイジアン)ナッシュ均衡は2つあって((S,S’), S)((S,H’), H)である。

2

Referensi

Dokumen terkait

[r]

I like watching movies, especially family movies, so I’d like to make movies which are good for children.. I want to make children

[r]

熊本大学 数理科学総合教育

,bn]P−1 となるから,P−1は基底Bから基底Aへ の基底取り替え行列である. *1定義や記号の使い方は,「村上正康・佐藤恒雄・野澤宗平・稲葉尚志 共著,教養の線形代数 六訂版,培風館」を参 考にしている.基底に関する座標,線形写像に関する表現行列は,同テキストもしくは直前の演習問題である「線 形写像の表現行列演習問題2」を見よ.... ii id : Rn

b 展開形ゲームbにおけるIn の後の利得ベクトルは2人の行動A, Bの組み合わせにのみ依存し、aの場合 と同じであるとし、bの樹形図内の1, 2, 3, 4に当てはまる利得ベクトルを(uK, uW の順に)答えな さい。また、純戦略による部分ゲーム完全均衡を全て求めなさい。(Kさんの戦略を正確に書かないと減点。)