• Tidak ada hasil yang ditemukan

2013年度 ゲームの理論 a 演習第4回解答

N/A
N/A
Protected

Academic year: 2024

Membagikan "2013年度 ゲームの理論 a 演習第4回解答"

Copied!
3
0
0

Teks penuh

(1)

2013 年度 ゲームの理論 a 演習第 4 回解答

グレーヴァ香子

1. 部分ゲーム完全均衡ではない。s1に対してs2よりも高い利得を与える戦略、あるいはs2に対してs1 よりも高い利得を与える戦略があることを示せばよい。2回目の部分ゲームはナッシュ均衡になって いるので、1回目で考えるべきだということもわかる。

例えば、1回目にプレイヤー1がBをするs1 = (B, A, B, B, B)を考えるとU1(s1, s2) =u1(B, a) + u1(B, b) = 1 + 5であるが、U1(s1, s2) = 2 + 2であるからs1s2に対して最適反応ではない。

つまり、段階ゲームのナッシュ均衡を任意に組み合わせては均衡にならないということである。

2. grim-trigger戦略として、t= 1,2, . . .の期初におけるhistoryhtによって場合分けして、

s1(ht) =

{ D ifht= orht= (D, R)t1 U otherwise

s2(ht) =

{ R ifht= orht= (D, R)t1 L otherwise

という組み合わせを考える。この組み合わせが部分ゲーム完全均衡であるための条件を求めるのであ るが、行動の名前以外は対称なゲームであるので、プレイヤー1についてだけ考えれば十分である。

部分ゲームは2種類に分けられ、第1期(h1 =)またはずっと(D, R)が続いてきた場合の部分ゲー ムと、そうでない場合の部分ゲームである。後者においては、(U, L)という段階ゲームのナッシュ均 衡を何があってもプレイする、という戦略になっているので、任意のδについてナッシュ均衡であ る。前者について、s1がunimprovableである条件を調べる。1回だけ行動を変えると、今期は最大 でu1(U, R) = 6を得ることができるが、来期からは(D, R)以外の行動が含まれた歴史の後、という 部分ゲームに入る。そこでは毎期(U, L)をプレイするので、合計すると

6 +δ· 2 1−δ

が割引総利得である。これに対し、s1に従うと、今期はu1(D, R) = 5で、来期以降も毎期5を得る。

したがって、s1unimprovableである条件は

5 +δ· 5

1−δ =6 +δ· 2

1−δ ⇐⇒ δ= 1 4

ゆえに求めるδの下限は14 である。

3. (a) 利得ベクトルを縦に描いたものが以下(横でもいいが、わかりやすく。)

N

晴れ(12) HHHH

HHHHj 雨(12)

P1

映画館 HH HHj

ビーチ

P1

映画館 HH HHj ビーチ

P2

映画館 @

@@Rビーチ映 @

@@Rビ 映 @

@@Rビ 映 @

@@Ru1

u2

( 3 3

) ( 3 0

) ( 0 0

) ( 5 5

) ( 3 3

) ( 3 0

) ( 0 0

) ( 1 1

)

1

(2)

(b) 樹形図にP1の戦略部分をマークしてみるとわかりやすい。

N

晴れ(12) HHHH

HHHHj 雨(12)

P1

映画館 HH HHj

ビーチ

P1

映画館 HH HHj ビーチ

P2

映画館 @

@@Rビーチ映 @

@@Rビ 映 @

@@Rビ 映 @

@@Ru1

u2 ( 3

3

) ( 3 0

) ( 0 0

) ( 5 5

) ( 3 3

) ( 3 0

) ( 0 0

) ( 1 1

)

ゆえに、P2が映画館という純戦略をすると期待利得は 120 +123、ビーチをすると125 + 120なの で、ビーチという純戦略が最適反応である。(混合戦略をしてもビーチという純戦略より高い利 得は得られない。)

(c) P2がビーチという純戦略をとるときを、以下のようにマークしてみる。

N

晴れ(12) HHHH

HHHHj 雨(12)

P1

映画館 HH HHj

ビーチ

P1

映画館 HH HHj ビーチ

P2

映画館 @

@@Rビーチ映 @

@@Rビ 映 @

@@Rビ 映 @

@@Ru1

u2 ( 3

3

) ( 3 0

) ( 0 0

) ( 5 5

) ( 3 3

) ( 3 0

) ( 0 0

) ( 1 1

)

ゆえに、P1(ビーチ、映画館)をすると期待利得は125 +123(ビーチ、ビーチ)だと125 +121

(映画館、ビーチ)だと1

23 +121(映画館、映画館)だと1

23 +123となり、純戦略の中では(ビー チ、映画館)が最も期待利得が高い。したがって、混合戦略まで考えてもこれだけが最適反応 であり、

(s1, s2) =((ビーチ、映画館)、ビーチ)はナッシュ均衡である。

(d) 同様に、(映画館、映画館)をまずマークして、P2の最適反応を求める。

2

(3)

N

晴れ(12) HHHH

HHHHj 雨(12)

P1

映画館 HH HHj

ビーチ

P1

映画館 HH HHj ビーチ

P2

映画館 @

@@Rビーチ映 @

@@Rビ 映 @

@@Rビ 映 @

@@Ru1

u2 ( 3

3

) ( 3 0

) ( 0 0

) ( 5 5

) ( 3 3

) ( 3 0

) ( 0 0

) ( 1 1

)

ゆえに、映画館だと期待利得は 1

23 +123、ビーチだと 120 +120なので、映画館が最適反応。

P1について、(c)と異なり、晴れのときのP1と雨のときのP1で別々に最大化すると考えてみ る。(P2は映画館という純戦略とする。)

晴れのとき、P1はどちらをすればよいか、で考えると、映画館に行くと3が得られ(期待利得 ではない)、ビーチに行くと0である。したがって晴れのときは映画館に行くのがよい。(まだ 最適反応ではない、戦略を作っていない。)

雨のときP1がどちらをすればよいかを考えると、映画館に行くと3が得られ、ビーチだと0 ある。

ゆえに、(映画館、映画館)という(行動)戦略が最適反応である。

まとめると、(s1, s2) =((映画館、映画館)、映画館)はナッシュ均衡である。

3

Referensi