2013 年度 ゲームの理論 a 演習第 4 回解答
グレーヴァ香子
1. 部分ゲーム完全均衡ではない。s∗1に対してs∗2よりも高い利得を与える戦略、あるいはs∗2に対してs∗1 よりも高い利得を与える戦略があることを示せばよい。2回目の部分ゲームはナッシュ均衡になって いるので、1回目で考えるべきだということもわかる。
例えば、1回目にプレイヤー1がBをするs1 = (B, A, B, B, B)を考えるとU1(s1, s∗2) =u1(B, a) + u1(B, b) = 1 + 5であるが、U1(s∗1, s∗2) = 2 + 2であるからs∗1はs∗2に対して最適反応ではない。
つまり、段階ゲームのナッシュ均衡を任意に組み合わせては均衡にならないということである。
2. grim-trigger戦略として、t= 1,2, . . .の期初におけるhistoryhtによって場合分けして、
s∗1(ht) =
{ D ifht=∅ orht= (D, R)t−1 U otherwise
s∗2(ht) =
{ R ifht=∅ orht= (D, R)t−1 L otherwise
という組み合わせを考える。この組み合わせが部分ゲーム完全均衡であるための条件を求めるのであ るが、行動の名前以外は対称なゲームであるので、プレイヤー1についてだけ考えれば十分である。
部分ゲームは2種類に分けられ、第1期(h1 =∅)またはずっと(D, R)が続いてきた場合の部分ゲー ムと、そうでない場合の部分ゲームである。後者においては、(U, L)という段階ゲームのナッシュ均 衡を何があってもプレイする、という戦略になっているので、任意のδについてナッシュ均衡であ る。前者について、s∗1がunimprovableである条件を調べる。1回だけ行動を変えると、今期は最大 でu1(U, R) = 6を得ることができるが、来期からは(D, R)以外の行動が含まれた歴史の後、という 部分ゲームに入る。そこでは毎期(U, L)をプレイするので、合計すると
6 +δ· 2 1−δ
が割引総利得である。これに対し、s∗1に従うと、今期はu1(D, R) = 5で、来期以降も毎期5を得る。
したがって、s∗1がunimprovableである条件は
5 +δ· 5
1−δ =6 +δ· 2
1−δ ⇐⇒ δ= 1 4
ゆえに求めるδの下限は14 である。
3. (a) 利得ベクトルを縦に描いたものが以下(横でもいいが、わかりやすく。)
N
晴れ(12) HHHH
HHHHj 雨(12)
P1
映画館 HH HHj
ビーチ
P1
映画館 HH HHj ビーチ
P2
映画館 @
@@Rビーチ映 @
@@Rビ 映 @
@@Rビ 映 @
@@Rビ u1
u2
( 3 3
) ( 3 0
) ( 0 0
) ( 5 5
) ( 3 3
) ( 3 0
) ( 0 0
) ( 1 1
)
1
(b) 樹形図にP1の戦略部分をマークしてみるとわかりやすい。
N
晴れ(12) HHHH
HHHHj 雨(12)
P1
映画館 HH HHj
ビーチ
P1
映画館 HH HHj ビーチ
P2
映画館 @
@@Rビーチ映 @
@@Rビ 映 @
@@Rビ 映 @
@@Rビ u1
u2 ( 3
3
) ( 3 0
) ( 0 0
) ( 5 5
) ( 3 3
) ( 3 0
) ( 0 0
) ( 1 1
)
ゆえに、P2が映画館という純戦略をすると期待利得は 120 +123、ビーチをすると125 + 120なの で、ビーチという純戦略が最適反応である。(混合戦略をしてもビーチという純戦略より高い利 得は得られない。)
(c) P2がビーチという純戦略をとるときを、以下のようにマークしてみる。
N
晴れ(12) HHHH
HHHHj 雨(12)
P1
映画館 HH HHj
ビーチ
P1
映画館 HH HHj ビーチ
P2
映画館 @
@@Rビーチ映 @
@@Rビ 映 @
@@Rビ 映 @
@@Rビ u1
u2 ( 3
3
) ( 3 0
) ( 0 0
) ( 5 5
) ( 3 3
) ( 3 0
) ( 0 0
) ( 1 1
)
ゆえに、P1が(ビーチ、映画館)をすると期待利得は125 +123、(ビーチ、ビーチ)だと125 +121、
(映画館、ビーチ)だと1
23 +121、(映画館、映画館)だと1
23 +123となり、純戦略の中では(ビー チ、映画館)が最も期待利得が高い。したがって、混合戦略まで考えてもこれだけが最適反応 であり、
(s1, s2) =((ビーチ、映画館)、ビーチ)はナッシュ均衡である。
(d) 同様に、(映画館、映画館)をまずマークして、P2の最適反応を求める。
2
N
晴れ(12) HHHH
HHHHj 雨(12)
P1
映画館 HH HHj
ビーチ
P1
映画館 HH HHj ビーチ
P2
映画館 @
@@Rビーチ映 @
@@Rビ 映 @
@@Rビ 映 @
@@Rビ u1
u2 ( 3
3
) ( 3 0
) ( 0 0
) ( 5 5
) ( 3 3
) ( 3 0
) ( 0 0
) ( 1 1
)
ゆえに、映画館だと期待利得は 1
23 +123、ビーチだと 120 +120なので、映画館が最適反応。
P1について、(c)と異なり、晴れのときのP1と雨のときのP1で別々に最大化すると考えてみ る。(P2は映画館という純戦略とする。)
晴れのとき、P1はどちらをすればよいか、で考えると、映画館に行くと3が得られ(期待利得 ではない)、ビーチに行くと0である。したがって晴れのときは映画館に行くのがよい。(まだ 最適反応ではない、戦略を作っていない。)
雨のときP1がどちらをすればよいかを考えると、映画館に行くと3が得られ、ビーチだと0で ある。
ゆえに、(映画館、映画館)という(行動)戦略が最適反応である。
まとめると、(s1, s2) =((映画館、映画館)、映画館)はナッシュ均衡である。
3