Lecture Note 1
ทฤษฎีเกมส (Game Theory) ตอนที่ 1 อ.ดร.กรกรัณย ชีวะตระกุลพงษ
ทฤษฎีเกมสจะเปนการศึกษาถึงปญหาในลักษณะที่การตัดสินใจและผลลัพธที่เกิดขึ้น ขึ้นอยูกับบุคลลมากกวา 1 คน ซึ่งใชกันอยางกวางขวางในชวงทศวรรษที่ผานมา ทั้งในสาย เศรษฐศาสตรและอื่น ๆ ตัวอยางการใชทฤษฎีเกมสตัดสินใจปญหาทางเศรษฐศาสตรไดแก:
- การตัดสินใจปริมาณสินคาที่แตละบริษัทจะผลิตในตลาดผูแขงขันนอยราย
- การตัดสินใจในเรื่องของคาจางแรงงานระหวางบริษัทและสหภาพแรงงาน
- การเจรจาการคาเพื่อลดอัตราภาษีศุลกากรระหวางประเทศ
- การประมูล
นอกจากนี้ ทฤษฎีเกมสยังสามารถนําไปประยุกตใชเพื่อศึกษาปญหาในดานอื่น ๆ เชน ธุรกิจ ชีววิทยา การศึกษา และสังคมศาสตร
โดยลักษณะของเกมสที่จะทําการศึกษาในที่นี้ จะเปนเกมสในลักษณะที่เราเรียกวา
“Non-cooperative game theory”
Non-cooperative game theory
เปนทฤษฎีเกมสที่ทําการสรางแบบจําลองในสถานการณที่มีผูเลนหลายคน และแตละ คนจะทําการตัดสินใจที่ผลลัพธขึ้นอยูกับทั้งทางเลือกที่ตนเองเลือก และทางเลือกที่ผูอื่นเลือก
จุดกําเนิดที่สําคัญของทฤษฎีเกมสคือในป 1950-51 เมื่อ John Nash ไดเขียนงานศึกษา เกี่ยวกับ Non-cooperative game โดยไดพิสูจนวาในทุก ๆ เกมสในลักษณะที่เปน Non- cooperative จะมีดุลยภาพอยางนอย 1 ดุลยภาพเสมอ โดยตอมา เราจะเรียกดุลยภาพที่ Nash ทําการพิสูจนวา “Nash equilibrium” ซึ่งเปนลักษณะดุลภาพที่ใชกันอยางกวางขวางที่สุดใน การศึกษาเกี่ยวกับทฤษฎีเกมส
คําอธิบายของเกมส (Description of game)
ในเกมสแตละอัน จะตองมีสวนประกอบตอไปนี้
1. ใครเปนผูเลนของเกมส
2. กฏของเกมส อันประกอบไปดวย
- เมื่อไหรที่ผูเลนจะสามารถทําการตัดสินใจได
- เมื่อผูเลนสามารถทําการตัดสินใจได อะไรเปนขอมูลที่ผูเลนทราบ
- มีทางเลือกใดที่ผูเลนสามารถเลือกไดในเวลาที่เขาตองทําการตัดสินใจ
3. ผลตอบแทนหรืออรรถประโยชนที่ผูเลนแตละคนจะไดรับจากทางเลือกที่เปนไปได
ทั้งหมดในเกมสนั้น
ชนิดของเกมส
1. Normal form Games
เปนเกมสในลักษณะที่ผูเลนทุกคนตองทําการตัดสินใจ หรือเลือกทางเลือกพรอม ๆ กัน ตัวอยางเชน การตัดสินใจเลือกปริมาณสินคาที่จะผลิตของตลาดผูขายนอยราย
2. Extensive form Games
เปนเกมสในลักษณะที่มีลําดับในการเลน หรือการเลือกทางเลือกของผูเลนแตละคนกําหนด ไวอยางชัดเจน ตัวอยางเชน การเลนจับหมู การเลนหมากรุก
Normal Form Game
Normal form game คือเกมสที่ผูเลนในเกมจะเลือกกลยุทธของตนพรอม ๆ กัน โดย ผลลัพธหรืออรรถประโยชนของเกมสจะขึ้นอยูกับกลยุทธที่ผูเลนทุกคนในเกมส ๆ นั้นเลือก โดย Normal form game จะประกอบดวย :
1. ผูเลน i = {1,…….,N}
2. กลยุทธที่แตละคนจะเลือกได (strategy set)
3. ฟงกชั่นผลตอบแทน (payoff function) จากผลลัพธ (outcome) แตละอยางในเกมส
ตัวอยางที่ 1: Prisoner-dilemma Game
Prisoner-dilemma game จะเปนตัวอยางของเกมสที่สําคัญอยางหนึ่งในลักษณะ non- cooperative game กลาวคือ ในเกมสประเภทนี้ หากผูเลนทั้ง 2 คนรวมมือกัน จะไดรับ ผลตอบแทนสูงกวาดุลยภาพที่เกิดขึ้นของเกมส
เกมสนี้จะมีลักษณะดังตอไปนี้ ในเกมสจะมีผูเลนสองคน คือนักโทษคนที่ 1 และคนที่ 2 นักโทษแตละคนจะมีทางเลือกอยู 2 ทาง ไดแก สารภาพผิด หรือไมสารภาพ ซึ่งเราสามารถ สรางผลลัพธและผลตอบแทนที่จะไดของแตละคนเปนเมทริคดังตอไปนี้ และจะเรียกเมทริคนี้วา
“เมทริคผลตอบแทน (payoff matrix)”
Prisoner 2
confess Don’t confess confess
3 years, 3 years Free, 10 years prisoner
1 Don’t
confess 10 years, free 1 years, 1 years
ตัวเลขดานหนาในแตละชองคือผลตอบแทนสําหรับนักโทษคนที่ 1 และตัวเลขดานหลัง คือผลตอบแทนสําหรับนักโทษคนที่ 2 ในเกมส Prisoner-dilemma จะมีสวนประกอบของเกมส
ดังตอไปนี้ :
1. ผูเลน: ในที่นี้มีผูเลน 2 คน ไดแก prisoner 1 และ prisoner 2
2. เซ็ตของกลยุทธ: เซ็ตกลยุทธของ prisoner 1 ไดแก = {confess, don’t confess}
3. ผลตอบแทน แสดงไดในเมทริคผลตอบแทนขางบน
Strategy Profile
เปนสวนผสมของกลยุทธที่แตละคนเลือกรวมกัน ซึ่ง Strategy profile ซึ่งจะมีดวยกัน 2 แบบ ไดแก
1. Pure strategy profile
จากตัวอยางเกมส prisoner-dilemma ขางตน เราสามารถเขียน pure strategy profile ทั้งหมดไดดังนี้
= {(confess, confess), (confess, don’t confess), (don’t confess, confess), (don’t confess, don’t confess)}
นั่นคือ สวนผสมระหวางกลยุทธของผูเลนทั้งสองคนที่เปนไปไดทั้งหมด ซึ่งก็คือชอง ทั้งหมดในเมทริคผลตอบแทนนั่นเอง
2. Mixed strategy profile
เปนกรณีที่มีการกําหนดความนาจะเปนใหกับกลยุทธของผูเลนแตละคน หรือกลาวอีก นัยหนึ่งคือเปนกลยุทธในลักษณะที่มีการใหเครื่องมือสุม (random device) แกผูเลนแตละคน โดยผูเลนจะใชเครื่องมือสุมดังกลาว เพื่อตัดสินวาตนจะเลือกกลยุทธแบบใด ในเวลาที่จะ ตัดสินใจ ตัวอยางเชน หากตองการกําหนดความนาจะเปนเทากับ ½ ใหกับกลยุทธแตละอยาง ตามตัวอยาง เราสามารถใหเครื่องมือสุมเปนการโยนเหรียญ โดยกําหนดใหผูเลนทําการเลือกกล ยุทธ confess หากเหรียญออกหัว และ don’t confess หากเหรียญออกกอย
สมมติให σ แทน mixed strategy profile เราจะสามารถเขียนกลยุทธผสม (mixed strategy) ของผูเลนแตละคนไดดังนี้
)}
' ( ), (
{ 1 1
1 σ confess σ dont σ =
)}
' ( ), (
{ 2 2
2 σ confess σ dont σ =
สมมติให mixed strategy ของแตละคนเปนดังนี้
} 3 / 2 , 3 / 1
1 ={ σ
} 4 / 1 , 4 / 3
2 ={ σ
ในกรณีนี้ เราจะสามารถเขียน mixed strategy profile ไดดังนี้
} 6 / 1 ) ' ' ( , 2 / 1 ) '
( , 12 / 1 ) ' (
, 4 / 1 ) (
{σ confessxconfess = σ confessxdont = σ dontxconfess = σ dontxdont =
จากนั้น เราจะตองหาผลตอบแทนที่คาดวาจะไดรับ จากกลยุทธผสมที่กําหนดไวดานตน ซึ่งเราสามารถคํานวณหา “expected utility” ไดดังตอไปนี้
∑ ∏
∈ ∈
=
S
s i N
j i j j i
j
s s
u
u (σ) ( ) σ ( )
โดยที่ j แทนกลยุทธของผูเลน i แทนผูเลน sj แทน pure strategy แตละอัน และ
) ( j
i s
σ แทนกลยุทธผสมของผูเลน i ซึ่งแสดงถึงความนาจะเปนที่ผูเลน i จะเลือกกลยุทธ sj
จากตัวอยาง prisoner-dilemma game ที่แสดงขางตน สมมติเราแปลงเมทริค ผลตอบแทนใหเปนอรรถประโยชนที่เปนตัวเลขเพื่อใหงายตอการคํานวณ ไดดังเมทริคที่แสดง ดานลางนี้
Prisoner 2
confess Don’t confess confess
1,1 3,0 prisoner
1 Don’t
confess 0,3 2,2
ในกรณีนี้ เราสามารถคํานวณ expected utility ไดดังนี้
Expected utility ของ prisoner 1 = ¼ x 1 + 1/12 x 3 + ½ x 0 + 1/6 x 2
= 11/12
Expected utility ของ prisoner 2 = ¼ x 1 + 1/12 x 0 + ½ x 3 + 1/6 x 2
= 11/6 แนวคิดเกี่ยวกับดุลยภาพของเกมส (Equilibrium Concept)
คําถามที่สําคัญเกี่ยวกับทฤษฎีเกมสไดแก ในเกมส ๆ หนึ่ง ผลลัพธที่นาจะเกิดขึ้นจาก เกมสนั้นควรเปน strategy profile อันไหน ซึ่งในการที่จะตอบคําถามนี้ได จะตองหาดุลยภาพ ของเกมสที่เกิดขึ้น โดยแนวคิดเกี่ยวกับดุลยภาพของเกมสแบบ Normal form มีอยูดวยกัน หลายแบบ ในที่นี้ จะพูดถึงแนวคิดเกี่ยวกับการหาดุลยภาพในแบบที่เปนพื้นฐาน งาย และนิยม ใชกันที่สุด 3 แบบ ไดแก Dominant strategy, iteratedly strictly dominated strategy และ Nash equilibrium
1. Dominant Strategy
คํานิยาม: กลยุทธจะมีลักษณะ strictly dominant สําหรับผูเลนคนที่ i ก็ตอเมื่อกลยุทธดังกลาง ใหผลตอบแทนแกผูเลนคนที่ i มากกวากลยุทธอื่น ๆ ทั้งหมดที่มีอยูในเซ็ตกลยุทธของเขา ไมวา ผูเลนคนอื่นจะเลือกกลยุทธใดก็ตาม
จากตัวอยางเกมส prisoner-dilemma จะเห็นไดวา confess เปนกลยุทธที่ดีที่สุดสําหรับ นักโทษทั้งคนที่ 1 และคนที่ 2 ไมวาผูเลนอีกคนหนึ่งจะเลือกกลยุทธใดก็ตาม ดังนั้น confess จึง เปน “strictly dominant strategy” สําหรับผูเลนทั้งสองคน ขณะเดียวกัน เราก็สามารถ คาดการณไดวา ผลลัพธของเกมสที่นาจะเกิดขึ้นที่สุดคือ (confess,confess) นั่นคือนักโทษทั้ง 2 เลือกที่จะสารภาพ
ซึ่งจะเห็นไดจากเมทริคผลตอบแทนวา ผลตอบแทนที่นักโทษทั้งสองจะไดรับกรณีที่ทั้ง สองเลือกที่จะไมสารภาพจะดีกวาดุลยภาพที่เกิดขึ้น อยางไรก็ตาม จากการที่นักโทษแตละคน เลือกกลยุทธโดยไมคํานึงถึงผลตอบแทนที่อีกคนหนึ่งจะไดรับ และไมรวมมือกัน ทําใหผลลัพธที่
ออกมาใหผลตอบแทนนอยกวา ซึ่งก็คือการที่ทั้งคูยอมสารภาพนั่นเอง หมายเหตุ:
- ขอดีของ strictly dominant strategy ก็คือ หากเกมใดมีกลยุทธประเภทนี้ จะมีดุลย ภาพ (ประเภท Nash) เพียง 1 ดุลยภาพในเกม ๆ นั้น ซึ่งก็คือดุลยภาพที่
ประกอบดวย strictly dominant strategy นั่นเอง
- ในเกมสแตละเกมสอาจจะไมมีกลยุทธประเภท strictly dominant strategy เลยก็ได
2. Iterated Strictly Dominated Strategy
ถาหากไมมี strictly dominant strategy เราจะสามารถหาการคาดการณเกี่ยวกับ ผลลัพธที่จะเกิดขึ้นของเกมสไดอยางไร วิธีอีกวิธีหนึ่งที่นิยมใชกันคือการกําจัดกลยุทธที่ผูเลนจะ ไมเลือกเลน (ถูก dominate โดยกลยุทธอื่น กลาวคือมีกลยุทธอื่นที่ดีกวา) ออกไปเพื่อหาดุลย ภาพจากกลยุทธที่เหลืออยู
คํานิยาม: กลยุทธ si เปนกลยุทธที่เรียกวา strictly dominated strategy หากมีกลยุทธอื่นที่ให
ผลตอบแทนแกผูเลนคนนั้นสูงกวากลยุทธ si ไมวาผูเลนคนอื่นจะเลือกเลนกลยุทธใดก็ตาม
ตัวอยางที่ 2:
L R T 3,… 0,…
M 2,… 2,…
D 1,… 1,…
พิจารณาผลตอบแทนของผูเลนคนที่ 1 จะเห็นไดวา ไมวาผูเลนคนที่ 2 จะเลือกกลยุทธ
L หรือ R กลยุทธ D จะใหผลตอบแทนแกผูเลนคนที่ 1 นอยกวากลยุทธ M เสอม ดังนั้น เราจึง กลาวไดวา กลยุทธ D นั้นถูก strictly dominated โดยกลยุทธ M ทําใหเราสามารถตัดกลยุทธ D ออกจากการตัดสินใจหาผลลัพธของเกมสได
หมายเหตุ:
1. การจะหาวากลยุทธใดเปน dominant strategy เราสามารถตรวจสอบเฉพาะกลยุทธ
แบบ pure ก็พอ
2. แตหากเราจะตรวจสอบวากลยุทธใดเปน strictly dominated strategy เราจะตอง พิจารณากรณีที่กลยุทธถูก dominate ดวยกลยุทธแบบผสม (mixed strategy) ดวย
เพราะกลยุทธบางกลยุทธจะไมถูก dominate โดยกลยุทธแบบ pure แตสามารถถูก dominate โดยกลยุทธแบบผสมได ดังตัวอยางตอไปนี้
L R T 3,… 0,…
M 0,… 3,…
D 1,… 1,…
จะเห็นไดวาทุกกลยุทธของผูเลนคนแรก คือ T,M และ D จะไมถูก dominate โดย pure strategy อันใดเลย แตหากเราพิจารณากรณีที่สราง mixed strategy ระหวาง T กับ M จะสามารถ dominate กลยุทธ D ได โดยการสราง mixed strategy ½ T + ½ M ซึ่งจะ ทําใหผลตอบแทนสามารถแสดงไดดังเมทริคตอไปนี้
L R
½ T + ½ M 1.5,… 1.5,…
D 1,… 1,…
ดังนั้น กลยุทธ D จะถูก dominate โดยกลยุทธ ½ T + ½ M ทําใหเราสามารถตัดกล ยุทธ D ออกจากการพิจารณาหาผลลัพธของเกมสไดเชนกัน
3. หากกลยุทธแบบ pure อันไหนเปน strictly dominated strategy กลยุทธแบบผสมที่ถูก สรางขึ้นโดยใชกลยุทธแบบ pure อันนั้นเปนสวนประกอบก็จะเปน strictly dominated strategy ดวยเชนกัน
กระบวนการตัดกลยุทธที่เปน strictly dominated ออกไปแบบซ้ํา ๆ (The Process of Iterated Elimination of Strictly Dominated Strategy)
ตัวอยางที่ 3:
Left Middle Right Up 1,0 1,2 0,1 Down 0,3 0,1 2,0
จากเกมสในตัวอยางที่ 3 จะเห็นไดวา สําหรับผูเลนคนแรก กลยุทธ Up และ Down ไมมี
อันไหนเปน strictly dominated แตกลยุทธ Right ของผูเลนคนที่ 2 นั้นถูก dominated โดยกล ยุทธ Middle เราจึงสามารถตัดกลยุทธนี้ออกจากการพิจารณาได ทําใหเกมสที่เราพิจารณาอยู
สามารถลดรูปไดดังนี้
Left Middle Up 1,0 1,2 Down 0,3 0,1
จากเกมสในขางบนนี้ จะเห็นไดวา กลยุทธ Down ของผูเลนคนแรก จะถูก dominated โดยกลยุทธ Up ดังนั้น เราสามารถตัดกลยุทธ Down ทิ้งไปไดเชนกัน ทําใหเกมสลดรูปเหลือดัง เมทริคตอไปนี้
Left Middle Up 1,0 1,2
สุดทาย กลยุทธ Left จะถูก dominate โดยกลยุทธ Middle ดังนั้น เราสามารถตัดกล ยุทธ Left ออกไปไดเชนกัน ผลลัพธจากเกมนี้จากกระบวนการตัด strictly dominated strategy ซ้ํา ๆ จะทําใหเราได pure strategy profile (Up, Middle) เปนคําตอบของเกมสอันนี้
ขอเสียของวิธี Iterated Elimination of Strictly Dominated Strategy
1. ผลลัพธที่ไดอาจจะไมไดเหลือเพียง pure strategy profile อันเดียวอยางที่เห็นใน ตัวอยางที่ 3 ในบางครั้งกระบวนการนี้จะเหลือกลยุทธอยูมากมายที่ไมถูก dominate โดยที่กลยุทธเหลานั้นอาจจะไมไดเปนผลลัพธของเกมสเลยก็ได
2. ในการที่จะใชกระบวนการนี้ในการหาคําตอบได เราจะตองมีขอสมมติ ไมเพียงแตวาผู
เลนเปนคน rational แตจะตองสมมติวา ผูเลนรูวาผูเลนอีกคน rational และผูเลนอีกคน รูวาผูเลนอีกคนรูวาผูเลน rational และสมมติแบบนี้ซ้ํา ๆ ไปเรื่อย ๆ ซึ่งทําใหขอ สมมติฐานมีความซับซอนและยุงยากมาก
ตัวอยางที่ 4 (ทําในชั้นเรียน):
ใหหาผลลัพธจากเกมสตอไปนี้โดยใชกระบวนการ iterated elimination of strictly dominated strategies
L C R T 2,2 6,1 1,1 M 1,3 5,5 9,2
B 0,0 4,2 8,8
3. Nash Equilibrium
เปนผลลัพธของเกมสที่เกิดขึ้นเมื่อผูเลนทุกคนในเกมสเลือกกลยุทธที่เปน “Best- response” เมื่อกลยุทธของคนอื่นถูกกําหนดให กลาวคือคนอื่นถูกกําหนดใหเลือกกลยุทธที่เปน Best-response เชนกัน
นิยาม: Best-response
กลยุทธ σi* จะเรียกวาเปน Best-response สําหรับผูเลนที่ i ก็ตอเมื่อ
) , ( max
arg *
*
i i i
i u
i
= σ σ−
σ σ
กลาวคือ เมื่อกําหนดใหผูเลนทุกคน ยกเวนคนที่ i เลือกที่จะเลนกลยุทธที่เปน Best- response ของเขาเหลานั้นแลว กลยุทธ σi*จะเรียกวาเปน Best-response เมื่อกลยุทธ σi* ทํา ใหผลตอบแทนสําหรับผูเลน i สูงสุด
ตัวอยางที่ 5:
ใหกลับมาพิจารณาเกมส prisoner-dilemma ในตัวอยางที่ 1 และหากลยุทธที่เปน Best- response สําหรับผูเลนแตละคน
Prisoner 2
confess Don’t confess confess
1,1 3,0 prisoner
1 Don’t
confess 0,3 2,2
กลยุทธที่เปน Best-response สําหรับ Prisoner 1
- กําหนดใหผูเลนคนที่ 2 เลือกกลยุทธ Confess ผูเลนคนที่ 1 จะเลือก confess ดังนั้น สําหรับผูเลนคนแรก กลยุทธ confess จึงเปน best-response ในกรณีที่ผู
เลนคนที่ 2 เลือกกลยุทธ confess หรือเขียนไดวา confess = BR1(confess)
- กําหนดใหผูเลนคนที่ 2 เลือกกลยุทธ Don’t confess ผูเลนคนที่ 1 จะเลือก confess ดังนั้น สําหรับผูเลนคนแรก กลยุทธ confess จึงเปน best-response ในกรณีที่ผู
เลนคนที่ 2 เลือกกลยุทธ Don’t confess หรือเขียนไดวา confess = BR1(don’t confess)
กลยุทธที่เปน Best-response สําหรับ Prisoner 2
- กําหนดใหผูเลนคนที่ 1 เลือกกลยุทธ Confess ผูเลนคนที่ 2 จะเลือก confess ดังนั้น สําหรับผูเลนคนที่ 2 กลยุทธ confess จึงเปน best-response ในกรณีที่ผูเลน คนที่ 1 เลือกกลยุทธ confess หรือเขียนไดวา confess = BR2(confess)
- กําหนดใหผูเลนคนที่ 1 เลือกกลยุทธ Don’t confess ผูเลนคนที่ 2 จะเลือก confess ดังนั้น สําหรับผูเลนคนที่ 2 กลยุทธ confess จึงเปน best-response ในกรณีที่ผูเลน คนที่ 1 เลือกกลยุทธ Don’t confess หรือเขียนไดวา confess = BR2 (don’t confess)
Nash Equilibrium
จะเปนดุลยภาพที่เกิดขึ้นเมื่อผูเลนทุกคนเลือกกลยุทธที่เปน Best-response พรอมกัน คํานิยาม: Nash Equilibrium
Strategy profile ( , 2*,..., *)
*
1 σ σN
σ เปน Nash equilibrium เมื่อ กลยุทธ σi* เปนกลยุทธแบบ Best-response สําหรับผูเลนที่ i ทุกคน เมื่อ i = {1,…………,N}
จากตัวอยางที่ 5 ในเกมส Prisoner-dilemma จะสามารถหา strategy profile ที่เปน Best-response สําหรับผูเลนทั้งสองคนพรอมกันไดแก (Confess, Confess) ดังนั้น Strategy profile ดังกลาวจึงเปน Nash equilibrium
การตีความของ Nash equilibrium อีกประการนึงก็คือ ณ จุดดุลยภาพแบบ Nash จะไม
มีผูเลนคนไหนมีแรงจูงใจที่จะเปลี่ยนไปเลือกกลยุทธแบบอื่น (No incentives to deviate from Nash equilibrium)
ตัวอยางที่ 6 (ทําในชั้นเรียน): ใหหากลยุทธที่เปน Best-response สําหรับผูเลนทั้ง 2 คน และ หา Pure strategy Nash equilibrium
L C R T 0,4 4,0 5,3 M 4,0 0,4 5,3
B 3,5 3,5 6,6