• Tidak ada hasil yang ditemukan

Lecture Note 1

N/A
N/A
Protected

Academic year: 2024

Membagikan "Lecture Note 1"

Copied!
9
0
0

Teks penuh

(1)

Lecture Note 1

ทฤษฎีเกมส (Game Theory) ตอนที่ 1 อ.ดร.กรกรัณย ชีวะตระกุลพงษ

ทฤษฎีเกมสจะเปนการศึกษาถึงปญหาในลักษณะที่การตัดสินใจและผลลัพธที่เกิดขึ้น ขึ้นอยูกับบุคลลมากกวา 1 คน ซึ่งใชกันอยางกวางขวางในชวงทศวรรษที่ผานมา ทั้งในสาย เศรษฐศาสตรและอื่น ๆ ตัวอยางการใชทฤษฎีเกมสตัดสินใจปญหาทางเศรษฐศาสตรไดแก:

- การตัดสินใจปริมาณสินคาที่แตละบริษัทจะผลิตในตลาดผูแขงขันนอยราย

- การตัดสินใจในเรื่องของคาจางแรงงานระหวางบริษัทและสหภาพแรงงาน

- การเจรจาการคาเพื่อลดอัตราภาษีศุลกากรระหวางประเทศ

- การประมูล

นอกจากนี้ ทฤษฎีเกมสยังสามารถนําไปประยุกตใชเพื่อศึกษาปญหาในดานอื่น ๆ เชน ธุรกิจ ชีววิทยา การศึกษา และสังคมศาสตร

โดยลักษณะของเกมสที่จะทําการศึกษาในที่นี้ จะเปนเกมสในลักษณะที่เราเรียกวา

“Non-cooperative game theory”

Non-cooperative game theory

เปนทฤษฎีเกมสที่ทําการสรางแบบจําลองในสถานการณที่มีผูเลนหลายคน และแตละ คนจะทําการตัดสินใจที่ผลลัพธขึ้นอยูกับทั้งทางเลือกที่ตนเองเลือก และทางเลือกที่ผูอื่นเลือก

จุดกําเนิดที่สําคัญของทฤษฎีเกมสคือในป 1950-51 เมื่อ John Nash ไดเขียนงานศึกษา เกี่ยวกับ Non-cooperative game โดยไดพิสูจนวาในทุก ๆ เกมสในลักษณะที่เปน Non- cooperative จะมีดุลยภาพอยางนอย 1 ดุลยภาพเสมอ โดยตอมา เราจะเรียกดุลยภาพที่ Nash ทําการพิสูจนวา “Nash equilibrium” ซึ่งเปนลักษณะดุลภาพที่ใชกันอยางกวางขวางที่สุดใน การศึกษาเกี่ยวกับทฤษฎีเกมส

คําอธิบายของเกมส (Description of game)

ในเกมสแตละอัน จะตองมีสวนประกอบตอไปนี้

1. ใครเปนผูเลนของเกมส

2. กฏของเกมส อันประกอบไปดวย

- เมื่อไหรที่ผูเลนจะสามารถทําการตัดสินใจได

- เมื่อผูเลนสามารถทําการตัดสินใจได อะไรเปนขอมูลที่ผูเลนทราบ

- มีทางเลือกใดที่ผูเลนสามารถเลือกไดในเวลาที่เขาตองทําการตัดสินใจ

3. ผลตอบแทนหรืออรรถประโยชนที่ผูเลนแตละคนจะไดรับจากทางเลือกที่เปนไปได

ทั้งหมดในเกมสนั้น

(2)

ชนิดของเกมส

1. Normal form Games

เปนเกมสในลักษณะที่ผูเลนทุกคนตองทําการตัดสินใจ หรือเลือกทางเลือกพรอม ๆ กัน ตัวอยางเชน การตัดสินใจเลือกปริมาณสินคาที่จะผลิตของตลาดผูขายนอยราย

2. Extensive form Games

เปนเกมสในลักษณะที่มีลําดับในการเลน หรือการเลือกทางเลือกของผูเลนแตละคนกําหนด ไวอยางชัดเจน ตัวอยางเชน การเลนจับหมู การเลนหมากรุก

Normal Form Game

Normal form game คือเกมสที่ผูเลนในเกมจะเลือกกลยุทธของตนพรอม ๆ กัน โดย ผลลัพธหรืออรรถประโยชนของเกมสจะขึ้นอยูกับกลยุทธที่ผูเลนทุกคนในเกมส ๆ นั้นเลือก โดย Normal form game จะประกอบดวย :

1. ผูเลน i = {1,…….,N}

2. กลยุทธที่แตละคนจะเลือกได (strategy set)

3. ฟงกชั่นผลตอบแทน (payoff function) จากผลลัพธ (outcome) แตละอยางในเกมส

ตัวอยางที่ 1: Prisoner-dilemma Game

Prisoner-dilemma game จะเปนตัวอยางของเกมสที่สําคัญอยางหนึ่งในลักษณะ non- cooperative game กลาวคือ ในเกมสประเภทนี้ หากผูเลนทั้ง 2 คนรวมมือกัน จะไดรับ ผลตอบแทนสูงกวาดุลยภาพที่เกิดขึ้นของเกมส

เกมสนี้จะมีลักษณะดังตอไปนี้ ในเกมสจะมีผูเลนสองคน คือนักโทษคนที่ 1 และคนที่ 2 นักโทษแตละคนจะมีทางเลือกอยู 2 ทาง ไดแก สารภาพผิด หรือไมสารภาพ ซึ่งเราสามารถ สรางผลลัพธและผลตอบแทนที่จะไดของแตละคนเปนเมทริคดังตอไปนี้ และจะเรียกเมทริคนี้วา

“เมทริคผลตอบแทน (payoff matrix)”

Prisoner 2

confess Don’t confess confess

3 years, 3 years Free, 10 years prisoner

1 Don’t

confess 10 years, free 1 years, 1 years

ตัวเลขดานหนาในแตละชองคือผลตอบแทนสําหรับนักโทษคนที่ 1 และตัวเลขดานหลัง คือผลตอบแทนสําหรับนักโทษคนที่ 2 ในเกมส Prisoner-dilemma จะมีสวนประกอบของเกมส

ดังตอไปนี้ :

1. ผูเลน: ในที่นี้มีผูเลน 2 คน ไดแก prisoner 1 และ prisoner 2

(3)

2. เซ็ตของกลยุทธ: เซ็ตกลยุทธของ prisoner 1 ไดแก = {confess, don’t confess}

3. ผลตอบแทน แสดงไดในเมทริคผลตอบแทนขางบน

Strategy Profile

เปนสวนผสมของกลยุทธที่แตละคนเลือกรวมกัน ซึ่ง Strategy profile ซึ่งจะมีดวยกัน 2 แบบ ไดแก

1. Pure strategy profile

จากตัวอยางเกมส prisoner-dilemma ขางตน เราสามารถเขียน pure strategy profile ทั้งหมดไดดังนี้

= {(confess, confess), (confess, don’t confess), (don’t confess, confess), (don’t confess, don’t confess)}

นั่นคือ สวนผสมระหวางกลยุทธของผูเลนทั้งสองคนที่เปนไปไดทั้งหมด ซึ่งก็คือชอง ทั้งหมดในเมทริคผลตอบแทนนั่นเอง

2. Mixed strategy profile

เปนกรณีที่มีการกําหนดความนาจะเปนใหกับกลยุทธของผูเลนแตละคน หรือกลาวอีก นัยหนึ่งคือเปนกลยุทธในลักษณะที่มีการใหเครื่องมือสุม (random device) แกผูเลนแตละคน โดยผูเลนจะใชเครื่องมือสุมดังกลาว เพื่อตัดสินวาตนจะเลือกกลยุทธแบบใด ในเวลาที่จะ ตัดสินใจ ตัวอยางเชน หากตองการกําหนดความนาจะเปนเทากับ ½ ใหกับกลยุทธแตละอยาง ตามตัวอยาง เราสามารถใหเครื่องมือสุมเปนการโยนเหรียญ โดยกําหนดใหผูเลนทําการเลือกกล ยุทธ confess หากเหรียญออกหัว และ don’t confess หากเหรียญออกกอย

สมมติให σ แทน mixed strategy profile เราจะสามารถเขียนกลยุทธผสม (mixed strategy) ของผูเลนแตละคนไดดังนี้

)}

' ( ), (

{ 1 1

1 σ confess σ dont σ =

)}

' ( ), (

{ 2 2

2 σ confess σ dont σ =

สมมติให mixed strategy ของแตละคนเปนดังนี้

} 3 / 2 , 3 / 1

1 ={ σ

} 4 / 1 , 4 / 3

2 ={ σ

ในกรณีนี้ เราจะสามารถเขียน mixed strategy profile ไดดังนี้

} 6 / 1 ) ' ' ( , 2 / 1 ) '

( , 12 / 1 ) ' (

, 4 / 1 ) (

{σ confessxconfess = σ confessxdont = σ dontxconfess = σ dontxdont =

จากนั้น เราจะตองหาผลตอบแทนที่คาดวาจะไดรับ จากกลยุทธผสมที่กําหนดไวดานตน ซึ่งเราสามารถคํานวณหา “expected utility” ไดดังตอไปนี้

∑ ∏

=

S

s i N

j i j j i

j

s s

u

u (σ) ( ) σ ( )

(4)

โดยที่ j แทนกลยุทธของผูเลน i แทนผูเลน sj แทน pure strategy แตละอัน และ

) ( j

i s

σ แทนกลยุทธผสมของผูเลน i ซึ่งแสดงถึงความนาจะเปนที่ผูเลน i จะเลือกกลยุทธ sj

จากตัวอยาง prisoner-dilemma game ที่แสดงขางตน สมมติเราแปลงเมทริค ผลตอบแทนใหเปนอรรถประโยชนที่เปนตัวเลขเพื่อใหงายตอการคํานวณ ไดดังเมทริคที่แสดง ดานลางนี้

Prisoner 2

confess Don’t confess confess

1,1 3,0 prisoner

1 Don’t

confess 0,3 2,2

ในกรณีนี้ เราสามารถคํานวณ expected utility ไดดังนี้

Expected utility ของ prisoner 1 = ¼ x 1 + 1/12 x 3 + ½ x 0 + 1/6 x 2

= 11/12

Expected utility ของ prisoner 2 = ¼ x 1 + 1/12 x 0 + ½ x 3 + 1/6 x 2

= 11/6 แนวคิดเกี่ยวกับดุลยภาพของเกมส (Equilibrium Concept)

คําถามที่สําคัญเกี่ยวกับทฤษฎีเกมสไดแก ในเกมส ๆ หนึ่ง ผลลัพธที่นาจะเกิดขึ้นจาก เกมสนั้นควรเปน strategy profile อันไหน ซึ่งในการที่จะตอบคําถามนี้ได จะตองหาดุลยภาพ ของเกมสที่เกิดขึ้น โดยแนวคิดเกี่ยวกับดุลยภาพของเกมสแบบ Normal form มีอยูดวยกัน หลายแบบ ในที่นี้ จะพูดถึงแนวคิดเกี่ยวกับการหาดุลยภาพในแบบที่เปนพื้นฐาน งาย และนิยม ใชกันที่สุด 3 แบบ ไดแก Dominant strategy, iteratedly strictly dominated strategy และ Nash equilibrium

1. Dominant Strategy

คํานิยาม: กลยุทธจะมีลักษณะ strictly dominant สําหรับผูเลนคนที่ i ก็ตอเมื่อกลยุทธดังกลาง ใหผลตอบแทนแกผูเลนคนที่ i มากกวากลยุทธอื่น ๆ ทั้งหมดที่มีอยูในเซ็ตกลยุทธของเขา ไมวา ผูเลนคนอื่นจะเลือกกลยุทธใดก็ตาม

จากตัวอยางเกมส prisoner-dilemma จะเห็นไดวา confess เปนกลยุทธที่ดีที่สุดสําหรับ นักโทษทั้งคนที่ 1 และคนที่ 2 ไมวาผูเลนอีกคนหนึ่งจะเลือกกลยุทธใดก็ตาม ดังนั้น confess จึง เปน “strictly dominant strategy” สําหรับผูเลนทั้งสองคน ขณะเดียวกัน เราก็สามารถ คาดการณไดวา ผลลัพธของเกมสที่นาจะเกิดขึ้นที่สุดคือ (confess,confess) นั่นคือนักโทษทั้ง 2 เลือกที่จะสารภาพ

(5)

ซึ่งจะเห็นไดจากเมทริคผลตอบแทนวา ผลตอบแทนที่นักโทษทั้งสองจะไดรับกรณีที่ทั้ง สองเลือกที่จะไมสารภาพจะดีกวาดุลยภาพที่เกิดขึ้น อยางไรก็ตาม จากการที่นักโทษแตละคน เลือกกลยุทธโดยไมคํานึงถึงผลตอบแทนที่อีกคนหนึ่งจะไดรับ และไมรวมมือกัน ทําใหผลลัพธที่

ออกมาใหผลตอบแทนนอยกวา ซึ่งก็คือการที่ทั้งคูยอมสารภาพนั่นเอง หมายเหตุ:

- ขอดีของ strictly dominant strategy ก็คือ หากเกมใดมีกลยุทธประเภทนี้ จะมีดุลย ภาพ (ประเภท Nash) เพียง 1 ดุลยภาพในเกม ๆ นั้น ซึ่งก็คือดุลยภาพที่

ประกอบดวย strictly dominant strategy นั่นเอง

- ในเกมสแตละเกมสอาจจะไมมีกลยุทธประเภท strictly dominant strategy เลยก็ได

2. Iterated Strictly Dominated Strategy

ถาหากไมมี strictly dominant strategy เราจะสามารถหาการคาดการณเกี่ยวกับ ผลลัพธที่จะเกิดขึ้นของเกมสไดอยางไร วิธีอีกวิธีหนึ่งที่นิยมใชกันคือการกําจัดกลยุทธที่ผูเลนจะ ไมเลือกเลน (ถูก dominate โดยกลยุทธอื่น กลาวคือมีกลยุทธอื่นที่ดีกวา) ออกไปเพื่อหาดุลย ภาพจากกลยุทธที่เหลืออยู

คํานิยาม: กลยุทธ si เปนกลยุทธที่เรียกวา strictly dominated strategy หากมีกลยุทธอื่นที่ให

ผลตอบแทนแกผูเลนคนนั้นสูงกวากลยุทธ si ไมวาผูเลนคนอื่นจะเลือกเลนกลยุทธใดก็ตาม

ตัวอยางที่ 2:

L R T 3,… 0,…

M 2,… 2,…

D 1,… 1,…

พิจารณาผลตอบแทนของผูเลนคนที่ 1 จะเห็นไดวา ไมวาผูเลนคนที่ 2 จะเลือกกลยุทธ

L หรือ R กลยุทธ D จะใหผลตอบแทนแกผูเลนคนที่ 1 นอยกวากลยุทธ M เสอม ดังนั้น เราจึง กลาวไดวา กลยุทธ D นั้นถูก strictly dominated โดยกลยุทธ M ทําใหเราสามารถตัดกลยุทธ D ออกจากการตัดสินใจหาผลลัพธของเกมสได

หมายเหตุ:

1. การจะหาวากลยุทธใดเปน dominant strategy เราสามารถตรวจสอบเฉพาะกลยุทธ

แบบ pure ก็พอ

2. แตหากเราจะตรวจสอบวากลยุทธใดเปน strictly dominated strategy เราจะตอง พิจารณากรณีที่กลยุทธถูก dominate ดวยกลยุทธแบบผสม (mixed strategy) ดวย

(6)

เพราะกลยุทธบางกลยุทธจะไมถูก dominate โดยกลยุทธแบบ pure แตสามารถถูก dominate โดยกลยุทธแบบผสมได ดังตัวอยางตอไปนี้

L R T 3,… 0,…

M 0,… 3,…

D 1,… 1,…

จะเห็นไดวาทุกกลยุทธของผูเลนคนแรก คือ T,M และ D จะไมถูก dominate โดย pure strategy อันใดเลย แตหากเราพิจารณากรณีที่สราง mixed strategy ระหวาง T กับ M จะสามารถ dominate กลยุทธ D ได โดยการสราง mixed strategy ½ T + ½ M ซึ่งจะ ทําใหผลตอบแทนสามารถแสดงไดดังเมทริคตอไปนี้

L R

½ T + ½ M 1.5,… 1.5,…

D 1,… 1,…

ดังนั้น กลยุทธ D จะถูก dominate โดยกลยุทธ ½ T + ½ M ทําใหเราสามารถตัดกล ยุทธ D ออกจากการพิจารณาหาผลลัพธของเกมสไดเชนกัน

3. หากกลยุทธแบบ pure อันไหนเปน strictly dominated strategy กลยุทธแบบผสมที่ถูก สรางขึ้นโดยใชกลยุทธแบบ pure อันนั้นเปนสวนประกอบก็จะเปน strictly dominated strategy ดวยเชนกัน

กระบวนการตัดกลยุทธที่เปน strictly dominated ออกไปแบบซ้ํา ๆ (The Process of Iterated Elimination of Strictly Dominated Strategy)

ตัวอยางที่ 3:

Left Middle Right Up 1,0 1,2 0,1 Down 0,3 0,1 2,0

จากเกมสในตัวอยางที่ 3 จะเห็นไดวา สําหรับผูเลนคนแรก กลยุทธ Up และ Down ไมมี

อันไหนเปน strictly dominated แตกลยุทธ Right ของผูเลนคนที่ 2 นั้นถูก dominated โดยกล ยุทธ Middle เราจึงสามารถตัดกลยุทธนี้ออกจากการพิจารณาได ทําใหเกมสที่เราพิจารณาอยู

สามารถลดรูปไดดังนี้

Left Middle Up 1,0 1,2 Down 0,3 0,1

(7)

จากเกมสในขางบนนี้ จะเห็นไดวา กลยุทธ Down ของผูเลนคนแรก จะถูก dominated โดยกลยุทธ Up ดังนั้น เราสามารถตัดกลยุทธ Down ทิ้งไปไดเชนกัน ทําใหเกมสลดรูปเหลือดัง เมทริคตอไปนี้

Left Middle Up 1,0 1,2

สุดทาย กลยุทธ Left จะถูก dominate โดยกลยุทธ Middle ดังนั้น เราสามารถตัดกล ยุทธ Left ออกไปไดเชนกัน ผลลัพธจากเกมนี้จากกระบวนการตัด strictly dominated strategy ซ้ํา ๆ จะทําใหเราได pure strategy profile (Up, Middle) เปนคําตอบของเกมสอันนี้

ขอเสียของวิธี Iterated Elimination of Strictly Dominated Strategy

1. ผลลัพธที่ไดอาจจะไมไดเหลือเพียง pure strategy profile อันเดียวอยางที่เห็นใน ตัวอยางที่ 3 ในบางครั้งกระบวนการนี้จะเหลือกลยุทธอยูมากมายที่ไมถูก dominate โดยที่กลยุทธเหลานั้นอาจจะไมไดเปนผลลัพธของเกมสเลยก็ได

2. ในการที่จะใชกระบวนการนี้ในการหาคําตอบได เราจะตองมีขอสมมติ ไมเพียงแตวาผู

เลนเปนคน rational แตจะตองสมมติวา ผูเลนรูวาผูเลนอีกคน rational และผูเลนอีกคน รูวาผูเลนอีกคนรูวาผูเลน rational และสมมติแบบนี้ซ้ํา ๆ ไปเรื่อย ๆ ซึ่งทําใหขอ สมมติฐานมีความซับซอนและยุงยากมาก

ตัวอยางที่ 4 (ทําในชั้นเรียน):

ใหหาผลลัพธจากเกมสตอไปนี้โดยใชกระบวนการ iterated elimination of strictly dominated strategies

L C R T 2,2 6,1 1,1 M 1,3 5,5 9,2

B 0,0 4,2 8,8

3. Nash Equilibrium

เปนผลลัพธของเกมสที่เกิดขึ้นเมื่อผูเลนทุกคนในเกมสเลือกกลยุทธที่เปน “Best- response” เมื่อกลยุทธของคนอื่นถูกกําหนดให กลาวคือคนอื่นถูกกําหนดใหเลือกกลยุทธที่เปน Best-response เชนกัน

นิยาม: Best-response

กลยุทธ σi* จะเรียกวาเปน Best-response สําหรับผูเลนที่ i ก็ตอเมื่อ

) , ( max

arg *

*

i i i

i u

i

= σ σ

σ σ

(8)

กลาวคือ เมื่อกําหนดใหผูเลนทุกคน ยกเวนคนที่ i เลือกที่จะเลนกลยุทธที่เปน Best- response ของเขาเหลานั้นแลว กลยุทธ σi*จะเรียกวาเปน Best-response เมื่อกลยุทธ σi* ทํา ใหผลตอบแทนสําหรับผูเลน i สูงสุด

ตัวอยางที่ 5:

ใหกลับมาพิจารณาเกมส prisoner-dilemma ในตัวอยางที่ 1 และหากลยุทธที่เปน Best- response สําหรับผูเลนแตละคน

Prisoner 2

confess Don’t confess confess

1,1 3,0 prisoner

1 Don’t

confess 0,3 2,2

กลยุทธที่เปน Best-response สําหรับ Prisoner 1

- กําหนดใหผูเลนคนที่ 2 เลือกกลยุทธ Confess ผูเลนคนที่ 1 จะเลือก confess ดังนั้น สําหรับผูเลนคนแรก กลยุทธ confess จึงเปน best-response ในกรณีที่ผู

เลนคนที่ 2 เลือกกลยุทธ confess หรือเขียนไดวา confess = BR1(confess)

- กําหนดใหผูเลนคนที่ 2 เลือกกลยุทธ Don’t confess ผูเลนคนที่ 1 จะเลือก confess ดังนั้น สําหรับผูเลนคนแรก กลยุทธ confess จึงเปน best-response ในกรณีที่ผู

เลนคนที่ 2 เลือกกลยุทธ Don’t confess หรือเขียนไดวา confess = BR1(don’t confess)

กลยุทธที่เปน Best-response สําหรับ Prisoner 2

- กําหนดใหผูเลนคนที่ 1 เลือกกลยุทธ Confess ผูเลนคนที่ 2 จะเลือก confess ดังนั้น สําหรับผูเลนคนที่ 2 กลยุทธ confess จึงเปน best-response ในกรณีที่ผูเลน คนที่ 1 เลือกกลยุทธ confess หรือเขียนไดวา confess = BR2(confess)

- กําหนดใหผูเลนคนที่ 1 เลือกกลยุทธ Don’t confess ผูเลนคนที่ 2 จะเลือก confess ดังนั้น สําหรับผูเลนคนที่ 2 กลยุทธ confess จึงเปน best-response ในกรณีที่ผูเลน คนที่ 1 เลือกกลยุทธ Don’t confess หรือเขียนไดวา confess = BR2 (don’t confess)

Nash Equilibrium

จะเปนดุลยภาพที่เกิดขึ้นเมื่อผูเลนทุกคนเลือกกลยุทธที่เปน Best-response พรอมกัน คํานิยาม: Nash Equilibrium

Strategy profile ( , 2*,..., *)

*

1 σ σN

σ เปน Nash equilibrium เมื่อ กลยุทธ σi* เปนกลยุทธแบบ Best-response สําหรับผูเลนที่ i ทุกคน เมื่อ i = {1,…………,N}

(9)

จากตัวอยางที่ 5 ในเกมส Prisoner-dilemma จะสามารถหา strategy profile ที่เปน Best-response สําหรับผูเลนทั้งสองคนพรอมกันไดแก (Confess, Confess) ดังนั้น Strategy profile ดังกลาวจึงเปน Nash equilibrium

การตีความของ Nash equilibrium อีกประการนึงก็คือ ณ จุดดุลยภาพแบบ Nash จะไม

มีผูเลนคนไหนมีแรงจูงใจที่จะเปลี่ยนไปเลือกกลยุทธแบบอื่น (No incentives to deviate from Nash equilibrium)

ตัวอยางที่ 6 (ทําในชั้นเรียน): ใหหากลยุทธที่เปน Best-response สําหรับผูเลนทั้ง 2 คน และ หา Pure strategy Nash equilibrium

L C R T 0,4 4,0 5,3 M 4,0 0,4 5,3

B 3,5 3,5 6,6

Referensi

Dokumen terkait