PROSES KEPUTUSAN MARKOVIAN TEKNIK RISET OPERASI

(1)

PROSES KEPUTUSAN

MARKOVIAN

TEKNIK RISET OPERASI

PROSES KEPUTUSAN

MARKOVIAN

(2)

(3)

Contoh

TIA 310

Contoh

(4)

Contoh

TIA 310

Contoh

(5)

TIA 310

(6)

TIA 310

(7)

TIA 310

(8)

TIA 310

(9)

Cara Perhitungan

0.2 x 7 + 0.5 x 6 + 0.3 x 3 = 5.3

0 x 0 + 0.5 x 5 + 0.5 x 1 = 3

0 x 0 + 0 x 0 + 1 x -1 = -1

0.3 x 6 + 0.6 x 5 + 0.1 x -1 = 4.7

0.1 x 7 + 0.6 x 4 + 0.3 x 0 = 3.1

0.05 x 6 + 0.4 x 3 + 0.55 x -2 = 0.4

9

2 = 0.4

(10)

TIA 310

-0.6

(11)

Cara Perhitungan

5.3 + 0.2 x 5.3 + 0.5 x 3.1 + 0.3 x 0.4 = 8.03

3 + 0 x 5.3 + 0.5 x 3.1 + 0.5 x 0.4 = 4.75

1 + 0 x 5.3 + 0 x 3.1 + 1 x 0.4 =

-4.7 + 0.3 x 5.3 + 0.6 x 3.1 + 0.1 x 0.4 = 8.19

3.1 + 0.1 x 5.3 + 0.6 x 3.1 + 0.3 x 0.4 = 5.61

0.4 + 0.05 x 5.3 + 0.4 x 3.1 + 0.55 x 0.4 = 2.13

5.3 + 0.2 x 5.3 + 0.5 x 3.1 + 0.3 x 0.4 = 8.03

3 + 0 x 5.3 + 0.5 x 3.1 + 0.5 x 0.4 = 4.75

-0.6

4.7 + 0.3 x 5.3 + 0.6 x 3.1 + 0.1 x 0.4 = 8.19

3.1 + 0.1 x 5.3 + 0.6 x 3.1 + 0.3 x 0.4 = 5.61

0.4 + 0.05 x 5.3 + 0.4 x 3.1 + 0.55 x 0.4 = 2.13

(12)

TIA 310

(13)

Cara Perhitungan

5.3 + 0.2 x 8.19 + 0.5 x 5.61 + 0.3 x 2.13 = 10.38

3 + 0 x 8.19 + 0.5 x 5.61 + 0.5 x 2.13 = 6.87

-1 + 0 x 8.19 + 0 x 5.61 + 1 x 2.13 = 1.13

4.7 + 0.3 x 8.19 + 0.6 x 5.61 + 0.1 x 2.13 = 10.74

3.1 + 0.1 x 8.19 + 0.6 x 5.61 + 0.3 x 2.13 = 7.92

0.4 + 0.05 x 8.19 + 0.4 x 5.61 + 0.55 x 2.13 = 4.23

5.3 + 0.2 x 8.19 + 0.5 x 5.61 + 0.3 x 2.13 = 10.38

3 + 0 x 8.19 + 0.5 x 5.61 + 0.5 x 2.13 = 6.87

1 + 0 x 8.19 + 0 x 5.61 + 1 x 2.13 = 1.13

4.7 + 0.3 x 8.19 + 0.6 x 5.61 + 0.1 x 2.13 = 10.74

3.1 + 0.1 x 8.19 + 0.6 x 5.61 + 0.3 x 2.13 = 7.92

0.4 + 0.05 x 8.19 + 0.4 x 5.61 + 0.55 x 2.13 = 4.23

(14)

(15)

(16)

(17)

(18)

(19)

Metode Enumerasi Lengkap

Contoh 1: Masalah petani dengan

hingga



Di sini ada 8 kebijakan stasioner

TIA 310

Kebijakan Stasioner s Tindakan

1 Tidak menggunakan 2 Menggunakan pupuk 3 Gunakan pupuk 4 Gunakan pupuk 5 Gunakan pupuk 6 Gunakan pupuk 7 Gunakan pupuk 8 Gunakan pupuk

Metode Enumerasi Lengkap

dengan horison perencanaan periode tak

stasioner, yaitu:

TIA 310

menggunakan pupuk sama sekali

pupuk tanpa bergantung pada keadaan pupuk ketika keadaan 1

pupuk ketika keadaan 2 pupuk ketika keadaan 3

pupuk ketika keadaan 1 atau 2 pupuk ketika keadaan 1 atau 3 pupuk ketika keadaan 2 atau 3

(20)

Metode Enumerasi Lengkap



Matriks P

k

dan R

k

untuk kebijakan 3 sampai 8 diturunkan dari matriks

untuk kebijakan 1 dan 2. Karena itu kita memiliki

0,2 0,5 0,3 P1₌ ₀ _0,5 _0,5 _R1₌ 0 0 1 0,3 0,6 0,1 P2₌ _0,1 _0,6 _0,3 _R2₌ 0,05 0,4 0,55 0,3 0,6 0,1 P3₌ ₀ _0,5 _0,5 _R3₌ 0 0 1 0,2 0,5 0,3 P4₌ _0,1 _0,6 _0,3 _R4₌ 0 0 1

Metode Enumerasi Lengkap

untuk kebijakan 3 sampai 8 diturunkan dari matriks

untuk kebijakan 1 dan 2. Karena itu kita memiliki

7 6 3 0 5 1 0 0 -1 6 5 -1 7 4 0 6 3 -2 6 5 -1 0 5 1 0 0 -1 7 6 3 7 4 0 0 0 -1 20

(21)

Metode Enumerasi Lengkap



Nilai-nilai v

_ik

karena itu dapat dihitung

berikut ini:

0,2 0,5 0,3 P5₌ ₀ _0,5 _0,5 _R5₌ 0,05 0,4 0,55 0,3 0,6 0,1 P6₌ _0,1 _0,6 _0,3 _R6₌ 0 0 1 0,3 0,6 0,1 P7₌ ₀ _0,5 _0,5 _R7₌ 0,05 0,4 0,55 0,2 0,5 0,3 P8₌ _0,1 _0,6 _0,3 _R8₌ 0,05 0,4 0,55

Metode Enumerasi Lengkap

dihitung seperti diberikan dalam tabel

7 6 3 0 5 1 6 3 -2 6 5 -1 7 4 0 0 0 -1 6 5 -1 0 5 1 6 3 -2 7 6 3 7 4 0 6 3 -2 21

(22)

Metode Enumerasi Lengkap



Perhitungan dari probabilitas stasioner

menggunakan persamaan:

π

s

_P

s

_{= π}

s

π

₁

+ π

₂

+ … + π

_m

= 1

s

i = 1

i = 2

1 5,3

3

2 4,7

3,1

3 4,7

3

4 5,3

3,1

5 5,3

3

6 4,7

3,1

7 4,7

3

8 5,3

3,1

Metode Enumerasi Lengkap

stasioner tersebut dicapai dengan

= 2

i = 3

3 -1

3,1

0,4

3 -1

3,1

-1

3 0,4

3,1

-1

3 0,4

3,1

0,4

22

(23)

Metode Enumerasi Lengkap



Sebagai ilustrasi, pertimbangkan s = 2.

0,3π

₁

+ 0,1π

₂

+ 0,05π

₃

= π

₁

0,6π

₁

+ 0,6π

₂

+ 0,4π

₃

= π

₂

0,1π

₁

+ 0,3π

₂

+ 0,55π

₃

= π

₃

π

₁

+ π

₂

+ π

₃

= 1



Berdasarkan hasil eliminasi dan substitusi

π

₁2

_{= 6/59, π}

22

= 31/59, π

32

= 22/59



Dalam kasus ini, pendapatan tahunan



Tabel berikut ini meringkaskan

π

k

stasioner.



6 47 31 31 22 59 1 3 1 2 2 2 _v _x _, _x _, _x E i i i    



 

Metode Enumerasi Lengkap

s = 2. Persamaan yang berkaitan adalah:

substitusi didapatkan :

= 22/59

tahunan yang diperkirakan adalah:

dan E

k

_{untuk semua kebijakan}



2256 4

0, ,

x 

(24)

Metode Enumerasi Lengkap



Tabel terakhir ini menunjukkan bahwa kebijakan

tahunan yang diperkirakan terbesar. Akibatnya

optimum menyatakan penggunaan pupuk

sistem.

s

π

₁s

1

0

2 6/59

3

0

4

0

5 5/154

69/154

6

0

7 5/137

62/137

8 12/135

69/135

Metode Enumerasi Lengkap

kebijakan 2 menghasilkan pendapatan

Akibatnya, kebijakan jangka panjang

pupuk tanpa bergantung pada keadaan

π

₂s

_π

3s

E

s

0

1 -1

31/59

22/59

2,256

0

1 -1

0

1 -1

69/154

80/154

1,724

0

1 -1

62/137

70/137

1,734

69/135

54/135

2,216

24

(25)

Metode Iterasi Kebijakan Tanpa Diskonto



Bayangkan jika metode enumerasi lengkap diterapkan untuk masalah petani

dengan 4 arah tindakan (bukan dua): tidak menggunakan pupuk, menggunakan

pupuk satu kali selama musim tersebut, menggunakan pupuk dua kali, dan

menggunakan pupuk tiga kali.



Dalam kasus ini, petani tersebut secara keseluruhan memiliki 4

stasioner. Melakukan enumerasi dari semua kebijakan secara eksplisit bukan

hanya sulit, tetapi juga jumlah perhitungan yang terlibat dalam evaluasi kebijakan

ini dapat sangat besar.



Karena itu dikembangkan metode iterasi kebijakan sebagai berikut.



Di bagian sebelumnya sudah diperlihatkan bahwa pengembalian total yang

diperkirakan di tahap n dinyatakan dengan persamaan rekursif:



Persamaan rekursif ini adalah dasar untuk pengembangan metode iterasi

kebijakan. Tetapi, bentuk ini harus sedikit dimodifikasi untuk memungkinkan kita

untuk mempelajari perilaku asimtut dari proses ini

 

i v p f

 

j , i f m j n ij i n 1 1   



 

Metode Iterasi Kebijakan Tanpa Diskonto

Bayangkan jika metode enumerasi lengkap diterapkan untuk masalah petani

dengan 4 arah tindakan (bukan dua): tidak menggunakan pupuk, menggunakan

pupuk satu kali selama musim tersebut, menggunakan pupuk dua kali, dan

Dalam kasus ini, petani tersebut secara keseluruhan memiliki 4

3

_{= 256 kebijakan}

stasioner. Melakukan enumerasi dari semua kebijakan secara eksplisit bukan

hanya sulit, tetapi juga jumlah perhitungan yang terlibat dalam evaluasi kebijakan

Karena itu dikembangkan metode iterasi kebijakan sebagai berikut.

Di bagian sebelumnya sudah diperlihatkan bahwa pengembalian total yang

diperkirakan di tahap n dinyatakan dengan persamaan rekursif:

Persamaan rekursif ini adalah dasar untuk pengembangan metode iterasi

kebijakan. Tetapi, bentuk ini harus sedikit dimodifikasi untuk memungkinkan kita

untuk mempelajari perilaku asimtut dari proses ini

.

m ,..., ,2 1  25

(26)

Metode Iterasi Kebijakan Tanpa Diskonto



Pada intinya, kita mendefinisikan

η sebagai

dipertimbangkan. Ini adalah berbalikan

mendefinisikan tahap ke-n. Jadi, persamaan



Catat bahwa f

_η

adalah pendapatan kumulatif

η adalah jumlah tahap yang tersisa untuk

ini, perilaku asimtut dari proses ini dapat



Dengan diketahui bahwa

π

= (π

₁

, π

₂

, …, π

_m

)

adalah vektor probabilitas steady state

E = π

₁

v

₁

+ π

₂

v

₂

+ … π

_m

v

_m

adalah pendapatan yang diperkirakan

sebelumnya, dapat diperlihatkan bahwa

f

_η

(i) = ηE +f(i)

 

i

v

p

f

 

j

,

i

f

m j ij i 1 1







   

Metode Iterasi Kebijakan Tanpa Diskonto

sebagai jumlah tahap yang tersisa untuk

berbalikan dengan n dalam persamaan di atas, yang

persamaan rekursif itu dapat ditulis:

kumulatif yang diperkirakan dengan diketahui

untuk dipertimbangkan. Dengan definisi baru

dapat diketahui dengan menganggap

η→∞.

steady state dari matriks transisi P = ||p

_ij

|| dan

diperkirakan per tahun seperti dihitung di bagian

bahwa untuk

η yang sangat besar,

m

,...,

,2

1 

26

(27)

Metode Iterasi Kebijakan Tanpa Diskonto

dengan f(i) adalah sebuah bagian konstan yang mewakili titik potong asimtut dari f dengan diketahui keadaan i.

 Karena f_η(i) adalah pengembalian optimum kumulatif untuk

keadaan i dan E adalah pengembalian yang diperkirakan per tahap, kita dapat secara intuitif melihat mengapa f_η(i) sama dengan

memperhitungkan keadaan spesifik i. Hasil ini tentu saja mengasumsikan bahwa besar.

 Menggunakan informasi ini, persamaan rekursif tersebut dapat ditulis:

 Dengan menyederhanakan persamaan di atas, kita memperoleh:

 yang menghasilkan m persamaan dan m + 1 variabel yang tidak diketahui, di mana

variabel yang tidak diketahui itu adalah f(1), f(2), …, f(m), dan E.

 

i

v

p



f

E

m

i

ij

i

1

1 













 

i

v

p



f

E

m

i

ij

i

1 











Metode Iterasi Kebijakan Tanpa Diskonto

dengan f(i) adalah sebuah bagian konstan yang mewakili titik potong asimtut dari f_η(i) (i) adalah pengembalian optimum kumulatif untuk η tahap dengan diketahui keadaan i dan E adalah pengembalian yang diperkirakan per tahap, kita dapat secara

(i) sama dengan ηE ditambah faktor koreksi f(i) yang

memperhitungkan keadaan spesifik i. Hasil ini tentu saja mengasumsikan bahwa η sangat Menggunakan informasi ini, persamaan rekursif tersebut dapat ditulis:

Dengan menyederhanakan persamaan di atas, kita memperoleh:

yang menghasilkan m persamaan dan m + 1 variabel yang tidak diketahui, di mana variabel yang tidak diketahui itu adalah f(1), f(2), …, f(m), dan E.



E

f

 

j

,

i

1 ,

2 ,...,

m

.

1 





E

f

 

j

,

i

1 ,

2 ,...,

m

.

1 







27

(28)

Metode Iterasi Kebijakan Tanpa Diskonto

 Tujuan akhir adalah menentukan kebijakan

maksimum. Karena terdapat m persamaan nilai E optimum tidak dapat ditentukan dalam pendekatan iteratif dimanfaatkan yang,

sembarang, lalu akan menentukan suatu yang lebih baik. Proses iteratif tersebut turut adalah identik.

 Proses iteratif ini terdiri dari dua komponen

nilai (value determination) dan langkah

1. Langkah penentuan nilai. Pilihlah satu

matriks Ps _{dan R}s _{yang berkaitan dan secara}

pecahkan persamaan

dengan variabel yang tidak diketahui E perbaikan kebijakan.

 

1

j

f

p

v

E

m j s s ij s i s











Metode Iterasi Kebijakan Tanpa Diskonto

kebijakan optimum yang menghasilkan nilai E

persamaan dengan m+1 variabel yang tidak diketahui, dalam satu langkah. Sebaliknya, suatu

yang, dengan memulai di satu kebijakan secara suatu kebijakan baru yang menghasilkan nilai E

berakhir ketika dua kebijakan yang berturut-komponen dasar, yang disebut langkah penentuan langkah perbaikan kebijakan (policy improvement).

satu kebijakan s secara sembarang. Gunakan secara sembarang asumsikan bahwa fs_{(m) = 0,}

Es_{, f}s_{(1), …, dan f}s_{(m-1). Lanjutkan ke tahap}

 

i

,

i

1 ,

2 ,...,

m

(

b

.

1 )

f

s



(29)

Metode Iterasi Kebijakan Tanpa Diskonto

2.

Langkah Perbaikan Kebijakan. Untuk setiap keadaan i, tentukan alternatif k yang

menghasilkan:

[Nilai-nilai fs_{(j), j = 1, 2, …, m, adalah nilai}

nilai.]

Keputusan optimum yang dihasilkan k untuk keadaan 1, 2, …, m membentuk kebijakan baru t. Jika s dan t adalah identik, berhenti; t adalah optimum. Jika tidak identik, tetapkan s = t dan kembali ke langkah penentuan nilai.

 Masalah optimisasi dari langkah perbaikan kebijakan memerlukan penjelasan. Tujuan kita

dalam langkah ini adalah memperoleh max{E}. Seperti diketahui:

f p v max m j k ij k i k 1      







f

p

v

E

m

j

ij

i







1

Metode Iterasi Kebijakan Tanpa Diskonto

. Untuk setiap keadaan i, tentukan alternatif k yang

(j), j = 1, 2, …, m, adalah nilai-nilai yang ditentukan dalam langkah penentuan Keputusan optimum yang dihasilkan k untuk keadaan 1, 2, …, m membentuk kebijakan baru t. Jika s dan t adalah identik, berhenti; t adalah optimum. Jika tidak identik, tetapkan s = t dan kembali ke langkah penentuan nilai.

Masalah optimisasi dari langkah perbaikan kebijakan memerlukan penjelasan. Tujuan kita dalam langkah ini adalah memperoleh max{E}. Seperti diketahui:

 

j , i , ,...,m f s 12     

 

j 

f

 

i

29

(30)

Metode Iterasi Kebijakan Tanpa Diskonto

 Karena f(i) tidak bergantung pada alternatif k, disimpulkan bahwa maksimisasi E di semua

alternatif k adalah setara dengan masalah maksimisasi yang diketahui dalam langkah perbaikan kebijakan.

Contoh: Kita mmecahkan contoh petani tersebut dengan metode iterasi kebijakan. Iterasi 1

 Kita mulai dengan kebijakan sembarang yang menyatakan tidak diperguna

Matriks yang berkaitan adalah:

 Persamaan dalam langkah iterasi nilai adalah:

E + f(1) – 0,2f(1) – 0,5f(2) – 0,3f(3) = 5,3 E + f(2) - 0,5f(2) – 0,5f(3) = 3 E + f(3) f(3) =

- Jika kita secara sembarang menganggap f(3) = 0, persamaan

menghasilkan pemecahan:

E = -1, f(1) = 12,88, f(2) = 8, f(3) = 0

Metode Iterasi Kebijakan Tanpa Diskonto

Karena f(i) tidak bergantung pada alternatif k, disimpulkan bahwa maksimisasi E di semua alternatif k adalah setara dengan masalah maksimisasi yang diketahui dalam langkah

Kita mmecahkan contoh petani tersebut dengan metode iterasi kebijakan.

Kita mulai dengan kebijakan sembarang yang menyatakan tidak diperguna-kannya pupuk.

Persamaan dalam langkah iterasi nilai adalah: 0,3f(3) = 5,3

-1

Jika kita secara sembarang menganggap f(3) = 0, persamaan-persamaan tersebut

0,2 0,5 0,3 7 6 3

P = 0 0,5 0,5 R = 0 5 1

0 0 1 0 0 -1

(31)

Metode Iterasi Kebijakan Tanpa Diskonto

 Selanjutnya, kita menerapkan langkah perbaikan kebijakan. Perhitungan yang berkaitan

diperlihatkan dalam tabel berikut ini.

 Kebijakan baru ini menyatakan penggunaan pupuk tanpa bergantung pada keadaan.

Karena kebijakan baru ini berbeda dari yang sebelumnya, langkah penentuan nilai kembali dilakukan.

Iterasi 2

 Matriks yang berkaitan dengan kebijakan baru ini adalah:

 Matriks ini menghasilkan persamaan-persamaan berikut:

E + f(1) – 0,3f(1) – 0,6f(2) – 0,1f(3) = 4,7 TIA 310 v_ik_{+ p} i1kf(1) + pi2kf(2) + p i k=1 1 5,3+0,2x12,88+0,5x8+0,3x0 = 11,875 2 3,0+0x12,88+0,5x8+0,5x0 = 7 3 -1,0+0x12,88+0x8+1x0 = -1 0,4+0,05x12,88+0,4x8+0,55x0 = 4,24 0,3 0,6 0,1 6 P = 0,1 0,6 0,3 R = 7 0,05 0,4 0,55 6

Metode Iterasi Kebijakan Tanpa Diskonto

Selanjutnya, kita menerapkan langkah perbaikan kebijakan. Perhitungan yang berkaitan

Kebijakan baru ini menyatakan penggunaan pupuk tanpa bergantung pada keadaan.

Karena kebijakan baru ini berbeda dari yang sebelumnya, langkah penentuan nilai kembali

Matriks yang berkaitan dengan kebijakan baru ini adalah:

persamaan berikut: 0,1f(3) = 4,7 TIA 310 f(2) + p_i3k_f(3) _Pemecahan optimal k=2 f(i) k* 4,7+0,3x12,88+0,6x8+0,1x0 = 13,36 13,36 2 3,1+0,1x12,88+0,6x8+0,3x0 = 9,19 _9,19 ₂ 0,4+0,05x12,88+0,4x8+0,55x0 = 4,24 4,24 2 6 5 -1 7 4 0 6 3 -2 31

(32)

Metode Iterasi Kebijakan Tanpa Diskonto

E + f(2) – 0,1f(1) – 0,6f(2) – 0,3f(3) = 3,1 E + f(3) – 0,05f(1) – 0,4f(2) – 0,55f(3) = 0,4

 Sekali lagi, dengan menganggap f(3) = 0, kita memperoleh pemecahan:

E = 2,26, f(1) = 6,75, f(2) = 3,79, f(3) = 0

 Perhitungan dalam langkah perbaikan kebijakan diberikan dalam tabel berikut ini:

 Kebijakan baru ini, yang menyatakan penggunaan pupuk tanpa bergantung pada keadaan

adalah identik dengan yang sebelumnya. Jadi, kebijakan terakhir ini optimal dan proses iteratif berakhir. Secara alamiah, kesimpulan dengan metode ini sama dengan kesimpulan yang diperoleh dengan metode enumerasi lengkap.

v_ik_{+ p} i1kf(1) + pi2kf(2) + p i k=1 1 5,3+0,2x6,75+0,5x3,79+0,3x0 = 8,54 4,7+0,3x6,75+0,6x3,79+0,1x0 = 8,99 2 3,0+0x6,75+0,5x3,79+0,5x0 = 4,89 3,1+0,1x6,75+0,6x3,79+0,3x0 = 6,05 3 -1,0+0x6,75+0x3,79+1x0 = -1 0,4+0,05x6,75+0,4x3,79+0,55x0 = 2,25

Metode Iterasi Kebijakan Tanpa Diskonto

Sekali lagi, dengan menganggap f(3) = 0, kita memperoleh pemecahan:

Perhitungan dalam langkah perbaikan kebijakan diberikan dalam tabel berikut ini:

Kebijakan baru ini, yang menyatakan penggunaan pupuk tanpa bergantung pada keadaan adalah identik dengan yang sebelumnya. Jadi, kebijakan terakhir ini optimal dan proses iteratif berakhir. Secara alamiah, kesimpulan dengan metode ini sama dengan kesimpulan yang diperoleh dengan metode enumerasi lengkap.

f(2) + p_i3k_f(3) _Pemecahan optimal k=2 f(i) k* 4,7+0,3x6,75+0,6x3,79+0,1x0 = 8,99 8,99 2 3,1+0,1x6,75+0,6x3,79+0,3x0 = 6,05 6,05 2 0,4+0,05x6,75+0,4x3,79+0,55x0 = 2,25 2,25 ₂ 32

(33)

Metode Iterasi Kebijakan Dengan Diskonto

 Dengan diketahui bahwa α (< 1) adalah faktor diskonto, persamaan rekursif tahap

terhingga dapat ditulis sebagai:

(Perhatikan bahwa η mewakili sejumlah tahap yang masih harus dilalui).

 Dapat dibuktikan bahwa sementara η→∞

adalah nilai sekarang (yang didiskonto) dari pendapatan yang diperkirakan dengan

diketahui bahwa sistem tersebut berada dalam keadaan i dan beroperasi dalam horison waktu yang tak terhingga. Jadi perilaku jangka panjang dari

bergantung dari nilai η.

 Ini berlawanan dengan kasus tanpa diskonto, di mana f

atas. Hasil ini dapat diperkirkan karena dalam kasus diskonto, pengaruh pendapatan masa mendatang akan menurun menjadi nol secara asimtut. Pada kenyataannya, nilai sekarang f(i) akan mendekati nilai konstan sementara

 

      



  m j k ij k i k f p v max i f 1 1   

Metode Iterasi Kebijakan Dengan Diskonto

(< 1) adalah faktor diskonto, persamaan rekursif tahap

mewakili sejumlah tahap yang masih harus dilalui).

→∞ (model tahap tak hingga), f_η(i) = f(i), dengan f(i) adalah nilai sekarang (yang didiskonto) dari pendapatan yang diperkirakan dengan

diketahui bahwa sistem tersebut berada dalam keadaan i dan beroperasi dalam horison waktu yang tak terhingga. Jadi perilaku jangka panjang dari f_η(i) sementara η→∞ tidak Ini berlawanan dengan kasus tanpa diskonto, di mana f_η(i) = ηE + f(i), seperti disebutkan di atas. Hasil ini dapat diperkirkan karena dalam kasus diskonto, pengaruh pendapatan masa mendatang akan menurun menjadi nol secara asimtut. Pada kenyataannya, nilai sekarang f(i) akan mendekati nilai konstan sementara η→∞.

 

     1 j 33

(34)

Metode Iterasi Kebijakan Dengan Diskonto

 Langkah kebijakan iterasi dimodifikasi sebagai

1. Langkah penentuan nilai. Untuk sebuah Rs_{, pecahkan m persamaan:}

dalam m nilai yang tidak diketahui fs_(1),

persamaan dengan tepat m variabel yang

2. Langkah perbaikan kebijakan. Untuk setiap

menghasilkan

di mana fs_{(j) adalah nilai-nilai yang diperoleh}

yang dihasilkan t adalah sama dengan s, = t dan kembali ke langkah penentuan nilai

 



1

j

f

p

v

i

f

m j s s ij s i s











f p v max m j k ij k i k 1      



  

Metode Iterasi Kebijakan Dengan Diskonto

sebagai berikut.

sebuah kebijakan sembarang s dengan matriks Ps _dan

(1), fs_{(2), …, f}s_{(m). (Catat bahwa di sini terdapat m}

yang tidak diketahui)

setiap tahap i, tentukan alternatif k yang

diperoleh dari langkah penentuan nilai. Jika kebijakan s, berhenti; t optimum. Jika tidak sama, tetapkan s nilai



,

i

1 ,

2 ,...,

m

(

b

.

2 )

j



 

j , i , ,..., m f ₁  1 2        34

(35)

Metode Iterasi Kebijakan Dengan Diskonto

Contoh: Kita akan menyelesaikan contoh terdahulu dengan

 Dengan dimulai dari satu kebijakan sembarang s = {1,1,1}. Matriks

dalam contoh terdahulu) menghasilkan persamaan: f(1) – 0,6[0,2f(1) + 0,5f(2) + 0,3f(3)] = 5,3

f(2) – 0,6[ 0,5f(2) + 0,5f(3)] = 3 f(3) – 0,6[ f(3)] =

 Pemecahan dari persamaan-persamaan ini menghasilkan:

f(1) = 6,6, f(2) = 3,21, f(3) = -2,5

 Ringkasan iterasi perbaikan kebijakan diberikan dalam tabel berikut ini:

v_ik_{+ 0,6[p} i1kf(1) + pi2kf(2) + p i k=1 1 5,3+0,6[0,2x6,6+0,5x3,21+0,3x-2,5] = 6,61 4,7+0,6[0,3x6,6+0,6x3,21+0,1x 2 3,0+0,6[0x6,6+0,5x3,21+0,5x-2,5] = 3,21 3,1+0,6[0,1x6,6+0,6x3,21+0,3x 3 -1,0+0,6[0x6,6+0x3,21+1x-2,5] = -2,5 0,4+0,6[0,05x6,6+0,4x3,21+0,55x

Metode Iterasi Kebijakan Dengan Diskonto

: Kita akan menyelesaikan contoh terdahulu dengan α = 0,6

Dengan dimulai dari satu kebijakan sembarang s = {1,1,1}. Matriks P dan R (P1 _{dan R}1

dalam contoh terdahulu) menghasilkan persamaan: 0,6[0,2f(1) + 0,5f(2) + 0,3f(3)] = 5,3

0,6[ f(3)] = -1

persamaan ini menghasilkan:

Ringkasan iterasi perbaikan kebijakan diberikan dalam tabel berikut ini:

f(2) + p_i3k_f(3)] _Pemecahan optimal k=2 f(i) k* 4,7+0,6[0,3x6,6+0,6x3,21+0,1x-2,5] = 6,89 6,89 2 3,1+0,6[0,1x6,6+0,6x3,21+0,3x-2,5] = 4,2 4,2 2 0,4+0,6[0,05x6,6+0,4x3,21+0,55x-2,5] = 0,54 0,54 2 35

(36)

Metode Iterasi Kebijakan Dengan Diskonto



Langkah penentuan nilai yang menggunakan

sebelumnya menghasilkan

persamaan-f(1) – 0,6[0,3persamaan-f(1) + 0,6f(2) + 0,1f(3)] = 4,7

f(2) – 0,6[0,1f(1) + 0,6f(2) + 0,3f(3)] = 3,1

f(3) – 0,6[0,05f(1) + 0,4f(2) + 0,55f(3)] = 0,4



Pemecahan dari persamaan-persamaan ini menghasilkan:

f(1) = 8,88, f(2) = 6,62, f(3) = 3,57



Ringkasan iterasi perbaikan kebijakan diberikan dalam tabel berikut ini:

v_ik_{+ 0,6[p} i1kf(1) + pi2kf(2) + p i k=1 1 5,3+0,6[0,2x8,88+0,5x6,62+0,3x3,37] = 8,95 4,7+0,6[0,3x8,88+0,6x6,62+0,1x3,37] = 8,88 2 3,0+0,6[0x8,88+0,5x6,62+0,5x3,37] = 5,99 3,1+0,6[0,1x8,88+0,6x6,62+0,3x3,37] = 6,62 3 -1,0+0,6[0x8,88+0x6,62+1x3,37] = 1,02 0,4+0,6[0,05x8,88+0,4x6,62+0,55x3,37] = 3,37

Metode Iterasi Kebijakan Dengan Diskonto

Langkah penentuan nilai yang menggunakan P

2

_{dan R}

2

_{dalam contoh}

-persamaan berikut:

0,6[0,3f(1) + 0,6f(2) + 0,1f(3)] = 4,7

0,6[0,1f(1) + 0,6f(2) + 0,3f(3)] = 3,1

0,6[0,05f(1) + 0,4f(2) + 0,55f(3)] = 0,4

persamaan ini menghasilkan:

Ringkasan iterasi perbaikan kebijakan diberikan dalam tabel berikut ini:

f(2) + p_i3k_f(3)] _Pemecahan optimal k=2 f(i) k* 4,7+0,6[0,3x8,88+0,6x6,62+0,1x3,37] = 8,88 8,95 1 3,1+0,6[0,1x8,88+0,6x6,62+0,3x3,37] = 6,62 6,62 ₂ 0,4+0,6[0,05x8,88+0,4x6,62+0,55x3,37] = 3,37 3,37 2 36

(37)

Metode Iterasi Kebijakan Dengan Diskonto



Karena kebijakan baru {1,2,2} berbeda dengan kebijakan di atas, langkah

penentuan nilai dimasuki kembali dengan menggunakan

sebelumnya menghasilkan persamaan

f(1) – 0,6[0,2f(1) + 0,5f(2) + 0,3f(3)] = 5,3

f(2) – 0,6[0,1f(1) + 0,6f(2) + 0,3f(3)] = 3,1

f(3) – 0,6[0,05f(1) + 0,4f(2) + 0,55f(3)] = 0,4



Pemecahan dari persamaan-persamaan ini menghasilkan:

f(1) = 8,98, f(2) = 6,63, f(3) = 3,38



Ringkasan iterasi perbaikan kebijakan diberikan dalam tabel berikut ini:

v_ik_{+ 0,6[p} i1kf(1) + pi2 i k=1 1 5,3+0,6[0,2x8,98+0,5x6,63+0,3x3,38] = 8,98 2 3,0+0,6[0x8,98+0,5x6,63+0,5x3,38] = 6,00 3 -1,0+0,6[0x8,98+0x6,63+1x3,38] = 1,03 0,4+0,6[0,05x8,98+0,4x6,63+0,55x3,38] = 3,37

Metode Iterasi Kebijakan Dengan Diskonto

Karena kebijakan baru {1,2,2} berbeda dengan kebijakan di atas, langkah

penentuan nilai dimasuki kembali dengan menggunakan P

8

_{dan R}

8

_{dalam contoh}

sebelumnya menghasilkan persamaan-persamaan berikut:

0,6[0,2f(1) + 0,5f(2) + 0,3f(3)] = 5,3

0,6[0,1f(1) + 0,6f(2) + 0,3f(3)] = 3,1

0,6[0,05f(1) + 0,4f(2) + 0,55f(3)] = 0,4

persamaan ini menghasilkan:

f(1) = 8,98, f(2) = 6,63, f(3) = 3,38

Ringkasan iterasi perbaikan kebijakan diberikan dalam tabel berikut ini:

i2kf(2) + pi3kf(3)] Pemecahan optimal k=2 f(i) k* 4,7+0,6[0,3x8,98+0,6x6,63+0,1x3,38] = 8,91 8,98 1 3,1+0,6[0,1x8,98+0,6x6,63+0,3x3,38] = 6,63 6,63 2 0,4+0,6[0,05x8,98+0,4x6,63+0,55x3,38] = 3,37 _3,37 ₂ 37

(38)

Metode Iterasi Kebijakan Dengan

Diskonto



Karena kebijakan baru ini {1,2,2} adalah identik dengan kebijakan

sebelumnya, kebijakan ini optimal. Catat bahwa kebijakan diskonto

menghasilkan kebijakan optimal yang berbeda, yang menyatakan tidak

digunakannya pupuk jika keadaan sistem adalah baik (keadaan 1).

Metode Iterasi Kebijakan Dengan

Diskonto

Karena kebijakan baru ini {1,2,2} adalah identik dengan kebijakan

sebelumnya, kebijakan ini optimal. Catat bahwa kebijakan diskonto

menghasilkan kebijakan optimal yang berbeda, yang menyatakan tidak

digunakannya pupuk jika keadaan sistem adalah baik (keadaan 1).

(39)

Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov

 Masalah keputusan Markov tahap tak hingga

dirumuskan dan dipecahkan sebagai sebuah

Masalah Keputusan Markov tanpa diskonto

 Di bagian seblumhya, sudah diperlihatkan bahwa

diskonto pada akhirnya menyempit menjadi bersesuaian dengan:

dengan S adalah kumpulan dari semua kebijakan Batasan dari masalah ini memastikan bahwa

steady-state dari rantai Markov Ps_.

 Secara spesifik, setiap kebijakan s dinyatakan

(stasioner).

 Kita harus memodifikasi variabel yang tidak

sehingga pemecahan optimal akan secara ketika sistem tersebut berada dalam keadaan lalu akan mendefinisikan s*, kebijakan optimal.

















 

,

|

v

max

s s m i s s s s i s i S s 1 2 1



P

Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov

hingga, baik dengan maupun tanpa diskonto, dapat sebuah program linear.

diskonto.

bahwa masalah Markov tahap tak hingga tanpa menjadi masalah penentuan kebijakan optimal s*, yang

kebijakan yang mungkin dalam masalah itu. bahwa π_is_{, i = 1, 2, …, m mewakili probabilitas}

dinyatakan dengan sekelompok tindakan yang tetap tidak diketahui dari masalah ini sedemikian rupa

otomatis menentukan tindakan optimal k

keadaan i. Kumpulan dari semua tindakan optimal ini optimal.



















....

_ms

,

_is

,

i

,

,...,

m

s

2

1

0

1 



39

(40)

Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov



Tujuan ini dicapai sebagai berikut. Anggaplah

q

_ik

_{= probabilitas kondisional dari memilih}

tersebut berada dalam keadaan i



Jadi, masalah ini dapat diekspresikan sebagai

dengan batasan



Catat bahwa p

_ij

adalah fungsi dari kebijakan

merupakan fungsi dari alternatif spesifik

n

maksimumka

k dan i , q , m ,..., , i , q ... q q ... m ,..., , j , p k i i K i i i m m i ij i j              



 0 0 2 1 1 1 2 1 2 1 2 1 1      

Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov

Anggaplah

memilih alternatif k dengan diketahui sistem

sebagai

kebijakan yang dipilih dan karena itu

spesifik k dari kebijakan tersebut.



 















m i K k k i k i i

q

v

E

1 1



40

(41)

Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov



Masalah ini dapat dikonversikan menjadi sebuah program linear dengan

membuat substitusi yang tepat yang melibatkan q



Amati bahwa formulasi tersebut adalah setara dengan masalah semula hanya

jika q

_ik

_{= 1 untuk tepat satu k untuk setiap i, karena hal ini akan mengurangi}

jumlah menjadi v

_ik

_{, di mana k* adalah alternatif optimal yang dipilih.}

Untungnya, program linear yang kita kembangkan di sini memperhitungkan

kondisi ini secara otomatis.



Definisikan

w

_ik

= π

_i

q

_ik

_{, untuk semua i dan k}



Berdasarkan definisinya, w

_ik

mewakili probabilitas gabungan untuk berada

dalam keadaan i dan membuat keputusan k. Dari teori probabilitas kita

mengetahui bahwa:



  K k i 1 

Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov

Masalah ini dapat dikonversikan menjadi sebuah program linear dengan

membuat substitusi yang tepat yang melibatkan q

_ik

_.

Amati bahwa formulasi tersebut adalah setara dengan masalah semula hanya

= 1 untuk tepat satu k untuk setiap i, karena hal ini akan mengurangi

, di mana k* adalah alternatif optimal yang dipilih.

Untungnya, program linear yang kita kembangkan di sini memperhitungkan

mewakili probabilitas gabungan untuk berada

dalam keadaan i dan membuat keputusan k. Dari teori probabilitas kita



 K k k i k i v q 1 ik w 1 41

(42)

Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov



Karena itu



Jadi kita melihat bahwa batasan dapat ditulis sebagai



Juga batasan secara otomatis tersirat berdasarkan cara kita

mendefinisikan q

_ik

_{dalam bentuk w}

sebagai



  K k ik ik k i w w q 1 1 1 1 

 

  m i K k ik w 1



 K k

maksimumka

Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov

Jadi kita melihat bahwa batasan dapat ditulis sebagai

Juga batasan secara otomatis tersirat berdasarkan cara kita

dalam bentuk w

_ik

. Jadi masalah ini dapat ditulis

1 1 



 m i i  1 1  k i q



 















m i K k k i k i i

q

v

E

n

maksimumka

1 1



42

(43)

Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov



dengan batasan



Model yang dihasilkan ini merupakan sebuah program linear dalam w



Di sini akan diperlihatkan bahwa pemecahan optimalnya secara otomatis menjadi

q

_ik

_{= 1 untuk satu k untuk setiap i. Pertama, catat bahwa program linear ini}

memeliki m persamaan independen (satu persamaan yang berkaitan dengan

πP adalah berlebihan). Karena itu, masalah ini harus memiliki m variabel dasar.

Tetapi, dapat diperlihatkan bahwa w

_ik

harus positif secara ketat untuk setidaknya

satu k untuk setiap i. Dari kedua hasil ini, kita menyimpulkan bahwa:

TIA 310 K ,..., , k ; m ,..., , i , w w m ,..., , j , w p w ik m i K k ik m i K k ik k ij m i jk 2 1 2 1 0 1 2 1 0 1 1 1 1 1       

 



     k i q

Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov

Model yang dihasilkan ini merupakan sebuah program linear dalam w

_ik

.

Di sini akan diperlihatkan bahwa pemecahan optimalnya secara otomatis menjadi

= 1 untuk satu k untuk setiap i. Pertama, catat bahwa program linear ini

memeliki m persamaan independen (satu persamaan yang berkaitan dengan π =

adalah berlebihan). Karena itu, masalah ini harus memiliki m variabel dasar.

harus positif secara ketat untuk setidaknya

satu k untuk setiap i. Dari kedua hasil ini, kita menyimpulkan bahwa:

TIA 310



  K k ik ik k w w 1 ₄₃

(44)

Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov

hanya dapat memiliki nilai biner (0 atau 1), seperti yang diinginkan. (Pada

kenyataannya, hasil di atas juga memperlihatkan bahwa di mana k* adalah alternatif yang bersesuaian dengan w_ik>0)

Contoh: Formulasi LP untuk masalah petani tadi tanpa diskonto:

maksimumkan E = 5,3w₁₁ + 4,7w₁₂ + 3w dengan batasan w₁₁ + w₁₂ – (0,2w₁₁ + 0,3w₁₂ + 0,1w w₂₁ + w₂₂ – (0,5w₁₁ + 0,6w₁₂ + 0,5w₂₁ + 0,6w w₃₁ + w₃₂ – (0,3w₁₁ + 0,1w₁₂ + 0,5w₂₁ + 0,3w w₁₁ + w₁₂ + w₂₁ + w₂₂ + w w_ik ≥ 0, untuk semua i dan k

 Pemecahan optimalnya adalah w₁₁ = w

= 22/59. Hasil ini berarti bahwa q₁2 _{= q} 2

dipilihnya alternatif 2 (k = 2) untuk i = 1, 2, dan 3. Nilai optimal dari E adalah 2,256.

TIA 310 i 



Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov

hanya dapat memiliki nilai biner (0 atau 1), seperti yang diinginkan. (Pada

kenyataannya, hasil di atas juga memperlihatkan bahwa di mana k* adalah alternatif

: Formulasi LP untuk masalah petani tadi tanpa diskonto:

+ 3w₂₁ + 3,1w₂₂ – w₃₁ + 0,4w₃₂ + 0,1w₂₂ + 0,05w₃₂) = 0 + 0,6w₂₂ + 0,4w₃₂) = 0 + 0,3w₂₂ + w₃₁ + 0,55w₃₂) = 0 + w₃₁ + w₃₂ = 1 = w₁₂ = w₃₁ = 0 dan w₁₂ = 6/59, w₂₂ = 31/59, dan w₃₂

22 = q32 = 1. Jadi, kebijakan optimal menyatakan

dipilihnya alternatif 2 (k = 2) untuk i = 1, 2, dan 3. Nilai optimal dari E adalah 2,256.

TIA 310 * ik K k ik w w  



1 44

(45)

Pemecahan Pemrograman Linear untuk Masalah

Keputusan Markov



Adalah menarik bahwa nilai-nilai positif

yang berkaitan dengan kebijakan optimal

Observasi ini menunjukkan hubungan langsung

pemecahan ini.

Masalah Keputusan Markov dengan diskonto



Masalah ini diekspresikan dengan persamaan



Persamaan ini adalah setara dengan

dengan ketentuan bahwa f(i) mencapai



Sekarang pertimbangkan fungsi tujuan

 

i max v p f

 

j , i , ,...,m f m j k ij k i k 2 1 1             