PROSES KEPUTUSAN
MARKOVIAN
TEKNIK RISET OPERASI
PROSES KEPUTUSAN
MARKOVIAN
Contoh
TIA 310
Contoh
Contoh
TIA 310
Contoh
TIA 310
TIA 310
TIA 310
TIA 310
Cara Perhitungan
0.2 x 7 + 0.5 x 6 + 0.3 x 3 = 5.3
0 x 0 + 0.5 x 5 + 0.5 x 1 = 3
0 x 0 + 0 x 0 + 1 x -1 = -1
0.3 x 6 + 0.6 x 5 + 0.1 x -1 = 4.7
0.1 x 7 + 0.6 x 4 + 0.3 x 0 = 3.1
0.05 x 6 + 0.4 x 3 + 0.55 x -2 = 0.4
92 = 0.4
TIA 310
-0.6
Cara Perhitungan
5.3 + 0.2 x 5.3 + 0.5 x 3.1 + 0.3 x 0.4 = 8.03
3 + 0 x 5.3 + 0.5 x 3.1 + 0.5 x 0.4 = 4.75
1 + 0 x 5.3 + 0 x 3.1 + 1 x 0.4 =
-4.7 + 0.3 x 5.3 + 0.6 x 3.1 + 0.1 x 0.4 = 8.19
3.1 + 0.1 x 5.3 + 0.6 x 3.1 + 0.3 x 0.4 = 5.61
0.4 + 0.05 x 5.3 + 0.4 x 3.1 + 0.55 x 0.4 = 2.13
5.3 + 0.2 x 5.3 + 0.5 x 3.1 + 0.3 x 0.4 = 8.03
3 + 0 x 5.3 + 0.5 x 3.1 + 0.5 x 0.4 = 4.75
-0.6
4.7 + 0.3 x 5.3 + 0.6 x 3.1 + 0.1 x 0.4 = 8.19
3.1 + 0.1 x 5.3 + 0.6 x 3.1 + 0.3 x 0.4 = 5.61
0.4 + 0.05 x 5.3 + 0.4 x 3.1 + 0.55 x 0.4 = 2.13
TIA 310
Cara Perhitungan
5.3 + 0.2 x 8.19 + 0.5 x 5.61 + 0.3 x 2.13 = 10.38
3 + 0 x 8.19 + 0.5 x 5.61 + 0.5 x 2.13 = 6.87
-1 + 0 x 8.19 + 0 x 5.61 + 1 x 2.13 = 1.13
4.7 + 0.3 x 8.19 + 0.6 x 5.61 + 0.1 x 2.13 = 10.74
3.1 + 0.1 x 8.19 + 0.6 x 5.61 + 0.3 x 2.13 = 7.92
0.4 + 0.05 x 8.19 + 0.4 x 5.61 + 0.55 x 2.13 = 4.23
5.3 + 0.2 x 8.19 + 0.5 x 5.61 + 0.3 x 2.13 = 10.38
3 + 0 x 8.19 + 0.5 x 5.61 + 0.5 x 2.13 = 6.87
1 + 0 x 8.19 + 0 x 5.61 + 1 x 2.13 = 1.13
4.7 + 0.3 x 8.19 + 0.6 x 5.61 + 0.1 x 2.13 = 10.74
3.1 + 0.1 x 8.19 + 0.6 x 5.61 + 0.3 x 2.13 = 7.92
0.4 + 0.05 x 8.19 + 0.4 x 5.61 + 0.55 x 2.13 = 4.23
Metode Enumerasi Lengkap
Contoh 1: Masalah petani dengan
hingga
Di sini ada 8 kebijakan stasioner
TIA 310
Kebijakan Stasioner s Tindakan
1 Tidak menggunakan 2 Menggunakan pupuk 3 Gunakan pupuk 4 Gunakan pupuk 5 Gunakan pupuk 6 Gunakan pupuk 7 Gunakan pupuk 8 Gunakan pupuk
Metode Enumerasi Lengkap
dengan horison perencanaan periode tak
stasioner, yaitu:
TIA 310
menggunakan pupuk sama sekali
pupuk tanpa bergantung pada keadaan pupuk ketika keadaan 1
pupuk ketika keadaan 2 pupuk ketika keadaan 3
pupuk ketika keadaan 1 atau 2 pupuk ketika keadaan 1 atau 3 pupuk ketika keadaan 2 atau 3
Metode Enumerasi Lengkap
Matriks P
kdan R
kuntuk kebijakan 3 sampai 8 diturunkan dari matriks
untuk kebijakan 1 dan 2. Karena itu kita memiliki
0,2 0,5 0,3 P1= 0 0,5 0,5 R1= 0 0 1 0,3 0,6 0,1 P2= 0,1 0,6 0,3 R2= 0,05 0,4 0,55 0,3 0,6 0,1 P3= 0 0,5 0,5 R3= 0 0 1 0,2 0,5 0,3 P4= 0,1 0,6 0,3 R4= 0 0 1
Metode Enumerasi Lengkap
untuk kebijakan 3 sampai 8 diturunkan dari matriks
untuk kebijakan 1 dan 2. Karena itu kita memiliki
7 6 3 0 5 1 0 0 -1 6 5 -1 7 4 0 6 3 -2 6 5 -1 0 5 1 0 0 -1 7 6 3 7 4 0 0 0 -1 20
Metode Enumerasi Lengkap
Nilai-nilai v
ikkarena itu dapat dihitung
berikut ini:
0,2 0,5 0,3 P5= 0 0,5 0,5 R5= 0,05 0,4 0,55 0,3 0,6 0,1 P6= 0,1 0,6 0,3 R6= 0 0 1 0,3 0,6 0,1 P7= 0 0,5 0,5 R7= 0,05 0,4 0,55 0,2 0,5 0,3 P8= 0,1 0,6 0,3 R8= 0,05 0,4 0,55Metode Enumerasi Lengkap
dihitung seperti diberikan dalam tabel
7 6 3 0 5 1 6 3 -2 6 5 -1 7 4 0 0 0 -1 6 5 -1 0 5 1 6 3 -2 7 6 3 7 4 0 6 3 -2 21
Metode Enumerasi Lengkap
Perhitungan dari probabilitas stasioner
menggunakan persamaan:
π
sP
s= π
sπ
1+ π
2+ … + π
m= 1
s
i = 1
i = 2
1
5,3
3
2
4,7
3,1
3
4,7
3
4
5,3
3,1
5
5,3
3
6
4,7
3,1
7
4,7
3
8
5,3
3,1
Metode Enumerasi Lengkap
stasioner tersebut dicapai dengan
= 2
i = 3
3
-1
3,1
0,4
3
-1
3,1
-1
3
0,4
3,1
-1
3
0,4
3,1
0,4
22Metode Enumerasi Lengkap
Sebagai ilustrasi, pertimbangkan s = 2.
0,3π
1+ 0,1π
2+ 0,05π
3= π
10,6π
1+ 0,6π
2+ 0,4π
3= π
20,1π
1+ 0,3π
2+ 0,55π
3= π
3π
1+ π
2+ π
3= 1
Berdasarkan hasil eliminasi dan substitusi
π
12= 6/59, π
22
= 31/59, π
32= 22/59
Dalam kasus ini, pendapatan tahunan
Tabel berikut ini meringkaskan
π
kstasioner.
6 47 31 31 22 59 1 3 1 2 2 2 v x , x , x E i i i
Metode Enumerasi Lengkap
s = 2. Persamaan yang berkaitan adalah:
substitusi didapatkan :
= 22/59
tahunan yang diperkirakan adalah:
dan E
kuntuk semua kebijakan
2256 40, ,
x
Metode Enumerasi Lengkap
Tabel terakhir ini menunjukkan bahwa kebijakan
tahunan yang diperkirakan terbesar. Akibatnya
optimum menyatakan penggunaan pupuk
sistem.
s
π
1s1
0
2
6/59
3
0
4
0
5
5/154
69/154
6
0
7
5/137
62/137
8
12/135
69/135
Metode Enumerasi Lengkap
kebijakan 2 menghasilkan pendapatan
Akibatnya, kebijakan jangka panjang
pupuk tanpa bergantung pada keadaan
π
2sπ
3sE
s0
1
-1
31/59
22/59
2,256
0
1
-1
0
1
-1
69/154
80/154
1,724
0
1
-1
62/137
70/137
1,734
69/135
54/135
2,216
24Metode Iterasi Kebijakan Tanpa Diskonto
Bayangkan jika metode enumerasi lengkap diterapkan untuk masalah petani
dengan 4 arah tindakan (bukan dua): tidak menggunakan pupuk, menggunakan
pupuk satu kali selama musim tersebut, menggunakan pupuk dua kali, dan
menggunakan pupuk tiga kali.
Dalam kasus ini, petani tersebut secara keseluruhan memiliki 4
stasioner. Melakukan enumerasi dari semua kebijakan secara eksplisit bukan
hanya sulit, tetapi juga jumlah perhitungan yang terlibat dalam evaluasi kebijakan
ini dapat sangat besar.
Karena itu dikembangkan metode iterasi kebijakan sebagai berikut.
Di bagian sebelumnya sudah diperlihatkan bahwa pengembalian total yang
diperkirakan di tahap n dinyatakan dengan persamaan rekursif:
Persamaan rekursif ini adalah dasar untuk pengembangan metode iterasi
kebijakan. Tetapi, bentuk ini harus sedikit dimodifikasi untuk memungkinkan kita
untuk mempelajari perilaku asimtut dari proses ini
i v p f
j , i f m j n ij i n 1 1
Metode Iterasi Kebijakan Tanpa Diskonto
Bayangkan jika metode enumerasi lengkap diterapkan untuk masalah petani
dengan 4 arah tindakan (bukan dua): tidak menggunakan pupuk, menggunakan
pupuk satu kali selama musim tersebut, menggunakan pupuk dua kali, dan
Dalam kasus ini, petani tersebut secara keseluruhan memiliki 4
3= 256 kebijakan
stasioner. Melakukan enumerasi dari semua kebijakan secara eksplisit bukan
hanya sulit, tetapi juga jumlah perhitungan yang terlibat dalam evaluasi kebijakan
Karena itu dikembangkan metode iterasi kebijakan sebagai berikut.
Di bagian sebelumnya sudah diperlihatkan bahwa pengembalian total yang
diperkirakan di tahap n dinyatakan dengan persamaan rekursif:
Persamaan rekursif ini adalah dasar untuk pengembangan metode iterasi
kebijakan. Tetapi, bentuk ini harus sedikit dimodifikasi untuk memungkinkan kita
untuk mempelajari perilaku asimtut dari proses ini
.
m ,..., ,2 1 25
Metode Iterasi Kebijakan Tanpa Diskonto
Pada intinya, kita mendefinisikan
η sebagai
dipertimbangkan. Ini adalah berbalikan
mendefinisikan tahap ke-n. Jadi, persamaan
Catat bahwa f
ηadalah pendapatan kumulatif
η adalah jumlah tahap yang tersisa untuk
ini, perilaku asimtut dari proses ini dapat
Dengan diketahui bahwa
π
= (π
1, π
2, …, π
m)
adalah vektor probabilitas steady state
E = π
1v
1+ π
2v
2+ … π
mv
madalah pendapatan yang diperkirakan
sebelumnya, dapat diperlihatkan bahwa
f
η(i) = ηE +f(i)
i
v
p
f
j
,
i
f
m j ij i 1 1
Metode Iterasi Kebijakan Tanpa Diskonto
sebagai jumlah tahap yang tersisa untuk
berbalikan dengan n dalam persamaan di atas, yang
persamaan rekursif itu dapat ditulis:
kumulatif yang diperkirakan dengan diketahui
untuk dipertimbangkan. Dengan definisi baru
dapat diketahui dengan menganggap
η→∞.
steady state dari matriks transisi P = ||p
ij|| dan
diperkirakan per tahun seperti dihitung di bagian
bahwa untuk
η yang sangat besar,
m
,...,
,2
1
26Metode Iterasi Kebijakan Tanpa Diskonto
dengan f(i) adalah sebuah bagian konstan yang mewakili titik potong asimtut dari f dengan diketahui keadaan i.
Karena fη(i) adalah pengembalian optimum kumulatif untuk
keadaan i dan E adalah pengembalian yang diperkirakan per tahap, kita dapat secara intuitif melihat mengapa fη(i) sama dengan
memperhitungkan keadaan spesifik i. Hasil ini tentu saja mengasumsikan bahwa besar.
Menggunakan informasi ini, persamaan rekursif tersebut dapat ditulis:
Dengan menyederhanakan persamaan di atas, kita memperoleh:
yang menghasilkan m persamaan dan m + 1 variabel yang tidak diketahui, di mana
variabel yang tidak diketahui itu adalah f(1), f(2), …, f(m), dan E.
i
v
p
f
E
m
i
ij
i
1
1
i
v
p
f
E
m
i
ij
i
1
Metode Iterasi Kebijakan Tanpa Diskonto
dengan f(i) adalah sebuah bagian konstan yang mewakili titik potong asimtut dari fη(i) (i) adalah pengembalian optimum kumulatif untuk η tahap dengan diketahui keadaan i dan E adalah pengembalian yang diperkirakan per tahap, kita dapat secara
(i) sama dengan ηE ditambah faktor koreksi f(i) yang
memperhitungkan keadaan spesifik i. Hasil ini tentu saja mengasumsikan bahwa η sangat Menggunakan informasi ini, persamaan rekursif tersebut dapat ditulis:
Dengan menyederhanakan persamaan di atas, kita memperoleh:
yang menghasilkan m persamaan dan m + 1 variabel yang tidak diketahui, di mana variabel yang tidak diketahui itu adalah f(1), f(2), …, f(m), dan E.
E
f
j
,
i
1
,
2
,...,
m
.
1
E
f
j
,
i
1
,
2
,...,
m
.
1
27Metode Iterasi Kebijakan Tanpa Diskonto
Tujuan akhir adalah menentukan kebijakan
maksimum. Karena terdapat m persamaan nilai E optimum tidak dapat ditentukan dalam pendekatan iteratif dimanfaatkan yang,
sembarang, lalu akan menentukan suatu yang lebih baik. Proses iteratif tersebut turut adalah identik.
Proses iteratif ini terdiri dari dua komponen
nilai (value determination) dan langkah
1. Langkah penentuan nilai. Pilihlah satu
matriks Ps dan Rs yang berkaitan dan secara
pecahkan persamaan
dengan variabel yang tidak diketahui E perbaikan kebijakan.
1j
f
p
v
E
m j s s ij s i s
Metode Iterasi Kebijakan Tanpa Diskonto
kebijakan optimum yang menghasilkan nilai E
persamaan dengan m+1 variabel yang tidak diketahui, dalam satu langkah. Sebaliknya, suatu
yang, dengan memulai di satu kebijakan secara suatu kebijakan baru yang menghasilkan nilai E
berakhir ketika dua kebijakan yang berturut-komponen dasar, yang disebut langkah penentuan langkah perbaikan kebijakan (policy improvement).
satu kebijakan s secara sembarang. Gunakan secara sembarang asumsikan bahwa fs(m) = 0,
Es, fs(1), …, dan fs(m-1). Lanjutkan ke tahap
i
,
i
1
,
2
,...,
m
(
b
.
1
)
f
s
Metode Iterasi Kebijakan Tanpa Diskonto
2.
Langkah Perbaikan Kebijakan. Untuk setiap keadaan i, tentukan alternatif k yangmenghasilkan:
[Nilai-nilai fs(j), j = 1, 2, …, m, adalah nilai
nilai.]
Keputusan optimum yang dihasilkan k untuk keadaan 1, 2, …, m membentuk kebijakan baru t. Jika s dan t adalah identik, berhenti; t adalah optimum. Jika tidak identik, tetapkan s = t dan kembali ke langkah penentuan nilai.
Masalah optimisasi dari langkah perbaikan kebijakan memerlukan penjelasan. Tujuan kita
dalam langkah ini adalah memperoleh max{E}. Seperti diketahui:
f p v max m j k ij k i k 1
f
p
v
E
m
j
ij
i
1
Metode Iterasi Kebijakan Tanpa Diskonto
. Untuk setiap keadaan i, tentukan alternatif k yang
(j), j = 1, 2, …, m, adalah nilai-nilai yang ditentukan dalam langkah penentuan Keputusan optimum yang dihasilkan k untuk keadaan 1, 2, …, m membentuk kebijakan baru t. Jika s dan t adalah identik, berhenti; t adalah optimum. Jika tidak identik, tetapkan s = t dan kembali ke langkah penentuan nilai.
Masalah optimisasi dari langkah perbaikan kebijakan memerlukan penjelasan. Tujuan kita dalam langkah ini adalah memperoleh max{E}. Seperti diketahui:
j , i , ,...,m f s 12
j
f
i
29Metode Iterasi Kebijakan Tanpa Diskonto
Karena f(i) tidak bergantung pada alternatif k, disimpulkan bahwa maksimisasi E di semua
alternatif k adalah setara dengan masalah maksimisasi yang diketahui dalam langkah perbaikan kebijakan.
Contoh: Kita mmecahkan contoh petani tersebut dengan metode iterasi kebijakan. Iterasi 1
Kita mulai dengan kebijakan sembarang yang menyatakan tidak diperguna
Matriks yang berkaitan adalah:
Persamaan dalam langkah iterasi nilai adalah:
E + f(1) – 0,2f(1) – 0,5f(2) – 0,3f(3) = 5,3 E + f(2) - 0,5f(2) – 0,5f(3) = 3 E + f(3) f(3) =
- Jika kita secara sembarang menganggap f(3) = 0, persamaan
menghasilkan pemecahan:
E = -1, f(1) = 12,88, f(2) = 8, f(3) = 0
Metode Iterasi Kebijakan Tanpa Diskonto
Karena f(i) tidak bergantung pada alternatif k, disimpulkan bahwa maksimisasi E di semua alternatif k adalah setara dengan masalah maksimisasi yang diketahui dalam langkah
Kita mmecahkan contoh petani tersebut dengan metode iterasi kebijakan.
Kita mulai dengan kebijakan sembarang yang menyatakan tidak diperguna-kannya pupuk.
Persamaan dalam langkah iterasi nilai adalah: 0,3f(3) = 5,3
-1
Jika kita secara sembarang menganggap f(3) = 0, persamaan-persamaan tersebut
0,2 0,5 0,3 7 6 3
P = 0 0,5 0,5 R = 0 5 1
0 0 1 0 0 -1
Metode Iterasi Kebijakan Tanpa Diskonto
Selanjutnya, kita menerapkan langkah perbaikan kebijakan. Perhitungan yang berkaitan
diperlihatkan dalam tabel berikut ini.
Kebijakan baru ini menyatakan penggunaan pupuk tanpa bergantung pada keadaan.
Karena kebijakan baru ini berbeda dari yang sebelumnya, langkah penentuan nilai kembali dilakukan.
Iterasi 2
Matriks yang berkaitan dengan kebijakan baru ini adalah:
Matriks ini menghasilkan persamaan-persamaan berikut:
E + f(1) – 0,3f(1) – 0,6f(2) – 0,1f(3) = 4,7 TIA 310 vik+ p i1kf(1) + pi2kf(2) + p i k=1 1 5,3+0,2x12,88+0,5x8+0,3x0 = 11,875 2 3,0+0x12,88+0,5x8+0,5x0 = 7 3 -1,0+0x12,88+0x8+1x0 = -1 0,4+0,05x12,88+0,4x8+0,55x0 = 4,24 0,3 0,6 0,1 6 P = 0,1 0,6 0,3 R = 7 0,05 0,4 0,55 6
Metode Iterasi Kebijakan Tanpa Diskonto
Selanjutnya, kita menerapkan langkah perbaikan kebijakan. Perhitungan yang berkaitan
Kebijakan baru ini menyatakan penggunaan pupuk tanpa bergantung pada keadaan.
Karena kebijakan baru ini berbeda dari yang sebelumnya, langkah penentuan nilai kembali
Matriks yang berkaitan dengan kebijakan baru ini adalah:
persamaan berikut: 0,1f(3) = 4,7 TIA 310 f(2) + pi3kf(3) Pemecahan optimal k=2 f(i) k* 4,7+0,3x12,88+0,6x8+0,1x0 = 13,36 13,36 2 3,1+0,1x12,88+0,6x8+0,3x0 = 9,19 9,19 2 0,4+0,05x12,88+0,4x8+0,55x0 = 4,24 4,24 2 6 5 -1 7 4 0 6 3 -2 31
Metode Iterasi Kebijakan Tanpa Diskonto
E + f(2) – 0,1f(1) – 0,6f(2) – 0,3f(3) = 3,1 E + f(3) – 0,05f(1) – 0,4f(2) – 0,55f(3) = 0,4
Sekali lagi, dengan menganggap f(3) = 0, kita memperoleh pemecahan:
E = 2,26, f(1) = 6,75, f(2) = 3,79, f(3) = 0
Perhitungan dalam langkah perbaikan kebijakan diberikan dalam tabel berikut ini:
Kebijakan baru ini, yang menyatakan penggunaan pupuk tanpa bergantung pada keadaan
adalah identik dengan yang sebelumnya. Jadi, kebijakan terakhir ini optimal dan proses iteratif berakhir. Secara alamiah, kesimpulan dengan metode ini sama dengan kesimpulan yang diperoleh dengan metode enumerasi lengkap.
vik+ p i1kf(1) + pi2kf(2) + p i k=1 1 5,3+0,2x6,75+0,5x3,79+0,3x0 = 8,54 4,7+0,3x6,75+0,6x3,79+0,1x0 = 8,99 2 3,0+0x6,75+0,5x3,79+0,5x0 = 4,89 3,1+0,1x6,75+0,6x3,79+0,3x0 = 6,05 3 -1,0+0x6,75+0x3,79+1x0 = -1 0,4+0,05x6,75+0,4x3,79+0,55x0 = 2,25
Metode Iterasi Kebijakan Tanpa Diskonto
Sekali lagi, dengan menganggap f(3) = 0, kita memperoleh pemecahan:
Perhitungan dalam langkah perbaikan kebijakan diberikan dalam tabel berikut ini:
Kebijakan baru ini, yang menyatakan penggunaan pupuk tanpa bergantung pada keadaan adalah identik dengan yang sebelumnya. Jadi, kebijakan terakhir ini optimal dan proses iteratif berakhir. Secara alamiah, kesimpulan dengan metode ini sama dengan kesimpulan yang diperoleh dengan metode enumerasi lengkap.
f(2) + pi3kf(3) Pemecahan optimal k=2 f(i) k* 4,7+0,3x6,75+0,6x3,79+0,1x0 = 8,99 8,99 2 3,1+0,1x6,75+0,6x3,79+0,3x0 = 6,05 6,05 2 0,4+0,05x6,75+0,4x3,79+0,55x0 = 2,25 2,25 2 32
Metode Iterasi Kebijakan Dengan Diskonto
Dengan diketahui bahwa α (< 1) adalah faktor diskonto, persamaan rekursif tahap
terhingga dapat ditulis sebagai:
(Perhatikan bahwa η mewakili sejumlah tahap yang masih harus dilalui).
Dapat dibuktikan bahwa sementara η→∞
adalah nilai sekarang (yang didiskonto) dari pendapatan yang diperkirakan dengan
diketahui bahwa sistem tersebut berada dalam keadaan i dan beroperasi dalam horison waktu yang tak terhingga. Jadi perilaku jangka panjang dari
bergantung dari nilai η.
Ini berlawanan dengan kasus tanpa diskonto, di mana f
atas. Hasil ini dapat diperkirkan karena dalam kasus diskonto, pengaruh pendapatan masa mendatang akan menurun menjadi nol secara asimtut. Pada kenyataannya, nilai sekarang f(i) akan mendekati nilai konstan sementara
m j k ij k i k f p v max i f 1 1 Metode Iterasi Kebijakan Dengan Diskonto
(< 1) adalah faktor diskonto, persamaan rekursif tahap
mewakili sejumlah tahap yang masih harus dilalui).
→∞ (model tahap tak hingga), fη(i) = f(i), dengan f(i) adalah nilai sekarang (yang didiskonto) dari pendapatan yang diperkirakan dengan
diketahui bahwa sistem tersebut berada dalam keadaan i dan beroperasi dalam horison waktu yang tak terhingga. Jadi perilaku jangka panjang dari fη(i) sementara η→∞ tidak Ini berlawanan dengan kasus tanpa diskonto, di mana fη(i) = ηE + f(i), seperti disebutkan di atas. Hasil ini dapat diperkirkan karena dalam kasus diskonto, pengaruh pendapatan masa mendatang akan menurun menjadi nol secara asimtut. Pada kenyataannya, nilai sekarang f(i) akan mendekati nilai konstan sementara η→∞.
1 j 33Metode Iterasi Kebijakan Dengan Diskonto
Langkah kebijakan iterasi dimodifikasi sebagai
1. Langkah penentuan nilai. Untuk sebuah Rs, pecahkan m persamaan:
dalam m nilai yang tidak diketahui fs(1),
persamaan dengan tepat m variabel yang
2. Langkah perbaikan kebijakan. Untuk setiap
menghasilkan
di mana fs(j) adalah nilai-nilai yang diperoleh
yang dihasilkan t adalah sama dengan s, = t dan kembali ke langkah penentuan nilai
1j
f
p
v
i
f
m j s s ij s i s
f p v max m j k ij k i k 1
Metode Iterasi Kebijakan Dengan Diskonto
sebagai berikut.
sebuah kebijakan sembarang s dengan matriks Ps dan
(1), fs(2), …, fs(m). (Catat bahwa di sini terdapat m
yang tidak diketahui)
setiap tahap i, tentukan alternatif k yang
diperoleh dari langkah penentuan nilai. Jika kebijakan s, berhenti; t optimum. Jika tidak sama, tetapkan s nilai
,
i
1
,
2
,...,
m
(
b
.
2
)
j
j , i , ,..., m f 1 1 2 34Metode Iterasi Kebijakan Dengan Diskonto
Contoh: Kita akan menyelesaikan contoh terdahulu dengan
Dengan dimulai dari satu kebijakan sembarang s = {1,1,1}. Matriks
dalam contoh terdahulu) menghasilkan persamaan: f(1) – 0,6[0,2f(1) + 0,5f(2) + 0,3f(3)] = 5,3
f(2) – 0,6[ 0,5f(2) + 0,5f(3)] = 3 f(3) – 0,6[ f(3)] =
Pemecahan dari persamaan-persamaan ini menghasilkan:
f(1) = 6,6, f(2) = 3,21, f(3) = -2,5
Ringkasan iterasi perbaikan kebijakan diberikan dalam tabel berikut ini:
vik+ 0,6[p i1kf(1) + pi2kf(2) + p i k=1 1 5,3+0,6[0,2x6,6+0,5x3,21+0,3x-2,5] = 6,61 4,7+0,6[0,3x6,6+0,6x3,21+0,1x 2 3,0+0,6[0x6,6+0,5x3,21+0,5x-2,5] = 3,21 3,1+0,6[0,1x6,6+0,6x3,21+0,3x 3 -1,0+0,6[0x6,6+0x3,21+1x-2,5] = -2,5 0,4+0,6[0,05x6,6+0,4x3,21+0,55x
Metode Iterasi Kebijakan Dengan Diskonto
: Kita akan menyelesaikan contoh terdahulu dengan α = 0,6
Dengan dimulai dari satu kebijakan sembarang s = {1,1,1}. Matriks P dan R (P1 dan R1
dalam contoh terdahulu) menghasilkan persamaan: 0,6[0,2f(1) + 0,5f(2) + 0,3f(3)] = 5,3
0,6[ f(3)] = -1
persamaan ini menghasilkan:
Ringkasan iterasi perbaikan kebijakan diberikan dalam tabel berikut ini:
f(2) + pi3kf(3)] Pemecahan optimal k=2 f(i) k* 4,7+0,6[0,3x6,6+0,6x3,21+0,1x-2,5] = 6,89 6,89 2 3,1+0,6[0,1x6,6+0,6x3,21+0,3x-2,5] = 4,2 4,2 2 0,4+0,6[0,05x6,6+0,4x3,21+0,55x-2,5] = 0,54 0,54 2 35
Metode Iterasi Kebijakan Dengan Diskonto
Langkah penentuan nilai yang menggunakan
sebelumnya menghasilkan
persamaan-f(1) – 0,6[0,3persamaan-f(1) + 0,6f(2) + 0,1f(3)] = 4,7
f(2) – 0,6[0,1f(1) + 0,6f(2) + 0,3f(3)] = 3,1
f(3) – 0,6[0,05f(1) + 0,4f(2) + 0,55f(3)] = 0,4
Pemecahan dari persamaan-persamaan ini menghasilkan:
f(1) = 8,88, f(2) = 6,62, f(3) = 3,57
Ringkasan iterasi perbaikan kebijakan diberikan dalam tabel berikut ini:
vik+ 0,6[p i1kf(1) + pi2kf(2) + p i k=1 1 5,3+0,6[0,2x8,88+0,5x6,62+0,3x3,37] = 8,95 4,7+0,6[0,3x8,88+0,6x6,62+0,1x3,37] = 8,88 2 3,0+0,6[0x8,88+0,5x6,62+0,5x3,37] = 5,99 3,1+0,6[0,1x8,88+0,6x6,62+0,3x3,37] = 6,62 3 -1,0+0,6[0x8,88+0x6,62+1x3,37] = 1,02 0,4+0,6[0,05x8,88+0,4x6,62+0,55x3,37] = 3,37Metode Iterasi Kebijakan Dengan Diskonto
Langkah penentuan nilai yang menggunakan P
2dan R
2dalam contoh
-persamaan berikut:
0,6[0,3f(1) + 0,6f(2) + 0,1f(3)] = 4,7
0,6[0,1f(1) + 0,6f(2) + 0,3f(3)] = 3,1
0,6[0,05f(1) + 0,4f(2) + 0,55f(3)] = 0,4
persamaan ini menghasilkan:
Ringkasan iterasi perbaikan kebijakan diberikan dalam tabel berikut ini:
f(2) + pi3kf(3)] Pemecahan optimal k=2 f(i) k* 4,7+0,6[0,3x8,88+0,6x6,62+0,1x3,37] = 8,88 8,95 1 3,1+0,6[0,1x8,88+0,6x6,62+0,3x3,37] = 6,62 6,62 2 0,4+0,6[0,05x8,88+0,4x6,62+0,55x3,37] = 3,37 3,37 2 36
Metode Iterasi Kebijakan Dengan Diskonto
Karena kebijakan baru {1,2,2} berbeda dengan kebijakan di atas, langkah
penentuan nilai dimasuki kembali dengan menggunakan
sebelumnya menghasilkan persamaan
f(1) – 0,6[0,2f(1) + 0,5f(2) + 0,3f(3)] = 5,3
f(2) – 0,6[0,1f(1) + 0,6f(2) + 0,3f(3)] = 3,1
f(3) – 0,6[0,05f(1) + 0,4f(2) + 0,55f(3)] = 0,4
Pemecahan dari persamaan-persamaan ini menghasilkan:
f(1) = 8,98, f(2) = 6,63, f(3) = 3,38
Ringkasan iterasi perbaikan kebijakan diberikan dalam tabel berikut ini:
vik+ 0,6[p i1kf(1) + pi2 i k=1 1 5,3+0,6[0,2x8,98+0,5x6,63+0,3x3,38] = 8,98 2 3,0+0,6[0x8,98+0,5x6,63+0,5x3,38] = 6,00 3 -1,0+0,6[0x8,98+0x6,63+1x3,38] = 1,03 0,4+0,6[0,05x8,98+0,4x6,63+0,55x3,38] = 3,37Metode Iterasi Kebijakan Dengan Diskonto
Karena kebijakan baru {1,2,2} berbeda dengan kebijakan di atas, langkah
penentuan nilai dimasuki kembali dengan menggunakan P
8dan R
8dalam contoh
sebelumnya menghasilkan persamaan-persamaan berikut:
0,6[0,2f(1) + 0,5f(2) + 0,3f(3)] = 5,3
0,6[0,1f(1) + 0,6f(2) + 0,3f(3)] = 3,1
0,6[0,05f(1) + 0,4f(2) + 0,55f(3)] = 0,4
persamaan ini menghasilkan:
f(1) = 8,98, f(2) = 6,63, f(3) = 3,38
Ringkasan iterasi perbaikan kebijakan diberikan dalam tabel berikut ini:
i2kf(2) + pi3kf(3)] Pemecahan optimal k=2 f(i) k* 4,7+0,6[0,3x8,98+0,6x6,63+0,1x3,38] = 8,91 8,98 1 3,1+0,6[0,1x8,98+0,6x6,63+0,3x3,38] = 6,63 6,63 2 0,4+0,6[0,05x8,98+0,4x6,63+0,55x3,38] = 3,37 3,37 2 37
Metode Iterasi Kebijakan Dengan
Diskonto
Karena kebijakan baru ini {1,2,2} adalah identik dengan kebijakan
sebelumnya, kebijakan ini optimal. Catat bahwa kebijakan diskonto
menghasilkan kebijakan optimal yang berbeda, yang menyatakan tidak
digunakannya pupuk jika keadaan sistem adalah baik (keadaan 1).
Metode Iterasi Kebijakan Dengan
Diskonto
Karena kebijakan baru ini {1,2,2} adalah identik dengan kebijakan
sebelumnya, kebijakan ini optimal. Catat bahwa kebijakan diskonto
menghasilkan kebijakan optimal yang berbeda, yang menyatakan tidak
digunakannya pupuk jika keadaan sistem adalah baik (keadaan 1).
Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov
Masalah keputusan Markov tahap tak hingga
dirumuskan dan dipecahkan sebagai sebuah
Masalah Keputusan Markov tanpa diskonto
Di bagian seblumhya, sudah diperlihatkan bahwa
diskonto pada akhirnya menyempit menjadi bersesuaian dengan:
dengan S adalah kumpulan dari semua kebijakan Batasan dari masalah ini memastikan bahwa
steady-state dari rantai Markov Ps.
Secara spesifik, setiap kebijakan s dinyatakan
(stasioner).
Kita harus memodifikasi variabel yang tidak
sehingga pemecahan optimal akan secara ketika sistem tersebut berada dalam keadaan lalu akan mendefinisikan s*, kebijakan optimal.
,
|
v
max
s s m i s s s s i s i S s 1 2 1
P
Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov
hingga, baik dengan maupun tanpa diskonto, dapat sebuah program linear.
diskonto.
bahwa masalah Markov tahap tak hingga tanpa menjadi masalah penentuan kebijakan optimal s*, yang
kebijakan yang mungkin dalam masalah itu. bahwa πis, i = 1, 2, …, m mewakili probabilitas
dinyatakan dengan sekelompok tindakan yang tetap tidak diketahui dari masalah ini sedemikian rupa
otomatis menentukan tindakan optimal k
keadaan i. Kumpulan dari semua tindakan optimal ini optimal.
....
ms,
is,
i
,
,...,
m
s2
1
0
1
39Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov
Tujuan ini dicapai sebagai berikut. Anggaplah
q
ik= probabilitas kondisional dari memilih
tersebut berada dalam keadaan i
Jadi, masalah ini dapat diekspresikan sebagai
dengan batasan
Catat bahwa p
ijadalah fungsi dari kebijakan
merupakan fungsi dari alternatif spesifik
n
maksimumka
k dan i , q , m ,..., , i , q ... q q ... m ,..., , j , p k i i K i i i m m i ij i j
0 0 2 1 1 1 2 1 2 1 2 1 1 Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov
Anggaplah
memilih alternatif k dengan diketahui sistem
sebagai
kebijakan yang dipilih dan karena itu
spesifik k dari kebijakan tersebut.
m i K k k i k i iq
v
E
1 1
40Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov
Masalah ini dapat dikonversikan menjadi sebuah program linear dengan
membuat substitusi yang tepat yang melibatkan q
Amati bahwa formulasi tersebut adalah setara dengan masalah semula hanya
jika q
ik= 1 untuk tepat satu k untuk setiap i, karena hal ini akan mengurangi
jumlah menjadi v
ik, di mana k* adalah alternatif optimal yang dipilih.
Untungnya, program linear yang kita kembangkan di sini memperhitungkan
kondisi ini secara otomatis.
Definisikan
w
ik= π
iq
ik, untuk semua i dan k
Berdasarkan definisinya, w
ikmewakili probabilitas gabungan untuk berada
dalam keadaan i dan membuat keputusan k. Dari teori probabilitas kita
mengetahui bahwa:
K k i 1 Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov
Masalah ini dapat dikonversikan menjadi sebuah program linear dengan
membuat substitusi yang tepat yang melibatkan q
ik.
Amati bahwa formulasi tersebut adalah setara dengan masalah semula hanya
= 1 untuk tepat satu k untuk setiap i, karena hal ini akan mengurangi
, di mana k* adalah alternatif optimal yang dipilih.
Untungnya, program linear yang kita kembangkan di sini memperhitungkan
mewakili probabilitas gabungan untuk berada
dalam keadaan i dan membuat keputusan k. Dari teori probabilitas kita
K k k i k i v q 1 ik w 1 41Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov
Karena itu
Jadi kita melihat bahwa batasan dapat ditulis sebagai
Juga batasan secara otomatis tersirat berdasarkan cara kita
mendefinisikan q
ikdalam bentuk w
sebagai
K k ik ik k i w w q 1 1 1 1
m i K k ik w 1
K kmaksimumka
Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov
Jadi kita melihat bahwa batasan dapat ditulis sebagai
Juga batasan secara otomatis tersirat berdasarkan cara kita
dalam bentuk w
ik. Jadi masalah ini dapat ditulis
1 1
m i i 1 1 k i q
m i K k k i k i iq
v
E
n
maksimumka
1 1
42Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov
dengan batasan
Model yang dihasilkan ini merupakan sebuah program linear dalam w
Di sini akan diperlihatkan bahwa pemecahan optimalnya secara otomatis menjadi
q
ik= 1 untuk satu k untuk setiap i. Pertama, catat bahwa program linear ini
memeliki m persamaan independen (satu persamaan yang berkaitan dengan
πP adalah berlebihan). Karena itu, masalah ini harus memiliki m variabel dasar.
Tetapi, dapat diperlihatkan bahwa w
ikharus positif secara ketat untuk setidaknya
satu k untuk setiap i. Dari kedua hasil ini, kita menyimpulkan bahwa:
TIA 310 K ,..., , k ; m ,..., , i , w w m ,..., , j , w p w ik m i K k ik m i K k ik k ij m i jk 2 1 2 1 0 1 2 1 0 1 1 1 1 1
k i qPemecahan Pemrograman Linear untuk Masalah Keputusan Markov
Model yang dihasilkan ini merupakan sebuah program linear dalam w
ik.
Di sini akan diperlihatkan bahwa pemecahan optimalnya secara otomatis menjadi
= 1 untuk satu k untuk setiap i. Pertama, catat bahwa program linear ini
memeliki m persamaan independen (satu persamaan yang berkaitan dengan π =
adalah berlebihan). Karena itu, masalah ini harus memiliki m variabel dasar.
harus positif secara ketat untuk setidaknya
satu k untuk setiap i. Dari kedua hasil ini, kita menyimpulkan bahwa:
TIA 310
K k ik ik k w w 1 43Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov
hanya dapat memiliki nilai biner (0 atau 1), seperti yang diinginkan. (Pada
kenyataannya, hasil di atas juga memperlihatkan bahwa di mana k* adalah alternatif yang bersesuaian dengan wik >0)
Contoh: Formulasi LP untuk masalah petani tadi tanpa diskonto:
maksimumkan E = 5,3w11 + 4,7w12 + 3w dengan batasan w11 + w12 – (0,2w11 + 0,3w12 + 0,1w w21 + w22 – (0,5w11 + 0,6w12 + 0,5w21 + 0,6w w31 + w32 – (0,3w11 + 0,1w12 + 0,5w21 + 0,3w w11 + w12 + w21 + w22 + w wik ≥ 0, untuk semua i dan k
Pemecahan optimalnya adalah w11 = w
= 22/59. Hasil ini berarti bahwa q12 = q 2
dipilihnya alternatif 2 (k = 2) untuk i = 1, 2, dan 3. Nilai optimal dari E adalah 2,256.
TIA 310 i
Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov
hanya dapat memiliki nilai biner (0 atau 1), seperti yang diinginkan. (Pada
kenyataannya, hasil di atas juga memperlihatkan bahwa di mana k* adalah alternatif
: Formulasi LP untuk masalah petani tadi tanpa diskonto:
+ 3w21 + 3,1w22 – w31 + 0,4w32 + 0,1w22 + 0,05w32) = 0 + 0,6w22 + 0,4w32) = 0 + 0,3w22 + w31 + 0,55w32) = 0 + w31 + w32 = 1 = w12 = w31 = 0 dan w12 = 6/59, w22 = 31/59, dan w32
22 = q32 = 1. Jadi, kebijakan optimal menyatakan
dipilihnya alternatif 2 (k = 2) untuk i = 1, 2, dan 3. Nilai optimal dari E adalah 2,256.
TIA 310 * ik K k ik w w
1 44Pemecahan Pemrograman Linear untuk Masalah
Keputusan Markov
Adalah menarik bahwa nilai-nilai positif
yang berkaitan dengan kebijakan optimal
Observasi ini menunjukkan hubungan langsung
pemecahan ini.
Masalah Keputusan Markov dengan diskonto
Masalah ini diekspresikan dengan persamaan
Persamaan ini adalah setara dengan
dengan ketentuan bahwa f(i) mencapai
Sekarang pertimbangkan fungsi tujuan
i max v p f
j , i , ,...,m f m j k ij k i k 2 1 1
i v p f
j , i dan k f m j k ij k i
1
m i i f i b imumkan min 1Pemecahan Pemrograman Linear untuk Masalah
Keputusan Markov
positif dari w
iktepat setara dengan nilai-nilai
π
ioptimal dalam prosedur enumerasi lengkap.
langsung di antara kedua metode
diskonto.
persamaan rekursif
mencapai nilai minimum untuk setiap i.
Pemecahan Pemrograman Linear untuk Masalah Keputusan
Markov
dengan b
i(> 0 untuk semua i) adalah sebuah konstanta sembarang.
Dapat diperlihatkan bahwa optimisasi dari fungsi ini dengan
dikenakan pertidaksamaan yang diberikan akan menghasilkan nilai
minimum dari f(i), seperti yang diinginkan. Jadi masalah ini dapat
ditulis sebagai
dengan batasan
f(i) tidak dibatasi, i = 1, 2, …, m.
Sekarang, masalah dual dari masalah ini adalah
m i i f i b imumkan min 1
i p f
j f m j k ij
1 Pemecahan Pemrograman Linear untuk Masalah Keputusan
Markov
(> 0 untuk semua i) adalah sebuah konstanta sembarang.
Dapat diperlihatkan bahwa optimisasi dari fungsi ini dengan
dikenakan pertidaksamaan yang diberikan akan menghasilkan nilai
minimum dari f(i), seperti yang diinginkan. Jadi masalah ini dapat
f(i) tidak dibatasi, i = 1, 2, …, m.
Sekarang, masalah dual dari masalah ini adalah
vik, i dan kPemecahan Pemrograman Linear untuk Masalah
Keputusan Markov
dengan batasan
w
ik≥ 0, untuk i = 1, 2, …, m; k = 1,2, …, K
Perhatikan bahwa fungsi tujuan ini memiliki bentuk yang sama seperti kasus
tanpa diskonto, sehingga w
ikdapat diinterpretasikan dengan cara serupa.
Contoh: Contoh petani tadi dengan faktor diskonto
= b
2= b
3= 1, masalah dual dari LP ini dapat ditulis sebagai
TIA 310
m i K k ik k iw
v
n
maksimumka
1 1,
b
w
p
w
j m i K k ik k ij K k jk 1 1 1
Pemecahan Pemrograman Linear untuk Masalah
Keputusan Markov
≥ 0, untuk i = 1, 2, …, m; k = 1,2, …, K
Perhatikan bahwa fungsi tujuan ini memiliki bentuk yang sama seperti kasus
dapat diinterpretasikan dengan cara serupa.
: Contoh petani tadi dengan faktor diskonto α = 0,6. Jika kita menganggap b
1= 1, masalah dual dari LP ini dapat ditulis sebagai
TIA 310
m
,...,
,
j
1
2
47Pemecahan Pemrograman Linear untuk Masalah
Keputusan Markov
maksimumkan 5,3w
11+ 4,7w
12dengan batasan
w
11+ w
12– 0,6[0,2w
11+ 0,3w
12w
21+ w
22– 0,6[0,5w
11+ 0,6w
12w
31+ w
32– 0,6[0,3w
11+0,1w
12+0,5w
w
ik≥ 0, untuk semua i dan k
Pemecahan optimalnya adalah w
1,5678, w
22= 3,3528, dan w
32memperlihatkan bahwa pemecahan optimal adalah {1,2,2}, seperti
yang diperoleh pada contoh terdahulu..
Pemecahan Pemrograman Linear untuk Masalah
Keputusan Markov
12
+ 3w
21+ 3,1w
22– w
31+ 0,4w
3212
+ 0,1w
22+ 0,05w
32] = 1
12