• Tidak ada hasil yang ditemukan

Penyelesaian Model Tahap Terhingga dan Takhingga pada Proses Keputusan Markov dan Aplikasinya di Bidang Pertanian.

N/A
N/A
Protected

Academic year: 2017

Membagikan "Penyelesaian Model Tahap Terhingga dan Takhingga pada Proses Keputusan Markov dan Aplikasinya di Bidang Pertanian."

Copied!
34
0
0

Teks penuh

(1)

PENYELESAIAN MODEL TAHAP TERHINGGA DAN

TAKHINGGA PADA PROSES KEPUTUSAN MARKOV

DAN APLIKASINYA DI BIDANG PERTANIAN

BILYAN USTAZILA

DEPARTEMEN MATEMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

(2)
(3)

PERNYATAAN MENGENAI SKRIPSI DAN

SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA*

Dengan ini saya menyatakan bahwa skripsi berjudul Penyelesaian Model Tahap Terhingga dan Takhingga pada Proses Keputusan Markov dan Aplikasinya di Bidang Pertanian adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.

Bogor, April 2014

Bilyan Ustazila

(4)

ABSTRAK

BILYAN USTAZILA. Penyelesaian Model Tahap Terhingga dan Takhingga pada Proses Keputusan Markov dan Aplikasinya di Bidang Pertanian. Dibimbing oleh I WAYAN MANGKU dan HADI SUMARNO.

Proses keputusan Markov adalah suatu proses pengambilan keputusan menggunakan rantai Markov untuk model-model stokastik. Tujuan karya ilmiah ini adalah merumuskan model stokastik yang melibatkan state, tindakan dan

reward. Lalu, model tersebut diaplikasikan dalam bidang pertanian, yaitu menentukan keuntungan optimal dengan memberikan suatu tindakan, serta menentukan kebijakan optimal yang memaksimumkan keuntungan (reward).

Metode yang digunakan untuk menentukan kebijakan optimal adalah enumerasi lengkap, iterasi kebijakan dan formulasi pemrograman linear. Diantara metode yang digunakan, metode iterasi kebijakan yang paling efisien. Berdasarkan data yang digunakan dalam kasus ini, penentuan kebijakan dengan ketiga metode ini menghasilkan kesimpulan yang sama yaitu petani tidak akan menggunakan pupuk saat kondisi tanah baik, dan akan menggunakan pupuk saat kondisi tanah sedang atau buruk. Pada kasus dengan faktor diskonto sebesar 0.7, masalah pertanian ini menghasilkan kebijakan yang sama dengan kasus tanpa diskonto.

Kata kunci: enumerasi, iterasi kebijakan, pemrograman linear, proses keputusan Markov

ABSTRACT

BILYAN USTAZILA. Solution of Finite and Infinite Stage Models in Markov Decisicion Processes and Its Application in Agricultural Sector. Supervised by I WAYAN MANGKU and HADI SUMARNO.

(5)

Skripsi

sebagai salah satu syarat untuk memperoleh gelar Sarjana Sains

pada

Departemen Matematika

PENYELESAIAN MODEL TAHAP TERHINGGA DAN

TAKHINGGA PADA PROSES KEPUTUSAN MARKOV

DAN APLIKASINYA DI BIDANG PERTANIAN

BILYAN USTAZILA

DEPARTEMEN MATEMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

(6)
(7)

Judul Skripsi : Penyelesaian Model Tahap Terhingga dan Takhingga pada Proses Keputusan Markov dan Aplikasinya di Bidang Pertanian.

Nama : Bilyan Ustazila NIM : G54100101

Disetujui oleh

Prof Dr Ir I Wayan Mangku, MSc Pembimbing I

Dr Ir Hadi Sumarno, MS Pembimbing II

Diketahui oleh

Dr Toni Bakhtiar, MSc Ketua Departemen

(8)

PRAKATA

Puji dan syukur penulis panjatkan kepada Allah SWT atas segala karunia-Nya sehingga karya ilmiah yang berjudul Model Tahap Terhingga dan Takhingga pada Proses Keputusan Markov dan Aplikasinya di Bidang Pertanian berhasil diselesaikan. Skripsi ini merupakan syarat bagi penulis untuk dapat meraih gelar Sarjana Sains pada Mayor Matematika. Terima kasih penulis ucapkan kepada Bapak Prof Dr Ir I Wayan Mangku, MSc dan Bapak Dr Ir Hadi Sumarno, MS selaku dosen pembimbing dan Bapak Ir Ngakan Komang Kutha Ardana, MSc selaku dosen penguji yang telah memberi masukan dalam penulisan skripsi. Selain itu, penulis juga mengucapkan terima kasih kepada bapak, ibu, kakak Bellya Saksilia, atas doa dan kasih sayangnya serta teman-teman matematika 47, Ayun, Alin, Jupe, Pupu, Leni, pembahas seminar Marin, Safi’i dan Novia, dan anak kosan Tyas, Kak Mira, Kak Ira, Iis, Admas

Penulis menyadari bahwa penulisan skripsi ini kurang sempurna. Oleh karena itu, kritik dan saran yang membangun sangat penulis harapkan. Penulis juga berharap skripsi ini dapat memberikan pengetahuan dan manfaat.

Bogor, April 2014

(9)

DAFTAR ISI

DAFTAR TABEL vi

DAFTAR LAMPIRAN vi

PENDAHULUAN 1

Latar Belakang 1

Tujuan 1

TINJAUAN PUSTAKA 2

APLIKASI DI BIDANG PERTANIAN 4

Aplikasi Model Pemrograman Dinamis Tahap Terhingga 4 Aplikasi Model Pemrograman Dinamis Tahap Takhingga 7

Metode Enumerasi Lengkap 8

Masalah Petani dengan Tahap Perencanaan Periode Takhingga 8

Metode Iterasi Kebijakan 10

Metode Iterasi Kebijakan tanpa Diskonto 12

Metode Iterasi Kebijakan dengan Diskonto 13

Penyelesaian Pemrograman Linear untuk Masalah Keputusan Markov 15

Masalah Keputusan Markov tanpa Diskonto 15

Masalah Keputusan Markov dengan Diskonto 17

SIMPULAN DAN SARAN 18

Simpulan 18

Saran 18

DAFTAR PUSTAKA 18

LAMPIRAN 20

RIWAYAT HIDUP 24

(10)

DAFTAR TABEL

1 Nilai-nilai 6

2 Hasil perhitungan pada n = 3 6

3 Hasil perhitungan pada n = 2 6

4 Hasil perhitungan pada n = 1 6

5 Nilai-nilai 7

6 Kebijakan yang terjadi 8

7 Nilai-nilai setiap state 9

8 Nilai dan semua kebijakan 10

9 Hasil iterasi kebijakan tanpa diskonto pada iterasi pertama 12 10 Hasil iterasi kebijakan tanpa diskonto pada iterasi kedua 13 11 Hasil iterasi kebijakan tanpa diskonto pada iterasi ketiga 13 12 Hasil iterasi kebijakan dengan diskonto iterasi pertama 14 13 Hasil iterasi kebijakan dengan diskonto iterasi kedua 15

DAFTAR LAMPIRAN

1 Keuntungan per tahap kebijakan tahap takhingga 20

(11)

PENDAHULUAN

Latar Belakang

Dalam kehidupan sehari-hari, manusia sering menemukan suatu permasalahan, baik permasalahan kecil maupun besar. Setiap menghadapi permasalahan, manusia dituntut untuk mengambil suatu tindakan atau kebijakan. Dalam proses stokastik, tindakan atau kebijakan tersebut dikenal dengan keputusan. Dalam proses pengambilan keputusan akan ada risiko yang harus ditanggung. Risiko menjadi salah satu pertimbangan untuk mengambil keputusan. Keputusan yang sederhana hanya akan berpengaruh pada risiko yang kecil, sedangkan untuk keputusan besar akan mengakibatkan risiko yang besar, sehingga perlu pertimbangan yang matang. Dalam praktiknya, terdapat banyak alternatif pilihan keputusan, sehingga diperlukan teknik-teknik dalam pemilihannya agar memperoleh hasil yang optimal. Alternatif keputusan tersebut memiliki unsur probabilitas karena dalam pembuatan keputusan dihadapkan pada ketidakpastian. Proses keputusan Markov (Markov Decision Process) menjelaskan model dinamika dari pengambilan keputusan yang mengandung unsur ketidakpastian. Pada setiap langkah proses keputusan Markov dipilih tindakan tertentu dan tindakan tersebut akan menghasilkan keuntungan (reward) yang sesuai. Untuk mendapatkan keuntungan yang optimal, diperlukan kebijakan yang optimal pula. Kebijakan optimal dapat diperoleh dengan menggunakan tiga metode yaitu metode enumerasi, metode iterasi kebijakan (policy iteration method), dan metode solusi program linear (linear program solution method).

Pembahasan utama dalam karya ilmiah ini yakni metode iterasi kebijakan dan metode pemrograman linear. Metode iterasi kebijakan ini diawali dengan mengambil sebuah kebijakan dan menghitung nilainya yang dalam perhitungannya terdapat faktor diskonto (α) maupun tidak terdapat faktor diskonto. Faktor diskonto adalah pengali untuk menghitung nilai uang yang akan datang bila dinilai dalam waktu sekarang. Adanya faktor diskonto (α < 1) dapat menghasilkan perubahan dalam kebijakan optimal, dibandingkan dengan kasus

tanpa diskonto (α = 1). Setelah itu, memperbaiki kebijakan secara iteratif sesuai algoritme yang ada hingga kebijakan tersebut tidak dapat diperbaiki, dengan kata lain telah mencapai kondisi optimal.

Masalah keputusan Markov tahap takhingga dengan ataupun tanpa menggunakan faktor diskonto dapat dirumuskan dan diselesaikan sebagai sebuah pemrograman linear. Batasan atau kendala dari metode pemrograman linear adalah peluang steady-state dari rantai Markov. Secara khusus, setiap kebijakan dinyatakan sebagai kelompok tindakan yang tetap.

Penentuan kebijakan optimal di bidang manajemen pemasaran dan produksi telah dijelaskan pada Hidayah (2013) dengan menggunakan algoritme

Discounted-Return Policy-Improvement.

(12)

2

melakukan tindakan yaitu menggunakan pupuk untuk memperbaiki kondisi tanah. Petani melihat bahwa produktivitas tahap yang akan datang dapat diasumsikan hanya bergantung pada kondisi tanah sekarang dan memerlukan penentuan arah tindakan terbaik yang harus dilakukan berdasarkan hasil dari pengujian kimia. Proses optimisasi didasari oleh pemaksimuman keuntungan yang diperkirakan. Proses keputusan Markov adalah salah satu cara yang cocok untuk menyelesaikan masalah ini.

Tujuan

Tujuan karya ilmiah ini adalah

1 Merumuskan suatu model stokastik yang melibatkan state, tindakan, dan

reward.

2 Mengaplikasikan model tersebut dalam bidang pertanian, yaitu menentukan keuntungan dengan memberikan beberapa alternatif tindakan.

3 Menentukan kebijakan optimal yaitu memaksimumkan keuntungan (reward).

TINJAUAN PUSTAKA

Proses keputusan Markov (Markov Decision Process/ MDP) awalnya diperkenalkan oleh Andrey Markov, seorang matematikawan Rusia pada awal abad ke-20 (Tijms 1994). Proses keputusan Markov berguna untuk mempelajari berbagai masalah optimasi yang dipecahkan melalui dynamic programming.

Proses keputusan Markov adalah sebuah sistem yang dapat memindahkan satu keadaan yang khusus ke keadaan lainnya yang mungkin. Proses keputusan Markov pada dasarnya merupakan perluasan dari rantai Markov sehingga harus memenuhi syarat Markov. Menurut Grimmet dan Stirzaker (1992) suatu proses S

disebut sebagai rantai Markov jika memenuhi syarat Markov, yaitu

P(St = s | S0 = s0, S1 = s1,…, St-1 = st-1)=P(St = s | St-1 = st-1).

Dalam proses keputusan Markov memungkinkan adanya pilihan tindakan (action) yang menghasilkan keuntungan. Oleh karena itu, dapat dikatakan proses keputusan Markov merupakan kerangka matematika untuk memodelkan pembuatan keputusan di situasi yang hasilnya bersifat acak dan berada di bawah kontrol dari pembuat keputusan. Proses keputusan Markov memiliki unsur-unsur yaitu

1 State

State adalah suatu keadaan, akibat, atau kejadian (alamiah) pada suatu waktu dimana pengambil keputusan hanya mempunyai sedikit kontrol atau bahkan tidak memiliki kontrol terhadapnya. State dilambangkan i dengan i =

1, 2,…,m . Setiap iI dengan I himpunan state (Rosadi 2000). 2 Tindakan

Tindakan adalah suatu bagian dari aksi atau strategi yang mungkin dipilih oleh pengambil keputusan di setiap state. Tindakan dilambangkan k

(13)

3 3 Probabilitas transisi

Menurut Taylor dan Karlin (1998), probabilitas transisi disebutkan sebagai peluang n-step , yaitu peluang bahwa suatu proses yang mula-mula berada pada state i akan berada pada state j setelah n tambahan transisi. Menurut Heymen dan Sobel (2004), probabilitas transisi adalah suatu fungsi yang menyatakan peluang perpindahan dari suatu state ke state

lainnya. Probabilitas transisi pada proses keputusan Markov harus memenuhi asumsi sifat Markov seperti yang dijelaskan sebelumnya yaitu ketika tindakan diambil di state , maka state telah ditentukan dengan sebuah cara yang hanya bergantung pada dan . Sehingga berlaku persamaan

P( ∈I| , = P( ∈I | =i, = k).

Notasi I melambangkan himpunan state dan menyatakan kejadian lampau hingga waktu pengambilan keputusan ke-n diambil. Bentuk notasinya sebagai berikut =( , , , , ..., , , ).

Pengambilan keputusan masa yang akan datang didasarkan pada keadaan sekarang, bukan berdasarkan pada keadaan di masa lalu. Hal ini dikarenakan keadaan di masa lalu dianggap bebas dengan keadaan di masa yang akan datang. Dalam prosesnya, pembuat keputusan harus mengambil suatu tindakan dari alternatif-alternatif yang ditetapkan. Tindakan sekarang mempengaruhi peluang transisi pada perpindahan yang akan datang dan mendatangkan sebuah keuntungan atau kerugian setelah itu. Nilai peluang adalah tak negatif dan karena proses tersebut harus mengalami transisi ke suatu state maka 0, untuk semua ∈ , ∑ = 1 untuk semua ∈ . Secara umum, probabilitas transisi tidak perlu sama setiap tahap.

4 Reward transisi

Keuntungan yang diperoleh sebagai implikasi terjadinya transisi antar

state pada tindakan ke-k yang dilambangkan . Jika matriks probabilitas transisi P berukuran � � dan elemen-elemennya , maka matriks reward R juga berukuran � � dengan elemen-elemennya (Rosadi 2000). Menurut Taha (1987), proses perhitungan reward dapat menggunakan faktor diskonto maupun tanpa faktor diskonto.

5 Kebijakan optimal

Suatu kebijakan terbaik dari sekian banyak tindakan yang mungkin, sebagai hasil menjalankan serangkaian proses pengambilan keputusan. Secara matematis dinyatakan sebagai himpunan semua keputusan di setiap state yang memberikan reward maksimal atau cost minimal (Rosadi 2000).

6 Ekspektasi reward

Ekspektasi reward adalah pengembalian yang diperkirakan dan dihasilkan dari satu transisi pada keadaan i dengan tindakan k. Ekspektasi

(14)

4

7 Aplikasi pada masalah manajerial

Solusi yang didapatkan oleh Hidayah (2013) pada masalah manajerial dengan konsep proses keputusan Markov menggunakan algoritme Discounted-Return Policy-Improvement memberikan keuntungan optimal.

Beberapa metode dalam proses keputusan Markov yaitu, enumerasi lengkap (iterasi nilai), formulasi pemrograman linear, dan metode iterasi kebijakan (policy iteration method). Dalam karya ilmiah ini metode yang digunakan adalah enumerasi lengkap, policy iteration dengan algoritma perbaikan kebijakan, dan formulasi pemrograman linear baik dengan maupun tanpa faktor diskonto. Faktor diskonto adalah pengali untuk menghitung nilai uang yang akan datang bila dinilai dalam waktu sekarang. Faktor diskonto yang digunakan dalam karya ilmiah ini sebesar 0.7.

APLIKASI DI BIDANG PERTANIAN

Aplikasi Model Pemrograman Dinamis Tahap Terhingga

Penerapan pemrograman dinamis (DP) untuk pemecahan suatu proses keputusan stokastik dapat dijabarkan oleh sejumlah state yang terhingga. Probabilitas transisi antara state dijabarkan dengan sebuah rantai Markov. Keuntungan (reward) dari proses ini juga dijabarkan oleh sebuah matriks dengan elemen-elemen individual yang merepresentasikan keuntungan atau biaya yang dihasilkan oleh pergerakan dari satu state ke state lainnya.

Setiap tahap, di awal musim tanam, petani menggunakan pengujian kimia untuk memeriksa kondisi tanah. Dari hasil pengujian tersebut, produktivitas sawah untuk setiap musim dikelompokkan dengan kategori baik (state 1), sedang (state 2), dan buruk (state 3). Selama beberapa tahap, petani hanya melihat bahwa produktivitas tahap yang akan datang dapat diasumsikan hanya bergantung pada kondisi tanah sekarang.

Probabilitas transisi dalam 1 tahap dari satu state produktivitas ke state

lainnya dengan tindakan tanpa menggunakan pupuk dapat dipresentasikan dalam bentuk rantai Markov berikut

State yang akan datang State sekarang ( ).

Jika petani melakukan tindakan yaitu menggunakan pupuk untuk memperbaiki kondisi tanah, yang menghasilkan matriks transisi

(

)

.

(15)

5 Pengembalian tersebut adalah keuntungan atau kerugian dalam periode 1 tahap, bergantung pada state yang terjadi dalam transisi.

Matriks dan adalah fungsi pengembalian dalam jutaan rupiah yang berkaitan dengan matriks dan secara berturut-turut.

( atau tindakan 3. Kebijakan yang menyatakan penggunaan pupuk hanya ketika kondisi tanah buruk, matriks transisi dan matriks reward yang dihasilkan, Pdan R adalah optimisasinya adalah akumulasi keuntungan tertinggi yang diperoleh petani di akhir N tahap. Tindakan yang tersedia bagi petani k = 1 dan k = 2 dengan adalah probabilitas transisi untuk tindakan k dan adalah fungsi pengembalian untuk tindakan k. Jumlah state untuk setiap tahap adalah m = 3 dan definisikan adalah keuntungan optimal yang diperkirakan untuk tahap n, dengan diketahui kondisi tanah di awal tahap n adalah i. Persamaan rekursif mundur yang mengaitkan dan dapat ditulis

Persamaan ini menyatakan bahwa keuntungan kumulatif, , yang dihasilkan dari tercapainya state j di tahap dari state i di tahap n

terjadi dengan probabilitas . Jika mewakili pengembalian yang diperkirakan dan dihasilkan dari satu transisi dari state i dengan diketahui tindakan k, maka dapat ditulis sebagai ∑ .

Persamaan rekursif pemograman dinamik dapat ditulis sebagai

{ ∑

} �

(16)

6

Jika kondisi tanah baik (state 1) dengan tindakan tanpa menggunakan pupuk di awal tahap, satu transisi diperkirakan menghasilkan reward 4.9, sedangkan jika petani menggunakan pupuk maka akan menghasilkan reward 3.4.

Tabel 1 Nilai-nilai

adalah kebijakan optimal pada saat kondisi tanah ke i.

(17)

7 Kebijakan optimal dari masalah ini adalah setiap tahap petani sebaiknya tidak menggunakan pupuk ( = 1) saat tanah dalam state baik (state) 1, tetapi menggunakan pupuk saat tanah dalam state sedang atau buruk (state 2 atau 3).

Reward (keuntungan) yang diperkirakan untuk tiga tahap adalah = 9.489 jika state tanah dalam tahap 1 baik, = 7.992 jika sedang, dan = 4.86 jika buruk.

Selanjutnya untuk mengevaluasi tindakan 3 yang menyatakan penggunaan pupuk hanya saat kondisi tanah buruk (state 3)

(

Reward yang diperkirakan untuk tiga tahap dengan tindakan menggunakan pupuk saat state buruk adalah 8.566 jika tanah dalam tahap 1 baik, = 5.646 jika sedang, dan 4.006 jika buruk. Dari perhitungan ini, dapat disimpulkan bahwa akan lebih menguntungkan jika menggunakan pupuk saat kondisi tanah sedang dan buruh dibandingkan hanya menggunakan pupuk saat kondisi tanah buruk saja.

Aplikasi Model Pemrograman Dinamis Tahap Takhingga

Evaluasi penentuan kebijakan jangka panjang model tahap takhingga dari sebuah masalah keputusan Markov didasarkan dari sebuah kebijakan berdasarkan pemaksimuman keuntungan yang diperkirakan per periode transisi. Dalam masalah pertanian, pemilihan kebijakan terbaik untuk tahap takhingga didasari oleh keuntungan maksimum yang diperkirakan per tahap.

Terdapat tiga metode untuk memecahkan permasalahan model tahap takhingga yaitu

(18)

8

2 Iterasi kebijakan, yaitu menentukan kebijakan optimal dengan beberapa iterasi.

3 Penyelesain pemrograman linear, yaitu merubah kondisi rantai Markov dalam bentuk kendala linear. Formulasi LP cukup menarik, tetapi tidak efisien secara perhitungan jika dibandingkan dengan algoritma iterasi kebijakan. Untuk permasalahan dengan K tindakan dan state, model LP akam memiliki

( ) kendala dan variabel

Metode Enumerasi Lengkap

Misalkan masalah keputusan ini memiliki S kebijakan, dan adalah matriks transisi dan matriks keuntungan yang berkaitan dengan kebijakan ke- , 1, 2, …, S. Langkah-langkah dari enumerasi sebagai berikut

1 Hitung keuntungan satu langkah (satu periode) yang diperkirakan dari kebijakan k dengan diketahui state ke-i, i= 1, 2, …, m.

2 Hitung , probabilitas jangka panjang dari matriks transisi yang berkaitan dengan kebijakan k. Probabilitas dihitung dari persamaan

dengan dan

3 Tentukan keuntungan yang diperkirakan dari kebijakan k per periode, dengan menggunakan rumus ∑

4 Tentukan kebijakan optimal sehingga menghasilkan keuntungan yang maksimum atau biaya yang minimum (Taha 1987).

Masalah Petani dengan Tahap Perencanaan Periode Takhingga

Tabel 6 Kebijakan yang terjadi

Kebijakan Tindakan

1 Tidak menggunakan pupuk

2 Menggunakan pupuk tanpa bergantung pada state

3 Menggunakan pupuk ketika state 3 4 Menggunakan pupuk ketika state 2 5 Menggunakan pupuk ketika state 1 6 Menggunakan pupuk ketika state 1 atau 2 7 Menggunakan pupuk ketika state 1 atau 3 8 Menggunakan pupuk ketika state 2 atau 3

(19)
(20)

10

Perhitungan dari probabilitas tersebut dicapai dengan menggunakan persamaan

Sebagai ilustrasi, saat = 2. Persamaannya adalah 0.2 + 0.1 + 0.05 =

perhitungan lainnya disajikan dalam Tabel 8 (proses perhitungan terdapat pada Lampiran 1).

Tabel 8 Nilai dan semua kebijakan

Tabel ini menunjukkan bahwa kebijakan 8 menghasilkan keuntungan per tahap yang diperkirakan terbesar. Akibatnya, kebijakan jangka panjang yang optimal adalah dengan menggunaan pupuk saat tanah dalam kondisi sedang atau buruk.

Jika metode enumerasi lengkap diterapkan untuk masalah petani dengan 4 arah tindakan yaitu tidak menggunakan pupuk, menggunakan pupuk satu kali selama musim tersebut, menggunakan pupuk dua kali, dan menggunakan pupuk tiga kali, maka petani secara keseluruhan memiliki 43 = 256 kebijakan. Mencari solusi optimal dengan metode enumerasi dari semua kebijakan secara eksplisit sulit dan jumlah perhitungan yang terlibat dalam evaluasi kebijakan sangat besar. Untuk mengatasi hal ini maka dikembangkan metode iterasi kebijakan.

(21)

11 Persamaan rekursif ini adalah dasar untuk pengembangan metode iterasi kebijakan. Untuk melihat asimtot, persamaan ini harus dimodifikasi terlebih dahulu. Misalkan sebagai jumlah tahap yang tersisa untuk dipertimbangkan, ) adalah keuntungan kumulatif yang diperkirakan dan berbeda dengan dalam persamaan di atas, yang mendefinisikan tahap ke- . Jadi, persamaan rekursif dapat ditulis

∑ .

Dengan definisi baru, perilaku asimtot dapat diketahui dengan menganggap

→∞. Vektor = ( , adalah probabilitas steady-state dari matriks yang memperhitungkan state i. Hasil ini mengasumsikan bahwa sangat besar.

Dengan demikian, persamaan rekursif dapat ditulis sebagai

Secara sedehana persamaan rekursif dapat ditulis sebagai

E

yang menghasilkan persamaan dan variabel yang tidak diketahui, dengan dan adalah variabel yang tidak diketahui.

Nilai E yang optimal tidak dapat ditentukan dalam satu langkah, karena terdapat persamaan dengan variabel yang tidak diketahui. Oleh karena itu, suatu pendekatan iteratif merupakan salah satu cara mendapatkan nilai E

optimal. Pendekatan iteratif diawali dengan mengambil satu kebijakan secara sembarang, kemudian menentukan suatu kebijakan baru yang menghasilkan nilai

E yang lebih baik. Proses iteratif berhenti jika ada dua kebijakan yang berturut-turut identik. Proses iteratif ini terdiri dari dua komponen dasar yaitu penentuan nilai (value determination) dan perbaikan kebijakan (policy improvement).

1 Penentuan nilai

Pilih satu kebijakan k secara sembarang. Gunakan matriks dan yang berkaitan dan asumsikan bahwa = 0,

dengan variabel yang tidak diketahui , ,…, dan . Iterasi dilanjutkan ke tahap perbaikan kebijakan.

2 Langkah perbaikan kebijakan

Untuk setiap state i, tentukan tindakan k yang menghasilkan

{ ∑

(22)

12

Dengan mengambil kebijakan sembarang yang menyatakan tidak menggunakan pupuk maka

Persamaan dalam langkah iterasi nilai adalah

.

Dengan menganggap , maka solusinya , , (proses perhitungan terdapat pada Lampiran 2).

Tabel 9 Hasil iterasi kebijakan tanpa diskonto pada iterasi pertama

Kebijakan

2 2.6+0(9.89)+0.4(6)+ 0.6(0) = 5 3.1+0.1(9.89)+0.6(6)+0.3(0)

= 7.689 7.689 2

3 1.0+0(9.89)+0(6)+1(0) = 1 0.65+0.05(9.89)+0.45(6)+

0.5(0) = 3.845 3.845 2

(23)

13 Tabel 10 Hasil iterasi kebijakan tanpa diskonto pada iterasi kedua

Kebijakan Kebijakan baru menyatakan penggunaan pupuk tidak bergantung pada state saat kondisi tanah dalam state sedang atau buruk (state 2 atau 3) dan tidak menggunakan pupuk saat kondisi tanah baik. Kebijakan berbeda dengan kebijakan pada iterasi 1, maka iterasi dilanjutkan.

Iterasi 3

Persamaan-persamaan dari kebijakan sebelumnya {1,2,2} yaitu

.

Dengan solusi persamaan (proses perhitungan terdapat pada Lampiran 2).

Tabel 11 Hasil iterasi kebijakan tanpa diskonto pada iterasi ketiga

Kebijakan Kebijakan baru menyatakan penggunaan pupuk tidak bergantung pada state saat kondisi tanah dalam state sedang atau buruk (state 2 atau 3) dan tidak menggunakan pupuk saat kondisi tanah baik. Kebijakan ini sama dengan sebelumnya maka proses iteratif berhenti. Jadi kebijakan optimal dengan metode iterasi kebijakan sama dengan kebijakan yang diperoleh dengan metode enumerasi lengkap.

Metode Iterasi Kebijakan dengan Diskonto

(24)

14

{ ∑

}

Dapat dibuktikan bahwa untuk →∞ (tahap takhingga), , dengan adalah nilai sekarang (yang didiskonto) dari keuntungan yang diperkirakan ketika sistem berada dalam state ke- dan berjalan dalam tahap waktu yang takhingga.

Hal ini berlawanan dengan kasus tanpa diskonto, dimana . Dalam kasus diskonto, pengaruh keuntungan masa mendatang akan menurun menjadi nol. Jadi pada kenyataannya, nilai sekarang akan mendekati nilai konstan saat →∞.

Langkah kebijakan iterasi dengan diskonto dimodifikasi sebagai berikut 1 Langkah penentuan nilai. Untuk sebuah kebijakan sembarang k dengan

matriks dan , ∑ .

2 Langkah perbaikan kebijakan. Untuk setiap tahap i, tentukan tindakan k yang menghasilkan

Dalam kasus yang sama, dengan faktor diskonto α = 0.7. Iterasi 1

Tabel 12 Hasil iterasi kebijakan dengan diskonto iterasi pertama

(25)

15 Kebijakan baru yang didapat adalah {1,2,2} berbeda dengan kebijakan awal {1,1,1}, maka iterasi dilanjutkan.

Iterasi 2

Langkah penentuan nilai dari kebijakan {1,2,2} menghasilkan persamaan-persamaan

Tabel 13 Hasil iterasi kebijakan dengan diskonto iterasi kedua

[ ] Kebijakan Kebijakan baru {1,2,2} identik dengan kebijakan sebelumnya {1,2,2} maka iterasi berhenti. Oleh karena itu kebijakan ini optimal. Kebijakan diskonto menghasilkan kebijakan optimal yang sama dengan kebijakan tanpa diskonto, tetapi ini tidak berlaku secara umum.

Penyelesaian Pemrograman Linear untuk Masalah Keputusan Markov

Masalah keputusan Markov tahap takhingga, dengan ataupun tanpa menggunakan faktor diskonto, dapat dirumuskan dan diselesaikan sebagai sebuah pemrograman linear.

Masalah Keputusan Markov tanpa Diskonto

Masalah keputusan Markov tahap takhingga tanpa diskonto pada akhirnya menyempit menjadi masalah penentuan kebijakan optimal , yang bersesuaian dengan

(26)

16

rantai Markov . Secara spesifik, setiap kebijakan k dinyatakan dengan sekelompok tindakan.

Jadi, masalah ini dapat diekspresikan sebagai

E =∑ (∑ ) sistem berada dalam state i dan adalah fungsi dari kebijakan yang dipilih, oleh karena itu merupakan fungsi dari tindakan spesifik k dari kebijakan tersebut.

Didefinisikan , untuk semua i dan k. Berdasarkan definisinya, mewakili probabilitas gabungan dalam state i dan membuat keputusan k. Dari teori probabilitas ∑ maka

. Jadi kendala ∑ dapat ditulis sebagai ∑ dan kendala batasan ∑ dalam bentuk . Jadi masalah ini dapat ditulis sebagai

∑ ∑

Model yang dihasilkan ini merupakan sebuah pemrograman linear dalam Solusi optimalnya secara otomatis menjadi untuk satu k untuk setiap i. Pemrograman linear ini memiliki persamaan bebas. Oleh karena itu, masalah ini harus memiliki variabel dasar. Nilai harus positif untuk paling sedikit satu k untuk setiap i. Dari kedua hasil ini, dapat disimpulkan bahwa

hanya dapat memiliki nilai biner (0 atau 1), seperti yang diharapkan. Dapat dilihat bahwa adalah tindakan yang bersesuaian dengan

Formulasi LP untuk masalah petani tanpa diskonto

maksimumkan dengan kendala

(27)

17

, untuk semua i dan k.

Solusi optimalnya adalah dan 13/161,

86 161, dan = 62/161. Hasil ini berarti bahwa . Jadi, kebijakan optimalnya yaitu melakukan tindakan 1 (tidak memberi bubuk saat kondisi tanah baik) dan melakukan tindakan 2 (memberi pupuk) i = 2 dan 3. Nilai optimal dari E adalah 2.3018.

Nilai-nilai dari sama dengan nilai-nilai yang berkaitan dengan kebijakan optimal (kebijakan 8) dalam metode enumerasi lengkap. Hal ini menunjukkan adanya hubungan langsung antara metode enumerasi lengkap dan pemrograman linear.

Masalah Keputusan Markov dengan Diskonto

Masalah ini diekspresikan dengan persamaan rekursif

{ ∑

}

Persamaan ini setara dengan ∑ dengan ketentuan bahwa mencapai nilai minimum untuk setiap i dan fungsi tujuan ∑ dengan adalah konstanta sembarang. Jadi masalah ini dapat ditulis sebagai

∑ dengan kendala

∑ dan k

tidak terbatas, i = 1, 2, …, m. Masalah dual dari masalah ini adalah

∑ ∑

Fungsi tujuan memiliki bentuk yang sama seperti kasus tanpa diskonto, sehingga dapat diinterpretasikan dengan cara yang sama.

(28)

18

( )

, untuk semua i dan k.

Solusi optimalnya adalah

. Solusi ini memperlihatkan bahwa kebijakan optimal adalah {1,2,2}. Nilai optimal dari E adalah 24.6805.

SIMPULAN DAN SARAN

Simpulan

Sebuah permasalahan untuk menduga state di masa mendatang yang diasumsikan hanya bergantung pada state sekarang seperti kasus dalam karya ilmiah ini dapat dirumuskan dalam suatu model stokastik dengan mendifinisikan

state, tindakan dan reward.

Untuk aplikasi di bidang pertanian, reward diasumsikan berasal dari keuntungan dan diasumsikan biaya pemeriksaan kondisi tanah setiap tahap tidak ada. Model stokastik tersebut dapat digunakan untuk menentukan keuntungan (reward) optimal, sehingga dengan keuntungan yang optimal ini petani dapat mengambil tindakan yang seharusnya dilakukan.

Proses keputusan Markov adalah model matematika yang bisa digunakan untuk menyelesaikan penentuan pengambilan keputusan seperti kasus dalam penentuan tindakan di bidang pertanian ini. Tindakan yang bisa dilakukan dalam kasus ini adalah memberikan pupuk dan tidak memberikan pupuk. Adanya faktor diskonto dapat menghasilkan perubahan dalam kebijakan optimal, dibandingkan dengan kasus tanpa diskonto, tetapi dalam kasus ini faktor diskonto tidak mempengaruhi kebijakan optimal.

Saran

Penulisan karya ilmiah ini menggunakan faktor diskonto hipotetik dan data yang digunakan sederhana maka karya ilmiah ini dapat dikembangkan dengan menyesuaikan antara data dengan faktor diskonto yang berlaku saat itu.

DAFTAR PUSTAKA

Grimmet GR, Stirzaker DR. 1992. Probability and Random Processes. Ed ke-2. Oxford (GB): Clarendon Press.

Heymen DP, Sobel MJ. 2004. Stochastic Models in Operation Research. Volume ke-2. New York (US): Publications.inc.Mineola.

(29)

19 Rosadi D. 2000. Pengambilan Keputusan Markov dan Aplikasinya di Bidang

Periklanan. Integral. 5(2): 75-82.

Taha HA. 2011. Operations Research An Introduction. Volume ke-9. New York (US): Macmillan Publishing Company.

Taylor HM, Karlin S. 1998. An Introduction to Stochastic Modeling. Ed ke-3. San Diego (US): Academic Press.

(30)

20

Lampiran 1 Keuntungan per tahap kebijakan tahap takhingga =1

maka solusi dari persamaan ini adalah =

(31)

21 + +

maka solusi dari persamaan ini adalah = 0, = 0, = 1. Keuntungan yang diperoleh per tahap = 0(3.4) + 0(3.1) + 1( 1) = 1.

= 7

0.2 + 0.05 =

0.6 + 0.4 + 0.45 = 0.2 + 0.6 + 0.5 = + +

maka solusi dari persamaan ini adalah =

, = , =

. Keuntungan yang diperoleh per tahap = 1

3 [1(3.4) + 13(2.6) + 16(0.65)]=1.587.

= 8

0.1 + 0.1 + 0.05 = 0.5 + 0.6 + 0.45 = 0.4 + 0.3 + 0.5 = + +

maka solusi dari persamaan ini adalah = , =

, =

(32)

22

Lampiran 2 Proses perhitungan pada metode iterasi kebijakan tanpa diskonto Iterasi pertama

Dengan menganggap = 0, maka persamaan berubah menjadi

(4)

Proses perhitungan sama dengan proses pada iterasi 2. Hasil perhitungannya yaitu

(33)

23 Lampiran 3 Proses perhitungan pada metode iterasi kebijakan dengan diskonto Iterasi pertama

[ ] (9)

[ ] (10)

[ ] (11)

Dari persamaan (11) didapat 0.3 = , maka .

Subtitusi ke persamaan (10) yaitu 0.72 0.42( 3.33) = 2.6 maka . Subtitusi ke persamaan (9) yaitu 0.93 , maka .

Iterasi kedua

[ ]

0.93 (12)

[ ]

0.07 (13)

[ ]

0.035 (14)

Eliminasi persamaan (12) dan (13)

0.93 0.07

0.07 0.93

0.0651

0.0651 + 0.5394 0.1953 = 2.883 +

0.5149 (15)

Eliminasi persamaan (13) dan (14)

0.07 0.5

0.035 1 0.035

0.035

0.605 (16)

Eliminasi persamaan (15) dan (16)

0.5149 0.605 0.605 0.5149

0.31

0.31

0.259 = 1.48832

=8.67

(34)

24

RIWAYAT HIDUP

Penulis dilahirkan di Belitung Timur pada tanggal 31 Oktober 1992 dari ayah Rinto dan ibu Khusaenah. Penulis adalah putri kedua dari dua bersaudara. Tahun 2010 penulis lulus dari SMA Negeri 1 Kelapa Kampit dan pada tahun yang sama penulis lulus seleksi masuk Institut Pertanian Bogor (IPB) melalui jalur Beasiswa Utusan Daerah IPB dan diterima di Departemen Matematika, Fakultas Matematika dan Ilmu Pengetahuan Alam.

Gambar

Tabel 2 Hasil perhitungan    pada n = 3
Tabel 7 Nilai-nilai
Tabel 8 Nilai

Referensi

Dokumen terkait

Soekarno : “Mereka bilang, Jepang telah mengalah pada sekutu dan mereka ingin kita segera memproklamasikan kemerdekaan Indonesia”?. Ahmad Soebardjo

3 Tujuan dari penelitian ini adalah untuk mengetahui tingkat kemurnian sapi Bali di Kabupaten Barru berdasarkan identifikasi fenotipe (bentuk tanduk, warna bulu,

Sebab apa yang dimaksud dengan selalu bertanya dan berusaha untuk mencari jawaban adalah bertanya tentang konsep-konsep fisika yang sudah mereka pelajari dalam matakuliah,

Sebagai upaya untuk mengentas permasalahan terkait rendahnya kinerja dan profesionalisme Pegawai Negeri Sipil yang terlihat dari tingginya keluhan masyarakat

Penelitian ini bertujuan untuk mengetahui latar belakang, peralatan yang digunakan, pelaksanaan prosesi, doa dalam ritual, serta aspek pendidikan spiritual dalam prosesi

2) Jika anda ingin menyembunyikan kolom yang kosong pada kolom Nama Siswa 3) Untuk kembali kemenu utama klik HOME pada pojok atas kiri lalu SAVE.. NR TIDAK TUNTAS. Klik kiri

atau kajian analisis lebih menekankan kepada Ketuhanan dalam Hindu. Teori yang digunakan dalam penelitian ini adalah pertama, teori fungsional yang menanalisis tentang fungsi

dalam suatu kelompok ataupun organisasi, kepercayaan, jaringan sosial dan nilai dan norma memiliki peran dalam mempertahankan hubungan dan kelangsungan IKKT (Sangtorayan)