Model Regresi Logistik Biner dan Metode CART dalam Klasifikasi Status Desa Di Bali

(1)

MODEL REGRESI LOGISTIK BINER DAN METODE CART

DALAM KLASIFIKASI STATUS DESA DI BALI

I NYOMAN PUTRAYASA PENDIT

DEPARTEMEN STATISTIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(2)

RINGKASAN

I NYOMAN PUTRAYASA PENDIT. Model Regresi Logistik Biner dan Metode CART dalam Klasifikasi Status Desa Di Bali. Dibimbing oleh M. MASJKUR dan I MADE SUMERTAJAYA.

Pulau Bali merupakan pusat pariwisata di Indonesia yang menjadi tujuan favorit pelancong baik dari mancanegara maupun lokal. Oleh karena itu, perekonomian masyarakat Bali sangat bergantung pada kondisi pariwisata. Namun pembangunan yang terjadi tidak merata pada seluruh wilayah. Hal ini disebabkan oleh beberapa hal misalnya jauhnya desa tersebut dari ibu kota. Untuk menanggulangi hal tersebut pemerintah sebaiknya mencari strategi bagaimana cara menanggulangi kesenjangan pembangunan antar desa tersebut. Langkah pertama yang harus dilakukan pemerintah adalah mencari tahu peubah-peubah yang mempengaruhi status tingkat kemajuan desa di Bali. Analisis yang dapat digunakan untuk membuat klasifikasi adalah metode regresi logistik biner dan metode CART (Classification and Regression Trees). Tujuan dari penelitian ini adalah menerapkan analisis regresi logistik biner dan metode CART untuk melihat hubungan antara peubah respon status desa dan peubah penjelas potensi desa yang mempengaruhi status desa di Bali serta membandingkan hasil dari kedua metode tersebut. Peubah penjelas dalam kasus ini sebanyak 15 peubah. Sebelum melakukan kedua analisis tersebut terlebih dahulu dilakukan kategori ulang peubah penjelas. Dari 15 peubah penjelas tersebut yang berpengaruh signifikan terhadap peubah respon status desa dari hasil regresi logistik biner yaitu bahan bakar, jamban, fasilitas pendidikan, tenaga kesehatan, dan sinyal HP. Model regresi logistik yang terbentuk menghasilkan nilai ketepatan prediksi sebesar 75,8%. Analisis pohon regresi yang terbentuk pada kasus ini menghasilkan pohon optimum dengan tiga simpul terminal. Peubah penjelas yang masuk ke dalam pohon regresi yaitu telepon kabel dan jamban. Peubah yang menjadi penyekat utama adalah peubah kepemilikan telepon kabel. Metode regresi logistik biner dan metode CART dapat disimpulkan secara umum sudah cukup baik dalam memprediksi peubah respon dilihat dari kecilnya perbedaan perbandingan hasil dengan menggunakan nilai ketepatan prediksi dan kurva ROC.

(3)

MODEL REGRESI LOGISTIK BINER DAN METODE CART

DALAM KLASIFIKASI STATUS DESA DI BALI

I NYOMAN PUTRAYASA PENDIT

Skripsi

sebagai salah satu syarat untuk memperoleh gelar

Sarjana Statistika pada

Departemen Statistika

Institut Pertanian Bogor

DEPARTEMEN STATISTIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(4)

Judul Skripsi : Model Regresi Logistik Biner dan Metode CART dalam

Klasifikasi Status Desa Di Bali

Nama

: I Nyoman Putrayasa Pendit

NRP

: G14070045

Menyetujui :

Pembimbing I,

Pembimbing II,

Ir. M Masjkur, MS

NIP. 196106081986011002

Dr. Ir. I Made Sumertajaya, M.Si

NIP. 196807021994021001

Mengetahui :

Ketua Departemen Statistika

Fakultas Matematika dan Ilmu Pengetahuan Alam

Institut Pertanian Bogor

Dr. Ir. Hari Wijayanto, M.Si

NIP. 196504211990021001

(5)

KATA PENGANTAR

Puji syukur penulis panjatkan kepada Tuhan Yang Maha Esa atas karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Karya ilmiah ini berjudul “Model Regresi Logistik Biner dan Metode CART dalam Klasifikasi Status Desa Di Bali. Karya ilmiah ini disusun sebagai salah satu syarat untuk mendapatkan gelar Sarjana Statistika pada Departemen Statistika, Institut Pertanian Bogor.

Penulis mengucapkan terima kasih kepada:

1. Bapak Ir. M. Masjkur, MS dan Bapak Dr. Ir. I Made Sumertajaya, M.Si selaku dosen pembimbing yang telah memberikan arahan, saran, dan ilmunya selama penulisan karya ilmiah ini.

2. Bapak Ir. Bambang Sumantri selaku dosen penguji yang telah memberikan saran dan masukan kepada penulis.

3. Bapak Agus M. Soleh, S.Si, MT yang telah memberikan data Podes Provinsi Bali 2008. 4. Keluarga tercinta, bapak, ibu dan kakak yang selalu memberikan doa, semangat, dukungan

dan kasih sayang kepada penulis sampai terselesaikannya karya ilmiah ini. 5. A.A. Ayu Putu Puspita Negara atas bantuan dan dukungan kepada penulis.

6. Shela, Thata, Imha, Resty, Allan dan Daonk atas semangat, dukungan dan kebersamaannya selama kuliah.

7. Teman-teman Statistika 44, 45 dan 46 terima kasih atas kebersamaannya.

8. Dollar, Penjor, Bracuk, Jernat, Tungu, Ketel dan Ladang atas kebersamaannya di Mahayana. 9. Semua pihak yang telah membantu penulis dalam penulisan karya ilmiah ini.

Demikian karya ilmiah ini penulis susun, semoga karya ilmiah ini dapat bermanfaat bagi semua pihak yang membutuhkan. Penulis menyadari bahwa karya ilmiah ini masih jauh dari kesempurnaan. Oleh karena itu penulis sangat mengharapkan saran dan kritik yang membangun sebagai bahan evaluasi.

Bogor, Februari 2012

(6)

RIWAYAT HIDUP

Penulis dilahirkan di Tabanan pada tanggal 20 Oktober 1989 dan merupakan anak kedua dari dua bersaudara pasangan I Nyoman Darsana Pendit dan Ni Made Suniwati.

Penulis Menyelesaikan pendidikan sekolah dasar di SD Saraswati Tabanan pada tahun 2001, pendidikan sekolah menengah pertama di SMP Negeri 1 Tabanan pada tahun 2004, dan pendidikan menengah atas di SMA Negeri 1 Tabanan pada tahun 2007. Penulis diterima di Institut Pertanian Bogor pada tahun 2007 melalui jalur Undangan Seleksi Masuk IPB (USMI) dan tercatat sebagai mahasiswa Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam.

(7)

DAFTAR ISI

DAFTAR GAMBAR ... vii

DAFTAR TABEL ... vii

DAFTAR LAMPIRAN ... vii

PENDAHULUAN... 1

Latar belakang ... 1

Tujuan ... 1

TINJAUAN PUSTAKA ... 1

Regresi Logistik Biner ... 1

Multikolinieritas ... 2

Pohon Regresi dan Klasifikasi ... 2

Pemilihan Pemilah ... 3

Penentuan Simpul Terminal ... 3

Penandaan Label Kelas ... 3

Penentuan Pohon Optimum ... 3

METODOLOGI ... 4

Data ... 4

Metode ... 4

HASIL DAN PEMBAHASAN ... 4

Gambaran Umum Karakteristik Desa ... 4

Analisis Regresi Logistik Biner ... 6

Interpretasi Koefisien ... 7

Analisis Pohon Regresi dan Klasifikasi ... 8

Perbandingan Hasil ... 9

KESIMPULAN ... 10

DAFTAR PUSTAKA ... 10

(8)

vii

DAFTAR GAMBAR

Gambar 1 Diagram CART ... 3

Gambar 2 Diagram pie status desa ... 5

Gambar 3 Grafik distribusi kategori peubah penghasilan ... 5

Gambar 4 Pohon klasifikasi optimum ... 8

Gambar 5 Kurva ROC ... 9

DAFTAR TABEL Tabel 1 Karakteristik desa maju dan desa tertinggal secara deskriptif ... 5

Tabel 2 Nilai korelasi antar peubah bebas ... 6

Tabel 3 Pengujian parameter secara parsial permodelan awal dengan Uji-Wald ... 7

Tabel 4 Pengujian parameter secara parsial metode backward dengan Uji-Wald... 7

Tabel 5 Rasio odds model regresi logistik biner ... 7

Tabel 6 Ketepatan prediksi model regresi logistik ... 8

Tabel 7 Ketepatan prediksi metode CART ... 9

DAFTAR LAMPIRAN Lampiran 1. Peubah-peubah penjelas yang digunakan ... 12

Lampiran 2. Deskripsi distribusi karakteristik desa ... 13

Lampiran 3. Peubah-peubah penjelas setelah dikategori ulang ... 15

(9)

1

PENDAHULUAN

Latar belakang

Bali merupakan pusat pariwisata di Indonesia yang menjadi tujuan favorit para pelancong baik dari mancanegara maupun lokal. Hal ini disebabkan oleh banyaknya keanekaragaman budaya juga daya tarik alam yang sangat luar biasa. Oleh karena itu, perekonomian masyarakat Bali sangat bergantung pada kondisi pariwisatanya. Hal ini juga secara tidak langsung mempengaruhi pembangunan daerah.

Pembangunan di Bali tidak merata pada seluruh wilayahnya. Jika dilihat dari ruang lingkup kabupaten masih terlihat sama. Tetapi perbedaan pembangunan itu sangat jelas terlihat pada desa-desa di Bali. Hal ini disebabkan oleh beberapa hal misalnya jauhnya desa tersebut dari ibu kota . Untuk menanggulangi hal tersebut pemerintah sebaiknya mencari strategi bagaimana cara menanggulangi kesenjangan pembangunan antar desa tersebut.

Langkah pertama yang harus dilakukan pemerintah adalah mencari tahu peubah-peubah yang mempengaruhi status desa di Bali dengan klasifikasi. Analisis yang dapat digunakan untuk membuat klasifikasi adalah metode regresi logistik biner dan metode CART (classification and regression trees).

Regresi logistik biner digunakan untuk melihat hubungan antara peubah respon yang berskala kategorik dengan peubah penjelas yang berskala kategorik atau kontinyu. Dari analisis ini juga dapat diperoleh peubah-peubah penjelas yang berpengaruh terhadap status desa. Sedangkan metode CART adalah metode yang umumnya dikenal sebagai pohon keputusan. Prosedur yang dilakukan dalam metode ini adalah membagi desa ke dalam kelompok-kelompok yang lebih kecil berdasarkan peubah respon, dimana ada peubah penjelas yang terpilih yang digunakan untuk pengelompokan peubah penjelas selanjutnya.

Tujuan

Tujuan dari penelitian ini adalah:

1. Menerapkan analisis regresi logistik biner dan metode CART untuk melihat hubungan antara peubah respon status desa dan peubah penjelas potensi desa yang mempengaruhi status desa di Bali.

2. Membandingkan hasil dari masing-masing metode.

TINJAUAN PUSTAKA

Regresi Logistik Biner

Analisis regresi logistik merupakan suatu teknik untuk menganalisis data yang peubah responnya memiliki dua atau lebih kategori dengan satu atau lebih peubah penjelas yang berskala kategorik atau kontinu.

Hosmer dan Lemeshow (2000) menjelaskan bahwa model regresi logistik dibentuk dengan nilai sebagai

, yang dinotasikan sebagai berikut:

Suatu fungsi dari dicari dengan menggunakan transformasi logit, yaitu yang dapat dinyatakan sebagai berikut:

Secara umum jika sebuah peubah berskala nominal atau ordinal mempunyai k kemungkinan nilai, maka diperlukan k-1 peubah boneka (dummy variable). Sehingga model transformasi logitnya menjadi:

dimana:

: peubah bebas ke-j dengan tingkatan : jumlah peubah boneka

: koefisien peubah boneka : 1,2,...,

: peubah boneka

Pendugaan parameter dalam regresi logistik menggunakan metode kemungkinan maksimum (maximum likelihood estimation), jika antara amatan yang satu dengan yang lain diasumsikan bebas maka fungsi kemungkinan yang diperoleh adalah:

dengan: : 1,2,...,p

: pengamatan pada peubah respon ke-i : peluang untuk peubah penjelas ke-i

(10)

2

Nilai dugaan dapat diperoleh dengan membuat turunan pertama terhadap

, dengan

Pengujian terhadap parameter-parameter model dilakukan baik secara simultan maupun secara parsial. Menurut Hosmer dan Lemeshow (2000), pengujian parameter model secara simultan menggunakan uji nisbah kemungkinan (Likelihood Ratio Tests), dengan hipotesis:

H0:

H1: minimal ada satu statistik uji G dirumuskan:

dengan adalah fungsi kemungkinan tanpa peubah penjelas dan merupakan kemungkinan dengan peubah penjelas. Dengan mengasumsikan benar, statistik uji G akan mengikuti sebaran khi kuadrat dengan derajat bebas p. Keputusan tolak jika

.

Pengujian parameter secara parsial menggunakan statistik uji Wald. Hipotesis yang akan diuji adalah:

H0: H1:

Statistik uji yang dipakai adalah statistik W yaitu:

Interpretasi koefisien untuk model regresi logistik biner dapat dilakukan dengan menggunakan nilai rasio oddsnya. Odds sendiri dapat diartikan sebagai rasio peluang kejadian sukses dengan kejadian tidak sukses dari peubah respon. Rasio odds mengindikasikan seberapa lebih mungkin munculnya kejadian sukses pada suatu kelompok dibandingkan dengan kelompok lainnya. Rasio odds didefinisikan sebagai:

Interpretasi dari rasio odds ini adalah kecendrungan untuk pada

sebesar Ψ kali dibandingkan pada .

Multikolinieritas

Multikolinieritas adalah kondisi dimana peubah penjelas yang saling berkorelasi. Besarnya korelasi dapat dilihat menggunakan koefisien korelasi Spearman Rank. Model

regresi logistik mengansumsikan tidak boleh ada multikolinieritas, karena dengan adanya multikolinieritas standard error dari koefisien regresinya akan membesar sehingga dimungkinkan hasil uji Wald dari masing-masing peubah penjelas akan tidak signifikan. Penanganan multikolinieritas yang dapat dilakukan adalah memilih salah satu peubah penjelas yang bisa digunakan untuk mewakili peubah penjelas lain yang berkorelasi kuat dengannya.

Pohon Regresi dan Klasifikasi CART (Classification and Regression Trees) adalah salah satu metode atau algoritma dari salah satu teknik eksplorasi data yaitu teknik pohon keputusan. Metode ini dikembangkan oleh Leo Breiman, Jerome H. Friedman, Richard A. Olshen dan Charles J. Stone sekitar tahun 1980-an.

Menurut Breiman et al. (1993), CART merupakan metodologi statistik nonparametrik yang dikembangkan untuk topik analisis klasifikasi, baik untuk peubah respon kategorik maupun kontinu. CART menghasilkan suatu pohon klasifikasi jika peubah responnya kategorik, dan menghasilkan pohon regresi jika peubah responnya kontinu. Tujuan utama CART adalah untuk mendapatkan suatu kelompok data yang akurat sebagai penciri dari suatu pengklasifikasian.

Keunggulan dari metode CART adalah tidak perlu dipenuhinya asumsi sebaran oleh semua peubah, serta algoritmanya yang langsung dapat menangani masalah data hilang (Brieman et al. 1993). CART juga tidak dipengaruhi oleh pencilan, kolinieritas, heterokedastisitas atau struktur distribusi galat yang biasanya mempengaruhi metode parametrik. Masalah pencilan data dapat diselesaikan dengan cara yang sederhana oleh metode CART. Pencilan akan diisolasi ke dalam simpul tertentu sehingga tidak mempengaruhi penyekatan (Komalasari 2007).

Menurut Yohannes dan Hoddinott (1999), kelemahan dari metode CART adalah hasil akhirnya tidak didasarkan pada model probabilistik. Tidak ada tingkat probabilitas atau selang kepercayaan yang berhubungan dengan dugaan yang didapat dari pohon CART untuk pengelompokan data baru.

(11)

3

Pada Gambar 1, A, B dan C merupakan peubah-peubah penjelas yang terpilih untuk menjadi simpul. A merupakan simpul induk, sementara B dan C merupakan simpul anak dimana C juga merupakan simpul akhir atau simpul terminal yang tidak bercabang lagi.

Gambar 1 Diagram CART

Algoritma pembentukan pohon klasifikasi terdiri dari empat tahapan, yaitu: pemilihan pemilah; penentuan simpul terminal; penandaan label kelas; dan penentuan pohon dengan ukuran tepat (Kardiana et al. 2006).

Pemilihan Pemilah

Pada tahap ini dicari pemilah dari setiap simpul yang menghasilkan penurunan tingkat keheterogenan paling tinggi. Keheterogenan suatu simpul diukur berdasarkan nilai impurity-nya. Fungsi impuritas yang dapat digunakan adalah indeks Gini. Bila impuritas suatu simpul semakin besar maka semakin heterogen simpul tersebut (Breiman et al. 1993).

Nilai impuritas menggunakan indeks Gini pada simpul t, i(t), dapat ditulis sebagai adalah banyaknya unit pengamatan dalam kelas ke-j, dan adalah banyaknya unit kebaikan dari s didefinisikan sebagai penurunan impuritas:

Pengembangan pohon dilakukan dengan cara, pada simpul , carilah s* yang memberikan nilai penurunan impuritas tertinggi yaitu:

maka dipilah menjadi dan menggunakan s*. Dengan cara yang sama dilakukan juga pemilah terbaik pada dan secara terpisah, dan seterusnya.

Penentuan Simpul Terminal Suatu simpul t akan menjadi simpul terminal atau tidak akan dipilah kembali, jika jumlah pengamatannya kurang dari jumlah minimum. Umumnya jumlah pengamatan minimum pada simpul sebesar 5 dan terkadang berjumlah 1 (Breiman et al. 1993). Maka selanjutnya t tidak dipilah lagi tetapi dijadikan simpul terminal dan hentikan pembuatan pohon.

Penandaan Label Kelas

Label kelas dari simpul terminal ditentukan berdasarkan aturan jumlah terbanyak, yaitu jika , maka label kelas untuk terminal t adalah (Breiman et al. 1993).

Penentuan Pohon Optimum Pohon klasifikasi tidak dibatasi jumlahnya. pohon terbesar memiliki nilai salah pengklasifikasian terkecil, sehingga kita cenderung memilih pohon tersebut untuk perkiraan. Tetapi, pohon ini cukup kompleks dalam menggambarkan struktur data. Sehingga perlu dipilih pohon optimal yang lebih sederhana tetapi memiliki kesalahan pengklasifikasian yang cukup kecil.

Menurut Breiman et al. (1993), salah satu cara mendapatkan pohon optimum yaitu dengan pemangkasan (pruning). Pemangkas berturut-turut memangkas pohon bagian yang kurang penting. Tingkat kepentingan sebuah pohon bagian diukur berdasarkan ukuran biaya kompleksitas (cost-complexity). Persamaannya adalah:

dengan adalah tingkat salah klasifikasi pada pohon bagian untuk k = 1, adalah himpunan simpul terminal pada , adalah banyaknya simpul terminal pada , dan adalah parameter biaya kompleksitas.

(12)

4

silang (cross-validation sample) dapat ditentukan pohon optimum sebagai berikut :

Amanati (2001) melakukan perbandingan analisis regresi logistik dan analisis pohon regresi. Penelitian tersebut menyatakan bahwa metode regresi logistik dan pohon regresi menghasilkan kesimpulan yang sama, tetapi analisis pohon regresi mampu menunjukkan peubah yang paling berpengaruh terhadap peubah respon.

METODOLOGI

Data

Data yang digunakan dalam penelitian ini adalah data sekunder yang bersumber dari data Statistik Potensi Desa Provinsi Bali 2008. Peubah penjelas sebanyak 15 diturunkan dari data potensi desa yang menyangkut aspek potensi desa, aspek perumahan dan lingkungan, serta aspek keadaan penduduk dapat dilihat pada Lampiran 1. Sedangkan peubah respon diturunkan dari informasi status desa adalah sebagai berikut:

Y : Status desa 0:Tertinggal 1: Maju

Metode

Tahapan-tahapan yang akan dilakukan dalam penelitian ini adalah:

1. Analisis statistik deskriptif terhadap peubah respon.

2. Analisis regresi logistik biner. Tahapannya adalah sebagai berikut: a. Menduga parameter.

b. Melakukan pengujian parameter secara keseluruhan dengan Uji-G. Hipotesis yang diuji adalah : H0 :

H1 : minimal ada satu , dengan

hipotesis nol ditolak jika

c. Melakukan pengujian parameter secara parsial dengan Uji-Wald. Hipotesis yang diuji adalah : H0 :

H1 : , dengan

hipotesis nol ditolak jika

d. Melakukan evaluasi terhadap model penuh.

e. Mereduksi peubah-peubah penjelas dengan metode backward.

f. Menduga parameter.

g. Melakukan pengujian parameter dengan prosedur yang sama seperti pada tahapan b dan c.

h. Memodelkan status desa berdasarkan peubah penjelas yang berpengaruh nyata.

i. Interpretasi hasil.

3. Analisis CART. Tahapannya adalah sebagai berikut:

a. Menentukan semua kemungkinan pemilah pada setiap peubah penjelas. Hitung keheterogenan simpul. Lakukan untuk semua peubah penjelas sehingga didapat peubah sebagai pemilah terbaik dengan penurunan keheterogenan maksimum.

b. Jika simpul induk sudah didapatkan, maka simpul anak dapat dibuat dengan cara yang sama seperti proses sebelumnya.

c. Pembentukan pohon akan berhenti jika hanya terdapat 5 amatan pada simpul.

d. Pelabelan kelas dari simpul terminal ditentukan berdasarkan aturan jumlah terbanyak.

e. Pembentukan pohon optimal dengan pemangkasan. Pemangkasan dilakukan dengan cross-validation. f. Interpretasi hasil.

4. Membandingkan hasil dari analisis regresi logistik biner dan metode CART dengan melihat peluang kesalahan klasifikasi dan kurva Receiver Operating Characteristic (ROC).

Proses analisis dilakukan dengan menggunakan software statistika.

HASIL DAN PEMBAHASAN

Gambaran Umum Karakteristik Desa Banyaknya desa yang digunakan dalam penelitian ini adalah 712 desa yang merupakan seluruh desa di Bali. Jumlah desa yang termasuk dalam kategori maju sebanyak 496 desa (69.66%) dan termasuk dalam kategori tertinggal sebanyak 216 desa (30.34%). Hal ini menunjukkan bahwa sebagain besar desa di Bali sudah termasuk dalam kategori maju (Gambar 2).

(13)

5

Tabel 1 Karakteristik desa maju dan desa tertinggal secara deskriptif. (lanjutan) dan tidak terdapat kompleks pertokoan. Untuk

variabel bebas listrik, seluruh keluarga menggunakan listrik. Pada Lampiran 2 dan Tabel 1 di bawah menjelaskan karakteristik desa berdasarkan statusnya.

Gambar 2 Diagram pie status desa

Meskipun kategori maju dan tertinggal cenderung memiliki kesamaan karakteristik, namun terjadi perbedaan pada rata-rata jumlah fasilitas pendidikan, jumlah fasilitas keterampilan, jumlah tenaga kesehatan, dan keberadaan pasar permanen atau semi permanen. Desa dengan status maju memiliki rata-rata jumlah fasilitas pendidikan, fasilitas keterampilan, dan tenaga kesehatan lebih tinggi dibandingkan desa dengan status tertinggal. Keberadaan pasar juga dapat memperlihatkan bahwa sebagian besar desa maju memiliki pasar permanen atau semi permanen sedangkan desa tertinggal tidak.

Tabel 1 Karakteristik desa maju dan desa tertinggal secara deskriptif.

Peubah Modus

Maju Tertinggal

X1 Pertanian Pertanian

pnghsln_pnddk 73.79% 90.74%

X2 Listrik Listrik

pngguna_lstrk 100% 100%

X3 Pnrngan_jln Pnrngan_jln

pnrngan_jln_utm 99.19% 95.83%

X4 kayu_bkr kayu_bkr

bhn_bkr_msk 58.47% 91.20%

X5 Lainnya Lainnya

tmpt_smph 42.34% 75.93%

X6 jamban_sndr jamban_sdr

jamban 89.11% 67.59%

X7 fslts_pnddkn fslts_pnddkn

jml_fslts_pnddkn 6.81 4.44

Peubah Modus

Maju Tertinggal

X8 fslts_ktrmpln fslts_ktrmpln

jml_fslts_ktrmpln 0.80 0.14

X9 fslts_kshtn fslts_kshtn

jml_fslts_kshtn 4.09 3.19

X10 tng_kshtn tng_kshtn

jml_tng_kshtn 8.31 4.00

X11 aspal/beton aspal/beton

jln_utm_ds 99.80% 95.37%

X12 tlpn_kabel tlpn_kabel

jml_plnggn_tlpn 254.36 39.87

X13 ada_kuat ada_kuat

sinyal_hp 96.17% 84.72%

X14 tdk_toko tdk_toko

kmplk_prtkoan 72.98% 89.81%

X15 ada_pasar tdk_pasar

psr_prmanen 54.84% 60.19%

Distribusi dari masing-masing kategori peubah bebas sebagian besar tidak merata. Salah satu contohnya dapat dilihat pada Gambar 3. Peubah sumber penghasilan utama penduduk sebagian besar pada bidang pertanian. Sedangkan untuk bidang-bidang yang lain sangat sedikit.

Gambar 3 Grafik distribusi kategori peubah

(14)

6

Tabel 2 Nilai korelasi antar peubah bebas

X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15

Oleh karena kurang meratanya distribusi masing-masing kategori pada peubah penjelas, maka perlu dilakukan proses kategori ulang. Proses ini bertujuan untuk mempermudah proses analisis dan hasilnya akan menjadi lebih baik. Sebagai salah satu contoh peubah penjelas sumber penghasilan utama penduduk pada awalnya memiliki tujuh kategori yaitu: 1. Pertanian

2. Pertambangan dan penggalian 3. Industri pengolahan

4. Perdagangan besar/eceran, rumah makan 5. Angkutan, pergudangan, komunikasi 6. Jasa

7. Lainnya

dikategorikan ulang menjadi dua kategori. Dua kategori tersebut adalah :

1. Pertanian

2. Non Pertanian (pertambangan dan penggalian, industri pengolahan, perdagangan besar/ eceran, rumah makan, angkutan, pergudangan, komunikasi, jasa, lainnya)

Kategori pertanian menjadi satu kategori karena paling banyak dibanding kategori lainnya. Untuk kategori ulang peubah penjelas lainnya dapat dilihat pada Lampiran 3.

Analisis Regresi Logistik Biner Analisis regresi memiliki beberapa asumsi yang harus dipenuhi sebelum dilakukannya proses pengolahan data. Asumsi yang biasanya wajib dipenuhi adalah kasus data hilang dan multikolinieritas. Kasus data hilang

dalam penelitian ini diatasi dengan mengisi data yang kosong dengan data dari amatan yang mirip atau sejenis dengan amatan tersebut. Dalam mendeteksi multikolinieritas terdapat beberapa prosedur yang bisa digunakan. Cara yang paling sederhana adalah melalui korelasi antar peubah. Korelasi antar peubah yang terlalu tinggi (di atas 0.8 atau 0.9) menunjukkan data terjangkit multikolinieritas (Field 2000). Sehingga dapat dikatakan dalam penelitian ini tidak terdapat multikolinieritas dilihat dari nilai korelasi pada Tabel 2 di atas.

Pendugaan model regresi logistik biner dengan menggunakan lima belas peubah penjelas menghasilkan nilai statistik-G sebesar 180.302 dengan nilai-p = 0.000. Pengambilan keputusan dilakukan dengan membandingkan nilai statistik-G dengan nilai khi-kuadrat dari tabel, = 24,996. Keputusannya adalah tolak H0, artinya bahwa sedikitnya ada satu yang tidak sama dengan nol pada taraf nyata 5%. Pengujian parameter secara parsial dengan statistik uji-Wald menghasilkan tiga peubah yang nyata pada taraf nyata 5% dengan nilai khi-kuadrat tabel sebesar 3,841. Ketiga peubah tersebut adalah bahan bakar, jamban, dan fasilitas pendidikan (Tabel 3). Karena terdapat banyak peubah penjelas yang tidak nyata, maka dilakukan pereduksian peubah penjelas dengan menggunakan metode backward.

(15)

7

penjelas. Ketujuh peubah tersebut adalah bahan bakar, jamban, fasilitas pendidikan, tenaga kesehatan, jalan(1), jalan(2), dan sinyal HP. Nilai statistik-G padal model reduksi sebesar 170.697 dengan nilai-p = 0.000. Nilai statistik-G dibandingkan dengan nilai khi-kuadrat tabel = 14,067, sehingga kesimpulannya adalah tolak H0 pada taraf nyata 5%. Berarti terdapat yang tidak sama dengan nol. Pengujian parameter secara parsial dengan menggunakan statistik uji-Wald menghasilkan lima peubah yang nyata pada taraf nyata 5%. Kelima peubah tersebut adalah bahan bakar, jamban, fasilitas pendidikan, tenaga kesehatan, dan sinyal HP (Tabel 4).

Tabel 3 Pengujian parameter secara parsial permodelan awal dengan Uji-Wald. Peubah Wald p-value pnghsln_pnddk(1) 1.564 0.211 pnrngn_jln(1) 1.936 0.164 bhn_bkr_msk(1) 13.232 0.000 tmpt_smph(1) 0.003 0.955 jamban(1) 20.237 0.000 fslts_pnddkn 4.260 0.039 fslts_ktrmpln 1.092 0.296 fslts_kshtn 1.767 0.184 tng_kshtn 2.835 0.092 jln_utm(1) 0.000 0.999 jln_utm(2) 2.667 0.102 tlpn_kbl 1.449 0.229 sinyal_hp(1) 3.323 0.068 prtokoan(1) 0.892 0.345 pasar(1) 0.016 0.899

Tabel 4 Pengujian parameter secara parsial metode backward dengan Uji-Wald. Peubah Wald p-value bhn_bkr_msk(1) 20.016 0.000 jamban(1) 23.283 0.000 fslts_pnddkn 10.207 0.001 tng_kshtn 5.267 0.022 jln_utm(1) 0.000 0.999 jln_utm(2) 2.749 0.097 sinyal_hp(1) 4.050 0.044

Model logit terbaik yang dihasilkan adalah sebagai berikut:

g(x) = 0.483 – 1.223 X4(1) – 1.405 X6(1) + 0.118 X7 + 0.502 X10 + 0.667 X13(1)

Interpretasi Koefisien

Interpretasi koefisien untuk model regresi logistik biner dapat dilakukan dengan melihat nilai rasio oddsnya. Nilai dugaan beserta selang kepercayaan 95% bagi rasio odss untuk kelima peubah penjelas dapat dilihat pada Tabel 5.

Tabel 5 Rasio odds model regresi logistik biner.

Koefisien peubah bahan bakar memasak (X4) bernilai negatif dengan nilai rasio odds kurang dari satu. Desa yang sebagian besar penduduknya masih menggunakan kayu bakar atau lainnya mempunyai kecenderungan untuk menjadi desa maju 0.294 kali dibandingkan dengan desa yang sebagian besar penduduknya sudah mengunakan gas LPG atau minyak tanah. Pengertian yang setara bahwa desa dengan penduduk yang sudah menggunakan gas LPG dan minyak tanah memiliki kecenderungan 3.401 kali untuk menjadi desa maju.

Desa yang tempat buang air besar sebagian besar keluarganya (X6) bukan jamban memiliki kecenderungan untuk menjadi desa maju 0.245 kali dibandingkan dengan desa yang tempat buang air besar sebagian besar keluarganya pada jamban sendiri, bersama atau umum. Pengertian yang setara bahwa desa yang keluarganya sebagian besar buang air besar pada jamban sendiri, bersama, atau umum memiliki kecenderungan 4.082 kali untuk menjadi desa maju.

(16)

8

meningkatkan kecenderungan desa tersebut menjadi desa maju semakin tinggi.

Nilai rasio odds untuk peubah tenaga kesehatan (X10) 1.054. Artinya setiap penambahan satu orang tenaga kesehatan di desa tersebut akan meningkatkan kecenderungan untuk menjadi desa maju sebesar 1.054 kali. Hal ini dapat diartikan juga bahwa dengan bertambahnya jumlah tenaga kesehatan akan meningkatkan kecenderungan desa tersebut menjadi desa maju semakin tinggi.

Interpretasi untuk nilai rasio odds dari peubah sinyal HP (X13) adalah sebesar 1.948. Artinya adalah desa dengan sinyal HP kuat mempunyai kecenderungan untuk menjadi desa maju 1.948 kali dibanding desa dengan sinyal HP yang lemah atau tidak ada.

Tabel 6 Ketepatan prediksi model regresi logistik.

Aktual Prediksi %

tertinggal maju benar tertinggal 73 143 33.8

maju 29 467 94.2

% keseluruhan 75.8

Berdasarkan Tabel 6 di atas dapat dilihat bahwa dari 216 desa tertinggal sebanyak 73 desa diklasifikasikan dengan benar, sedangkan dari 496 desa maju sebanyak 467 desa diklasifikasikan dengan benar. Persentase masing-masing hasil klasifikasi sebesar 33.8% dan 94.2% dengan total klasifikasi yang benar dari 712 desa adalah 75.8%. Kesalahan prediksi untuk desa tertinggal yang diprediksi maju sangat besar pada metode regresi logistik yaitu sebanyak 143 desa. Hal ini dapat disebabkan oleh pengkategorian ulang dari peubah penjelas. Sehingga akan merugikan bagi desa tersebut dan pemerintah yang ingin memberikan bantuan untuk pembangunan bagi desa yang masih tertinggal. Maka dari itu model ini dapat dikatakan belum cukup baik diterapkan pada desa tertinggal.

Analisis Pohon Regresi dan Klasifikasi Metode pohon klasifikasi menampilkan hasil berupa pohon keputusan. Pohon klasifikasi dibentuk dari peubah penjelas yang sudah dikategori ulang sebelumnya. peubah yang paling berpengaruh akan menjadi pemilah pertama pada pohon keputusan.

Pohon klasifikasi maksimum yang dihasilkan memiliki sepuluh simpul anak dengan enam simpul terminal (Lampiran 4).

Menurut Breiman et al. (1993), pohon optimum dapat diperoleh melalui pemangkasan berdasarkan aturan Cost Complexity Minimum dan penggunaan validasi silang lipat-10 (10-fold Cross Validation). Sehingga didapat pohon optimum yang memilki empat simpul anak dengan tiga simpul terminal (Gambar 4).

Peubah penjelas yang masuk ke dalam pohon klasifikasi yaitu telepon kabel dan jamban. Peubah pertama yang menyekat adalah kepemilikan telepon kabel. Hal ini menyatakan bahwa peubah tersebut merupakan peubah yang paling dominan dalam pembentukan pohon klasifikasi.

Desa yang bejumlah 712 pada simpul pertama (simpul 0) dipilah menjadi kelompok kiri dan kelompok kanan oleh peubah telepon kabel. Desa yang penduduknya memiliki telepon kabel kurang dari sama dengan 11,5 keluarga sebanyak 320 desa mengelompok pada simpul 1 (kiri) sedangkan desa yang pendidiknya memiliki telepon kabel lebih dari 11,5 sebanyak 392 mengelompok pada simpul 2 (kanan). Simpul 2 merupakan simpul terminal. Penurunan nilai impuritas dalam hal ini menggunakan indeks Gini pada simpul pertama sebesar 0,0499 ditunjukan oleh improvement pada Gambar 4.

Gambar 4 Pohon klasifikasi optimum

(17)

9

sebanyak 248 desa mengelompok pada simpul 3 (kiri) sedangkan desa yang sebagian besar penduduknya membuang air besar di bukan jamban sebanyak 72 desa mengelompok pada simpul 4 (kanan). Simpul 3 dan 4 merupakan simpul terminal. Penurunan nilai impuritas dalam hal ini menggunakan indeks Gini pada simpul 1 sebesar 0,0174.

Hasil pohon klasifikasi optimum yaitu tiga klasifikasi status desa. Klasifikasi yang terbentuk adalah sebagai berikut :

1. Jumlah pemilik telepon kabel dan sebagian besar membuang air besar di jamban sendiri, bersama, atau umum. 2. Jumlah pemilik telepon kabel dan

sebagian besar membuang air besar di bukan jamban.

3. Jumlah pemilik telepon kabel . Klasifikasi pertama berjumlah 248 desa dengan label kelas desa tersebut termasuk dalam kategori desa maju. Klasifikasi kedua memiliki label kelas tertinggal yang berjumlah 72 desa. Sedangkan kategori ketiga memiliki jumlah terbanyak yaitu 392 desa dengan label kelas maju.

Tingkat ketepatan pengklasifikasian pada metode ini adalah 74,4%. Dari total 216 desa tertinggal sebanyak 53 desa diklasifikasikan dengan benar, sedangkan dari 496 desa maju sebanyak 477 desa diklasifikasikan dengan benar. Kesalahan prediksi untuk desa tertinggal yang diprediksi maju sangat besar pada metode CART yaitu sebanyak 163 desa. Hal ini dapat disebabkan oleh pengkategorian ulang dari peubah penjelas. Sehingga dapat dikatakan model ini belum cukup baik diterapkan pada desa tertinggal (Tabel 7).

Tabel 7 Ketepatan prediksi metode CART.

Aktual Prediksi %

tertinggal maju benar tertinggal 53 163 24.5 memiliki peluang kesalahan klasifikasi yang minimal dan ketepatan prediksi dari model. Dari Tabel 2 diperoleh total ketepatan prediksi analisis regresi logistik sebesar 75,8% dan dari Tabel 4 diperolah total ketepatan prediksi motede CART sebesar 74,4%. Hal ini menunjukkan bahwa metode regeresi logistik memiliki nilai ketepatan prediksi yang lebih

besar 1.4% dari metode CART. Akan tetapi dapat dikatakan bahwa kedua metode tersebut sudah cukup baik dalam memprediksi peubah respon dalam kasus ini status desa.

Perbedaan tingkat ketepatan prediksi dapat disebabkan oleh oleh perbedaan hasil pengklasifikasian. Dalam regresi logistik peubah bebas yang terpilih sebagai peubah yang berpengaruh terhadap peubah respon adalah bahan bakar, jamban, fasilitas pendidikan, tenaga kesehatan, dan sinyal HP. Sedangkan pada metode CART peubah yang terpilih adalah telepon kabel dan jamban. Peubah jamban merupakan peubah yang konsisten berpengaruh pada analisis regresi logistik maupun metode CART.

(a)

(b)

(18)

10

Kebaikan model yang dihasilkan oleh kedua metode juga dapat dilihat dari kurva receiver operating characteristic (ROC). Semakin luas area di bawah kurva maka semakin baik model tersebut. Dari hasil yang diperoleh, metode regresi logistik biner memiliki luas di bawah kurva sebesar 0.788 sedangkan metode CART memiliki luas di bawah kurva sebesar 0.771. Kedua metode dapat dikatakan sudah cukup baik dalam memprediksi peubah respon dilihat dari kecilnya perbedaan luas area di bawah kurva ROC (Gambar 5).

KESIMPULAN

Peubah-peubah yang signifikan terhadap peubah respon status desa dari hasil regresi logistik biner yaitu bahan bakar, jamban, fasilitas pendidikan, tenaga kesehatan, dan sinyal HP. Model logit yang didapatkan adalah

g(x) = 0.483 – 1.223 X4(1) – 1.405 X6(1) + 0.118 X7 + 0.502 X10 + 0.667 X13(1) Pohon klasifikasi yang terbentuk pada kasus ini menghasilkan pohon optimum dengan tiga simpul terminal. Peubah penjelas yang masuk ke dalam pohon klasifikasi yaitu telepon kabel dan jamban. Peubah yang menjadi penyekat utama adalah peubah kepemilikan telepon kabel.

Perbandingan hasil dari kedua analisis tersebut menunjukkan bahwa metode regeresi logistik memiliki nilai ketepatan prediksi yang lebih besar 1.4% dari metode CART. Selain itu, metode regresi logistik juga memiliki luas area di bawah kurva ROC lebih luas dibandingkan dengan metode CART. Kedua metode tersebut dapat disimpulkan secara umum sudah cukup baik dalam memprediksi peubah respon dilihat dari kecilnya perbedaan perbandingan hasil dengan menggunakan nilai ketepatan prediksi dan kurva ROC. Tetapi kedua model tersebut secara khusus belum cukup baik diterapkan pada desa tertinggal.

DAFTAR PUSTAKA

Amanati ANN. 2001. Perbandingan Analisis Regresi Logistik dan Analisis Pohon Regresi (Studi Kasus pada Pengelompokan Nasabah Bank Syariah dan Nasabah Bank konvensional) [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Breiman L, JH Friedman, RA Olshen, CJ Stone. 1993. Classification and Regression Trees. New York: Champan and Hall. Field AP. 2000. Discovering Statistics Using

SPSS for Windows: Advanced Techniques for the Beginner. London: Sage.

Hosmer DW, S Lemeshow. 2000. Applied Logistic Regression. New York: John Wiley & Sons, Inc.

Kardiana A, Aunuddin, AH Wigena, H Wijayanto. 2006. Metode Klasifikasi Berstruktur Pohon Biner: Kasus Prakiraan Sifat Hujan Bulanan di Bogor. Yogyakarta, 17 Juni 2006. Seminar Nasional Aplikasi Teknologi Informasi (SNATI). hlm: G21-G25.

Komalasari WB. 2007. Metode Pohon Regresi untuk Eksplorasi Data dengan Peubah yang Banyak dan Kompleks. Informatika Pertanian Volume 16 No. 1, Juli 2007. hlm: 967-980.

(19)

11

(20)

12

Lampiran 1. Peubah-peubah penjelas yang digunakan

Kode

Peubah Nama Peubah Kategori

X1 Sumber penghasilan utama sebagian besar penduduk

1.Pertanian

2.Pertambangan dan penggalian 3.Industri pengolahan

4.Perdagangan besar/eceran, rumah makan

5.Angkutan, pergudangan, komunikasi

6.Jasa

7.Lainnya (gas, listrik, perbankan, dll)

X2 Keluarga pengguna listrik 0.Tidak ada 1.Ada X3 Penerangan jalan utama desa/kelurahan 0.Tidak ada

1.Ada X4 Bahan bakar yang digunakan oleh sebagian

besar keluarga untuk memasak

1.Gas kota/LPG 2.Minyak tanah 3.Kayu bakar

4.Lainnya (batu bara, arang, dll) X5 Sebagian besar penduduk membuang sampah

ke

1.Tempat sampah kemudian diangkut

2.Dalam lubang/dibakar 4.Sungai

8.Lainnya X6 Tempat buang air besar sebagian besar

keluarga

1.Jamban sendiri 2.Jamban umum 3.Jamban bersama 4.Bukan jamban

X7 Fasilitas pendidikan

-

X8 Fasilitas keterampilan

-

X9 Fasilitas kesehatan

-

X10 Tenaga kesehatan

-

X11 Jenis permukaan jalan yang terluas 1.Aspal/beton

2.Diperkeras (kerikil, batu, dsb) 3.Tanah

4.Lainnya X12 Keluarga yang berlangganan telepon kabel

-

X13 Sinyal telepon genggam/hand phone/mobile phone di desa/kelurahan ini

0.Tidak ada 1.Ada lemah 2.Ada kuat

X14 Kelompok pertokoan 0.Tidak ada

1.Ada X15 Pasar dengan bangunan permanen/semi

permanen

(21)

13

Lampiran 2. Deskripsi distribusi karakteristik desa

0

Penerangan Jalan Utama Desa

tidak ad

Bahan Bakar Memasak Penduduk

LPG

Tempat Membuang Sampah Penduduk

Tempat Buang Air Besar Penduduk

jamban sendiri

Jenis Permukaan Jalan Utama Desa

aspal

kerikil/batu

(22)

14

Lampiran 2. (Lanjutan)

0 100 200 300 400 500 600

tertinggal maju

ju

m

la

h

status desa

Sinyal Telepon Genggam

tidak ada

ada lemah

ada kuat

0 50 100 150 200 250 300 350 400

tertinggal maju

ju

m

la

h

status desa

Kelompok Pertokoan

tidak ad

ada

0 50 100 150 200 250 300

tertinggal maju

ju

m

la

h

status desa

Pasar Permanen / Semi Permanen

tidak ad

(23)

15

Lampiran 3. Peubah-peubah penjelas setelah dikategori ulang

Kode Peubah

Nama Peubah Kategori

X1 Sumber penghasilan utama sebagian besar penduduk

1.Pertanian

2.Pertambangan dan penggalian Industri pengolahan

Perdagangan besar/eceran, rumah makan

Angkutan, pergudangan, komunikasi

Jasa

Lainnya (gas, listrik, perbankan, dll)

X2 Keluarga pengguna listrik 0.Tidak ada 1.Ada X3 Penerangan jalan utama desa/kelurahan 0.Tidak ada

1.Ada X4 Bahan bakar yang digunakan oleh sebagian

besar keluarga untuk memasak

1.Gas kota/LPG Minyak tanah 2.Kayu bakar

Lainnya (batu bara, arang, dll) X5 Sebagian besar penduduk membuang sampah

ke

1.Tempat sampah kemudian diangkut

2.Dalam lubang/dibakar Sungai

Lainnya X6 Tempat buang air besar sebagian besar keluarga 1.Jamban sendiri

Jamban umum Jamban bersama 2.Bukan jamban

X7 Fasilitas pendidikan

-

X8 Fasilitas keterampilan

-

X9 Fasilitas kesehatan

-

X10 Tenaga kesehatan

-

X11 Jenis permukaan jalan yang terluas 1.Aspal/beton

2.Diperkeras (kerikil, batu, dsb) 3.Tanah

4.Lainnya X12 Keluarga yang berlangganan telepon kabel

-

X13 Sinyal telepon genggam/hand phone/mobile phone di desa/kelurahan ini

1.Tidak ada Ada lemah 2.Ada kuat

X14 Kelompok pertokoan 0.Tidak ada

1.Ada X15 Pasar dengan bangunan permanen/semi

permanen

(24)

16