• Tidak ada hasil yang ditemukan

KLASIFIKASI DATA CURAH HUJAN MENGGUNAKAN REGRESI LOGISTIK DENGAN TEKNIK LASSO, STEPWISE DAN ANALISIS KOMPONEN UTAMA NOFALDI PUTRANTO

N/A
N/A
Protected

Academic year: 2021

Membagikan "KLASIFIKASI DATA CURAH HUJAN MENGGUNAKAN REGRESI LOGISTIK DENGAN TEKNIK LASSO, STEPWISE DAN ANALISIS KOMPONEN UTAMA NOFALDI PUTRANTO"

Copied!
29
0
0

Teks penuh

(1)

1

KLASIFIKASI DATA CURAH HUJAN MENGGUNAKAN REGRESI

LOGISTIK DENGAN TEKNIK LASSO, STEPWISE DAN ANALISIS

KOMPONEN UTAMA

NOFALDI PUTRANTO

DEPARTEMEN STATISTIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

BOGOR 2017

(2)
(3)

3

PERNYATAAN MENGENAI SKRIPSI DAN

SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA

Dengan ini saya menyatakan bahwa skripsi berjudul Klasifikasi Data Curah Hujan Menggunakan Metode Regresi Logistik dengan Teknik Lasso, Stepwise dan Komponen Utama adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.

Bogor, Mei 2017

Nofaldi Putranto

(4)

ABSTRAK

NOFALDI PUTRANTO. Klasifikasi Data Curah Hujan Menggunakan Metode Regresi Logistik dengan Teknik Lasso, Stepwise dan Komponen Utama. Dibimbing oleh PIKA SILVIANTI dan AGUS M SOLEH.

Curah hujan merupakan faktor yang penting dalam bidang pertanian. Curah hujan di Indonesia umumnya sulit untuk diprediksi karena banyak faktor yang mempengaruhi. Oleh karena itu, perlu dibuat klasifikasi curah hujan untuk memperkirakan curah hujan yang akan terjadi. Klasifikasi data curah hujan memiliki peubah penjelas yang banyak dan mengandung multikolinieritas. Pemilihan model dengan menghilangkan beberapa peubah penjelas dapat dilakukan dengan metode stepwise. Klasifikasi untuk data yang mengandung multikolineritas dapat menggunakan analisis komponen utama. Lasso dapat menyusutkan peubah penjelas dan menghilangkan multikolinieritas karena lasso menerapkan kendala L1-norm. Hasil yang didapatkan berdasarkan nilai akurasi menunjukkan akurasi lasso sedikit lebih besar dibandingkan metode stepwise dan analisis komponen utama. Rata-rata akurasi lasso, stepwise dan komponen utama sebesar 61.16%, 59.38% dan 47.94%. Oleh karena itu, Lasso menjadi metode yang paling baik dibandingkan analisis komponen utama dan stepwise dalam mengklasifikasi curah hujan.

Kata kunci: curah hujan, regresi logistik, analisis komponen utama, stepwise, regresi logistik lasso

ABSTRACT

NOFALDI PUTRANTO. Classification of Rainfall Data with Lasso Logistic Regresion Method. Supervised by PIKA SILVIANTI and AGUS M SOLEH.

Rainfall is an important factor in agriculture. Rainfall in Indonesia is changed easily. Therefore, it is necessary to make rainfall classification to estimate the precipitation that will happen. The classification of rainfall data has many explanatory variables and the explanatory variables have multicollinearity. Model selection by removing some explanatory variables can be done by stepwise method. The classification for data with multicolinearity can be using principle component analysis. Lasso can shrink the explanatory variables and eliminate multicollinearity because lasso applies the L1-norm constraint. The results obtained based on the accuracy value indicate lasso accuracy slightly larger than the stepwise method and the principle component analysis. The average lasso accuracy is 61.16%. Meanwhile, the average stepwise accuracy is 47.94% and the principle component 59.38%. Therefore, Lasso is the best method compared to principle component analysis and stepwise in classifying rainfall.

Key words:rainfall,regression logistic, principal component analysis, stepwise, regression logistic lasso.

(5)

5

Skripsi

sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika

pada

Departemen Statistika

KLASIFIKASI DATA CURAH HUJAN MENGGUNAKAN REGRESI

LOGISTIK DENGAN TEKNIK LASSO, STEPWISE DAN ANALISIS

KOMPONEN UTAMA

NOFALDI PUTRANTO

DEPARTEMEN STATISTIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

BOGOR 2017

(6)
(7)

� ama

_ ;JM

Skripsi: Klasifikasj Data Curah Hujan Menggunakan Metode Regresi Logistik dengan Teknik Lasso, Stepwise dan Komponen Utama : Nofaldi Putanto

: 014130073

Disetujui oleh

MSi Dr A us Soleh MT

Pembimbing I Pembimbing II

(8)

PRAKATA

Puji dan syukur penulis panjatkan kepada Allah SWT atas limpahan rahmat dan karunia-Nya sehingga karya ilmiah ini dapat diselesaikan. Tema yang dipilih dalam penelitian ini adalah Klasifikasi Data Curah Hujan Menggunakan Metode Regresi dengan Teknik Logistik Lasso, Stepwise dan Komponen Utama.

Terima kasih penulis ucapkan kepada Ibu Pika Silvianti, MSi dan Bapak Dr Agus M Soleh, MT selaku pembimbing yang telah banyak memberi saran, bimbingan dan waktunya selama penulis menyelesaikan karya ilmiah ini. Ungkapan terima kasih untuk kedua orang tua dan seluruh keluarga yang selalu memberikan motivasi, nasehat dan kasih sayang serta doa untuk penulis. Selain itu penulis ucapkan terima kasih kepada teman-teman statistika 50 IPB, teman sebimbingan, teman Satu divisi kepanitian ISCO dan semua pihak terkait yang tidak dapat penulis sebutkan satu per satu atas bantuan, waktu dan kebersamaannya. Semoga karya ilmiah ini bermanfaat bagi siapapun yang membacanya.

Bogor, April 2017

(9)

v

DAFTAR

ISI

DAFTAR TABEL vi

DAFTAR GAMBAR vi

DAFTAR LAMPIRAN vi

PENDAHULUAN 1

Latar Belakang 1

Tujuan Penelitian 2

TINJAUAN PUSTAKA 2

Curah Hujan 2

Variance Inflaction Factor 2

Model Regresi logistik 3

Akaike’s Information Criteria 5

K-fold Validasi Silang 5

METODOLOGI 6 Data 6

Prosedur Analisis Data 6

HASIL DAN PEMBAHASAN 8

Menghitung Nilai VIF 8

Klasifikasi Peubah Respons 9

Regresi Logistik Lasso 10

Regresi Logistik Stepwise 11

Regresi Logistik Komponen Utama 11

Penentuan Metode Terbaik 12

SIMPULAN 14

DAFTAR PUSTAKA 15

(10)

DAFTAR TABEL

1 Tabel Kontingensi ... 5

2 Hasil kategori curah hujan ... 9

3 Nilai lambda dan MSEP minimum ... 10

4 Persen kumulatif keragaman ... 12

DAFTAR GAMBAR

1 Grid peubah GPCP yang digunakan dalam penelitian 6 2 Banyak peubah penjelas yang berpengaruh pada setiap pos hujan 11

3 Plot scree setiap komponen utama 12

4 Persentase ketepatan setiap model 13

5 Persentase sensitifitas setiap model 13

6 Persentase spesifisitas setiap model 14

DAFTAR LAMPIRAN

1 Nilai VIF setiap peubah penjelas 16

2 Tabel rata-rata curah hujan setiap pos hujan per bulan 17

(11)

1

PENDAHULUAN

Latar Belakang

Curah hujan merupakan faktor yang penting dalam bidang pertanian karena curah hujan dapat menentukan kelangsungan hidup tanaman. Curah hujan di Indonesia dipengaruhi oleh dua musim yaitu musim kemarau dan hujan. Musim di Indonesia dipengaruhi oleh fenomena global El-Nino dan La-Nina. Ketika musim kemarau, curah hujan di Indonesia dipengaruhi oleh El-Nino yang menyebabkan bencana kekeringan. Bencana kekeringan menyebabkan buruknya kualitas panen dan gagal panen. Ketika musim hujan, curah hujan di Indonesia dipengaruhi oleh La-Nina yang mengakibatkan bencana banjir. Bencana banjir tidak hanya merugikan bidang pertanian tapi merugikan bidang kesehatan. Oleh karena itu, penting untuk pembuatan prediksi curah hujan pada suatu daerah untuk mengantisipasi bencana alam yang terjadi akibat curah hujan.

Prediksi data curah hujan dapat dilakukan dengan pemodelan klasifikasi. Pemodelan klasifikasi diusulkan karena berdasarkan penelitian Permatasari et al. (2016) dan Agus M Soleh (2015) tentang statistic downscaling dengan sebaran gamma dan elastic net, pemodelan curah hujan dengan menambahkan dummy klasifikasi akan menghasilkan akurasi yang lebih baik dibandingkan dengan menduga secara langsung dari kovariat. Klasifikasi curah hujan yang dilakukan yaitu membagi curah hujan menjadi curah hujan nonekstrim dan curah hujan ekstrim.

Klasifikasi dapat dilakukan dengan regresi logistik tetapi data curah hujan mempunyai peubah penjelas yang banyak dan mengandung multikolinieritas. Jumlah peubah penjelas yang banyak dapat menyulitkan interpretasi model dan multikolinieritas pada peubah penjelas meningkatkan nilai ragam dari koefisien . Nilai ragam koefisien  yang besar membuat koefisien tidak stabil jika ada data pemodelan klasifikasi baru yang dimasukan kedalam model (Farrar dan Glauber 1967).

Multikolinieritas dapat diatasi dengan metode analisis komponen utama. Analisis komponen utama pertama kali diperkenalkan oleh Pearson pada tahun 1901. Analisis komponen utama bisa digunakan untuk mereduksi dimensi peubah dan mengatasi data multikolinieritas tanpa membuang peubah. Selain itu, jumlah peubah penjelas yang banyak dapat diatasi dengan menghilangkan beberapa peubah penjelas yang tidak berpengaruh terhadap model. Menghilangkan beberapa peubah penjelas dapat dilakukan dengan beberapa metode. Metode yang umum digunakan untuk mengurangi peubah adalah metode stepwise.

Tibshirani menemukan metode yang bukan hanya mengatasi multikolinieritas tapi juga mengurangi jumlah peubah. Metode ini disebut Lasso (least absolute shrinkage and selection operator). Lasso menambahkan kendala L1-norm(|  | ≤ t) di dalam model regresi untuk menjaga nilai ragam koefisien (β) tidak membesar (Tibshirani 1996).

Klasifikasi data curah hujan yang memiliki masalah peubah respons bersifat kategorik, banyak peubah penjelas, dan multikolinieritas tidak dapat diselesaikan dengan regresi linier biasa tetapi menggunakan regresi logistik dengan menggunakan salah satu dari metode lasso, analisis komponen dan

(12)

stepwise. Oleh karena itu, menarik untuk diteliti metode yang dapat

mengoptimalkan nilai akurasi klasifikasi data curah hujan tersebut.

Tujuan Penelitian

Tujuan dari penelitian ini adalah membandingkan metode regresi logistik lasso, regresi logistik komponen utama dan regresi logistik stepwise yang mengoptimalkan nilai akurasi klasifikasi data curah hujan.

TINJAUAN PUSTAKA

Curah Hujan

Curah hujan adalah ketinggian air hujan yang jatuh pada tempat yang datar dengan asumsi tidak menguap, tidak meresap dan tidak mengalir. Curah hujan dihitung dalam satuan millimeter. Curah hujan 1 (satu) mm adalah air hujan setinggi 1 (satu) mm yang jatuh atau tertampung pada tempat yang datar seluas 1m2 dengan asumsi tidak ada yang menguap, mengalir dan meresap (BMKG 2011).

Menurut Badan Meteorologi Klimatologi dan Geofisika (BMKG) menyatakan curah hujan sifat curah hujan dibagi menjadi 3 yaitu :

1. Atas Normal (AN) , jika nilai perbandingannya lebih besar dari 115% dari rata-ratanya

2. Normal (N), jika nilai perbandingannya antara 85% sampai 115% dari rata-ratanya

3. Bawah Normal (BN), jika nilai perbandingannya kurang dari 85% dari rata-ratanya

Curah hujan dikatakan ekstrim jika termasuk atas normal dan normal. Curah hujan dikatakan rendah jika termasuk bawah normal.

Variance Inflaction Factor

Variance Inflaction Factor mengindikasikan seberapa besar keragaman

koefisien regresi bertambah yang disebabkan oleh multikolinieritas. VIF adalah cara yang paling baik untuk mengukur besarnya multikolinieritas pada satu peubah penjelas dengan peubah penjelas lainnya. Multikolinieritas terjadi saat nilai VIF lebih besar dari pada satu tetapi multikolinieritas serius terjadi saat nilai VIF lebih besar dari pada 10 (O’brien 2007). Rumus VIF dapat ditulis sebagai berikut :

 

 (1)

Keterangan :

 : nilai R2 saat peubah penjelas ke-j diregresikan dengan peubah penjelas

(13)

3

Model Regresi logistik

Model regresi logistik adalah suatu model analisis statistika yang mendeskripsikan hubungan antara peubah respons yang memiliki dua kategori atau lebih dengan satu atau lebih peubah penjelas berskala kategori atau interval (Hosmer dan Lemeshow 2000).

Fungsi logit dapat di tulis sebagai berikut :

        (2) sehingga,

π(x) =  (3)

Pendekatan model regresi logistik dapat mentranformasi hubungan antara peubah penjelas dan peubah respons yang bersifat tidak linear menggunakan fungsi hubung yang disebut logit. Jika sebelumnya nilai dari model persamaan regresi antara - sampai , maka fungsi hubung logit dapat mentrasformasi nilai tersebut menjadi 0 sampai 1.

Regresi Logistik dengan Teknik Lasso

Lasso adalah salah satu teknik regresi penyusutan peubah penjelas. Lasso dapat digunakan untuk mengatasi masalah pada data multikolinieritas. Lasso menyusutkan koefisien (parameter β) yang berkorelasi menjadi nol atau mendekati nol. Sehingga menghasilkan ragam parameter β yang lebih kecil dan model yang mudah diinterpretasikan dibandingkan dengan regesi linier biasa (Tibshirani 1996).

Kendala Lagrangian (L1-norm) dapat digabungkan dalam pendugaan parameter log-likelihood pada regresi logistik. pendugaan parameter pada lasso adalah sebagai berikut (Hastie et al. 2015):

  

 (4)

Persamaan likelihood seperti berikut :                              (5)

Persamaan gabungan log-likelihood untuk vektor  adalah:          

(14)

                                (6)

Persamaan gabungan antara log-likelihood dengan kendala Lagrangian menghasilkan persamaan sebagai berikut :

      

     

     (7)

 adalah nilai bias yang diatur dalam metode lasso. Nilai  harus lebih besar dari pada nol. Nilai koefisien regresi dikontrol dengan batasan        dan

  . Nilai  didapatkan dari beberapa metode seperti cross-validation dan

generalized cross-validation (Tibshirani 1996).

Kendala Lagrangian (L1-norm) dapat digabungkan dalam pendugaan parameter log-likelihood pada regresi logistik.

Regresi Logistik Stepwise

Regresi logistik stepwise berfungsi untuk memilih dan mengurangi peubah dengan cara memeriksa kepentingan dari peubah penjelas (Hosmer dan Lemeshow 2000). Kepentingan peubah penjelas diindikasikan dengan nilai AIC (Akaike Information Criteria) terkecil. Regresi logistik stepwise juga mempertimbangkan korelasi antara peubah penjelas dengan peubah respons.

Analisis Komponen Utama

Analisis komponen utama adalah analisis yang memproses data dengan mengurangi dimensi dari data tersebut (Jolliffe 1986). Analisis komponen utama mengurutkan kombinasi linier dari peubah penjelas yang mempunyai keragaman paling tinggi ke rendah. X adalah data yang berukuran n x p matriks dimana n dan

p adalah jumlah observasi dan jumlah peubah.

X=UDVT (8)

Z = UD adalah komponen utama, dan kolom dari V adalah beban koresponsding dari komponen utama. U disebut juga sebagai eigen-arrays dan V adalah eigen-genes (Zou et al. 2006). Analisis komponen utama dapat mengatasi multikolinieritas karena menghasilkan komponen yang tidak saling berkolerasi dan ortoghonal.

Akurasi, Sensitifitas dan Spesifisitas

Sensitifitas adalah menghitung proporsi positif yang diklasifikasikan dengan benar seperti kemampuan suatu alat menduga seseorang memiliki penyakit kangker payudara. Spesifisitas adalah menghitung proporsi negatif yang diklasifikasikan dengan benar seperti kemampuan suatu alat menduga seseorang tidak terkena kangker payudara (Agresti 2002).

(15)

5

Tabel 1 Tabel Kontingensi

Predicted Class

Actual Class

0 1 0 True Positive (TP) False Positive (FP)

1 False Negative (FN) True Negative (TN)

   (9)    (10)    (11)

TP : Jumlah mengklasifikasikan hal positif dengan benar FP : Jumlah mengklasifikasikan hal positif tetapi salah FN : Jumlah mengklasifikasikan hal negatif tetapi salah TN : Jumlah mengklasifikasikan hal negative dengan benar

Akaike’s Information Criteria

Akaike’s Information Criteria adalah cara paling umum untuk mencari

informasi kriteria dari suatu model (Acqua 2009). Model terbaik adalah model yang dapat meminimumkan nilai AIC. Persamaan AIC dapat di tulis sebagai berikut:

        (12) Keterangan :

L = persamaan likelihood P = jumlah dari parameter

AIC bertujuan mencari model terbaik untuk model yang menggunakan fungsi kemungkinan maksimum likelihood dalam menduga parameternya.

K-fold Validasi Silang

Validasi silang adalah teknik untuk mengevaluasi hasil statistik dengan cara membagi data menjadi 2 bagian yaitu data latih dan data uji. K-fold validasi silang membagi data menjadi K bagian dengan jumlah yang sama. Data ke K adalah data yang akan diuji. Data bagian 1 sampai bagian K-1 adalah data contoh (Stone 1974). Rumus validasi silang sebagai berikut :

  

 

(16)

Validasi silang terbaik adalah validasi silang yang memiliki nilai terkecil.

METODOLOGI

Data

Peubah penjelas adalah presipitasi bulanan dari tahun 1981 sampai 2014 yang didapatkan dari keluaran GPCP (Global precipitation climatology project). Keluaran GPCP yang digunakan dalam bentuk grid sebesar 7x7 (49 peubah penjelas) pada kordinat 101.250-116.250 BT dan 13.750 LS-1.250 LU dengan lebar 2.50 x 2.50 dapat dilihat pada Gambar 1( Soleh et al. 2015).

Gambar 1 Grid peubah GPCP yang digunakan dalam penelitian

Peubah respons adalah curah hujan bulanan dari tahun 1981 sampai 2014 di kabupaten Indramayu. Curah hujan di Kabupaten Indramayu dibagi menjadi 11 pos hujan. Kesebelas pos hujan tersebut dibagi ke dalam tiga zona musim (ZOM) yaitu ZOM 77,78, dan 79. ZOM 77 yang terdiri dari pos hujan Karang Anyar, Pusakanegara dan Tulang Kacang. ZOM 78 terdiri dari pos hujan Dempet, Indramayu, Juntinyuat dan Losarang. ZOM 79 pos hujan terdiri Gegesik, Karang kendal, Krangken dan Sukandana.

Prosedur Analisis Data

Analisis dalam penelitian ini dibantu dengan software R x64 3.1.2 menggunakan package “glmnet”. Tahapan analisis yang dilakukan pada masing-masing data dalam penelitian ini adalah sebagai berikut:

1. Melakukan praproses data, yaitu merapikan bentuk data agar sesuai dengan software yang digunakan.

2. Menghitung nilai VIF

3. Melakukan pengklasifikasian pada peubah respons. Data bernilai 1 apabila nilai curah hujan termasuk curah hujan ekstrim dan data bernilai

(17)

7

0 jika data curah hujan non ekstrim. Penentuan curah hujan ekstrim dapat dilakukan sebagai berikut :

a) Merata-ratakan nilai curah hujan setiap bulan pada setiap pos hujan

b) Nilai curah hujan dibagi dengan rata-rata nilai curah hujan setiap bulan pada setiap pos

c) Apabila nilai pembagian curah hujan pada butir b lebih besar dari 85% maka nilai curah hujan tersebut termasuk curah hujan ekstrim. Jika nilai pembagian butir b lebih kecil dari pada 85% maka data curah hujan non ekstrim

4. Mencari nilai lambda minimum menggunakan validasi silang. Langkah validasi silang dapat dijelaskan sebagai berikut :

a) Menentukan nilai lambda awal yang akan digunakan pada validasi silang

b) Membagi data menjadi 10 bagian dengan jumlah yang sama. Data ke 10 adalah data yang akan diuji. Data bagian 1 sampai bagian 9 adalah data contoh

c) melakukan regresi logistik lasso menggunakan data bagian 1 sampai 9

d) menduga data pada bagian 10 dengan menggunakan model yang di dapat dari bagian 1 sampai 9

e) Menghitung nilai Mean Square Error Prediction (MSEP) dengan rumus berikut :

   

 

 (14)

f) Mengulang langkah a sampai e hingga semua bagian data menjadi data uji

g) Mencari nilai terkecil dengan rumus validasi silang (gunakan persamaan 9)

h) Menyimpan validasi silang yang dihasilkan dari nilai lambda tersebut

i) Mengulang langkah a sampai h dengan nilai lambda yang berbeda

j) Memilih nilai lambda yang memiliki nilai validasi silang terkecil

5. Memodelkan 11 pos hujan dengan metode stepwise, analisis komponen utama dan regresi logistik lasso

a) Model regresi logistik lasso sebagai berikut :

              (15) b) Metode stepwise dapat dilakukan dengan langkah-langkah yang

sudah dijelaskan pada tinjauan pustaka. Tahap melakukan regresi stepwise menurut Rawlings, Pantula dan Dickey sebagai berikut :

i. Mengkorelasikan semua peubah penjelas kepeubah respons

ii. Memilih peubah penjelas yang memiliki korelasi tertinggi dan masukan ke dalam model

(18)

iii. Menghitung nilai AIC

iv. Memilih peubah penjelas yang memiliki korelasi tertinggi kedua dan masukan ke dalam model

v. Menghitung kembali nilai AIC-nya.

vi. Jika nilai AIC pada langkah 5 lebih kecil dari pada AIC pada langkah 3 maka masukan peubah penjelas tersebut kedalam model

vii. Ulangi langkah ini sampai semua peubah penjelas teruji c) Analisi komponen utama dapat dilakukan dengan

langkah-langkah sebagai berikut (Johnson et al. 2007) :

i. Peubah penjelas digabungkan menjadi suatu matriks X ii. Mencari matriks ragam dari X yang disimpan pada

matriks H

iii. Mencari akar ciri () dengan rumus berikut :      (16)

iv. Mencari vektor ciri (V) dengan rumus berikut :       (17)

v. Mencari nilai kontribusi dengan rumus berikut :    



 



vi. Metode pemilihan komponen utama ada 3 yaitu : • Pilih akar ciri sampai persentasi kontribusinya

70% ,80% atau 90%

• Pilih nilai akar ciri yang nilainya lebih besar dari pada 1

• Menggunakan plot scree. Pilih akar ciri ke K yang plotnya curam ke kiri namun landai ke kanan

vii. Mentransformasikan peubah penjelas dengan vektor ciri seperti persamaan berikut :

        (19)

viii. Meregresikan peubah respons dengan nilai Z yang sudah ditransformasikan

ix. Mentransformasikan kembali hasil regresi di langkah vi

6. Membandingkan model yang terbaik untuk setiap metode di setiap daerah dengan menghitung masing-masing persen ketepatan dari model tersebut. Model terbaik adalah model yang memiliki nilai ketepatan terbesar.

HASIL DAN PEMBAHASAN

Menghitung Nilai VIF

Peubah penjelas adalah presipitasi yang terjadi pada koordinat yang berdekatan. Peubah penjelas memiliki kemungkinan besar untuk saling

(19)

9

mempengaruhi (multikolinieritas). Oleh karena itu, Nilai VIF perlu dihitung untuk memeriksa multikolinieritas.

Lampiran 1 menyajikan 36 peubah penjelas memiliki nilai VIF lebih besar dari pada 10. Multikolinieritas serius terjadi saat nilai VIF lebih besar dari pada 10 (O’brien 2007). Multikolinieritas serius menyebabkan ragam koefisien  yang didapatkan dari regresi logistik biasa bernilai sangat besar. Ragam koefisien  yang besar menyebabkan koefisien β tidak stabil jika ada data pemodelan klasifikasi yang baru. Dapat disimpulkan, regresi logistik biasa tidak dapat digunakan untuk menduga curah hujan Kabupaten Indramayu.

Klasifikasi Peubah Respons

Klasifikasi peubah respons dilakukan dengan cara menghitung rata-rata curah hujan dari setiap daerah per bulan. Lampiran 2 menyajikan rata-rata curah hujan dari setiap daerah perbulan.

Lampiran 2 menyajikan daerah dengan curah hujan terkecil dibandingkan dengan ZOM lainnya adalah ZOM 77. Pusakanegara menjadi pos hujan dengan curah hujan terkecil pada ZOM 77. ZOM 79 menjadi daerah curah hujan tertinggi. Gegesik adalah pos hujan dengan curah hujan tertinggi pada ZOM 79 tapi secara keseluruhan Indramayu menjadi pos hujan dengan curah hujan tertinggi.

Curah hujan dari 3 ZOM tersebut memiliki pola yang cukup jelas. Januari menjadi bulan yang memiliki curah hujan tertinggi dibandingkan dengan bulan lainnya dan Agustus menjadi bulan terendah pada setiap pos hujan. Oleh karena itu, Januari menjadi puncak musim hujan di Indonesia dan Agustus menjadi puncaknya musim kemarau di Indonesia.

Tabel 2 Hasil kategori curah hujan

Pos Hujan Kurang dari 85% Lebih dari 85% 

Karang Anyar 56% 44%  Pusakanegara 57% 43%  Tulang Kacang 60% 40%  Dempet 53% 47%   Indramayu 54% 46%  Juntinyuat 52% 48%  Losarang 55% 45%  Gegesik 49% 51%  Karangkendal 49% 51%  Krangken 52% 48%  Sukandana 49% 51%  

Kategori curah hujan dilakukan pada peubah respons. Peubah respons adalah curah hujan pada 11 pos hujan berbeda yang diambil setiap bulan dari tahun 1981 sampai 2014.

Curah hujan yang memiliki nilai lebih dari 85% dikategorikan 1 (curah hujan ekstrim) dan curah hujan yang memiliki nilai kurang dari 85% dikategorikan 0 (curah hujan non ekstrim). Tabel 2 menampilkan hasil kategori curah hujan setiap daerah.

(20)

Tabel 2 menyajikan curah hujan ekstrim lebih sering terjadi pada daerah Sukandana, Karangkendal dan Gegesik dibandingkan dengan pos hujan lainnya. Curah hujan non ekstrim lebih sering terjadi pada daerah Tulang Kacang dibandingkan dengan pos hujan lainnya.

Regresi Logistik Lasso

Regresi logistik lasso tidak seperti pada regresi logistik pada umumnya karena regresi logistik lasso membutuhkan nilai lambda untuk mengatur penyusutan nilai koefisien peubah penjelas. Lambda diperoleh dengan metode validasi silang. Tabel 2 menunjukkan nilai lambda dan MSEP minimum yang dihasilkan dari ke 11 model.

Tabel 3 Nilai lambda dan MSEP minimum Pos hujan Lambda MSEP Karang Anyar 0.02 1.31 Pusakanegara 0.01 1.3 Tulang Kacang 0.01 1.3 Dempet 0.02 1.31 Indramayu 0.01 1.23 Juntinyuat 0.01 1.28 Losarang 0.01 1.29 Gegesik 0.02 1.29 Karangkendal 0.02 1.32 Krangken 0.01 1.3 Sukandana 0.02 1.3

Nilai lambda mendekati nol maka model regresi logistik lasso tidak akan jauh berbeda dengan regresi logistik biasa dan Nilai lambda semakin besar maka lebih banyak nilai koefisien peubah penjelas yang akan dikecilkan atau dihilangkan (Tibshirani 1996). Berdasarkan Tabel 3, model pada pos hujan Pusakanegara memiliki nilai lambda terkecil dengan nilai 0.0080 dan pos hujan Gegesik memiliki nilai lambda terbesar dengan nilai 0.0255. Oleh karena itu, model pos hujan Pusakanegara hasilnya akan mendekati regresi logistik biasa dan pos hujan Gegesik memiliki model penyusutan terbesar.

Pemodelan lasso dari masing-masing model pos hujan akan didapatkan nilai Mean Square Error Prediction (MSEP) yang berbeda tiap model. MSEP menunjukkan besarnya error yang dihasilkan model dalam memprediksi observasi baru yang muncul. Nilai MSEP terkecil menunjukkan model yang paling tepat memprediksi observasi baru yang muncul.

Tabel 3 menyajikan model pos hujan Indramayu memiliki nilai MSEP terkecil yaitu 1,23. Oleh karena itu, model pos hujan Indramayu dapat dikatakan model regresi logistik lasso terbaik dibandingkan dengan model pos hujan lainnya.

(21)

11

Regresi Logistik Stepwise

Salah satu cara yang dilakukan dalam metode stepwise adalah dengan menguji secara parsial peubah yang masuk ke dalam model regresi. Peubah pertama yang masuk ke dalam model regresi stepwise merupakan peubah penjelas yang memiliki nilai korelasi yang paling besar dengan peubah respons. Selanjutnya, menghitung nilai AIC (Akaike Information Criterion) untuk melihat apakah penambahan peubah tersebut ke dalam model membuat model semakin baik. Setiap pos hujan memiliki nilai korelasi yang berbeda dengan nilai peubah penjelasnya. Oleh karena itu, setiap model stepwise akan menggunakan peubah penjelas yang berbeda.

Gambar 2 Banyak peubah penjelas yang berpengaruh pada setiap pos hujan

Gambar 2 menunjukkan ada 2 pos hujan yang paling banyak dipengaruhi oleh peubah penjelas yaitu pos hujan Pusakanegara dan Indramayu. Oleh karena itu, curah hujan di pos hujan Pusakanegara dan Indramayu sangat dipengaruhi oleh presipitasi sekitarnya. Pos hujan Gegesik memiliki peubah penjelas paling sedikit. Dapat disimpulkan, curah hujan di pos hujan Gegesik tidak terlalu dipengaruhi oleh presipitasi sekitarnya.

Regresi Logistik Komponen Utama

Tujuan utama analisis komponen utama adalah merubah matriks peubah penjelas yang tidak dapat dihasilkan matriks kebalikannya menjadi matriks orthogonal yang dapat dihasilkan matriks kebalikannya. 49 stasiun hujan yang menjadi peubah penjelas akan dihasilkan 49 komponen utama yang berbeda dan 49 akar ciri tapi tidak semua komponen utama digunakan untuk melakukan regresi logistik komponen utama.

0 2 4 6 8 10 12 14 16

(22)

Gambar 3 Plot scree setiap komponen utama

Gambar 3 menunjukkan hanya sampai komponen ketiga yang akan digunakan untuk melakukan regresi komponen utama karena pada komponen utama ketiga grafik terlihat curam ke kiri dan landai ke kanan. Cara lain untuk menentukan komponen utama yang digunakan adalah melihat persen proporsi keragamannya. Komponen utama yang dipilih adalah komponen utama yang membuat persen kumulatif keragaman totalnya mencapai 70% Karena setelah persen kumulatif keragaman totalnya mencapai angka 70% pertambahan keragamannya tidak terlalu besar.

Tabel 4 Persen kumulatif keragaman

Komponen utama Persen keragaman Persen kumulatif keragaman

PC1 48% 48%

PC2 21% 69%

PC3 7% 76%

PC4 4% 81%

PC5 3% 84%

Berdasarkan Tabel 4 ada 3 komponen utama yang memenuhi criteria persen kumulatif sebesar 70%. Oleh karena itu, komponen utama yang akan digunakan untuk regresi komponen utama hanya 3 komponen awal. Persen keragaman 49 komponen utama ditampilkan pada Lampiran 3.

Penentuan Metode Terbaik

Penentuan model terbaik dilakukan dengan membagi data menjadi 10 bagian. Selanjutnya, satu bagian data dijadikan data testing dan sembilan bagian data menjadi data contoh. Data contoh kemudian dimodelkan menggunakan regresi logistik lasso, regresi logistik komponen dan regresi logistik stepwise. Data testing dimodelkan menggunakan model yang diperoleh dari model data contoh. Selanjutnya persentase ketepatan prediksi model dihitung dan semua langkah tersebut dilakukan sampai semua bagian data menjadi data testing.

0 0.1 0.2 0.3 0.4 0.5 0.6 PC1 PC3 PC5 PC7 PC9 PC1 1 PC13 PC15 PC17 PC19 PC21 PC23 PC25 PC27 PC29 PC31 PC33 PC35 PC37 PC39 PC41 PC43 PC45 PC47 PC49 Pr

(23)

13 0 10 20 30 40 50 60 70 80 90 100

Sensitifitas Lasso Sensitifitas Komponen utama Sensitifitas Stepwise

Gambar 4 Persentase ketepatan setiap model

Gambar 4 dapat disimpulkan bahwa regresi logistik lasso memiliki ketepatan sedikit lebih baik pada data 11 pos hujan dibandingkan dengan metode komponen utama dan stepwise. Regresi logistik lasso dapat mengatasi multikolinieritas dan dapat menyeleksi beberapa peubah penjelas yang tidak diperlukan.

Model terbaik ke dua pada Gambar 4 adalah regresi logistik stepwise. Regresi logistik stepwise memiliki ketepatan lebih baik pada data 11 pos hujan dibandingkan regresi logistik komponen utama. Dapat disimpulkan, metode pemilihan peubah penjelas yang menggunakan AIC lebih baik digunakan untuk menduga curah hujan dibandingkan dengan metode mengatasi multikolinieritas yang mengunakan komponen utama dari peubah penjelas.

Gambar 5 Persentase sensitifitas setiap model

          

(24)

Gambar 6 Persentase spesifisitas setiap model

Gambar 5 menunjukkan regresi logistik komponen utama memiliki sensitifitas paling baik dibandingkan dengan metode lasso dan stepwise pada data 11 pos hujan. Oleh karena itu, regresi komponen utama memiliki ketepatan yang paling baik dalam menduga curah hujan ekstrim dibandingkan dengan kedua metode lainnya. Gambar 6 menunjukkan lasso memiliki spesifisitas yang paling baik dibandingkan dengan metode stepwise dan komponen utama pada data 11 pos hujan. Dapat disimpulkan, lasso memiliki ketepatan yang paling baik dalam menduga curah hujan non ekstrim dibandingkan dengan kedua metode lainnya.

SIMPULAN

Klasifikasi data curah hujan memiliki masalah peubah penjelas yang besar, peubah respons yang berbentuk kategorik dan peubah penjelas yang saling berpengaruh. Terdapat beberapa metode untuk mengatasi masalah tersebut yaitu metode regresi logistik lasso, metode regresi logistik komponen utama, dan metode regresi logistik stepwise. Metode terbaik dalam mengatasi klasifikasi data curah hujan adalah metode yang menghasilkan ketepatan tertinggi. Regresi logistik lasso menghasilkan ketepatan dan spesifisitas paling tinggi untuk menduga data curah hujan dibandingkan metode komponen utama dan metode

stepwise karena kendala L1-norm membuat regresi logistik lasso dapat menyeleksi

peubah dan mengatasi multikolinieritas. Spesifisitas paling tinggi menunjukkan lasso dapat menduga curah hujan non ekstrim paling baik dibandingkan dengan dua metode lainnya. Sensitifitas terbaik menunjukkan komponen utama dapat menduga nilai curah hujan ekstrim paling baik dibandingkan metode regresi logistik stepwise dan lasso. Walaupun regresi logistik komponen utama memiliki sensitifitas paling tinggi, regresi logistik lasso tetap menjadi metode terbaik dalam mengklasifikasikan data curah hujan dibandingkan dengan metode stepwise dan komponen utama karena memiliki ketepatan tertinggi.

0 10 20 30 40 50 60 70 80 90 100

(25)

15

DAFTAR PUSTAKA

Acqua HG. 2009.Comparison of Akaike Information Criterion and Bayesian

Information Criterion in Selection of an Asymmetric Price Relationship. Journal of Development and Agricultural Economics 2(1): 1-6.

Agresti L. 2002. Categorical Data Analysis. New Jersey (US) : Wiley.

[BMKG] Badan Meteorologi Klimatologi dan Geofisika. 2011. Analisis hujan bulan Januari 2011 dan prakiraan hujan bulan Maret, April dan Mei 2011 Propinsi Banten dan DKI Jakarta. Tangerang (ID):BMKG.

Farrar DE, Glauber RR. 1967. Multicollinierity in Regression Analysis: The Problem Revisited. Journal of the Royal Statistical Society 49(1):92–107. Hastie T, Thibsirani R, Wainwright M. 2015. Statistical Learning with Sparsity :

The Lasso and Generalizations. New Jersey (US) : CRC Press.

Hosmer DW, Lemeshow S. 2000. Applied Logistic Regression. New York (US) : Wiley Interscience.

Johnson R, Wichern D. 2007. Applied Multivariate Statistical Analysis. New Jersey (US) : Pearson Education.

Jolliffe I. 1986. Principal Component Analysis. New York (US): Springer Verlag. O’brien RM. 2007. A Caution Regarding Rules of Thumb for Variance Inflation

Factors. Journal of Quality & Quantity 41(5): 673-690.

Permatasari SM, Djuraidah A, Soleh AM. 2016. Statistical Downscalling with Gamma Distribution and Elastic Net Regularization. Proceeding of The 2nd

International Conference on Applied Statistics 2016: 128-136.

Rawlings JO, Pantula S.G, Dickey D.A. 1998. Applied Regression Analysis : A

Reserch Tool. New Jersey (US) : Springer.

Stone M. 1974. Cross-validatory choice and assessment of statistical predictions.

Journal of the Royal Statistical Society 36(1):111–147.

Soleh AM, Wigena AH, Djuraidah A, Saefuddin A. 2015. Pemodelan statistical downscaling untuk menduga curah hujan bulanan menggunakan model linier terampat sebaran gamma. Informatika Pertanian 24 (2) : 215-222. Tibshirani R. 1996. Regression shrinkage and selection via the LASSO. Journal

of the Royal Statistical Society 58(1): 267-288.

Zou H, Tibshirani R, Hastie T. 2006. Sparse Principal Component Analysis.

(26)

Lampiran 1 Nilai VIF setiap peubah penjelas Peubah Penjelas VIF Peubah Penjelas VIF X1 17.49 X26 26.09 X2 22.55 X27 15.81 X3 8.79 X28 7.89 X4 12.51 X29 24.8 X5 7.52 X30 32.96 X6 7.74 X31 56.11 X7 7.43 X32 47.75 X8 40.16 X33 19.07 X9 37.46 X34 10.76 X10 42.17 X35 13.57 X11 9.86 X36 36.21 X12 12.78 X37 53.59 X13 6.3 X38 50.59 X14 8.37 X39 17.84 X15 26.11 X40 7.22 X16 32.23 X41 11.72 X17 38.07 X42 13.1 X18 25.7 X43 22.75 X19 27.63 X44 39.69 X20 14.21 X45 21.52 X21 5.99 X46 6.67 X22 16 X47 7.2 X23 18.61 X48 11.02 X24 28.11 X49 9.5 X25 40.25

(27)

17

(28)

Lampiran 3 Tabel seluruh komponen utama Komponen utama Proporsi ragam Proporsi Kumulatif dari ragam Komponen utama Proporsi ragam Proporsi Kumulatif dari ragam PC1 0.47686 0.47686 PC26 0.00168 0.98326 PC2 0.22145 0.69831 PC27 0.00151 0.98478 PC3 0.0674 0.76571 PC28 0.00134 0.98612 PC4 0.04589 0.8116 PC29 0.00131 0.98743 PC5 0.0356 0.8472 PC30 0.0012 0.98863 PC6 0.02221 0.86941 PC31 0.00111 0.98974 PC7 0.01601 0.88542 PC32 0.0011 0.99083 PC8 0.01495 0.90037 PC33 0.00099 0.99182 PC9 0.01382 0.91418 PC34 0.00095 0.99277 PC10 0.00977 0.92396 PC35 0.00087 0.99364 PC11 0.00855 0.9325 PC36 0.00076 0.9944 PC12 0.00739 0.93989 PC37 0.00075 0.99515 PC13 0.00591 0.94581 PC38 0.00064 0.99579 PC14 0.00532 0.95113 PC39 0.00061 0.9964 PC15 0.004 0.95512 PC40 0.00054 0.99694 PC16 0.0039 0.95902 PC41 0.00053 0.99747 PC17 0.00357 0.96259 PC42 0.00048 0.99795 PC18 0.00331 0.96591 PC43 0.00045 0.9984 PC19 0.00313 0.96903 PC44 0.00041 0.99881 PC20 0.00255 0.97159 PC45 0.00031 0.99912 PC21 0.00237 0.97395 PC46 0.00027 0.99939 PC22 0.00217 0.97612 PC47 0.00022 0.99962 PC23 0.00192 0.97804 PC48 0.00021 0.99983 PC24 0.00184 0.97988 PC49 0.00017 1 PC25 0.0017 0.98158

(29)

19

RIWAYAT HIDUP

Penulis dilahirkan di Jakarta pada tanggal 21 November 1995 dari ayah Nus Sosianto dan ibu Julita Widjayanti. Penulis adalah anak kedua dari dua bersaudara. Penulis menyelesaikan pendidikan dasar di SD Al-azhar pada tahun 2007, pendidikan menengah pertama di SMP Al-azhar BSD pada tahun 2010 dan pendidikan menengah atas di SMA Negeri 3 Tangerang Selatan pada tahun 2013. Kemudian pada tahun yang sama penulis lulus seleksi masuk Institut Pertanian Bogor (IPB) melalui jalur SBMPTN dan diterima di Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam.

Selama menjadi mahasiswa, penulis aktif di dalam kampus. Penulis aktif di Himpunan Keprofesian Gamma Sigma Beta (GSB) sebagai staff divisi HRD tahun 2015 dan ketua divisi HRD periode tahun 2016. Penulis juga aktif terlibat dalam berbagai kepanitiaan seperti kepala divisi Logstran 1’St Indonesian statistic Olympiad (ISCO) tahun 2015, ketua plaksana Welcome Ceromony Statistic (WCS) tahun 2016 serta staff Humas acara PSN sub acara Statistika tahun 2016. Penulis juga pernah menjadi Asisten Mata Kuliah Analisis Dasar Kategorik pada tahun ajaran 2016/2017. Bulan Juli-Agustus 2016 penulis melaksanakan Praktik Lapang di Pusat Penelitian Kependudukan (P2K) LIPI.

Gambar

Gambar 1 Grid peubah GPCP yang digunakan dalam penelitian
Tabel  2 Hasil kategori curah hujan
Tabel 2 menyajikan curah hujan ekstrim lebih sering terjadi pada daerah  Sukandana, Karangkendal dan Gegesik dibandingkan dengan pos hujan lainnya
Gambar 2 Banyak peubah penjelas yang berpengaruh pada setiap pos hujan
+3

Referensi

Dokumen terkait

komponen utama sehingga akan diperoleh persamaan regresi linier berganda dari data.. tersebut yang terbaik dan tidak memiiki

Berdasarkan grafik perbandingan nilai observasi dan nilai prakiraan curah hujan pada ketiga domain yang terdapat pada Gambar (4) terlihat hasil prakiraan dengan metode

Selain itu, Budiman dan Akhlakulkarimah pada tahun 2016 juga telah melalukan penelitian prediksi curah hujan menggunakan metode regresi linier berganda dengan

Pada pendugaan koefisien regresi secara parsial (Tabel 2), dari semua peubah bebas yang masuk ke dalam model, persentase rumah tangga menurut provinsi dengan KRT

Penentuan Faktor Cuaca yang Berpengaruh Terhadap Curah Hujan dengan Metode Regresi Linier Berganda dan Metode Algoritma Genetika Studi Kasus : Kota Tanjungpinang, Skripsi..