1
BAB I
PENDAH ULU AN
1.1. Latar Belakang
Analisis regresi m erupakan salah satu analisis statistika ya ng digunakan untuk m enentukan hubungan sebab-akibat antara satu variabe l denga n variabel-variabel lainnya, sehingga salah satu variabe l bisa diram alkan dari varia bel lainnya.Pada analisis regre si terdiri dua jenis variabel, yaitu varia bel bebas (variabel inde penden) dan variabel tak bebas (variabel de penden).Variabe l b ebas (variabe l inde penden) adalah variabe l yang m em pengaruhi atau yang m enjadi seba b peruba han atau tim bulnya variabel tak be bas, sedangkan variabel tak bebas (variabel de penden) adalah variabel yang dipengaruhi atau yang m enjadi akiba t adanya variabel bebas.Analisis regresi adala h sa lah sa tu ana lisis yang paling popular dan luas pem akaiannya.Ham pir sem ua bida ng ilm u yang m em erlukan analisis sebab -akibat boleh dipastika n m engguna kan analisis ini.
Analisis regresi binari adalah sua tu analisis regresi di m ana variabel responnya berskala biner/dikotom us dengan variabel prediktor berska la kontinu, dikotom us, ataupun polikotom us.Variabel dikotom us ada lah variabel yang m em iliki 2 kem ungkinan (sukses a tau gagal).Biasanya analisis regresi binari dim odelkan de ngan m enggunaka n analisis regresi logistik. Dalam regresi logistik ini diharuskan m em enuhi asum si-asum si yang ada seperti halnya dalam regresi OLS ( Ordinary Least Square) sehingga na ntinya estim asi param eter yang dihasilkan aka n m em enuhi
kriteria Best, Linear, Unbiased Estim ator (BLUE). Nam un regresi logistik ini sangatlah peka terhadap asum si-asum si yang sudah ada, sehingga kalau ada salah satu asum si yang tidak terpenuhi, m aka regresi ini kurang cocok dig una kan karena dapat m enghasilkan kesim pulan yang bias. Salah satu asum si yang seringka li tidak terpenuhi adala h adanya data dalam variabel inde penden yang m engandung penc ilan
(outlier). Data pencilan ini na ntinya aka n m enga kiba tkan heteroskedastisitas pada data, di m ana variansi gala t akan berubah-ubah (tidak konstan).
Jika da ta m engandung pencilan (outlier), m aka data tidak lagi berbentuk sim etris se hingga nilai mean kurang tepa t digunakan karena tidak dapat m ewakili keseluruhan dari da ta. Terkadang untuk m engatasi hal tersebut, pene liti akan m elakukan transform asi terhadap data dengan m aksud agar asum si terpenuhi. Nam un seringkali asum si tersebut m asih belum terpenuhi m eskipun tela h dilakukan transform asi yang pa da akhirnya m engakibatkan estim asi param eter yang dihasilkan tetap bias.
Dengan adanya fenom ena tersebut, m aka berkem banglah m etode regresi binari kuantil yang tidak m em butuhkan asum si gala t dalam m ode l dan e stim atornya bersifat tegar (robust) terhada p penc ilan ( outlier) pada varia bel indepe nden.M etode regresi binari kuantil ini m erupa kan perluasan dari m etode regresi kuantil yang variabel responnya berska la dikotom us.Pendekatan regresi kua ntil yaitu dengan m em isahkan atau m em bagi data yang dicurigai ada perbedaan nilai taksiran pada kuantil-kuantil tertentu.
M etode yang digunaka n untuk prose s pem ilihan variabel dan estim asi param eter regresi binari kuantil ini adalah Least Absolute Shrinkage Selection Operator (LASSO). Dengan m enggunakan fungsi pena lti LASSO ini nantinya dapat
m enghasilkan regresi yang robust de ngan pe nduga param eter yang bagus dan lebih m engecilkan ga lat dari m ode l regresi logistik.Fungsi penalti L ASSO ini juga berperan dalam m engide ntifikasikan variabe l prediktor m ana saja yang penting untuk variabel respon.
Selanjutnya dengan m enggunakan ana lisis Bayesian akan didapa tkan estim asi param eter yang dicari. Analisis Bayesian adalah suatu m etode yang diperlukan untuk m engestim asi param eter dengan m em anfaatkan inform asi awal dan bentuk distribusi awal (prior) dari sua tu populasi.Inform a si ini kem udian diga bungkan de ngan inform asi dari sam pe l yang digunakan dalam m engestim asi param eter populasi.Pada analisis Bayesia n, peneliti harus m enentukan distribusi prior dari param eter yang
ditaksir.Distribusi prior ini dapat berasal dari data penel itian sebelum nya atau berdasarkan intuisi seorang pene liti. Dugaan penentuan distribusi param eter sangatlah subyektif (Hogg dan Craig, 1978). Setelah inform asi data diga bungkan dengan inform asi prior, m aka didapatkan distribusi posterior yang na ntinya a kan m enjadi inform asi untuk m encari param eter regresi dengan m udah.
Secara analitik, m em peroleh m arginal posterior m erupakan hal yang sulit.
Dalam m odel yang rum it, m enginte gralkan param eter dari distribusi posterior bersam a atau m enentuka n kenorm alan dari distribusi posterior secara um um adalah hal yang sanga t sulit dan tak m ungkin dila kukan. M etode Bayesian m enga tasi perm asalahan ini denga n m enggunaka n bantuan algoritm a M CM C ( Markov Chain Monte Carlo) yaitu G ibbs sampling. Dengan bantuan algoritm a ini dengan m udah m endapatkan distribusi posterior bahkan da lam kasus yang kom ple ks.
1.2. Pembatasan M asalah
M odel regresi binari kuantil baye sian terpena lti m em iliki ruang lingkup yang sangat luas untuk dibahas. Oleh karena itu dalam skripsi ini hanya akan dibaha s estim asi m odel regresi binari kua ntil de ngan LASSO se bagai fungsi penalti -nya m enggunaka n analisis bayesian m elalui algoritm a Gibbs sam pling, serta terba tas pada m odel regresi binari dengan m elibatkan sem ua variabel independen yang sudah terbukti secara teoritis.
1.3. Tujuan Penulisan
Berdasarkan latar belakang dan batasan m asalah di a tas, m aka tujuan penulisan skripsi ini adalah seba gai berikut :
a) M em pelajari m odel regresi binari kuantil de ngan pena lti La sso.
b) M em pelajari analisis Bayesian dan m engim plem entasikannya m elalui m etode Markov Chain M onte Carlo dengan a lgoritm a Gibbs sam pling untuk m engestim asi param eter m odel regresi binari kua ntil dengan penalti Lasso.
c) M engaplikasikan regresi binari kuantil Bayesian terpe nalti untuk m enganalisis faktor apa sa ja yang m em pengaruhi kualitas air sungai yang m elewa ti Kabupa ten Bantul.
1.4. Tinjauan Pustaka
M odel regresi binari kuantil ini m erupaka n perluasa n dari m odel regresi kuantil di m ana variabe l responnnya bers kala biner.Regresi kuantil dikena lkan oleh Koenker dan Basset pada ta hun 1978. Regresi ini berguna untuk m engana lisis sejum lah da ta yang m engandung pe ncilan (outlier) dan heteroskedastisitas.
Pada tahun 2001 Kem ing Yu dan Rana A. M oyeed m em populerkan m etode bayesian pada regresi kuantil. M ereka m em perkenalkan gagasan regresi kuantil m enggunaka n fungsi likelihood yang didasarkan pada Asy mmetric Laplace Distribution. Penggunaan distribusi ini m erupaka n cara alam i dan efektif untuk
pem odelan regresi kua ntil bayesia n. Yu dan M oyeed juga m em perkenalkan regresi kuantil bayesian m enggunakan algoritm a M CM C untuk inferensi posteriornya.
Dalam m etodenya m ereka m enggunaka n algoritm a Metropolis H asting untuk m enganalisis kuantil bayesian.
Selanjutnya tahun 2009, Hie do K ozum i dan Kobayashi m engem ba ngkan regresi kuantil Bayesia n m enggunakan Asym metric Laplace Distribution dan m engem ukakan m etode M CM C dengan bantuan algoritm a G ibbs sampling yang berdasarkan pada mixture representation dari A symmetric Laplace D istribution.
M ereka m em aparkan bahwa dengan m engguna kan kondisi tersebut, de nsitas dari posterior akan sanga t m udah dikerjakan.
Pada tahun 2010, Li et al. m engenalkan B ayesian Regularized Q uantile regression de ngan m enggunakan pena lti LASSO, group L AS SO, dan net pena lti.
Alham zawi e t al. pada tahun 2011 juga m engena lkan Bayesian Adaptive Lasso Quantile Regresion. Dan tahun 2012 Alkenani et al. m em perkenalkan Penalized
Flexibel Bayesian Quantile Regre ssion de ngan LASSO dan Adaptive LASSO de ngan asum si distribusi gala t infinite mixture of G aussian Densitie s.
Pada tahun 2012, Benoit dan Van den P oel m ulai m engem bangkan regresi kuantil untuk variabel respon yang berskala dikotom us/biner.M ereka m engem bangkan regresi tersebut dengan m engguna kan pende katan Bayesian m el alui algoritm a Metropolis Hasting untuk m encari estim asi param eter regresi binari kuantil. Kem udian pa da tahun 2013, Rahim A lham zawi et al.m enyem purnakan jurnal sebelum nya dengan m engem bangkan regresi binari kuantil dengan tam bahan penalti Lasso dengan m enggunakan analisis Bayesian m elalui algoritm a Gibbs sampling.
Pada tahun 2014, Afifka Fitri Nugra hwati dalam skripsinya m em bahas regresi kuantil terpe nalti dengan m enggunakan estim asi baye sian.Dalam skripsi tersebut m enggunaka n m etode M CM C dengan algoritm a Gibbs sampling.
1.5. M etode Penulisan
M etode yang diguna kan dalam penulisan skripsi ini ada lah studi literatur yang didapa t dari perpustakaan, buku-buku, jurnal-jurnal, da n situs-situs internet yang berhubungan dengan tem a skripsi ini.Pengerjaan skripsi di tunjang oleh perangkat lunak (software) SPSS 19, M icrosoft Excel 2010, M initab 14, R 2.11.1, R 3.1.2 dengan package bayesQR untuk m encari nilai estim asi param eter regresi binari kuantil bayesian dengan penalti Lasso.
1.6. Sistematika Penulisan
Skripsi ini disusun dengan sistem atika penulisan sebagai berikut : BAB I PENDAHU LUA N
Bab ini m em bahas latar bela kang pe nulisan skripsi, pem batasa n m asalah dalam skripsi, tujua n ya ng ingin dica pai dalam penulisan, tinjauan pustaka, m etode penulisa n yang dig unakan, dan sistem atika penulisan yang m em berikan arah dan tujuan da lam penulisan skripsi ini.
BAB II LANDASA N TEORI
Bab ini m em bahas te ntang teori-teori yang m enunjang pem bahasan regresi binari kuantil bayesian denga n penalti Lasso.
BAB IIIANALISIS BAYESIAN UNTUK REGRESI BINARI KUAN TIL DEN GAN PENALTI LASSO
Bab ini berisi pem bahasan m enge nai pengguna kaan m etode bayesian dalam m engestim asi param eter m odel re gresi binari kua ntil terpenalti dengan m enggunakan algoritm a Gibbs sam pling.
BAB IV STUDI KA SUS
Bab ini berisi tentang deskripsi data, estim asi param eter m engguna kan m etode regresi binari kuantil Bayesian terpena lti dan e stim asi param eter dengan m engguna kan regresi logistic dan regresi probit.Data yang digunakan adalah data sekunder yang bersum be r dari Badan Lingkungan Hidup Kabupaten Bantul. Data m enunjukkan ada hubungan antara kualitas air sungai terha dap pH air, suhu air, salinitas, kadar fluorida, phospat, dan am m onia.
BAB V PENUTUP
Bab ini m em bahas tentang ke sim pulan dari m ateri yang te lah diba has dari skripsi ini.Serta saran atas kekuranga n dari ha sil pem bahasan ya ng bisa diberikan sebagai ba han acuan untuk penelitian lanjutan.