• Tidak ada hasil yang ditemukan

Penerapan Regresi Gulud dan Least Absolute Shrinkage and Selection Operator (LASSO) dalam Penyusutan Koefisien Regresi

N/A
N/A
Protected

Academic year: 2017

Membagikan "Penerapan Regresi Gulud dan Least Absolute Shrinkage and Selection Operator (LASSO) dalam Penyusutan Koefisien Regresi"

Copied!
23
0
0

Teks penuh

(1)
(2)

ARUM PUSPORINI. Penerapan Regresi Gulud dan

(LASSO) dalam Penyusutan Koefisien Regresi. Dibimbing oleh AUNUDDIN dan LA ODE ABDUL RAHMAN.

Multikolinearitas merupakan salah satu pelanggaran asumsi dalam analisis regresi linier berganda yang dapat terjadi ketika terdapat korelasi yang tinggi antar peubah bebas. Multikolinearitas menyebabkan penduga dengan metode kuadrat terkecil (MKT) menjadi tidak stabil dan menghasilkan ragam yang besar. Salah satu cara untuk mengatasi masalah multikolinearitas tersebut adalah dengan menggunakan regresi gulud ( ). Regresi gulud dapat mengatasi masalah multikolinearitas melalui pemilihan nilai λ yang tepat. Regresi gulud menyusutkan koefisien MKT ke arah nol tetapi tidak dapat melakukan seleksi model. Meskipun model yang diperoleh dari regresi gulud berbias, tetapi keragaman koefisien regresi yang dihasilkan relatif kecil. Akan tetapi, regresi gulud semakin sulit diinterpretasikan jika jumlah

peubah bebas yang digunakan sangat banyak. Operator

(LASSO) merupakan metode komputasi dengan menggunakan pemrograman kuadratik yang dapat memerankan prinsip regresi gulud serta melakukan seleksi model. Metode LASSO mulai dikenal setelah ditemukannya algoritma LAR pada tahun 2004. Modifikasi dari LAR untuk LASSO menghasilkan algoritma yang lebih efisien dalam menduga solusi penduga koefisien LASSO dengan komputasi yang lebih cepat dibandingkan pemrograman kuadratik. Metode LASSO dapat menyusutkan koefisien MKT tepat nol sehingga dapat melakukan seleksi peubah. Dengan demikian, model yang dihasilkan metode LASSO lebih sederhana dan secara tidak langsung bebas dari multikolinearitas.

(3)

Skripsi

(4)

Judul : Penerapan Regresi Gulud dan

(LASSO) dalam Penyusutan Koefisien Regresi Nama : Arum Pusporini

NRP : G14080086

Menyetujui :

Pembimbing I,

Prof. Dr. Ir. Aunuddin, M.Sc NIP : 194706151971061001

Pembimbing II,

La Ode Abdul Rahman, S.Si, M.Si

Mengetahui : Ketua Departemen Statistika

Fakultas Matematika dan Ilmu Pengetahuan Alam IPB

Dr. Ir. Hari Wijayanto, M.Si NIP : 196504211990021001

(5)

Puji syukur penulis panjatkan kepada Allah SWT atas segala rahmat dan karunia:Nya sehingga penulis dapat menyelesaikan karya ilmiah dengan judul “Penerapan Regresi Gulud dan (LASSO) dalam Penyusutan Koefisien Regresi”. Karya ilmiah ini penulis susun sebagai salah satu syarat untuk mendapatkan gelar Sarjana Statistika pada Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Terimakasih penulis ucapkan kepada semua pihak yang telah membantu dalam penulisan karya ilmiah ini, di antaranya:

1. Bapak Prof. Dr. Ir. Aunuddin, M.Sc dan Bapak La Ode Abdul Rahman, S.Si, M.Si selaku dosen pembimbing yang telah memberikan bimbingan, masukan serta saran selama penulisan karya ilmiah ini.

2. Ibu Dr.Ir. Erfiani, M.Si selaku dosen penguji yang telah memberikan banyak masukan dan saran pada penulis.

3. Kedua orang tua dan Anggun Dwi Puspo Supomo atas doa, kasih sayang, serta dukungan kepada penulis.

4. Ibu Tri, Ibu Markonah, Pak Herman, Pak Heri, serta seluruh staf karyawan Departemen Statistika atas segala bantuannya.

5. Rekan satu bimbingan, Hana Maretha dan Gusti Andika Puri atas diskusi, dukungan, dan kekompakannya selama penyusunan karya ilmiah ini.

6. Ika Meilaty, Yulia Anggraeni, Endah Kurniasari, dan Opilianda atas doa dan dukungannya kepada penulis.

7. Yogi Prakoso atas doa, diskusi, dan dukungannya kepada penulis.

8. Seluruh keluarga Statistika 45 dan semua pihak yang tidak dapat dituliskan satu per satu, atas bantuannya penulis ucapkan terima kasih.

Penulis menyadari bahwa penulisan karya ilmiah ini masih jauh dari sempurna. Oleh karena itu, kritik dan saran yang membangun sangat penulis harapkan untuk bisa lebih baik di masa mendatang. Semoga karya ilmiah ini dapat bermanfaat bagi pihak yang membutuhkan.

Bogor, Oktober 2012

(6)

Penulis dilahirkan di Purworejo pada tanggal 3 Mei 1990 dari pasangan Bapak Supomo dan Ibu Eko Murti Nurhayati. Penulis merupakan anak pertama dari dua bersaudara.

Tahun 2002 penulis lulus dari SD Negeri Rejosari, kemudian melanjutkan pendidikan di SMP Negeri 3 Purworejo dan lulus tahun 2005. Selanjutnya, pada tahun 2008 penulis menyelesaikan pendidikannya di SMA Negeri 1 Purworejo dan pada tahun yang sama lulus seleksi masuk Institut Pertanian Bogor melalui jalur Seleksi Nasional Masuk Perguruan Tinggi Negeri (SNMPTN). Penulis diterima sebagai mahasiswa Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam (FMIPA) Institut Pertanian Bogor dengan mayor Statistika serta minor Ekonomi dan Studi Pembangunan.

(7)

Halaman

DAFTAR GAMBAR ... viii

DAFTAR TABEL ... viii

DAFTAR LAMPIRAN ... viii

PENDAHULUAN... 1

Latar Belakang ... 1

Tujuan ... 1

TINJAUAN PUSTAKA ... 1

Analisis Regresi Linier ... 1

Metode Kuadrat Terkecil ... 1

Multikolinearitas ... 2

Regresi Gulud ... 2

LASSO ... 3

Algoritma LAR ... 3

Validasi Silang ... 4

DATA DAN METODE ... 4

Data ... 4

Metode ... 4

HASIL DAN PEMBAHASAN ... 5

Eksplorasi Data ... 5

Regresi Linier Berganda dengan Metode Kuadrat Terkecil ... 5

Mendeteksi Multikolinearitas ... 6

Regresi Gulud ... 6

LASSO ... 7

Pemilihan Model Terbaik LASSO ... 8

Perbandingan Model Hasil MKT, Gulud, dan LASSO... 8

SIMPULAN DAN SARAN ... 9

Simpulan ... 9

Saran ... 9

DAFTAR PUSTAKA ... 9

(8)

Halaman

1 ... 6

2 Plot objek LARS yang dihasilkan oleh fungsi LARS untuk menduga koefisien LASSO ... 7

3 Nilai validasi silang dengan menggunakan mode ... 8

4 Nilai validasi silang dengan menggunakan mode ... 8

Halaman 1 Analisis ragam hasil MKT ... 5

2 Koefisien regresi hasil MKT ... 5

3 Nilai VIF untuk setiap peubah bebas ... 6

4 Koefisien regresi hasil MKT dan regresi gulud... 6

5 Simpangan baku koefisien hasil analisis regresi dengan MKT dan gulud ... 7

6 Peubah bebas yang masuk dalam model untuk setiap tahapan pada metode LASSO ... 8

7 Koefisien regresi hasil MKT, gulud, dan LASSO ... 9

Halaman 1 Plot masing:masing peubah bebas (X) dan peubah respon (Y) ... 12

2 Nilai korelasi antar peubah ... 13

3 Koefisien regresi menggunakan metode LASSO untuk setiap tahapan ... 14

(9)

1

!"

Salah satu masalah yang sering muncul dalam regresi linier berganda adalah adanya korelasi antar peubah bebas (multikolinearitas). Multikolinearitas dapat mempengaruhi ragam dari penduga kuadrat terkecil dan pendugaan model yang dihasilkan. Adanya multikolinearitas menyebabkan matriks # # menjadi singular atau hampir singular, sehingga sedikit perubahan elemen X akan berpengaruh besar terhadap matriks # #$ pada pendugaan dengan menggunakan Metode Kuadrat Terkecil (MKT). Akibatnya, penduga koefisien MKT menjadi tidak stabil dan memiliki ragam yang cenderung lebih besar (Izenman 2008).

Pada kenyataannya, yang diharapkan pada sebuah penelitian adalah model yang memiliki ragam minimum, meskipun berbias. Dengan demikian, salah satu cara untuk mengatasi multikolinearitas dapat dengan menggunakan penduga berbias, seperti regresi komponen utama, regresi kuadrat terkecil parsial, atau regresi gulud. Pada penelitian ini, multikolinearitas diatasi dengan menggunakan regresi gulud.

Regresi gulud ( )

merupakan atau metode

penyusutan koefisien regresi yang dapat digunakan untuk mengatasi masalah multikolinearitas. Meskipun model yang diperoleh dari regresi gulud berbias, tetapi penduga koefisien yang dihasilkan cenderung lebih stabil dibandingkan MKT (Chatterjee & Hadi 2006).

Seleksi peubah bebas diperlukan agar model lebih sederhana dan mudah diinterpretasikan. Akan tetapi, regresi gulud tidak dapat melakukan seleksi peubah bebas untuk memperoleh model yang terbaik. Pada tahun 1996, Tibshirani memperkenalkan metode L

(LASSO) yang dapat memerankan prinsip regresi gulud serta melakukan seleksi model regresi.

%&% !

Penelitian ini bertujuan untuk menerapkan regresi gulud dan LASSO dalam penyusutan koefisien regresi pada data dengan multikolinearitas.

'

! ()() " )( (!(

Analisis regresi merupakan suatu teknik statistika untuk memeriksa dan memodelkan hubungan antar peubah (Montgomery & Peck 1992). Regresi merupakan tempat kedudukan nilai tengah dari peubah Y untuk berbagai nilai atau selang nilai peubah X, serta merupakan usaha untuk mengepas suatu fungsi atau kurva terhadap pencaran titik:titik pada sumbu X:Y (Mosteller & Tukey dalam Aunuddin 2005). Dalam hal ini, Y adalah peubah tak bebas/respon, sedangkan X adalah peubah bebas/penjelas.

Regresi linier sederhana hanya melibatkan satu peubah bebas, sedangkan regresi linier berganda melibatkan peubah bebas. Regresi linier sederhana memiliki beberapa asumsi, yaitu nilai harapan/rataan sisaan sama dengan nol, ragam sisaan homogen, sisaan saling bebas, sisaan menyebar normal dengan rataan nol dan ragam σ2, serta sisaan bebas terhadap peubah bebas. Pada regresi linier berganda terdapat asumsi tambahan bahwa tidak ada multikolinearitas pada peubah bebas.

Model linier artinya linier dalam parameter (Draper & Smith 1992). Jika terdapat vektor input * = (*, *,…,*+) dan

digunakan untuk menduga luaran nilai Y yang berupa bilangan riil, maka model regresi linier memiliki bentuk sebagai berikut,

y = β + ∑ X β + ε

Keterangan:

yi : vektor peubah respon berukuran nx1 β0 : intersep

Xij : matriks peubah bebas berukuran nx(p+1) βj : slope atau kemiringan

εi : vektor sisaan acak berukuran nx1

,- % - .(

Metode kuadrat terkecil (

(10)

2

!"/ # #$ # 0

Pendugaan koefisien regresi dengan MKT memiliki kuadrat tengah sisaan terkecil di antara semua penduga linier yang tak bias. Namun, pada kondisi tertentu (misalnya multikolinieritas dan peubah sangat banyak), metode kuadrat terkecil sering tidak memuaskan. Hal tersebut disebabkan karena adanya masalah keakuratan prediksi yang mengakibatkan penduga kuadrat terkecil memiliki bias rendah tetapi ragam besar. Selain itu, semakin banyak peubah bebas maka model semakin sulit diinterpretasikan (Tibshirani 1996).

% ( , (! ( )

Multikolinearitas terjadi ketika terdapat korelasi antara dua atau lebih peubah bebas dalam regresi. Adanya multikolinearitas mengakibatkan penduga koefisien regresi yang diperoleh dari MKT akan menghasilkan ragam yang besar, meskipun tetap tidak bias (Pasha & Shah 2004). Selain itu, multikolinearitas juga dapat menyebabkan tanda koefisien regresi berbeda dengan tanda korelasi sederhananya ( Juanda 2009).

Multikolinearitas dapat terlihat dari nilai korelasi Pearson antar peubah bebas. Jika korelasi antar peubah bebas sangat tinggi, maka dapat mengindikasikan adanya masalah multikolinearitas. Selain itu, nilai

(VIF) juga dapat digunakan untuk mendeteksi adanya multikolinearitas. Nilai VIF dirumuskan sebagai berikut,

VIF = 1 − R (

R merupakan koefisien determinasi dari regresi dengan X sebagai peubah respon dan peubah X yang lain sebagai peubah bebas. Jika

X tidak berkorelasi dengan peubah bebas lain, maka R akan bernilai kecil dan nilai VIF mendekati 1. Sebaliknya jika X mempunyai korelasi dengan peubah bebas lain, maka R akan mendekati 1 dan nilai VIF menjadi besar. Jika nilai VIF lebih besar dari 10, maka menunjukkan adanya multikolinearitas (Montgomery & Peck 1992).

Terdapat beberapa cara untuk mengatasi masalah multikolinearitas, di antaranya adalah membuang peubah bebas yang mempunyai korelasi yang tinggi terhadap peubah bebas lainnya, menambah data pengamatan, dan melakukan transformasi terhadap peubah: peubah bebas yang mempunyai kolinearitas

(Juanda 2009). Selain itu, multikolinearitas juga dapat diatasi dengan menggunakan regresi gulud, regresi kuadrat terkecil parsial, dan regresi komponen utama (Izenman 2008).

" )( %

%-Regresi gulud diperkenalkan pertama kali oleh Hoerl pada tahun 1962 untuk mengendalikan ketidakstabilan penduga kuadrat terkecil (Hoerl & Kennard 1970). Regresi gulud merupakan metode pendugaan alternatif yang dapat digunakan ketika terdapat kolinearitas yang tinggi antar peubah bebas (Chatterjee & Hadi 2006).

Solusi regresi gulud diperoleh dengan cara yang sama seperti metode kuadrat terkecil, yaitu dengan meminimumkan jumlah kuadrat sisaan. Regresi gulud menambahkan kendala pada kuadrat terkecil sehingga koefisien menyusut mendekati nol (Hastie

. 2008). Secara spesifik, penduga koefisien pada regresi gulud (β)*+*, diperoleh dengan cara meminimumkan persamaan sebagai berikut,

β)*+*,= ∑ y − β − ∑ x β

dengan kendala ∑ β ≤ t,

dimana t merupakan suatu besaran yang mengontrol besarnya penyusutan dengan nilai t ≥ 0.

Regresi gulud menghasilkan solusi unik dalam bentuk matriks sebagai berikut,

/"01213= 454 + 67 (8459

Keterangan:

I : matriks identitas berukuran pxp λ : parameter gulud dengan nilai λ ≥ 0

Nilai λ berperan dalam mengontrol besarnya penyusutan. Salah satu cara untuk mencari nilai λ yang optimal adalah dengan menggunakan ridge trace, yaitu simulasi plot antara komponen β(λ) dengan nilai λ (Hoerl & Kennard 1970). Jika λ=0, maka model menjadi bentuk standar. Jika λ dinaikkan, maka nilai mutlak dugaan koefisiennya menjadi semakin kecil menuju nol untuk λ menuju tak hingga (Draper & Smith 1992).

Selain itu, pemilihan nilai λ yang optimal juga dapat diperoleh dengan menggunakan validasi silang terampat atau !

" (GCV). Penduga koefisien

(11)

3

Penduga yang dihasilkan oleh regresi gulud merupakan penduga yang berbias tetapi cenderung lebih stabil dibandingkan dengan penduga MKT (Chatterjee & Hadi 2006). Akan tetapi, interpretasi model pada regresi gulud relatif lebih sulit dibandingkan metode seleksi jika jumlah peubah bebas yang digunakan sangat banyak.

Regresi gulud menghasilkan penduga koefisien yang disusutkan kearah nol seiring dengan peningkatan nilai λ. Oleh karena itu, seleksi peubah tidak dapat dilakukan oleh regresi gulud karena secara simultan koefisien yang diduga mungkin tidak bernilai nol. Metode LASSO muncul untuk memerankan prinsip regresi gulud sekaligus seleksi peubah.

Metode L

(LASSO) diperkenalkan pertama kali oleh Tibshirani pada tahun 1996. Penduga koefisien LASSO tidak dapat diperoleh dalam bentuk tertutup seperti pada MKT atau regresi gulud, tetapi dengan menggunakan pemrograman kuadratik (Hastie . 2008). Metode LASSO mulai dikenal setelah ditemukannya algoritma LAR pada tahun 2004 oleh Effron. Penduga koefisien pada metode LASSO (βGHIIJ diperoleh dengan cara meminimumkan persamaan sebagai berikut (Tibshirani 1996),

βGHIIJ= ∑ y − β − ∑ x β

dengan kendala ∑ β ≤ t.

Nilai t merupakan suatu besaran yang mengontrol besarnya penyusutan pada pendugaan koefisien LASSO dengan t ≥ 0. Jika βK merupakan penduga kuadrat terkecil

dan t = ∑ β , maka nilai t < t0 akan

menyebabkan solusi MKT menyusut ke arah nol, dan memungkinkan beberapa koefisien tepat nol. Jika nilai t yang dipilih lebih besar atau sama dengan daripada t0, maka penduga LASSO memberikan hasil yang sama dengan penduga kuadrat terkecil (Tibshirani 1996).

Pendugaan koefisien LASSO diperoleh dengan menentukan batas yang dibakukan, yaitu L = M/ ∑ NOK dengan M = ∑ NOK dan NOK adalah penduga kuadrat terkecil untuk model penuh atau pada gambar ditulis sebagai |beta|/max |beta| (Dewi 2010).

Perbedaan antara regresi gulud dan LASSO terletak pada kendala pendugaan koefisien regresi. Kendala pada regresi gulud adalah ∑ β ≤ t sedangkan kendala pada metode LASSO adalah ∑ β ≤ t. Perbedaan kendala antara kedua metode tersebut menyebabkan dugaan koefisien yang diperoleh metode LASSO cenderung lebih kecil dibandingkan dugaan koefisien dengan regresi gulud. Koefisien regresi gulud hanya disusutkan ke arah nol, sedangkan koefisien LASSO dapat disusutkan sampai tepat nol sehingga dapat berfungsi sebagai seleksi peubah seperti regresi bertatar atau regresi subset terbaik.

", ( 1

(LAR) merupakan suatu metode regresi yang algoritmanya dapat dimodifikasi menjadi algoritma komputasi untuk metode LASSO. Modifikasi dari LAR untuk LASSO menghasilkan efisiensi algoritma dalam menduga koefisien LASSO dengan komputasi yang lebih cepat dibandingkan pemrograman kuadratik.

Algoritma LAR adalah sebagai berikut (Hastie . 2008):

1. Membakukan peubah bebas sehingga memiliki nilai tengah nol dan ragam satu. Dimulai dengan sisaan r = y:yP, dan β1, β2,…, βp = 0. Pembakuan ini dimaksudkan agar dapat membandingkan dugaan koefisien regresi yang memiliki ragam yang berbeda dalam suatu model.

2. Mencari peubah bebas xj yang paling berkorelasi dengan r.

3. Mengubah nilai βj dari 0 bergerak menuju koefisien kuadrat terkecil (xj,r), sampai kompetitor xk yang lain memiliki korelasi yang cukup dengan sisaan akibat xj. 4. Mengubah nilai βj dan βk bergerak ke arah

koefisien kuadrat terkecil bersama dari sisaan sekarang dengan (xj,xk), sampai kompetitor xl yang lain memiliki korelasi yang cukup dengan sisaan akibat (xj,xk).

(12)

4 Setelah min(N:1,p) langkah, solusi model penuh untuk kuadrat terkecil diperoleh.

LAR selalu mengambil p langkah untuk mendapatkan penduga kuadrat terkecil secara penuh, sedangkan modifikasi LAR untuk LASSO dapat memiliki lebih dari p langkah untuk mendapatkannya. Algoritma LASSO dengan memodifikasi LAR merupakan cara yang efisien dalam komputasi solusi masalah LASSO, terutama ketika jumlah peubah bebas yang digunakan jauh lebih banyak daripada data amatannya (Hastie . 2008).

2 (- )( ( !"

Terdapat beberapa metode pemilihan model terbaik, antara lain nilai Cp Mallows. digunakan untuk menguji kebaikan prediksi dari Xβ. Nilai validasi silang yang diperoleh merupakan penduga bagi sisaan prediksi (Izenman 2008).

Salah satu metode tipe validasi silang adalah # . Metode ini memiliki kelebihan ketika jumlah data amatan yang digunakan sedikit. Dalam validasi silang # , semua observasi dipartisi secara acak ke dalam k sub: contoh. Setiap sub:contoh digunakan sebagai data dan sisanya digunakan sebagai data . Proses validasi silang diulang sampai k kali, dan setiap satu sub:contoh digunakan hanya sekali dalam data .

Nilai sisaan prediksi PES diduga oleh validasi silang dengan menggunakan persamaan sebagai berikut,

PES = CV =T∑TV ∑WX,YX∈[ y − yU(V x

dengan yU(V x adalah dugaan y untuk xi pada saat ke:k tidak digunakan dalam menduga model, dan yi adalah peubah respon ke:i pada data T. Menurut Izenman (2008), validasi silang yang sebaiknya digunakan adalah validasi silang 5:fold atau 10:fold karena menghasilkan nilai PES dengan bias tinggi tetapi ragam rendah.

Respon yang digunakan dalam penelitian ini adalah persentase balita penderita gizi buruk di Indonesia. Terdapat lima belas peubah bebas yang diduga berpengaruh terhadap respon, yaitu sebagai berikut: X1 : Persentase tingkat kemiskinan X2 : Persentase angka melek huruf

X3 : Persentase anak umur 12:23 bulan yang mendapatkan imunisasi dasar lengkap X4 : Persentase Frekuensi Penimbangan

anak umur 6:59 bulan ≥ 4 kali selama enam bulan terakhir

X5 : Persentase kepemilikan KMS anak balita

X6 : Persentase anak umur 6:59 bulan yang menerima kapsul vitamin A selama enam bulan terakhir

X7 : Persentase anak balita yang ditimbang ketika baru lahir

X8 : Persentase berat badan bayi baru lahir anak balita (< 2500 gr)

X9 : Persentase kunjungan neonatus lengkap (KN1, KN2, KN3)

X10 : Persentase bayi yang diberi makanan prelakteal

X11 : Persentase anak usia 0:23 bulan yang masih disusui

X12 : Persentase rumah tangga menurut akses terhadap air minum ‘berkualitas’ baik X13 : Persentase rumah tangga menurut akses

terhadap pembuangan tinja layak Sesuai MDGs

X14 : Persentase rumah tangga dengan penanganan sampah baik X15 : Persentase rumah tangga dengan

kriteria rumah sehat

Data yang digunakan dalam penelitian ini merupakan data sekunder yang diperoleh dari Badan Pusat Statistik dan Laporan Hasil Riset Kesehatan Dasar (Riskesdas) tahun 2010. Riset tersebut dilakukan oleh Badan Penelitian dan Pengembangan Kesehatan (Balitbangkes) Kementerian Kesehatan RI yang dilaksanakan di 33 provinsi di Indonesia. Data peubah X1 dan X2 diperoleh dari BPS, sedangkan data peubah lain diperoleh dari Riskesdas.

,-Tahapan yang dilakukan dalam penelitian ini adalah sebagai berikut:

(13)

5

2. Eksplorasi awal berupa plot antara peubah X dan Y, serta korelasi antar peubah. 3. Membakukan peubah bebas X sehingga

memiliki nilai tengah nol dan ragam satu. 4. Melakukan analisis regresi menggunakan

MKT.

5. Mendeteksi adanya multikolinearitas dengan melihat nilai

(VIF).

6. Melakukan analisis regresi gulud.

a) Memilih nilai λ yang paling optimal dari dengan menggunakan GCV.

b) Analisis regresi menggunakan regresi gulud dengan nilai λ optimal.

7. Melakukan analisis regresi dengan metode LASSO.

a) Menentukan penduga koefisien regresi LASSO untuk setiap tahapan.

b) Memilih model terbaik dengan menggunakan CV.

c) Menduga koefisien model terbaik yang telah dipilih.

8. Membandingkan penduga koefisien regresi yang dihasilkan oleh MKT, regresi gulud dan LASSO.

Analisis dalam penelitian ini menggunakan program R versi 2.15 dengan paket tambahan MASS dan LARS. Paket MASS digunakan untuk melakukan pendugaan model dengan menggunakan regresi gulud, sedangkan paket LARS digunakan untuk melakukan pendugaan model dengan menggunakan metode LASSO.

)+ , )(

Eksplorasi data diawali dengan membuat plot antara peubah respon (Y) dengan setiap peubah bebasnya (X). Berdasarkan hasil plot terlihat bahwa pada umumnya pencaran titik cenderung mengikuti garis lurus, sehingga secara grafis terlihat bahwa terdapat hubungan linier antara Y dan X (Lampiran 1).

Hubungan antar peubah bebas dapat terlihat pada hasil korelasi antar peubah bebas. Pada Lampiran 2 terlihat bahwa terdapat beberapa peubah bebas yang memiliki korelasi cukup besar dengan peubah bebas lainnya. X9 memiliki korelasi cukup besar dengan X4, X6, dan X13, X6 memiliki korelasi cukup besar dengan X7, sedangkan X13 memiliki korelasi cukup besar dengan X14. Hal tersebut dapat mengindikasikan adanya masalah multikolinearitas pada data yang digunakan.

" )( (!( " !- - !" !

,-% - .(

Analisis regresi linier berganda dengan menggunakan MKT menghasilkan model dengan nilai F:hitung sebesar 6.3926 dan nilai:p sebesar 0.0002. Dengan demikian model yang dihasilkan nyata pada taraf 5%. Hasil analisis ragam dengan menggunakan MKT dapat terlihat pada Tabel 1.

Tabel 1 Analisis ragam hasil MKT

Sumber digunakan dalam analisis hanya persentase anak balita yang ditimbang ketika baru lahir (X7), persentase anak usia 0:23 bulan yang masih disusui (X11), dan persentase rumah tangga dengan kriteria rumah sehat (X15) yang berpengaruh nyata terhadap balita penderita gizi buruk di Indonesia (Tabel 2). Hal tersebut terlihat dari nilai:p yang kurang dari 5%.

Tabel 2 Koefisien regresi hasil MKT

Peubah Dugaan

Koefisien Nilai:p Intersep 6.4333 1.51E:12

(14)

6

!- )( % ( , (! ( ) Eksplorasi data antar peubah bebas pada Lampiran 2 menunjukkan adanya korelasi antara beberapa peubah bebas. Adanya masalah multikolinearitas lebih terlihat dari nilai VIF yang dihasilkan karena terdapat nilai VIF yang lebih besar dari 10, yaitu sebesar 11.700 pada peubah X9. Dengan demikian, dapat diketahui bahwa terdapat korelasi antara peubah X9 dengan peubah lainnya. Nilai VIF untuk setiap peubah bebas ke:j dapat terlihat pada Tabel 3.

Tabel 3 Nilai VIF untuk setiap peubah bebas

Peubah VIF

Selain itu, masalah multikolinearitas juga dapat terlihat dari nilai koefisien determinasi yang cukup besar pada model regresi hasil pendugaan dengan menggunakan MKT, yaitu sebesar 84.94%, tetapi banyak peubah bebas yang tidak berpengaruh nyata terhadap respon. Adanya multikolinearitas menyebabkan tanda beberapa koefisien regresi berbeda dengan tanda korelasi sederhananya, seperti X2, X3, X4, X5, X12, X13, dan X15.

" )( %

%-Adanya multikolinearitas pada data yang digunakan, diatasi dengan menggunakan regresi gulud. Penduga koefisien gulud diperoleh dari pemilihan nilai λ yang optimal. Hasil pada Gambar 1 menunjukkan hasil yang bersifat subjektif dalam pemilihan nilai λ. Hal tersebut dikarenakan sulitnya penduga koefisien hasil analisis dengan menggunakan regresi gulud dapat terlihat pada Tabel 4. Adanya nilai λ pada regresi gulud menyebabkan dugaan koefisien regresi yang dihasilkan menyusut. Dugaan koefisien regresi gulud cenderung lebih kecil dibandingkan dengan dugaan koefisien regresi MKT.

Tabel 4 Koefisien regresi hasil MKT dan regresi gulud

Peubah MKT Regresi gulud

Intersep 6.4333 6.4333

(15)

7

Keragaman koefisien regresi hasil analisis dengan menggunakan MKT dan gulud dapat terlihat dari nilai simpangan baku koefisien regresi (S\]). Pada Tabel 5 terlihat bahwa keragaman koefisien regresi yang dihasilkan oleh regresi gulud relatif lebih kecil dibandingkan dengan MKT. Dengan demikian, penduga gulud cenderung lebih stabil dibandingkan dengan penduga MKT.

Tabel 5 Simpangan baku koefisien hasil

Penduga koefisien regresi gulud hanya disusutkan kearah nol sehingga tidak dapat melakukan seleksi peubah. Dengan demikian, interpretasi regresi gulud akan semakin sulit ketika jumlah peubah bebas yang digunakan sangat banyak.

Metode LASSO juga dapat digunakan untuk mengatasi masalah multikolinearitas yang terjadi pada analisis regresi linier berganda. Penduga koefisien LASSO diperoleh melalui komputasi dengan memodifikasi algoritma LAR sehingga menghasilkan algoritma yang lebih efisien dibandingkan pemrograman kuadratik.

Hasil modifikasi algoritma LAR untuk LASSO dapat terlihat pada Gambar 2. Pada metode LASSO, tahap inisialisasi diawali dengan menetapkan semua koefisien dengan angka nol. Selanjutnya, peubah yang memiliki korelasi tinggi dengan sisaan masuk ke dalam model.

Pada iterasi pertama, peubah X7 merupakan peubah yang memiliki korelasi yang paling tinggi dengan sisaan dibandingkan peubah lainnya sampai ∑ β /max ∑ β sekitar 0.127958 masuk peubah X1. Peubah X8 masuk berikutnya ke dalam model dengan

∑ β /max ∑ β sekitar 0.160727 dan

seterusnya sampai peubah X5 merupakan peubah yang terakhir masuk ke dalam model (Tabel 6).

Gambar 2 Plot objek LARS yang dihasilkan oleh fungsi LARS untuk menduga koefisien LASSO

!

"

#

$

(16)

8

Tabel 6 Peubah bebas yang masuk dalam model untuk setiap tahapan pada metode LASSO

Tahap Peubah bebas yang masuk ke dalam model

Koefisien model regresi untuk setiap tahapan dapat terlihat pada Lampiran 3. Nilai

∑ β /max ∑ β untuk setiap tahapan dapat

terlihat pada Lampiran 4.

1( (3 ! ,- 4 (

Pemilihan model terbaik dalam metode LASSO dilakukan dengan menggunakan kriteria validasi silang, yaitu dengan menggunakan mode dan mode . tersebut dapat berbeda setiap kali melakukan pemanggilan fungsinya. Dari beberapa pengulangan maka diperoleh CV turun dan kemudian naik kembali pada nilai sekitar 0.253796. Pada Lampiran 4 terlihat bahwa nilai ∑ β /max ∑ β sekitar 0.253796 berada antara tahap 7.

Mode menghitung nilai validasi silang pada setiap tahapan dimana satu peubah masuk dalam model. Pemilihan model terbaik dengan menggunakan mode dalam menghitung nilai CV menunjukkan bahwa model terbaik terlihat pada tahap 7 (Gambar 4). Hal tersebut dikarenakan pada tahap 7 memberikan nilai CV yang merupakan titik belok dari turun menjadi naik pertama.

Gambar 4 Nilai validasi silang dengan menggunakan mode

Berdasarkan kedua metode validasi silang tersebut, maka model terbaik LASSO yang terpilih pada data ini adalah model pada tahap ke:7. Terdapat tujuh peubah bebas yang masuk ke dalam model pada tahap ke:7, yaitu X1, X6, X7, X8, X9, X11, dan X15.

4 !-(!" ! ,- )( 5 % %-5 - !

Adanya kendala pada regresi gulud dan LASSO menyebabkan dugaan koefisien regresi kedua metode tersebut menyusut. Perbedaan kendala antara regresi gulud dan LASSO menghasilkan dugaan koefisien LASSO cenderung lebih kecil dibandingkan dugaan koefisien regresi gulud. Perbandingan koefisien regresi hasil analisis dengan menggunakan MKT, regresi gulud, dan LASSO dapat terlihat pada Tabel 7.

(17)

9 menyusutkan koefisien hasil MKT sampai tepat nol sehingga secara otomatis peubah: peubah bebas tersebut akan terseleksi dari model yang terpilih.

Peubah:peubah bebas yang terseleksi dari model LASSO merupakan peubah bebas yang tidak berpengaruh nyata terhadap respon dari hasil MKT, dan atau peubah bebas yang memiliki korelasi dengan peubah bebas lainnya. Dengan demikian, metode LASSO dapat menyederhanakan model dan secara tidak langsung masalah multikolinearitas dapat teratasi.

Peubah:peubah bebas yang berpengaruh nyata terhadap balita penderita gizi buruk dari hasil MKT seperti X7, X11, dan X15 tetap masuk dalam model LASSO yang terpilih. Akan tetapi, tidak seluruh peubah bebas yang tidak berpengaruh nyata dari hasil MKT disusutkan sampai tepat nol. Hal tersebut dikarenakan pemilihan model terbaik dengan menggunakan validasi silang yang nilainya dapat berbeda setiap kali melakukan pemanggilan fungsinya.

(1+% !

Regresi gulud dapat mengatasi masalah multikolinearitas melalui pemilihan nilai λ

yang tepat. Regresi gulud tidak dapat melakukan seleksi peubah bebas karena hanya menyusutkan koefisien MKT ke arah nol, sehingga interpretasi akan semakin sulit jika peubah bebas yang digunakan semakin banyak. Berdasarkan data yang digunakan, metode LASSO lebih baik digunakan karena model yang dihasilkan lebih sederhana dan dapat memperbaiki masalah multikolinearitas melalui penyusutan koefisien tepat nol.

!

Saran untuk penelitian selanjutnya diharapkan dapat membandingkan metode MKT, gulud, dan LASSO dengan menggunakan simulasi untuk mengetahui sifat:sifat dari ketiga metode tersebut.

Aunuddin. 2005. $

% . Bogor: IPB Press. [BPS]Badan Pusat Statistik. 2011.

Perkembangan Beberapa Indikator Utama Sosial:Ekonomi Indonesia. http://www.bps.go.id/hasil_publikasi/flip John Wiley & Sons, Inc.

[Depkes] Departemen Kesehatan. 2010. Riset Kesehatan Dasar. Jakarta: Depkes RI. Dewi YS.2010.OLS, LASSO dan PLS pada

Data Mengandung Multikolinearitas.

( % 11(1): 83:91.

Draper N, Smith H. 1992.

& )* Sumantri B,

penerjemah. Jakarta: Gramedia Pustaka Utama. Terjemahan dari:

*

Hastie T, Tibshirani R, Friedman J. 2008.

& * %

+ , , - * Ed

ke:2. New York: Springer.

(18)

10

Montgomery DC, Peck EA. 1992.

. Ed ke:2. USA: John Wiley & Sons, Inc.

Pasha GR, Shah AA. 2004. Application of Ridge Regression to Multicollinear Data.

( 15(1): 97:106.

Tibshirani R. 1996. Regression Shrinkage and Selection via the LASSO. (

(19)
(20)

12

(21)

13

Lampiran 2 Nilai korelasi antar peubah

Y X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15

X1 0.525 1.000 :0.494 -0.345 0.001 0.055 -0.287 -0.5 0.21 -0.176 -0.387 0.073 -0.287 -0.438 -0.362 -0.358

X2 :0.196 :0.494 1.000 0.111 :0.150 :0.057 0.048 0.223 :0.364 :0.078 0.611 :0.205 0.165 0.277 0.202 0.369

X3 :0.494 :0.345 0.111 1.000 0.586 0.471 0.698 0.655 :0.242 0.675 0.186 :0.242 0.399 0.571 0.415 0.198

X4 :0.282 0.001 :0.150 0.586 1.000 0.624 0.679 0.494 :0.175 0.731 :0.207 0.035 0.609 0.376 0.395 :0.033

X5 :0.375 0.055 :0.057 0.471 0.624 1.000 0.658 0.490 :0.220 0.654 :0.173 :0.106 0.312 0.412 0.425 :0.045

X6 :0.631 :0.287 0.048 0.698 0.679 0.658 1.000 0.752 :0.336 0.700 0.097 :0.027 0.557 0.469 0.372 0.119 X7 :0.800 :0.500 0.223 0.655 0.494 0.490 0.752 1.000 :0.518 0.698 0.184 :0.188 0.526 0.639 0.511 0.448

X8 0.530 0.210 :0.364 :0.242 :0.175 :0.220 :0.336 :0.518 1.000 :0.508 :0.061 0.163 :0.310 :0.488 :0.362 :0.362

X9 :0.596 :0.176 :0.078 0.675 0.731 0.654 0.700 0.698 :0.508 1.000 :0.217 :0.185 0.627 0.743 0.672 0.195

X10 :0.119 :0.387 0.611 0.186 :0.207 :0.173 0.097 0.184 :0.061 :0.217 1.000 0.024 0.096 0.094 :0.080 0.400

X11 0.192 0.073 :0.205 :0.242 0.035 :0.106 :0.027 :0.188 0.163 :0.185 0.024 1.000 :0.094 :0.464 :0.443 :0.522

X12 :0.331 :0.287 0.165 0.399 0.609 0.312 0.557 0.526 :0.310 0.627 0.096 :0.094 1.000 0.606 0.603 0.298

X13 :0.503 :0.438 0.277 0.571 0.376 0.412 0.469 0.639 :0.488 0.743 0.094 :0.464 0.606 1.000 0.815 0.554 X14 :0.444 :0.362 0.202 0.415 0.395 0.425 0.372 0.511 :0.362 0.672 :0.080 :0.443 0.603 0.815 1.000 0.424

(22)

14

Lampiran 3 Koefisien regresi menggunakan metode LASSO untuk setiap tahapan

Tahapan X1 X2 X3 X4 X5 X6 X7 X8

0 0.00000000 0.00000000 0.0000000 0.00000000 0.00000000 0.00000000 0.0000000 0.0000000 1 0.00000000 0.00000000 0.0000000 0.00000000 0.00000000 0.00000000 :2.120658 0.0000000 2 0.02793919 0.00000000 0.0000000 0.0000000 0.0000000 0.00000000 :2.148598 0.0000000 3 0.26198708 0.00000000 0.0000000 0.0000000 0.0000000 0.00000000 :2.240024 0.2319052

4 0.35890897 0.00000000 0.0000000 0.0000000 0.0000000 :0.0991065 :2.188189 0.3238946 5 0.39511371 0.00000000 0.0000000 0.0000000 0.0000000 :0.1251415 :2.163386 0.3509426 6 0.52952827 0.00000000 0.0000000 0.0000000 0.0000000 :0.0924380 :2.267452 0.4734736 7 0.62339949 0.00000000 0.0000000 0.0000000 0.0000000 :0.0907125 :2.345054 0.5591056 8 0.63871524 0.00000000 0.0000000 0.1087190 0.0000000 :0.1289478 :2.369281 0.5650357 9 0.71946600 0.00000000 0.0000000 0.4643464 0.0000000 :0.2873433 :2.435426 0.5891777

10 0.75059496 0.03717267 0.0000000 0.5266534 0.0000000 :0.3187327 :2.447390 0.6119289 11 0.82911204 0.07548259 0.1614031 0.5990276 0.0000000 :0.4246621 :2.484197 0.6153930 12 0.89386774 0.16941189 0.3272887 0.5865779 0.0000000 :0.4471272 :2.503613 0.6365250 13 0.90576624 0.17990956 0.3492921 0.5890391 0.0000000 :0.4484388 :2.504679 0.6380897 14 0.93695211 0.21606374 0.4097426 0.5972309 0.0000000 :0.4553521 :2.508435 0.6475368 15 1.15449169 0.56523828 1.3209366 0.5644759 0.5483645 :0.8328646 :2.654492 0.6663307

Tahapan X9 X10 X11 X12 X13 X14 X15

0 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 1 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 2 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000

3 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 4 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 5 :0.0193468 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 6 :0.0500960 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.2573776 7 :0.0230298 0.0000000 0.1683546 0.0000000 0.0000000 0.0000000 0.5073396 8 :0.0848570 0.0000000 0.2134023 0.0000000 0.0000000 0.0000000 0.5928408

9 :0.3501723 0.0000000 0.3713824 0.1207291 0.0000000 0.0000000 0.8758591 10 :0.3748439 0.0000000 0.4085372 0.1359669 0.0000000 0.0000000 0.9286722 11 :0.4907445 0.0000000 0.4973301 0.2048559 0.0000000 0.0000000 1.0197175 12 :0.6269609 :0.1577275 0.6040460 0.2694688 0.0000000 0.0000000 1.1347230 13 :0.6620621 :0.1799704 0.6219148 0.2752517 0.0192328 0.0000000 1.1467546 14 :0.7542239 :0.2514741 0.6700121 0.2982096 0.0931897 :0.0346044 1.1834009

(23)

15

Lampiran 4 Nilai ∑ β /max ∑ β untuk setiap tahapan LASSO

Tahapan |X1| |X2| |X3| |X4| |X5| |X6| |X7| |X8| |X9|

0 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 1 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 2.120658 0.000000 0.000000 2 0.027939 0.000000 0.000000 0.000000 0.000000 0.000000 2.148598 0.000000 0.000000 3 0.261987 0.000000 0.000000 0.000000 0.000000 0.000000 2.240024 0.231905 0.000000 4 0.358909 0.000000 0.000000 0.000000 0.000000 0.099106 2.188189 0.323895 0.000000 5 0.395114 0.000000 0.000000 0.000000 0.000000 0.125142 2.163386 0.350943 0.019347

6 0.529528 0.000000 0.000000 0.000000 0.000000 0.092438 2.267452 0.473474 0.050096 7 0.623399 0.000000 0.000000 0.000000 0.000000 0.090713 2.345054 0.559106 0.023030 8 0.638715 0.000000 0.000000 0.108719 0.000000 0.128948 2.369281 0.565036 0.084857 9 0.719466 0.000000 0.000000 0.464346 0.000000 0.287343 2.435426 0.589178 0.350172 10 0.750595 0.037173 0.000000 0.526653 0.000000 0.318733 2.447390 0.611929 0.374844 11 0.829112 0.075483 0.161403 0.599028 0.000000 0.424662 2.484197 0.615393 0.490744 12 0.893868 0.169412 0.327289 0.586578 0.000000 0.447127 2.503613 0.636525 0.626961 13 0.905766 0.179910 0.349292 0.589039 0.000000 0.448439 2.504679 0.638090 0.662062

14 0.936952 0.216064 0.409743 0.597231 0.000000 0.455352 2.508435 0.647537 0.754224 15 1.154492 0.565238 1.320937 0.564476 0.548365 0.832865 2.654492 0.666331 2.097978

Tahapan |X10| |X11| |X12| |X13| |X14| |X15| sum |beta| |beta|/max|beta|

0 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 1 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 2.120658 0.124673 2 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 2.176537 0.127958 3 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 2.733916 0.160727 4 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 2.970099 0.174612

5 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 3.053931 0.179540 6 0.000000 0.000000 0.000000 0.000000 0.000000 0.257378 3.670365 0.215781 7 0.000000 0.168355 0.000000 0.000000 0.000000 0.507340 4.316996 0.253796 8 0.000000 0.213402 0.000000 0.000000 0.000000 0.592841 4.701799 0.276418 9 0.000000 0.371382 0.120729 0.000000 0.000000 0.875859 6.213902 0.365315 10 0.000000 0.408537 0.135967 0.000000 0.000000 0.928672 6.540493 0.384515

Gambar

Tabel 1  Analisis ragam hasil MKT
Tabel 4  Koefisien regresi hasil MKT dan regresi gulud
Tabel 5 Simpangan baku koefisien hasil analisis regresi dengan MKT dan gulud
Gambar 4 Nilai validasi silang dengan menggunakan mode ����
+2

Referensi

Dokumen terkait

Adapun penelitian terdahulu yang menggunakan dua metode tersebut pada data microarray yaitu prediksi waktu tahan hidup pasien penyakit jantung koroner dengan

( ) , memilih titik knot optimal dengan kriteria Generalized Cross Validation (GCV), mencari nilai parameter penghalus dan menentukan model regresi terbaik dengan

Membandingkan metode UBR, CV dan GCV untuk memilih parameter penghalus optimal dalam estimator Deret Fourier dengan menggunakan data simulasi berdasarkan

Adapun penelitian terdahulu yang menggunakan dua metode tersebut pada data microarray yaitu prediksi waktu tahan hidup pasien penyakit jantung koroner dengan

Geographically weighted regression merupakan salah satu pengembangan model regresi linier yang digunakan untuk mengatasi masalah heterogenitas spasial yang disebabkan

11 Dalam pemilihan model dan pendugaan parameter LASSO di contoh kasus 2, terdapat beberapa gugus data dimana tidak terpilih sama sekali peubah penjelas, artin a semua β i

Membandingkan metode UBR, CV dan GCV untuk memilih parameter penghalus optimal dalam estimator Deret Fourier dengan menggunakan data simulasi berdasarkan

Pada penelitian yang berjudul “Deteksi Kanker berdasarkan Klasifikasi Data Microarray menggunakan Functional Link Neural Network dengan Seleksi Fitur Genetic Algorithm.” [13] telah