• Tidak ada hasil yang ditemukan

Metode Regresi Komponen Utama, Regresi Kuadrat Terkecil Parsial, dan LASSO pada Data Kemiskinan Hasil Olahan Susenas 2012

N/A
N/A
Protected

Academic year: 2017

Membagikan "Metode Regresi Komponen Utama, Regresi Kuadrat Terkecil Parsial, dan LASSO pada Data Kemiskinan Hasil Olahan Susenas 2012"

Copied!
30
0
0

Teks penuh

(1)

METODE REGRESI KOMPONEN UTAMA, REGRESI KUADRAT TERKECIL PARSIAL, DAN LASSO PADA DATA KEMISKINAN HASIL

OLAHAN SUSENAS 2012

NURHAYATI

DEPARTEMEN STATISTIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR BOGOR

(2)
(3)

PERNYATAAN MENGENAI SKRIPSI DAN

SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA*

Dengan ini saya menyatakan bahwa skripsi berjudul Metode Regresi Komponen Utama, Regresi Kuadrat Terkecil Parsial, dan LASSO pada Data Kemiskinan Hasil Olahan Susenas 2012 adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.

(4)

ABSTRAK

NURHAYATI. Metode Regresi Komponen Utama, Regresi Kuadrat Terkecil Parsial, dan LASSO pada Data Kemiskinan Hasil Olahan Susenas 2012. Dibimbing oleh MUHAMMAD NUR AIDI dan AGUS M SOLEH.

Multikolinieritas merupakan salah satu masalah yang timbul pada regresi linier berganda. Multikolinieritas menyebabkan pengujian model dan pendugaan koefisien regresi menjadi tidak valid karena menghasilkan ragam yang besar. Metode yang dapat digunakan untuk mengatasi multikolinieritas pada suatu data di antaranya adalah RKU, RKTP, dan LASSO. RKU dan RKTP membentuk komponen-komponen baru yang saling bebas dalam mengatasi multikolinieritas. Kedua metode sebelumnya tidak dapat melakukan penyeleksian peubah. LASSO melakukan penyeleksian peubah bebas dengan menyusutkan nilai koefisien tepat nol. Hasilnya menunjukkan model terbaik dari ketiga metode berdasarkan nilai RMSE dihasilkan oleh metode LASSO, dan berdasarkan nilai RMSEP dihasilkan oleh metode RKU. Selisih nilai kesalahan untuk ketiga metode tidak jauh berbeda. Kata kunci: LASSO, Multikolinieritas, RKTP, RKU

ABSTRACT

NURHAYATI. Principal Componen Regression, Partial Least Square, and LASSO Methods on Poverty Data Result of Susenas 2012. Supervised by MUHAMMAD NUR AIDI and AGUS M SOLEH.

Multicollinearity is a problem that is arise in multiple linear regression. Multicollinearity lead testing and estimating coefficient regression models become invalid because it produces a large variety. Methods that can be used to overcome multicollinearity in the data in among these are PCR, PLS, and LASSO. PCR and PLS forming independent new components to overcome multicollinearity. Both method previously unable to do the screening variables. LASSO does the screening variables by shrinking appropriate coefficient value of zero. The result showed the best model of the three based on RMSE value produced by LASSO method, and based on RMSEP value produced by RKU method. Difference in value of error for the three method are not much different.

(5)

Skripsi

sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika pada Departemen Statistika

METODE REGRESI KOMPONEN UTAMA, REGRESI KUADRAT TERKECIL PARSIAL, DAN LASSO PADA DATA KEMISKINAN HASIL

OLAHAN SUSENAS 2012

DEPARTEMEN STATISTIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR BOGOR

2014

(6)
(7)
(8)

PRAKATA

Puji dan syukur penulis panjatkan kepada Allah SWT atas segala karunia-Nya sehingga penulis dapat menyelesaikan karya ilmiah yang berjudul “Metode Regresi Komponen Utama, Regresi Kuadrat Terkecil Parsial, dan LASSO pada Data Kemiskinan Hasil Olahan Susenas 2012”. Karya ilmiah ini merupakan salah satu syarat kelulusan di Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Terima kasih penulis ucapkan kepada Bapak Dr Ir Muhammad Nur Aidi, MS dan Bapak Agus M Soleh, SSi MT selaku pembimbing yang telah banyak memberi masukan dan saran. Terima kasih penulis ucapkan kepada Bapak Ir M. Masjkur, MS selaku dosen penguji yang telah memberikan banyak masukan dan saran pada penulis. Ungkapan terima kasih juga disampaikan kepada kedua orang tua serta seluruh keluarga, atas segala doa dan kasih sayangnya.

Semoga karya ilmiah ini bermanfaat.

(9)

DAFTAR ISI

DAFTAR TABEL vi

DAFTAR GAMBAR vi

DAFTAR LAMPIRAN vi

PENDAHULUAN 1

Latar Belakang 1

Tujuan Penelitian 1

METODE 2

Data 2

Prosedur Analisis Data 2

HASIL DAN PEMBAHASAN 6

Hasil Pendugaan Metode Kuadrat Terkecil (MKT) 6

Pendeteksian Multikolinieritas 6

Pendugaan Menggunakan Regresi Komponen Utama (RKU) 7 Pendugaan Menggunakan Regresi Kuadrat Terkecil Parsial (RKTP) 9 Pendugaan Menggunakan Least Absolute Shrinkage and Selection Operator

(LASSO) 11

Perbandingan Metode 14

SIMPULAN 14

DAFTAR PUSTAKA 15

LAMPIRAN 16

(10)

DAFTAR TABEL

1 Analisis ragam hasil MKT 6

2 Nilai dugaan koefisien regresi dan nilai-p pada MKT 6

3 Nilai VIF setiap peubah bebas 7

4 Vektor ciri untuk setiap komponen 7

5 Nilai RMSECV dan akar ciri metode RKU 8

6 Nilai dugaan koefisien regresi dan nilai-p pada RKU 8

7 Bentukan matriks bobot W 9

8 Bentukan matriks loading P 9

9 Nilai penduga koefisien regresi c 10

10 Nilai RMSECV dan variansi total metode RKTP 10 11 Nilai dugaan koefisien regresi dan nilai-p pada RKTP 11 12 Tahapan peubah bebas yang masuk ke dalam model 12 13 Nilai dugaan koefisien regresi metode LASSO 13

14 Nilai RMSE dan RMSEP 14

DAFTAR GAMBAR

1 Plot objek LARS yang dihasilkan oleh fungsi LAR 11

2 Validasi silang menggunakan mode step 12

3 Validasi silang menggunakan mode fraction 13

DAFTAR LAMPIRAN

(11)

PENDAHULUAN

Latar Belakang

Regresi merupakan alat statistika yang digunakan untuk memodelkan hubungan dari peubah respon dengan sebuah atau beberapa peubah bebas. Salah satu masalah yang timbul apabila peubah bebas lebih dari 1 dalam regresi linier berganda adalah multikolinieritas. Masalah multikolinieritas yang terjadi pada penelitian ini merupakan near multikolinieritas, karena pada data contoh multikolinieritas sempurna tidak pernah terjadi. Multikolinieritas biasanya, tetapi tidak selalu, ditandai dengan adanya korelasi antara peubah bebas di dalam model. Adanya multikolinieritas menyebabkan pendugaan koefisien regresi menggunakan Metode Kuadrat Terkecil (MKT) masih dapat dilakukan, namun interpretasinya menjadi sulit (Juanda 2009). Akibatnya pendugaan model regresi yang diperoleh pun menjadi tidak layak.

Masalah multikolinieritas dapat diatasi dengan harapan diperoleh model terbaik dengan ragam minimum. Untuk mengatasi masalah ini, salah satunya dengan mengunakan penduga regresi berbias, yaitu regresi gulud (ridge regression), Regresi Kuadrat Terkecil Parsial (RKTP), Least Absolute Shrinkage and Selection Operator (LASSO), dan juga pendekatan berdasarkan komponen utama (Jolliffe 2002). Metode yang digunakan untuk mengatasi multikolinieritas pada penelitian ini yaitu Regresi Kompone Utama (RKU), Regresi Kuadrat Terkecil Parsial (RKTP), dan Least Absolute Shrinkage and Selection Operator (LASSO).

Metode RKU meregresikan peubah respon dengan komponen-komponen utama yang bersifat ortogonal sebagai peubah bebas baru melalui MKT. Komponen-komponen inilah yang membuat tidak ada lagi masalah multikolinieritas dalam model. Metode regresi lain yang digunakan adalah RKTP. Metode ini diperkenalkan oleh statistisi asal Swedia, Herman Wold, pada tahun 1960. Regresi RKTP menggeneralisasi dan menggabungkan sifat-sifat dari analisis komponen utama (AKU) dan regresi linier berganda (Abdi 2010). Meskipun awalnya diterapkan di bidang ilmu sosial, saat ini RKTP lebih banyak diterapkan di bidang kemometrik dan bidang-bidang lain (Ismah dkk. 2009, Farmani dkk. 2012).

Tahun 1996, Tibshirani memperkenalkan teknik regresi penyusutan lain yang baik bila berurusan dengan peubah bebas yang banyak, yaitu Least Absolute Shrinkage and Selection Operator (LASSO). LASSO melakukan penyeleksian peubah bebas selain mengatasi multikolinieritas, sehingga memungkinkan kita untuk menggunakan hanya sebagian peubah bebas dalam model.

Tujuan Penelitian

(12)

2

METODE

Data

Penerapan metode pada penelitian ini menggunakan data riil yang diperoleh dari hasil olahan Susenas 2012, Badan Pusat Statistik Indonesia. Respon yang digunakan adalah persentase penduduk miskin setiap provinsi di Indonesia pada tahun 2012 (www.bps.go.id/menutab.php?tabel=1&kat=1&id_subyek=23). Peubah bebas yang diduga berpengaruh terhadap respon yaitu (www.bps.go.id/menutab.php?tabel=1&kat=1&id_subyek=29) [diunduh 6 juni 2014]:

X1: Persentase rumah tangga menurut provinsi dengan atap terluas bukan ijuk/lainnya.

X2: Persentase rumah tangga menurut provinsi dengan dinding terluas bukan bambu/lainnya.

X3: Persentase rumah tangga menurut provinsi dengan KRT yang bekerja. X4: Persentase rumah tangga menurut provinsi dengan lantai terluas bukan

tanah.

X5: Persentase rumah tangga menurut provinsi dengan sanitasi layak, 2012. X6: Persentase rumah tangga menurut provinsi dengan sumber air minum layak. X7: Persentase rumah tangga menurut provinsi dengan status kepemilikan

rumah milik sendiri.

X8: Persentase rumah tangga menurut provinsi dengan status kepemilikan rumah kontrak/sewa.

X9: Persentase rumah tangga menurut provinsi dengan luas hunian per kapita<= 7.2 m2.

X10: Persentase penduduk buta huruf menurut kelompok umur 15-44 tahun. X11: Persentase penduduk 10 tahun ke atas yang tidak/belum pernah sekolah

menurut provinsi.

X12: Persentase rumah tangga menurut provinsi yang tidak memiliki kendaraan bermotor.

Prosedur Analisis Data

1. Melakukan perhitungan regresi linier berganda menggunakan Metode Kuadrat Terkecil (MKT).

2. Mendeteksi multikolinieritas menggunakan nilai Variance Inflation Factor (VIF). Nilai VIF yang lebih dari 1 sudah menunjukkan adanya multikolinieritas. Nilai VIF yang lebih besar dari 10 menunjukkan adanya masalah multikolinieritas serius (Montgomery & Peck 1991). Nilai VIF diperoleh dengan rumus berikut: − R − , dimana R adalah koefisien determinasi bila X diregresikan terhadap peubah bebas lainnya.

(13)

3 penduganya melalui MKT sebagai upaya untuk mengurangi efek multikolinieritas (Jolliffe 2002). Tahapan untuk metode RKU sebagai berikut:

3.1.Membentuk matriks mean centered dari = − ̅ , dimana n adalah banyaknya data, dan p adalah banyaknya peubah.

3.2.Membentuk komponen-komponen utama yang akan dijadikan peubah bebas baru.

3.3.Melakukan perhitungan skor komponen utama untuk setiap unit pengamatan dengan rumus:

� = �′

Keterangan:

� : skor komponen utama ke-i pengamatan ke-j �′ : vektor ciri komponen utama ke-i

: vektor dari peubah yang diamati pada pengamatan ke-j 3.4.Menentukan banyaknya komponen yang masuk dalam model melalui

proses validasi silang, yaitu dengan menggunakan nilai root mean square error of cross validation (RMSECV) minimum yang diperoleh dengan rumus berikut,

RMSEcv. K = √ ∑K= ∑ i, i ∈T f − y

dengan k adalah banyaknya fold. Proses validasi menggunakan K-fold

akan mengurangi keragaman, meski biasnya tinggi, dan K ≈ 10 telah ditujukan sebagai kesepakatan yang baik antara ragam dan bias (Mevik & Cederkvist 2004). Pada penelitian ini, banyaknya fold sudah ditentukan pada paket program R yang digunakan yaitu 10 fold. Selanjutnya, f adalah dugaan y untuk x pada saat fold ke-k tidak digunakan dalam menduga model, dan y adalah peubah respon ke-i. Selain itu, pemilihan banyaknya komponen utama yang digunakan dapat menggunakan nilai akar ciri. Pada penyeleksian komponen utama, sebagian ahli mengambil akar ciri yang lebih besar dari 1 (Draper & Smith 1992).

(14)

4

4. Melakukan pendugaan koefisien menggunakan metode Refresi Kuadrat Terkecil Parsial (RKTP). Perbedaan RKTP dibanding dengan RKU yaitu komponen-komponen tidak hanya dibentuk berdasarkan peubah bebas. Akan tetapi, dibentuk sebagai kombinasi linier peubah bebas yang memiliki peragam maksimum dengan kombinasi linier peubah respon (Ismah dkk. 2009). RKTP mencari suatu dekomposisi linier X dengan:

= �′+ �; � = ;�� =; �= �

Keterangan:

T : matriks komponen berukuran nxm

P : matriks loading berukuran kxm

I : matriks identitas berukuran mxm

E : matriks sisaan berukuran nxk

Matriks sisaan E menyatakan seberapa besar X yang tidak terdekomposisi menjadi matriks komponen T dan loading P.Model regresi untuk RKTP yaitu = � + =T ′ − ′ + , karena = , sehingga model akhirnya diperoleh dengan:

= ′ ′ − ′ ′ + = ′ − � + �;�= �

Keterangan:

c : vektor koefisien regresi berukuran mx1

W : matriks bobot berukuran kxm

F : vektor sisaan berukuran nx1

Vektor sisaan F menyatakan seberapa besar Y yang tidak dijelaskan oleh matriks komponen T. Agar dapat menerangkan keragaman dari X dan menduga Y dengan baik, dibentuk komponen-komponen matriks menggunakan algoritma NIPALS yang bersifat iteratif. Tahapan untuk metode RKTP menggunakan algoritma NIPALS sebagai berikut:

4.1.Membentuk matriks mean centered dari = − ̅ dan = − ̅ , dimana n adalah banyaknya data, dan p adalah banyaknya peubah. 4.2.Inisialisasi i=1,…,m. Dimana m adalah banyaknya komponen yang

terbentuk.

(15)

5

5. Melakukan pendugaan koefisien menggunakan metode Least Absolute Shrinkage and Selection Operator (LASSO). Penduga koefisien LASSO diperoleh dengan meminimumkan jumlah kuadrat sisaan ∑= y − − ∑ x= , dengan kendala ∑ |̂ |= ≤ t. Nilai t adalah parameter tuning yang ukuran numeriknya ditentukan melalui proses validasi silang. Pendugaan koefisien LASSO diperoleh dengan menentukan batas yang dibakukan, yaitu s = t ∑ |̂ |⁄ = dengan t = ∑ |̂ |= , dimana ̂ merupakan |̂| max|̂|⁄ (Dewi 2010). Jika ̂ adalah penduga kuadrat terkecil untuk model penuh dan t = ∑ |̂ |= , nilai t < t menyebabkan sejumlah koefisien menjadi 0 (Tibshirani 1996). Untuk mendapatkan solusi LASSO digunakan modifikasi algoritma LAR sebagai berikut (Hastie et al. 2008):

5.1.Membakukan peubah bebas sehingga memiliki nilai tengah 0 dan ragam 1.

5.2.Menetapkan penduga koefisien regresi , , ⋯ , = .

5.3.Memasukkan peubah bebas yang berkorelasi tinggi dengan sisaan ke dalam model. Jika koefisien bukan nol mencapai nol, keluarkan peubah dari kumpulan peubah-peubah aktif dan hitung kembali arah kuadrat terkecil bersama.

5.4.Lanjutkan langkah ini sampai p peubah bebas dimasukkan. Solusi model penuh untuk kuadrat terkecil diperoleh setelah min(N-1,p) langkah. 5.5.Memilih model terbaik LASSO menggunakan kriteria validasi silang,

mode step dan mode fraction.

6. Menentukan metode dengan model terbaik berdasarkan kriteria RMSE dan RMSEP. Rumus RMSE dan RMSEP sebagai berikut,

RMSE = √∑ni= ̂i− i ; RMSEP = √ ∑ f − y

i, i∈T

K

=

(16)

6

HASIL DAN PEMBAHASAN

Hasil Pendugaan Metode Kuadrat Terkecil (MKT)

Analisis regresi linier berganda menggunakan MKT menunjukkan model berpengaruh secara statistik pada pada taraf nyata 10% (Tabel 1). Keragaman peubah respon yang mampu dijelaskan oleh peubah bebas sebesar 77.9%, sisanya dijelaskan oleh peubah-peubah lain di luar model. Pada pendugaan koefisien regresi secara parsial (Tabel 2), dari semua peubah bebas yang masuk ke dalam model, persentase rumah tangga menurut provinsi dengan KRT yang bekerja (X3), persentase rumah tangga menurut provinsi dengan lantai terluas bukan tanah (X4), dan persentase penduduk buta huruf menurut kelompok umur 15-44 tahun (X10) yang berpengaruh terhadap persentase penduduk miskin (Y).

Pendeteksian Multikolinieritas

Nilai Variance Inflation Factor (VIF) digunakan untuk mendeteksi masalah multikolinieritas. Semua peubah bebas memiliki nilai VIF lebih dari 1, yang artinya

Tabel 1 Analisis ragam hasil MKT Sumber

Tabel 2 Nilai dugaan koefisien regresi dan nilai-p pada MKT Peubah Koefisien

(17)

7 terdapat peubah bebas yang merupakan fungsi dari peubah bebas lain. Nilai VIF dari data rata-rata jam kerja selama setahun untuk setiap peubah bebas dapat dilihat pada Tabel 3.

Pendugaan Menggunakan Regresi Komponen Utama (RKU)

Tahap awal pada RKU yaitu dengan melakukan pemusatan data sehingga memiliki satuan yang sama. Tahap berikutnya membentuk komponen utama dan melakukan skor komponen utama. Hasil skor komponen-komponen utama dapat dilihat pada Lampiran 1, dan vektor-vektor ciri yang digunakan untuk melakukan skor komponen utama dapat dilihat pada Tabel 4.

Tabel 3 Nilai VIF setiap peubah bebas Peubah Bebas VIF

Tabel 4 Vektor ciri untuk setiap komponen

(18)

8

Pemilihan banyaknya komponen dilakukan dengan menggunakan nilai root mean square error of cross validation (RMSECV) minimum dan nilai akar ciri. Nilai RMSECV dan akar ciri untuk setiap komponen pada metode RKU dapat dilihat pada Tabel 5.

Nilai RMSECV minimum diperoleh pada komponen pertama. Berdasarkan nilai akar ciri lebih dari 1, banyaknya komponen terpilih adalah 4. Setelah diregresikan skor komponen utamanya, hanya skor komponen pertama yang berpengaruh terhadap model. Jadi, model optimal pada data persentase penduduk miskin diperoleh dengan melibatkan 1 komponen. Setelah didapatkan banyaknya komponen yang masuk ke dalam model, langkah selanjutnya adalah menduga koefisien regresi metode RKU. Nilai pendugaan koefisien dengan 1 komponen dapat dilihat pada Tabel 6. Dari semua peubah bebas yang masuk ke dalam model, X4, X5, X7, X8, dan X12 yang berpengaruh terhadap persentase penduduk miskin (Y). Keragaman peubah respon yang mampu dijelaskan oleh peubah bebas sebesar 53.46%.

Tabel 5 Nilai RMSECV dan akar ciri metode RKU Komponen ke-i RMSECV Akar Ciri Proporsi Akar Ciri

1 4.949 4.353 0.363

(19)

9

Pendugaan Menggunakan Regresi Kuadrat Terkecil Parsial (RKTP)

Tahap awal pendugaan koefisien pada metode PLS yaitu dengan melakukan perhitungan nilai-nilai dari vektor pembobot , vektor loading p, dan vektor komponen t. PLS memilih komponen-komponen yang menjelaskan sebesar mungkin keragaman peubah bebas dan peubah respon, sehingga koefisien model yang terbentuk tidak banyak berubah ketika sampel baru diambil dari populasi. Hasil bentukan kolom-kolom w dan p menjadi matriks bobot W dan loading P

dapat dilihat pada Tabel 7 dan Tabel 8, sedangkan hasil bentukan kolom-kolom t

untuk matriks T dapat dilihat pada Lampiran 2.

Tabel 7 Bentukan matriks bobot W

w1 w2 w3 w4 w5 w6 w7 w8 w9 w10 w11 w12

Tabel 8 Bentukan matriks loading P

(20)

10

Penduga koefisien regresi c diperoleh setelah nilai-nilai dari , p, dan t

didapatkan. Nilai penduga koefisien regresi c yaitu �̂dapat dilihat pada Tabel 9.

Setelah melakukan perhitungan nilai-nilai w, p, t, dan �̂, dilakukan pemilihan banyaknya komponen yang digunakan dalam model. Pemilihan dilakukan dengan menggunakan nilai root mean square error of cross validation (RMSECV) minimum. Nilai RMSECV dan variansi total untuk setiap komponen dapat dilihat pada Tabel 10.

Pada Tabel 10, besarnya nilai RMSEP minimum berada pada komponen 1 yaitu 5.171. Model optimal dengan mempertimbangkan hasil proses validasi silang diperoleh dengan melibatkan 1 komponen. Selanjutnya adalah menduga koefisien regresi metode RKTP dengan menggunakan rumus �̂RKTP = �′ −��̂ . Sebelumnya telah dinyatakan bahwa banyaknya komponen yang terpilih adalah 1, maka matriks W dan P merupakan matriks yang terdiri dari satu vektor yaitu dan � , dan �̂ yang digunakan adalah ĉ .Nilai dugaan koefisien dengan 1 komponen dapat dilihat pada Tabel 11. Sama halnya seperti RKU, peubah-peubah bebas yang berpengaruh terhadap persentase penduduk miskin (Y) adalah X4, X5, X7, X8, dan X12. Keragaman peubah respon yang mampu dijelaskan oleh peubah bebas sebesar 55.99%.

Tabel 9 Nilai penduga koefisien regresi c

ĉ ĉ ĉ ĉ ĉ ĉ ĉ ĉ ĉ ĉ ĉ ĉ

Y 0.218 0.242 0.206 0.126 0.210 0.151

Tabel 10 Nilai RMSECV dan variansi total metode RKTP Komponen ke-i RMSECV Variansi Total X R

1 5.171 47.43% 55.99%

2 6.108 57.80% 64.46%

3 6.045 66.68% 70.99%

4 5.873 75.35% 73.72%

5 6.124 86.51% 74.42%

6 6.503 90.52% 76.10%

7 6.543 93.53% 77.65%

8 6.689 96.54% 77.83%

9 6.769 97.30% 77.93%

10 7.397 98.65% 77.94%

11 7.970 99.74% 77.94%

(21)

11

Pendugaan Menggunakan Least Absolute Shrinkage and Selection Operator (LASSO)

LASSO merupakan regresi penyusutan seperti regresi gulud, dimana perbedaan antara keduanya terletak pada kendala pendugaan nilai koefisien regresi LASSO yang berperan sebagai parameter tuning. Solusi dari penduga koefisien LASSO diperoleh dengan menggunakan metode regresi yang disebut Least Angle Regression (LAR). Hasil dari tahapan pendugaan koefisien LASSO menggunakan algoritma LAR dapat dilihat pada Gambar 1.

Tabel 11 Nilai dugaan koefisien regresi dan nilai-p pada RKTP Peubah Koefisien

Penduga t-hitung Nilai-p X1 -0.0619 -1.5422 0.1574 X2 -0.0373 -1.2660 0.2373 X3 0.0085 0.6061 0.5594 X4 -0.0508 -4.5403 0.0014* X5 -0.0943 -2.5848 0.0295* X6 0.0118 0.7612 0.4660 X7 0.0318 3.1167 0.0124* X8 -0.0325 -3.9457 0.0034* X9 0.0585 1.8130 0.1032 X10 0.0377 1.1819 0.2675 X11 0.0376 1.1480 0.2806 X12 0.1490 3.3362 0.0087* Keterangan: * berpengaruh pada taraf nyata 10%

Gambar 1 Plot objek untuk menduga koefisien LASSO

S

tan

d

ari

sasi

Ko

ef

isi

(22)

12

Peubah pertama yang masuk ke dalam model adalah X12, artinya X12 merupakan peubah yang paling berkorelasi dengan sisaan. Peubah selanjutnya yang paling berkorelasi dengan sisaan setelah X12 adalah X10, sehingga X10 adalah peubah kedua yang masuk dalam model. Peubah yang terakhir masuk ke dalam model adalah X7. Peubah-peubah yang masuk ke dalam model pada setiap tahapan dapat dilihat pada Tabel 12. Nilai peubah yang masuk ke dalam model dapat dilihat pada Lampiran 3.

Langkah selanjutnya yaitu melakukan pemilihan model terbaik LASSO. Model terbaik dipilih dengan menggunakan kriteria validasi silang, yaitu mode step dan mode fraction. Perhitungan nilai validasi silang pada mode step dilakukan saat penambahan sebuah peubah bebas disetiap tahapan. Berdasarkan hasil perhitungan nilai tersebut, model terbaik diperoleh pada tahap 6 (Gambar 2). Hal ini didasarkan plot dari validasi silang yang merupakan nilai minimum.

Tabel 12 Tahapan peubah bebas yang masuk ke dalam model Tahap Peubah ke-i Nama Peubah

Gambar 2 Validasi silang menggunakan mode step

(23)

13

Perhitungan nilai validasi silang selanjutnya menggunakan mode fraction. Nilai validasi silang pada mode fraction diperoleh dengan, ∑|̂| max ∑|̂|⁄ . Pemilihan model terbaik pada mode fraction dilakukan dengan mengamati plot yang dihasilkan oleh mode ini. Titik minimum plot berada disekitar nilai 0.3 (Gambar 3). Nilai ini berada pada tahap 5 hingga tahap 9. Nilai ∑|̂| max ∑|̂|⁄ untuk setiap tahapan dapat dilihat pada Lampiran 4. Namun dengan mempertimbangkan mode step sebelumnya, maka nilai validasi silang untuk mode fraction dipilih pada tahap ke-6 yaitu 0.3279.

Berdasarkan perhitungan kedua mode untuk kriteria validasi silang yang telah dilakukan, model terbaik LASSO pada data persentase penduduk miskin diperoleh pada tahap 6. Peubah-peubah yang masuk ke dalam model yaitu X12, X10, X11, X5, X4, dan X1. Nilai koefisien untuk model terpilih dapat dilihat pada Tabel 13. Peubah-peubah bebas yang tidak masuk ke dalam model memiliki nilai koefisien 0, sehingga peubah-peubah tersebut terseleksi dari model. Keragaman peubah respon yang mampu dijelaskan oleh peubah bebas sebesar 50.47%.

Gambar 3 Validasi silang menggunakan mode fraction 0.0 0.2 0.4 0.6 0.8 1.0

(24)

14

Perbandingan Metode

Dari hasil pembahasan akan dikaji nilai RMSE dan RMSEP untuk memperoleh model terbaik yang dihasilkan ketiga metode. RMSE dan RMSEP digunakan untuk untuk mengetahui ketepatan dalam menduga peubah respon, dimana RMSE didasarkan pada data amatan dan data hasil pendugaaan, dan RMSEP hanya didasarkan pada data hasil pendugaan. Nilai RMSE dan RMSEP setiap metode dapat dilihat pada Tabel 14.

Berdasarkan Tabel 14, LASSO menghasilkan model terbaik dari ketiga metode berdasarkan nilai RMSE, akan tetapi LASSO menghasilkan nilai RMSEP terbesar. Sebaliknya, RKU menghasilkan model terbaik berdasarkan nilai RMSEP, namun menghasilkan nilai RMSEP terbesar. Nilai RMSE dan RMSEP untuk RKTP besarnya di antara LASSO dan RKU. Pada dasarnya, ketiga metode sudah validation (RMSECV) minimum dari proses validasi silang. Cara lain pemilihan banyaknya komponen pada RKU yaitu dengan menggunakan akar ciri. Umumnya komponen utama dipilih berdasarkan nilai akar ciri lebih dari 1. Nilai keragaman peubah respon yang mampu dijelaskan oleh peubah bebas pada RKU, yaitu sebesar 53.46%, lebih kecil dari RKTP yang sebesar 55.99%. Hal ini dikarenakan pada RKTP pemilihan komponen tidak hanya berdasarkan peubah bebas, tetapi dengan kombinasi linier peubah bebas yang memiliki peragam maksimum dengan kombinasi linier peubah respon. Keragaman peubah respon yang mampu dijelaskan oleh peubah bebas terkecil adalah pada LASSO, yaitu sebesar 50.47%. Komponen-komponen yang dihasilkan RKU dan RKTP sudah saling bebas, sehingga tidak ada lagi masalah multikolinieritas. LASSO selain mengatasi multikolinierias juga melakukan penyeleksian peubah. LASSO menyusutkan nilai koefisien hingga tepat nol sehingga peubah-peubah bebas dengan nilai koefisien tersebut akan terseleksi dari model.

Berdasarkan data Susenas yang digunakan, LASSO menghasilkan model terbaik dibanding RKU dan RKTP berdasarkan nilai RMSE, dan RKU menghasilkan model terbaik berdasarkan nilai RMSEP terkecil. Meskipun begitu, kesalahan yang dihasilkan ketiga metode tidak jauh berbeda dengan

Tabel 14 Nilai RMSE dan RMSEP Metode Kriteria Pemilihan Model

RMSE RMSEP

RKU 4.4017 8.8094

RKTP 4.2804 8.9312

(25)

15 mempertimbangkan kedua nilai tersebut. Selain itu, kelebihan LASSO karena metode ini dapat melakukan penyeleksian peubah, sehingga interpretasi akan menjadi lebih mudah. Namun pada kasus yang menuntut semua peubah bebas untuk dipertahankan, RKTP lebih layak digunakan dibandingkan RKU karena pada RKU beberapa komponen-komponen yang terpilih tidak relevan untuk pendugaan, tetapi hanya relevan untuk menggambarkan keragaman dalam peubah bebas.

DAFTAR PUSTAKA

Abdi H. 2010. Partial least square regression and projection on latent structure regression (RKTP Regression). Wiley Interdisiplinary Reviews: Computational Statistics 2: 97-106.

Dewi YS. 2010. MKT, LASSO dan RKTP pada data mengandung multikolinearitas. Jurnal Ilmu Dasar 11(1): 83-91.

Draper N , Smith H . 1992. Analisis Regresi Terapan (Terjemahan). Edisi Ke-2. Sumantri B, penerjemah. Jakarta (ID): Gramedia Pustaka Utama.

Hastie T, Tibshirani R, Friedman J. 2008. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Edisi ke-2. New York (US): Springer.

Ismah, Wigena AH, Djuraidah A. 2009. Pendekatan regresi kuadrat terkecil parsial robust multirespons dalam model kalibrasi. Prosiding Seminar Nasional Penelitian.

Jolliffe IT. 2002. Principal Component Analysis. Edisi Ke-2. New York (US): Springer-Verlag.

Juanda B. 2009. Ekonometrika: Pemodelan dan Pendugaan. Bogor (ID): IPB Press. Mevik BH, Cederkvist HR. 2004. Mean squared error of prediction (msep) estimates for principal component regression (PCR) and partial least squares regression (PLSR). Journal of Chemometrics 18(9): 422–429.

Montgomery DC & Peck EA. 1991. Introduction to Linear Regression Analysis. New York (US): John Wiley & Sons.

Tibshirani R. 1996. Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society Series B 58(1): 267-288.

Zeng XQ, Li GZ, Wu GF. 2007. On the number of partial least squares components in dimension reduction for tumor classification. PAKDD 2007 Workshop, LNAI 4819, pp. 206-217, 2007.@c: Springer-Verlag Berlin Heidelberg 2007.

(26)

16

Lampiran 1 Hasil bentukan skor komponen-komponen utama

(27)

17 Lampiran 2 Hasil bentukan kolom-kolom t untuk matriks T

t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 t11 t12

1 -4.33 4.13 -3.32 2.69 10.91 10.20 6.92 2.85 1.39 3.11 0.95 -0.43

2 -6.92 -1.78 -5.73 -2.39 -5.64 -1.64 4.87 -1.04 -2.19 -0.94 -2.39 -3.96

3 -5.02 3.41 -6.59 -5.21 6.50 2.10 9.46 -1.66 -2.18 -1.51 -5.39 0.42

4 -20.93 2.92 -4.07 -1.59 -0.15 -1.65 1.48 2.89 -3.09 0.24 -2.14 -3.13

5 -14.34 1.37 2.17 -8.37 2.71 -1.47 -0.53 3.96 1.30 0.03 -3.92 -1.09

6 -3.67 2.33 -0.11 -9.76 -0.27 -1.09 -0.64 2.82 4.93 3.62 -2.79 0.43

7 -5.91 0.63 -6.76 -0.63 16.56 -2.25 -6.76 -1.25 -0.29 -1.20 -3.40 0.94

8 -5.11 3.58 7.49 -0.98 13.56 2.57 -3.84 -3.36 0.07 5.89 -1.56 0.88

9 -28.56 -2.92 2.67 8.52 7.71 5.85 -6.17 -0.49 3.88 -2.14 4.75 -1.76

10 -30.56 5.07 -10.28 11.56 -1.99 -4.12 -7.35 -2.23 -4.45 1.83 2.52 0.79

11 -27.77 4.04 -14.30 15.27 -12.31 -1.66 9.65 4.12 3.56 4.97 -1.34 4.12

12 2.74 -7.34 -7.01 4.27 6.05 -0.27 0.17 -8.75 -1.00 -4.23 -1.51 0.66

13 -2.51 -4.44 21.21 3.63 2.50 2.85 0.50 -2.79 -0.89 7.02 -1.57 -1.07

14 -25.16 -7.84 15.92 5.35 -10.79 2.18 9.83 1.81 -3.58 -3.62 1.48 1.40

15 -4.34 -3.67 16.80 1.49 5.23 1.46 -0.98 -0.39 -1.03 2.65 -3.25 1.33

16 -11.47 -3.26 -5.36 14.02 6.68 0.76 -4.87 -5.96 -0.66 -0.35 3.66 0.60

17 -29.63 -2.45 9.55 3.64 -16.94 -7.15 -6.71 6.11 3.56 -1.33 -0.62 -1.36

18 22.25 -3.33 4.68 3.85 -0.84 -0.73 0.25 -7.62 3.08 -7.59 -4.89 1.51

19 61.58 -20.78 -2.35 12.41 12.18 -7.91 1.94 11.66 -1.44 4.14 0.01 -0.24

20 -1.84 1.69 5.09 -13.45 0.33 -2.42 -5.71 4.33 3.25 -4.05 -1.94 2.32

21 -2.29 5.26 -7.23 -11.57 8.17 -1.55 -2.98 -1.38 -1.55 -0.34 -3.71 0.22

22 -11.42 1.64 -1.65 -12.46 -0.31 0.66 3.98 8.32 -5.09 -2.31 0.76 0.32

23 -29.28 2.01 -3.69 4.02 -2.92 -2.71 -4.18 1.13 -0.36 1.18 0.57 -0.98

24 3.99 -5.66 -4.92 -0.51 -8.92 2.08 5.40 -8.56 2.43 2.00 -0.14 -3.19

25 7.14 1.72 -1.64 -9.76 -1.34 3.86 -0.63 7.26 1.21 2.72 5.92 0.86

26 -1.64 -10.34 2.29 3.90 -0.52 1.96 2.47 -0.59 -0.10 -8.87 1.90 0.87

27 8.37 0.10 2.97 -11.29 -8.43 -0.02 -2.13 2.93 -2.52 -1.74 4.99 0.43

28 19.80 -4.65 -8.20 -3.54 1.57 0.24 1.99 1.32 4.92 -1.85 2.87 -2.78

29 17.02 0.03 -5.58 -5.63 4.32 4.40 -4.78 2.85 -0.92 -2.02 5.44 1.15

30 28.96 -3.35 -5.16 -10.68 -15.51 0.02 3.91 -7.51 0.83 3.67 1.30 1.80

31 18.72 -2.91 1.37 -8.87 -11.81 -2.75 -6.07 -12.27 -2.38 5.11 2.56 0.38

32 24.48 27.06 11.80 5.57 11.51 -9.40 9.94 -4.07 1.10 -2.17 6.06 -0.63

(28)

18

Lampiran 3 Nilai koefisien regresi metode LASSO pada setiap tahapan

Tahap X1 X2 X3 X4 X5 X6 X7 X8

0 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 2 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 3 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 4 0.0000 0.0000 0.0000 0.0000 -0.0087 0.0000 0.0000 0.0000 5 0.0000 0.0000 0.0000 -0.1379 -0.0718 0.0000 0.0000 0.0000 6 -0.0084 0.0000 0.0000 -0.1546 -0.0774 0.0000 0.0000 0.0000 7 -0.0198 0.0000 0.0000 -0.1714 -0.0764 0.0000 0.0000 -0.0219 8 -0.0251 0.0000 -0.0211 -0.1731 -0.0789 0.0000 0.0000 -0.0230 9 -0.0272 0.0034 -0.0331 -0.1764 -0.0807 0.0000 0.0000 -0.0232 10 -0.0288 0.0218 -0.1053 -0.2036 -0.0853 0.0000 0.0000 -0.0477 11 -0.0589 0.1565 -0.6481 -0.4341 -0.1012 -0.0940 0.0000 -0.2561 12 -0.0624 0.1597 -0.6608 -0.4454 -0.0999 -0.0974 -0.0198 -0.2808

Tahap X9 X10 X11 X12

(29)

19 Lampiran 4 Nilai ∑|̂| max ∑|̂|⁄ pada setiap tahapan LASSO

Tahap |X | |X | |X | |X | |X | |X | |X | |X |

0 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 2 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 3 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 4 0.0000 0.0000 0.0000 0.0000 0.0087 0.0000 0.0000 0.0000 5 0.0000 0.0000 0.0000 0.1379 0.0718 0.0000 0.0000 0.0000 6 0.0084 0.0000 0.0000 0.1546 0.0774 0.0000 0.0000 0.0000 7 0.0198 0.0000 0.0000 0.1714 0.0764 0.0000 0.0000 0.0219 8 0.0251 0.0000 0.0211 0.1731 0.0789 0.0000 0.0000 0.0230 9 0.0272 0.0034 0.0331 0.1764 0.0807 0.0000 0.0000 0.0232 10 0.0288 0.0218 0.1053 0.2036 0.0853 0.0000 0.0000 0.0477 11 0.0589 0.1565 0.6481 0.4341 0.1012 0.0940 0.0000 0.2561 12 0.0624 0.1597 0.6608 0.4454 0.0999 0.0974 0.0198 0.2808

Tahap |X | |X | |X | |X | ∑|̂| ∑|̂| max ∑|̂|⁄

0 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1 0.0000 0.0000 0.0000 0.0907 0.0907 0.0318 2 0.0000 0.0186 0.0000 0.0969 0.1154 0.0405 3 0.0000 0.0604 0.0401 0.1037 0.2042 0.0717 4 0.0000 0.0792 0.0709 0.1047 0.2635 0.0925 5 0.0000 0.2774 0.2951 0.0830 0.8652 0.3038 6 0.0000 0.3018 0.3131 0.0785 0.9338 0.3279 7 0.0000 0.3382 0.3277 0.0716 1.0269 0.3606 8 0.0000 0.3430 0.3317 0.0689 1.0648 0.3739 9 0.0000 0.3449 0.3329 0.0681 1.0899 0.3827 10 0.0310 0.3612 0.3271 0.0527 1.2646 0.4440 11 0.1813 0.5105 0.2799 0.0394 2.7600 0.9691 12 0.1806 0.5149 0.2837 0.0426 2.8480 1.0000

(30)

20

RIWAYAT HIDUP

Penulis dilahirkan di Lampung pada tanggal 6 Juli 1992 sebagai anak bungsu dari pasangan Bapak Hendrik dan Ibu Kemala Dewi. Jenjang perguruan tinggi penulis dimulai pada tahun 2008 dengan diterimanya penulis di Intitut Pertanian Bogor melalui jalur Ujian Seleksi Masuk IPB (USMI) sebagai mahasiswa Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam (FMIPA). Sebelum masuk perguruan tinggi, penulis menyelesaikan pendidikan di SMA Negeri 1 Way Jepara pada tahun 2010, SMP Negeri 1 Labuhan Ratu pada tahun 2007, dan SD Negeri 1 Rajabasa Lama pada tahun 2004.

Gambar

Tabel 3  Nilai VIF setiap peubah bebas
Tabel 5  Nilai RMSECV dan akar ciri metode RKU
Tabel 7  Bentukan matriks bobot W
Tabel 10  Nilai RMSECV dan variansi total metode RKTP
+4

Referensi

Dokumen terkait

Makrofauna endogeik yang mendominasi adalah Ordo Cacing Tanah ( Oligochaeta) dari spesies Pontoscolex corethrurus. Dalam penelitian ini jenis pohon memiliki pengaruh

Sistem Informasi Absensi pegawai pada kantor Camat Kecamatan Kuta Cot Glie Aceh Besar di buat dengan 6 tabel, 13 form dan 5 form laporan. Dalam Sistem Informasi Absensi Pegawai

Selain wilayah perkotaan, masalah ketersediaan air bersih ini juga di hadapi oleh penduduk di wilayah pedesaan tersebut memiliki sumber air (air permukaan, air bawah

S.Batahan 1.A.Situakan 2.A.Sitadung 3.A.Tanjung Balai 4.A.Rantau Panjang 5.B.Lubung 6.A.Bangko 7.A.Tira Teras 8.A.Pisusuk 9.A.Danau Bigo 10.A.Kota Puat Ketek 11.A.Kota Puat

Menimbang : bahwa peranan pupuk sangat penting di dalam peningkatan produktivitas dan produksi komoditas pertanian untuk mewujudkan Ketahanan Pangan Nasional dan untuk

Isilah SDA sendiri secara yuridis dapat ditemukan di Ketetapan MPR RI Nomor IV/ MPR RI/1999 tentang Garis-garis Besar Haluan Negara Tahun 1999-2004, khususnya Bab IV Arah

Makanan ringan seringkali menjadi pilihan alternatif guna mengganjal perut di sela – sela rutinitas yang sibuk dan padat. Salah –satu makanan basah ringan yang cukup

Hasil analisis dalam penelitian ini diperoleh bahwa kelompok dengan prediksi risiko tinggi PKV dalam 10 tahun berdasarkan jenis kelamin lebih banyak pada laki-laki