• Tidak ada hasil yang ditemukan

Pemilihan Variabel Dan Reduksi Dimensi Dalam Regresi Nonparametrik Berdimensi Besar

N/A
N/A
Protected

Academic year: 2016

Membagikan "Pemilihan Variabel Dan Reduksi Dimensi Dalam Regresi Nonparametrik Berdimensi Besar"

Copied!
44
0
0

Teks penuh

(1)

PEMILIHAN VARIABEL DAN REDUKSI DIMENSI

DALAM REGRESI NONPARAMETRIK

BERDIMENSI BESAR

TESIS

Oleh

EVA YANTI SIREGAR 097021010/MT

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA

(2)

PEMILIHAN VARIABEL DAN REDUKSI DIMENSI

DALAM REGRESI NONPARAMETRIK

BERDIMENSI BESAR

T E S I S

Diajukan Sebagai Salah Satu Syarat

untuk Memperoleh Gelar Magister Sains dalam Program Studi Magister Matematika pada Fakultas Matematika dan Ilmu Pengetahuan Alam

Universitas Sumatera Utara

Oleh

EVA YANTI SIREGAR 097021010/MT

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA

(3)

Judul Tesis : PEMILIHAN VARIABEL DAN REDUKSI

DIMENSI DALAM REGRESI NONPARAMETRIK BERDIMENSI BESAR

Nama Mahasiswa : Eva Yanti Siregar Nomor Pokok : 097021010

Program Studi : Matematika

Menyetujui, Komisi Pembimbing

(Prof. Dr. Tulus, M.Si) (Dr. Saib Suwilo, M.Sc)

Ketua Anggota

Ketua Program Studi Dekan

(Prof. Dr. Herman Mawengkang) (Dr. Sutarman, M.Sc)

(4)

Telah diuji pada Tanggal 16 Juni 2011

PANITIA PENGUJI TESIS

Ketua : Prof. Dr. Tulus, M.Si Anggota : 1. Dr. Saib Suwilo, M.Sc

(5)

ABSTRAK

Prosedur l1 pada model regresi Gauss non-parametrik. Dalam banyak contoh

konkrit, dimensi dpada variabelX tergantung pada jumlah pengamatan. Dalam tulisan ini, dibangun dua prosedur. Yang pertama, memilih probabilitas tinggi pada koordinat ini. Kemudian, dengan menggunakan metode pemilihan subset, menjalankan polinomial Estimator untuk memperkirakan fungsi regresin−2β/(2β+d),

dimana d∗ merupakan dimensi ”real” dari masalah jumlah variabel yang

tergan-tung pada f, telah mengganti bentuk dimensi d. Untuk mencapai hasil ini, digu-nakan metodel1-penalization dalam setup nonparametrik.

(6)

ABSTRACT

The procedurel1 on Gauss regression model of non-parametric. In many concrete examples, the dimension d of the input variable X depending on the number of observations. In this paper, constructed of two procedures. The first, choosing a high probability on these coordinates. Then, using a subset selection method, per-form polynomial regression estimator to estimate the function n−2β/(2β+d), where

d∗ is the dimension of ”real” of the problem number of variables that depend onf, has changed the form of dimension d. To achieve this result, used l1-penalization method in the nonparametric setup.

(7)

KATA PENGANTAR

Puji dan syukur penulis panjatkan kehadirat Allah SWT, karena berkat rahmat dan karunia-Nya penulis dapat menyelesaikan tesis dengan judul PEMI-LIHAN VARIABEL DAN REDUKSI DIMENSI DALAM REGRESI NONPARAMETRIK BERDIMENSI BESAR. Tesisi ini merupakan salah satu syarat untuk menyelesaikan kuliah di Program Studi Magister Matematika Sekolah Pascasarjana Universitas Sumatera Utara.

Dalam menyelesaikan tesis ini penulis banyak mendapat dukungan dari berbagai pihak, maka pada kesempatan ini penulis mengucapkan terima kasih, dan apresiasi yang sebesar-besarnya kepada:

Prof. Dr. dr. Syahril Pasaribu, DTM&H, M.Sc (CTM), Sp.A(K) selaku Rektor Universitas Sumatera Utara.

Dr. Sutarman, M. Scselaku Dekan FMIPA Universitas Sumatera Utara. Prof. Dr. Herman Mawengkang selaku Ketua Program Studi Magister Matematika Sekolah Pascasarjana Universitas Sumatera Utara dan sebagai Dosen Penguji yang telah memberikan petunjuk kepada penulis sehingga tesis ini dapat diselesaikan.

Drs. Marwan Harahap, M.Engsebagai dosen penguji yang telah mem-berikan bimbingan, masukan dan motivasi sehingga tesis ini dapat diselesaikan.

Prof. Dr. Tulus, MSi sebagai Dosen Pembimbing I yang telah mem-berikan bimbingan untuk perbaikan dan kesempatan tesis ini.

Dr. Saib Suwilo, MSc sebagai pembimbing II yang telah memberikan bimbingan untuk perbaikan dan kesempatan tesis ini.

(8)

Sahabat-sahabat angkatan 2009 reguler terima kasih atas kekompakan, ke-bersamaan dan kerjasama yang telah terjalin selama perkuliahan hingga selesai. Kak Misiani, S.Si selaku Staf Administrasi pada Program Studi Magister Matema-tika Sekolah Pascasarjana Universitas Sumatera Utara, terimakasih telah banyak membantu administrasi perkuliahan penulis.

Seluruh keluarga Ayah, Ibu dan Adik-adik ku tercinta, yang dengan penuh semangat member motivasi kapada penulis hingga selesainya pengerjaan tesis ini.

Hanya ucapan syukur dan terima kasih yang dapat penulis sampaikan ke-pada semua pihak yang telah memberi doa, dukungan, motivasi, bimbingan dan arahan selama perkuliahan hingga penyelesaian tesis ini. Semoga amal kebajikan yang telah diberikan kepada penulis menjadi amal ibadah dan mendapat ganjaran kebajikan di sisi Allah SWT, Amin.

Dan semoga tesis ini bermanfaat bagi pembaca dan pihak-pihak yang me-merlukannya.

Medan, Penulis,

(9)

RIWAYAT HIDUP

(10)

DAFTAR ISI

Halaman

ABSTRAK i

ABSTRACT ii

KATA PENGANTAR iii

RIWAYAT HIDUP v

DAFTAR ISI vi

BAB 1 PENDAHULUAN 1

1.1 Latar Belakang 1

1.2 Perumusan Masalah 2

1.3 Tujuan Penelitian 2

1.4 Manfaat Penelitian 2

1.5 Metode Penelitian 2

BAB 2 TINJAUAN PUSTAKA 4

BAB 3 PEMILIHAN VARIABEL DAN REDUKSI DIMENSI DALAM

REGRESI NONPARAMETRIK 7

3.1 Perbedaan Regresi Parametrik dan Regresi Nonparametrik 7

3.2 Regresi Parametrik 8

3.2.1 Regresi Linier 9

3.2.2 Uji Asumsi Klasik Regresi Linier 10

3.2.3 Regresi Polynomial 12

3.2.4 Metode Kuadrat Terkecil (MKT) 12 3.3 Regresi Nonparametrik Berdimensi Besar 13

(11)

3.5 Seleksi Prosedur Estimasi 16

3.5.1 Prosedur Seleksi 17

3.5.2 Prosedur Estimasi 18

3.6 Estimasi Titik untuk Kurva Regresi 19

BAB 4 PEMILIHAN VARIABEL DAN REDUKSI DIMENSI DALAM

REGRESI NONPARAMETRIK BERDIMENSI BESAR 22

BAB 5 KESIMPULAN 29

(12)

ABSTRAK

Prosedur l1 pada model regresi Gauss non-parametrik. Dalam banyak contoh

konkrit, dimensi dpada variabelX tergantung pada jumlah pengamatan. Dalam tulisan ini, dibangun dua prosedur. Yang pertama, memilih probabilitas tinggi pada koordinat ini. Kemudian, dengan menggunakan metode pemilihan subset, menjalankan polinomial Estimator untuk memperkirakan fungsi regresin−2β/(2β+d),

dimana d∗ merupakan dimensi ”real” dari masalah jumlah variabel yang

tergan-tung pada f, telah mengganti bentuk dimensi d. Untuk mencapai hasil ini, digu-nakan metodel1-penalization dalam setup nonparametrik.

(13)

ABSTRACT

The procedurel1 on Gauss regression model of non-parametric. In many concrete examples, the dimension d of the input variable X depending on the number of observations. In this paper, constructed of two procedures. The first, choosing a high probability on these coordinates. Then, using a subset selection method, per-form polynomial regression estimator to estimate the function n−2β/(2β+d), where

d∗ is the dimension of ”real” of the problem number of variables that depend onf, has changed the form of dimension d. To achieve this result, used l1-penalization method in the nonparametric setup.

(14)

BAB 1 PENDAHULUAN

1.1 Latar Belakang

Analisa regresi adalah analisis statistik yang mempelajari bagaimana mem-bangun sebuah model fungsional dari data untuk dapat menjelaskan ataupun meramalkan suatu fenomena alami atas dasar fenomena yang lain. Analisa regre-si merupakan salah satu teknik statistik yang digunakan secara luas dalam ilmu pengetahuan terapan. Regresi di samping digunakan untuk mengetahui bentuk hubungan antar peubah regresi, juga dapat dipergunakan untuk peramalan.

Model regresi linier merupakan model regresi dalam fungsi regresi yang berbertuk linier. Persamaan Y = β0 +β1X1 +β2X2 +...+βkXk +ε merupa-kan model regresi linier dengan parameter regresi yang diestimasi berdasarmerupa-kan data pengamatan. Dengan menggunakannpengamatan untuk suatu model linier sederhana.

Dengan Y adalah peubah tidak bebas, Xi adalah peubah bebas dengan i = 1, 2, . . . , n, β0 dan β1 adalah parameter-parameter yang tidak diketahui, ε

adalah error.

Metode yang biasanya digunakan untuk estimasi parameter regresi adalah metode kuadrat terkecil. Metode kuadrat terkecil dapat memberikan hasil yang optimal jika sesatannya diasumsikan berdistribusi normal ε N(0, σ2). Dengan

pemenuhan terhadap asumsi kenormalan dapat digunakan regresi parametrik un-tuk mengetahui benun-tuk hubungan antar peubah regresi pada contoh data yang diamati.

(15)

parame-2

ternya. Asumsi-asumsi yang digunakan pada umumnya menspesifikasikan bentuk sebarannya. Salah satu analisis alternatif lain yang dapat digunakan adalah de-ngan regresi nonparametrik karena dalam regresi nonparametrik tidak diperlukan pemenuhan asumsi kenormalan. Dalam penelitian ini masalah yang dipertim-bangkan adalah masalah dimensi besar.

1.2 Perumusan Masalah

Perumusan masalah dalam penelitian ini adalah bagaimana memilih variabel dan mereduksi dimensi dalam Regresi Nonparametrik berdimensi besar.

1.3 Tujuan Penelitian

Tujuan dari penelitian ini adalah untuk menelusuri metode dan asumsi-asumsi yang mendasar untuk mereduksi dimensi dalam Regresi Gauss yang ber-dimensi besar.

1.4 Manfaat Penelitian

Untuk dapat memperlihatkan prosedur asumsi yang mendasar didalam me-reduksi dimensi dari Regresi Nonparametrik berdimensi besar.

1.5 Metode Penelitian

Metode penelitian yang dilakukan adalah bersifat literatur kepustakaan dan dilakukan dengan mengumpulkan informasi dari referensi beberapa buku dan jur-nal, memahami penelitian-penelitian yang telah pernah dilakukan oleh peneli-ti lain yang berhubungan dengan penelipeneli-tian yang dilakukan. Adapun langkah-langkah yang akan dilakukan adalah:

1. Menjelaskan tentang Regresi Parametrik dan Regresi Nonparametrik.

2. Menjelaskan tentang Reduksi Dimensi dalam Regresi Nonparametrik.

(16)

3

4. Mengidentifikasi kesalahan-kesalan yang ditemukan pada Regresi Gauss Non-parametrik.

5. Memperhitungkan estimator dan konvergensi pada kesalahan yang muncul.

(17)

BAB 2

TINJAUAN PUSTAKA

Model Regresi Gauss Nonparametrik ditulis sebagai berikut (Bertin dan Lecue (2008)):

Y =f(Xi) +ei, i= 1,2, ..., n,

dengan variabel input X1, ..., Xn merupakan variabel acak n bersebaran bebas identik (i.i.d) dengan nilai Rd, dengan e

1, ..., en sampai n merupakan variabel acak Gauss dengan variansi σ2 bebas dari X

i dan f fungsi regresi. Terpenting pada penilaian pointwise dari fungsi f pada titik tertentu x = (x1, ..., xd) ∈ Rd.

Dibutuhkan beberapa konsep proses penilaianfbnmemiliki pointwise terkecil yang digabungkan dengan kuadrat resiko.

Efbn(x)f(x) (2.1)

hanya menggunakan sekumpulan data Dn = (Yi, Xi)1≤i≤n.

Asumsikan bahwa fungsi regresi memiliki beberapa sifat beraturan sekitarx adalah suatu asumsi klasik untuk permasalahan ini. Pada tulisan ini asumsikan fungsif sebagaiβHlderiansekitarx. Diingat kembali bahwa fungsif :Rd7→R adalah βHlderian pada titik x dengan β > 0, dinotasikan oleh f P(β, x) ketika dua titik berikut memenuhi:

1. Fungsif adalahlkaliterdiferensial padax(denganl = [β] adalah bilangan bulat terbesar yang tepat lebih kecil dari β),

2. TerdapatL >0 sedemikian hingga untuk sebarangt= (t1, ..., tn)∈B∞(x,1),

|f(t)Pi(f)(t, x)| ≤Lkt, xkβ1,

dengan Pl(f)(., x) adalah Polinomial Taylor pada orde l menghubungkan dengan fungsi f pada titik x, k·k1 adalah l1 norm dan B∞(x,1) adalah satuan l∞-bola

(18)

5

Dalam matematika, seri Taylor adalah representasi dari suatu fungsi sebagai jumlah tak terbatas, dihitung dari nilai turunannya pada satu titik. Seri Taylor secara resmi diperkenalkan oleh matematikawan Brook Inggris Taylor. Jika seri ini berpusat di nol, seri ini juga disebut seri maclaurin, dinamai ahli matematika Skotlandia Colin Maclaurin yang menggunaka banyak kasus dari deret taylor di abad ke-18. Seri Taylor dapat dianggap sebagai batas dari Polinomial Taylor.

ketika fungsi f hanya diasumsikan padaP(β, x), tidak ada estimator yang dapat konvergen ke fungsif (untuk kemungkinan yang diberikan pada persamaan (1.1)) lebih cepat dari,

n−2β/(2β+d). (2.2)

Asumsi 2.1 Terdapat bilangan bulat d∗ d, sebuah fungsi g : Rd∗

→ R dan sebuah subset J = {i1, ..., id∗} ⊂ {1, ..., d} kardinalitas d∗ sehingga untuk setiap

(x1, ..., xd)∈Rd berlaku

f(x1, ..., xd) =g(xi1, ..., xid∗).

Berdasarkan Asumsi (2.1) dimensi ”real” pada permasalahan tidak lagi di-sebut fungsi d tetapi fungsi d∗. Selanjutnya, diharapkan bahwa jika f P(β, x)

(yang mana dapat juga dikatakan bahwa g adalah β-Hlderian pada titik x), me-mungkinkan mengestimasi fungsi f(x) seperti pada persamaan (1.2) di mana fungsi ddigantikan oleh fungsi d∗, mengarahkan pembuktian kekonvergensian

ke-tika d∗ << d. Namun demikian, pembuktian dimulai dari data Dn, hal ini tidak

menunjukkan bahwa pendeteksian himpunan koordinatJ adalah tugas yang mu-dah. Untuk memilih himpunan ini, gunakan teknik l1-penalization. Teknik ini

banyak digunakan dalam masalah-masalah yang bersifat parametrik (cf. Bickel et al. (2008), Zhao dan Yu (2006), Meinshausen dan Yu (2008) dan referensi di dalamnya).

Teorema 2.2 Berdasarkan Asumsi (2.1) sangat tepat untuk menyusun konsep, hanya dari nilai data Dn, sebuah subset Jˆ⊂ {1, ..., d} sedemikian sehingga,

(19)

6

bebas o < h <1) Karine Bertin dan Guillaume Lecue (2008),

ˆ J =J.

Teorema 2.3 Untuk sebarang f P(β, x) dengan β > 1 yang memenuhi A-sumsi (2.1) memungkinkan untuk mengkonstruksi berdasarkan data Dn, prosedur

estimasi fˆn dapat dituliskan sebagai berikut

P hfˆn(x)f(x)

≥δic exp c δ2n2β/(2β+d∗),δ >0

denganctidak bergantung terhadapn(Karine Bertin dan Guillaume Lecue (2008)).

Masalah yang dipertimbangkan dalam tulisan ini disebut masalah dimensi besar. Banyak tulisan sebelumnya yang mempelajari macam-macam permasalah yang meringkas keadaan yang tidak mungkin (Lafferty dan Wasserman (2008)). Dalam Bickel dan Li (2007), Levina dan Bickel (2005), Belkin dan Niyogi (2003), Donoho dan Grimes (2003), diasumsikan bahwa bentuk variabel X termasuk di-mensi kecil dengan didi-mensid∗ < d. Semua permasalahan didasarkan pada teknik

(20)

BAB 3

PEMILIHAN VARIABEL DAN REDUKSI DIMENSI DALAM REGRESI NONPARAMETRIK

3.1 Perbedaan Regresi Parametrik dan Regresi Nonparametrik

Ada beberapa perbedaan khusus dalam penggunaan prosedur parametrik dan prosedur nonparametrik antara lain:

1. Penggunaan prosedur parametrik didasarkan pada asumsi-asumsi tertentu, misalnya mengasumsikan bahwa sampel yang diambil dari populasi yang berdistribusi normal. Prosedur nonparametrik tidak didasarkan pada asumsi-asumsi yang mengikuti suatu distribusi tertentu dan dapat digunakan apa-bila asumsi yang diperlukan pada penggunaan prosedur parametrik menjadi tidak valid.

2. Dalam kasus parametrik untuk mengetahui bentuk hubungan antar peubah respon pada contoh data yang diamati dapat digunakan Metode Kuadrat Terkecil dan Metode Maksimum Likelihood. Dalam regresi nonparametrik untuk memperkirakan parameter digunakan metode Theil dengan koefisien kemiringan garis regresi sebagai median kemiringan dari seluruh pasangan garis dari titik-titik dengan nilai-nilai X yang berbeda atau independen.

3. Pengujian hipotesis untuk model parametrik menggunakan statistik uji t yang merupakan sebuah hasil asumsi secara normal yang didasarkan dari metode kuadrat terkecil. Pengujian hipotesis pada regresi nonparametrik menggunakan metode Theil yang disusun berdasarkan statistik t Kendall.

(21)

8

Kurva regresi digunakan untuk menjelaskan hubungan antara peubah pen-jelas dengan peubah terikat. Pendekatan yang paling sering digunakan adalah pendekatan parametrik. Asumsi yang mendasari pendekatan ini adalah kurva regresi yang diwakili oleh suatu model parametrik (Hardle, 1990). Dalam regresi parametrik, diasumsikan bahwa bentuk kurva regresi diketahui berdasarkan teori, informasi sebelumnya, atau sumber lain yang dapat memberi pengetahuan secara rinci.

Apabila model dari pendekatan parametrik diasumsikan benar, maka pen-dugaan parametrik akan sangat efisien. Tetapi jika tidak, menyebabkan inter-pretasi data yang menyesatkan. Selain itu, model parametrik mempunyai keter-batasan untuk menduga pola data yang tidak diharapkan. Jika asumsi bentuk kurva parametrik ini tidak terpenuhi, maka kurva regresi dapat diduga menggu-nakan model regresi dari pendekatan nonparametrik.

Pendekatan nonparametrik merupakan metode pendugaan model yang di-lakukan berdasarkan pendekatan yang tidak terikat asumsi bentuk kurva regre-si tertentu. Kurva regreregre-si berdasarkan pendekatan nonparametrik ini, diwakili oleh model yang disebut model regresi nonparametrik. Karena sebelumnya tidak ada asumsi mengenai bentuk kurva regresi, model regresi nonparametrik dapat berbentuk fungsi apa saja, baik linier atau nonlinier. Semua fungsi dapat di-gunakan untuk pendugaan dalam model regresi. Komputasi atau perhitungan dalam menduga model, merupakan kendala utama dalam regresi nonparametrik. Seiring dengan perkembangan media komputer yang sangat pesat dewasa ini, reg-resi nonparametrik turut berkembang pula. Ada beberapa teknik pendugaan nilai peubah respons dalam regresi nonparametrik yakni penduga kernel, regresi spline, regresi lokal, dll.

3.2 Regresi Parametrik

(22)

9

Model regresi parametrik yang sering kali digunakan adalah model regresi linier.

3.2.1 Regresi Linier

Regresi linier adalah metode statistika yang digunakan untuk membentuk model hubungan antara variabel terikat dengan satu atau lebih variabel bebas. Apabila variabel bebasnya hanya satu disebut regresi linier sederhana, sedangkan jika variabel bebasnya lebih dari satu disebut sebagai regresi linier berganda.

Analisis regresi memiliki tiga kegunaan yaitu untuk tujuan deskripsi dari fenomena data atau kasus yang sedang diteliti, untuk tujuan kontrol, dan untuk tujuan prediksi. Regresi mampu mendeskripsikan fenomena data melalui ter-bentuknya suatu model hubungan yang bersifatnya numerik. Regresi juga dapat digunakan untuk melakukan pengendalian terhadap suatu kasus atau hal-hal yang sedang diamati melalui penggunaan model regresi yang diperoleh. Selain itu, mo-del regresi juga dapat dimanfaatkan untuk melakukan prediksi untuk variabel terikat. Namun yang perlu diingat prediksi di dalam konsep regresi hanya boleh dilakukan di dalam rentang data dari variabel-variabel bebas yang digunakan untuk membentuk model regresi tersebut. Misal suatu model regresi diperoleh dengan mempergunakan data variabel bebas yang memiliki rentang antara 5-25, maka prediksi hanya boleh dilakukan bila suatu nilai yang digunakan sebagai input untuk variabel X berada di dalam rentang tersebut. Konsep ini disebut sebagai interpolasi.

Hubungan antara dua peubah yakni peubah penjelas variabelX dan peubah terikat variabel Y secara matematis dapat ditulis dalam model regresi linier se-bagai berikut:

Y = ˆY +ε Y =β0+

P

P

j=1

βjXj+ε, (3.1)

dengan : β0 ¯: Intersep yakni nilai dugaan peubah terikat variabel Y saat

Xj = 0. Untukj = 1,2, ..., p.

(23)

10

βj ¯: Slope yakni koefisien pengganda peubah penjelas Xj terhadap

peubah terikat variabel Y.

ε ¯: Faktor gangguan yang tidak dapat dijelaskan model regresi.

E[ε] = 0; V ar(ε) =σ2

τ; Cov(εi, εu) = 0 untuki dan u= 1,2, ..., n; i6=u

Hamilton (1992) menyebutkan bahwa model regresi hanya dibentuk oleh satu peubah penjelas, sehingga persamaan (3.1) menjadi:

Y =β0+β1X +ε. (3.2)

Persamaan (3.2) disebut Regresi Linier Sederhana (Simple Linier Regres-sion). Sedangkan, untuk peubah penjelas yang lebih dari 1(p > 1), persamaan (3.1) dapat dibentuk kembali menjadi:

Y =β0+β1X1+β2X2+...+βpXp +ε, (3.3)

persamaan (3.3) disebut Regresi Linier Berganda(Multiple Linier Regression).

3.2.2 Uji Asumsi Klasik Regresi Linier

(24)

11

Dalam uji asumsi klasik regresi linier, terlebih dahulu menyelesaikan da-ta residual. Perlu diingat, pengujian asumsi klasik menggunakan dada-ta residual bukan data pengamatan, kecuali uji asumsi multikolinieritas. Dengan kata lain, penerapan pengujian asumsi klasik regresi linier dilakukan terhadap data residu-al, kecuali untuk uji asumsi multikolinieritas. Memang untuk memunculkan hasil uji asumsi klasik regresi linier, pengguna paket software statistika pada umunya tidak diminta untuk memasukkan data residual. Hal ini disebabkan karena pada umumnya softwarestatistika secara otomatis melakukan uji asumsi klasik tanpa terlebih dahulu meminta pengguna softwarememasukkan data residual. Sehingga yang membuat sebagian orang tidak menyadari bahwa sebenarnya saat melakukan uji asumsi klasik, software statistika terlebih dahulu mendapatkan data residual dan baru kemudian melakukan perhitungan uji asumsi klasik regresi linier.

Asumsi klasik regresi linier adalah sebagai berikut:

1. Model dispesifikasikan dengan benar.

Asumsi ini adalah asumsi pertama yang harus dipenuhi. Maksud dari mo-del dispesifikasikan dengan benar adalah bahwa momo-del regresi tersebut di-rancang dengan benar. Khusus untuk asumsi ini memang tidak ada uji statistikanya. Hal ini disebabkan karena model regresi yang dirancang ber-hubungan dengan konsep teoritis dari kasus yang sedang diteliti.

2. Error menyebar normal dengan rata-rata nol dan suatu ragam (variance) tertentu.

Penulisan matematis dari asumsi kedua ini adalah ∈∼ N(0, σ2).

meru-pakan lambang untuk error. Sedangkan adalah lambang matematis un-tuk kalimat menyebar mengikuti distribusi dan notasiN(0, σ2) menyatakan

distribusi sebaran normal dengan rata-rata nol dan ragam σ2. Statistik

uji yang paling sering digunakan untuk menguji asumsi kenormalan error

(25)

12

distribusi normal. Sedangkan distribusi yang teramati adalah distribusi yang dimiliki oleh data yang sedang diuji. Apabila distribusi yang teramati mirip dengan distribusi yang dihipotesiskan (distribusi normal), maka bisa disimpulkan bahwa data yang diamati memiliki distribusi sebaran normal.

3.2.3 Regresi Polynomial

Regresi Polynomial merupakan model regresi linier yang dibentuk dengan menjumlahkan pengaruh masing-masing peubah penjelas yang meningkat sampai orde ke-m. Secara umum, model ditulis dalam bentuk:

Y =β0+

p

X

j=1

m−1

X

r=1

βj−rXjr+ε, (3.4)

dengan : β0 ¯:Interseppeubah terkaitY yakni nilai dugaan peubah terikat saat

Xj = 0. Untukj = 1,2, ..., p.

Xr

j ¯: Peubah penjelas ke-j dengan order ke-r.

βj−r ¯: Besar sokongan peubah penjelas pada orde ke-rterhadap peubah

terikat Y. r: 1,2, ..., m1.

ε ¯: Faktor gangguan yang tidak dapat dijelaskan model regresi.

E[ε] = 0 ; V ar(ε) =σ2

τ; Cov(εi, εu) = 0 untuk i dan u= 1,2, ..., n; i6=u

Model regresi polynomial, mempunyai struktur yang sama dengan model regresi linier berganda. Artinya, setiap pangkat atau orde peubah penjelas pada model Polynomial merupakan transformasi peubah awal dan dipandang sebagai sebuah peubah penjelas baru dalam model Linier berganda.

3.2.4 Metode Kuadrat Terkecil (MKT)

(26)

13

model. Prinsip dari Metode kuadrat terkecil (MKT) adalah meminimumkan galat yang dihasilkan oleh model sehingga diharapkan model regresi menjelaskan data dengan baik. Mengingat galat yang dihasilkan model regresi pada tiap amatan dapat bernilai negatif dan positif, maka untuk menghindari penjumlahan yang bernilai negatif, dicari jumlah dari kuadrat nilai galat.

Dari bentuk umum regresi yang berdasarkan persamaan (3.5) dapat diambil bentuk hubungan yang baru yakni

ε=Y X−→β .

Asumsi-asumsi yang mendasari analisis regresi dengan satu peubah penjelas antara lain:

1. ε berdistribusi secara normal. εi Normal Identic Distribution (0, σ2π); un-tuk semua i Artinya,εmenyebar mengikuti sebaran normal dengan E[εi] = 0; var (εi) =σ2

π(Ragam konstan/Homoscedasticity)

2. ε bersifat bebas yakni tidak berkorelasi dengan ε yang lain ( noautocorrela-tion) cov(εi, εu) = 0; untuk semua i6=u

3.3 Regresi Nonparametrik Berdimensi Besar

Tujuan analisa regresi adalah untuk mempelajari bagaimana respon sebuah peubah variabelY terhadap perubahan yang terjadi pada peubah lain yaitu vari-abel X. Hubungan antara variabel X dan variabel Y dapat dituliskan sebagai berikut:

y=f(Xi) +εi, i= 1,2, ..., n, (3.5) denganY adalah Peubah terikat, fungsif(x) adalah Fungsi regresi nonparametrik, ε adalah Errorfaktor gangguan yang tidak dapat dijelaskan oleh model.

(27)

14

informasi tentang fungsi f. Dari data-data ini dapat diduga ataupun menges-timasi fungsi f tersebut. Jika pengetahuan tentang fungsi f ini minim, maka estimasi terhadap fungsi f ini dapat didekati secara nonparametrik. Agar pen-dekatan nonparametrik ini menghasilkan estimasi terhadap fungsi f yang masuk akal, maka hal yang harus diperhatikan adalah asumsi bahwa fungsi f memiliki derajat kemulusan. Biasanya kontinuitas dari fungsi f merupakan syarat yang cukup untuk menjamin sebuah estimator akan konvergen pada fungsi f yang sesungguhnya bila jumlah data bertambah tanpa batas.

Sebagai bandingan dari metode nonparametrik tentunya adalah metode parametrik, yang mendominasi statistika klasik. Andaikan peubah variabel X diketahui berada pada selang [0,1]. Maka contoh sederhana dari model parametrik untuk r pada persamaan (3.6) adalah persamaan garis lurus,

f(x) =θ0+θ1x,0≤x≤1,

dengan θ0 danθ1 adalah konstanta yang tidak diketahui. Lebih umum lagi fungsi

f dapat dinyatakan sebagai kombinasi linear sebagai berikut,

f(x) = p

X

i=0

θiri(x) 0≤x≤1,

dengan f0, ..., fp adalah fungsi yang diketahui dan θ0, ..., θp adalah konstanta yang tidak diketahui. Jika asumsi sebuah model parametrik dibenarkan, fungsi regresi dapat diestimasi dengan cara yang lebih efisien daripada dengan meng-gunakan sebuah metode nonparametrik. Namun demikian jika asumsi terhadap model parametrik ini salah, maka hasilnya akan memberikan kesimpulan yang salah terhadap fungsi regresi.

(28)

15

1. TitikE0 adalah dimensi 0,

2. Garis E1 adalah dimensi 1,

3. BidangE2 adalah dimensi 2,

4. En adalah dimensi n.

3.4 Estimator Kernel

Suatu fungsi K() disebut fungsi kernel jika fungsi K fungsi kontinu ber-harga riil, simetris, terbatas dan R∞

−∞

K(y)dy= 1. Jika K suatu kernel dengan sifat

1. R−∞∞ xjK(x)dx= 0, untuk j = 1, 2, ..., r1

2. R−∞∞ xrK(x)dx6= 0, ataumaka K disebut kernel order r.

Secara umum estimator regresi kernel darig adalah estimator kuadrat terke-cil ˆg(x) = n−1Pn

i=1

Wni(x)Yi, dengan fungsi bobot Wni(x) tergantung pada kernel K. Jika densitas variabel X tak diketahui, Hardle (1990) memberikan bobot Wni(x) = Khfhˆ(x(xXi) ) dengan ˆfh(x) = n−1PK

h(x−Xi) dan Kh(u) = h−1K uh

sehingga estimator kernel dari regresi g adalah:

ˆ

(29)

16

Kemudian dalam model rancangan tetap dari ruang yang sama dengan {Xi}, i = 1, 2, ..., n tetap pada [0,1], Priestley dan Chao (1972) cit.

Har-Lemma 3.1 Pada model rancangan tetap variabel X satu dimensi didefinisikan

cK =

Dalam estimator kernel, tingkat kemulusan ˆgh ditentukan oleh fungsi kernel K dan h yang disebut parameter pemulus, tetapi pengaruh kernel K tidak sedo-minan parameter pemulush. Nilaih kecil memberikan grafik yang kurang mulus sedangkan nilai h besar memberikan grafik yang sangat mulus. Oleh karena itu, perlu dipilih nilai h optimal untuk mendapatkan grafik optimal.

3.5 Seleksi Prosedur Estimasi

Estimasi adalah keseluruhan proses yang menggunakan sebuah estimator untuk menghasilkan sebuah estimate dari suatu parameter. Untuk menyeleksi Prosedur Estimasi yang dilakukan pertama-tama adalah menentukan himpunan indeks J = {i1, ...., id∗}. Kemudian menyusun sebuah penaksir dari nilai f(x)

yang konvergen untuk nilai n−2β/(2β+d∗)

(30)

17

menilai tujuan pertama, gunakan l1 polinomial estimator.

3.5.1 Prosedur Seleksi

Prosedur estimasi memiliki himpunan vektor sebagai berikut:

¯

atau smoothing parameter, λ > 0 disebut parameter regularisasi dan K : d ℜ disebut kernel. Dijelaskan bagaimana memilih parameter h dan λ. Berikut, dinotasikan U0(v) = 1 dan Ui(v) = vi, untuk i = 1, 2, ..., d untuk sebarang

v = (v1, . . . , vd) ∈ ℜd. KernelK diambil sedemikian hingga himpunan tersebut

memenuhi asumsi:

Asumsi 3.2 KernelK : d → ℜadalah simetrik yang didukung dalamB

∞(0,1), sebuah matriks (R dK(y)Ui(y)Uj(y)dy)i, j∈ {0, . . . , d} adalah diagonal dengan

koe-fisien bebas positif pada fungsi d pada diagonal tersebut terdapat suatu konstanta

MK ≥ 1 bebas terhadap fungsi d yang mana batas atas jumlah tersebut adalah maxu∈Rd |K(u)|, maxuRdK(u)2, maxuRd |K(u)| kuk2

Setiap statistik ¯θ θ¯(λ) adalah suatu l1 penalized pada estimator

polino-mial. Biasanya, untuk permasalahan estimasi terhadap fungsi f(x), hanya koor-dinat pertama pada ¯θ yang digunakan. Untuk masalah seleksi, digunakan semua koordinat kecuali yang pertama. Dinotasikan ˆθ pada vektor dari d diperoleh d pada koordinat terakhir terhadap ¯θ.

(31)

18

pada ˆJ, akan sama dengan himpunan J pada semua koordinat tidak nol pada (θ∗

1, . . . , θd∗)tdenganθ∗i = h∂if(x) untuki ∈ {1, . . . , d}dan∂if(x) turunan dari fungsi f pada titik x. Ditandai bahwa, asumsi (2.1) di atas, vektor (θ∗

1, . . . , θ∗d)t adalah jarang.

Oleh karena itu, metode seleksi menyediakan subset ˆJ bergantung pada pemilihan ¯θ. Namun demikian, Teorema (4.5) memenuhi untuk sebarang subset

ˆ

J, vektor ¯θ dipilih pada ¯θ(λ).

Anggap prosedur pemilihan seleksi lain tertutup dari yang sebelumnya de-ngan mensyaratkan asumsi pada fungsi regresi. Yang dibutuhkan hanya asumsi bahwa terdapat fmax > 0 sedemikian sehingga |f(x)| ≤ fmax. Dengan notasi

yang sama, anggap himpunan vektor berikut:

¯

dengan C dan h diberikan selanjutnya. Translasi ini mempengaruhi estimator karena metode LASSO bukan merupakan prosedur yang linier. Dinotasikan bah-wa ˆJ2, prosedur seleksi subset.

3.5.2 Prosedur Estimasi

Untuk membangun estimator polinomial lokal klasik (LPE) (cf.. Korostelev dan Tsybakov (1993), Tsybakov (1986)) pada himpunan koordinat ˆJ2.

Asumsikan bahwa tahapan seleksi telah selesai. Diperoleh sebuah subset ˆ

anggap γx sebuah polinomial pada ℜdˆ

(32)

19

fungsi f pada titik x adalah ˆγx(0) jika ˆγx adalah tunggal dan 0 untuk yang lain-nya. Dinotasikan bahwa ˆf(x) proyeksi pada [fmax;fmax] terhadap LPE pada

f(x). Dalam hal ini, tidak menggunakan koefisien lain pada ˆγx(0) seperti pada tahap seleksi.

Pada tahap estimasi, digunakan hasil pada konvergensi multivariat LPE dari Audibert dan Tsybakov (2007). Sifat kernel dalam Audibert dan Tsybakov (2007). Dalam hal ini diperlukan sifat-sifat dari kernel dalam Audibert dan Tsy-bakov (2007) untuk memperoleh hasil ini diperoleh.

Asumsi 3.3 Kernel K∗: dˆ∗

→ ℜ sedemikian hingga: terdapatc >0 memenuhi

K∗(u) c1kxk2≤c, ∀u ∈ ℜ

3.6 Estimasi Titik untuk Kurva Regresi

Estimasi kurva regresi umumnya dilakukan dengan pendekatan parametrik yang mulai diperkenalkan oleh Laplace sejak abad ke XVIII dan juga Boscovich pada tahun 1757. Dalam regresi parametrik diasumsikan bahwa bentuk kurva regresi fungsi f diketahui. Pembuatan asumsi tersebut berdasarkan pada teori, pengalaman masa lalu atau tersedianya sumber-sumber lain yang dapat memberi pengetahuan atau informasi yang terperinci.

(33)

20

Masalah yang sering muncul dalam regresi adalah tidak semua variabel pen-jelas dapat didekati dengan pendekatan parametrik, karena tidak adanya infor-masi tentang bentuk hubungan variabel penjelas tersebut dengan variabel res-ponnya, sehingga harus digunakan pendekatan nonparametrik. Dengan meng-gabungkan dua pendekatan tersebut dalam suatu pendekatan regresi akan dida-patkan suatu model semiparametrik. Estimasi model semiparametrik ekuivalen dengan mengestimasi parameter-parameter pada komponen parametrik dan esti-masi kurva pada komponen nonparametrik.

Bentuk kurva regresi fungsi f diasumsikan oleh smooth, dalam arti bahwa fungsi f termuat di dalam ruang Sobolev W2p[a, b], dengan

untuk suatu p bilangan bulat positif, dan ei sesatan random yang diasumsikan berdistribusi normal dengan rata-rata nol dan variansi σ2. Untuk mendapatkan

estimasi kurva regresi fungsi f menggunakan optimasi

Min

Estimasi ini ekuivalen dengan penalized least square(PLS) yaitu penyelesa-ian optimasi seperti berikut:

(34)

21

Umumnya estimasi fungsi ˆf diperoleh dari meminimumkanPenalized Like-lihood (PL). Untuk menyelesaikan optimasiPenalized Likelihood (PL), digunakan pendekatan Reproducing Kernel Hilbert Space(RKHS) atauGateaux. Sedangkan untuk persoalan inferensi seperti estimasi interval untuk fungsi f yang meng-gunakan pendekatan Bayesian. Tetapi pendekatan ini memerlukan pengetahuan Matematika yang relative tinggi dan sulit dipahami oleh banyak pengguna Statis-tika.

Namun untuk menduga kurva regresi yang diperoleh dari optimasi Like-lihood dapat menjadi pilihan yang cukup baik karena secara matematik mu-dah dan sederhana. Sedangkan untuk mengkonstruksi selang kepercayaan pada kurva regresi, beberapa peneliti seperti wahba (1983) menggunakan pendekatan Bayesian dengan menggunakan prior improper sehingga secara matematis cukup sulit. Akan tetapi jika selang kepercayaan diperoleh dengan pendekatan Privotal Quantity tidak akan melibatkan distribusi prior, sehingga diperoleh model yang sederhana dan inferensi statistik yang relative mudah (Eubank, 1988).

Apabila diasumsikan sesatan random εi berdistribusi normal independen dengan mean nol dan variansiσ2, maka fungsiy

i juga berdistribusi normal dengan mean fungsi f(Xi) dan variansi σ2. Akibatnya diperoleh fungsi Likelihood

L(y, f) =

Estimasi untuk fungsi f diperoleh dengan menyelesaikan Optimasi Likelihood

(35)

BAB 4

PEMILIHAN VARIABEL DAN REDUKSI DIMENSI DALAM REGRESI NONPARAMETRIK BERDIMENSI BESAR

Pada Bab ini diperhatikan hasil utama dari penelitian ini. Hasil utama yang diperoleh berdasarkan penjelasan-penjelasan yang telah dipaparkan pada bab-bab sebelumnya. Hasil utama dari penelitian ini dapat diperoleh dari model regresi nonparametrik berikut y=f(Xi) +εi, i= 1,2, ..., n. Dan untuk mengestimasi fungsi regresi dilakukan dengan pendekatan nonparametrik. Salah satu metode dalam mengetimasi regresi nonparametrik adalah dengan metode kernel (K) di mana K : d → ℜ, bandwidth yaitu θ = (θ

0, . . . , θd)t ∈ ℜd+1, h > 0 dan

parameter regularisasi di mana λ >0. Dan untuk menghindari kerumitan teknis akan diasumsikan pada fungsi µ desainX dalam asumsi sebagai berikut:

Asumsi 4.1 Terdapat beberapa konstanta η, µm > 0, µM ≥ 1 dan Lµ > 0

sede-mikian sehingga

1. B(x, η) supp (µ) dan µm ≤ µ(y) ≤ µM untuk hampir setiap y ∈ B(x, η),

2. µ adalah-Lipschitzian sekitar x, yaitu untuk sebarang t ∈ B∞(x,1),

|µ(x)µ(t)| ≤Lµkx−tk.

Hasil pertama berhubungan dengan sifat statistik dari prosedur seleksi. Un-tuk tahap ini, memerlukan asumsi keteraturan unUn-tuk fungsi regresif. Asumsi ini dipenuhi untuk sebarang β-Hlderian dalam fungsi x dengan β >1.

Asumsi 4.2 Terdapat konstan mutlak L > 0 yang memenuhi kondisi. Fungsi regresi f terdiferensial dan,

|f(t)P1(f)(t, x)| ≤ L kt−xkβ1, ∀t ∈ B∞(x,1)

(36)

23

Untuk mencapai suatu seleksi efisien pada koordinat yang menarik, harus dapat membedakan turunan parsial tidak nol dari fungsi f dari turunan parsial nol. Untuk itu, dipertimbangkan asumsi berikut:

Asumsi 4.3 Terdapat sebuah konstanC 72(µM/µm)LMK√d0 sedemikian hing-ga|∂jf(x)| ≥ C untuk sebarangj ∈J, dengan himpunanJ diberikan pada

Asum-si (2.1) dan d0 adalah integral seperti d∗ ≤d0.

Teorema 4.4 Terdapat beberapa konstanta c0 >0 dan c1 > 0 hanya tergantung pada Lµ, µm, µM, MK, L, C dan σ. Berasumsi bahwa fungsi regresi f memenuhi

keteraturan Asumsi (4.2), sparsity pada Asumsi (2.1) sedemikian hingga integer

d∗ lebih kecil dari integer d

0 yang dibedakan pada Asumsi (4.3). Diasumsikan

bahwa fungsi kepadatan µ dari variabel input X memenuhi Asumsi (4.1).

Mempertimbangkan bahwa θ¯ = (¯θ0, . . .,θ¯d) ∈ θ¯(λ) ⊂ ℜd+1 dan θ¯2 =

((¯θ2)0, .. .,(¯θ2)d) ∈ θ¯2(λ) ⊂ ℜd+1 dengan θ¯(λ) dan θ¯2(λ) didefinisikan dalam persamaan (3.6) dan (3.7) dengan kernel pada Asumsi (3.2), bandwidth dan pa-rameter regularisasi sehingga,

0< h < µm

32(d0+ 1)LµMK ∧

ηdanλ= 8p3MKµMLh (4.1)

Dinyatakanhimpunan j ∈ {1, . . ., d} : ¯θj 6= 0 dan oleh Jˆ2 himpunan

j ∈ {1, . . ., d} : (¯θ2)j 6= 0 .

1. Jika |f(x)|> Ch, dengan C didefinisikan dalam Asumsi (4.3) atau f(x) = 0, dengan probabilitas yang lebih besar pada 1c1 exp (c1d−c0nhd+2).

2. Jika |f(x)| ≤ fmax dengan probabilitas lebih besar pada 1−c1 exp (c1d −

c0nhd+2).

(37)

24

Bukti: Pertama mencatat bahwa, mengingat hanya pengamatan Xi dari daerah sekitar x, sebuah estimasi ¯θ = (¯θ0, . . . , θ¯d)∈θ¯(λ) didefinisikan dalam persamaan

(3.6) dapat dilihat sebagai estimator LASSO dalam model regresi linier

Z =Aθ∗+εdengan θ= (θ∗ hasil vektor Z dari n untuk koordinat Zi := α

iYi, i = 1, . . ., n, garis desain matriks Ai := αiU Xih−x

, i = 1, . . ., n (U adalah definisi setelah Persamaan (3.6)) dan tidak terpusat pada vektor ε dan εi = αiei + ∆i untuk sebarang koordinat. Dengan notasi baru diperoleh

¯

persamaan (3.7) dapat dilihat sebagai estimator LASSO pada model regresi linier

|f(x)| ≤ fmax. Perhatikan bahwa, dalam kedua kasus yang dipertimbangkan,

diperoleh |θ∗

≥ Ch. Kenyataan ini akan digunakan sebagai berikut. Pertama-tama membahas ¯θ, bila |f(x)| ≥ Ch. Studi tentang ¯θ2 ketika

f dan fungsi f memiliki turunan parsial yang sama sehingga θ∗ danθmemiliki akhir yang sama pada koordinat d yang

(38)

25

Membuktikan Teorema 4.4 dapat dilihat sebagai masalah konsistensi pada estimator LASSO ˆθ = (¯θ1, . . ., θ¯d). Untuk mengatasi masalah ini, ikuti ketentuan

Zhao dan Yu (2006). Hati-hati menyelesaikan masalah bertentangan dari keunikan LASSO untuk karya Zhao dan Yu (2006) dengan keunikan LASSO estimator yang diasumsikan.

(39)

26

Selanjutnya, membuktikan hasil yang berkaitan dengan model identifiability serta keunikan LASSO. Diperkenalkan cara

Ω01:=

Lemma 4.6 Berdasarkan Ω01, memenuhi pernyataan seperti berikut:

1. Gunakan seleksi LASSO,

2. Semua nilai eigen dari Ψ(n), Ψ

11 dan Ψ22 milik [µm/8,6µM],

Bukti: Pertama gunakan sifat dari fungsi φ (diperkenalkan dalam persamaan (4.3)) untuk mendapatkan adanya pemilihan LASSO. Dengan Lemma (4.5), pe-milihan LASSO berada pada kernel A. Pada Ω01, kernel A adalah {0}. Dengan

demikian, ada keunikan dari LASSO pada Ω01.

Kemudian diketahui bahwa nilai eigen pada Ψ(n) adalah kuadrat tunggal

nilai A. Pada Ω01 bentuk nilai tunggal A memiliki

h Ini melengkapi bukti untuk Ψ(n).Sekarang, andaikanλ >0 adalah nilai eigen pada Ψ11 dan v(1)∈ ℜd

+1

adalah nilai eigen terkait dengan λ. Maka diperoleh:

λ u(1) Pembuktian dari Ψ22 mengikuti argumen yang sama.

Menganggap bahwa

Ω02 :={∀j ∈ {d∗ + 1, . . ., d}, ∀k ∈ {0, . . ., d∗}: |(Ψ21)jk| ≤2hLµMk}. (4.4)

Lemma 4.7 Diasumsikan bahwa Asumsi (3.2) dan Asumsi (4.1) terdapat kons-tanta c3 tergantung hanya pada Lµ, MK dan µM seperti yang berikut ini. Maka

diperoleh

(40)

27

Bukti: Cara pertama adalah apabila langsung dari ketidak setaraan Bernstein’s batas penyatuan tersebut untuk batas atas. Gunakan kedua asumsi dari lemma |E(Ψ12)jk| ≤hLµMK.

Untuk tahap kedua pada lemma, andaikan j ∈ {d∗+ 1, . . ., d}. Pada Ω 01,

nilai maksimal eigen dari yang eigen Ψ−111 lebih kecil dari 8/µm dengan demikian diperoleh

Teorema 4.8 Diasumsi bahwa fungsi regresi f memiliki Hlderian (β, x) dengan

β > 1 dan memenuhi sparsity pada Asumsi (2.1) sedemikian hingga integral d∗ lebih kecil dari integrald0 pada Asumsi (4.3).Diasumsikan bahwa fungsi kepadatan

µ pada variabel input X memenuhi Asumsi (4.3) dan |f(x)| ≤ fmax. Diasum-sikan bahwa dimensi d adalah sedemikian hingga d+ 2 (log n)/(2 log h) (h

memenuhi persamaan (4.1)).

(41)

28

Bukti: Andaikan δ >0. Diperoleh P hfˆ(x)f(x)

, menggunakan hasil klasik dari LPE (cf. Audi-bert dan Tsybakov (2007)) dan padanJˆ2 6=J

o

(42)

BAB 5 KESIMPULAN

Adapun kesimpulan yang diperoleh berdasarkan hasil pembahasan adalah sebagai berikut:

Untuk mengestimasi fungsi regresi yang sulit dapat dilakukan dengan pen-dekatan nonparametrik. Salah satu metode dalam mengestimasi regresi non-parametrik adalah dengan metode kernel (K), bandwidth atau smoothing pa-rameter dan papa-rameter regularisasi. Suatu ukuran kebaikan estimator dari fungsi regresi f dapat dilihat dari tingkat kesalahannya. Semakin kecil tingkat kesala-hannya semakin baik estimasinya.

Kelayakan penggunaan metode regresi parametrik dapat diuji dengan mem-bandingkan terhadap metode regresi nonparametrik. Adapun model regresi non-parametrik adalah y = f(Xi) +εi, i = 1,2, ..., n. Estimasi terhadap fungsi regresi β regular fungsi f tidak lebih cepat dari laju n−2β/(2β+d). Dalam

beberapa situasi, fungsi f tergantung hanya pada beberapa dari koordinat X. Dalam banyak contoh konkrit, dimensid pada variabel X tergantung pada jum-lah pengamatan. Dalam tulisan ini, dibangun dua prosedur. Yang pertama, memilih probabilitas tinggi pada koordinat ini. Kemudian, dengan menggunakan metode pemilihan subset, menjalankan polinomial Estimator untuk memperkira-kan fungsi regresi n−2β/(2β+d), dengan dmerupakan dimensi ”real” dari masalah

jumlah variabel yang tergantung pada fungsi f, telah mengganti bentuk dimensi d. Dan untuk mencapai hasil ini, digunakan metode l1-penalization dalam setup

(43)

DAFTAR PUSTAKA

Audibert, J-Y. and Ysybakov, A. (2007). Fast learning rates for plug-in clas-sifiers under the margin condition. The Annals of Statistics.

Belkin, M. and Niyogi, P. (2003). Laplacian eigenmaps for dimensionality re-duction and data Representation.Neural computation.

Bertin, Karine. and Lecue, Guillaume. (2008). Selection of Variables and Dimen-sion Reduction in High-DimenDimen-sional Nonparametric RegresDimen-sion.

Bickel, P., Ritov, Y., and Tsybakov, A. (2008). Simultaneous analysis of lasso and dantzig selector. To appear in Annals of Statistics.

Bickel, P. J. and Li, B. (2007). Local polynomial regression on unknown manifolds , volume 54 of IMS Lecture Notes-Monograph Series. Complex Datasets and Inverse Problems: Tomography, Networks and Beyond.

Craven, P. and Wahba, G. (1979). Smoothing Noise Data with Spline Functions,

Numerische Mathematics.

Donoho, D. L. and Grimes, C. (2003). Hessian locally linear embeddings tech-niques for high-dimensional data. Proc. Natl. Acad. Sci. USA.

Eubank, R. L. (1988). Spline Smoothing and Nonparametrik Regression, Marcel Dekter, New York.

Hardle, W. (1990). Applied Nonparametric Regression. Cambridge, University Press. New York.

Hamilton, L.C. (1992). Regression with Graphics: A Second Course in Applied Statistics. Duxbury Press. Belmont, California.

Korostelev, A. P. and Tsybakov, A. B. (1993). Minimax Theory of Image Recon-struction, volume 82 of Lecture Notes in Statistics.

Levina, E. and Bickel, P. J. (2005). Maximum Likelihood Estimation of Intrinsec Dimension, volume 17 of Advances in NIPS.

Meinshausen, N. and Yu, B. (2008). Lasso-type recovery of sparse representa-tions for high-dimensional data. To appear in Annals of Statistics.

Nemirovski, A. (2000). Topics in Non-parametric Statistics, volume 1738 of Ecole dete de Probabilites de Saint-Flour 1998, Lecture Notes in Mathematics . Springer, N.Y.

Tsybakov, A. B. (2003). Optimal rates of aggregation. Computational Learning Theory and Kernel Machines. B.Sch olkopf and M.Warmuth, eds. Lecture Notes in Artificial Intelligence. Springer, Heidelberg.

(44)

31

Wahba, G. (1983). Bayesian Confidence Interval for the Cross validated Smoothing parameter in the Generalized Spline Smoothing Problems, The Annals of Statistics.

Wang, Y. (1998). Spline Smoothing Models With Correlated Errors, Journal of the American statistical Association.

Referensi

Dokumen terkait

Data hasil perhitungan rata-rata Indeks Keanekaragaman (H’), Indeks Keseragaman (E) dan Indeks Dominansi (D) plankton di Perairan Kawasan Mangrove Desa Labuhan

Pada tahun 2014 sejalan dengan pengembangan bisnis telkom yang berkembang tidak hanya lingkup telekomunikasi namun juga Informasi, Media dan edutainment serta

(1) Kepala Desa yang diberhentikan sementara sebagaimana dimaksud pada Pasal 58 ayat (1) dan Pasal 59, setelah melalui proses peradilan ternyata terbukti tidak

Tujuan untuk mengetahui pengaruh metode bed side teaching terhadap penguasaan kasus dan kemampuan skill mahasiswa praktik klinik keperawatan antara kelompok

行 う。移 籍金 について は証券 の償還額 になるので高騰 を抑 える ことが できるのは明 らか で ある。そ のため以 下で年俸 のモデル 分析

Dari titik inilah, festival Legu Gam telah melahirkan sebuah konstruksi sosial, yang kemudian dinegosiasiakan untuk suatu kontestasi budaya atau politik, yang

Mengacu kepada pertanyaan penelitian tersebut, maka penelitian ini didasarkan pada tujuan umum untuk mengetahui korelasi antara manajemen stres dan kompetensi secara

Pelayanan kesehatan bayi adalah pelayanan kesehatan sesuai standar yang diberikan oleh tenaga kesehatan kepada bayi sedikitnya 4 kali, selama periode 29 hari sampai 1 bulan setelah