1 1.1. Latar Belakang Masalah
Penggunaan ilmu statistika sebagai alat bantu dalam pengambilan keputusan semakin tidak terelakkan lagi, banyak bidang keilmuan yang tidak terpisahkan dari statistika. Salah satu hal yang menjadikannya begitu populer adalah karena kemammpuannya untuk melakukan prediksi dari suatu permasalahan untuk masa yang akan datang berdasarkan kejadian pada masa– masa sebelumnya.
Sampai saat ini sudah banyak metode yang telah dikembangkan oleh para statistikawan untuk melakukan suatu prediksi, salah satunya adalah dengan analisa hubungan regresi. Hurdle,W dkk (1994) menyatakan hubungan regresi adalah suatu uraian (penyelidikan) untuk menentukan hubungan antara variabel penjelas (explaratory variable) dengan variabel respon (response variable). Variabel penjelas disebut juga dengan variabel tak bebas (independent variable) dan variabel respon disebut juga variabel tak bebas (dependent variable). Dari himpunan n datum {(xi,yi) :i =1,2, . . . , n} yang telah dikumpulkan. Secara umum
hubungan regresinya dapat dimodelkan sebagai
( ) , i =1, 2, ... , n
Di mana ( ) adalah fungsi regresi dan adalah galat (eror) pengamatan. Analisa regresi bertujuan untuk memberikan analisa yang logis terhadap fungsi respon m(.) yang tidak diketahui. Dengan mereduksi galat (eror) pengamatan akan memberikan interpretasi yang berpusat pada rincian–rincian yang penting dari mean variabel tak bebas Y terhadap X. Pendugaan (aproksimasi) kurva yang menggambarkan hubungan antara variabel yang menerapkan prinsip tersebut secara umum disebut Smoothing. Ketepatan suatu model regresi berperan penting dalam analisa regresi, karena model yang keliru akan memberikan interpretasi yang keliru pula, akan tetapi di dalam implementasi di lapangan sangat sulit untuk mengukur ketepatan dari suatu model.
1
Suatu kurva regresi memberikan gambaran secara umum antara variabel penjelas dengan variabel respon, lewat kurva fungsi regresi mungkin akan memberikan informasi bagi kita apakah pengamatan nilai Y yang lebih tinggi diharapakan untuk suatu nilai x tertentu ?, atau apakah suatu pemilihan khusus bentuk ketergantungan antara variabel dapat terdeteksi ?. Tampilan khusus yang menjadi pusat ketertarikan dari suatu kurva regresi antara lain pada kemonotonan atau unimodalitas, tetapi cukup sering terjadi bahwa ketertarikan itu bukan pada bentuk fungsi regresinya tetapi pada turunanya atau bentuk lainnya.
Secara garis besarnya ada tiga pendekatan yang dapat dilakukan untuk memperkirakan fungsi mean, yakni dengan pendekatan parametrik, nonparametrik dan semiparametrik. Pendekatan parametrik mengasumsikan kurva mean memiliki bentuk fungsi khusus, sementara pada pendekatan nonparametrik fungsi mean-nya tidak mengacu ke suatu fungsi khusus. Banyak asumsi yang harus dipenuhi ketika kita melakukan analisa dengan metode parametrik sehingga menimbulkan kesukaran untuk membentuk model yang memenuhi asumsi tersebut. Bentuk pendekatan yang ketiga adalah semiparametrik yang merupakan kombinasi dari kedua bentuk sebelumnya, di mana bentuk bagian fungsi mean-nya ada yang diketahui (memiliki bentuk tertentu) dan sebahagian lagi tidak diketahui.
Pemodelan dengan nonparametrik tidak memberikan asumsi terlebih dahulu terhadap model yang akan dibentuk, metode ini bertitik tolak pada suatu pemikran “ Let the data speak for them selves “, yang berarti memberikan kebebasan kepada data untuk menentukan fungsi terbaik mana yang cocok tampa harus membebankan ke suatu bentuk khusus. Akibatnya metode nonparametrik bersifat lebih luwes (fleksibel) dalam mengungkapkan struktur data, yang mungkin tidak dapat diungkapkan dengan metode parametrik. Teknik regresi nonparametrik yang mendapat banyak perhatian diantaranya adalah Kernel, Nearest-neighbor dan Spline Smoothing. Teknik tersebut bekerja berdasarkan prinsip rataan lokal berdimensi p, yakni estimasi dari bidang permukaan pada titik adalah rata–rata nilai respon dari pengamatan–pengamatan di sekitar .
Sayangya teknik tersebut tidak dapat bekerja dengan baik dikarenakan ukuran sample yang tidak sebanding dengan banyaknya variabel.
Keberhasilan proser regresi nonparametrik tersebut dikarenakan sifatnya yang melakukan perbaikan/penghalusan secara berurutan (successive refinement). Suatu model hirarki yang memperbesar kompleksitas dapat diformulasikan, di mana kompleksitas diukur dari derajat kebebasan yang digunakan untuk pengepasan (fit). Tujuannya untuk menemukan model khusus, yang apabila digunakan untuk mengestimasi data maka akan dihasilkan aprolsimasi bidang permukaan yang terbaik. Proses aproksimasi umumnya dilakukan secara bertahap satu persatu, pada setiap tahap, model dari tingkat sebelumnya yang paling pas (fit) dengan keadaan data akan dipilih sebagai model regresi pada tahapan tersebut. Karena ukuran sampel membatasi kompleksitas model hirarki yang dapat digunakan maka prosedur tersebut akan berhasil pada cakupan yang bidang regresinya dapat diaproksimasi oleh model yang kompleksitas lebih rendah di dalam hirarkinya.
Penerapan konsep berikut, yakni menggunakan hirarki fungsi polinomial dari prediktor akan mengarahkan pada solusi yang bertahap, bertingkat dan melibatkan semua bagian dari prosedur regresi polinomial. Berbagai penerapan berhasil menggunakan prosedur tersebut, tetapi sayangnya bidang regresi yang sering muncul tidak dapat direpresentasikan dengan baik oleh polinomial berdimensi rendah, sementara penggunaan polinomial berderajat tinggi mengalami keterbatasan akan pertimbangan ukuran sampel serta kemampuan komputasi (Fridmen dan Stuetzle, 1981).
Hirarki fungsi konstan atau linier tersekmen akan mengarahkan ke bentuk regresi Recursive Partitioning, Metode ini dapat dipandang sebagai prosedur rataan lokal namun di dalam mengkonstruksi daerah lokalnya didasarkan kepada sifat alami dari variasi respon. Metode ini mempunyai kelemahan karena interaksi antar variabek tidak diungkapakan dengan CART (Classification and Regression Tree) .
Friedman dan Stuetzle mengembangkan suatu ide pemlusan berurut (successive refinement) dengan cara baru sehingga mampu untuk mengatasi
keterbatasan yang dialami oleh regresi polinomial dan recursive partitioning. Idenya adalah mengaproksimasi bidang regresi dengan sejumlah fungsi univariat dari kombnasi linier prediktornya secara emperik, Teknik ini dikenal dengan Projection Pursuit.
Model Additive merupakan model yang mirip dengan model linier biasa, perbedaannnya terletak pada penggantian fungsi linier dengan fungsi nonlinier. Salah satu bentuk fungsi linier yang dapat digunakan adalah fungsi Spline Meskipun pendekatan Generalized Additive Model (GAM) memiliki beberapa sifat yang menarik, tidak semua fungsi ( ) dapat dimodelkan sebagai jumlahan dari fungsi penmulus (smoother). Prosedur GAM dapat menjadi prosedur terbaik dalam menemukan fungsi aditif yang terdekat dengan m(.) yang sebenarnya. Dalam hal khusus, model aditif tidak mengalami perubahan jika ruang prediktornya diputar. Model aditif dapat dianggap sebagai suatu kasus khusus dari bentuk yang lebih umum, dan inilah yang menjadi tujuan perhatian kita.
Projection pursuit regression merupakan salah satu metode regresi nonparametrik yang mampu mengatasi cursed of dimensionality. PPR melakukan proyeksi terhadap data sebelum data tersebut diperhalus (smoothing) dengan menggunakan fungsi penmulus (smoother) guna mendapatkan fungsi prediksi dengan bias dan variansi sekecil mungkin, PPR juga mampu mengabaikan informasi yang kurang relevan/minim seperti pencilan (outlier). PPR yang bekerja dengan melibatkan proses smoothing sebagai bagian yang mempunyai peranan penting, Keadaan ini menimbulkan gagasan untuk mengembangkan PPR dengan teknik semoothing yang berbeda, harapannya dengan teknik smoothing yang lebih baik diharapkan PPR mampu memberikan estimasi bidang regresi yang lebih baik pula.
Pengelompokan (klasifikasi) merupakan salah satu masalah penting dalam statistika dan pembelajaran fungsi (machine learning). Berdasarkan informasi yang dimiliki suatu objek, kita ingin mengklasifikasikan objek tersebut ke dalam salah satu kelas yang ada. Secara formulasi matematikanya dapat kita andaikan x sebagai vektor pengamatan terhadap suatu objek/individu dan y sebagi respon yang bernilai 1 jika individu tersebut tergolong dalam kelompok A dan 0 jika
tergolong ke dalam kelompok B. Dengan menggunakan kombinasi (x, y) yang ada kita ingin membangun sebuah metode untuk penggolongan suatu individu baru apakah dalam A atau B berdasarkan infomasi vektor x yang dimiliki individu tersebut.
Kemampuan PPR sebagai salah satu teknik nonparametrik untuk estimasi fungsi regresi, memberikan suatu gagasan untuk mengukur kemampuannya di dalam proses klasifikasi, yakni kemampuan untuk mengestimasi data–data dengan respon biner (logistik).
Metode lain untuk pengklasifikasian dengan menggunakan PPR telah diperkenalkan oleh Friedman, Ia mengembangkan sebuah versi PPR untuk pengklasifikasian berdasar ukuran galat Bayes Risk (Departement of Statistics Technical Report Through Projection Pursuit LCS 12.) Sementara itu Flick dkk (1990) menggunakan PPR dalam prosedur klasifikasi berdasar estimai likelihood ratio manakala densitasnya tidak dikatehui. Hastie, Tibshirani dan Buja, dalam tulisan tentang Flexible Discriminan Analysis (1993), menyatakan bahwa metode tersebut dapat juga digunakan bersama PPR untuk pengklasifikasian
Penelitian ini ditujukan untuk mengaalisa jenis smoother terbaik bagi PPR dalam menduga permukaan fungsi–fungsi nonlinier dan melihat seberapa baik PPR dalam mengestimasi data dengan respon yang bersifat biner.
1.2. Rumusan Masalah
Permasalahan dalam tulisan ini dapat penulis rumuskan sbb ; 1. Menjelaskan kerangka regresi linier logistik secara sederhana. 2. Mejelaskan teknik smoothing data.
3. Menjelaskan metode PPR dan algoritmanya secara umum.
4. Membandingkan teknik pemulusan (smoothing spline dan supersmoother) untuk mengestimasi permukaan fungsi–fungsi nonlinier lewat simulasi. 5. Mengukur keakuratan PPR dalam mengestimasi data yang responnya bersifat
biner, dengan menggunakan FVU dan persentase misclassification sebagai alat ukurnya.
1.3. Tujuan Penelitian
Tulisan ini bertujuan untuk menentukan jenis smoother terbaik untuk mengestimasi fungsi–fungsi nonlinier dan melihat seberapa baik PPR bekerja untuk data dengan respon biner, serta menentukan jenis fungsi yang dapat diestimasi dengan baik oleh PPR. Analisa dilakukan dengan melakukan simulasi yang menggunakan perangkat lunak R sebagai alat bantu komputasi.
1.4. Batasan Masalah
Penulis membatasi permasalahan tulisan ini pada beberapa hal pokok yakni estimasi fungsi nonlinier dengan PPR dilakukan pada 5 jenis fungsi yang dibangkitkan dari distribusi acak seragam. Jenis smoother yang dibandingkan adalah supersmoother dan smoothing spline. Simulasi dilakukan dalam dua kondisi yakni dengan eror dan tampa eror.
1.5. Manfaat Penelitian
Adapun manfaat yang diharapkan dengan penulisan tugas akhir ini adalah 1. Menambah pengetahuan penulis tentang ilmu statistika pada umumnya, dan
regresi nonparametrik secara khusus. Lewat tulisan ini, penulis berharap menjadi suatu motivasi yang kuat untuk lebih mendalami pengetahuan statistika sehingga dapat berbagi baik terhadap sesama pengajar maupun kepada mahasiswa di tempat penulis bertugas.
2. Dengan tulisan ini diharapkan dapat memberikan penjelasan/pemaparan tentang teknik smoothing terbaik yang dapat digunakan di dalam PPR untuk mengaproksimasi fungsi nonlinier serta memperlihatkan seberapa baik PPR dapat mengestimasi data dengan respon biner.
1.6. Tinjauan Pustaka
Ide Projection Pursuit (PP) pertama kali dikemukakan oleh Kruskal, ide yang sama juga dikemukakan oleh Switzer (1970), kemudian oleh Switzer dan Wright (1971). Tetapi Ide tersebut baru dapat diimplementasikan dengan sukses oleh Jerome H, Friedman dan John Tukey (1974) dan sekaligus menamainya.
Projection Pursuit (PP) merupakan suatu teknik untuk menemukan proyeksi “ menarik (interesting)“ dari data berdimensi besar. Konsep ini kemudian dikembangkan oleh Friedman dan Weimer Stuetzle (1981) ke bidang regresi, sehingga muncullah Projection Pursuit Regression. Penelitian konsep PP terus dilakukan, diantaranya oleh Fiedman, J.H (1984) yang meneliti klasifikasi dan multiple regresi menggunakan PP, Selanjutnya di tahun yang sama, Ia meneliti tentang membentuk variabel yang memperhalus kurva berdasarkan pengepasan linier lokal. Selanjutnya pada tahun 1993 ada dua penelitian yang menjadi rujukan tulisan ini yaitu Flexible Discriminant Analysis (Hastie, T, Tibshirani, R. and Buja, A.) dan Regression modelling in Back-Propagation and Projection Pursuit Learning, (Hwang, dkk), pada tulisan ini Hwang dkk membandingkan dua metode pembelajaran jaringan Back-Propagation Learning (BPL) dengan Projection Pursuit Learning (PPL).
Metode PPR sudah banyak dimanfaatkan peneliti–peneliti di berbagai bidang sebagai metode di dalam pengolahan data seperti yang dilakukan oleh Aji Hamim Wigena dalam disertasinya Pemodelan Statistical Down Scaling Dengan Regresi Projection Pursuit Untuk Peramalan Curah Hujan Bulanan, dalam penelitiannya, PPR digunakan karena data curah hujan merupakan data bigh dimentional dan nonlinier.sehingga perlu untuk direduksi.
1.7. Metodologi Penelitian
Metodelogi penilitian dinyatakan dalam bagan alir di bawah ini, dibagi atas 2 bagian yakni Pemilihan teknik smoothing dan Pembentukan model PPR dengan respon biner
Gambar 1.1 Bagan alir pemilihan teknik smoothing
Pembangkitan data (Data berasal dari distribusi Uniform dan fungsi nonlinier))
Pembentukan Model PPR (Super smoother dan Smoothng
Spline
Evaluasi Teknik Smoothing (Berdasarkan nilai FVU)
Gambar 1.2 Bagan alir pembentukan model PPR respon biner
1.8. Sistematika Penulisan
Penulis menyusun tesis ini dalam 5 bab, yakni ; BAB I PENDAHULUAN
Berisi Latar Belakang, Tujuan Penelitian, Manfaat Penelitian, Tinjauan Pustaka, Metode Penelitian dan Sistematika Penelitian.
BAB II LANDASAN TEORI
Pada bab ini berisi teori-teori utama dan teori pendukung yang mengarahkan ke tema tulisan. Diantarnya teori–teori ilmu statistika. statistika matematika dan regresi.
BAB III PEMBAHASAN
Pada bab ini penulis mengawali dengan pembahasan teknik smoothing sebagai salah satu teknik metode nonparametrik. Kemudian memaparkan analisa teoritis metode PPR secara sistematis sebagai salah satu metode regresi.
BAB IV SIMULASI
Pada bagian ini penulis menjelaskan langkah simulasi yang akan dilakukan untuk memilih teknik smoothing yang akan digunakan di dalam PPR. Kemudian dengan metode smoothing yang dipilih, dilakukan simulasi PPR untuk respon biner serta mengukur tingkat akurasi PPR dengan melihat nilai Fraction Variance Unexplain (FVU) dan nilai persentase misclassification.
Pembangkitan data (Data Biner dibentuk dengan fungsi
logistik respon)
Transformasi Data (Data ditrasformasi ke 0 atau 1)
Pembentukan Model PPR (Menggunakan teknik
smoothing terbaik) Evaluasi Fit
(Evaluasi dilakukan berdasarkan nilai FVU dan Misclassification)
BAB V KESIMPULAN DAN SARAN
Dengan penguraian pada bab–bab sebelumnya, penulis mencoba untuk menarik kesimpulan dan memberikan saran yang bermanfaat untuk penelitian–penelitan lebih lanjut.