SAINTIFIK, Vol.5, No.1, Januari 2019, pp. 58~62 ISSN 2407-4098 (print)
ISSN 2622-8904 (online) 58
Tinjauan Singkat Tentang Regresi Parametrik dan Regresi
non Parametrik
Muhammad Abdy Universitas Negeri Makassar
e-mail: [email protected]
Abstrak
Dalam analisis regresi, terdapat dua pendekatan yang digunakan untuk mengestimasi fungsi regresi, yaitu pendekatan parametrik dan pendekatan nonparametrik. Metode regresi parametrik akan sesuai jika ada teori, pengalaman masa lalu atau sumber lain yang dapat digunakan untuk menentukan bentuk fungsi regresi sehingga bentuk dari fungsi regresi diasumsikan diketahui kecuali untuk berhingga parameter yang tidak diketahui. Inferensi tentang fungsi regresi ekivalen dengan inferensi tentang parameter. Dalam regresi nonparametrik, tidak ada asumsi tentang bentuk fungsi regresi sehingga memberikan fleksibilitas di dalam bentuk yang mungkin dari fungsi regresi. Terdapat banyak tehnik untuk mengestimasi fungsi regresi nonparametrik, antara lain estimator kernel, spline, wavelet, k-NN dan lain-lain.
Kata kunc: regresi parametrik, regresi nonparametrik, fungsi regresi, tehnik penghalusan.
1. PENDAHULUAN
Analisis Regresi merupakan salah satu alat statistik yang banyak digunakan untuk mengetahui hubungan antara sepasang variabel atau lebih. Misalnya y adalah variabel respon dan x adalah variabel predictor, maka untuk n pengamatan, secara umum hubungan variabel itu dapat dinyatakan sebagai :
(1)
dengan adalah variabel acak yang diasumsikan independen, mean nol, dan varians . Fungsi r(.) merupakan fungsi yang tidak diketahui yang disebut fungsi regresi.
Ada dua pendekatan yang dapat digunakan untuk mengestimasi fungsi r(.), yaitu pendekatan parametrik dan pendekatan nonparametrik. Fungsi r(.) yang diperoleh dengan pendekatan parametrik merupakan regresi parametrik dan dengan pendekatan nonparametrik merupakan regresi nonparametrik. Sedangkan dengan pendekatan keduanya dinamakan regresi semiparametrik.
Pada regresi parametrik, asumsi yang paling mendasar adalah bahwa bentuk fungsi regresi r(.) diketahui kecuali untuk sejumlah berhingga parameter yang tidak diketahui, yakni ada vektor parameter
dan ada fungsi r(.; ) sehingga r(.) = r(.; ). Fungsi regresi r(.; ) dapat berbentuk linear atau non linear dalam parameter. Inferensi tentang fungsi regresi r(.; ) ekivalen dengan inferensi tentang parameter .
Pada umumnya bentuk fungsi regresi r(.) tidak diketahui bentuknya. Tetapi mungkin kita menggunakan sifat kualitatif saja, seperti kontinu, differensiabel atau mulus, dalam arti fungsi tersebut termuat dalam suatu ruang fungsi, yaitu ruang Sobolev. Apabila terjadi hal yang demikian, maka kita menggunakan regresi nonparametrik. Dalam regresi nonparametrik, tidak ada asumsi tentang bentuk fungsi regresi r(.), sehingga memberikan fleksibilitas dalam bentuk yang mungkin dari fungsi regresi. Ada beberapa teknik untuk menduga fungsi regresi r(.) dalam regresi nonparametrik, antara lain estimator
Tinjauan Singkat Tentang Regresi Parametrik dan Regresi non Parametrik
spline, estimator wavelet, k-NN, estimator histogram, estimator kernel, estimator deret orthogonal, estimator deret Forier, dan lain-lain.
2. REGRESI PARAMETRIK
Pandang kembali model (1). Dalam tulisan ini kita hanya meninjau fungsi regresi r(.; ) yang berbentuk linier, yaitu apabila terdapat fungsi yang diketahui sedemikian hingga
(2)
Berdasarkan bentuk (2) diatas maka model (1) berbentuk:
(3)
Variabel x dalam model (3) dapat berupa variabel acak maupun non-acak. Kita akan meninjau hanya untuk variabel x non-acak. Dalam notasi matriks, model (3) ditulis sebagai:
(4)
dimana adalah vektor respon ukuran ,
adalah vektor parameter ukuran ,
adalah vektor error yang diasumsikan berdistribusi normal dengan mean 0 dan varians .
dan
adalah matriks data berukuran nxp:
Matriks x tersebut dapat mempunyai rank penuh, yaitu jika p n, atau tidak mempunyai rank penuh, yaitu rank (x) < p. dalam tulisan ini, hanya akan ditinjau matriks dengan rank penuh.
Untuk mengestimasi vektor parameter , terdapat banyak metode pengestimasian yang tersedia, antara lain metode kuadrat terkecil biasa, metode kuadrat kecil terboboti, metode kemungkinan maksimum dan lain-lain. Untuk asumsi vektor error diatas, metode kuadrat terkecil biasa paling sering digunakan. Prinsip metode ini adalah meminimumkan jumlah kuadrat error terhadap . Perhatikan kembali bentuk (4), akan diperoleh :
jika , maka (5)
Persamaan terakhir diatas disebut persamaan normal. Dengan asumsi matrix x mempunyai rank penuh maka persamaan normal tersebut mempunyai penyelesaian tunggal . Kemudian karena
merupakan matriks definit positif maka akan meminimumkan jumlah kuadrat
error. Berikut ini teorema menyangkut sifat estimator kuadrat terkecil dan estimasi .
Teorema 1.
Estimator kuadrat terkecil merupakan estimator UMVUE (Uniform Minimum Variance Unbiased Estimator) untuk .
Bukti:
1. Sifat tak bias:
2. Sifat varians minimum:
Pertama, akan dicari var .
selanjutnya, ambil dengan adalah fungsi dari , yang merupakan sebarang estimator linear untuk .
Agar tak bias untuk , maka haruslah .
Selanjutnya:
sehingga merupakan matriks definit non-negatif. Akibatnya
Teorema 2
Jika dengan matriks berukuran dengan rank , , maka
merupakan estimator tak bias untuk .
Sebelum membuktikan teorema tersebut terlebih dahulu akan dibuktikan lemma berikut:
Lemma:
Misalkan merupakan vektor variabel acak berukuran dan matriks simetris berukuran
. Jika dan maka . Bukti:
selanjutnya teorema 2 dapat dibuktikan sebagai berikut:
jadi Akibatnya 3. REGRESI NONPARAMETRIK
Metode regresi nonparametrik mulai dikenal sejak abad XIX. Engel, seorang ekonom telah mengkonstruksi suatu kurva yang dikenal sebagai regressogram. Perkembangan regresi nonparametrik tidak terlalu pesat, yang lebih cepat berkembang adalah regresi dengan pendekatan parametrik. Namun sejak beberapa dekade terakhir, regresi nonparametrik begitu pesat berkembang seiring dengan perkembangan teknologi komputer.
Pandang kembali bentuk (1). Bentuk tersebut dengan tidak ada informasi sebelumnya mengenai bentuk akan menghasilkan regresi nonparametrik. Jika diamati nilai-nilai variabel respon dan variabel-variabel prediktor ditentukan, diperoleh hasil pengamatan bivariate
Tinjauan Singkat Tentang Regresi Parametrik dan Regresi non Parametrik
diketahui dan akan diestimasi serta adalah error acak independent dengan mean nol dan varians sama . Tidak ada asumsi tentang bentuk fungsi regresii r(.). fungsi regresi r(.) umumnya hanya diasumsikan termuat dalam suatu ruang fungsi yang berdimensi tak hingga. Untuk mengkonstruksi model regresi nonparametrik, terlebih dahulu dipilih ruang fungsi yang sesuai, dimana fungsi regresi r(.) diyakini termasuk didalamnya. Pemilihan ruang fungsi ini biasanya dimotivasi oleh kemulusan (smoothness) yang diasumsikan dimiliki oleh fungsi regresi, sehingga fungsi regresi tersebut diasumsikan termuat dalam suatu ruang fungsi, yang dinamakan ruang Sobolev : kontinu absolut pada
dimana adalah himpunan fungsi yang kuadratnya terintegral pada atau
dapat dinyatakan dengan . Data pengamatan kemudian digunakan untuk mengestimasi fungsi r(.) dengan tehnik penghalusan tertentu.
4. TEKNIK PENGHALUSAN PADA REGRESI NONPARAMETRIK
Jika fungsi regresi r(.) diyakini licin maka pengamatan pada titik-titik dekat x akan memuat informasi tentang nilai r(.) pada x. Dengan demikian adalah mungkin untuk menggunakan rata-rata lokal dari pengamatan dekat x untuk mengkonstruksi estimator dari r(.). prosedur rata-rata lokal ini dapat dipandang sebagai dasar pemikiran dari tehnik-tehnik penghalusan. Secara formal prosedur ini didefenisikan sebagai:
(6)
dengan adalah barisan pembobot dan merupakan estimator dari . Dari
(6), besarnya rata-rata dikontrol oleh yang diukur oleh parameter penghalus.
Terdapat banyak Teknik penghalusan untuk mengestimasi fungsi regresi r(.), antara lain estimator histogram, estimator kernel, estimator k-NN, estimator spline, wavelet dan lain-lain. Pada tulisan ini hanya kan dibahas sepintas estimator kernel.
Pada tahun 1956 Murray Rosenblat mengusulkan suatu estimator untuk fungsi kepadatan yaitu:
(7)
Estimator ini dinamakan estimator kepadatan kernel untuk fungsi kepadatan . Fungsi K merupakan fungsi pembobot yang dinamakan fungsi kernel dan h dinamakan parameter penghalus atau sering disebut bandwidth.
Selanjutnya estimator kernel untuk fungsi regresi r(.) dikonstruksi sebagai berikut: Perhatikan bahwa
(8)
Estimator untuk r(x) adalah dengan mengganti pembilang dan penyebut pada (8) dengan (7) sehingga diperoleh :
Estimator tersebut diatas diusulkan oleh Nadaraya dan Watson pada tahun 1964 sehingga biasa dinamakan estimator Nadaraya-Watson. Dibawah asumsi tertentu distribusi estimator tersebut konvergen kedistribusi normal sehingga dapat dibentuk interval kepercayaan titik demi titik untuk fungsi regresi r(.). misalkan estimator kernel hanya dihitung pada pengamatan , maka jika maka
Jadi bandwidth yang kecil akan menghasilkan data sebagai estimator. Sebaliknya, jika maka
Jadi bandwidth yang besar akan menghasilkan estimator yang sangat mulus dan menuju rata-rata variabel respon. Terdapat suatu metode untuk memilih bandwidth yang paling baik (optimal), tapi tidak dibahas dalam tulisan ini.
5. KESIMPULAN
Perbedaan mendasar pada asumsi tentang fungsi regresi r(.) menjadi salah satu pertimbangan untuk memilih metode mana yang akan dipakai. Metode regresi parametrik akan sesuai jika ada teori, pengalaman masa lalu atau sumber lain yang dapat digunakan untuk menentukan bentuk fungsi regresi. Jika hanya sedikit informasi tentang fungsi regresi, maka data lebih banyak mengandung tentang fungsi regresi, sehingga metode regresi nonparametrik lebih sesuai digunakan.
Sebagai pertimbangan lain, jika diperhatikan sifat asimptotik dari estimator, ternyata jika digunakan kriteria risk kuadrat sebagai kebaikan estimator, umumnya estimator nonparametrik akan konvergen dalam probabilitas ke fungsi regresi yang sebenarnya dengan laju untuk suatu . Sedangkan untuk estimator parametrik kecepatan kekonvergennya dapat mencapai . Dengan demikian estimator parametrik apabila sesuai akan lebih efisien disbanding estimator nonparametrik. Tetapi penggunaannya sangat tergantung pada masalah yang dihadapi.
DAFTAR PUSTAKA
Budiantara, I. N dan Subanar. (1996), Regresi Spline dan Permasalahannya, Naskah Publikasi UGM Drapper, N and Smith, H. (1981), Applied Regression Analysis, John Wiley & Sons, Inc, New York. Eubank, R. (1998), Spline Smoothing and Nonparametrik Regression, Marcel Dekker, New York.
Hart, J. D, and Wehrly, T. E. (1986), Kernel Regression Estimation Using Repeated Measurement Data, Journal of the American Statistical Association, 81, 1080-1088.