• Tidak ada hasil yang ditemukan

TINJAUAN PUSTAKA. Menurut Hardle (1994) analisis regresi adalah suatu metode analisis data yang

N/A
N/A
Protected

Academic year: 2022

Membagikan "TINJAUAN PUSTAKA. Menurut Hardle (1994) analisis regresi adalah suatu metode analisis data yang"

Copied!
17
0
0

Teks penuh

(1)

II. TINJAUAN PUSTAKA

2.1 Analisis Regresi

Menurut Hardle (1994) analisis regresi adalah suatu metode analisis data yang menggambarkan hubungan antara variabel respon dengan satu atau beberapa variabel prediktor . Model regresi umum dari sejumlah n data pengamatan

independen

   

, 1 iY n

Xi i adalah:

( ) , i= 1, 2, …, n (2.1) Dengan ( ) merupakan fungsi regresi yang akan diduga, adalah galat yang memiliki mean 0 dan varians (konstan).

2.2 Pendekatan Parametrik dan Nonparametrik

Terdapat dua pendekatan yang dapat dilakukan dalam mengestimasi fungsi regresi, yaitu pendekatan parametrik dan nonparametrik. Dalam pendekatan parametrik, fungsi ( ) diketahui distribusinya.

(2)

Menurut Chatterjee dan Hadi (2006), apabila bentuk fungsi ( ) merupakan fungsi linear maka untuk melakukan analisis regresi harus memenuhi asumsi- asumsi berikut:

1. Linearitas

Uji ini dilakukan untuk mengetahui apakah hubungan antara respon Y dan prediktor X membentuk hubungan linear atau tidak. Memeriksa asumsi linearitas dalam regresi sederhana mudah karena validitas asumsi ini dapat ditentukan dengan memeriksa scatterplot dari Y terhadap X. Namun, memeriksa linearitas dalam regresi berganda lebih sulit karena dimensi yang tinggi dari data. Ketika asumsi linearitas tidak terpenuhi maka data dianalisis dengan regresi nonlinear atau dapat dilakukan transformasi data.

2. Normalitas

Normalitas yang dimaksudkan adalah galat yang berdistribusi normal yaitu ( ). Pelanggaran terhadap kenormalan dapat terjadi karena adanya beberapa data yang merupakan pencilan atau karena terdapat nilai ekstrim dalam data yang digunakan.

3. Homoskedastisitas

Homoskedastisitas diartikan sebagai distribusi dari galat memiliki ragam yang konstan (homogen). Apabila varian galat dalam model tidak konstan disebut dengan heteroskedastisitas. Heteroskedastisitas disebabkan karena variabel yang digunakan memiliki nilai yang sangat beragam, sehingga menghasilkan nilai galat yang tidak konstan.

(3)

4. Tidak terjadi autokorelasi

Autokorelasi terjadi karena galat antar pengamatan tidak saling bebas atau berkaitan satu sama lain.

5. Tidak terjadi multikolinearitas

Khusus untuk regresi linear berganda terdapat tambahan satu asumsi lagi yaitu tidak terjadi multikolinearitas. Kolinearitas dapat terjadi karena suatu faktor diukur lebih dari sekali. Kolinearitas seperti ini disebut kolinearitas sempurna, yaitu suatu peubah bebas bergantung sepenuhnya pada yang lainnya. Namun, dalam prakteknya kolinearitas sering muncul dalam bentuk tersamar sehingga sukar dikenali, dimana suatu peubah tidaklah sepenuhnya tergantung pada peubah lainnya tapi hanya sebagian.

Kolinearitas tidak sempurna seperti ini sering terjadi bila dua atau lebih peubah dalam model saling berkaitan (multikolinearitas). Sehingga, yang dimaksudkan dengan multikolinearitas adalah terjadinya kolinearitas antara dua atau lebih peubah bebas dalam model.

Jika fungsi ( ) tidak diketahui distribusinya maka digunakan pendekatan nonparametrik. Dalam pendekatan nonparametrik, kurva didekati dengan cara melakukan teknik pemulus. Teori dan metode pemulus telah berkembang dengan pesat. Hal ini didasari oleh pemikiran bahwa pendekatan parametrik dalam estimasi kurva regresi sering tidak memenuhi kebutuhan fleksibilitas dalam analisis data. Terdapat beberapa teknik pemulus yang sudah populer diterapkan seperti histogram, penduga kernel, penduga spline, dan fourier. Dalam

(4)

perkembangannya, fourier dikembangkan menjadi penduga wavelet dengan mengganti basis-basis fungsi konstan, sinus dan cosinus pada penduga deret fourier dengan basis-basis fungsi wavelet (Hardle, 1994).

2.3 Penduga Kernel

Penduga kernel diperkenalkan oleh Rosenblatt (1956) yang merupakan

pengembangan dari estimator histogram. Rosenblatt mengusulkan menempatkan smoothing kernel di setiap pengamatan. Kernel memiliki parameter pemulus yang mengatur tingkat kehalusan kurva dugaan kernel yang disebut bandwidth h.

Pemilihan bandwidth h akan memengaruhi hasil smoothing kernel. Nilai

bandwidth h yang semakin kecil akan menyebabkan bentuk kurva semakin kasar dan sebaliknya semakin besar nilai bandwidth h akan menyebabkan kurva semakin mulus. Hal ini serupa dengan yang tersaji pada Gambar 1.

Gambar 1. Estimasi kernel dengan bandwidth h= 0.2, 0.8, 1.4 dan 4.

(5)

Secara umum kernel K dengan bandwidth h didefinisikan sebagai:

Kh(x) = ( ) untuk dan h>0 Serta memenuhi :

(i) K(x) 0, untuk semua x (ii) ∫ ( ) = 1

(iii) ∫ ( ) (iv) ∫ ( )

Sementara penduga densitas kernel untuk fungsi densitas f(x) didefinisikan sebagai:

̂ ( )= ∑ ( )

. / (2.2)

Terdapat beberapa jenis fungsi kernel yaitu:

1. Kernel Uniform : K(x) = ;|x| 1 , 0 selainnya 2. Kernel Triangle : K(x) = (1 - |x|) ;|x| 1 , 0 selainnya 3. Kernel Epanechnikov : K(x) = (1 - ) ;|x| 1 , 0 selainnya 4. Kernel Kuartik : K(x) = ( ) ;|x| 1 , 0 selainnya 5. Kernel Triweight : K(x) = (1 - ) ;|x| 1 , 0 selainnya 6. Kernel Cosinus : K(x) = . / ;|x| 1 , 0 selainnya 7. Kernel Gaussian : K(x) =

(6)

Berdasarkan persamaan (2.2) penduga densitas kernel tergantung pada dua parameter yaitu fungsi kernel K dan bandwidth h. Berikut gambar demonstrasi pengaruh fungsi kernel K yang berbeda terhadap pemulusan kurva dengan bandwidth h tetap.

Gambar 2. Estimasi kernel dengan uniform kernel(…), triangle kernel( ), quartic kernel(---); bandwidth h=0,8.

Berdasarkan Gambar 2. dapat dilihat bahwa perkiraan f(x) oleh fungsi kernel K yang berbeda memberikan kualitatif perkiraan f(x) yang berbeda atau dengan kata lain perkiraan kepadatan agak berbeda meskipun dengan bandwidth yang sama (Hardle, 1991).

Dalam regresi kernel pemilihan bandwidth jauh lebih penting dibandingkan dengan pemilihan fungsi kernel. Hal ini disebabkan penggunaan fungsi kernel yang berbeda dengan nilai bandwidth optimal menghasilkan estimasi kurva regresi yang hampir sama. Permasalahan dalam kernel adalah pemilihan bandwidth, bukan pada pemilihan fungsi kernel. Fungsi kernel yang umum

(7)

digunakan adalah kernel Gaussian dan kernel Epanechnicov. Kernel Triangle sering digunakan karena lebih mudah dan cepat dalam perhitungan (Sukarsa dan Srinadi, 2012).

2.4 Penduga Nadaraya-Watson

Jika terdapat n data pengamatan {(Xi ,Yi)+ yang memenuhi persamaan (2.1) dimana dan , maka penduga m(x) adalah:

̂( ) ( | ) ∫ ( ) ( ) (2.3) Penyebut pada persamaan (2.3) diduga dengan menggunakan penduga densitas kernel sebagai berikut:

( ) = ∑ ( )

Fungsi densitas peluang bersama diduga dengan perkalian kernel, yaitu : ́ ( ) = ∑ ( ) ( )

Sehingga, pembilang dari penduga Nadaraya menjadi :

∫ ́ ( ) ∑ ( ) ∫ ( )

∑ ( ) ∫ ( )

∑ ( )

∫( ) ( )

∑ ( )

(8)

Dengan demikian bentuk penduga Nadaraya-Watson dapat ditulis :

̂( ) ∑ ( ) ∑ ( )

̂( ) ∑ . /

∑ . /

̂( )

. /

. / (2.4)

̂( ) ∑ ( ) dimana

( ) (

)

( )

(2.5)

Matriks W pada persamaan (2.5) disebut dengan Hat Matriks dari penduga m(x).

Persamaan (2.4) ditemukan oleh Nadaraya dan Watson (1964), sehingga disebut estimator Nadaraya-Watson (Hardle, 1991).

Dalam penelitian ini, akan digunakan fungsi kernel gausian yang didefinisikan:

K(x) = ;

Sehingga penduga Nadaraya-Watson menjadi :

̂( )

(

)

∑ √ .

/

(9)

̂( ) √ ∑ (

)

√ ∑ . /

̂( )

( )

( )

(2.6)

̂( )

dengan

( )

( )

(2.7)

Matriks W pada persamaan (2.7) disebut dengan Hat Matriks dari penduga m(x) sedangkan persamaan (2.6) merupakan estimator Nadaraya-Watson dengan menggunakan kernel Gaussian.

2.5 Deret Fourier

Menurut Tolstov (1962), jika fungsi f(x) terdefinisi pada interval [ ] dan diluar selang ini oleh ( ) ( ) maka f(x) merupakan fungsi periodik dengan periode 2L. ( ) dapat direpresentasikan dengan deret perluasan fourier sebagai berikut :

( ) ∑ ( (

) ( ))

( ) ∑ ( (

) ( ))

(10)

dengan:

∫ ( )

∫ ( ) . /

∫ ( ) . / ;

2.6 Penduga Fourier

Diberikan n data pengamatan {(xi ,yi)+ yang memenuhi persamaan (2.1). Jika , - dan , dan diasumsikan periode m(x) adalah , maka penduga m(x) dapat didekati oleh deret fourier yang didefinisikan sebagai berikut:

̂( ) ∑ . / . / (2.8) persamaan (2.8) merupakan penduga m(x) dengan metode fourier untuk bentuk data gelombang periodik dengan a0 , dan adalah koefisien Fourier.

Berdasarkan persamaan (2.8), untuk menentukan koefisien deret fourier dapat dilakukan perhitungan seperti pada metode parametrik sebagai berikut:

̂ ( ) ∑ ( ) ( ) ;

̂ ( ) , ( ) ( ) ( ) ( ) ( ) ( )

̂ ( ) , ( ) ( ) ( ) ( ) ( ) ( )]; j=1,2,…,J

(11)

Jadi, persamaan regresi nonparametrik menjadi :

= ̂ ( ) + i = 1,2,3,...,n, n menyatakan banyaknya jumlah data

[ ] = [

̂ ( )

̂ ( )

̂ ( )]

+ [ ]

Dengan :

̂ ( )

[

, ( ) ( ) ( ) ( ) ( ) ( )- , ( ) ( ) ( ) ( ) ( ) ( )- , ( ) ( ) ( ) ( ) ( ) ( )-]

Misalkan ̂( )= , maka

A=[

( ) ( ) ( ) ( ) ( ) ( )

( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ]

, -

Menurut Chaterjee dan Andi (2006), nilai terbaik dapat diperoleh dengan meminimalkan nilai kuadrat galat (metode least Square).

Karena Y=A , maka :

( ) ( )

Nilai minimum diperoleh jika diferensial pertamanya sama dengan nol

= (( ) ( ))

(12)

= ( )( )

= ( )

= ( ); karena konstanta

= ( )

= = ( ) =

(2.9)

Jika memiliki invers, persamaan (2.9) memberikan solusi yang unik, yaitu:

̂ ( )

Karena ̂( ) maka :

̂( ) ( )

̂( ) , ( ) - (2.10)

Hat matrix Fourier yang dilambangkan dengan merupakan matrix berukuran yang memenuhi ̂( ) . Berdasarkan persamaan (2.10) maka Hat matrix pada metode Fourier didefnisikan sebagai:

( )

Hat matrix akan digunakan pada rumus metode pemilihan bandwidth optimal untuk teknik pemulus Fourier.

(13)

2.7 Pemilihan Bandwidth Optimal

Bandwidth merupakan parameter pemulus yang berfungsi untuk mengontrol kemulusan dari kurva yang diduga. Menurut Hardle (1991), pada metode kernel tingkat kemulusan kurva ditentukan oleh pemilihan bandwidth h, semakin kecil pemilihan nilai bandwidth h bentuk kurva dugaan akan semakin kasar dan semakin besar nilai bandwidth h bentuk kurva dugaan akan semakin mulus.

Namun, tingkat kemulusan pada fourier berlaku sebaliknya, dimana semakin kecil parameter pemulus J semakin mulus bentuk kurva dugaan dan semakin besar parameter pemulus J semakin kurang mulus bentuk kurva dugaan dari f(x).

Tujuan estimasi kurva tidak hanya untuk memperoleh kurva yang mulus tetapi juga memiliki tingkat kesalahan yang tidak terlalu besar. Berdasarkan hal itu perlu dipilih nilai bandwidth optimal sehingga didapatkan kurva yang mulus dengan kesalahan yang minimum. Terdapat beberapa kriteria pemilihan

bandwidth yang telah diperkenalkan, seperti Cross-Validation (CV), Generalized Cross Validation (GCV), Bayesian Information Criterion (BIC), Minimum Description Length (MDL), Akaike Information Criterion (AIC), serta Improved Akaike Information Criterion (AICC). Dalam penelitian ini akan digunakan kriteria AIC, AICC , dan GCV untuk mencari nilai bandwidth optimal.

(14)

2.7.1 Akaike Information Criterion (AIC) dan Improved Akaike Information Criterion (AICC)

AIC klasik dirancang oleh Akaike tahun 1973 berisi estimator informasi Kullback-Leibler untuk pemilihan model dan tahun 1989 Hurvich dan Tsai mengembangkan akaike untuk regresi parametrik dan autoregressive time series.

Dalam sampel kecil bias AIC bisa sangat besar, dan mereka mengusulkan versi dikoreksi AICC . AIC dan AICC didefinisikan sebagai

( ̂ ) ( ) ( ̂ ) ( ) (2.11)

dengan ̂ ∑ ( ̂ ( )) , n merupakan jumlah data yang digunakan, dan p jumah parameter regresi dalam model (Hurvich dan Tsai, 1989).

Berdasarkan persamaan (2.11), Hurvich, et al., (1998) mengembangkan akaike untuk regresi nonparametrik dan memperkenalkan metode pemilihan parameter pemulus AICc dengan mengganti jumlah parameter p dengan trace dari hat matriks H (tr (H)). Dan mendefinisikan AICC untuk pemilihan parameter pemulus sebagai:

( ̂ ) ( ) * ( ) + (2.12)

dengan ̂ ∑ ( ̂ ( )) dimana n merupakan jumlah data yang digunakan, merupakan parameter pemulus dan H adalah hat matriks berukuran nxn yang memenuhi ̂ (Hurvich, et al., 1998).

(15)

Pemilihan parameter pemulus menggunakan Akaike Information Criterion didefinisikan sebagai:

( ̂ ) . ( )/ (2.13)

dengan ̂ ∑ ( ̂ ( )) dimana n merupakan jumlah data yang digunakan, merupakan parameter pemulus dan H adalah hat matriks berukuran nxn yang memenuhi ̂ (Manzan, 2003).

2.7.2 Generalized Cross Validation (GCV)

Generalized Cross Validation (GCV) merupakan bentuk modifikasi dari Cross Validation (CV) yang merupakan metode terdahulu untuk memilih parameter pemulus. GCV didefinisikan sebagai:

( ) ( ̂ )

, ( )-

( )

, ( )- (2.14)

dengan merupakan parameter pemulus dan adalah hat matriks berukuran nxn yang memenuhi ̂ (Craven dan Wahba, 1979).

2.8 Ukuran Kebaikan Penduga

Kebaikan suatu penduga dapat dilihat dari tingkat kesalahannya, semakin kecil tingkat kesalahan semakin baik estimasinya. Menurut Aydin (2007) terdapat beberapa kriteria untuk menentukan tingkat kesalahan antara lain Mean Square Error (MSE), Root Mean Square Error (RMSE), Mean Absolute Error (MAE),

(16)

dan Mean Absolute Percentage Error (MAPE). Penelitian ini akan menggunakan Mean Square Error (MSE) sebagai kriteria untuk menentukan tingkat kesalahan yang didefinisikan sebagai:

( ̂) (2.15)

Dapat juga dengan mengamati nilai koefisien determinasi (R2) yang semakin besar nilai R2 semakin baik estimasinya. Koefisien determinasi didefinisikan sebagai:

(2.16)

Dengan , dimana makin dekat dengan 1 makin baik estimasinya, dan sebaliknya, makin dekat dengan 0 makin jelek estimasinya. JKT (Jumlah Kuadrat Total) merupakan jumlah kuadrat simpangan dari rata-rata variabel respon, JKR (Jumlah Kuadrat Regresi) merupakan jumlah kuadrat simpangan hasil dugaan dengan rata-rata variabel respon y, dan JKG (Jumlah Kuadrat Galat) mengukur residual dalam prediksi.

Jadi dapat dituliskan sebagai :

∑( ̅)

∑( ̂ ̅)

∑( ̂)

Dengan adalah data variabel respon ke-i, ̅ adalah rata-rata variabel respon, sedangkan ̂ adalah nilai hasil dugaan variabel respon ke-i.

(17)

Secara grafis dideskripsikan sebagai berikut:

Gambar 3. Ilustrasi grafis JKG, JKT, dan JKR pada garis regresi.

(Chatterjee dan Hadi, 2006).

Gambar

Gambar 1.  Estimasi kernel dengan bandwidth h= 0.2,  0.8,  1.4 dan 4.
Gambar 2.  Estimasi kernel dengan uniform kernel(…),  triangle kernel(   ),  quartic kernel(---); bandwidth h=0,8
Gambar 3.  Ilustrasi grafis JKG,  JKT,  dan JKR  pada garis regresi.

Referensi

Dokumen terkait