Pengepasan Model melalui FANOVA dengan Penduga RAR

BAB III. PENANGANAN PENGAMATAN PENCILAN PADA MODEL

3.4 Pengembangan Kekekaran pada Model AMMI

3.4.2 Pengepasan Model melalui FANOVA dengan Penduga RAR

Secara umum model untuk tabel dua arah genotipe × lingkungan pada model ANOVA dapat dituliskan sebagai y_ij μg_ie_j _ijdengan rata-rata umum,

gi merepresentasi pengaruh genotipe (baris) dan ej pengaruh lingkungan (kolom).

Pada ANOVA biasa, pengaruh baris dan kolom diasumsikan memiliki rataan nol. Suku ij dapat dipandang sebagai sisaan dari model pengaruh utama, atau suku

interaksi antara baris dan kolom. Ekspresi ini disebut model aditif. Meski demikian, pada model aditif ini masih mungkin untuk mengekspresikan suku ij

dalam komponen sistematik oleh struktur pada model faktor:

∑

Sehingga keseluruhan model dituliskan sebagai:

∑

Ide awal pengepasan model ini, dilakukan secara sequensial dengan menduga model aditif terlebih dahulu, dan kemudian melakukan dekomposisi pada suku sisaan dengan analisis faktor. Namun pengepasan yang lebih baik diperoleh dengan menduga seluruh parameter secara bersamaan. Pada pendugaan dengan metode kuadrat terkecil, pengepasan secara sequensial maupun bersamaan (simultan) tidak memberikan hasil yang berbeda. Tetapi untuk model robust dengan kriteria least absolute kesamaan tersebut tidak lagi berlaku. Pendekatan robust akan menduga suku-suku aditif dan multiplikatif secara simultan.

Penduga RAR untuk model FANOVA dapat didefinisikan sebagaimana subbab sebelumnya. Anggap  sebagai vektor merupakan koleksi dari semua parameter, yaitu scores, loadings, pengaruh baris dan kolom, juga rataan umum, µ. Untuk menduga sebanyak (k + 1) (G + E) + 1 elemen dari  yang tidak diketahui, dari sebanyak GE data yang tersedia akan digunakan penduga RAR sebagaimana subbab 3.4.1:

̂ �∑ ∑ ̂

Pembobot wi dan vj (sebagaimana juga pada 3.4.1) adalah pembobot yang

menurunkan (downweighting) scores dan loadings yang “memencil” dalam ruang dimensi k dari vektor scores dan loadings. Untuk mengidentifikasi secara unik parameter-parameter dalam yij, fungsi penduga ̂ diminimumkan dengan

kendala median (medianconstraints):

gi ej d � fil jl �

Kendala ini konsisten dengan pendekatan robust. Algoritma untuk menghitung penduga RAR dalam model FANOVA didasarkan pada regresi bolak-balik (alternating regressions) sebagaimana disajikan dalam Croux et al. (2003). Perbedaan dengan model multiplikatif pada subab 3.4.1 adalah bahwa regresi pada model robust-FANOVA bukan lagi regresi melalui titik asal, melainkan regresi dengan intersep.

3.4.3 Algoritma Kekar untuk Regresi Bolak-balik (Robust Alternating Regression Algorithm)

Penduga RAR dapat didekati melalui algoritma bolak-balik (alternating) sebagai berikut (Croux et al. 2003):

Langkah 0: Inisialisasi. Data terlebih dahulu ditransformasi mengikuti ukuran yang kekar yaitu:

dengan MAD adalah Median Absolute Deviation. Sifat keortogonalan dan ragam yang sama dengan satu tidak diperlukan

41 dalam model faktor. Standarisasi awal ini bersesuaian dengan matriks korelasi yang berbasis Faktor Analitik.

Langkah 1: Nilai awal. Pertama, dilakukan analisis komponen utama yang kekar, robust principal component analysis (PCA). Skor komponen utama dijadikan sebagai nilai awal _̂ untuk skor faktor. Kemudian kita gunakan Projection Pursuit (PP) berbasis pada estimator yang diimplementasi dalam Croux dan Ruiz-Gazen (1996). Metode yang berbasis pada PP ini dapat menangani kondisi G > E, dan sangat kekar. Dengan pendekatan ini kita dapat mencukupkan perhitungan hanya sampai sejumlah k-komponen pertama yang diperlukan saja, sehingga dapat lebih cepat. Menggunakan PCA biasa pada langkah ini dapat memperlambat tercapainya kekonvergenan, bahkan dapat memberikan hasil yang tidak kekar bila terdapat banyak pencilan.

Langkah 2: Proses iterasi. Anggaplah iterasi sekarang pada langkah ke–t (t  1)

dan _̂ telah diperoleh

* Pertama dihitung pembobot bagi baris wi(t), yang menjadi

downweight bagi pencilan pada gugus skor dugaan

{ ̂ | } � . Kemudian dihitung ̂ � ∑ ̂

untuk j = 1, . . . , E: Pada bagian ini kita mengepas regresi L1 sebanyak E kali (dan akan selalu diulang pada setiap langkah iterasi). Kita perhatikan bahwa nilai loadings juga diduga pada saat yang sama, sehingga memudahkan dalam implementasi algoritma ini. Untungnya, telah terdapat algoritma regresi L1 yang sangat efisien, sehingga menghemat waktu. Pembobot wi(t), hanya perlu

*Perhitungan pembobot kolom vj(t) analog dengan pembobot baris.

Pembobot kolom ini akan menurunkan bobot pencilan pada gugus dugaan vector loading _{{ ̂} _{| } �} . Kemudian dihitung

̂ � ∑ ̂ untuk i = 1, . . ., G.

* Nilai dari fungsi tujuan yang dioptimasi telah dihitung untuk penduga _̂ yang diperoleh pada langkah ke t1 dan langkah ke t dibandingkan. Jika tidak ada perbedaan yang esensial, maka proses iterasi dihentikan dan kita memperoleh _̂ _̂ untuk dan _̂ _̂ dengan . Jika tidak maka Langkah 2 diulang.

Langkah 3: Orthogonalisasi. Langkah terakhir ini adalah pilihan, dapat dilakukan dapat pula tidak, karena tidak akan mengubah nilai dugaan (fitted values) ̂ ̂ ̂ . Kemudian kita hitung penduga robust bagi matriks peragam _̂ dari skor dugaan _{{ ̂} _{| }}. Karena skor hanya memiliki dimensi sebanyak k yang kecil, maka matriks _̂ dapat dihitung degan cepat. Sedangkan _̂ dihitung berdasarkan penduga Minimum Covariance Determinant (MCD) terboboti (reweighted MCD estimator) dengan nilai breakdown value 25%, melalui algoritma FAST-MCD milik Rousseeuw dan van Driessen (1999). Kita memilih nilai breakdown sebesar 25% pada MCD untuk mendapatkan kombinasi sifat kekekaran (robustness) dan efisiensi pada penduganya sebagaimana disarankan oleh Croux dan Haesbroeck (2000).

Setelah itu, kita transformasi _{̂ ̂ ̂} dan _{̂ ̂ ̂} sehingga matriks peragam yang kekar (robust covariance matrix) bagi nilai dugaan skor sekarang adalah matriks identitas, yang sesuai dengan syarat model _{� ̂} . Pengaruh lainnya adalah bahwa biplot (yang merepresentasi pengamatan, pada Langkah 4)

43 tidak akan menunjukkan struktur korelasi, dalam praktik ini merupakan hal umum terjadi (Gower & Hand 1996).

Langkah 4: Sisaan, uniquenesses, biplot. Nilai sisaan diperoleh ̂

̂ ̂ ̂ dan dapat diplot terhadap indeks baris-kolom (i, j)

pada plot 2 dimensi. Plot ini berguna untuk deteksi pencilan. Dari sisaan ini nilai uniquenesses dapat diduga sebagai ̂

̂ . Dan pada umumnya digunakan dimesi dua, k = 2,

dapat diperoleh representasi observasi oleh (_̂,_̂ dan peubah oleh ( ̂ , ̂ secara tumpang tindih pada satu plot 2 dimensi yang

sama yang disebut biplot.

Hal ini juga memungkinkan untuk melakukan regresi bolak-balik menggunakan penduga regresi lainnya, seperti penduga-M (M-estimator) dan penduga median kuadrat terkecil (Least Median Square estimator, selanjutnya disingkat LMS). Hal ini bahkan mungkin untuk menjalankan algoritma dengan penduga regresi Kuadrat Terkecil tak-robust, menghasilkan hasil yang sama dengan pendekatan klasik Gabriel (1978) yang berbasis pada dekomposisi nilai singular. Regresi bolak-balik menggunakan algoritma LMS telah dipertimbangkan oleh Ukkelberg dan Borgen (1993). Namun, dengan menggunakan LMS menghasilkan algoritma yang sangat memakan waktu. Courx et al. (2003) menunjukkan bahwa penduga RAR memberikan metode faktor analisis yang paling memuaskan sehubungan dengan waktu komputasi, robustness, dan konvergensi algoritma yang stabil. Meskipun tidak ada bukti konvergensinya, banyak simulasi dan contoh telah menunjukkan kinerja yang baik secara numerik dan statistika. Prosedur RAR memerlukan pemilihan beberapa penduga kekar pelengkap dan fungsi pembobotan.

3.5 Kajian Kekekaran Model FANOVA terhadap Tambahan Nilai Ekstrim

Dalam dokumen Development of robustness on additive Main Effect – Multiplicative Interaction (AMMI) Models (Halaman 69-74)