P
ENERAPAN REGRESI KOMPONEN UTAMA KEKAR DAN
REGRESI KUADRAT TERKECIL PARSIAL KEKAR DALAM
PEMODELAN KALIBRASI MULTIRESPON KAYU JATI
LENY YULIYANI
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Penerapan Regresi Komponen Utama Kekar dan Regresi Kuadrat Terkecil Parsial Kekar dalam Pemodelan Kalibrasi Multirespon Kayu Jati adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.
ABSTRAK
LENY YULIYANI. Penerapan Regresi Komponen Utama Kekar dan Regresi Kuadrat Terkecil Parsial Kekar dalam Pemodelan Kalibrasi Multirespon Kayu Jati. Dibimbing oleh HARI WIJAYANTO, AJI HAMIM WIGENA dan LINA KARLINASARI.
Pemodelan kalibrasi merupakan suatu metode yang sering digunakan untuk menduga kandungan kimia suatu bahan dari ukuran spektra. Permasalahan yang sering muncul dalam pemodelan kalibrasi adalah banyaknya peubah bebas jauh lebih besar daripada banyaknya pengamatan, multikolinearitas antar peubah bebas,serta terdapat pencilan. RPCR dan RSIMPLS merupakan metode kekar yang didasari dari algoritma RKU (Regresi Komponen Utama) dan RKTP (Regresi Kuadrat Terkecil Parsial) yang mampu mengatasi permasalahan tersebut. Sebuah modifikasi RPCR dan RSIMPLS, diberi nama RPCR-M dan RSIMPLS-M. Kedua metode modifikasi tersebut merupakan sebuah metode alternatif dengan menggunakan pembobot pada RPCR dan RSIMPLS berdasarkan penduga-M dengan fungsi pembobot Huber. Kedua metode modifikasi tersebut diterapkan pada data multirespon untuk menduga kandungan kimia pada kayu jati dan dibandingkan keduanya. Hasil dari valiasi dan simulasi menunjukkan bahwa RPCR-M lebih baik ketika jumlah pencilan ekstrim kurang dari dua, sedangkan RSIMPLS-M lebih baik dan lebih stabil ketika jumlah pencilan ekstrim lebih dari dua.
Kata kunci: kalibrasi multirespon, metode kekar, RPCR-M, RSIMPLS-M
ABSTRACT
LENY YULIYANI. Application of Robust Principal Component Regression and Robust Partial Least Square in Multirespon Calibration Modeling of Teak Wood. Supervised by HARI WIJAYANTO, AJI HAMIM WIGENA and LINA KARLINASARI.
Calibration modeling is a method which often be used to estimate chemical contents of a material from measured spectra. The problems in calibration modeling are the number of independent variables larger than the number of observations, multicollinearity between independent variables, and outliers. RPCR and RSIMPLS are robust methods based on PCR (Principal Component Regression) and PLS (Partial Least Square) algorithms capable to solve those problems. A modified method of RPCR and RSIMPLS, called RPCR-M and RSIMPLS-M. They are alternative methods used weight in RPCR and RSIMPLS based on M-estimators with Huber weight function. Both modified methods are applied to multirespon data to estimate chemical contents of teak wood and compared. The results of validation and simulation showed that RPCR-M is better when the number of extreme outliers are less then two, whereas RSIMPLS-M is better and more stable when extreme outliers in the data are more then two.
Skripsi
sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika
pada
Departemen Statistika
PENERAPAN REGRESI KOMPONEN UTAMA KEKAR DAN
REGRESI N KUADRAT TERKECIL PARSIAL KEKAR DALAM
PEMODELAN KALIBRASI MULTIRESPON KAYU JATI
LENY YULIYANI
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR
Judul Skripsi : Penerapan Regresi Komponen Utama Kekar dan Regresi Kuadrat Terkecil Parsial Kekar dalam Pemodelan Kalibrasi Multirespon Kayu Jati
Nama : Leny Yuliyani NIM : G14080053
Disetujui oleh
Dr Ir Hari Wijayanto, MS Pembimbing I
Dr Ir Aji Hamim Wigena, MSc Pembimbing II
Dr Lina Kalinasari, MScF Pembimbing III
Diketahui oleh
Dr Ir Hari Wijayanto, MS Ketua Departemen
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak bulan Desember 2012 ini ialah kalibrasi, dengan judul Penerapan Regresi Komponen Utama Kekar dan Regresi Kuadrat Terkecil Parsial Kekar dalam Pemodelan Kalibrasi Multirespon Kayu Jati.
Terima kasih penulis ucapkan kepada Bapak Dr Ir Hari Wijayanto, MS, Bapak Dr Ir Aji Hamim Wigena, MSc dan Ibu Dr Lina Karlinasari, MSc.F selaku pembimbing yang telah banyak memberi arahan dan bimbingan dalam penulisan skripsi ini, serta penulis berterimakasih kepada Ibu Ismah, MSi yang telah mengajarkan penggunaan software. Di samping itu, ungkapan terima kasih juga disampaikan kepada ayah, ibu, dan adikku imma atas segala doa dan kasih sayangnya. Ungkapan terima kasih juga tidak lupa untuk Riki Andriatna, S.Pd yang telah memberikan masukan dan semangat dalam penulisan ini, serta untuk teman-teman STK45 dan teman-teman kosan An-Nahla atas motivasi dan dukungan kepada penulis. Tak lupa pula ucapan terima kasih untuk keluarga bidadari Nabila (Ira, Iin, Umul) atas kebersamaan dan canda tawa yang diberikan selama di Bogor.
Semoga karya ilmiah ini dapat bermanfaat bagi semua pihak yang membutuhkan. Penulis mohon maaf atas segala kekurangan dan kesalahan yang terdapat dalam karya ilmiah ini.
DAFTAR ISI
DAFTAR TABEL vi
DAFTAR GAMBAR vi
DAFTAR LAMPIRAN vi
PENDAHULUAN 1
Latar Belakang 1
Tujuan Penelitian 2
METODOLOGI 3
Metode Pengumpulan Data 3
Metode Analisis 3
HASIL DAN PEMBAHASAN 9
Deskripsi Data 9
Penentuan Jumlah Komponen 11
Identifikasi Pencilan 12
Validasi Data 15
Simulasi 16
SIMPULAN DAN SARAN 17
Simpulan 17
Saran 17
DAFTAR PUSTAKA 17
LAMPIRAN 19
DAFTAR TABEL
1 Nilai korelasi Pearson antar peubah respon 10
2 Nilai batas (cut off) jarak skor dan jarak ortogonal 13 3 Kategori pengamatan pencilan berdasarkan plot ROBPCA 14
4 Nilai RMSE dan R2 dari data keseluruhan 15
5 Rata-rata RMSE, RMSEP, R2 model dan R2 validasi dari 10 kombinasi
pengambilan contoh 15
6 Rata-rata korelasi dari 10 kombinasi pengambilan contoh 15 7 Perbandingan nilai RMSE dan RMSEP metode RPCR-M dan
RSIMPLS-M dengan jumlah pencilan yang beragam 16
DAFTAR GAMBAR
1 Diagram alir penelitian 8
2 Spektrum Absorbsi NIR 45 kayu jati di Jawa 9
3 Diagram kotak-garis data pengamatan Y 9
4 Diagram kotak-garis sebagian data pengamatan X 10 5 Nilai RMSECV metode RPCR-M pada beberapa jumlah komponen 11 6 Nilai R2 metode RPCR-M pada beberapa jumlah komponen 11 7 Nilai RMSECV metode RSIMPLS-M pada beberapa jumlah komponen 12 8 Nilai R2 metode RSIMPLS-M pada beberapa jumlah komponen 12
9 Jarak skor dan jarak ortogonal metode RPCR-M 13
10 Jarak skor dan jarak ortogonal metode RSIMPLS-M 13
DAFTAR LAMPIRAN
1 Skema Algoritma ROBPCA 19
2 Nilai jarak skor (SD) dan jarak ortogonal (OD) serta besar bobot (w)
metode RPCR-M 20
3 Nilai jarak skor (SD) dan jarak ortogonal (OD) serta besar bobot (w)
metode RSIMPLS-M 24
4 Plot nilai dugaan dengan nilai aktual dari masing-masing respon dengan
metode RPCR-M 28
5 Plot nilai dugaan dengan nilai aktual dari masing-masing respon dengan
PENDAHULUAN
Latar Belakang
Jati (Tectona grandis L.f.) terkenal sebagai kayu komersil bermutu tinggi, termasuk dalam famili Verbenaceae. Penyebaran alami meliputi negara-negara India, Birma, Kamboja, Thailand, Malaysia dan Indonesia. Di Indonesia jati terdapat di beberapa daerah seperti Jawa, Muna, Buton, Maluku dan Nusa Tenggara. Karakteristik dari kayu jati yang paling dikenal orang adalah keawetan dan daya tahannya terhadap perubahan cuaca dibandingkan dengan jenis kayu lain. Selain itu pula karakter serat dan warnanya memiliki ciri khas tersendiri. Oleh karena itu harga kayu jati lebih mahal. Kayu jati termasuk kelas kuat I dan kelas awet II. Komponen kimia utama kayu terdiri dari komponen-komponen makromolekul berupa selulosa, hemiselulosa, dan lignin (Kholik 2008). Komponen-komponen tersebut menentukan kualitas bahan dari kayu jati. Oleh karena itu untuk memperoleh kualitas yang baik perlu dikaji kandungan senyawa kimia dalam kayu jati.
Kandungan senyawa kimia kayu dianalisis dengan menggunakan prosedur standar Tappi (1988), prosedur ini memerlukan waktu yang lama dan kurang praktis. Metode lain untuk mengetahui kandungan kimia dalam kayu adalah dengan menggunakan spektroskopi NIR (Near Infrared). NIR merupakan salah-satu teknik spektroskopi yang menggunakan wilayah panjang gelombang inframerah pada spektrum elektromagnetik sekitar 780 nm sampai 2500 nm (Naes et al. 2002). Panjang gelombang yang dihasilkan menggunakan spektroskopi NIR umumnya sangat lebar, sehingga terbentuk spektrum-spektrum yang rumit. Hal ini menyulitkan penentuan kandungan kimia yang spesifik, sehingga alternatif untuk mengatasinya yaitu dengan membuat model kalibrasi peubah ganda.
Model kalibrasi yang akan dibentuk menyatakan hubungan antara konsentrasi zat aktif (Y) hasil pengukuran kimia kayu dengan prosedur Tappi (1988) dengan absorbansi (X) yang diukur dengan menggunakan NIR. Namun ada beberapa masalah yang sering muncul dalam proses kalibrasi, diantaranya banyaknya peubah bebas jauh lebih besar daripada banyaknya pengamatan (p>>n).
Menurut Naes et al. (2002) masalah yang juga sering muncul dalam teknik kalibrasi diantaranya adalah masalah kolinearitas antar peubah bebas, ini terjadi jika terdapat korelasi yang tinggi diantara peubah bebas. Teknik regresi standar yang biasa digunakan adalah metode kuadrat terkecil, menghasilkan koefisisen regresi dan prediksi yang tidak stabil dan tidak dapat diandalkan jika terdapat multikolinearitas antar peubah bebas, sehingga metode lain harus digunakan. Beberapa teknik kalibrasi terbaik yang dikenal, misalnya RKU (Regresi Komponen Utama) dan RKTP (Regresi Kuadrat Terkecil Parsial) adalah pengembangan untuk memecahkan masalah multikolinearitas.
2
kuat (Ismah 2010), sehingga perlu adanya metode yang kekar untuk mengatasi masalah tersebut.
Regresi Komponen Utama (RKU) dan Regresi Kuadrat Terkecil Parsial (RKTP) merupakan salah satu teknik prediktif yang mampu mengatasi peubah bebas berdimensi besar dan terdapat masalah multikolinearitas. Metode kekar dengan menggunakan algoritma RKU untuk data multirespon diantaranya adalah RPCR (Robust Principal Component Regression) yang diperkenalkan oleh Hubert dan Verboven (2002), sedangkan metode kekar dengan menggunakan algoritma RKTP yang resisten terhadap pencilan untuk data multirespon diantaranya adalah RSIMPLS (Robust Straightforward Implementation Partial Least Square) yang diperkenalkan oleh Hubert dan Branden (2003).
Metode RPCR merupakan kombinasi antara metode AKU (Analisis Komponen Utama) kekar yang diterapkan pada peubah bebas dengan menggunakan ROBPCA (Robust Principal Component Analysis) (Hubert et al. 2003) dan metode regresi kekar, yaitu menggunakan regresi LTS (Least Trimmed Squares) untuk satu peubah respon dan regresi MCD (Minimum Covariance Determinant) untuk peubah respon lebih dari satu (Moller et al. 2006). Sedangkan RSIMPLS merupakan kombinasi antara metode matriks peragam kekar yang didapat dari ROBPCA dan regresi kekar. Keduanya menggunakan metode yang sama yaitu ROBPCA namun algoritmanya berbeda.
Setiap pengamatan yang dideteksi sebagai pencilan oleh kedua metode tersebut akan diberi nilai bobot nol dan diberi bobot satu untuk pengamatan lainnya. Pemberian bobot nol berarti pengamatan tersebut dihilangkan, ini berarti mengurangi jumlah pengamatan. Alternatif fungsi bobot untuk mengatasi pencilan yaitu berdasarkan penduga-M dengan fungsi pembobot Huber (1964), seperti yang telah dilakukan Ismah (2010), yaitu pembobot yang diberikan untuk setiap pengamatan bergantung pada jarak sisaan dan koefisien. Metode alternatif RPCR dan RSIMPLS berdasarkan konsep penduga M dengan pembobot Huber selanjutnya dalam penelitian ini diberi nama RPCR-M dan RSIMPLS-M.
Pada penelitian ini akan dilakukan kajian mengenai metode RPCR-M dan RSIMPLS-M untuk menduga kandungan kimia pada kayu jati dan membandingkan keduanya dalam menangani data pencilan pada data kalibrasi multirespon.
Tujuan Penelitian
3
METODOLOGI
Metode Pengumpulan Data
Data yang digunakan dalam penelitian ini merupakan data sekunder dari penelitian Kholik (2008), berupa data kayu jati yang terdiri atas 1557 peubah bebas dan 4 peubah respon. Peubah bebas (X) berupa data absorbansi yang diukur menggunakan spektrometer NIR (Near Infrared) dengan panjang gelombang 1000-2550 nm. Peubah respon (Y) berupa konsentrasi kandungan kimia kayu jati struktural menggunakan prosedur standar Tappi (1988), diantaranya selulosa, holoselulosa, hemiselulosa, dan lignin. Contoh kayu diambil dari sembilan lokasi Kesatuan Pemangku Hutan (KPH) Perum Perhutani yang masih produktif dan merupakan sentra jati di Jawa, yaitu Jawa Barat-Banten, Jawa Tengah, dan Jawa Timur.
KPH Perum Perhutani yang dipilih sebagai populasi adalah
1. Unit I Jawa Tengah : KPH Cepu (Cu), KPH Kendal (Kl), KPH Kebonharjo (Kh) dan KPH Randublatung (Rb),
2. Unit II Jawa Timur : KPH Bojonegoro (Bo) dan KPH Ngawi (N),
3. Unit III Jawa Barat-Banten : KPH Banten (B), KPH Indramayu (I), dan KPH Ciamis (Cs).
Sebanyak lima individu dipilih secara acak dari areal tebangan pada tiap KPH terpilih, sehingga terdapat 45 kayu jati dan masing-masing individu diukur sebanyak 3 kali ulangan.
Metode Analisis
RPCR dan RSIMPLS sama-sama didasari atas metode ROBPCA, yaitu dengan menggabungkan konsep Projection Pursuit (PP) dengan penduga peragam kekar, yaitu Determinan Peragam Minimum (Minimum Covariance Determinant, MCD). PP digunakan untuk mendapatkan struktur data peubah ganda dengan memproyeksikan pada subhimpunan berdimensi rendah sehingga didapat k komponen. MCD diterapkan ke dalam jumlah komponen yang terbentuk untuk memperoleh penduga pusat dan peragam kekar. ROBPCA dijelaskan secara rinci oleh Hubert et al. (2003) dan Suryana (2007).
Perbedaan antara metode RPCR dan RSIMPLS terletak pada penentuan komponen k yang membentuk skor kekar. PCR ditentukan hanya bedasarkan variabel x, sedangkan RSIMPLS ditentukan dari kombinasi linear variabel x yang mempunyai peragam maksimum dengan kombinasi variabel y (Hubert dan Branden 2003). Selain itu, tahapan regresi yang digunakan pada metode RPCR menggunakan regresi MCD sedangkan RSIMPLS menggunakan tambahan informasi dari metode ROBPCA.
4
model dalam memprediksi (validasi) menggunakan Root Mean Square Error of Prediction (RMSEP), R2 validasi dan korelasi (r).
Langkah-langkah penelitian ini adalah sebagai berikut:
I. Eksplorasi data untuk mengetahui karakteristik data dan mencari permasalahan yang mungkin terdapat multikolinearitas dan pencilan.
II. Tentukan data terpusat peubah n,pdan Ỹn,q dengan menggunakan i = i -
i = -
III. Dilakukan tahapan metode RPCR-M dan RSIMPLS-M dengan menggunakan keseluruhan data. Tahapan–tahapan metode RPCR-M dan RSIMPLS-M secara rinci adalah sebagai berikut:
A. RPCR-M, yaitu modifikasi RPCR menurut Hubert dan Verboven (2002) berdasarkan penduga-M dengan fungsi pembobot Huber (1964) :
1. Pembentukan skor kekar, menggunakan metode ROBPCA
a. Mereduksi ruang data menjadi subruang yang direntang oleh n observasi menggunakan Singular Value Decomposition (SVD) terhadap matriks data yang telah dipusatkan dengan rumus
X , −1 � ′ = U ,0D0,0V′0,
dengan � adalah vektor rataan klasik, 0= rank (X , −1 � ′), D
adalah matriks diagonal berukuran r0 x r0, dan UtU=I0=VtV, dengan
I0 adalah matriks identitas berukuran r0 x r0. Untuk p>n, dilakukan
pendekatan kernel berdasarkan penghitungan vektor dan nilai dari ( −1 � ′)( −1 � ′)′, sehingga didapat data berada pada subruang yang dibangkitkan oleh 0 kolom V, yaitu X ,0 = UD.
b. Menemukan h keterpencilan terkecil, tahap ini dilakukan dengan
memilih ½<α<1 untuk mendapatkan nilai h=max
{[αn],[(n+kmax+1)/2]}, dengan kmax menyatakan banyaknya
komponen k optimal. Selanjutnya keterpencilan dihitung dengan rumus Stahel-Donoho : Sebanyak h pengamatan dengan nilai keterpencilan terkecil disimpan dalam himpunan H0, kemudian dihitung vektor nilai tengah (� 0) dan
matriks ragam peragamnya (S0).
c. Dicari vektor ciri dan akar ciri yang bersesuaian dengan matriks ragam peragam (S0). Matriks ragam peragam (S0) didekomposisi sehingga diperoleh komponen utamanya ( 0).
S0 = P0L0P′0
dengan L adalah diagonal matriks dengan akar ciri 1,…, n dan
P0adalah vektor ciri S0.
d. Sebanyak k0 komponen utama dipilih dan semua data diproyeksikan
pada subruang berdimensi-k0 yang dibangkitkan oleh 0 komponen
vektor ciri dari S0, sehingga diperoleh
Xn,
0
∗ = (X
5
pembobot MCD. Pendugaan ini menggunakan algoritma FAST-MCD yang dijelaskan oleh Rousseeuw dan Van Driessen (1999) dalam Ningsih (2010). Komponen utama akhir (k) adalah vektor ciri dari matriks ragam peragam tersebut (S1).
f. Sebanyak k komponen utama dipilih dan semua data diproyeksikan pada subruang berdimensi-k yang dibangkitkan oleh k komponen vektor ciri dari S1, sehingga skor kekar (ti) dapat diperoleh:
T , = (t1, t2,…, tn)′ T , = (X , −1 � 1′)P,
dengan P, adalah vektor ciri dari S1.
g. Menghitung jarak skor (SD) dan jarak ortogonal (OD) SD= (t )′(L)−1t
OD= xi– μ 1– P , t
Algoritma ROBPCA secara lengkap dapat dilihat pada Lampiran 1. 2. Pembentukan regresi kekar, menggunakan regresi MCD
a. Menghitug penduga MCD terboboti (t,y) menghasilkan sebuah penduga pusat berdimensi (k+q) yaitu � = (� �,� )′ dan sebuah
dengan =1 apabila pengamatan ke-i tidak diidentifikasi sebagai pencilan dengan metode ROBPCA dan ≈ 0 untuk lainnya.
Modifikasi fungsi pembobot Huber (1964) adalah sebagai berikut :
6
� 0= � −A′�
Ʃ � = Ʃ −A ′Ʃ tA
Model regresi dapat ditulis sebagai berikut = A′ , t +�
= A′ , P′ , − � +� c. Menghitung koefisien regresi dengan peubah asli
B , = P, A ,
β 0 =� – B , �
d. Menghitung RMSECV (Root Mean Squared Error Cross Validation) B. RSIMPLS-M, yaitu modifikasi RSIMPLS menurut Hubert dan Branden
(2003) berdasarkan penduga-M dengan fungsi pembobot Huber (1964) : 1. Pembentukan skor kekar
a. Menentukan penduga pusat kekar � dan matriks peragam kekar Ʃ menggunakan metode ROBPCA seperti pada tahap RPCR namun menggunakan data Zn,m = (Xn,p,Yn,q), sehingga Ʃ dapat
didefinisikan sebagai vektor yang memaksimumkan
, q , , r = q′ Ʃ r
c. Menghitung skor kekar, untuk a=1
t = ′r = ( − � )′r
Skor pertama RSIMPLS yaitu : �1 = 1′ 1
d. Menghitung loading-X = (r Ʃ r )−1Ʃ r
e. Menghitung sebuah basis ortonormal {v1,...,va-1} terhadap loading-x
7
SDi(k)= (t )′(L )−1t (jarak skor)
ODi = (zi– μ z′) – P(z) t ( )
(jarak ortogonal)
a. Hitung koefisisen regresi RSIMPLS-M terhadap peubah asli diperoleh menggunakan metode kuadrat terkecil (penduga parameter untuk regresi linier �= β0 + qBʹpxi+ ei)
Bktp = Rp,k k,q β 0 = - Bʹktp
b. Hitung RMSECV
IV. Mendeteksi pencilan menggunakan metode RPCR-M dan RSIMPLS-M. V. Validasi model
a. Lakukan secara acak pemilihan data n1 untuk membentuk model dan n2
untuk validasi model.
b. Lakukan analisis data n1 seperti langkah III
c. Hitung RMSE dan R2 kalibrasi,
= 1 ( − )2
=1
= banyak sampel yang digunakan untuk membentuk model
= nilai pengamatan kelompok ke-i pada kelompok data model
= nilai dugaan pengamatan ke-i d. Lakukan prediksi nilai y pada kelompok data validasi n2 dengan
menggunakan model yang dihasilkan pada data n1. Selanjutnya validasi
model dengan kriteria RMSEP,R2 validasi, dan korelasi (r).
e. Ulangi tahap a sampai d sebanyak 10 kali dengan memilih kelompok data n1 dan n2 yang berbeda dari sebelumnya.
f. Menghitung rata-rata RMSE dan R2 seperti tahap c serta rata-rata RMSEP,R2 validasi, dan korelasi (r) pada tahap d.
g. Bandingkan kedua metode berdasarkan nilai RMSEP, R2validasi dan korelasi(r).
VI. Simulasi
a. Membuat data pencilan dengan memperbesar jarak ortogonal dan jarak skor menggunakan data kayu tersebut dengan mengacak jumlah pengamatan dan jumlah peubah bebas sebanyak 10 kali, untuk menghasilkan 10 buah data pencilan.
b. Membuat variasi jumlah pencilan yang berbeda yaitu sebanyak 1, 2, 3, 5, dan 9 buah pencilan yang masing-masing sebanyak 10 kali.
c. Menerapkan metode RPCR-M dan RSIMPLS-M pada data pencilan tersebut.
d. Menghitung rata-rata dari nilai RMSE dan RMSEP yang dihasilkan dari kedua metode tersebut.
e. Membandingkan kedua metode tersebut dari rata-rata nilai RMSE dan RMSEP
8
(2004) dan dapat diakses di alamat http://wis.kuleuven.be/stat/robust.html. Tahapan penelitian secara ringkas dapat dilihat pada diagram alir penelitian (Gambar 1).
9
HASIL DAN PEMBAHASAN
Deskripsi Data
Gambar 2 menyajikan grafik keluaran NIR kayu jati. Secara umum terlihat bahwa keseluruhan spektrum memiliki pola yang sama. Oleh karena itu, untuk keseluruhan contoh spektra kayu jati dapat dimodelkan dengan satu model kalibrasi. Berdasarkan gambar tersebut dapat dilihat pula pengamatan yang diduga sebagai pencilan, ditunjukkan dengan grafiknya yang terpisah dari yang lainnya, dan ditandai dengan garis putus-putus, yaitu pengamatan 17 dan 24 (KL2 dan I4).
Gambar 2 Sprektrum Absorbsi NIR 45 kayu Jati di Jawa (Kholik 2008) Identifikasi pencilan berdasarkan diagram kotak-garis pada data pengamatan Y menunjukkan tidak adanya pencilan, ini terlihat pada Gambar 3, sedangkan identifikasi pencilan berdasarkan data pengamatan X terdapat 2 buah pengamatan yang merupakan pencilan yaitu pengamatan Kl2 dan I4 (Gambar 4).
Lignin
10
Gambar 4 Diagram kotak-garis sebagian data pengamatan X
Adanya pencilan dapat mengakibatkan besarnya nilai ragam bagi model, sehingga dugaan koefisien regresi menjadi tidak tepat. Menghilangkan pengamatan yang mengandung pencilan bukan merupakan penyelesaian yang tepat, sehingga untuk mengatasi pencilan digunakan RKU kekar dan RKTP kekar yaitu RPCR-M dan RSIMPLS-M yang keduanya menggunakan penduga-M dengan fungsi pembobot Huber.
Berdasarkan data kandungan kimia kayu, dihitung nilai korelasi antar peubah respon. Jika antar peubah respon saling berkorelasi maka model yang digunakan adalah model multirespon. Peubah respon yang memiliki nilai korelasi kecil terhadap peubah respon lainnya akan dipisahkan dari model. Nilai korelasi Pearson antar peubah respon tertera pada Tabel 1.
Tabel 1 Nilai korelasi Pearson antar peubah respon
Korelasi Selulosa Holoselulosa Hemiselulosa Lignin
Selulosa 1 0.816 -0.646 -0.547
Holoselulosa 0.816 1 -0.084 -0.550
Hemiselulosa -0.646 -0.084 1 0.216
Lignin -0.547 -0.550 0.216 1
11
Penentuan Jumlah Komponen
Jumlah komponen k dengan metode RPCR-M dan RSIMPLS-M, ditentukan menggunakan data keseluruhan yang diperoleh melalui nilai RMSECV. Berdasarkan hasil perhitungan nilai RMSECV dengan menggunakan metode RPCR diperoleh model kalibrasi 10 komponen dengan RMSECV minimum, yaitu 1.3204 dan R2=0.7377. Penentuan komponen k dengan metode RPCR-M dari nilai RMSECV dan R2 tampak pada Gambar 5 dan Gambar 6.
Gambar 5 Nilai RMSECV metode RPCR-M pada beberapa jumlah komponen
12
Gambar 7 Nilai RMSECV metode RSIMPLS-M pada beberapa jumlah Komponen
Gambar 8 Nilai R2 metode RSIMPLS-M pada beberapa jumlah komponen
Identifikasi Pencilan
13
Gambar 9 Jarak skor dan jarak ortogonal metode RPCR-M
Gambar 10 Jarak skor dan jarak ortogonal metode RSIMPLS-M Tabel 2 Nilai batas (cut off) jarak skor dan jarak ortogonal
Jarak Nilai Batas
RPCR-M RSIMPLS-M
Jarak skor (SD) 4.5258 4.6819
Jarak Ortogonal (OD) 0.0147 0.0239
14
jarak skor dan jarak ortogonal untuk masing-masing pengamatan dengan metode RPCR-M dapat dilihat pada Lampiran 2.
Jumlah pengamatan pencilan berdasarkan metode RSIMPLS-M lebih banyak daripada jumlah pencilan yang diidentifikasi dengan metode RPCR-M, yaitu sekitar 33.3%. Gambar 9 menunjukkan bahwa analisis menggunakan metode RSIMPLS-M terdapat 15 buah pengamatan yang dideteksi sebagai pencilan, yaitu pengamatan B4, Bo5, Cu4, Cu5, Cs3, I4, Kh1, Kh2, Kh3, Kh4, Kh5, N1, N5, Rb1 dan Rb3. Pengamatan Kh5 memiliki nilai jarak skor dan jarak ortogonal yang sangat besar yaitu rata-rata sekitar 6.939 dan 0.0646 seperti dapat dilihat pada Lampiran 3. Pengamatan bersama yang diidentifikasi sebagai pencilan berdasarkan kedua metode diantaranya pengamatan Bo5, Cu4, Cu5, I4, Kh1, Kh3, Kh4, Kh5, N5, dan Rb3 atau sekitar 52.63% menghasilkan pencilan yang sama oleh kedua metode. Pengamatan I4, dan KL2 yang diidentifikasi pencilan oleh diagram kotak-garus juga diidentifikasi pencilan oleh metode RPCR-M, namun dengan metode RSIMPLS-M hanya I4 yang diidentifikasi sebagai pencilan. Hal ini dikarenakan meskipun keduanya merupakan metode kekar namun tingkat sensitifitas metode RSIMPLS-M lebih kecil dibandingkan metode RPCR-M.
Berdasarkan plot ROBPCA antara jarak skor dan jarak ortogonal terbagi menjadi 3 kategori pencilan, yaitu kategori pengamatan berpengaruh PCA baik, berpengaruh PCA buruk dan pencilan ortogonal. Pengamatan pencilan dikategorikan berpengaruh PCA baik terhadap keragaman data, jika pengamatan tersebut terletak diluar nilai batas jarak skor namun berada didalam nilai batas jarak ortogonal. Pengamatan pencilan dikategorikan pencilan ortogonal, yaitu jika pengamatan berada diluar nilai batas jarak ortogonal namun didalam nilai batas jarak skor. Sedangkan, pengamatan pencilan dikategorikan berpengaruh PCA buruk terhadap keragaman data, jika pengamatan tersebut berada diluar nilai batas jarak skor dan jarak ortogonal. Ketiga pembagian pencilan tersebut untuk metode RSIMPLS-M dan RPCR-M dapat dilihat pada Tabel 3.
Tabel 3 Kategori pengamatan pencilan berdasarkan plot ROBPCA
Kategori Pengamatan Metode Tabel 3 terlihat bahwa ketegori pengamatan berpengaruh PCA buruk dengan menggunakan metode RPCR-M sama banyak dengan metode RSIMPLS-M. Selanjutnya, pemberian nilai bobot (w) untuk setiap pengamatan dengan metode RPCR-M dan RSIMPLS-M dapat dilihat pada Lampiran 2 dan Lampiran 3. Setiap pengamatan akan diberikan nilai bobot mendekati nol (wi ≈ 0) jika jarak
skor dan jarak ortogonal setiap pengamatan melebihi nilai batas (cut off) yang ditentukan, dan nilai bobot sama dengan satu (wi =1) untuk lainnya.
15 Tabel 4 Nilai RMSE dan R2 dari data keseluruhan
Metode RMSE R2
1 2 3
RPCR-M 1,9737 1,1688 1,1504 0,8751
RSIMPLS-M 1,9483 1,2097 1,1992 0,8409
Keterangan: 1=Selulosa, 2=Holoselulosa, 3=Lignin.
Nilai koefisien determinasi (R2) pada metode RPCR-M lebih baik daripada metode RSIMPLS-M, terlihat dari nilai R2 pada metode RPCR-M lebih besar daripada nilai R2 pada metode RSIMPLS-M. Berdasarkan nilai RMSEP tampak bahwa secara umum dari ketiga respon, nilai RMSE dengan metode RPCR-M lebih kecil dibandingkan dengan metode RSIMPLS-M. Selain itu, apabila dilihat dari plot antara nilai dugaan dengan nilai aktual dari masing-masing respon kedua metode pada Lampiran 4 dan Lampiran 5, tampak bahwa dari ketiga respon metode RPCR-M menghasilkan R2 yang lebih tinggi dibandingkan dengan metode RSIMPLS-M. Selanjutnya untuk menilai baik atau tidaknya hasil dugaan akan dilakukan validasi model.
Validasi Data
Banyaknya pengamatan (n=134) pada tahapan validasi data, dibagi dalam dua kelompok dengan perbandingan 2/3 untuk data model dan 1/3 untuk data validasi. Kelompok pertama diperoleh sebanyak n1= 90 untuk pembentukan
model dan kelompok kedua sebanyak n2=44 untuk validasi model. Pemilihan
kelompok yang berbeda dilakukan sebanyak 10 kali pengambilan tanpa pemulihan, sehingga diperoleh 10 kombinasi contoh yang berbeda. Hal ini dilakukan agar pencilan yang terambil bersifat acak. Nilai rata-rata RMSE dan R2 dari metode RPCR-M dan RSIMPLS-M untuk membentuk model kalibrasi serta rata-rata RMSEP dan R2 dari hasil validasi model tertera pada Tabel 5. Sedangkan nilai rata-rata korelasi antara dan untuk i=1,2,3 tertera pada Tabel 6.
Tabel 5 Rata-rata RMSE, RMSEP, R2 model, dan R2 validasi dari 10 kombinasi pengambilan contoh Keterangan: 1=Selulosa, 2=Holoselulosa, 3=Lignin.
Tabel 6 Rata-rata korelasi dari 10 kombinasi pengambilan contoh
Metode Rata-rata Korelasi
1vs 1 2vs 2 3vs 3
RPCR-M 0.6987 0.824 0.6365
RSIMPLS-M 0.6725 0.7984 0.5959
16
Tabel 5 menunjukkan nilai rata-rata RMSE dan RMSEP untuk kandungan selulosa ( 1), holoselulosa ( 2), dan lignin ( 3) dengan metode RPCR-M lebih kecil dibandingkan metode RSIMPLS-M. Berdasarkan nilai koefisien determinasi (R2) secara umum tampak bahwa dengan metode RPCR-M diperoleh nilai rata-rata R2 model dan R2 validasi tertinggi, yaitu 0.8854 dan 0.7593..
Dilihat dari korelasi antara y aktual dengan y duga yang tertera pada Tabel 6, diperoleh nilai rata-rata korelasi tertinggi untuk masing-masing respon adalah dengan menggunakan metode RPCR-M. Hal ini menunjukkan bahwa dalam kasus data ini metode RPCR-M lebih baik dibandingkan metode RSIMPLS-M.
Simulasi
Khusus kasus ini pengamatan yang dideteksi sebagai pencilan cenderung berada tidak terlalu jauh dari pusat data. Hal ini ditunjukkan pada Lampiran 2 dan Lampiran 3, tampak bahwa selang nilai bobot yang diberikan pada setiap pengamatan berkisar antara 0.3666 dan 1, nilai selang tersebut masih jauh mendekati 0. Oleh karena itu, dilakukan simulasi menggunakan data kayu jati dengan pencilan yang ekstrim yaitu jarak pencilan yang jauh dari pusat data. Kedua metode kekar tersebut dibandingkan dengan jumlah pencilan yang beragam yang dilakukan secara acak dengan 10 kali ulangan.
Tabel 7 Perbandingan Nilai RMSE dan RMSEP metode RPCR-M dan RSIMPLS-M dengan jumlah pencilan yang beragam.
Jumlah Keterangan: 1=Selulosa, 2=Holoselulosa, 3=Lignin.
17 RSIMPLS-M juga menghasilkan nilai RMSE dan RMSEP yang relatif lebih stabil jika dilihat dari selisih peningkatan nilai RMSE dan RMSEP yang tidak terlalu tinggi ketika diberi pencilan yang sedikit maupun banyak.
SIMPULAN DAN SARAN
Simpulan
Berdasarkan hasil analisis menggunakan data asli, dapat disimpulkan bahwa deteksi pencilan dengan metode RPCR-M lebih sensitif dibandingkan metode RSIMPLS-M. Evaluasi kebaikan model hasil validasi juga menunjukkan bahwa metode RPCR-M lebih baik dibandingkan metode RSIMPLS-M.
Berdasarkan hasil simulasi dengan jarak pencilan yang jauh dari pusat data (ekstrim) menunjukkan bahwa untuk jumlah pencilan ekstrim yang sedikit (<2) metode RPCR-M lebih baik daripada metode RSIMPLS-M, namun untuk jumlah pencilan ekstrim yang cukup banyak (≥2) metode RSIMPLS-M memberikan hasil yang lebih baik dan lebih stabil dari pada metode RPCR-M.
Saran
Penelitian ini menggunakan metode RSIMPLS dengan fungsi bobot berdasarkan teori penduga-M Huber yang cukup baik dalam hal prediksi, namun masih kurang sensitif dalam mendeteksi pencilan. Oleh karena itu, perlu ada kajian yang mendalam mengenai fungsi bobot lain serta metode lain yang lebih akurat dan sensitif dalam mendeteksi pencilan dengan jarak dekat maupun jauh dari pusat data.
DAFTAR PUSTAKA
Huber PJ. 1964. Robust estimation of a location parameter. Annals of Mathematical Statistics. 35:73-101.
Hubert M, Branden KV. 2003. Robust methods for partial least squares regression, Journal of Chemometrics. 17:537-549.
Hubert M, Verboven S. 2002. A robust PCR method for high dimensional regressors, Journal of Chemometrics. 17:438-452.
Hubert M, Verboven S. 2004. LIBRA: a MATLAB Library for Robust Analysis[Internet]. [diunduh 2011 Okt 31]. Tersedia pada: http://wis.kuleuven.be/stat/robust.html.
Hubert M, Rousseeuw PJ, Branden KV. 2003. ROBPCA: a new approach to robust principal components analysis, Technometrics. 47:64-79.
18
Kholik A. 2008. Variasi genetik, isotop, dan spektra Near Infrared (NIR) kayu jati di Jawa [tesis]. Bogor: Sekolah Pasca Sarjana, Institut Pertanian Bogor. Moller SF, Frese JV, Bro R. 2006. Robust methods for multivariate data analysis.
Journal of Chemometrics. 19: 549-563.
Naes T, Isaksson T, Fearn T, Davies T. 2002. Multivariate Calibration and Classification. Chichester: NIR Publications.
Ningsih W. 2010. Identifikasi dan penanganan pengaruh pencilan pada analisis komponen utama [skripsi]. Bogor (ID): Departemen Statistika, Institut Pertanian Bogor.
Suryana. 2007. Analisis data outlier pada data pengeluaran rumah tangga di kota kupang, NTT tahun 2005 dengan metode ROBPCA [paper]. Surabaya (ID): Program Studi Magister, Jurusan Statistika, Institut Teknologi Sepuluh Nopember.
20
21 Lampiran 2 Nilai jarak skor (SD) dan jarak ortogonal (OD) serta besar bobot (w)
22
23 Lampiran 2 Nilai jarak skor (SD) dan jarak ortogonal (OD) serta besar bobot (w)
metode RPCR-M (Lanjutan)
Kode Obs Sd od w_sd w_od w
Rb2 124 2.8258 0.0085 1 1 1
125 2.8211 0.0087 1 1 1
Rb3 126 5.9868 0.0081 0.7560 1 0.7560
127 6.0015 0.0085 0.7541 1 0.7541
128 5.9928 0.0087 0.7552 1 0.7552
Rb4 129 3.3515 0.0058 1 1 1
130 3.3248 0.0060 1 1 1
131 3.2938 0.0060 1 1 1
Rb5 132 2.8451 0.0100 1 1 1
133 2.8095 0.0095 1 1 1
24
25 Lampiran 3 Nilai jarak skor (SD) dan jarak ortogonal (OD) serta besar bobot (w)
26
27 Lampiran 3 Nilai jarak skor (SD) dan jarak ortogonal (OD) serta besar bobot (w)
metode RSIMPLS-M (Lanjutan)
Kode Obs Sd od w_sd w_od w
Rb2 124 3.5280 0.0108 1 1 1
125 3.5017 0.0103 1 1 1
Rb3 126 6.7851 0.0082 0.6900 1 0.6900
127 6.7876 0.0084 0.6898 1 0.6898
128 6.7665 0.0084 0.6919 1 0.6919
Rb4 129 3.5604 0.0062 1 1 1
130 3.5342 0.0062 1 1 1
131 3.5019 0.0060 1 1 1
Rb5 132 3.2243 0.0103 1 1 1
133 3.1933 0.0104 1 1 1
28
Lampiran 4 Plot nilai dugaan dengan nilai aktual dari masing-masing respon dengan metode RPCR-M
Selulosa_duga = 19,49 + 0,5671 Selulosa
75,0
Holoselulosa_duga = 18,19 + 0,7429 Holoselulosa
30
29 Lampiran 5 Plot nilai dugaan dengan nilai aktual dari masing-masing respon
dengan metode RSIMPLS-M
Selulosa_duga = 18,99 + 0,5781 Selulosa
75,0
Holoselulosa_duga = 19,48 + 0,7246 Holoselulosa
30
30
RIWAYAT HIDUP
Penulis dilahirkan di Kuningan Provinsi Jawa Barat pada tanggal 9 Juli 1990 sebagai putri satu-satunya dari pasangan Drs. Jalaluddin (ayah) dan Nani Suherni (ibu).
Penulis menyelesaikan pendidikan dasar di SD Negeri VII Kuningan pada tahun 2002. kemudian penulis melanjutkan sekolah menengah pertama di SLTPN 1 Kuningan hingga tahun 2005. Pada tahun yang sama penulis melanjutkan sekolah menengah atas di SMAN 1 Kuningan dan lulus pada tahun 2008.