• Tidak ada hasil yang ditemukan

Penerapan Regresi Komponen Utama Kekar dan Regresi Kuadrat Terkecil Parsial Kekar dalam Pemodelan Kalibrasi Multirespon Kayu Jati

N/A
N/A
Protected

Academic year: 2017

Membagikan "Penerapan Regresi Komponen Utama Kekar dan Regresi Kuadrat Terkecil Parsial Kekar dalam Pemodelan Kalibrasi Multirespon Kayu Jati"

Copied!
40
0
0

Teks penuh

(1)

P

ENERAPAN REGRESI KOMPONEN UTAMA KEKAR DAN

REGRESI KUADRAT TERKECIL PARSIAL KEKAR DALAM

PEMODELAN KALIBRASI MULTIRESPON KAYU JATI

LENY YULIYANI

DEPARTEMEN STATISTIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

(2)
(3)

PERNYATAAN MENGENAI SKRIPSI DAN

SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA

Dengan ini saya menyatakan bahwa skripsi berjudul Penerapan Regresi Komponen Utama Kekar dan Regresi Kuadrat Terkecil Parsial Kekar dalam Pemodelan Kalibrasi Multirespon Kayu Jati adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.

(4)

ABSTRAK

LENY YULIYANI. Penerapan Regresi Komponen Utama Kekar dan Regresi Kuadrat Terkecil Parsial Kekar dalam Pemodelan Kalibrasi Multirespon Kayu Jati. Dibimbing oleh HARI WIJAYANTO, AJI HAMIM WIGENA dan LINA KARLINASARI.

Pemodelan kalibrasi merupakan suatu metode yang sering digunakan untuk menduga kandungan kimia suatu bahan dari ukuran spektra. Permasalahan yang sering muncul dalam pemodelan kalibrasi adalah banyaknya peubah bebas jauh lebih besar daripada banyaknya pengamatan, multikolinearitas antar peubah bebas,serta terdapat pencilan. RPCR dan RSIMPLS merupakan metode kekar yang didasari dari algoritma RKU (Regresi Komponen Utama) dan RKTP (Regresi Kuadrat Terkecil Parsial) yang mampu mengatasi permasalahan tersebut. Sebuah modifikasi RPCR dan RSIMPLS, diberi nama RPCR-M dan RSIMPLS-M. Kedua metode modifikasi tersebut merupakan sebuah metode alternatif dengan menggunakan pembobot pada RPCR dan RSIMPLS berdasarkan penduga-M dengan fungsi pembobot Huber. Kedua metode modifikasi tersebut diterapkan pada data multirespon untuk menduga kandungan kimia pada kayu jati dan dibandingkan keduanya. Hasil dari valiasi dan simulasi menunjukkan bahwa RPCR-M lebih baik ketika jumlah pencilan ekstrim kurang dari dua, sedangkan RSIMPLS-M lebih baik dan lebih stabil ketika jumlah pencilan ekstrim lebih dari dua.

Kata kunci: kalibrasi multirespon, metode kekar, RPCR-M, RSIMPLS-M

ABSTRACT

LENY YULIYANI. Application of Robust Principal Component Regression and Robust Partial Least Square in Multirespon Calibration Modeling of Teak Wood. Supervised by HARI WIJAYANTO, AJI HAMIM WIGENA and LINA KARLINASARI.

Calibration modeling is a method which often be used to estimate chemical contents of a material from measured spectra. The problems in calibration modeling are the number of independent variables larger than the number of observations, multicollinearity between independent variables, and outliers. RPCR and RSIMPLS are robust methods based on PCR (Principal Component Regression) and PLS (Partial Least Square) algorithms capable to solve those problems. A modified method of RPCR and RSIMPLS, called RPCR-M and RSIMPLS-M. They are alternative methods used weight in RPCR and RSIMPLS based on M-estimators with Huber weight function. Both modified methods are applied to multirespon data to estimate chemical contents of teak wood and compared. The results of validation and simulation showed that RPCR-M is better when the number of extreme outliers are less then two, whereas RSIMPLS-M is better and more stable when extreme outliers in the data are more then two.

(5)

Skripsi

sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika

pada

Departemen Statistika

PENERAPAN REGRESI KOMPONEN UTAMA KEKAR DAN

REGRESI N KUADRAT TERKECIL PARSIAL KEKAR DALAM

PEMODELAN KALIBRASI MULTIRESPON KAYU JATI

LENY YULIYANI

DEPARTEMEN STATISTIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

(6)
(7)

Judul Skripsi : Penerapan Regresi Komponen Utama Kekar dan Regresi Kuadrat Terkecil Parsial Kekar dalam Pemodelan Kalibrasi Multirespon Kayu Jati

Nama : Leny Yuliyani NIM : G14080053

Disetujui oleh

Dr Ir Hari Wijayanto, MS Pembimbing I

Dr Ir Aji Hamim Wigena, MSc Pembimbing II

Dr Lina Kalinasari, MScF Pembimbing III

Diketahui oleh

Dr Ir Hari Wijayanto, MS Ketua Departemen

(8)

PRAKATA

Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak bulan Desember 2012 ini ialah kalibrasi, dengan judul Penerapan Regresi Komponen Utama Kekar dan Regresi Kuadrat Terkecil Parsial Kekar dalam Pemodelan Kalibrasi Multirespon Kayu Jati.

Terima kasih penulis ucapkan kepada Bapak Dr Ir Hari Wijayanto, MS, Bapak Dr Ir Aji Hamim Wigena, MSc dan Ibu Dr Lina Karlinasari, MSc.F selaku pembimbing yang telah banyak memberi arahan dan bimbingan dalam penulisan skripsi ini, serta penulis berterimakasih kepada Ibu Ismah, MSi yang telah mengajarkan penggunaan software. Di samping itu, ungkapan terima kasih juga disampaikan kepada ayah, ibu, dan adikku imma atas segala doa dan kasih sayangnya. Ungkapan terima kasih juga tidak lupa untuk Riki Andriatna, S.Pd yang telah memberikan masukan dan semangat dalam penulisan ini, serta untuk teman-teman STK45 dan teman-teman kosan An-Nahla atas motivasi dan dukungan kepada penulis. Tak lupa pula ucapan terima kasih untuk keluarga bidadari Nabila (Ira, Iin, Umul) atas kebersamaan dan canda tawa yang diberikan selama di Bogor.

Semoga karya ilmiah ini dapat bermanfaat bagi semua pihak yang membutuhkan. Penulis mohon maaf atas segala kekurangan dan kesalahan yang terdapat dalam karya ilmiah ini.

(9)

DAFTAR ISI

DAFTAR TABEL vi

DAFTAR GAMBAR vi

DAFTAR LAMPIRAN vi

PENDAHULUAN 1

Latar Belakang 1

Tujuan Penelitian 2

METODOLOGI 3

Metode Pengumpulan Data 3

Metode Analisis 3

HASIL DAN PEMBAHASAN 9

Deskripsi Data 9

Penentuan Jumlah Komponen 11

Identifikasi Pencilan 12

Validasi Data 15

Simulasi 16

SIMPULAN DAN SARAN 17

Simpulan 17

Saran 17

DAFTAR PUSTAKA 17

LAMPIRAN 19

(10)

DAFTAR TABEL

1 Nilai korelasi Pearson antar peubah respon 10

2 Nilai batas (cut off) jarak skor dan jarak ortogonal 13 3 Kategori pengamatan pencilan berdasarkan plot ROBPCA 14

4 Nilai RMSE dan R2 dari data keseluruhan 15

5 Rata-rata RMSE, RMSEP, R2 model dan R2 validasi dari 10 kombinasi

pengambilan contoh 15

6 Rata-rata korelasi dari 10 kombinasi pengambilan contoh 15 7 Perbandingan nilai RMSE dan RMSEP metode RPCR-M dan

RSIMPLS-M dengan jumlah pencilan yang beragam 16

DAFTAR GAMBAR

1 Diagram alir penelitian 8

2 Spektrum Absorbsi NIR 45 kayu jati di Jawa 9

3 Diagram kotak-garis data pengamatan Y 9

4 Diagram kotak-garis sebagian data pengamatan X 10 5 Nilai RMSECV metode RPCR-M pada beberapa jumlah komponen 11 6 Nilai R2 metode RPCR-M pada beberapa jumlah komponen 11 7 Nilai RMSECV metode RSIMPLS-M pada beberapa jumlah komponen 12 8 Nilai R2 metode RSIMPLS-M pada beberapa jumlah komponen 12

9 Jarak skor dan jarak ortogonal metode RPCR-M 13

10 Jarak skor dan jarak ortogonal metode RSIMPLS-M 13

DAFTAR LAMPIRAN

1 Skema Algoritma ROBPCA 19

2 Nilai jarak skor (SD) dan jarak ortogonal (OD) serta besar bobot (w)

metode RPCR-M 20

3 Nilai jarak skor (SD) dan jarak ortogonal (OD) serta besar bobot (w)

metode RSIMPLS-M 24

4 Plot nilai dugaan dengan nilai aktual dari masing-masing respon dengan

metode RPCR-M 28

5 Plot nilai dugaan dengan nilai aktual dari masing-masing respon dengan

(11)

PENDAHULUAN

Latar Belakang

Jati (Tectona grandis L.f.) terkenal sebagai kayu komersil bermutu tinggi, termasuk dalam famili Verbenaceae. Penyebaran alami meliputi negara-negara India, Birma, Kamboja, Thailand, Malaysia dan Indonesia. Di Indonesia jati terdapat di beberapa daerah seperti Jawa, Muna, Buton, Maluku dan Nusa Tenggara. Karakteristik dari kayu jati yang paling dikenal orang adalah keawetan dan daya tahannya terhadap perubahan cuaca dibandingkan dengan jenis kayu lain. Selain itu pula karakter serat dan warnanya memiliki ciri khas tersendiri. Oleh karena itu harga kayu jati lebih mahal. Kayu jati termasuk kelas kuat I dan kelas awet II. Komponen kimia utama kayu terdiri dari komponen-komponen makromolekul berupa selulosa, hemiselulosa, dan lignin (Kholik 2008). Komponen-komponen tersebut menentukan kualitas bahan dari kayu jati. Oleh karena itu untuk memperoleh kualitas yang baik perlu dikaji kandungan senyawa kimia dalam kayu jati.

Kandungan senyawa kimia kayu dianalisis dengan menggunakan prosedur standar Tappi (1988), prosedur ini memerlukan waktu yang lama dan kurang praktis. Metode lain untuk mengetahui kandungan kimia dalam kayu adalah dengan menggunakan spektroskopi NIR (Near Infrared). NIR merupakan salah-satu teknik spektroskopi yang menggunakan wilayah panjang gelombang inframerah pada spektrum elektromagnetik sekitar 780 nm sampai 2500 nm (Naes et al. 2002). Panjang gelombang yang dihasilkan menggunakan spektroskopi NIR umumnya sangat lebar, sehingga terbentuk spektrum-spektrum yang rumit. Hal ini menyulitkan penentuan kandungan kimia yang spesifik, sehingga alternatif untuk mengatasinya yaitu dengan membuat model kalibrasi peubah ganda.

Model kalibrasi yang akan dibentuk menyatakan hubungan antara konsentrasi zat aktif (Y) hasil pengukuran kimia kayu dengan prosedur Tappi (1988) dengan absorbansi (X) yang diukur dengan menggunakan NIR. Namun ada beberapa masalah yang sering muncul dalam proses kalibrasi, diantaranya banyaknya peubah bebas jauh lebih besar daripada banyaknya pengamatan (p>>n).

Menurut Naes et al. (2002) masalah yang juga sering muncul dalam teknik kalibrasi diantaranya adalah masalah kolinearitas antar peubah bebas, ini terjadi jika terdapat korelasi yang tinggi diantara peubah bebas. Teknik regresi standar yang biasa digunakan adalah metode kuadrat terkecil, menghasilkan koefisisen regresi dan prediksi yang tidak stabil dan tidak dapat diandalkan jika terdapat multikolinearitas antar peubah bebas, sehingga metode lain harus digunakan. Beberapa teknik kalibrasi terbaik yang dikenal, misalnya RKU (Regresi Komponen Utama) dan RKTP (Regresi Kuadrat Terkecil Parsial) adalah pengembangan untuk memecahkan masalah multikolinearitas.

(12)

2

kuat (Ismah 2010), sehingga perlu adanya metode yang kekar untuk mengatasi masalah tersebut.

Regresi Komponen Utama (RKU) dan Regresi Kuadrat Terkecil Parsial (RKTP) merupakan salah satu teknik prediktif yang mampu mengatasi peubah bebas berdimensi besar dan terdapat masalah multikolinearitas. Metode kekar dengan menggunakan algoritma RKU untuk data multirespon diantaranya adalah RPCR (Robust Principal Component Regression) yang diperkenalkan oleh Hubert dan Verboven (2002), sedangkan metode kekar dengan menggunakan algoritma RKTP yang resisten terhadap pencilan untuk data multirespon diantaranya adalah RSIMPLS (Robust Straightforward Implementation Partial Least Square) yang diperkenalkan oleh Hubert dan Branden (2003).

Metode RPCR merupakan kombinasi antara metode AKU (Analisis Komponen Utama) kekar yang diterapkan pada peubah bebas dengan menggunakan ROBPCA (Robust Principal Component Analysis) (Hubert et al. 2003) dan metode regresi kekar, yaitu menggunakan regresi LTS (Least Trimmed Squares) untuk satu peubah respon dan regresi MCD (Minimum Covariance Determinant) untuk peubah respon lebih dari satu (Moller et al. 2006). Sedangkan RSIMPLS merupakan kombinasi antara metode matriks peragam kekar yang didapat dari ROBPCA dan regresi kekar. Keduanya menggunakan metode yang sama yaitu ROBPCA namun algoritmanya berbeda.

Setiap pengamatan yang dideteksi sebagai pencilan oleh kedua metode tersebut akan diberi nilai bobot nol dan diberi bobot satu untuk pengamatan lainnya. Pemberian bobot nol berarti pengamatan tersebut dihilangkan, ini berarti mengurangi jumlah pengamatan. Alternatif fungsi bobot untuk mengatasi pencilan yaitu berdasarkan penduga-M dengan fungsi pembobot Huber (1964), seperti yang telah dilakukan Ismah (2010), yaitu pembobot yang diberikan untuk setiap pengamatan bergantung pada jarak sisaan dan koefisien. Metode alternatif RPCR dan RSIMPLS berdasarkan konsep penduga M dengan pembobot Huber selanjutnya dalam penelitian ini diberi nama RPCR-M dan RSIMPLS-M.

Pada penelitian ini akan dilakukan kajian mengenai metode RPCR-M dan RSIMPLS-M untuk menduga kandungan kimia pada kayu jati dan membandingkan keduanya dalam menangani data pencilan pada data kalibrasi multirespon.

Tujuan Penelitian

(13)

3

METODOLOGI

Metode Pengumpulan Data

Data yang digunakan dalam penelitian ini merupakan data sekunder dari penelitian Kholik (2008), berupa data kayu jati yang terdiri atas 1557 peubah bebas dan 4 peubah respon. Peubah bebas (X) berupa data absorbansi yang diukur menggunakan spektrometer NIR (Near Infrared) dengan panjang gelombang 1000-2550 nm. Peubah respon (Y) berupa konsentrasi kandungan kimia kayu jati struktural menggunakan prosedur standar Tappi (1988), diantaranya selulosa, holoselulosa, hemiselulosa, dan lignin. Contoh kayu diambil dari sembilan lokasi Kesatuan Pemangku Hutan (KPH) Perum Perhutani yang masih produktif dan merupakan sentra jati di Jawa, yaitu Jawa Barat-Banten, Jawa Tengah, dan Jawa Timur.

KPH Perum Perhutani yang dipilih sebagai populasi adalah

1. Unit I Jawa Tengah : KPH Cepu (Cu), KPH Kendal (Kl), KPH Kebonharjo (Kh) dan KPH Randublatung (Rb),

2. Unit II Jawa Timur : KPH Bojonegoro (Bo) dan KPH Ngawi (N),

3. Unit III Jawa Barat-Banten : KPH Banten (B), KPH Indramayu (I), dan KPH Ciamis (Cs).

Sebanyak lima individu dipilih secara acak dari areal tebangan pada tiap KPH terpilih, sehingga terdapat 45 kayu jati dan masing-masing individu diukur sebanyak 3 kali ulangan.

Metode Analisis

RPCR dan RSIMPLS sama-sama didasari atas metode ROBPCA, yaitu dengan menggabungkan konsep Projection Pursuit (PP) dengan penduga peragam kekar, yaitu Determinan Peragam Minimum (Minimum Covariance Determinant, MCD). PP digunakan untuk mendapatkan struktur data peubah ganda dengan memproyeksikan pada subhimpunan berdimensi rendah sehingga didapat k komponen. MCD diterapkan ke dalam jumlah komponen yang terbentuk untuk memperoleh penduga pusat dan peragam kekar. ROBPCA dijelaskan secara rinci oleh Hubert et al. (2003) dan Suryana (2007).

Perbedaan antara metode RPCR dan RSIMPLS terletak pada penentuan komponen k yang membentuk skor kekar. PCR ditentukan hanya bedasarkan variabel x, sedangkan RSIMPLS ditentukan dari kombinasi linear variabel x yang mempunyai peragam maksimum dengan kombinasi variabel y (Hubert dan Branden 2003). Selain itu, tahapan regresi yang digunakan pada metode RPCR menggunakan regresi MCD sedangkan RSIMPLS menggunakan tambahan informasi dari metode ROBPCA.

(14)

4

model dalam memprediksi (validasi) menggunakan Root Mean Square Error of Prediction (RMSEP), R2 validasi dan korelasi (r).

Langkah-langkah penelitian ini adalah sebagai berikut:

I. Eksplorasi data untuk mengetahui karakteristik data dan mencari permasalahan yang mungkin terdapat multikolinearitas dan pencilan.

II. Tentukan data terpusat peubah n,pdan Ỹn,q dengan menggunakan i = i -

i = -

III. Dilakukan tahapan metode RPCR-M dan RSIMPLS-M dengan menggunakan keseluruhan data. Tahapan–tahapan metode RPCR-M dan RSIMPLS-M secara rinci adalah sebagai berikut:

A. RPCR-M, yaitu modifikasi RPCR menurut Hubert dan Verboven (2002) berdasarkan penduga-M dengan fungsi pembobot Huber (1964) :

1. Pembentukan skor kekar, menggunakan metode ROBPCA

a. Mereduksi ruang data menjadi subruang yang direntang oleh n observasi menggunakan Singular Value Decomposition (SVD) terhadap matriks data yang telah dipusatkan dengan rumus

X , −1 � ′ = U ,0D0,0V′0,

dengan � adalah vektor rataan klasik, 0= rank (X , −1 � ′), D

adalah matriks diagonal berukuran r0 x r0, dan UtU=I0=VtV, dengan

I0 adalah matriks identitas berukuran r0 x r0. Untuk p>n, dilakukan

pendekatan kernel berdasarkan penghitungan vektor dan nilai dari ( −1 � ′)( −1 � ′)′, sehingga didapat data berada pada subruang yang dibangkitkan oleh 0 kolom V, yaitu X ,0 = UD.

b. Menemukan h keterpencilan terkecil, tahap ini dilakukan dengan

memilih ½<α<1 untuk mendapatkan nilai h=max

{[αn],[(n+kmax+1)/2]}, dengan kmax menyatakan banyaknya

komponen k optimal. Selanjutnya keterpencilan dihitung dengan rumus Stahel-Donoho : Sebanyak h pengamatan dengan nilai keterpencilan terkecil disimpan dalam himpunan H0, kemudian dihitung vektor nilai tengah (� 0) dan

matriks ragam peragamnya (S0).

c. Dicari vektor ciri dan akar ciri yang bersesuaian dengan matriks ragam peragam (S0). Matriks ragam peragam (S0) didekomposisi sehingga diperoleh komponen utamanya ( 0).

S0 = P0L0P′0

dengan L adalah diagonal matriks dengan akar ciri 1,…, n dan

P0adalah vektor ciri S0.

d. Sebanyak k0 komponen utama dipilih dan semua data diproyeksikan

pada subruang berdimensi-k0 yang dibangkitkan oleh 0 komponen

vektor ciri dari S0, sehingga diperoleh

Xn,

0

= (X

(15)

5

pembobot MCD. Pendugaan ini menggunakan algoritma FAST-MCD yang dijelaskan oleh Rousseeuw dan Van Driessen (1999) dalam Ningsih (2010). Komponen utama akhir (k) adalah vektor ciri dari matriks ragam peragam tersebut (S1).

f. Sebanyak k komponen utama dipilih dan semua data diproyeksikan pada subruang berdimensi-k yang dibangkitkan oleh k komponen vektor ciri dari S1, sehingga skor kekar (ti) dapat diperoleh:

T , = (t1, t2,…, tn)′ T , = (X , −1 � 1′)P,

dengan P, adalah vektor ciri dari S1.

g. Menghitung jarak skor (SD) dan jarak ortogonal (OD) SD= (t )′(L)−1t

OD= xi– μ 1– P , t

Algoritma ROBPCA secara lengkap dapat dilihat pada Lampiran 1. 2. Pembentukan regresi kekar, menggunakan regresi MCD

a. Menghitug penduga MCD terboboti (t,y) menghasilkan sebuah penduga pusat berdimensi (k+q) yaitu � = (� ,� )′ dan sebuah

dengan =1 apabila pengamatan ke-i tidak diidentifikasi sebagai pencilan dengan metode ROBPCA dan ≈ 0 untuk lainnya.

Modifikasi fungsi pembobot Huber (1964) adalah sebagai berikut :

(16)

6

� 0= � −A′�

Ʃ � = Ʃ −A ′Ʃ tA

Model regresi dapat ditulis sebagai berikut = A′ , t +�

= A′ , P′ , − � +� c. Menghitung koefisien regresi dengan peubah asli

B , = P, A ,

β 0 =� – B , �

d. Menghitung RMSECV (Root Mean Squared Error Cross Validation) B. RSIMPLS-M, yaitu modifikasi RSIMPLS menurut Hubert dan Branden

(2003) berdasarkan penduga-M dengan fungsi pembobot Huber (1964) : 1. Pembentukan skor kekar

a. Menentukan penduga pusat kekar � dan matriks peragam kekar Ʃ menggunakan metode ROBPCA seperti pada tahap RPCR namun menggunakan data Zn,m = (Xn,p,Yn,q), sehingga Ʃ dapat

didefinisikan sebagai vektor yang memaksimumkan

, q , , r = q′ Ʃ r

c. Menghitung skor kekar, untuk a=1

t = ′r = ( − � )′r

Skor pertama RSIMPLS yaitu : �1 = 1′ 1

d. Menghitung loading-X = (r Ʃ r )−1Ʃ r

e. Menghitung sebuah basis ortonormal {v1,...,va-1} terhadap loading-x

(17)

7

SDi(k)= (t )′(L )−1t (jarak skor)

ODi = (zi– μ z′) – P(z) t ( )

(jarak ortogonal)

a. Hitung koefisisen regresi RSIMPLS-M terhadap peubah asli diperoleh menggunakan metode kuadrat terkecil (penduga parameter untuk regresi linier = β0 + qBʹpxi+ ei)

Bktp = Rp,k k,q β 0 = - Bʹktp

b. Hitung RMSECV

IV. Mendeteksi pencilan menggunakan metode RPCR-M dan RSIMPLS-M. V. Validasi model

a. Lakukan secara acak pemilihan data n1 untuk membentuk model dan n2

untuk validasi model.

b. Lakukan analisis data n1 seperti langkah III

c. Hitung RMSE dan R2 kalibrasi,

= 1 ( − )2

=1

= banyak sampel yang digunakan untuk membentuk model

= nilai pengamatan kelompok ke-i pada kelompok data model

= nilai dugaan pengamatan ke-i d. Lakukan prediksi nilai y pada kelompok data validasi n2 dengan

menggunakan model yang dihasilkan pada data n1. Selanjutnya validasi

model dengan kriteria RMSEP,R2 validasi, dan korelasi (r).

e. Ulangi tahap a sampai d sebanyak 10 kali dengan memilih kelompok data n1 dan n2 yang berbeda dari sebelumnya.

f. Menghitung rata-rata RMSE dan R2 seperti tahap c serta rata-rata RMSEP,R2 validasi, dan korelasi (r) pada tahap d.

g. Bandingkan kedua metode berdasarkan nilai RMSEP, R2validasi dan korelasi(r).

VI. Simulasi

a. Membuat data pencilan dengan memperbesar jarak ortogonal dan jarak skor menggunakan data kayu tersebut dengan mengacak jumlah pengamatan dan jumlah peubah bebas sebanyak 10 kali, untuk menghasilkan 10 buah data pencilan.

b. Membuat variasi jumlah pencilan yang berbeda yaitu sebanyak 1, 2, 3, 5, dan 9 buah pencilan yang masing-masing sebanyak 10 kali.

c. Menerapkan metode RPCR-M dan RSIMPLS-M pada data pencilan tersebut.

d. Menghitung rata-rata dari nilai RMSE dan RMSEP yang dihasilkan dari kedua metode tersebut.

e. Membandingkan kedua metode tersebut dari rata-rata nilai RMSE dan RMSEP

(18)

8

(2004) dan dapat diakses di alamat http://wis.kuleuven.be/stat/robust.html. Tahapan penelitian secara ringkas dapat dilihat pada diagram alir penelitian (Gambar 1).

(19)

9

HASIL DAN PEMBAHASAN

Deskripsi Data

Gambar 2 menyajikan grafik keluaran NIR kayu jati. Secara umum terlihat bahwa keseluruhan spektrum memiliki pola yang sama. Oleh karena itu, untuk keseluruhan contoh spektra kayu jati dapat dimodelkan dengan satu model kalibrasi. Berdasarkan gambar tersebut dapat dilihat pula pengamatan yang diduga sebagai pencilan, ditunjukkan dengan grafiknya yang terpisah dari yang lainnya, dan ditandai dengan garis putus-putus, yaitu pengamatan 17 dan 24 (KL2 dan I4).

Gambar 2 Sprektrum Absorbsi NIR 45 kayu Jati di Jawa (Kholik 2008) Identifikasi pencilan berdasarkan diagram kotak-garis pada data pengamatan Y menunjukkan tidak adanya pencilan, ini terlihat pada Gambar 3, sedangkan identifikasi pencilan berdasarkan data pengamatan X terdapat 2 buah pengamatan yang merupakan pencilan yaitu pengamatan Kl2 dan I4 (Gambar 4).

Lignin

(20)

10

Gambar 4 Diagram kotak-garis sebagian data pengamatan X

Adanya pencilan dapat mengakibatkan besarnya nilai ragam bagi model, sehingga dugaan koefisien regresi menjadi tidak tepat. Menghilangkan pengamatan yang mengandung pencilan bukan merupakan penyelesaian yang tepat, sehingga untuk mengatasi pencilan digunakan RKU kekar dan RKTP kekar yaitu RPCR-M dan RSIMPLS-M yang keduanya menggunakan penduga-M dengan fungsi pembobot Huber.

Berdasarkan data kandungan kimia kayu, dihitung nilai korelasi antar peubah respon. Jika antar peubah respon saling berkorelasi maka model yang digunakan adalah model multirespon. Peubah respon yang memiliki nilai korelasi kecil terhadap peubah respon lainnya akan dipisahkan dari model. Nilai korelasi Pearson antar peubah respon tertera pada Tabel 1.

Tabel 1 Nilai korelasi Pearson antar peubah respon

Korelasi Selulosa Holoselulosa Hemiselulosa Lignin

Selulosa 1 0.816 -0.646 -0.547

Holoselulosa 0.816 1 -0.084 -0.550

Hemiselulosa -0.646 -0.084 1 0.216

Lignin -0.547 -0.550 0.216 1

(21)

11

Penentuan Jumlah Komponen

Jumlah komponen k dengan metode RPCR-M dan RSIMPLS-M, ditentukan menggunakan data keseluruhan yang diperoleh melalui nilai RMSECV. Berdasarkan hasil perhitungan nilai RMSECV dengan menggunakan metode RPCR diperoleh model kalibrasi 10 komponen dengan RMSECV minimum, yaitu 1.3204 dan R2=0.7377. Penentuan komponen k dengan metode RPCR-M dari nilai RMSECV dan R2 tampak pada Gambar 5 dan Gambar 6.

Gambar 5 Nilai RMSECV metode RPCR-M pada beberapa jumlah komponen

(22)

12

Gambar 7 Nilai RMSECV metode RSIMPLS-M pada beberapa jumlah Komponen

Gambar 8 Nilai R2 metode RSIMPLS-M pada beberapa jumlah komponen

Identifikasi Pencilan

(23)

13

Gambar 9 Jarak skor dan jarak ortogonal metode RPCR-M

Gambar 10 Jarak skor dan jarak ortogonal metode RSIMPLS-M Tabel 2 Nilai batas (cut off) jarak skor dan jarak ortogonal

Jarak Nilai Batas

RPCR-M RSIMPLS-M

Jarak skor (SD) 4.5258 4.6819

Jarak Ortogonal (OD) 0.0147 0.0239

(24)

14

jarak skor dan jarak ortogonal untuk masing-masing pengamatan dengan metode RPCR-M dapat dilihat pada Lampiran 2.

Jumlah pengamatan pencilan berdasarkan metode RSIMPLS-M lebih banyak daripada jumlah pencilan yang diidentifikasi dengan metode RPCR-M, yaitu sekitar 33.3%. Gambar 9 menunjukkan bahwa analisis menggunakan metode RSIMPLS-M terdapat 15 buah pengamatan yang dideteksi sebagai pencilan, yaitu pengamatan B4, Bo5, Cu4, Cu5, Cs3, I4, Kh1, Kh2, Kh3, Kh4, Kh5, N1, N5, Rb1 dan Rb3. Pengamatan Kh5 memiliki nilai jarak skor dan jarak ortogonal yang sangat besar yaitu rata-rata sekitar 6.939 dan 0.0646 seperti dapat dilihat pada Lampiran 3. Pengamatan bersama yang diidentifikasi sebagai pencilan berdasarkan kedua metode diantaranya pengamatan Bo5, Cu4, Cu5, I4, Kh1, Kh3, Kh4, Kh5, N5, dan Rb3 atau sekitar 52.63% menghasilkan pencilan yang sama oleh kedua metode. Pengamatan I4, dan KL2 yang diidentifikasi pencilan oleh diagram kotak-garus juga diidentifikasi pencilan oleh metode RPCR-M, namun dengan metode RSIMPLS-M hanya I4 yang diidentifikasi sebagai pencilan. Hal ini dikarenakan meskipun keduanya merupakan metode kekar namun tingkat sensitifitas metode RSIMPLS-M lebih kecil dibandingkan metode RPCR-M.

Berdasarkan plot ROBPCA antara jarak skor dan jarak ortogonal terbagi menjadi 3 kategori pencilan, yaitu kategori pengamatan berpengaruh PCA baik, berpengaruh PCA buruk dan pencilan ortogonal. Pengamatan pencilan dikategorikan berpengaruh PCA baik terhadap keragaman data, jika pengamatan tersebut terletak diluar nilai batas jarak skor namun berada didalam nilai batas jarak ortogonal. Pengamatan pencilan dikategorikan pencilan ortogonal, yaitu jika pengamatan berada diluar nilai batas jarak ortogonal namun didalam nilai batas jarak skor. Sedangkan, pengamatan pencilan dikategorikan berpengaruh PCA buruk terhadap keragaman data, jika pengamatan tersebut berada diluar nilai batas jarak skor dan jarak ortogonal. Ketiga pembagian pencilan tersebut untuk metode RSIMPLS-M dan RPCR-M dapat dilihat pada Tabel 3.

Tabel 3 Kategori pengamatan pencilan berdasarkan plot ROBPCA

Kategori Pengamatan Metode Tabel 3 terlihat bahwa ketegori pengamatan berpengaruh PCA buruk dengan menggunakan metode RPCR-M sama banyak dengan metode RSIMPLS-M. Selanjutnya, pemberian nilai bobot (w) untuk setiap pengamatan dengan metode RPCR-M dan RSIMPLS-M dapat dilihat pada Lampiran 2 dan Lampiran 3. Setiap pengamatan akan diberikan nilai bobot mendekati nol (wi ≈ 0) jika jarak

skor dan jarak ortogonal setiap pengamatan melebihi nilai batas (cut off) yang ditentukan, dan nilai bobot sama dengan satu (wi =1) untuk lainnya.

(25)

15 Tabel 4 Nilai RMSE dan R2 dari data keseluruhan

Metode RMSE R2

1 2 3

RPCR-M 1,9737 1,1688 1,1504 0,8751

RSIMPLS-M 1,9483 1,2097 1,1992 0,8409

Keterangan: 1=Selulosa, 2=Holoselulosa, 3=Lignin.

Nilai koefisien determinasi (R2) pada metode RPCR-M lebih baik daripada metode RSIMPLS-M, terlihat dari nilai R2 pada metode RPCR-M lebih besar daripada nilai R2 pada metode RSIMPLS-M. Berdasarkan nilai RMSEP tampak bahwa secara umum dari ketiga respon, nilai RMSE dengan metode RPCR-M lebih kecil dibandingkan dengan metode RSIMPLS-M. Selain itu, apabila dilihat dari plot antara nilai dugaan dengan nilai aktual dari masing-masing respon kedua metode pada Lampiran 4 dan Lampiran 5, tampak bahwa dari ketiga respon metode RPCR-M menghasilkan R2 yang lebih tinggi dibandingkan dengan metode RSIMPLS-M. Selanjutnya untuk menilai baik atau tidaknya hasil dugaan akan dilakukan validasi model.

Validasi Data

Banyaknya pengamatan (n=134) pada tahapan validasi data, dibagi dalam dua kelompok dengan perbandingan 2/3 untuk data model dan 1/3 untuk data validasi. Kelompok pertama diperoleh sebanyak n1= 90 untuk pembentukan

model dan kelompok kedua sebanyak n2=44 untuk validasi model. Pemilihan

kelompok yang berbeda dilakukan sebanyak 10 kali pengambilan tanpa pemulihan, sehingga diperoleh 10 kombinasi contoh yang berbeda. Hal ini dilakukan agar pencilan yang terambil bersifat acak. Nilai rata-rata RMSE dan R2 dari metode RPCR-M dan RSIMPLS-M untuk membentuk model kalibrasi serta rata-rata RMSEP dan R2 dari hasil validasi model tertera pada Tabel 5. Sedangkan nilai rata-rata korelasi antara dan untuk i=1,2,3 tertera pada Tabel 6.

Tabel 5 Rata-rata RMSE, RMSEP, R2 model, dan R2 validasi dari 10 kombinasi pengambilan contoh Keterangan: 1=Selulosa, 2=Holoselulosa, 3=Lignin.

Tabel 6 Rata-rata korelasi dari 10 kombinasi pengambilan contoh

Metode Rata-rata Korelasi

1vs 1 2vs 2 3vs 3

RPCR-M 0.6987 0.824 0.6365

RSIMPLS-M 0.6725 0.7984 0.5959

(26)

16

Tabel 5 menunjukkan nilai rata-rata RMSE dan RMSEP untuk kandungan selulosa ( 1), holoselulosa ( 2), dan lignin ( 3) dengan metode RPCR-M lebih kecil dibandingkan metode RSIMPLS-M. Berdasarkan nilai koefisien determinasi (R2) secara umum tampak bahwa dengan metode RPCR-M diperoleh nilai rata-rata R2 model dan R2 validasi tertinggi, yaitu 0.8854 dan 0.7593..

Dilihat dari korelasi antara y aktual dengan y duga yang tertera pada Tabel 6, diperoleh nilai rata-rata korelasi tertinggi untuk masing-masing respon adalah dengan menggunakan metode RPCR-M. Hal ini menunjukkan bahwa dalam kasus data ini metode RPCR-M lebih baik dibandingkan metode RSIMPLS-M.

Simulasi

Khusus kasus ini pengamatan yang dideteksi sebagai pencilan cenderung berada tidak terlalu jauh dari pusat data. Hal ini ditunjukkan pada Lampiran 2 dan Lampiran 3, tampak bahwa selang nilai bobot yang diberikan pada setiap pengamatan berkisar antara 0.3666 dan 1, nilai selang tersebut masih jauh mendekati 0. Oleh karena itu, dilakukan simulasi menggunakan data kayu jati dengan pencilan yang ekstrim yaitu jarak pencilan yang jauh dari pusat data. Kedua metode kekar tersebut dibandingkan dengan jumlah pencilan yang beragam yang dilakukan secara acak dengan 10 kali ulangan.

Tabel 7 Perbandingan Nilai RMSE dan RMSEP metode RPCR-M dan RSIMPLS-M dengan jumlah pencilan yang beragam.

Jumlah Keterangan: 1=Selulosa, 2=Holoselulosa, 3=Lignin.

(27)

17 RSIMPLS-M juga menghasilkan nilai RMSE dan RMSEP yang relatif lebih stabil jika dilihat dari selisih peningkatan nilai RMSE dan RMSEP yang tidak terlalu tinggi ketika diberi pencilan yang sedikit maupun banyak.

SIMPULAN DAN SARAN

Simpulan

Berdasarkan hasil analisis menggunakan data asli, dapat disimpulkan bahwa deteksi pencilan dengan metode RPCR-M lebih sensitif dibandingkan metode RSIMPLS-M. Evaluasi kebaikan model hasil validasi juga menunjukkan bahwa metode RPCR-M lebih baik dibandingkan metode RSIMPLS-M.

Berdasarkan hasil simulasi dengan jarak pencilan yang jauh dari pusat data (ekstrim) menunjukkan bahwa untuk jumlah pencilan ekstrim yang sedikit (<2) metode RPCR-M lebih baik daripada metode RSIMPLS-M, namun untuk jumlah pencilan ekstrim yang cukup banyak (≥2) metode RSIMPLS-M memberikan hasil yang lebih baik dan lebih stabil dari pada metode RPCR-M.

Saran

Penelitian ini menggunakan metode RSIMPLS dengan fungsi bobot berdasarkan teori penduga-M Huber yang cukup baik dalam hal prediksi, namun masih kurang sensitif dalam mendeteksi pencilan. Oleh karena itu, perlu ada kajian yang mendalam mengenai fungsi bobot lain serta metode lain yang lebih akurat dan sensitif dalam mendeteksi pencilan dengan jarak dekat maupun jauh dari pusat data.

DAFTAR PUSTAKA

Huber PJ. 1964. Robust estimation of a location parameter. Annals of Mathematical Statistics. 35:73-101.

Hubert M, Branden KV. 2003. Robust methods for partial least squares regression, Journal of Chemometrics. 17:537-549.

Hubert M, Verboven S. 2002. A robust PCR method for high dimensional regressors, Journal of Chemometrics. 17:438-452.

Hubert M, Verboven S. 2004. LIBRA: a MATLAB Library for Robust Analysis[Internet]. [diunduh 2011 Okt 31]. Tersedia pada: http://wis.kuleuven.be/stat/robust.html.

Hubert M, Rousseeuw PJ, Branden KV. 2003. ROBPCA: a new approach to robust principal components analysis, Technometrics. 47:64-79.

(28)

18

Kholik A. 2008. Variasi genetik, isotop, dan spektra Near Infrared (NIR) kayu jati di Jawa [tesis]. Bogor: Sekolah Pasca Sarjana, Institut Pertanian Bogor. Moller SF, Frese JV, Bro R. 2006. Robust methods for multivariate data analysis.

Journal of Chemometrics. 19: 549-563.

Naes T, Isaksson T, Fearn T, Davies T. 2002. Multivariate Calibration and Classification. Chichester: NIR Publications.

Ningsih W. 2010. Identifikasi dan penanganan pengaruh pencilan pada analisis komponen utama [skripsi]. Bogor (ID): Departemen Statistika, Institut Pertanian Bogor.

Suryana. 2007. Analisis data outlier pada data pengeluaran rumah tangga di kota kupang, NTT tahun 2005 dengan metode ROBPCA [paper]. Surabaya (ID): Program Studi Magister, Jurusan Statistika, Institut Teknologi Sepuluh Nopember.

(29)
(30)

20

(31)

21 Lampiran 2 Nilai jarak skor (SD) dan jarak ortogonal (OD) serta besar bobot (w)

(32)

22

(33)

23 Lampiran 2 Nilai jarak skor (SD) dan jarak ortogonal (OD) serta besar bobot (w)

metode RPCR-M (Lanjutan)

Kode Obs Sd od w_sd w_od w

Rb2 124 2.8258 0.0085 1 1 1

125 2.8211 0.0087 1 1 1

Rb3 126 5.9868 0.0081 0.7560 1 0.7560

127 6.0015 0.0085 0.7541 1 0.7541

128 5.9928 0.0087 0.7552 1 0.7552

Rb4 129 3.3515 0.0058 1 1 1

130 3.3248 0.0060 1 1 1

131 3.2938 0.0060 1 1 1

Rb5 132 2.8451 0.0100 1 1 1

133 2.8095 0.0095 1 1 1

(34)

24

(35)

25 Lampiran 3 Nilai jarak skor (SD) dan jarak ortogonal (OD) serta besar bobot (w)

(36)

26

(37)

27 Lampiran 3 Nilai jarak skor (SD) dan jarak ortogonal (OD) serta besar bobot (w)

metode RSIMPLS-M (Lanjutan)

Kode Obs Sd od w_sd w_od w

Rb2 124 3.5280 0.0108 1 1 1

125 3.5017 0.0103 1 1 1

Rb3 126 6.7851 0.0082 0.6900 1 0.6900

127 6.7876 0.0084 0.6898 1 0.6898

128 6.7665 0.0084 0.6919 1 0.6919

Rb4 129 3.5604 0.0062 1 1 1

130 3.5342 0.0062 1 1 1

131 3.5019 0.0060 1 1 1

Rb5 132 3.2243 0.0103 1 1 1

133 3.1933 0.0104 1 1 1

(38)

28

Lampiran 4 Plot nilai dugaan dengan nilai aktual dari masing-masing respon dengan metode RPCR-M

Selulosa_duga = 19,49 + 0,5671 Selulosa

75,0

Holoselulosa_duga = 18,19 + 0,7429 Holoselulosa

30

(39)

29 Lampiran 5 Plot nilai dugaan dengan nilai aktual dari masing-masing respon

dengan metode RSIMPLS-M

Selulosa_duga = 18,99 + 0,5781 Selulosa

75,0

Holoselulosa_duga = 19,48 + 0,7246 Holoselulosa

30

(40)

30

RIWAYAT HIDUP

Penulis dilahirkan di Kuningan Provinsi Jawa Barat pada tanggal 9 Juli 1990 sebagai putri satu-satunya dari pasangan Drs. Jalaluddin (ayah) dan Nani Suherni (ibu).

Penulis menyelesaikan pendidikan dasar di SD Negeri VII Kuningan pada tahun 2002. kemudian penulis melanjutkan sekolah menengah pertama di SLTPN 1 Kuningan hingga tahun 2005. Pada tahun yang sama penulis melanjutkan sekolah menengah atas di SMAN 1 Kuningan dan lulus pada tahun 2008.

Gambar

Gambar 1  Diagram alir penelitian
Gambar 2 menyajikan grafik keluaran NIR kayu jati. Secara umum terlihat
Gambar 4  Diagram kotak-garis sebagian data pengamatan X
Gambar 5  Nilai RMSECV metode RPCR-M pada beberapa jumlah komponen
+4

Referensi

Dokumen terkait

Dapatkan dari pasien dan dari orang lain, karena deskripsi yang sungguh berbeda dari orang yang sama dan peristiwa, suku, kebangsaan, dan tradisi keagamaan, orang lain

Selain wilayah perkotaan, masalah ketersediaan air bersih ini juga di hadapi oleh penduduk di wilayah pedesaan tersebut memiliki sumber air (air permukaan, air bawah

Sejalan dengan kebijakan percepatan pembangunan di Kalimantan Tengah, kegiatan investasi perlu ditingkatkan dengan mengembangkan potensi wilayah, meliputi sumber daya

Menurut Lawrence M. Friedman budaya hukum merupakan sikap manusia terhadap hukum yang lahir melalui sistem kepercayaan, nilai, pemikiran serta harapannya yang berkembang menjadi satu

Hasil analisis dalam penelitian ini diperoleh bahwa kelompok dengan prediksi risiko tinggi PKV dalam 10 tahun berdasarkan jenis kelamin lebih banyak pada laki-laki

Pada sampul luar ditulis nama paket pekerjaan, nama dan alamat peserta, serta ditujukan kepada Tim Pengadaan Program Jaminan Pemeliharaan Kesehatan Direksi, Komisaris,

Menimbang : bahwa peranan pupuk sangat penting di dalam peningkatan produktivitas dan produksi komoditas pertanian untuk mewujudkan Ketahanan Pangan Nasional dan untuk

Isilah SDA sendiri secara yuridis dapat ditemukan di Ketetapan MPR RI Nomor IV/ MPR RI/1999 tentang Garis-garis Besar Haluan Negara Tahun 1999-2004, khususnya Bab IV Arah