PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASINYA

(1)

REGRESI PROSES GAUSSIAN

UNTUK PEMODELAN KALIBRASI

MOCH. ABDUL MUKID

SEKOLAH PASCASARJANA

INSTITUT PERTANIAN BOGOR

(2)

PERNYATAAN MENGENAI TESIS DAN

SUMBER INFORMASINYA

Dengan ini saya menyatakan bahwa tesis dengan judul Regresi Proses Gaussian untuk Pemodelan Kalibrasi adalah karya saya sendiri dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apapun kepada perguruan tinggi manapun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam daftar pustaka dibagian akhir tesis ini.

Bogor, Agustus 2009

(3)

ABSTRACT

MOCH. ABDUL MUKID. Gaussian Process Regression for Calibration Modeling. Under the Supervision of AJI HAMIM WIGENA and ERFIANI.

Multivariate calibration models have been developed usually by using principal component regression and partial least squares regression. This research proposes the application of Gaussian process regression as an alternative method to develop a calibration model. Gaussian process regression is one of the nonparametric regression methods that do not determine the mathematical relationship between exploratory and response variables. This method is applied to the measurement of curcumin concentration based on FTIR spectra. To handle the high dimensionality of spectra data, principal component analysis was initially performed, followed by applying the Gaussian process regression. Using three principal components, 99,03% of the original data’s variability can be explained. Based on the leverage value, few spectra were detected as outliers and will not be used for the final calculation. This model was attempted for various covariance functions. The results indicate that the most relevant and suitable covariance function for curcumin concentration measurement was Square Exponential – isotropic (SE–iso). The hyperparameter values for SE–iso were estimated by Maximum Marginal Likelihood Method. Based on R_Yvs2 _Yˆ and RMSE criteria, the

performance of Gaussian process regression is better than that of principal component regression.

(4)

RINGKASAN

MOCH. ABDUL MUKID. Regresi Proses Gaussian untuk Pemodelan Kalibrasi. Dibawah bimbingan AJI HAMIM WIGENA dan ERFIANI.

Di Indonesia tanaman obat telah lama digunakan oleh masyarakat dan industri dalam pembuatan jamu. Penggunaan tanaman obat yang semakin meluas sudah selayaknya diikuti dengan usaha untuk menjamin kualitas tanaman obat tersebut. Hal ini untuk menjamin agar produksinya dapat bersaing dan diterima oleh masyarakat. Salah satu indikator kualitas tanaman obat adalah konsentrasi senyawa aktifnya. Proses penentuan konsentrasi senyawa aktif yang dikandung oleh suatu tanaman obat perlu dilakukan secara cepat dan akurat. Salah satu metodenya adalah dengan membuat model kalibrasi yang diperoleh dari contoh tanaman obat.

Pada pemodelan kalibrasi spektroskopi kendala yang sering dihadapi adalah banyaknya peubah penjelas yang jauh lebih besar dari pada banyaknya pengamatan. Hal ini cenderung akan menyebabkan adanya multikolinearitas antar peubah penjelas yang pada akhirnya menyebabkan penduga parameter yang tidak stabil dan mengurangi ketepatan prediksi model. Untuk mengatasi hal tersebut, biasanya model-model kalibrasi peubah ganda dikembangkan dengan menggunakan regresi komponen utama maupun regresi kuadrat terkecil parsial (Erfiani, 2005).

Dalam penelitian ini diusulkan penerapan regresi proses Gaussian sebagai sebuah metode alternatif untuk mengembangkan sebuah model kalibrasi. Metode ini diterapkan pada pengukuran konsentrasi kurkumin berdasarkan atas data spektra yang diukur dengan menggunakan FTIR. Untuk mengatasi besarnya dimensi dari data spectra, prapemrosesan dilakukan dengan menggunakan Analisis Komponen Utama (AKU). Dengan menggunakan tiga komponen utama yang pertama diketahui bahwa 99,03% keragaman data asal dapat dijelaskan. Berdasarkan nilai leverage, beberapa pengamatan terdeteksi sebagai pencilan dan dikeluarkan dalam perhitungan selanjutnya. Model ini telah dicobakan pada berbagai jenis fungsi peragam dan hasilnya mengindikasikan bahwa fungsi peragam yang cocok dan relevan untuk memodelkan pengukuran konsentrasi kurkumin adalah Kuadrat Eksponensial – isotropik (KE-iso). Selanjutnya nilai-nilai hiperparamater dari fungsi peragam KE-iso diduga dengan menggunakan metode kemungkinan marginal maksimum. Berdasarkan atas kriteria nilai-nilai

2 ˆ

Y Yvs

R dan RMSE, kinerja regresi proses Gaussian jauh lebih baik jika dibandingkan dengan regresi komponen utama. Pada regresi proses Gaussian nilai

2 ˆ

Y Yvs

R mencapai 88,77% dan nilai RMSE sebesar 0,1753 sedangkan pada regresi komponen utama nilai 2

ˆ

Y Yvs

(5)

© Hak Cipta milik IPB, tahun 2009

Hak Cipta dilindungi Undang-Undang

Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan yang wajar IPB.

(6)

REGRESI PROSES GAUSSIAN

UNTUK PEMODELAN KALIBRASI

MOCH. ABDUL MUKID

Tesis

Sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada

Program Studi Statistika

SEKOLAH PASCASARJANA

INSTITUT PERTANIAN BOGOR

(7)

(8)

Judul Tesis : Regresi Proses Gaussian untuk Pemodelan Kalibrasi Nama : Moch. Abdul Mukid

NIM : G151070011

Disetujui

Komisi Pembimbing

Dr. Ir. Aji Hamim Wigena, M.Sc. Dr. Ir Erfiani, M.Si.

Ketua Anggota

Diketahui

Ketua Program Studi Statistika Dekan Sekolah Pascasarjana

Dr. Ir. Aji Hamim Wigena, M.Sc. Prof. Dr. Ir. Khairil Anwar Notodiputro, M.S.

(9)

PRAKATA

Alhamdulillah, puji syukur penulis panjatkan kepada Allah SWT atas berkat, rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan penelitian dan penulisan tesis ini.

Tesis ini berjudul “Regresi Proses Gaussian Untuk Pemodelan Kalibrasi“ disusun berdasarkan penelitian yang dilakukan di Departemen Statistika FMIPA-IPB. Penelitian yang dilakukan penulis merupakan bagian dari payung penelitian Hibah Pascasarjana ”Pengembangan Model Kalibrasi Multirespon dan Teknik Adulterasi Obat Bahan Alam” 2008-2010 yang merupakan kerjasama antara Departemen Statistika dan Biofarmaka, Institut Pertanian Bogor yang didanai oleh Dirjen Pendidikan Tinggi, Departemen Pendidikan Nasional.

Terima kasih yang sedalam-dalamnya penulis sampaikan kepada Bapak Dr. Ir. Aji Hamim Wigena, M.Sc selaku ketua Program Studi Statistika Sekolah Pascasarjana IPB yang sekaligus sebagai ketua komisi pembimbing dalam penyusunan tesis ini. Rasa terima kasih juga penulis sampaikan kepada Dr. Ir. Erfiani, M.Si selaku anggota dalam komisi pembimbing yang senantiasa memberikan masukan dan arahan dalam penelitian ini . Penulis juga mengucapkan terima kasih yang sebesar-besarnya kepada Prof. Dr. Khairil Anwar Notodiputro, M.S selaku ketua tim peneliti Hibah Pascasarjana tahun 2003-2005 dengan topik ”Pengembangan Model untuk Pendugaan Kandungan Senyawa Bioaktif atau Senyawa Penciri Beberapa Tanaman Obat”, atas izin yang telah diberikan kepada penulis untuk menggunakan sebagian data hasil penelitiannya. Tidak lupa pula ungkapan terima kasih penulis sampaikan kepada seluruh teman-teman STK 2007 atas diskusi dan dukungan morilnya selama menyelesaikan penulisan tesis ini.

Penulis menyadari bahwa masih banyak kekurangan dalam penyusunan tesis ini, oleh karena itu kritik, saran dan masukan sangat penulis harapkan demi penyempurnaan dan perbaikan tulisan ini. Semoga karya ilmiah ini bermanfaat untuk semua pembaca. Amin.

Bogor, Agustus 2009

(10)

RIWAYAT HIDUP

(11)

DAFTAR ISI

Halaman

DAFTAR TABEL ... xii

DAFTAR GAMBAR ... xiii

DAFTAR LAMPIRAN ... xiv

PENDAHULUAN Latar Belakang ... 1

Tujuan Penelitian ... 2

TINJAUAN PUSTAKA Spektroskopi FTIR (Fourier Transform Infrared) ... 3

High Performance Liquid Chromatography (HPLC) ... 4

Kandungan Senyawa Aktif pada Temulawak ... 5

Regresi Proses Gaussian ... 6

Fungsi Peragam ... 7

Pendugaan Nilai Hiperparameter Fungsi Peragam ... 10

Prediksi dalam Regresi Proses Gaussian ... 11

DATA DAN METODE Bahan ... 14

Metode ... 14

HASIL DAN PEMBAHASAN Deskripsi Spektrum Kurkumin ... 18

Reduksi Peubah Penjelas ... 19

Deteksi Pengamatan Pencilan ... 19

Pemilihan Gugus Uji dan Gugus Kalibrasi ... 20

Pemilihan Fungsi peragam ... 22

Pemodelan Regresi Proses Gaussian ... 23

Pengujian Sebaran Galat ... 25

SIMPULAN DAN SARAN ... 26

DAFTAR PUSTAKA ... 27

(12)

DAFTAR TABEL

1. Ragam kumulatif komponen utama ... 15

2. Nilai leverage untuk masing-masing contoh ... 17

3. Nilai RMSEP setiap jenis fungsi peragam ... 19

(13)

DAFTAR GAMBAR

1. Diagram alur penelitian ... 14

2. Spektra kurkumin serbuk temulawak ... 15

3. Dendogram penggerombolan berdasarkan 3 komponen utama ... 18

4. Plot antara Y dan Y prediksi untuk model regresi proses Gaussian ... 21

5. Plot antara Y dan Y prediksi untuk model regresi komponen utama ... 21

(14)

DAFTAR LAMPIRAN

1. Data Konsentrasi Kurkumin dan Tiga Komponen Utama Transmitan .... 28

2. Syntax program MATLAB untuk menghitung nilai RMSEP ... 29

(15)

1

PENDAHULUAN

Latar Belakang

Di Indonesia tanaman obat telah lama digunakan oleh masyarakat dan

industri dalam pembuatan jamu. Akhir-akhir ini perusahaan farmasi pun telah

memanfaatkan tanaman obat tradisional pada produk-produknya. Penggunaan

tanaman obat yang semakin meluas sudah selayaknya diikuti dengan usaha untuk

menjamin kualitas tanaman obat tersebut. Hal ini untuk menjamin agar

produksinya dapat bersaing dan diterima oleh masyarakat. Salah satu indikator

kualitas tanaman obat adalah konsentrasi senyawa aktifnya.

Proses penentuan konsentrasi senyawa aktif yang dikandung oleh suatu

tanaman obat perlu dilakukan secara cepat dan akurat. Secara kuantitatif dan

kualitatif suatu senyawa aktif dapat diketahui antara lain melalui metode HPLC

(High Performance Liquid Chromatography) dan FTIR (Fourier Trasform

Infrared). Penentuan konsentrasi senyawa aktif dilakukan melalui proses yang

panjang meliputi penghancuran bahan, pelarutan, dan pengukuran dengan HPLC.

Proses ini memerlukan waktu dan biaya yang relatif mahal. Untuk itu sangat

diperlukan metode yang handal tetapi relatif mudah untuk digunakan. Salah satu

metodenya adalah dengan membuat sebuah model kalibrasi. Model ini

menyatakan hubungan antara konsentrasi senyawa aktif hasil pengukuran HPLC

dengan persen transmitan (absorban) yang diukur dengan menggunakan FTIR.

Tujuan dari pembentukan model ini adalah untuk memprediksi konsentrasi

senyawa aktif dengan akurasi yang tinggi dari nilai persen transmitan yang secara

ekonomi lebih murah dan mudah diperoleh (Erfiani, 2005).

Beberapa penulis telah mengembangkan model kalibrasi untuk kasus yang

berbeda. Atok (2005) menggunakan Jaringan Syaraf Tiruan dengan metode pra

pemrosesan Analisis Komponen Utama, sedangkan Djuraidah (2003)

membandingkan kinerja model PLS non-linear dengan Jaringan Syaraf Tiruan

pada model kalibrasi. Erfiani (2005) mengembangkan model kalibrasi dengan

pendekatan Bayes dimana reduksi peubahnya melalui pendekatan regresi

terpenggal, sedangkan Sony (2005) menggunakan Regresi Komponen Utama

dimana metode wavelet digunakan untuk pra pemrosesan. Selain pendekatan

(16)

2 pendekatan non parametrik. Tonah (2005) menggunakan regresi sinyal P-Spline

untuk kalibarasi kandungan gingerol dimana metode prapemrosesannya adalah

koreksi pencaran multiplikatif.

Pada penelitian ini penulis menggunakan pendekatan regresi proses

Gaussian untuk membangun model kalibrasi pada pengukuran konsentrasi

kurkumin berdasarkan data persen transmitannya. Aspek penting yang harus

diketahui dalam pemodelan dengan pendekatan regresi proses Gaussian adalah

fungsi peragam. Fungsi peragam adalah sebuah fungsi dari input-input model

yang menghasilkan sebuah nilai peragam bagi output-output yang bersesuaian

(Rasmussen, 1996). Regresi proses Gaussian pada awalnya diusulkan oleh

O’Hagan (1978) yang memandang sebagai sebuah alternatif pendekatan untuk

jaringan syaraf tiruan. Regresi proses Gaussian dapat juga diturunkan dari

perspektif regresi nonparametrik Bayesian dengan penempatan secara langsung

sebaran prior Gaussian bagi fungsi-fungsi regresi f(x) (MacKay 1998, diacu dalam Williams 2002).

Regresi proses Gaussian telah digunakan oleh beberapa peneliti untuk

pemodelan. Rasmussen dan Williams (2006) menggunakan regresi proses

Gaussian untuk pemodelan pembelajaran gerak lengan tangan robot sedangkan

Chen et al. (2007) menggunakan regresi proses Gaussian untuk pemodelan

kalibrasi spektroskopi dan membandingkan hasilnya dengan regresi komponen

utama, jaringan syaraf tiruan dan regresi PLS.

Tujuan Penelitian

Penelitian ini bertujuan untuk menerapkan regresi proses Gaussian pada

pemodelan kalibrasi spektroskopi dengan melakukan kajian terhadap penggunaan

(17)

3

TINJAUAN PUSTAKA

Spektroskopi FTIR (FourierTransform Infrared)

FTIR merupakan salah satu teknik spektroskopi infra merah. Instrumentasi

spektrum infra merah dibagi kedalam tiga jenis radiasi yaitu infra merah dekat

(bilangan gelombang 12800-4000 cm-1), infra merah pertengahan (bilangan

gelombang 4000-200 cm-1), dan infra merah jauh (bilangan gelombang 200-10

cm-1) (Nur dan Adijuawana, 1989). FTIR termasuk dalam kategori radiasi infra

merah pertengahan (bilangan gelombang 4000-200 cm-1).

Hampir setiap senyawa yang memiliki ikatan kovalen akan menyerap

berbagai frekuensi radiasi elektromagnetik dalam daerah spektrum inframerah.

Setiap tipe ikatan yang berbeda mempunyai sifat frekuensi vibrasi yang berbeda,

dan karena tipe ikatan yang sama dalam dua senyawa yang berbeda terletak dalam

lingkungan yang sedikit berbeda, maka tidak akan ada dua molekul yang berbeda

strukturnya akan mempunyai bentuk serapan inframerah atau spektrum

inframerah yang tepat sama.

Jika I0 adalah intensitas IR yang masuk kedalam contoh dan I adalah

intensitas IR yang diteruskan (transmitted) oleh contoh, maka :

Absorban (A) = Log (I0 / I) dan transmitan (T) = 100 (I/I0).

Sehingga hubungan absorban dengan transmitan adalah :

A = - log ( T/100).

Karena kekuatan serapan proporsional terhadap konsentrasi, maka FTIR

dapat digunakan untuk analisis kuantitatif yang menghubungkan konsentrasi

dengan absorban atau persen transmitan. Untuk menduga konsentrasi suatu

senyawa tertentu dalam contoh, diperlukan pengukuran nilai-nilai absorban dari

contoh pada berbagai bilangan gelombang.

Plot antara transmitan dengan bilangan gelombang menghasilkan spektrum

infra merah. Karena setiap tipe ikatan yang berbeda mempunyai sifat frekuensi

vibrasi yang berbeda, maka tidak ada molekul yang berbeda strukturnya akan

mempunyai bentuk serapan infra merah atau spektrum infra merah yang tepat

sama. Dengan membandingkan spektrum infra merah dari dua senyawa yang

(18)

4 atau tidak. Pelacakan tersebut lazim dikenal dengan bentuk sidik jari (Finger

Print) dari dua spektrum infra merah. Kondisi puncak spektrum infra merah kedua

senyawa tepat sama maka dikatakan dalam banyak hal kedua senyawa tersebut

sama atau identik (Sostrohamidjoyo 1990, diacu dalam Erfiani 2005).

High Performance Liquid Chromatography (HPLC)

Kromatografi adalah suatu metode pemisahan komponen-komponen suatu

campuran, komponen-komponen tersebut akan terdistribusi diantara dua fase.

Salah satu fase dibuat diam dan dinamakan fase diam atau fase stasioner, fase

lainnya disebut fase gerak atau fase mobil yang bergerak diantara celah-celah atau

pada permukaan fase stasioner. Pergerakan fase mobil ini mengakibatkan

pergerakan diferensial dari komponen-komponen contoh (Nur dan Adijuwana,

1989). Metode pemisahaan ini memerlukan waktu sangat singkat dan lebih efektif

dibandingkan dengan pemisahaan lain. Fase diam pada kromatografi dapat berupa

cair atau padatan sedangkan fase gerak dapat berupa cair atau gas. Berdasarkan

jenis fasenya kromatografi dapat digolongkan menjadi empat jenis yaitu:

cair-padatan, gas-cair-padatan, cair-cair, dan gas-cair.

Kromatografi cair adalah semua metode kromatografi yang menggunakan

cairan sebagai fase mobil. Kromatografi cair meliputi metode kromatografi

sederhana dan kromatografi modern. HPLC adalah salah satu metode

kromatografi yang termasuk kromatografi cair modern. HPLC adalah

kromatografi yang menggunakan cairan sebagai fase gerak dan sebagai fase diam

dapat berupa suatu padatan atau senyawa tertentu yang terikat secara kimia

dengan padatan pendukungnya.

HPLC biasanya digunakan untuk memisahkan senyawa yang tidak dapat

dipisahkan dengan kromatografi gas, karena sifatnya yang tidak mudah menguap,

sehingga tidak mampu melewati kolom dan sample tidak tahan pada suhu tinggi

sehingga akan mengalami dekomposisi pada kondisi pemisahan. HPLC dapat

mengatasi permasalahan tersebut, karena HPLC mampu memisahkan senyawa

yang tidak mudah menguap dan stabil pada suhu tinggi. Selain itu berbagai

macam fase diam dan fase gerak dapat digunakan pada HPLC yang

(19)

5 HPLC pada dasarnya adalah suatu kromatografi kolom yang menggunakan

kolom yang terbuat dari bahan kemasan, maka untuk mendapatkan laju alir yang

memadai, digunakan tekanan sampai 5000 lb/inci atau sekitar 2000 kg/cm. Teknik

pemisahan HPLC dilakukan dengan menginjeksikan sedikit sampel yang

berbentuk cairan ke dalam aliran cairan (fase mobil/fase gerak) yang berjalan

melalui kolom yang berisi partikel dari suatu fase stasioner. Pemisahan campuran

kedalam komponennya tergantung pada tingkat retensi masing-masing komponen

di dalam kolom. Kecendrungan suatu komponen ditahan di dalam kolom

ditentukan oleh partisinya diantara cairan fase mobil dan fase stasioner.

HPLC digunakan terutama untuk golongan senyawa tak atsiri, misalnya

terpenoid tinggi, segala jenis fenol, alkaloid, lipid dan gula. HPLC berhasil paling

baik untuk senyawa yang dapat dideteksi pada daerah spektrum UV atau spektrum

sinar tampak.

HPLC berbeda dengan kromatografi lainnya terutama dalam penggunaan

partikel padatan sebagai pengisi kolom yang mempunyai ukuran partikel seragam

dengan diameter kecil, dengan demikian diharapkan akan diperoleh efisiensi

kolom yang tinggi tetapi sebagai akibatnya diperlukan dan dibutuhkan pompa

bertekanan tinggi yang berfungsi mengalirkan pelarut fasa gerak secara terus

menerus. Dengan alasan tersebut HPLC sering disebut dengan kromatografi cair

kinerja tinggi. Dalam kromatografi cair kinerja tinggi selain proses pemisahan

terkait pula proses penginderaan, pemantauan dan perhitungan hasil. Proses

penginderaan dapat dilakukan oleh beberapa macam alat detektor dan

pemilihannya bergantung pada senyawa yang diteliti. HPLC dapat digunakan

untuk analisis kualitatif dan kuantitatif sebagai sarana untuk pemurnian memalui

pemurnian secara preparatif (Lindsay 1992, diacu dalam Erfiani 2005).

Kandungan Senyawa Aktif pada Temulawak

Menurut Sinambela (1985), komposisi rimpang temulawak dapat dibagi

menjadi dua fraksi utama yaitu zat warna kurkuminoid dan minyak atsiri. warna

kekuningan temulawak disebabkan adanya kurkuminoid. Kandungan utama

kurkuminoid terdiri dari senyawa kurkumin, desmetoksikurkumin dan

(20)

6 kurkuminoid dan minyak atsiri juga mengandung lemak, protein, selulosa, pati,

dan mineral. Kadar masing-masing zat tersebut tergantung pada umur rimpang

yang dipanen serta juga dipengaruhi oleh letak dan ketinggian tempat temulawak

berada.

Temulawak mempunyai berbagai macam khasiat, yaitu sebagai: analgesik,

anthelmintik, antibakteri, antijamur, antidiabetik, antidiare, antiinflamasi,

anti-hepatotoksik, antioksidan, antitumor, antidepresan, diuretik, hipotermik,

hipolipidemik, insektisida, dan lain-lain. Khasiat temulawak tersebut telah

dibuktikan melalui teknik ilmu pengetahuan modern baik oleh ilmuwan dalam

maupun luar negeri.

Regresi Proses Gaussian

Proses stokastik adalah suatu kumpulan dari peubah-peubah acak

{

Y_xx∈X

}

yang diindekskan dengan sebuah himpunan X yang beranggotakan d peubah penjelas. Proses-proses stokastik ditentukan oleh pemberian sebaran

peluang bersama untuk setiap himpunan bagian manapun dari

k

1 x

x Y

Y ,K, dengan

sebuah cara yang konsisten. Proses Gaussian adalah suatu proses stokastik dimana

himpunan berhingga manapun dari himpunan peubah acak Y mempunyai sebaran

bersama Gaussian ganda (Williams, 2002). Sebuah proses Gaussian secara

lengkap ditentukan oleh fungsi rataan μ

( )

x =E

[ ]

Y_x dan fungsi peragam

(

i j

)

E

[

(

Y i

( )

i

)

(

Y j

( )

j

)

]

kx ,x = _x −μ x _x −μ x .

Regresi proses Gaussian dapat diturunkan dari sudut pandang regresi

nonparametric Bayesian yaitu dengan penempatan secara langsung sebaran prior

Gaussian bagi fungsi-fungsi regresi f(x) (MacKay 1998, diacu dalam Williams

2002). Misal untuk setiap output yi bergantung pada input xi dibawah sebuah

fungsi fi sebagai berikut :

( )

i i i f

y = x +ε (1)

dimana ε_i adalah peubah acak galat yang secara bebas dan identik menyebar

Gaussian dengan rataan nol dan ragam σ2_{, sedangkan}

i

x adalah vektor input ke-i

(21)

7

[

]

T

n f

f₁,L, maka menurut Proses Gaussian untuk metode regresi , sebaran prior atas vektor f adalah Gaussian Ganda dengan vektor rataan 0 dan matrik peragam K, yaitu

vektor parameter dari fungsi peragam. Setiap elemen ke (i,j) dari matrik K adalah

k(xi,xj) dimana k .,.

( )

adalah sebuah fungsi yang definit non negatif yang memuat

parameter θ. Selanjutnya k .,.

( )

disebut sebagai fungsi peragam.

Persamaan (1) dapat dinyatakan dalam bentuk persamaan vektor, yaitu

ε

f

y = + (3)

dimana y adalah vektor amatan dari respon, f adalah vektor dari fungsi-fungsi regresi dan ε adalah vektor galat.

Sebagai implikasi langsung atas penetapan sebaran prior Gaussian ganda

bagi vektor f dan asumsi bahwa vektor galat ε menyebar Gaussian maka sebaran bagi vektor amatan y adalah Gaussian ganda dengan nilai tengah 0 dan matrik

ragam peragam K+σ2I_{. Tidak setiap vektor amatan}_y_{selalu memiliki nilai} tengah 0 sehingga untuk memenuhinya setiap amatan dari yi akan dikurangi

dengan nilai rata-rata dari keseluruhan amatan.

Fungsi Peragam

Fungsi peragam adalah sebuah fungsi dari input-input model yang

menghasilkan sebuah nilai peragam bagi output-output yang bersesuaian

(Rasmussen, 1996). Satu-satunya syarat bagi sebuah fungsi peragam adalah

mampu membangkitkan sebuah matrik ragam peragam yang definit non negatif

untuk sembarang himpunan titik-titik input.

Secara garis besar fungsi peragam dapat dibedakan menjadi dua, yaitu

fungsi peragam yang stasioner dan fungsi peragam yang tidak stasioner. Fungsi

peragam yang stasioner adalah sebuah fungsi dari xi – xj (jarak euclid antara dua buah input). Fungsi peragam yang stasioner invarian terhadap translasi namun

seringkali gagal dalam menyesuaikan terhadap kemulusan dari fungsi yang

(22)

8 fungsi dari jarak antara dua buah input, namun fungsi peragam jenis ini mampu menyesuaikan terhadap kemulusan fungsi (Paciorek dan Schervish, 2005). Fungsi

peragam yang stasioner diantaranya adalah kuadrat eksponensial sedangkan yang

termasuk fungsi peragam tidak stasioner adalah fungsi-fungsi peragam linear

(Rasmussen dan Williams, 2006). Beberapa fungsi peragam yang umum

digunakan dalam model regresi proses Gaussian adalah sebagai berikut:

a. Fungsi peragam kuadrat eksponensial dengan ukuran jarak isotropik (KE-iso).

Fungsi peragam ini memiliki formula

(

)

(

)

(

)

_⎟⎟

parameter skala panjang untuk m = 1, ..., d. Dalam fungsi peragam ini nilai

parameter skala panjang dianggap sama yaitu l₁ =l₂ =L=l_d =l. Fungsi peragam ini menunjukkan ide bahwa kasus dengan input-input yang

berdekatan memiliki korelasi yang tinggi pada output-outputnya. Nilai

parameter skala panjang yang sama menunjukkan bahwa setiap dimensi input

memiliki tingkat “penting” yang sama dalam memprediksi nilai peragam dari

output-output yang bersesuaian.

b. Fungsi peragam kuadrat eksponensial dengan ukuran jarak Automatic

Relevance Determination (KE-ARD).

(

)

(

)

(

)

_⎟⎟

parameter skala panjang dianggap berbeda antara satu dengan yang lainnya.

(23)

9 bahwa kasus dengan input-input yang berdekatan memiliki korelasi yang

tinggi pada output-outputnya. Selain itu pada fungsi KE-ARD memungkinkan

untuk mendeteksi tingkat “penting” yang berbeda dari setiap dimensi input

dalam memprediksi nilai peragam bagi output-output yang bersesuaian. Makin

besar nilai skala panjang menunjukkan bahwa input tersebut makin tidak

penting peranannya sebaliknya makin kecil nilai skala panjang makin penting

peranan input tersebut dalam pendugaan peragam bagi output-output yang

bersesuaian.

c. Fungsi peragam linear dengan hiperparameter tunggal (Linear-1).

(

)

dimana t adalah parameter yang mengendalikan bias dan

⎥

d. Fungsi peragam linear dengan parameter Automatic Relevance Determination

(Linear-ARD).

(

)

j

. Dalam fungsi peragam ini, parameter-parameter

ARD dianggap nilainya berbeda antara satu dengan yang lainnya.

e. Fungsi peragam Matern 3 dengan ukuran jarak isotropik.

(24)

10

parameter skala panjang dianggap dianggap sama yaitu l₁ =l₂ =L=l_d =l. Selain fungsi-fungsi peragam diatas, fungsi peragam daptt dibuat dengan

mengkombinasikan fungsi-fungsi peragam di atas, karena penjumlahan maupun

perkalian dari fungsi-fungsi peragam akan menghasilkan sebuah fungsi peragam

juga (Rasmussen dan Williams, 2006).

Dari beberapa jenis fungsi peragam yang telah disebutkan, tampak bahwa

setiap fungsi peragam memiliki parameter-parameter tertentu. Sebagai contoh

fungsi peragam Kuadrat Eksponensial memiliki parameter-parameter ragam signal

(σ2_f) dan skala panjang (l). Selanjutnya parameter-parameter tersebut ditulis dalam sebuah vektor parameter θ=

[ ]

σ_f2,l . Untuk menunjukkan bahwa parameter-parameter ini berbeda dengan parameter-parameter dalam regresi parametrik, selanjutnya

parameter-parameter tadi disebut dengan hiperparameter (Rasmussen dan

Williams, 2006).

Pendugaan Nilai Hiperparameter Fungsi Peragam

Terdapat beberapa metode yang dapat digunakan untuk menduga

nilai-nilai hiperparameter. Williams (2002) menyatakan bahwa untuk menduga nilai-nilai θ dapat digunakan metode kemungkinan marginal maksimum ( Maximum Marginal

Likelihood ) , metode aposterior maksimum, dan metode simulasi hybrid Monte

Carlo. Metode lain yang bisa digunakan adalah metode Cross Validation dan

metode Generalized Cross Validation (Wahba, 1990 dalam Williams 2002).

Dalam penelitian ini, pendugaan nilai hiperparameter menggunakan

metode kemungkinan marginal maksimum. Fungsi kemungkinan marginal

diperoleh dengan mengintegralkan fungsi kemungkinan yang telah dikalikan

dengan sebaran prior bagi f, yaitu

(

yX θ

)

p

(

yf,X θ

) (

pfX θ

)

df

(25)

11 Dibawah kerangka kerja Proses Gaussian sebaran prior atas fX, adalah θ

Gaussian ganda, yaitu fX,θ~N(0,K) atau

sehingga peubah acak yX, menyebar Gaussian ganda juga (Timm, 2002), θ

sehingga fungsi kemungkinan marginalnya menurut Rasmussen (2006) adalah

(

)

(

σ

)

σ log2π Penduga bagi nilai hiperparameter fungsi peragam tidak dapat diperoleh

secara langsung melalui statistik penduganya oleh karena itu untuk menemukan

nilai dugaannya dilakukan secara numerik. Salah satu metode yang dapat

digunakan adalah metode Conjugate Gradient (Fletcher dan Reeves, 1964).

Metode Conjugate gradient adalah sebuah algoritma yang dirancang untuk

menemukan nilai minimum lokal terdekat dari fungsi banyak peubah dengan

syarat gradien dari fungsi tersebut dapat dihitung. Usaha untuk memaksimumkan

fungsi kemungkinan marginal ekuivalen dengan meminimumkan fungsi

kemungkinan marginal negatif.

Misal h adalah fungsi yang didefinisikan pada persamaan (11) dan

( )

0

( )

θ0

∇h h adalah turunan berarah dari fungsi h terhadap parameter θ.

Berikut ini adalah algoritma dari metode Conjugate Gradient untuk fungsi

(26)

12 d) d_k+1 ←−∇h

( )

θ_k+1 +β_kd_k

e) θ₀ ←θ_n

langkah 4: Kembali kelangkah 2 sampai diperoleh nilai β_k −β_k₋₁ <ε, dimana nilai ε ditetapkan terlebih dahulu yang nilainya kecil sekali (mendekati nol).

Rassmusen (1996) telah mengembangkan sebuah program dalam bahasa

Matlab untuk metode Conjugate Gradient ini.

Prediksi Dalam Regresi Proses Gaussian

Misal diberikan beberapa amatan dan sebuah fungsi peragam, selanjutnya

akan ditentukan sebuah prediksi dengan menggunakan model proses Gaussian.

Untuk melakukan hal itu, jika x* sebuah titik uji dan f* adalah fungsi yang bersesuaian dengan x* , maka dibawah kerangka kerja Proses Gaussian , sebaran

bersama dari f dan *

f adalah Gaussian Ganda dengan rataan nol, yaitu:

⎟⎟ skalar. Apabila peubah galat mengikuti sebaran seperti pada persamaan (1) maka

sebaran bersama dari peubah teramati y dan y* adalah

⎟

Sehingga sebaran marginal dari y* adalah Gaussian juga, yaitu :

(

( ), ( )

)

dimana rataan dan ragam adalah

( )

x* =kT

(

K+σ2I

)

−1y

m (15)

( )

x* =κ+σ2 −kT

(

K+σ2I

)

−1k

(27)

13 Nilai dugaan bagi y* adalah m(x*) dan ragam bagi dugaan y* adalah v

( )

x* . Secara

umum untuk m buah titik uji *

[

*, , *

]

1 xm

x

X = K maka sebaran y* adalah Gaussian

Ganda dengan parameter-parameter,

m

( )

X* =K*T

(

K+σ2I

)

−1y (17)

( )

X* =K**+σ2I−K*T

(

K+σ2I

)

−1K

v (18)

dimana K*adalah matrik n x m dari peragam antara input-input training dan titik-titik uji. Matrik **

(28)

14 BAHAN DAN METODE

Bahan

Data yang digunakan dalam penelitian ini adalah data sekunder yang

merupakan bagian dari data penelitian Hibah Pascasarjana tahun 2003-2005 hasil

kerjasama antara Departemen Statistika IPB dengan Pusat Studi Biofarmaka

LPPM IPB. Penelitian tersebut didanai oleh Dirjen Pendidikan Tinggi,

Departemen Pendidikan Nasional. Data yang digunakan adalah persen transmitan

kurkumin dari serbuk temulawak hasil pengukuran spektrometer FTIR dan data

konsentrasi senyawa aktif kurkumin yang diukur dengan menggunakan HPLC.

Temulawak yang dijadikan contoh diambil dari beberapa daerah sentra tanaman

obat, yaitu Bogor, Sukabumi, Kulon Progo, Karanganyar, dan Cianjur dan Balitro.

Data-data tersebut diperoleh dari Pusat Studi Biofarmaka Institut pertanian Bogor.

Metode Penelitian

Penelitian ini terdiri atas 6 tahapan, yaitu (1) pra pemrosesan, (2) deteksi

pengamatan pencilan, (3) pemilihan gugus kalibrasi dan gugus uji, (4) pemilihan

fungsi peragam, (5) pemodelan dan (6) pengujian. Keenam tahapan tersebut lebih

jelasnya dapat dilihat pada Gambar 1.

Tahap pertama: Pra pemrosesan

Tahap pra pemrosesan adalah tahapan mereduksi jumlah peubah penjelas. Dalam

tahapan ini digunakan Analisis Komponen Utama (AKU). Terdapat dua aktifitas

dasar dari AKU, yaitu :

1. Pembuatan matriks korelasi atau matriks ragam-peragam. Aktifitas ini

diperlukan sebagai pemahaman awal terhadap karakteristik data. Karena data

hasil pengukuran FTIR mempunyai satuan pengukuran yang sama maka

matrik input yang digunakan adalah matrik ragam-peragam.

2. Penentuan jumlah komponen utama. Metode yang digunakan didasarkan atas

(29)

15 adalah akar ciri dari matrik ragam peragam maka proporsi kumulatif dari k

komponen utama pertama adalah _p k p

i

Tahap kedua : Deteksi pengamatan pencilan

Metode yang digunakan untuk mendeteksi pencilan adalah dengan melihat nilai

leverage setiap contoh yaitu dengan langkah-langkah sebagai berikut:

1. Menghitung nilai leverage untuk setiap contoh dengan formula

∑

utama ke-a dan λˆ adalah jumlah kuadrat dari skor-skor contoh untuk _a kalibrasi yang bersesuaian dengan komponen a, sedangkan N adalah

banyaknya contoh yang digunakan.

2. Membandingkan nilai leverage masing-masing contoh dengan

N A

+ =1

R .

Jika nilai laverage lebih dari 3R maka contoh tersebut dikategorikan sebagai

sebuah pencilan (Naes et al, 2002).

Tahap ketiga : Pemilihan gugus uji dan gugus kalibrasi Langkah-langkahnya adalah sebagai berikut:

1. Melakukan penggerombolan spektrum berdasarkan komponen-komponeun

utama yang terpilih. Metode pautan yang digunakan adalah pautan lengkap

dan jarak statistik yang digunakan adalah jarak euclid.

2. Menentukan banyaknya gerombol berdasarkan dendogram yang dihasilkan

pada langkah 1.

3. Mengambil beberapa contoh dari masing-masing gerombol untuk menjadi

bagian dari gugus uji.

4. Data yang tidak terambil pada bagian (3) akan menjadi bagian dari gugus

(30)

16 Tahap keempat : Pemilihan Fungsi peragam

Langkah-langkah dalam tahap pemilihan fungsi peragam adalah sebagai

berikut:

1. Menetapkan fungsi peragam tertentu.

2. Mengambil gugus uji dan gugus kalibrasi tertentu.

3. Melakukan pendugaan nilai-nilai hiperparameter dengan menggunakan

metode kemungkinan marginal maksimum.

4. Nilai-nilai hiperparameter yang diperoleh dari poin (3) digunakan dalam

regresi proses Gaussian sehingga diperoleh nilai Root Mean Square Error of

Prediction (RMSEP) nya.

5. Mengulangi langkah (1) – (4) untuk semua kemungkinan susunan gugus data

uji dan gugus data kalibrasi.

6. Menghitung nilai rata-rata RMSEP dari seluruh nilai RMSEP yang diperoleh.

7. Mengulangi langkah (1) – (6) untuk berbagai jenis fungsi peragam yang lain.

8. Membandingkan dugaan nilai RMSEP dari berbagai fungsi peragam tersebut.

9. Fungsi peragam yang menghasilkan nilai RMSEP yang terkecil akan

digunakan dalam pemodelan regresi proses Gaussian.

Tahap kelima : Pemodelan

Langkah-langkah dalam tahap pemodelan adalah sebagai berikut:

1. Melakukan pendugaan nilai-nilai hiperparameter bagi fungsi peragam yang

terpilih pada tahap keenam dengan menggunakan keseluruhan contoh.

Pendugaan dilakukan dengan menggunakan metode kemungkinan marginal

maksimum.

2. Nilai-nilai hiperparameter yang diperoleh dari poin (1) digunakan dalam

regresi proses gaussian sehingga diperoleh nilai prediksi bagi setiap input

data.

3. Menghitung nilai Root Mean Square Error (RMSE).

4. Menghitung R_Yvs2 _Yˆ.

Tahap keenam : Pengujian

Tahap terakhir adalah pengujian sebaran normal terhadap peubah acak

(31)

17 Gambar 1 Diagram alur penelitian

Pra pemrosesan

Deteksi Pencilan

Pemilihan Gugus Uji dan Kalibrasi

Pemilihan Fungsi Peragam

Pemodelan Regresi Proses

Gaussian

Pengujian Sebaran Galat Analisis Komponen

Utama

Nilai Leverage

Uji Kolmogorov Smirnov ToolBox GPML

Pengukuran Persen Transmitan dan

Konsentrasi

Ada Pencilan?

ya

tidak Mulai

(32)

18 HASIL DAN PEMBAHASAN

Deskripsi Spektrum Kurkumin

Data persen transmitan diperoleh dari pengukuran dengan menggunakan

FTIR pada 1866 bilangan gelombang yang berkisar antara 4000 – 400 cm-1.

Grafik spektrum kurkumin dari 20 contoh serbuk temulawak yang berasal dari

berbagai daerah dapat dilihat pada Gambar 2. Berdasarkan Gambar 2 spektrum

kurkumin dari berbagai daerah tersebut sebagian besar memiliki pola yang hampir

sama kecuali untuk beberapa spektrum yang menunjukkan pola yang agak

berbeda. Tampak bahwa spektrum kurkumin dari contoh serbuk temulawak yang

diambil dari daerah cianjur (contoh cj2) dan bogor (contoh bg2) agak berbeda.

Pada indeks bilangan gelombang disekitar 1500 cm-1 ketika spektrum

kurkumin serbuk temulawak dari sebagain besar contoh memiliki pola grafik yang

cekung ke atas, tetapi temulawak yang diambil dari daerah cianjur menujukkan

pola grafik yang cekung kebawah. Sedangkan spektrum kurkumin serbuk

temulawak yang diambil dari daerah Bogor (contoh bg2) menunjukkan pola yang

cenderung konstan di setiap bilangan gelombang. Patut diduga bahwa kedua

spektra kurkumin dari contoh cj2 dan bg2 merupakan spektrum pencilan (outlier).

Pendeteksian adanya spektrum pencilan akan dibahas pada bagian lain dari tesis

ini.

(33)

19 Reduksi Peubah Penjelas

Data persen transmitan diukur pada 1866 bilangan gelombang yang dalam

pemodelan kalibrasi ini berperan sebagai peubah penjelas. Ada tiga alasan utama

mengapa reduksi jumlah peubah penjelas ini dilakukan. Pertama, besar

kemungkinan antara peubah penjelas satu dengan lainnya tidak saling bebas.

Kedua, ada beberapa fungsi peragam dalam analisis regresi proses Gaussian

dimana jumlah parameter mengikuti jumlah peubah bebas yang digunakan,

contohnya adalah fungsi peragam Kuadrat Eksponensial – ARD. Ketiga, bekerja

dengan sedikit peubah penjelas akan menyederhanakan proses komputasi.

Analisis Komponen Utama (AKU) digunakan untuk mereduksi banyaknya

peubah penjelas dengan persentase keragaman kumulatif yang mampu dijelaskan

digunakan sebagai kriteria untuk menentukan banyaknya komponen utama. Tabel

1 menjelaskan bahwa pada bilangan gelombang 4000–400 cm-1 dengan

menggunakan 1 komponen utama, keragaman yang dapat dijelaskan sebesar

94,41% dan apabila menggunakan 2 komponen utama keragaman yang dapat

dijelaskan sebesar 98,13% sedangkan apabila menggunakan 3 komponen utama

keragaman yang dapat dijelaskan sebesar 99,03% dari keragaman pada data asal.

Oleh karena itu dalam analisis selanjutnya digunakan 3 komponen utama pertama

sebagai peubah penjelas.

Tabel 1 Ragam kumulatif komponen utama

Komponen Utama

Ragam yang Dijelaskan (%)

Ragam Kumulatif (%)

1 94,41 94,41 2 3,72 98,13 3 0,90 99,03 4 0,38 99,41 5 0,33 99,74

Deteksi Pengamatan Pencilan

Pencilan adalah pengamatan dimana dengan sebab-sebab tertentu memiliki

sifat yang berbeda dengan kebanyakan pengamatan lainnya (Naes et al., 2005) .

Adanya data pencilan sering kali memperbesar nilai ragam bagi model, sehingga

menyebabkan dugaan bagi selang kepercayaannya makin lebar. Pada penelitian

(34)

20 dengan melihat nilai leverage untuk masing-masing contoh yang nilainya dapat

dilihat pada Tabel 2 dibawah ini.

Tabel 2 Nilai leverage untuk masing-masing contoh.

Kode Contoh

Nilai

Leverage _ContohKode

Nilai

Leverage

kp1 0.3495R bt1 0.8680R

kp2 2.0385R bt2 0.8370R

kp3 0.3825R cj1 0.2915R

kp4 0.3355R cj2 4.5165R

kp5 0.4445R bg1 0.4915R

kp6 0.5385R bg2 2.7230R

kr1 0.3930R kn1 0.9745R

kr2 0.2920R kn2 3.1005R

kr3 0.3755R sb1 0.3565R

kr4 0.3285R sb2 0.3625R

Keterangan : R = 0,2

Tampak bahwa pada bilangan gelombang 4000 – 400 cm-1, contoh dengan kode

cj2 dan kn2 memiliki nilai leverage masing-masing 0,9033 dan 0,6201. Jika

2 , 0

R= maka nilai leverage dari kedua contoh tersebut masing-masing adalah

4,5165R dan 3,1005R, sehingga dapat disimpulkan bahwa spektrum dari contoh

dengan kode cj2 dan kn2 merupakan pencilan.

Jika sebuah contoh spektrum terdeteksi sebagai sebuah pencilan, maka

langkah pertama adalah kembali ke laboratorium untuk menelusuri sebab-sebab

mengapa contoh tersebut menjadi sebuah pencilan. Kedua, jika sebab telah

ditemukan maka sedapat mungkin kesalahan yang dilakukan dikoreksi atau jika

perlu dilakukan pengukuran ulang. Namun jika sebab-sebab tidak ditemukan

maka data tersebut lebih baik tidak diikutkan dalam perhitungan dan analisis

selanjutnya (Naes et al., 2002). Karena dalam penelitian ini data yang digunakan

adalah data sekunder, maka peneliti tidak dapat menelusuri lebih lanjut hal-hal

yang menyebabkan kenapa contoh cj2 dan kn2 menjadi pencilan. Oleh karena itu

kedua contoh diatas tidak akan dilibatkan dalam analisis selanjutnya.

Pemilihan Gugus Uji dan Gugus Kalibrasi

Gugus kalibrasi adalah gugus data yang digunakan untuk membangun

(35)

21 yang digunakan untuk menguji model kalibrasi tersebut (Naes et al., 2002).

Sebelum gugus uji dan gugus kalibrasi dilakukan, terlebih dahulu dilakukan

penggerombolan spektrum berdasarkan 3 komponen utama yang telah ditetapkan

sebelumnya. Penggerombolan ini dilakukan dalam rangka untuk mendapatkan

gambaran tentang kondisi populasi. Data yang terpilih baik pada gugus uji

maupun gugus kalibrasi diharapkan dapat mewakili kondisi dari populasinya.

Dalam penelitian ini semua kemungkinan susunan gugus uji dan gugus

kalibrasi dipertimbangkan. Banyaknya anggota dari gugus uji dalam penelitian ini

paling banyak ¼ dari keseluruhan contoh.

Gambar 3 Dendogram penggerombolan berdasarkan 3 komponen utama

Gambar 3 adalah hasil penggerombolan contoh berdasarkan 3 komponen

utama yang telah ditetapkan pada bagian sebelumnya. Pemilihan banyaknya

gerombol didasarkan atas selisih jarak penggabungan terbesar antara dua buah

gerombol. Tampak bahwa contoh-contoh yang digunakan dalam penelitian dapat

digerombolkan menjadi 3 buah gerombol. Pada gerombol pertama memuat

spektrum dengan kode contoh kp1, kr3, sb1, sb2, bg1, kp4, kr4, kp6, cj1, kr1, kr2.

Pada gerombol kedua memuat spektrum dengan kode contoh kp2, kp3, kp5, bt1

dan bt2, sedangkan pada gerombol ketiga memuat spektrum dengan kode contoh

(36)

22 dengan kode contoh bg2, maka pada gerombol 3 tidak diikutsertakan baik dalam

gugus uji maupun dalam gugus kalibrasi.

Karena banyaknya contoh yang digunakan dalam penelitian ini sebanyak

17 buah maka ditetapkan bahwa banyaknya anggota dari gugus uji sebanyak 4

buah. Selanjutnya 3 buah contoh diambil dari gerombol pertama dan sebuah

contoh diambil dari gerombol kedua untuk menjadi bagian dari gugus uji

sedangkan data yang tidak terambil menjadi bagian dari gugus kalibrasi.

Banyaknya susunan pasangan yang mungkin dari gugus uji dan gugus kalibrasi

adalah 1100

susunan. Dalam penelitian ini semua kemungkinan

susunan dari gugus uji dan gugus kalibrasi diperhatikan dalam penentuan nilai

RMSEP.

Pemilihan Fungsi Peragam

Fungsi peragam yang dapat dipilih dalam pemodelan regresi proses

Gaussian jumlahnya tidak diketahui, oleh karena itu dalam penelitian ini dikaji

beberapa fungsi peragam yang telah biasa digunakan oleh para peneliti lain

(Rassmussen dan Williams, 2006).

Tabel 3 Nilai RMSEP setiap jenis fungsi peragam

No Fungsi Peragam

Rata-Rata RMSEP Pencilan Tidak

di Hilangkan

Pencilan di Hilangkan 1 Kuadrat Eksponensial - Isotropik (KE-Iso) 0.5913 0,3857 2 Kuadrat Eksponensial - Automatic

Relevance Determinant (KE - ARD) 0.5446 0,4282

3 Linear 1 0.6963 0,5130

4 Linear Automatic Relevance Determinant

(Linear - ARD) 0.6540 0,4878

Dengan menggunakan skor dari 3 komponen utama yang telah ditetapkan

pada bagian sebelumnya dan menganggap konsentrasi kurkumin hasil dari

(37)

23 dilakukan dengan memperhatikan nilai RMSEP nya. Fungsi peragam yang

menghasilkan nilai RMSEP terkecil akan dipilih menjadi fungsi peragam bagi

model kalibrasi konsetrasi kurkumin.

Dari Tabel 3 dapat disimpulkan bahwa fungsi peragam yang relevan untuk

pemodelan kalibrasi konsentrasi kurkumin adalah Kuadrat Eksponensial-isotropik

(KE-iso) karena memberikan nilai RMSEP terkecil, yaitu sebesar 0,3857. Nilai

RMSEP tersebut bersesuaian dengan pengukuran persen transmitan pada bilangan

gelombang 4000–400 cm-1 dimana data-data pencilan telah dikeluarkan

sebelumnya. Tampak bahwa pemodelan regresi proses Gaussian dimana gugus

data yang dimiliki memuat pencilan menunjukkan capain nilai rata-rata RMSEP

yang lebih besar jika dibandingkan dengan pemodelan yang telah mengeluarkan

pengamatan pencilan.

Pemodelan Regresi Proses Gaussian

Pada bagian sebelumnya sudah dijelaskan bahwa fungsi peragam yang

relevan bagi model kalibrasi konsentrasi kurkumin adalah fungsi peragam Kuadrat

Eksponensial-isotropik (KE-iso). Fungsi peragam jenis ini termasuk dalam

kategori fungsi peragam stasioner. Formula dari fungsi peragam ini adalah

(

)

(

) (

)

ij dalam fungsi peragam Kuadrat Eksponensial-isotropik memiliki 3 buah

parameter, yaitu σ2_f,l_danσ2_{. Parameter} 2

f

σ disebut dengan ragam sinyal,

parameter l disebut dengan skala panjang dan parameter σ2 disebut dengan ragam galat. Penambahan suku σ2δ_ij pada formula baku dari fungsi peragam KE-iso sebagai konsekuensi dari pemodelan regresi yang menyertakan peubah

acak galat.

Dengan menggunakan metode kemungkinan marginal maksimum

diperoleh dugaan bagi nilai-nilai hiperparameter fungsi peragam KE-iso, yaitu

1563

. Hal ini berarti bahwa untuk setiap

(38)

24 0,0582 = 0,2145. Jika jarak antara dua buah input sebasar 1,3416 maka dugaan

peragam bagi output-output yang bersesuaian sebesar 0,0948 6487

Makin besar jarak antara dua buah input maka makin kecil nilai peragam bagi

output yang bersesuaian.

R2 = 0.8777

Gambar 4 Plot antara Y dan Y prediksi untuk model regresi proses Gaussian

Implementasi regresi proses Gaussian dengan fungsi peragam KE-iso

menghasilkan nilai R_Yvs2 _Yˆsebesar 87,77% dengan nilai RMSE sebesar 0,1753.

Gambar 4 adalah plot antara nilai aktual konsentrasi kurkumin dan nilai

dugaannya dibawah model regresi proses Gaussian. Tampak bahwa plot diantara

keduanya cenderung membentuk garis lurus, meskipun garisnya tidak melalui

pusat koordinat.

(39)

25 Dengan menggunakan regresi komponen utama, model kalibrasi

pengukuran konsentrasi kurkumin berdasarkan data transmitan serbuk temulawak

diperoleh nilai R_Yvs2 _Y_ˆ sebesar 40,18% dengan nilai RMSE sebesar 0,3901. Gambar 5 menunjukkan plot antara Y dan Y prediksinya untuk model regresi komponen

utama. Tampak bahwa plot antara Y dan Y prediksinya cenderung tidak

membetuk sebuah garis lurus. Dengan berdasarkan pada kriteria 2 ˆ

Y Yvs

R dan RMSE

dapat disimpulkan bahwa kinerja regresi proses Gaussian jauh lebih baik jika

dibandingkan dengan kinerja regresi komponen utama.

Pengujian Sebaran Galat

Munculnya asumsi sebaran Gaussian bagi peubah acak galat pada regresi

proses Gaussian memiliki tujuan yang berbeda dengan munculnya asumsi sebaran

Gaussian bagi peubah acak galat pada regresi parameterik pada umumnya. Pada

regresi parametrik adanya asumsi tersebut berguna untuk pengujian hipotesis bagi

parameter-perameter model regresinya sedangkan pada regresi proses Gaussian

adanya asumsi tersebut semata-mata agar sebaran bagi amatan y dapat ditelusuri.

Gambar 5 menunjukkan plot peluang normal dari peubah acak galat.

Tampak bahwa sebagian besar data menyebar disepanjang garis lurus. Hal ini

mengindikasikan bahwa data menyebar normal. Dengan menggunakan uji

Kolmogorov-Smirnov, pada pemilihan α =5%diketahui bahwa peubah acak

galat mengikuti sebaran normal (p-value > 0,150). Oleh karena itu asumsi yang

dibutuhkan dalam pemodelan regresi proses Gaussian ini telah terpenuhi.

(40)

26 SIMPULAN DAN SARAN

Simpulan

Berdasarkan hasil penelitian, dapat diambil beberapa kesimpulan sebagai

berikut:

1. Fungsi peragam yang relevan untuk pemodelan kalibrasi pada pengukuran

konsentrasi kurkumin adalah Kuadrat Eksponensial – isotropik, dimana persen

transmitan diukur pada bilangan gelombang 4000 – 400 cm-1 dengan tidak

melibatkan spektrum-spektrum yang dikategorikan sebagai pencilan.

2. Secara keseluruhan, pemodelan regresi proses Gaussian yang tidak melibatkan

spektrum pencilan memberikan kecenderungan hasil yang lebih baik jika

dibandingkan dengan menggunakan spektrum yang memuat pencilan.

3. Berdasarkan kriteria R_Yvs2 _Yˆ dan RMSE, kinerja regresi proses Gaussian dengan

menggunakan fungsi peragam Kuadrat Eksponensial – isotropik jauh lebih

baik jika dibandingkan dengan regresi komponen utama.

Saran

Penelitian ini menggunakan metode Maximum Marginal Likelihood untuk

menduga nilai hiperparameter bagi fungsi peragam dalam model regresi proses

Gaussian dimana metode Conjugate Gradient dipilih untuk menemukan solusi

secara numerik. Rasmussen dan Williams (2006) menyatakan bahwa tidak ada

jaminan bagi fungsi kemungkinan marginal untuk konvergen pada optimum

global. Oleh karena itu perlu dilakukan kajian yang lebih mendalam terhadap

kemungkinan penggunaan metode-metode lain dalam pendugaan hiperparameter,

(41)

27

DAFTAR PUSTAKA

Atok RM. 2005. Jaringan Syaraf Tiruan dalam Pemodelan Kalibrasi dengan Pra-pemrosesan Analisis Komponen Utama dan Transformasi Fourier Diskrit [Tesis]. Bogor: Program Pascasarjana, Institut Pertanian Bogor.

Chen T, Morris J, Martin E. 2007. Gaussian Process Regression for Multivariate Spectroscopic Callibration. Chemometrics and Intelligent Laboratory Systems 87: 85-97.

Djuraidah A. 2003. Penerapan Model Nonlinear PLS dengan Jaringan Syaraf Tiruan dalam Kalibrasi. Jurnal Matematika Aplikasi dan Pembelajarannya (JMAP) 2:339-345.

Erfiani. 2005. Pengembangan Model Kalibrasi dengan Pendekatan Bayes (Kasus Tanaman Obat [Disertasi]. Bogor: Program Pascasarjana, Institut Pertanian Bogor.

Fletcher R, Reeves CM.1964. Function Minimization by Conjugate Gradients. Computer Journal 7:148–154.

Naes T, Issackson T, Fearn T, Davies T. 2002. User Friendly Guide to Multivariate Calibration and Classification. United Kingdom: NIR Publication Chichester.

Neal RM. 1996.Bayesian learning for neural network. New York:Springer-Verlag.

Nur MA, Adijuwana H. 1989. Teknik Spektroskopi dalam Analisis Biologi. Bogor: Pusat Antar Univrsitas Ilmu Hayat, Institut Pertanian Bogor.

O’Hagan. 1978. Curve fitting and optimal design for prediction (with discussion). Journal of the Royal Statistical Society B 40. 1-40.

Rasmussen CE. 1996. Evaluation of Gaussian Processes and other Methods for Non-linear Regression [Disertasi]. Toronto: Department of Computer Science, University of Toronto.

Rasmussen CE, Williams CKI. 2006. Gaussian Process for Machine Learning. Massachusetts : MIT Press.

Sunaryo S. 2005. Model Kalibrasi dengan Transformasi Wavelet sebagai Metode Pra-pemrosesan [Disertasi]. Bogor: Program Pascasarjana, Institut Pertanian Bogor.

(42)

28 Tonah. 2006. Pemodelan Kalibrasi Peubah Ganda dengan Pendekatan Regresi

Sinyal P-Spline [Tesis]. Bogor: Program Pascasarjana, Institut Pertanian Bogor.

Timm NH. 2002. Applied Multivariate Analysis. New York. Springer.

(43)

29 Lampiran 1 Data Konsentrasi Kurkumin dan Tiga Komponen Utama Transmitan

No Kode Contoh

Konsentrasi Kurkumin

Komponen Utama Pertama

Komponen Utama Kedua

Komponen Utama Ketiga

1 kp1 0.65 -0.033 -0.623 -0.443

2 kp2 0.63 9.375 2.540 -0.315

3 kp3 0.92 3.167 0.487 -0.187

4 kp4 0.90 -0.858 0.205 -0.597

5 kr1 1.61 1.875 -1.033 0.003

6 kr2 1.66 3.697 -1.025 0.180

7 kp5 1.01 2.596 0.727 -0.107

8 kp6 1.13 0.626 0.163 -0.410

9 kr3 0.47 -0.624 -0.715 -0.463

10 kr4 0.50 -0.662 0.253 -0.565

11 bt1 1.38 3.341 1.792 0.371

12 bt2 1.57 4.652 1.513 0.468

13 cj1 1.57 1.266 -0.086 -0.359

14 cj2 1.74 -16.023 2.604 2.155

15 bg1 0.13 -1.760 -0.841 -0.721

16 bg2 0.12 -11.184 -0.735 -2.504

17 kn1 1.11 -3.168 -1.483 1.212

18 kn2 0.97 2.865 -2.380 3.063

19 sb1 1.30 0.071 -0.776 -0.264

(44)

30 Lampiran 2 Syntax program MATLAB untuk menentukan nilai RMSEP

# Menambahkan direktori GPML ke MATLAB addpath('d:\gpml-matlab\gpml')

# Indeks untuk matrik input e1 = [1;2;3;4;5;6;7;8;9;10;11;12]; e2 = [13;14;15;16;17];

# m = 1100; k = fix(rand(m,1)); o = fix(rand(m,1));

# Mendefinisikan fungsi peragam

covfunc = {'covSum', {'covSEard','covNoise'}}; # Nilai awal bagi hiperparameter fungsi peragam

logtheta_0 = [log(0.5);log(0.5);log(0.5);log(sqrt(0.05));log(sqrt(0.3))]; # Pemilihan gugus uji dan gugus kalibrasi

(45)

31

# Minimisasi fungsi kemungkinan marginal negatif

[logtheta fx iterasi] = minimize(logtheta_0, 'gpr', 50000, covfunc, x, y); # Regresi proses Gaussian

xstar = xu;

[ystar s2] = gpr(logtheta, covfunc, x, y, xstar); zstar = ystar + rt;

res = yu - zstar;

rmsep = sqrt(mean(res.^2)); n = L + l

k(n,:) = rmsep; o(n,:) = n; L = n; end end end

end

# Menghitung nilai rata-rata, minimum dan maksimum RMSEP rrmsep = mean(k)

(46)

32 Lampiran 3 Syntax program Matlab untuk menentukan nilai RMSE

# Menambahkan direktori GPML ke MATLAB addpath('d:\gpml-matlab\gpml')

# Membaca data load d:\tu\S3KUTP.txt load d:\tu\HPLCTP.txt z = HPLCTP;

x = S3KUTP; # mentranformasi Y rt = mean(z); y = z - rt;

# Menentukan fungsi peragam

covfunc = {'covSum', {'covSEiso','covNoise'}}; logtheta_0 = [log(0.5);log(sqrt(0.03));log(sqrt(0.03))]; # Minimisasi fungsi kemungkinan marginal negatif

[logtheta fx iterasi] = minimize(logtheta_0, 'gpr', 10000, covfunc, x, y); # Regresi proses Gaussian

xstar = x;

[ystar s2] = gpr(logtheta, covfunc, x, y, xstar); zstar = ystar + rt;

res = z - zstar;