REGRESI PROSES GAUSSIAN
UNTUK PEMODELAN KALIBRASI
MOCH. ABDUL MUKID
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASINYA
Dengan ini saya menyatakan bahwa tesis dengan judul Regresi Proses Gaussian untuk Pemodelan Kalibrasi adalah karya saya sendiri dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apapun kepada perguruan tinggi manapun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam daftar pustaka dibagian akhir tesis ini.
Bogor, Agustus 2009
ABSTRACT
MOCH. ABDUL MUKID. Gaussian Process Regression for Calibration Modeling. Under the Supervision of AJI HAMIM WIGENA and ERFIANI.
Multivariate calibration models have been developed usually by using principal component regression and partial least squares regression. This research proposes the application of Gaussian process regression as an alternative method to develop a calibration model. Gaussian process regression is one of the nonparametric regression methods that do not determine the mathematical relationship between exploratory and response variables. This method is applied to the measurement of curcumin concentration based on FTIR spectra. To handle the high dimensionality of spectra data, principal component analysis was initially performed, followed by applying the Gaussian process regression. Using three principal components, 99,03% of the original data’s variability can be explained. Based on the leverage value, few spectra were detected as outliers and will not be used for the final calculation. This model was attempted for various covariance functions. The results indicate that the most relevant and suitable covariance function for curcumin concentration measurement was Square Exponential – isotropic (SE–iso). The hyperparameter values for SE–iso were estimated by Maximum Marginal Likelihood Method. Based on RYvs2 Yˆ and RMSE criteria, the
performance of Gaussian process regression is better than that of principal component regression.
RINGKASAN
MOCH. ABDUL MUKID. Regresi Proses Gaussian untuk Pemodelan Kalibrasi. Dibawah bimbingan AJI HAMIM WIGENA dan ERFIANI.
Di Indonesia tanaman obat telah lama digunakan oleh masyarakat dan industri dalam pembuatan jamu. Penggunaan tanaman obat yang semakin meluas sudah selayaknya diikuti dengan usaha untuk menjamin kualitas tanaman obat tersebut. Hal ini untuk menjamin agar produksinya dapat bersaing dan diterima oleh masyarakat. Salah satu indikator kualitas tanaman obat adalah konsentrasi senyawa aktifnya. Proses penentuan konsentrasi senyawa aktif yang dikandung oleh suatu tanaman obat perlu dilakukan secara cepat dan akurat. Salah satu metodenya adalah dengan membuat model kalibrasi yang diperoleh dari contoh tanaman obat.
Pada pemodelan kalibrasi spektroskopi kendala yang sering dihadapi adalah banyaknya peubah penjelas yang jauh lebih besar dari pada banyaknya pengamatan. Hal ini cenderung akan menyebabkan adanya multikolinearitas antar peubah penjelas yang pada akhirnya menyebabkan penduga parameter yang tidak stabil dan mengurangi ketepatan prediksi model. Untuk mengatasi hal tersebut, biasanya model-model kalibrasi peubah ganda dikembangkan dengan menggunakan regresi komponen utama maupun regresi kuadrat terkecil parsial (Erfiani, 2005).
Dalam penelitian ini diusulkan penerapan regresi proses Gaussian sebagai sebuah metode alternatif untuk mengembangkan sebuah model kalibrasi. Metode ini diterapkan pada pengukuran konsentrasi kurkumin berdasarkan atas data spektra yang diukur dengan menggunakan FTIR. Untuk mengatasi besarnya dimensi dari data spectra, prapemrosesan dilakukan dengan menggunakan Analisis Komponen Utama (AKU). Dengan menggunakan tiga komponen utama yang pertama diketahui bahwa 99,03% keragaman data asal dapat dijelaskan. Berdasarkan nilai leverage, beberapa pengamatan terdeteksi sebagai pencilan dan dikeluarkan dalam perhitungan selanjutnya. Model ini telah dicobakan pada berbagai jenis fungsi peragam dan hasilnya mengindikasikan bahwa fungsi peragam yang cocok dan relevan untuk memodelkan pengukuran konsentrasi kurkumin adalah Kuadrat Eksponensial – isotropik (KE-iso). Selanjutnya nilai-nilai hiperparamater dari fungsi peragam KE-iso diduga dengan menggunakan metode kemungkinan marginal maksimum. Berdasarkan atas kriteria nilai-nilai
2 ˆ
Y Yvs
R dan RMSE, kinerja regresi proses Gaussian jauh lebih baik jika dibandingkan dengan regresi komponen utama. Pada regresi proses Gaussian nilai
2 ˆ
Y Yvs
R mencapai 88,77% dan nilai RMSE sebesar 0,1753 sedangkan pada regresi komponen utama nilai 2
ˆ
Y Yvs
© Hak Cipta milik IPB, tahun 2009
Hak Cipta dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan yang wajar IPB.
REGRESI PROSES GAUSSIAN
UNTUK PEMODELAN KALIBRASI
MOCH. ABDUL MUKID
Tesis
Sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada
Program Studi Statistika
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
Judul Tesis : Regresi Proses Gaussian untuk Pemodelan Kalibrasi Nama : Moch. Abdul Mukid
NIM : G151070011
Disetujui
Komisi Pembimbing
Dr. Ir. Aji Hamim Wigena, M.Sc. Dr. Ir Erfiani, M.Si.
Ketua Anggota
Diketahui
Ketua Program Studi Statistika Dekan Sekolah Pascasarjana
Dr. Ir. Aji Hamim Wigena, M.Sc. Prof. Dr. Ir. Khairil Anwar Notodiputro, M.S.
PRAKATA
Alhamdulillah, puji syukur penulis panjatkan kepada Allah SWT atas berkat, rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan penelitian dan penulisan tesis ini.
Tesis ini berjudul “Regresi Proses Gaussian Untuk Pemodelan Kalibrasi“ disusun berdasarkan penelitian yang dilakukan di Departemen Statistika FMIPA-IPB. Penelitian yang dilakukan penulis merupakan bagian dari payung penelitian Hibah Pascasarjana ”Pengembangan Model Kalibrasi Multirespon dan Teknik Adulterasi Obat Bahan Alam” 2008-2010 yang merupakan kerjasama antara Departemen Statistika dan Biofarmaka, Institut Pertanian Bogor yang didanai oleh Dirjen Pendidikan Tinggi, Departemen Pendidikan Nasional.
Terima kasih yang sedalam-dalamnya penulis sampaikan kepada Bapak Dr. Ir. Aji Hamim Wigena, M.Sc selaku ketua Program Studi Statistika Sekolah Pascasarjana IPB yang sekaligus sebagai ketua komisi pembimbing dalam penyusunan tesis ini. Rasa terima kasih juga penulis sampaikan kepada Dr. Ir. Erfiani, M.Si selaku anggota dalam komisi pembimbing yang senantiasa memberikan masukan dan arahan dalam penelitian ini . Penulis juga mengucapkan terima kasih yang sebesar-besarnya kepada Prof. Dr. Khairil Anwar Notodiputro, M.S selaku ketua tim peneliti Hibah Pascasarjana tahun 2003-2005 dengan topik ”Pengembangan Model untuk Pendugaan Kandungan Senyawa Bioaktif atau Senyawa Penciri Beberapa Tanaman Obat”, atas izin yang telah diberikan kepada penulis untuk menggunakan sebagian data hasil penelitiannya. Tidak lupa pula ungkapan terima kasih penulis sampaikan kepada seluruh teman-teman STK 2007 atas diskusi dan dukungan morilnya selama menyelesaikan penulisan tesis ini.
Penulis menyadari bahwa masih banyak kekurangan dalam penyusunan tesis ini, oleh karena itu kritik, saran dan masukan sangat penulis harapkan demi penyempurnaan dan perbaikan tulisan ini. Semoga karya ilmiah ini bermanfaat untuk semua pembaca. Amin.
Bogor, Agustus 2009
RIWAYAT HIDUP
DAFTAR ISI
Halaman
DAFTAR TABEL ... xii
DAFTAR GAMBAR ... xiii
DAFTAR LAMPIRAN ... xiv
PENDAHULUAN Latar Belakang ... 1
Tujuan Penelitian ... 2
TINJAUAN PUSTAKA Spektroskopi FTIR (Fourier Transform Infrared) ... 3
High Performance Liquid Chromatography (HPLC) ... 4
Kandungan Senyawa Aktif pada Temulawak ... 5
Regresi Proses Gaussian ... 6
Fungsi Peragam ... 7
Pendugaan Nilai Hiperparameter Fungsi Peragam ... 10
Prediksi dalam Regresi Proses Gaussian ... 11
DATA DAN METODE Bahan ... 14
Metode ... 14
HASIL DAN PEMBAHASAN Deskripsi Spektrum Kurkumin ... 18
Reduksi Peubah Penjelas ... 19
Deteksi Pengamatan Pencilan ... 19
Pemilihan Gugus Uji dan Gugus Kalibrasi ... 20
Pemilihan Fungsi peragam ... 22
Pemodelan Regresi Proses Gaussian ... 23
Pengujian Sebaran Galat ... 25
SIMPULAN DAN SARAN ... 26
DAFTAR PUSTAKA ... 27
DAFTAR TABEL
1. Ragam kumulatif komponen utama ... 15
2. Nilai leverage untuk masing-masing contoh ... 17
3. Nilai RMSEP setiap jenis fungsi peragam ... 19
DAFTAR GAMBAR
1. Diagram alur penelitian ... 14
2. Spektra kurkumin serbuk temulawak ... 15
3. Dendogram penggerombolan berdasarkan 3 komponen utama ... 18
4. Plot antara Y dan Y prediksi untuk model regresi proses Gaussian ... 21
5. Plot antara Y dan Y prediksi untuk model regresi komponen utama ... 21
DAFTAR LAMPIRAN
1. Data Konsentrasi Kurkumin dan Tiga Komponen Utama Transmitan .... 28
2. Syntax program MATLAB untuk menghitung nilai RMSEP ... 29
1
PENDAHULUAN
Latar Belakang
Di Indonesia tanaman obat telah lama digunakan oleh masyarakat dan
industri dalam pembuatan jamu. Akhir-akhir ini perusahaan farmasi pun telah
memanfaatkan tanaman obat tradisional pada produk-produknya. Penggunaan
tanaman obat yang semakin meluas sudah selayaknya diikuti dengan usaha untuk
menjamin kualitas tanaman obat tersebut. Hal ini untuk menjamin agar
produksinya dapat bersaing dan diterima oleh masyarakat. Salah satu indikator
kualitas tanaman obat adalah konsentrasi senyawa aktifnya.
Proses penentuan konsentrasi senyawa aktif yang dikandung oleh suatu
tanaman obat perlu dilakukan secara cepat dan akurat. Secara kuantitatif dan
kualitatif suatu senyawa aktif dapat diketahui antara lain melalui metode HPLC
(High Performance Liquid Chromatography) dan FTIR (Fourier Trasform
Infrared). Penentuan konsentrasi senyawa aktif dilakukan melalui proses yang
panjang meliputi penghancuran bahan, pelarutan, dan pengukuran dengan HPLC.
Proses ini memerlukan waktu dan biaya yang relatif mahal. Untuk itu sangat
diperlukan metode yang handal tetapi relatif mudah untuk digunakan. Salah satu
metodenya adalah dengan membuat sebuah model kalibrasi. Model ini
menyatakan hubungan antara konsentrasi senyawa aktif hasil pengukuran HPLC
dengan persen transmitan (absorban) yang diukur dengan menggunakan FTIR.
Tujuan dari pembentukan model ini adalah untuk memprediksi konsentrasi
senyawa aktif dengan akurasi yang tinggi dari nilai persen transmitan yang secara
ekonomi lebih murah dan mudah diperoleh (Erfiani, 2005).
Beberapa penulis telah mengembangkan model kalibrasi untuk kasus yang
berbeda. Atok (2005) menggunakan Jaringan Syaraf Tiruan dengan metode pra
pemrosesan Analisis Komponen Utama, sedangkan Djuraidah (2003)
membandingkan kinerja model PLS non-linear dengan Jaringan Syaraf Tiruan
pada model kalibrasi. Erfiani (2005) mengembangkan model kalibrasi dengan
pendekatan Bayes dimana reduksi peubahnya melalui pendekatan regresi
terpenggal, sedangkan Sony (2005) menggunakan Regresi Komponen Utama
dimana metode wavelet digunakan untuk pra pemrosesan. Selain pendekatan
2 pendekatan non parametrik. Tonah (2005) menggunakan regresi sinyal P-Spline
untuk kalibarasi kandungan gingerol dimana metode prapemrosesannya adalah
koreksi pencaran multiplikatif.
Pada penelitian ini penulis menggunakan pendekatan regresi proses
Gaussian untuk membangun model kalibrasi pada pengukuran konsentrasi
kurkumin berdasarkan data persen transmitannya. Aspek penting yang harus
diketahui dalam pemodelan dengan pendekatan regresi proses Gaussian adalah
fungsi peragam. Fungsi peragam adalah sebuah fungsi dari input-input model
yang menghasilkan sebuah nilai peragam bagi output-output yang bersesuaian
(Rasmussen, 1996). Regresi proses Gaussian pada awalnya diusulkan oleh
O’Hagan (1978) yang memandang sebagai sebuah alternatif pendekatan untuk
jaringan syaraf tiruan. Regresi proses Gaussian dapat juga diturunkan dari
perspektif regresi nonparametrik Bayesian dengan penempatan secara langsung
sebaran prior Gaussian bagi fungsi-fungsi regresi f(x) (MacKay 1998, diacu dalam Williams 2002).
Regresi proses Gaussian telah digunakan oleh beberapa peneliti untuk
pemodelan. Rasmussen dan Williams (2006) menggunakan regresi proses
Gaussian untuk pemodelan pembelajaran gerak lengan tangan robot sedangkan
Chen et al. (2007) menggunakan regresi proses Gaussian untuk pemodelan
kalibrasi spektroskopi dan membandingkan hasilnya dengan regresi komponen
utama, jaringan syaraf tiruan dan regresi PLS.
Tujuan Penelitian
Penelitian ini bertujuan untuk menerapkan regresi proses Gaussian pada
pemodelan kalibrasi spektroskopi dengan melakukan kajian terhadap penggunaan
3
TINJAUAN PUSTAKA
Spektroskopi FTIR (FourierTransform Infrared)
FTIR merupakan salah satu teknik spektroskopi infra merah. Instrumentasi
spektrum infra merah dibagi kedalam tiga jenis radiasi yaitu infra merah dekat
(bilangan gelombang 12800-4000 cm-1), infra merah pertengahan (bilangan
gelombang 4000-200 cm-1), dan infra merah jauh (bilangan gelombang 200-10
cm-1) (Nur dan Adijuawana, 1989). FTIR termasuk dalam kategori radiasi infra
merah pertengahan (bilangan gelombang 4000-200 cm-1).
Hampir setiap senyawa yang memiliki ikatan kovalen akan menyerap
berbagai frekuensi radiasi elektromagnetik dalam daerah spektrum inframerah.
Setiap tipe ikatan yang berbeda mempunyai sifat frekuensi vibrasi yang berbeda,
dan karena tipe ikatan yang sama dalam dua senyawa yang berbeda terletak dalam
lingkungan yang sedikit berbeda, maka tidak akan ada dua molekul yang berbeda
strukturnya akan mempunyai bentuk serapan inframerah atau spektrum
inframerah yang tepat sama.
Jika I0 adalah intensitas IR yang masuk kedalam contoh dan I adalah
intensitas IR yang diteruskan (transmitted) oleh contoh, maka :
Absorban (A) = Log (I0 / I) dan transmitan (T) = 100 (I/I0).
Sehingga hubungan absorban dengan transmitan adalah :
A = - log ( T/100).
Karena kekuatan serapan proporsional terhadap konsentrasi, maka FTIR
dapat digunakan untuk analisis kuantitatif yang menghubungkan konsentrasi
dengan absorban atau persen transmitan. Untuk menduga konsentrasi suatu
senyawa tertentu dalam contoh, diperlukan pengukuran nilai-nilai absorban dari
contoh pada berbagai bilangan gelombang.
Plot antara transmitan dengan bilangan gelombang menghasilkan spektrum
infra merah. Karena setiap tipe ikatan yang berbeda mempunyai sifat frekuensi
vibrasi yang berbeda, maka tidak ada molekul yang berbeda strukturnya akan
mempunyai bentuk serapan infra merah atau spektrum infra merah yang tepat
sama. Dengan membandingkan spektrum infra merah dari dua senyawa yang
4 atau tidak. Pelacakan tersebut lazim dikenal dengan bentuk sidik jari (Finger
Print) dari dua spektrum infra merah. Kondisi puncak spektrum infra merah kedua
senyawa tepat sama maka dikatakan dalam banyak hal kedua senyawa tersebut
sama atau identik (Sostrohamidjoyo 1990, diacu dalam Erfiani 2005).
High Performance Liquid Chromatography (HPLC)
Kromatografi adalah suatu metode pemisahan komponen-komponen suatu
campuran, komponen-komponen tersebut akan terdistribusi diantara dua fase.
Salah satu fase dibuat diam dan dinamakan fase diam atau fase stasioner, fase
lainnya disebut fase gerak atau fase mobil yang bergerak diantara celah-celah atau
pada permukaan fase stasioner. Pergerakan fase mobil ini mengakibatkan
pergerakan diferensial dari komponen-komponen contoh (Nur dan Adijuwana,
1989). Metode pemisahaan ini memerlukan waktu sangat singkat dan lebih efektif
dibandingkan dengan pemisahaan lain. Fase diam pada kromatografi dapat berupa
cair atau padatan sedangkan fase gerak dapat berupa cair atau gas. Berdasarkan
jenis fasenya kromatografi dapat digolongkan menjadi empat jenis yaitu:
cair-padatan, gas-cair-padatan, cair-cair, dan gas-cair.
Kromatografi cair adalah semua metode kromatografi yang menggunakan
cairan sebagai fase mobil. Kromatografi cair meliputi metode kromatografi
sederhana dan kromatografi modern. HPLC adalah salah satu metode
kromatografi yang termasuk kromatografi cair modern. HPLC adalah
kromatografi yang menggunakan cairan sebagai fase gerak dan sebagai fase diam
dapat berupa suatu padatan atau senyawa tertentu yang terikat secara kimia
dengan padatan pendukungnya.
HPLC biasanya digunakan untuk memisahkan senyawa yang tidak dapat
dipisahkan dengan kromatografi gas, karena sifatnya yang tidak mudah menguap,
sehingga tidak mampu melewati kolom dan sample tidak tahan pada suhu tinggi
sehingga akan mengalami dekomposisi pada kondisi pemisahan. HPLC dapat
mengatasi permasalahan tersebut, karena HPLC mampu memisahkan senyawa
yang tidak mudah menguap dan stabil pada suhu tinggi. Selain itu berbagai
macam fase diam dan fase gerak dapat digunakan pada HPLC yang
5 HPLC pada dasarnya adalah suatu kromatografi kolom yang menggunakan
kolom yang terbuat dari bahan kemasan, maka untuk mendapatkan laju alir yang
memadai, digunakan tekanan sampai 5000 lb/inci atau sekitar 2000 kg/cm. Teknik
pemisahan HPLC dilakukan dengan menginjeksikan sedikit sampel yang
berbentuk cairan ke dalam aliran cairan (fase mobil/fase gerak) yang berjalan
melalui kolom yang berisi partikel dari suatu fase stasioner. Pemisahan campuran
kedalam komponennya tergantung pada tingkat retensi masing-masing komponen
di dalam kolom. Kecendrungan suatu komponen ditahan di dalam kolom
ditentukan oleh partisinya diantara cairan fase mobil dan fase stasioner.
HPLC digunakan terutama untuk golongan senyawa tak atsiri, misalnya
terpenoid tinggi, segala jenis fenol, alkaloid, lipid dan gula. HPLC berhasil paling
baik untuk senyawa yang dapat dideteksi pada daerah spektrum UV atau spektrum
sinar tampak.
HPLC berbeda dengan kromatografi lainnya terutama dalam penggunaan
partikel padatan sebagai pengisi kolom yang mempunyai ukuran partikel seragam
dengan diameter kecil, dengan demikian diharapkan akan diperoleh efisiensi
kolom yang tinggi tetapi sebagai akibatnya diperlukan dan dibutuhkan pompa
bertekanan tinggi yang berfungsi mengalirkan pelarut fasa gerak secara terus
menerus. Dengan alasan tersebut HPLC sering disebut dengan kromatografi cair
kinerja tinggi. Dalam kromatografi cair kinerja tinggi selain proses pemisahan
terkait pula proses penginderaan, pemantauan dan perhitungan hasil. Proses
penginderaan dapat dilakukan oleh beberapa macam alat detektor dan
pemilihannya bergantung pada senyawa yang diteliti. HPLC dapat digunakan
untuk analisis kualitatif dan kuantitatif sebagai sarana untuk pemurnian memalui
pemurnian secara preparatif (Lindsay 1992, diacu dalam Erfiani 2005).
Kandungan Senyawa Aktif pada Temulawak
Menurut Sinambela (1985), komposisi rimpang temulawak dapat dibagi
menjadi dua fraksi utama yaitu zat warna kurkuminoid dan minyak atsiri. warna
kekuningan temulawak disebabkan adanya kurkuminoid. Kandungan utama
kurkuminoid terdiri dari senyawa kurkumin, desmetoksikurkumin dan
6 kurkuminoid dan minyak atsiri juga mengandung lemak, protein, selulosa, pati,
dan mineral. Kadar masing-masing zat tersebut tergantung pada umur rimpang
yang dipanen serta juga dipengaruhi oleh letak dan ketinggian tempat temulawak
berada.
Temulawak mempunyai berbagai macam khasiat, yaitu sebagai: analgesik,
anthelmintik, antibakteri, antijamur, antidiabetik, antidiare, antiinflamasi,
anti-hepatotoksik, antioksidan, antitumor, antidepresan, diuretik, hipotermik,
hipolipidemik, insektisida, dan lain-lain. Khasiat temulawak tersebut telah
dibuktikan melalui teknik ilmu pengetahuan modern baik oleh ilmuwan dalam
maupun luar negeri.
Regresi Proses Gaussian
Proses stokastik adalah suatu kumpulan dari peubah-peubah acak
{
Yxx∈X}
yang diindekskan dengan sebuah himpunan X yang beranggotakan d peubah penjelas. Proses-proses stokastik ditentukan oleh pemberian sebaranpeluang bersama untuk setiap himpunan bagian manapun dari
k
1 x
x Y
Y ,K, dengan
sebuah cara yang konsisten. Proses Gaussian adalah suatu proses stokastik dimana
himpunan berhingga manapun dari himpunan peubah acak Y mempunyai sebaran
bersama Gaussian ganda (Williams, 2002). Sebuah proses Gaussian secara
lengkap ditentukan oleh fungsi rataan μ
( )
x =E[ ]
Yx dan fungsi peragam(
i j)
E[
(
Y i( )
i)
(
Y j( )
j)
]
kx ,x = x −μ x x −μ x .Regresi proses Gaussian dapat diturunkan dari sudut pandang regresi
nonparametric Bayesian yaitu dengan penempatan secara langsung sebaran prior
Gaussian bagi fungsi-fungsi regresi f(x) (MacKay 1998, diacu dalam Williams
2002). Misal untuk setiap output yi bergantung pada input xi dibawah sebuah
fungsi fi sebagai berikut :
( )
i i i fy = x +ε (1)
dimana εi adalah peubah acak galat yang secara bebas dan identik menyebar
Gaussian dengan rataan nol dan ragam σ2, sedangkan
i
x adalah vektor input ke-i
7
[
]
Tn f
f1,L, maka menurut Proses Gaussian untuk metode regresi , sebaran prior atas vektor f adalah Gaussian Ganda dengan vektor rataan 0 dan matrik peragam K, yaitu
vektor parameter dari fungsi peragam. Setiap elemen ke (i,j) dari matrik K adalah
k(xi,xj) dimana k .,.
( )
adalah sebuah fungsi yang definit non negatif yang memuatparameter θ. Selanjutnya k .,.
( )
disebut sebagai fungsi peragam.Persamaan (1) dapat dinyatakan dalam bentuk persamaan vektor, yaitu
ε
f
y = + (3)
dimana y adalah vektor amatan dari respon, f adalah vektor dari fungsi-fungsi regresi dan ε adalah vektor galat.
Sebagai implikasi langsung atas penetapan sebaran prior Gaussian ganda
bagi vektor f dan asumsi bahwa vektor galat ε menyebar Gaussian maka sebaran bagi vektor amatan y adalah Gaussian ganda dengan nilai tengah 0 dan matrik
ragam peragam K+σ2I. Tidak setiap vektor amatan y selalu memiliki nilai tengah 0 sehingga untuk memenuhinya setiap amatan dari yi akan dikurangi
dengan nilai rata-rata dari keseluruhan amatan.
Fungsi Peragam
Fungsi peragam adalah sebuah fungsi dari input-input model yang
menghasilkan sebuah nilai peragam bagi output-output yang bersesuaian
(Rasmussen, 1996). Satu-satunya syarat bagi sebuah fungsi peragam adalah
mampu membangkitkan sebuah matrik ragam peragam yang definit non negatif
untuk sembarang himpunan titik-titik input.
Secara garis besar fungsi peragam dapat dibedakan menjadi dua, yaitu
fungsi peragam yang stasioner dan fungsi peragam yang tidak stasioner. Fungsi
peragam yang stasioner adalah sebuah fungsi dari xi – xj (jarak euclid antara dua buah input). Fungsi peragam yang stasioner invarian terhadap translasi namun
seringkali gagal dalam menyesuaikan terhadap kemulusan dari fungsi yang
8 fungsi dari jarak antara dua buah input, namun fungsi peragam jenis ini mampu menyesuaikan terhadap kemulusan fungsi (Paciorek dan Schervish, 2005). Fungsi
peragam yang stasioner diantaranya adalah kuadrat eksponensial sedangkan yang
termasuk fungsi peragam tidak stasioner adalah fungsi-fungsi peragam linear
(Rasmussen dan Williams, 2006). Beberapa fungsi peragam yang umum
digunakan dalam model regresi proses Gaussian adalah sebagai berikut:
a. Fungsi peragam kuadrat eksponensial dengan ukuran jarak isotropik (KE-iso).
Fungsi peragam ini memiliki formula
(
)
(
)
(
)
⎟⎟parameter skala panjang untuk m = 1, ..., d. Dalam fungsi peragam ini nilai
parameter skala panjang dianggap sama yaitu l1 =l2 =L=ld =l. Fungsi peragam ini menunjukkan ide bahwa kasus dengan input-input yang
berdekatan memiliki korelasi yang tinggi pada output-outputnya. Nilai
parameter skala panjang yang sama menunjukkan bahwa setiap dimensi input
memiliki tingkat “penting” yang sama dalam memprediksi nilai peragam dari
output-output yang bersesuaian.
b. Fungsi peragam kuadrat eksponensial dengan ukuran jarak Automatic
Relevance Determination (KE-ARD).
Fungsi peragam ini memiliki formula
(
)
(
)
(
)
⎟⎟parameter skala panjang untuk m = 1, ..., d. Dalam fungsi peragam ini nilai
parameter skala panjang dianggap berbeda antara satu dengan yang lainnya.
9 bahwa kasus dengan input-input yang berdekatan memiliki korelasi yang
tinggi pada output-outputnya. Selain itu pada fungsi KE-ARD memungkinkan
untuk mendeteksi tingkat “penting” yang berbeda dari setiap dimensi input
dalam memprediksi nilai peragam bagi output-output yang bersesuaian. Makin
besar nilai skala panjang menunjukkan bahwa input tersebut makin tidak
penting peranannya sebaliknya makin kecil nilai skala panjang makin penting
peranan input tersebut dalam pendugaan peragam bagi output-output yang
bersesuaian.
c. Fungsi peragam linear dengan hiperparameter tunggal (Linear-1).
Fungsi peragam ini memiliki formula
(
)
dimana t adalah parameter yang mengendalikan bias dan
⎥
d. Fungsi peragam linear dengan parameter Automatic Relevance Determination
(Linear-ARD).
Fungsi peragam ini memiliki formula
(
)
j. Dalam fungsi peragam ini, parameter-parameter
ARD dianggap nilainya berbeda antara satu dengan yang lainnya.
e. Fungsi peragam Matern 3 dengan ukuran jarak isotropik.
Fungsi peragam ini memiliki formula
10
parameter skala panjang untuk m = 1, ..., d. Dalam fungsi peragam ini nilai
parameter skala panjang dianggap dianggap sama yaitu l1 =l2 =L=ld =l. Selain fungsi-fungsi peragam diatas, fungsi peragam daptt dibuat dengan
mengkombinasikan fungsi-fungsi peragam di atas, karena penjumlahan maupun
perkalian dari fungsi-fungsi peragam akan menghasilkan sebuah fungsi peragam
juga (Rasmussen dan Williams, 2006).
Dari beberapa jenis fungsi peragam yang telah disebutkan, tampak bahwa
setiap fungsi peragam memiliki parameter-parameter tertentu. Sebagai contoh
fungsi peragam Kuadrat Eksponensial memiliki parameter-parameter ragam signal
(σ2f) dan skala panjang (l). Selanjutnya parameter-parameter tersebut ditulis dalam sebuah vektor parameter θ=
[ ]
σf2,l . Untuk menunjukkan bahwa parameter-parameter ini berbeda dengan parameter-parameter dalam regresi parametrik, selanjutnyaparameter-parameter tadi disebut dengan hiperparameter (Rasmussen dan
Williams, 2006).
Pendugaan Nilai Hiperparameter Fungsi Peragam
Terdapat beberapa metode yang dapat digunakan untuk menduga
nilai-nilai hiperparameter. Williams (2002) menyatakan bahwa untuk menduga nilai-nilai θ dapat digunakan metode kemungkinan marginal maksimum ( Maximum Marginal
Likelihood ) , metode aposterior maksimum, dan metode simulasi hybrid Monte
Carlo. Metode lain yang bisa digunakan adalah metode Cross Validation dan
metode Generalized Cross Validation (Wahba, 1990 dalam Williams 2002).
Dalam penelitian ini, pendugaan nilai hiperparameter menggunakan
metode kemungkinan marginal maksimum. Fungsi kemungkinan marginal
diperoleh dengan mengintegralkan fungsi kemungkinan yang telah dikalikan
dengan sebaran prior bagi f, yaitu
(
yX θ)
p(
yf,X θ) (
pfX θ)
df11 Dibawah kerangka kerja Proses Gaussian sebaran prior atas fX, adalah θ
Gaussian ganda, yaitu fX,θ~N(0,K) atau
sehingga peubah acak yX, menyebar Gaussian ganda juga (Timm, 2002), θ
sehingga fungsi kemungkinan marginalnya menurut Rasmussen (2006) adalah
(
)
(
σ)
σ log2π Penduga bagi nilai hiperparameter fungsi peragam tidak dapat diperolehsecara langsung melalui statistik penduganya oleh karena itu untuk menemukan
nilai dugaannya dilakukan secara numerik. Salah satu metode yang dapat
digunakan adalah metode Conjugate Gradient (Fletcher dan Reeves, 1964).
Metode Conjugate gradient adalah sebuah algoritma yang dirancang untuk
menemukan nilai minimum lokal terdekat dari fungsi banyak peubah dengan
syarat gradien dari fungsi tersebut dapat dihitung. Usaha untuk memaksimumkan
fungsi kemungkinan marginal ekuivalen dengan meminimumkan fungsi
kemungkinan marginal negatif.
Misal h adalah fungsi yang didefinisikan pada persamaan (11) dan
( )
0( )
θ0∇h h adalah turunan berarah dari fungsi h terhadap parameter θ.
Berikut ini adalah algoritma dari metode Conjugate Gradient untuk fungsi
12 d) dk+1 ←−∇h
( )
θk+1 +βkdke) θ0 ←θn
langkah 4: Kembali kelangkah 2 sampai diperoleh nilai βk −βk−1 <ε, dimana nilai ε ditetapkan terlebih dahulu yang nilainya kecil sekali (mendekati nol).
Rassmusen (1996) telah mengembangkan sebuah program dalam bahasa
Matlab untuk metode Conjugate Gradient ini.
Prediksi Dalam Regresi Proses Gaussian
Misal diberikan beberapa amatan dan sebuah fungsi peragam, selanjutnya
akan ditentukan sebuah prediksi dengan menggunakan model proses Gaussian.
Untuk melakukan hal itu, jika x* sebuah titik uji dan f* adalah fungsi yang bersesuaian dengan x* , maka dibawah kerangka kerja Proses Gaussian , sebaran
bersama dari f dan *
f adalah Gaussian Ganda dengan rataan nol, yaitu:
⎟⎟ skalar. Apabila peubah galat mengikuti sebaran seperti pada persamaan (1) maka
sebaran bersama dari peubah teramati y dan y* adalah
⎟
Sehingga sebaran marginal dari y* adalah Gaussian juga, yaitu :
(
( ), ( ))
dimana rataan dan ragam adalah
( )
x* =kT(
K+σ2I)
−1ym (15)
( )
x* =κ+σ2 −kT(
K+σ2I)
−1k13 Nilai dugaan bagi y* adalah m(x*) dan ragam bagi dugaan y* adalah v
( )
x* . Secaraumum untuk m buah titik uji *
[
*, , *]
1 xm
x
X = K maka sebaran y* adalah Gaussian
Ganda dengan parameter-parameter,
m
( )
X* =K*T(
K+σ2I)
−1y (17)( )
X* =K**+σ2I−K*T(
K+σ2I)
−1Kv (18)
dimana K*adalah matrik n x m dari peragam antara input-input training dan titik-titik uji. Matrik **
14 BAHAN DAN METODE
Bahan
Data yang digunakan dalam penelitian ini adalah data sekunder yang
merupakan bagian dari data penelitian Hibah Pascasarjana tahun 2003-2005 hasil
kerjasama antara Departemen Statistika IPB dengan Pusat Studi Biofarmaka
LPPM IPB. Penelitian tersebut didanai oleh Dirjen Pendidikan Tinggi,
Departemen Pendidikan Nasional. Data yang digunakan adalah persen transmitan
kurkumin dari serbuk temulawak hasil pengukuran spektrometer FTIR dan data
konsentrasi senyawa aktif kurkumin yang diukur dengan menggunakan HPLC.
Temulawak yang dijadikan contoh diambil dari beberapa daerah sentra tanaman
obat, yaitu Bogor, Sukabumi, Kulon Progo, Karanganyar, dan Cianjur dan Balitro.
Data-data tersebut diperoleh dari Pusat Studi Biofarmaka Institut pertanian Bogor.
Metode Penelitian
Penelitian ini terdiri atas 6 tahapan, yaitu (1) pra pemrosesan, (2) deteksi
pengamatan pencilan, (3) pemilihan gugus kalibrasi dan gugus uji, (4) pemilihan
fungsi peragam, (5) pemodelan dan (6) pengujian. Keenam tahapan tersebut lebih
jelasnya dapat dilihat pada Gambar 1.
Tahap pertama: Pra pemrosesan
Tahap pra pemrosesan adalah tahapan mereduksi jumlah peubah penjelas. Dalam
tahapan ini digunakan Analisis Komponen Utama (AKU). Terdapat dua aktifitas
dasar dari AKU, yaitu :
1. Pembuatan matriks korelasi atau matriks ragam-peragam. Aktifitas ini
diperlukan sebagai pemahaman awal terhadap karakteristik data. Karena data
hasil pengukuran FTIR mempunyai satuan pengukuran yang sama maka
matrik input yang digunakan adalah matrik ragam-peragam.
2. Penentuan jumlah komponen utama. Metode yang digunakan didasarkan atas
15 adalah akar ciri dari matrik ragam peragam maka proporsi kumulatif dari k
komponen utama pertama adalah p k p
i
Tahap kedua : Deteksi pengamatan pencilan
Metode yang digunakan untuk mendeteksi pencilan adalah dengan melihat nilai
leverage setiap contoh yaitu dengan langkah-langkah sebagai berikut:
1. Menghitung nilai leverage untuk setiap contoh dengan formula
∑
utama ke-a dan λˆ adalah jumlah kuadrat dari skor-skor contoh untuk a kalibrasi yang bersesuaian dengan komponen a, sedangkan N adalah
banyaknya contoh yang digunakan.
2. Membandingkan nilai leverage masing-masing contoh dengan
N A
+ =1
R .
Jika nilai laverage lebih dari 3R maka contoh tersebut dikategorikan sebagai
sebuah pencilan (Naes et al, 2002).
Tahap ketiga : Pemilihan gugus uji dan gugus kalibrasi Langkah-langkahnya adalah sebagai berikut:
1. Melakukan penggerombolan spektrum berdasarkan komponen-komponeun
utama yang terpilih. Metode pautan yang digunakan adalah pautan lengkap
dan jarak statistik yang digunakan adalah jarak euclid.
2. Menentukan banyaknya gerombol berdasarkan dendogram yang dihasilkan
pada langkah 1.
3. Mengambil beberapa contoh dari masing-masing gerombol untuk menjadi
bagian dari gugus uji.
4. Data yang tidak terambil pada bagian (3) akan menjadi bagian dari gugus
16 Tahap keempat : Pemilihan Fungsi peragam
Langkah-langkah dalam tahap pemilihan fungsi peragam adalah sebagai
berikut:
1. Menetapkan fungsi peragam tertentu.
2. Mengambil gugus uji dan gugus kalibrasi tertentu.
3. Melakukan pendugaan nilai-nilai hiperparameter dengan menggunakan
metode kemungkinan marginal maksimum.
4. Nilai-nilai hiperparameter yang diperoleh dari poin (3) digunakan dalam
regresi proses Gaussian sehingga diperoleh nilai Root Mean Square Error of
Prediction (RMSEP) nya.
5. Mengulangi langkah (1) – (4) untuk semua kemungkinan susunan gugus data
uji dan gugus data kalibrasi.
6. Menghitung nilai rata-rata RMSEP dari seluruh nilai RMSEP yang diperoleh.
7. Mengulangi langkah (1) – (6) untuk berbagai jenis fungsi peragam yang lain.
8. Membandingkan dugaan nilai RMSEP dari berbagai fungsi peragam tersebut.
9. Fungsi peragam yang menghasilkan nilai RMSEP yang terkecil akan
digunakan dalam pemodelan regresi proses Gaussian.
Tahap kelima : Pemodelan
Langkah-langkah dalam tahap pemodelan adalah sebagai berikut:
1. Melakukan pendugaan nilai-nilai hiperparameter bagi fungsi peragam yang
terpilih pada tahap keenam dengan menggunakan keseluruhan contoh.
Pendugaan dilakukan dengan menggunakan metode kemungkinan marginal
maksimum.
2. Nilai-nilai hiperparameter yang diperoleh dari poin (1) digunakan dalam
regresi proses gaussian sehingga diperoleh nilai prediksi bagi setiap input
data.
3. Menghitung nilai Root Mean Square Error (RMSE).
4. Menghitung RYvs2 Yˆ.
Tahap keenam : Pengujian
Tahap terakhir adalah pengujian sebaran normal terhadap peubah acak
17 Gambar 1 Diagram alur penelitian
Pra pemrosesan
Deteksi Pencilan
Pemilihan Gugus Uji dan Kalibrasi
Pemilihan Fungsi Peragam
Pemodelan Regresi Proses
Gaussian
Pengujian Sebaran Galat Analisis Komponen
Utama
Nilai Leverage
Uji Kolmogorov Smirnov ToolBox GPML
Pengukuran Persen Transmitan dan
Konsentrasi
Ada Pencilan?
ya
tidak Mulai
18 HASIL DAN PEMBAHASAN
Deskripsi Spektrum Kurkumin
Data persen transmitan diperoleh dari pengukuran dengan menggunakan
FTIR pada 1866 bilangan gelombang yang berkisar antara 4000 – 400 cm-1.
Grafik spektrum kurkumin dari 20 contoh serbuk temulawak yang berasal dari
berbagai daerah dapat dilihat pada Gambar 2. Berdasarkan Gambar 2 spektrum
kurkumin dari berbagai daerah tersebut sebagian besar memiliki pola yang hampir
sama kecuali untuk beberapa spektrum yang menunjukkan pola yang agak
berbeda. Tampak bahwa spektrum kurkumin dari contoh serbuk temulawak yang
diambil dari daerah cianjur (contoh cj2) dan bogor (contoh bg2) agak berbeda.
Pada indeks bilangan gelombang disekitar 1500 cm-1 ketika spektrum
kurkumin serbuk temulawak dari sebagain besar contoh memiliki pola grafik yang
cekung ke atas, tetapi temulawak yang diambil dari daerah cianjur menujukkan
pola grafik yang cekung kebawah. Sedangkan spektrum kurkumin serbuk
temulawak yang diambil dari daerah Bogor (contoh bg2) menunjukkan pola yang
cenderung konstan di setiap bilangan gelombang. Patut diduga bahwa kedua
spektra kurkumin dari contoh cj2 dan bg2 merupakan spektrum pencilan (outlier).
Pendeteksian adanya spektrum pencilan akan dibahas pada bagian lain dari tesis
ini.
19 Reduksi Peubah Penjelas
Data persen transmitan diukur pada 1866 bilangan gelombang yang dalam
pemodelan kalibrasi ini berperan sebagai peubah penjelas. Ada tiga alasan utama
mengapa reduksi jumlah peubah penjelas ini dilakukan. Pertama, besar
kemungkinan antara peubah penjelas satu dengan lainnya tidak saling bebas.
Kedua, ada beberapa fungsi peragam dalam analisis regresi proses Gaussian
dimana jumlah parameter mengikuti jumlah peubah bebas yang digunakan,
contohnya adalah fungsi peragam Kuadrat Eksponensial – ARD. Ketiga, bekerja
dengan sedikit peubah penjelas akan menyederhanakan proses komputasi.
Analisis Komponen Utama (AKU) digunakan untuk mereduksi banyaknya
peubah penjelas dengan persentase keragaman kumulatif yang mampu dijelaskan
digunakan sebagai kriteria untuk menentukan banyaknya komponen utama. Tabel
1 menjelaskan bahwa pada bilangan gelombang 4000–400 cm-1 dengan
menggunakan 1 komponen utama, keragaman yang dapat dijelaskan sebesar
94,41% dan apabila menggunakan 2 komponen utama keragaman yang dapat
dijelaskan sebesar 98,13% sedangkan apabila menggunakan 3 komponen utama
keragaman yang dapat dijelaskan sebesar 99,03% dari keragaman pada data asal.
Oleh karena itu dalam analisis selanjutnya digunakan 3 komponen utama pertama
sebagai peubah penjelas.
Tabel 1 Ragam kumulatif komponen utama
Komponen Utama
Ragam yang Dijelaskan (%)
Ragam Kumulatif (%)
1 94,41 94,41 2 3,72 98,13 3 0,90 99,03 4 0,38 99,41 5 0,33 99,74
Deteksi Pengamatan Pencilan
Pencilan adalah pengamatan dimana dengan sebab-sebab tertentu memiliki
sifat yang berbeda dengan kebanyakan pengamatan lainnya (Naes et al., 2005) .
Adanya data pencilan sering kali memperbesar nilai ragam bagi model, sehingga
menyebabkan dugaan bagi selang kepercayaannya makin lebar. Pada penelitian
20 dengan melihat nilai leverage untuk masing-masing contoh yang nilainya dapat
dilihat pada Tabel 2 dibawah ini.
Tabel 2 Nilai leverage untuk masing-masing contoh.
Kode Contoh
Nilai
Leverage Contoh Kode
Nilai
Leverage
kp1 0.3495R bt1 0.8680R
kp2 2.0385R bt2 0.8370R
kp3 0.3825R cj1 0.2915R
kp4 0.3355R cj2 4.5165R
kp5 0.4445R bg1 0.4915R
kp6 0.5385R bg2 2.7230R
kr1 0.3930R kn1 0.9745R
kr2 0.2920R kn2 3.1005R
kr3 0.3755R sb1 0.3565R
kr4 0.3285R sb2 0.3625R
Keterangan : R = 0,2
Tampak bahwa pada bilangan gelombang 4000 – 400 cm-1, contoh dengan kode
cj2 dan kn2 memiliki nilai leverage masing-masing 0,9033 dan 0,6201. Jika
2 , 0
R= maka nilai leverage dari kedua contoh tersebut masing-masing adalah
4,5165R dan 3,1005R, sehingga dapat disimpulkan bahwa spektrum dari contoh
dengan kode cj2 dan kn2 merupakan pencilan.
Jika sebuah contoh spektrum terdeteksi sebagai sebuah pencilan, maka
langkah pertama adalah kembali ke laboratorium untuk menelusuri sebab-sebab
mengapa contoh tersebut menjadi sebuah pencilan. Kedua, jika sebab telah
ditemukan maka sedapat mungkin kesalahan yang dilakukan dikoreksi atau jika
perlu dilakukan pengukuran ulang. Namun jika sebab-sebab tidak ditemukan
maka data tersebut lebih baik tidak diikutkan dalam perhitungan dan analisis
selanjutnya (Naes et al., 2002). Karena dalam penelitian ini data yang digunakan
adalah data sekunder, maka peneliti tidak dapat menelusuri lebih lanjut hal-hal
yang menyebabkan kenapa contoh cj2 dan kn2 menjadi pencilan. Oleh karena itu
kedua contoh diatas tidak akan dilibatkan dalam analisis selanjutnya.
Pemilihan Gugus Uji dan Gugus Kalibrasi
Gugus kalibrasi adalah gugus data yang digunakan untuk membangun
21 yang digunakan untuk menguji model kalibrasi tersebut (Naes et al., 2002).
Sebelum gugus uji dan gugus kalibrasi dilakukan, terlebih dahulu dilakukan
penggerombolan spektrum berdasarkan 3 komponen utama yang telah ditetapkan
sebelumnya. Penggerombolan ini dilakukan dalam rangka untuk mendapatkan
gambaran tentang kondisi populasi. Data yang terpilih baik pada gugus uji
maupun gugus kalibrasi diharapkan dapat mewakili kondisi dari populasinya.
Dalam penelitian ini semua kemungkinan susunan gugus uji dan gugus
kalibrasi dipertimbangkan. Banyaknya anggota dari gugus uji dalam penelitian ini
paling banyak ¼ dari keseluruhan contoh.
Gambar 3 Dendogram penggerombolan berdasarkan 3 komponen utama
Gambar 3 adalah hasil penggerombolan contoh berdasarkan 3 komponen
utama yang telah ditetapkan pada bagian sebelumnya. Pemilihan banyaknya
gerombol didasarkan atas selisih jarak penggabungan terbesar antara dua buah
gerombol. Tampak bahwa contoh-contoh yang digunakan dalam penelitian dapat
digerombolkan menjadi 3 buah gerombol. Pada gerombol pertama memuat
spektrum dengan kode contoh kp1, kr3, sb1, sb2, bg1, kp4, kr4, kp6, cj1, kr1, kr2.
Pada gerombol kedua memuat spektrum dengan kode contoh kp2, kp3, kp5, bt1
dan bt2, sedangkan pada gerombol ketiga memuat spektrum dengan kode contoh
22 dengan kode contoh bg2, maka pada gerombol 3 tidak diikutsertakan baik dalam
gugus uji maupun dalam gugus kalibrasi.
Karena banyaknya contoh yang digunakan dalam penelitian ini sebanyak
17 buah maka ditetapkan bahwa banyaknya anggota dari gugus uji sebanyak 4
buah. Selanjutnya 3 buah contoh diambil dari gerombol pertama dan sebuah
contoh diambil dari gerombol kedua untuk menjadi bagian dari gugus uji
sedangkan data yang tidak terambil menjadi bagian dari gugus kalibrasi.
Banyaknya susunan pasangan yang mungkin dari gugus uji dan gugus kalibrasi
adalah 1100
susunan. Dalam penelitian ini semua kemungkinan
susunan dari gugus uji dan gugus kalibrasi diperhatikan dalam penentuan nilai
RMSEP.
Pemilihan Fungsi Peragam
Fungsi peragam yang dapat dipilih dalam pemodelan regresi proses
Gaussian jumlahnya tidak diketahui, oleh karena itu dalam penelitian ini dikaji
beberapa fungsi peragam yang telah biasa digunakan oleh para peneliti lain
(Rassmussen dan Williams, 2006).
Tabel 3 Nilai RMSEP setiap jenis fungsi peragam
No Fungsi Peragam
Rata-Rata RMSEP Pencilan Tidak
di Hilangkan
Pencilan di Hilangkan 1 Kuadrat Eksponensial - Isotropik (KE-Iso) 0.5913 0,3857 2 Kuadrat Eksponensial - Automatic
Relevance Determinant (KE - ARD) 0.5446 0,4282
3 Linear 1 0.6963 0,5130
4 Linear Automatic Relevance Determinant
(Linear - ARD) 0.6540 0,4878
Dengan menggunakan skor dari 3 komponen utama yang telah ditetapkan
pada bagian sebelumnya dan menganggap konsentrasi kurkumin hasil dari
23 dilakukan dengan memperhatikan nilai RMSEP nya. Fungsi peragam yang
menghasilkan nilai RMSEP terkecil akan dipilih menjadi fungsi peragam bagi
model kalibrasi konsetrasi kurkumin.
Dari Tabel 3 dapat disimpulkan bahwa fungsi peragam yang relevan untuk
pemodelan kalibrasi konsentrasi kurkumin adalah Kuadrat Eksponensial-isotropik
(KE-iso) karena memberikan nilai RMSEP terkecil, yaitu sebesar 0,3857. Nilai
RMSEP tersebut bersesuaian dengan pengukuran persen transmitan pada bilangan
gelombang 4000–400 cm-1 dimana data-data pencilan telah dikeluarkan
sebelumnya. Tampak bahwa pemodelan regresi proses Gaussian dimana gugus
data yang dimiliki memuat pencilan menunjukkan capain nilai rata-rata RMSEP
yang lebih besar jika dibandingkan dengan pemodelan yang telah mengeluarkan
pengamatan pencilan.
Pemodelan Regresi Proses Gaussian
Pada bagian sebelumnya sudah dijelaskan bahwa fungsi peragam yang
relevan bagi model kalibrasi konsentrasi kurkumin adalah fungsi peragam Kuadrat
Eksponensial-isotropik (KE-iso). Fungsi peragam jenis ini termasuk dalam
kategori fungsi peragam stasioner. Formula dari fungsi peragam ini adalah
(
)
(
) (
)
ij dalam fungsi peragam Kuadrat Eksponensial-isotropik memiliki 3 buahparameter, yaitu σ2f,l dan σ2. Parameter 2
f
σ disebut dengan ragam sinyal,
parameter l disebut dengan skala panjang dan parameter σ2 disebut dengan ragam galat. Penambahan suku σ2δij pada formula baku dari fungsi peragam KE-iso sebagai konsekuensi dari pemodelan regresi yang menyertakan peubah
acak galat.
Dengan menggunakan metode kemungkinan marginal maksimum
diperoleh dugaan bagi nilai-nilai hiperparameter fungsi peragam KE-iso, yaitu
1563
. Hal ini berarti bahwa untuk setiap
24 0,0582 = 0,2145. Jika jarak antara dua buah input sebasar 1,3416 maka dugaan
peragam bagi output-output yang bersesuaian sebesar 0,0948 6487
Makin besar jarak antara dua buah input maka makin kecil nilai peragam bagi
output yang bersesuaian.
R2 = 0.8777
Gambar 4 Plot antara Y dan Y prediksi untuk model regresi proses Gaussian
Implementasi regresi proses Gaussian dengan fungsi peragam KE-iso
menghasilkan nilai RYvs2 Yˆsebesar 87,77% dengan nilai RMSE sebesar 0,1753.
Gambar 4 adalah plot antara nilai aktual konsentrasi kurkumin dan nilai
dugaannya dibawah model regresi proses Gaussian. Tampak bahwa plot diantara
keduanya cenderung membentuk garis lurus, meskipun garisnya tidak melalui
pusat koordinat.
25 Dengan menggunakan regresi komponen utama, model kalibrasi
pengukuran konsentrasi kurkumin berdasarkan data transmitan serbuk temulawak
diperoleh nilai RYvs2 Yˆ sebesar 40,18% dengan nilai RMSE sebesar 0,3901. Gambar 5 menunjukkan plot antara Y dan Y prediksinya untuk model regresi komponen
utama. Tampak bahwa plot antara Y dan Y prediksinya cenderung tidak
membetuk sebuah garis lurus. Dengan berdasarkan pada kriteria 2 ˆ
Y Yvs
R dan RMSE
dapat disimpulkan bahwa kinerja regresi proses Gaussian jauh lebih baik jika
dibandingkan dengan kinerja regresi komponen utama.
Pengujian Sebaran Galat
Munculnya asumsi sebaran Gaussian bagi peubah acak galat pada regresi
proses Gaussian memiliki tujuan yang berbeda dengan munculnya asumsi sebaran
Gaussian bagi peubah acak galat pada regresi parameterik pada umumnya. Pada
regresi parametrik adanya asumsi tersebut berguna untuk pengujian hipotesis bagi
parameter-perameter model regresinya sedangkan pada regresi proses Gaussian
adanya asumsi tersebut semata-mata agar sebaran bagi amatan y dapat ditelusuri.
Gambar 5 menunjukkan plot peluang normal dari peubah acak galat.
Tampak bahwa sebagian besar data menyebar disepanjang garis lurus. Hal ini
mengindikasikan bahwa data menyebar normal. Dengan menggunakan uji
Kolmogorov-Smirnov, pada pemilihan α =5%diketahui bahwa peubah acak
galat mengikuti sebaran normal (p-value > 0,150). Oleh karena itu asumsi yang
dibutuhkan dalam pemodelan regresi proses Gaussian ini telah terpenuhi.
26 SIMPULAN DAN SARAN
Simpulan
Berdasarkan hasil penelitian, dapat diambil beberapa kesimpulan sebagai
berikut:
1. Fungsi peragam yang relevan untuk pemodelan kalibrasi pada pengukuran
konsentrasi kurkumin adalah Kuadrat Eksponensial – isotropik, dimana persen
transmitan diukur pada bilangan gelombang 4000 – 400 cm-1 dengan tidak
melibatkan spektrum-spektrum yang dikategorikan sebagai pencilan.
2. Secara keseluruhan, pemodelan regresi proses Gaussian yang tidak melibatkan
spektrum pencilan memberikan kecenderungan hasil yang lebih baik jika
dibandingkan dengan menggunakan spektrum yang memuat pencilan.
3. Berdasarkan kriteria RYvs2 Yˆ dan RMSE, kinerja regresi proses Gaussian dengan
menggunakan fungsi peragam Kuadrat Eksponensial – isotropik jauh lebih
baik jika dibandingkan dengan regresi komponen utama.
Saran
Penelitian ini menggunakan metode Maximum Marginal Likelihood untuk
menduga nilai hiperparameter bagi fungsi peragam dalam model regresi proses
Gaussian dimana metode Conjugate Gradient dipilih untuk menemukan solusi
secara numerik. Rasmussen dan Williams (2006) menyatakan bahwa tidak ada
jaminan bagi fungsi kemungkinan marginal untuk konvergen pada optimum
global. Oleh karena itu perlu dilakukan kajian yang lebih mendalam terhadap
kemungkinan penggunaan metode-metode lain dalam pendugaan hiperparameter,
27
DAFTAR PUSTAKA
Atok RM. 2005. Jaringan Syaraf Tiruan dalam Pemodelan Kalibrasi dengan Pra-pemrosesan Analisis Komponen Utama dan Transformasi Fourier Diskrit [Tesis]. Bogor: Program Pascasarjana, Institut Pertanian Bogor.
Chen T, Morris J, Martin E. 2007. Gaussian Process Regression for Multivariate Spectroscopic Callibration. Chemometrics and Intelligent Laboratory Systems 87: 85-97.
Djuraidah A. 2003. Penerapan Model Nonlinear PLS dengan Jaringan Syaraf Tiruan dalam Kalibrasi. Jurnal Matematika Aplikasi dan Pembelajarannya (JMAP) 2:339-345.
Erfiani. 2005. Pengembangan Model Kalibrasi dengan Pendekatan Bayes (Kasus Tanaman Obat [Disertasi]. Bogor: Program Pascasarjana, Institut Pertanian Bogor.
Fletcher R, Reeves CM.1964. Function Minimization by Conjugate Gradients. Computer Journal 7:148–154.
Naes T, Issackson T, Fearn T, Davies T. 2002. User Friendly Guide to Multivariate Calibration and Classification. United Kingdom: NIR Publication Chichester.
Neal RM. 1996.Bayesian learning for neural network. New York:Springer-Verlag.
Nur MA, Adijuwana H. 1989. Teknik Spektroskopi dalam Analisis Biologi. Bogor: Pusat Antar Univrsitas Ilmu Hayat, Institut Pertanian Bogor.
O’Hagan. 1978. Curve fitting and optimal design for prediction (with discussion). Journal of the Royal Statistical Society B 40. 1-40.
Rasmussen CE. 1996. Evaluation of Gaussian Processes and other Methods for Non-linear Regression [Disertasi]. Toronto: Department of Computer Science, University of Toronto.
Rasmussen CE, Williams CKI. 2006. Gaussian Process for Machine Learning. Massachusetts : MIT Press.
Sunaryo S. 2005. Model Kalibrasi dengan Transformasi Wavelet sebagai Metode Pra-pemrosesan [Disertasi]. Bogor: Program Pascasarjana, Institut Pertanian Bogor.
28 Tonah. 2006. Pemodelan Kalibrasi Peubah Ganda dengan Pendekatan Regresi
Sinyal P-Spline [Tesis]. Bogor: Program Pascasarjana, Institut Pertanian Bogor.
Timm NH. 2002. Applied Multivariate Analysis. New York. Springer.
29 Lampiran 1 Data Konsentrasi Kurkumin dan Tiga Komponen Utama Transmitan
No Kode Contoh
Konsentrasi Kurkumin
Komponen Utama Pertama
Komponen Utama Kedua
Komponen Utama Ketiga
1 kp1 0.65 -0.033 -0.623 -0.443
2 kp2 0.63 9.375 2.540 -0.315
3 kp3 0.92 3.167 0.487 -0.187
4 kp4 0.90 -0.858 0.205 -0.597
5 kr1 1.61 1.875 -1.033 0.003
6 kr2 1.66 3.697 -1.025 0.180
7 kp5 1.01 2.596 0.727 -0.107
8 kp6 1.13 0.626 0.163 -0.410
9 kr3 0.47 -0.624 -0.715 -0.463
10 kr4 0.50 -0.662 0.253 -0.565
11 bt1 1.38 3.341 1.792 0.371
12 bt2 1.57 4.652 1.513 0.468
13 cj1 1.57 1.266 -0.086 -0.359
14 cj2 1.74 -16.023 2.604 2.155
15 bg1 0.13 -1.760 -0.841 -0.721
16 bg2 0.12 -11.184 -0.735 -2.504
17 kn1 1.11 -3.168 -1.483 1.212
18 kn2 0.97 2.865 -2.380 3.063
19 sb1 1.30 0.071 -0.776 -0.264
30 Lampiran 2 Syntax program MATLAB untuk menentukan nilai RMSEP
# Menambahkan direktori GPML ke MATLAB addpath('d:\gpml-matlab\gpml')
# Indeks untuk matrik input e1 = [1;2;3;4;5;6;7;8;9;10;11;12]; e2 = [13;14;15;16;17];
# m = 1100; k = fix(rand(m,1)); o = fix(rand(m,1));
# Mendefinisikan fungsi peragam
covfunc = {'covSum', {'covSEard','covNoise'}}; # Nilai awal bagi hiperparameter fungsi peragam
logtheta_0 = [log(0.5);log(0.5);log(0.5);log(sqrt(0.05));log(sqrt(0.3))]; # Pemilihan gugus uji dan gugus kalibrasi
31
# Minimisasi fungsi kemungkinan marginal negatif
[logtheta fx iterasi] = minimize(logtheta_0, 'gpr', 50000, covfunc, x, y); # Regresi proses Gaussian
xstar = xu;
[ystar s2] = gpr(logtheta, covfunc, x, y, xstar); zstar = ystar + rt;
res = yu - zstar;
rmsep = sqrt(mean(res.^2)); n = L + l
k(n,:) = rmsep; o(n,:) = n; L = n; end end end
end
# Menghitung nilai rata-rata, minimum dan maksimum RMSEP rrmsep = mean(k)
32 Lampiran 3 Syntax program Matlab untuk menentukan nilai RMSE
# Menambahkan direktori GPML ke MATLAB addpath('d:\gpml-matlab\gpml')
# Membaca data load d:\tu\S3KUTP.txt load d:\tu\HPLCTP.txt z = HPLCTP;
x = S3KUTP; # mentranformasi Y rt = mean(z); y = z - rt;
# Menentukan fungsi peragam
covfunc = {'covSum', {'covSEiso','covNoise'}}; logtheta_0 = [log(0.5);log(sqrt(0.03));log(sqrt(0.03))]; # Minimisasi fungsi kemungkinan marginal negatif
[logtheta fx iterasi] = minimize(logtheta_0, 'gpr', 10000, covfunc, x, y); # Regresi proses Gaussian
xstar = x;
[ystar s2] = gpr(logtheta, covfunc, x, y, xstar); zstar = ystar + rt;
res = z - zstar;