SISTEM KLASIFIKASI KHASIAT FORMULA JAMU
DENGAN METODE
SUPPORT VECTOR MACHINE
ARIES FITRIAWAN
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Sistem Klasifikasi Khasiat Formula Jamu dengan Metode Support Vector Machine adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.
Bogor, Juni 2013
ABSTRAK
ARIES FITRIAWAN. Sistem Klasifikasi Khasiat Formula Jamu dengan Metode Support Vector Machine. Dibimbing oleh WISNU ANANTA KUSUMA dan RUDI HERYANTO.
Jamu adalah obat yang dibuat dari bahan-bahan alami seperti akar-akaran, daun-daunan, kayu-kayuan, dan buah-buahan. Komposisi jamu biasanya didasarkan pada data empiris atau pengalaman pribadi. Jamu terdiri atas banyak variasi formula sehingga proses klasifikasi jamu berdasarkan komposisi tanaman masih merupakan permasalahan yang menarik untuk diteliti. Tujuan penelitian ini adalah membuat sistem klasifikasi khasiat jamu berdasarkan komposisi tanaman menggunakan metode Support Vector Machine (SVM). Hasil dari penelitian ini dibandingkan dengan penelitian sebelumnya yang menggunakan metode Partial Least Squares Discriminant Analysis (PLS-DA). Model terbaik dihasilkan oleh SVM dengan Radial Basis Function (RBF) kernel. Metode SVM memiliki nilai akurasi pelatihan 5-fold cross validation lebih tinggi dibandingkan dengan PLS-DA untuk data yang sudah direduksi maupun untuk pelatihan menggunakan balanced dataset.
Kata kunci: jamu, klasifikasi, machine learning, support vector machine.
ABSTRACT
ARIES FITRIAWAN. A Classification System for Jamu Efficacy Using Support Vector Machine. Supervised by WISNU ANANTA KUSUMA and RUDI HERYANTO.
Jamu is made from natural materials such as roots, leaves, wood and fruits. The composition of jamu formula is usually constructed based on empirical data or personal experiences. Jamu has many variations of formula. Thus, the classification of jamu efficacy based on its composition of plants remains an interesting task. The purpose of this research is to develop a classification system for jamu efficacy based on the composition of plants using Support Vector Machine (SVM). This method were compared to those of previous research using Partial Least Squares Discriminant Analysis (PLS-DA). The results show that the SVM method with Radial Basis Function (RBF) kernel using data reduction and balanced dataset obtains higher accuracy than those of PLS-DA.
Skripsi
sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer
pada
Departemen Ilmu Komputer
SISTEM KLASIFIKASI KHASIAT FORMULA JAMU
DENGAN METODE
SUPPORT VECTOR MACHINE
ARIES FITRIAWAN
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR
Judul Skripsi : Sistem Klasifikasi Khasiat Formula Jamu dengan Metode Support Vector Machine
Nama : Aries Fitriawan NIM : G64090063
Disetujui oleh
Dr Wisnu Ananta Kusuma, ST MT Pembimbing I
Rudi Heryanto, SSi MSi Pembimbing II
Diketahui oleh
Dr Ir Agus Buono, MSi MKom Ketua Departemen
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas rahmat dan karunia-Nya sehingga skripsi ini berhasil diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak bulan November 2012 sampai Mei 2013 ini adalah pendekatan machine learning pada klasifikasi khasiat formula jamu, dengan judul Sistem Klasifikasi Khasiat Formula Jamu dengan Metode Support Vector Machine.
Terima kasih penulis ucapkan kepada Bapak Dr Wisnu Ananta Kusuma, ST MT dan Bapak Rudi Heryanto, SSi MSi atas bimbingannya, Bapak Dr Farit Mochamad Afendi, SSi MSi dan Bapak Sony Hartono Wijaya, SKom MKom, yang telah memberikan data dan masukan ide untuk penelitian ini, serta Bapak Ahmad Ridha, SKom MSc yang telah memberi saran. Ungkapan terima kasih juga disampaikan kepada kedua orang tua penulis Yuyus Ruslan dan Tati Mulyati serta adik penulis, Adrie Maulana atas doa, dukungan dan kasih sayangnya. Tidak lupa penulis mengucapkan terima kasih kepada Aussie Komala Rani dan keluarga atas bantuan dan dukungannya. Penulis juga mengucapkan terima kasih kepada Ariny, Aditrian, Gita, Rangga, Papank, Kak Isnan, Kak Chawang serta seluruh keluarga besar Ilkomerz 46 dan kakak angkatan Ilkomerz 45 dan Ilkomerz 44 yang tidak dapat penulis tuliskan satu demi satu yang secara langsung dan tidak langsung telah membantu penulis dalam melakukan penelitian ini.
Besar harapan penulis agar laporan penelitian ini dapat dimanfaatkan dan dikembangkan dengan lebih baik lagi.
Bogor, Juni 2013
DAFTAR ISI
DAFTAR TABEL vi
DAFTAR GAMBAR vi
DAFTAR LAMPIRAN vi
PENDAHULUAN 1
Latar Belakang 1
Perumusan Masalah 2
Tujuan Penelitian 2
Manfaat Penelitian 2
Ruang Lingkup Penelitian 2
METODE 3
Data dan Penyiapan Data 3
Data Balancing 5
K-Fold Cross Validation 5
Pelatihan Support Vector Machine 6
Uji dan Klasifikasi Support Vector Machine 7
Evaluasi dan Perbandingan Hasil 7
Implementasi Sistem 7
HASIL DAN PEMBAHASAN 8
Hasil 8
Pembahasan 12
SIMPULAN DAN SARAN 15
Simpulan 15
Saran 15
DAFTAR PUSTAKA 15
LAMPIRAN 17
DAFTAR TABEL
1 Rincian Percobaan 1 dan Percobaan 2 8
2 Perbandingan hasil akurasi training dari Data I dan Data II 9 3 Perbandingan akurasi PLS-DA dengan SVM menggunakan Data I dan
Data II 10
DAFTAR GAMBAR
1 Skema metode penelitian untuk perbandingan akurasi PLS-DA dengan
SVM 3
2 Skema metode penelitian untuk mengetahui pengaruh imbalanced data 3 3 Grafik penyebaran data jamu yang digunakan dalam penelitian 4 4 Ilustrasi representasi data hubungan antara jamu, tanaman dan khasiat
jamu 4
5 Contoh ilustrasi pemodelan SVM yang bersifat linear 7 6 Hasil perbandingan akurasi pencarian nilai d Data I dengan C=1 dan
γ=2 (a), hasil perbandingan akurasi pencarian nilai d Data II dengan
C=2 dan γ=2 (b) 9
7 Hasil grid search pada model RBF Kernel menggunakan grid.py dari
Data I (a) dan Data II (b) 10
8 Hasil perbandingan akurasi pencarian nilai d Data III dengan C=0.5 dan
γ=2 11
9 Hasil grid search pada model RBF Kernel menggunakan grid.py dari
Data III 11
10 Hasil akurasi training 5-fold cross validation pada setiap jenis data 11
11 Penyebaran data jamu baru hasil prediksi 14
12 Ilustrasi pengelompokan data hasil prediksi sistem dengan diagram
irisan 14
DAFTAR LAMPIRAN
1 Daftar tanaman jamu yang paling signifikan berdasarkan kelasnya 17 2 Ilustrasi proses penambahan dan pengurangan data 19
3 Langkah dan tampilan penggunaan aplikasi 22
PENDAHULUAN
Latar Belakang
Jamu adalah obat herbal tradisional Indonesia yang terbuat dari bahan alami seperti akar, daun, kayu, dan buah-buahan. Menurut Mahady (2001), penggunaan jamu sebagai pengobatan alternatif mengalami peningkatan. Orang-orang mulai mempertimbangkan jamu sebagai obat yang aman dan manjur yang telah terbukti secara empiris selama ratusan tahun.
Adam et al. (2006) yang meneliti sel prostat menunjukkan bahwa penggunaan kombinasi dari beberapa ekstrak tanaman memiliki interaksi sinergi yang lebih baik daripada hanya menggunakan satu ekstrak tanaman saja. Oleh sebab itu, jamu memiliki banyak variasi formula. Setiap wilayah di Indonesia mengembangkan formula jamu sendiri berdasarkan bahan-bahan alami yang ada di wilayah itu (Beers 2001). Namun, meski secara empiris jamu telah terbukti dapat menyembuhkan beberapa penyakit, belum ada cukup bukti ilmiah yang dapat menjelaskan hubungan antara formula atau komposisi tanaman dengan khasiatnya.
Upaya sistematis untuk menemukan hubungan antara komposisi dan khasiat jamu telah dilakukan oleh Afendi et al. (2010) dengan menggunakan pendekatan statistik. Penelitian ini menunjukkan bahwa jamu dengan khasiatnya memiliki aktivitas farmakologi tertentu. Selanjutnya, Afendi et al. (2010) mengembangkan hipotesis bahwa formula jamu terdiri atas tanaman utama dan tanaman pendukung. Tanaman utama memiliki efek langsung pada penyakit sehingga menjadi tanaman yang langsung dihubungkan dengan khasiat tertentu (Afendi et al. 2010). Sementara itu, tanaman pendukung didefinisikan paling tidak harus memiliki tiga karakteristik, yaitu analgesik, antimikroba, dan anti-peradangan.
Afendi et al. (2012) menggunakan metode Partial Least Squares Discriminant Analysis (PLS-DA) untuk mengembangkan sebuah model klasifikasi formula jamu. Penelitian tersebut difokuskan pada pengamatan 3138 sampel jamu yang diklasifikasikan ke dalam 9 jenis khasiat. Khasiat yang dapat diprediksi oleh metode ini adalah urinary related problems (URI), disorder of apetite (DOA), disorder of mood and behavior (DMB), gastrointestinal disorders (GST), female reproductive organ problems (FML), muskuloskeletal and connective tissue disorders (MSC), pain and inflammation (PIN), respiratory disease (RSP), dan wounds and skin infections (WND). Sampel jamu yang digunakan mengandung 1 sampai 16 tanaman yang diambil dari 465 tanaman obat. Dengan demikian, variasi formula jamu yang dihasilkan sangat tinggi. Hasil klasifikasi menunjukkan bahwa akurasi dengan 5-fold cross validation adalah 71.6%. Akurasi meningkat secara signifikan setelah dilakukan data cleaning (94.21%) (Afendi et al. 2012).
2
mengklasifikasikan potongan metagenome dari komunitas kecil mikroba (Kusuma dan Akiyama 2011). Dalam penelitian ini, akan diterapkan metode SVM untuk mengklasifikasikan khasiat jamu berdasarkan komposisi tanamannya. Hasil pengklasifikasian dengan menggunakan SVM pada penelitian ini akan dibandingkan dengan hasil dari metode PLS-DA yang diperoleh Afendi et al. (2012). Oleh sebab itu, untuk melakukan perbandingan yang adil, digunakan dataset yang sama seperti yang digunakan dalam penelitian Afendi et al. (2012). Pada penelitian ini juga dilakukan teknik undersampling dan oversampling untuk mengatasi masalah imbalanced dataset pada saat proses pelatihan. Teknik ini diharapkan dapat menjadi dasar untuk mengembangkan sistem klasifikasi khasiat formula jamu baru.
Perumusan Masalah
Adapun masalah yang akan diangkat dalam penelitian ini adalah pencarian metode klasifikasi lain yang dapat digunakan dalam klasifikasi khasiat formula jamu. Dari perbandingan metode PLS-DA dengan metode SVM diharapkan dapat menghasilkan sebuah metode terbaik untuk memprediksi khasiat formula jamu baru.
Tujuan Penelitian
Tujuan dari penelitian ini ialah:
1 menganalisis dan membuat sistem klasifikasi khasiat jamu berdasarkan komposisi tanaman dengan metode Support Vector Machine (SVM)
2 membandingkan nilai akurasi antara metode SVM dan metode Partial Least Squares Discriminant Analysis (PLS-DA)
3 menerapkan teknik undersampling dan oversampling untuk mengatasi permasalahan imbalanced dataset.
Manfaat Penelitian
Hasil dari dilakukannya penelitian ini diharapkan dapat menjadi sebuah konsep dasar dalam mengembangkan sistem penentuan khasiat formula jamu baru. Pada akhirnya, hasil dari penelitian ini dapat menjadi dasar dalam menangani solusi permasalahan pencatatan data jamu beserta khasiatnya di Indonesia.
Ruang Lingkup Penelitian
Ruang lingkup dalam penelitian ini adalah:
1 tanaman yang dikenali terbatas pada 465 jenis tanaman dari 3138 jamu hasil praproses dari penelitian sebelumnya (Afendi et al. 2010)
3 3 implementasi metode klasifikasi SVM menggunakan bantuan library LibSVM
3.14 (Hsu et al. 2010).
METODE
Untuk menghasilkan penelitian yang baik, diperlukan sebuah metode dan rencana penelitian. Skema metode penelitian ini dapat dilihat pada Gambar 1 dan Gambar 2.
Data dan Penyiapan Data
Data yang digunakan pada penelitian ini menggunakan data yang sama dengan penelitian yang dilakukan oleh Afendi et al. (2010). Data yang digunakan terdiri atas data jamu berjumlah 3138 buah jamu yang terdaftar di Badan Pengawasan Obat dan Makanan (Badan-POM) yang disertai komposisi masing-masing jamu dari 465 jenis tanaman. Data ini telah melalui praproses data dari jumlah awal 6533 buah jamu. Praproses data yang dikerjakan terdiri atas penghapusan redudansi data jamu sebanyak 1223 buah jamu. Dari sisa 5310 buah jamu hanya diambil sebanyak 3138 buah jamu yang dianggap dapat mewakili data yang dibutuhkan untuk analisis (Afendi et al. 2010) (Data I). Penelitian ini juga menggunakan data yang telah direduksi melalui proses data cleaning yang didapatkan dari hasil penelitian sebelumnya. Data ini terdiri atas 231 jenis tanaman dari 2748 jamu (Data II). Selanjutnya, untuk melihat pengaruh dari imbalanced data, penelitian ini menggunakan data yang telah melalui proses pemerataan data yang akan dijelaskan pada bagian Data Balancing. Data ini terdiri atas 231 jenis tanaman dari 2745 jamu (Data III). Data tersebut tersebar ke dalam 9 jenis khasiat (lihat Gambar 3).
Data yang digunakan pada penelitian ini merupakan hasil representasi data dari jamu yang beredar di Indonesia. Data yang digunakan berupa hubungan antara jamu, tanaman yang digunakan dalam komposisi jamu, dan khasiat dari jamu tersebut. Komposisi tanaman didefinisikan dengan menetapkan nilai biner untuk masing-masing tanaman. Jika tanaman tertentu dimasukkan ke dalam
Gambar 1 Skema metode penelitian untuk perbandingan akurasi PLS-DA dengan SVM
4
sampel jamu, nilai pada tanaman ini ditetapkan sebagai 1, sebaliknya penetapan nilainya adalah 0. Penelitian ini hanya dapat menetapkan nilai fitur dengan nilai biner karena belum mendapatkan informasi yang lebih akurat dari formulasi bahan-bahan jamu. Gambar 4 menunjukkan contoh fitur data jamu, J1 sampai JN
mewakili sampel jamu dan P1 sampai Pk mewakili komposisi tanaman yang
digunakan. Sebagai contoh, jamu J2 disusun oleh P2 dan P3 memiliki khasiat yang
diwakili dengan urutan khasiat ke-5 (FML).
Ekstraksi data yang dilakukan pada Data I menghasilkan matriks berukuran 465 x 3138, Data II menghasilkan matriks berukuran 231 x 2748, dan Data III menghasilkan matriks berukuran 231 x 2745. Data ini kemudian diproses agar bisa diolah menggunakan LibSVM 3.14 (Hsu et al. 2010).
72
URI DOA DMB GST FML MSC PIN RSP WND
B
Gambar 3 Grafik penyebaran data jamu yang digunakan dalam penelitian
5 Data Balancing
Dari penelitian ini ditemukan masalah imbalanced data pada setiap jenis data. Imbalanced data terjadi karena penyebaran data setiap kelas yang tidak sama. Imbalanced data akan mengakibatkan pendekatan pada data set yang tidak seimbang sehingga membuat hyperplane yang dibentuk berada lebih jauh dari kelas positifnya (Akbani et al. 2004).
Pada penelitian ini dilakukan oversampling dan undersampling untuk menangani imbalanced data. Teknik ini dilakukan untuk mengatur ulang jumlah distribusi dataset sehingga memungkinkan jumlah data yang merata pada setiap kelas.
Pemerataan jumlah data ini dilakukan pada Data II. Penentuan jumlah data per kelas diambil dari rata-rata data per kelas pada Data II. Pemerataan jumlah data per kelas pada Data II yang memiliki jumlah awal 2748 data jamu menghasilkan jumlah data yang baru sebanyak 2745 data jamu, dengan jumlah data rata-rata per kelas sebanyak 305 data jamu (Data III).
Dari perbandingan jumlah data dapat dilihat ada kelas yang mendapatkan penambahan jumlah data dan yang mengalami pengurangan data. Pada penelitian ini, penambahan data dilakukan dengan pertimbangan sebagai berikut:
1 tidak menggunakan data yang berulang
2 data yang ditambahkan dipilih dari kombinasi komposisi tanaman yang berjumlah 1 sampai dengan 10 tanaman
3 komposisi tanaman yang dipilih pada setiap kelasnya menyesuaikan dengan kecenderungan tanaman yang lebih signifikan terhadap khasiatnya, daftar tanaman ini merupakan hasil dari penelitian yang dilakukan oleh Afendi et al. (2012) dan dapat dilihat pada Lampiran 1
4 jumlah data dan jumlah tanaman dalam setiap komposisi beragam dan merata pada setiap kelasnya bergantung pada kekurangan data pada kelas tersebut.
Pengurangan data dilakukan dengan pertimbangan sebagai berikut: 1 penghapusan data yang masih berulang
2 pengurangan data dilakukan merata di setiap kelompok data dengan jumlah komposisi tanaman tertentu.
Ilustrasi dari proses penambahan dan pengurangan data dapat dilihat pada Lampiran 2.
K-Fold Cross Validation
6
terbaik. Data latih yang digunakan dalam penelitian ini terbagi menjadi tiga, yaitu Data I, Data II, dan Data III.
Pelatihan Support Vector Machine
Support Vector Machine (SVM) adalah suatu sistem pembelajaran menggunakan ruang hipotesis dari suatu fungsi linear dalam suatu ruang dimensi berfitur tinggi. Tujuan utama SVM ialah menemukan fungsi pemisah (hyperplane) yang terbaik untuk memisahkan dua buah kelas pada input space.
Hyperplane terbaik antara dua kelas dapat ditemukan dengan pengukuran margin hyperplane yang maksimal antara ruang input non-linear dengan ruang ciri menggunakan fungsi kernel (Cortes dan Vapnik 1995).
Menurut Byun dan Lee (2003), fungsi kernel yang umum digunakan adalah: 1 linear kernel
2 polynomial kernel
d
3 Radial Basis Function (RBF) kernel
- ‖ - ‖ , dengan
Dari ketiga fungsi kernel tersebut xi merepresentasikan vektor dari setiap
data, d merepresentasikan jumlah derajat dari fungsi polinomial, dan γ merepresentasikan ukuran rentangan pada kurva gaussian. SVM menerapkan kernel yang digunakan untuk merepresentasikan data ke dimensi yang lebih tinggi. Data yang sudah berada di dimensi lebih tinggi tersebut dapat dengan mudah dipisahkan dengan hyperplane yang linear (Boswell 2002). Hyperplane yang baik adalah hyperplane yang dapat memaksimumkan jarak antara geometri hyperplane dengan support vector. Jarak tersebut diistilahkan dengan margin seperti diilustrasikan pada contoh ilustrasi pemodelan SVM yang bersifat linear (lihat Gambar 5).
Pelatihan data dilakukan dengan LibSVM 3.14 menggunakan 3 kernel, yaitu:
1 linear kernel, hanya membutuhkan peubah C
2 polynomial kernel yang membutuhkan peubah C dan d 3 RBF kernel yang membutuhkan peubah C dan γ.
Beberapa peubah yang digunakan merupakan peubah yang hanya digunakan di LibSVM 3.14. Peubah C dalam LibSVM 3.14 merepresentasikan error penalty dalam komputasi pembentukan model.
7
Uji dan Klasifikasi Support Vector Machine
Pengujian akan dilakukan dengan menerapkan metode multiclass SVM. Multiclass SVM merupakan pendekatan metode SVM pada kasus yang memiliki kelas lebih besar dari 2 kelas. Model yang dihasilkan dari pelatihan SVM akan digunakan dalam penentuan kelas dengan teknik one-against-one.
Untuk mengklasifikasikan khasiat dari komposisi tanaman jamu diperlukan suatu model SVM dengan output berupa angka antara 1 sampai 9 sesuai dengan banyaknya klasifikasi khasiat jamu. Input yang diperlukan bergantung pada komposisi jamu yang ingin diidentifikasi khasiatnya.
Evaluasi dan Perbandingan Hasil
Evaluasi dan perbandingan hasil dilakukan untuk mengevaluasi kekurangan dan kelebihan dari metode yang digunakan serta membandingkannya dengan metode sebelumnya. Perbandingan hasil dapat dilihat dari perbandingan akurasi metode PLS-DA dengan metode SVM.
Penelitian ini dilakukan dalam 2 tahap. Percobaan 1 dilakukan untuk mencari model SVM terbaik dan membandingkannya dengan hasil dari PLS-DA. Percobaan 2 dilakukan untuk menganalisa dan membandingkan pengaruh balanced dataset terhadap akurasi. Rincian percobaan dapat dilihat pada Tabel 1.
Implementasi Sistem
Implementasi sistem dilakukan dalam lingkungan pengembangan aplikasi menggunakan bahasa pemrograman PHP, library komputasi LibSVM 3.14, dan MySQL sebagai database management system.
Gambar 5 Contoh ilustrasi pemodelan SVM yang bersifat linear
Vektor kelas +1 Vektor kelas -1
xTxi + b = -1
xTxi + b = 1
8
Sistem yang dikembangkan memiliki fungsi melakukan prediksi khasiat jamu dari formula jamu baru yang dimasukkan oleh pengguna menggunakan bantuan model hasil training SVM yang tersedia.
Tabel 1 Rincian Percobaan 1 dan Percobaan 2 Jenis
Percobaan
Data yang Digunakan
Metode yang
Digunakan Tujuan Percobaan
Percobaan 1 Data I
Mencari nilai optimal C (linear kernel) Mencari nilai optimal
d (polynomial kernel) Mencari nilai optimal C dan γ (RBF kernel) yang terbaik untuk data yang sudah merata Mencari nilai optimal
C (linear kernel) Mencari nilai optimal
d (polynomial kernel) Mencari nilai optimal C dan γ (RBF kernel) akurasi SVM setiap jenis data II) dengan hasil akurasi SVM (Data III)
HASIL DAN PEMBAHASAN
Hasil Percobaan 1
9 yang digunakan untuk perbandingan perhitungan akurasi ialah Data I dan Data II. Akurasi yang dicari adalah akurasi hasil 5-fold cross validation.
Setelah data siap untuk diuji menggunakan LibSVM 3.14, dilakukanlah proses grid search untuk mendapatkan nilai C dan γ yang optimal. Teknik grid search adalah teknik yang diterapkan oleh LibSVM 3.14 untuk mencari nilai peubah yang optimal dilihat dari hasil akurasi yang didapatkan menggunakan perangkat grid.py dari LibSVM 3.14. Untuk linear kernel dicari nilai peubah C yang optimal, dari hasil pencarian didapatkan nilai C sebesar 1 untuk Data I dan 2 untuk Data II. Untuk polynomial kernel perlu dicari juga nilai d yang optimal. Pencarian nilai d yang optimal dilakukan dengan percobaan menggunakan 5-fold cross validation terhadap data dengan rentang nilai d dari 2 sampai 4. Nilai d yang dipilih adalah nilai d dengan akurasi training tertinggi. Dari perbandingan hasil percobaan Data I menggunakan nilai C sebesar 1 dan γ sebesar 2 dan Data II menggunakan nilai C sebesar 2 dan γ sebesar 2, didapatkan nilai d yang sama, yaitu 2 (lihat Gambar 6). Untuk RBF kernel perlu dicari nilai C dan γ yang optimal. Dari hasil pencarian menggunakan Data I didapatkan nilai C sebesar 2 dan nilai γ sebesar 0.125, sedangkan Data II didapatkan nilai C sebesar 2 dan nilai
γ sebesar 0.5. Perbandingan hasil grid search pada model RBF kernel menggunakan grid.py dapat dilihat pada Gambar 7.
Dengan menggunakan nilai dari setiap peubah yang telah didapatkan, dilakukanlah proses training menggunakan LibSVM 3.14 dengan percobaan pada 3 jenis kernel. Hasil akurasi dari training Data I dan Data II menggunakan metode 5-fold cross validation dapat dilihat pada Tabel 2.
Tabel 2 Perbandingan hasil akurasi training dari Data I dan Data II
Data
10
Pada percobaan ini dipilih model terbaik yang dihasilkan oleh RBF kernel, karena di setiap jenis data RBF kernel selalu menghasilkan akurasi pelatihan yang tertinggi. Hasil dari setiap akurasi yang dihasilkan oleh model SVM menggunakan RBF kernel akan digunakan sebagai pembanding dengan metode PLS-DA. Hasil perbandingan antara metode SVM dengan metode PLS-DA dapat dilihat pada Tabel 3.
Dataset PLS-DA (%)
SVM RBF Kernel
(%)
Data I 71.60 71.00
Data II 94.21 95.34
Percobaan 2
Langkah awal yang dilakukan dalam percobaan ini ialah mencari model terbaik untuk Data III. Pencarian dilakukan dengan teknik grid search menggunakan LibSVM 3.14. Untuk linear kernel didapatkan nilai C yang optimal sebesar 0.5. Pada percobaan menggunakan polynomial kernel menggunakan nilai C sebesar 0.5 dan γ sebesar 2, Data III mendapatkan nilai d yang optimal sebesar 2. Pada percobaan menggunakan RBF kernel, didapatkan nilai C sebesar 2 dan nilai γ sebesar 0.5. Hasil perbandingan pencarian nilai d dapat dilihat pada Gambar 8. Hasil grid search pada model RBF kernel menggunakan grid.py untuk Data III dapat dilihat pada Gambar 9.
Pada percobaan ini dilakukan proses training menggunakan LibSVM 3.14 dengan percobaan pada 3 jenis kernel menggunakan Data III. Hasil yang
(a) (b)
Gambar 7 Hasil grid search pada model RBF Kernel menggunakan grid.py dari Data I (a) dan Data II (b)
11 didapatkan akan dibandingkan dengan hasil akurasi dari Data I dan Data II. Hasil perbandingan dari akurasi dapat dilihat pada Gambar 10.
Gambar 10 Hasil akurasi training 5-fold cross validation pada setiap jenis data 92.53 89.39 88.92
0 20 40 60 80 100
d = 2 d = 3 d = 4
Ak
u
rasi
(%)
68.19 66.63 71.00
94.32 94.21 93.85 92.53 95.34 95.70
0 20 40 60 80 100
Linear Kernel Polynomial Kernel RBF Kernel
Ak
u
rasi
(%)
Jenis Model
Data I
Data II
Data III Gambar 8 Hasil perbandingan akurasi
pencarian nilai d Data III dengan C=0.5 dan γ=2
12
Dari hasil yang diperoleh, dapat dilihat bahwa model SVM telah memberikan hasil yang baik. Jika dirata-ratakan dari ketiga model kernel, akurasi yang diperoleh dari penggunaan Data I sebesar 68.61%, Data II sebesar 94.5%, dan Data III sebesar 94.15%. Pada penelitian ini dipilih model terbaik yang dihasilkan oleh RBF kernel, karena di setiap jenis data RBF kernel selalu menghasilkan akurasi pelatihan yang tertinggi. Hasil dari akurasi Data III menggunakan RBF kernel akan digunakan sebagai pembanding dengan metode PLS-DA untuk mengetahui pengaruh dari imbalanced data. Dari hasil penelitian sebelumnya, PLS-DA memiliki akurasi tertinggi menggunakan Data II sebesar 94.21%. Hasil yang diperoleh dari metode SVM menggunakan Data II memiliki akurasi sebesar 95.34%, dan hasil terbaik dimiliki oleh metode SVM menggunakan Data III yang menghasilkan akurasi sebesar 95.70%. Dari hasil yang didapatkan dapat dilihat penggunaan Data III hasil data balancing memiliki akurasi yang tertinggi dengan model SVM menggunakan RBF kernel.
Implementasi Sistem
Tahap implementasi sistem menghasilkan program yang dapat memprediksi komposisi jamu yang baru.Tampilan dan tahapan dalam penggunaan sistem ini dapat dilihat pada Lampiran 3.
Pembahasan Percobaan 1
Dilihat dari hasil training 5-fold cross validation, akurasi terbaik didapat dari model SVM dengan menggunakan RBF kernel. RBF kernel selalu menghasilkan akurasi tertinggi pada setiap jenis data. Hal ini menunjukkan bahwa daerah setiap kelas dari data yang digunakan membentuk wilayah yang lebih cocok dipisahkan dan dipetakan dengan Radial Basis Function (RBF). Dilihat dari bentuk fungsinya RBF cocok digunakan dalam masalah estimasi fungsi non-linear. Salah satu keuntungan dari RBF terletak pada penerapannya di hampir semua dimensi (fleksibilitas). Keuntungan lainnya adalah akurasi yang tinggi dan konvergensi cepat untuk mendapatkan fungsi sasaran dalam banyak kasus ketika penyelesaiannya dalam bentuk dimensi data yang sangat padat (Buhmann 2010).
Dilihat dari perbandingan hasil akurasi metode yang dilakukan oleh Afendi et al. (2012) menggunakan PLS-DA tanpa melakukan data cleaning, metode SVM memiliki nilai akurasi sedikit lebih rendah. Tingkat akurasi PLS-DA untuk data ini sebesar 71.6% sedangkan SVM sebesar 71%. Sedangkan untuk data yang telah direduksi, metode SVM memiliki tingkat akurasi yang lebih tinggi. Tingkat akurasi PLS-DA sebesar 94.21%, sedangkan metode SVM memiliki nilai akurasi sebesar 95.34%.
13 cleaning ini telah dilakukan pada penelitian oleh Afendi et al. (2012) dan tidak diulangi pada penelitian ini sehingga data yang digunakan sama. Dari hasil penggunaan data tersebut, dapat dikatakan bahwa SVM memiliki akurasi yang lebih baik pada penerapan data cleaning terhadap data yang tidak signifikan.
Percobaan 2
Pada penelitian ini masalah imbalanced data yang menyebabkan proses pelatihan data dengan SVM kurang optimal diatasi dengan melakukan teknik undersampling dan oversampling. Hasil yang diperoleh dari pelatihan data menunjukkan bahwa Data III memiliki nilai akurasi yang lebih tinggi dari data lainnya. Hal ini menggambarkan pengaruh imbalanced data yang dapat mengurangi hasil dari akurasi data.
Dilihat dari perbandingan hasil akurasi metode penelitian yang dilakukan oleh Afendi et al. (2012) menggunakan PLS-DA dan metode SVM dengan imbalanced data, metode SVM dengan jumlah data yang sudah seimbang memiliki nilai akurasi yang lebih tinggi. Jadi, dari percobaan ini telah dihasilkan model terbaik yang dicapai dengan melakukan undersampling dan oversampling dari data yang sudah melalui data cleaning. Tujuan dari prosedur ini ialah untuk mengatasi efek dari imbalanced data dari data sebelumnya.
Pengujian Prediksi Sistem
Untuk mengetahui hasil prediksi, sistem yang dibuat telah dicoba untuk memprediksi 50 jenis formula jamu baru yang dapat dilihat pada Lampiran 4. Model yang digunakan dalam memprediksi formula jamu adalah model yang dihasilkan dengan RBF kernel. Hasil dari prediksi ini dapat dilihat pada Lampiran 4. Setiap formula jamu yang digunakan memiliki komposisi yang terdiri atas 4 jenis tanaman. Prediksi dilakukan terhadap 3 jenis model, yaitu model yang dihasilkan dengan menggunakan data latih Data I, Data II, dan Data III. Hasil prediksi ini diharapkan dapat menjadi pembanding antar model klasifikasi SVM yang telah dibentuk oleh masing-masing data. Penyebaran kelas hasil prediksi dapat dilihat pada Gambar 11. Hasil prediksi masih menampilkan hasil yang beragam untuk setiap model. Model yang dihasilkan dari data latih Data I menghasilkan hasil prediksi yang dominan pada khasiat GST, Data II dominan pada khasiat MSC, sedangkan Data III dominan pada khasiat RSP. Penyebaran dan gambaran irisan hasil prediksi setiap data dapat dilihat pada Gambar 12. Dari hasil yang ditunjukkan oleh Gambar 10 belum terlihat adanya irisan yang menghasilkan nilai prediksi yang sama dari semua jenis data. Hasil prediksi yang diperoleh menghasilkan jumlah data sebesar 30% dari jumlah data yang memiliki hasil prediksi yang sama antara Data I dengan Data II dan 14% antara Data II dengan Data III. Hal ini menggambarkan kedekatan bentuk model antara Data I dengan Data II dan Data II dengan Data III.
14
dengan pengujian tersebut, model yang terbaik untuk memprediksi formula jamu yang baru diharapkan dapat diketahui.
URI DOA DMB GST FML MSC PIN RSP WND
B
Gambar 12 Ilustrasi pengelompokan data hasil prediksi sistem dengan diagram irisan
15
SIMPULAN DAN SARAN
Simpulan
Penelitian ini berhasil membandingkan akurasi sistem klasifikasi khasiat jamu antara metode SVM dengan PLS-DA. Akurasi metode SVM lebih rendah dibandingkan dengan metode PLS-DA pada data yang belum direduksi, yaitu sebesar 71%, tetapi memiliki akurasi yang lebih tinggi pada data yang telah direduksi, yaitu sebesar 95.34%. Dari hasil tersebut dapat disimpulkan bahwa metode SVM memberikan kinerja yang lebih baik dari metode PLS-DA pada data yang telah melalui data cleaning. Terkait dengan masalah imbalanced data, proses undersampling dan oversampling yang dilakukan mampu meningkatkan akurasi. Dari hasil tersebut, model SVM yang terbaik dapat diperoleh dari penerapan data cleaning dan penggunaan data pelatihan yang seimbang.
Penelitian ini juga telah berhasil mengimplementasikan sistem klasifikasi jamu sederhana dengan metode SVM yang dapat digunakan untuk memprediksi kandidat-kandidat formula jamu baru. Kandidat yang dihasilkan dari sistem klasifikasi ini dapat membantu peneliti untuk memilih kandidat formula jamu yang akan diuji dalam tahap selanjutnya, yaitu uji in vivo dan in vitro.
Saran
Saran untuk penelitian selanjutnya adalah:
1 mencoba penelitian dengan data jamu yang lebih representatif dengan komposisi berupa persentase formula setiap tanaman
2 menerapkan metode lain untuk menangani masalah imbalanced data pada metode SVM terhadap data jamu yang digunakan seperti metode SMOTE atau menerapkan teknik Weighted-SVM agar menghasilkan hasil yang lebih baik 3 menggunakan metode lain untuk mencari nilai akurasi klasifikasi dan prediksi
yang lebih akurat
4 melakukan pengujian in vivo dan in vitro untuk data komposisi jamu baru untuk mengetahui akurasi prediksi dari setiap model.
DAFTAR PUSTAKA
Adam LS, Navindra PS, Mary LH, Catherine C, David H. 2006. Analysis of the interactions of botanical extract combinations againts the viability of prostate cancer cell lines. Evid Based Complement Alternat Med. 3(1): 117-124.
16
Afendi FM, Darusman LK, Morita AH, Altaf-Ul-Amin M, Takahashi H, Nakamura K, Tanaka K, Kanaya S. 2012. Efficacy prediction of jamu formulations by PLS modeling. Curr Comput Aided Drug Des. 9(1):46-59. PubMed PMID: 23106776.
Akbani R, Kwek S, Japkowicz N. 2004. Applying support vector machines to imbalanced datasets. Di dalam: Jaime G, Siekmann J, editor. Machine Learning: ECML; 2004 Sept 20-24; Pisa, Italia. Berlin (DL): Springer-Verlag Berlin Heidelberg.
Beers SJ. c2001. Jamu the Ancient Indonesian Art of Herbal Healing. Singapore (SG): Periplus Editions (HK) Ltd.
Boswell D. 2002. Introduction to Support Vector Machine [Internet]. [diacu 2013 Mar 19]. Tersedia dari: http://www.work.caltech.edu/~boswell/IntroTo SVM.pdf
Buhmann M. 2010. Radial basis function. Scholarpedia, 5(5):9837. doi:10.4249/scholarpedia.9837.
Byun H, Lee SW. 2003. A survey on pattern recognition application of support vector machines. Int J Patt Recogn Artif Intell. 17(3):459-486.
Cortes C, Vapnik V. 1995. Support-vector networks. Machine Learning. 20(3):273-297.
Hsu CW, Chang CC, Lin CJ. 2010. A Practical Guide to Support Vector Machine [Internet]. [diacu 2012 Des 1]. Tersedia dari : http://www.cs.sfu.ca/people/Faculty/teaching/726/spring11/svmguide.pdf Kusuma WA, Akiyama Y. 2011. Metagenome fragment binning based on
characterization vectors. Di dalam: Proceedings of 2011 International Conference on Bioinformatics and Biomedical Technology; 2011 Mar 25-27; Sanya, China. hlm 50-54.
18
Lampiran 1 lanjutan
19 Lampiran 2 Ilustrasi proses penambahan dan pengurangan data
1 proses penambahan data
Ilustrasi data awal yang masih memiliki jumlah data kurang dari jumlah rata-rata (contoh: 10 data)
Kode Jamu
Jumlah
Tanaman P001 P002 P003 P004 P005 P006 ... P231
J001 1 1 0 0 0 0 0 ... 0
J002 1 0 0 0 1 0 0 ... 0
J003 1 0 0 0 0 0 0 ... 1
J004 2 1 0 0 1 0 0 ... 0
J005 2 0 0 0 1 0 0 ... 1
J006 3 1 0 0 0 0 1 ... 1
J007 3 1 0 0 1 0 0 ... 1
J008 4 1 0 0 1 0 1 ... 1
*keterangan = tanaman yang signifikan di kelasnya
Penambahan data dilakukan dengan pertimbangan jumlah tanaman yang digunakan dalam formula dan tanaman yang digunakan merupakan tanaman yang diambil dari kelompok tanaman yang signifikan di kelasnya serta tidak menggunakan data yang berulang
Kode Jamu
Jumlah
Tanaman P001 P002 P003 P004 P005 P006 ... P231
J001 1 1 0 0 0 0 0 ... 0
J002 1 0 0 0 1 0 0 ... 0
J003 1 0 0 0 0 0 0 ... 1
xxxx 1 0 0 0 0 0 1 0
J004 2 1 0 0 1 0 0 ... 0
J005 2 0 0 0 1 0 0 ... 1
xxxx 2 1 0 0 0 0 0 1
J006 3 1 0 0 0 0 1 ... 1
J007 3 1 0 0 1 0 0 ... 1
J008 4 1 0 0 1 0 1 ... 1
*keterangan = tanaman yang signifikan di kelasnya
20
Lampiran 2 lanjutan
2 proses pengurangan data
Ilustrasi data awal yang masih memiliki jumlah data lebih dari jumlah rata-rata yang diinginkan (contoh: 10 data).
Kode
*keterangan = data yang berulang
21 Lampiran 2 lanjutan
J017 3 1 0 1 1 0 0 ... 0
J018 4 1 0 0 1 0 1 ... 1
Setelah penghapusan data yang masih berulang, penghapusan dilakukan pada data dengan pertimbangan pemerataan jumlah tanaman yang dipakai jika data masih melebihi nilai rata-rata.
Kode Jamu
Jumlah
Tanaman P001 P002 P003 P004 P005 P006 ... P231
J001 1 1 0 0 0 0 0 ... 0
J004 1 0 0 0 0 0 0 ... 1
J005 1 0 0 0 0 0 1 ... 0
J007 2 1 0 0 1 0 0 ... 0
J008 2 0 0 0 1 0 0 ... 1
J010 2 0 1 0 0 1 0 ... 0
J012 3 1 0 0 0 0 1 ... 1
J015 3 0 1 0 0 0 1 ... 1
J017 3 1 0 1 1 0 0 ... 0
J018 4 1 0 0 1 0 1 ... 1
22
Lampiran 3 Langkah dan tampilan penggunaan aplikasi 1 pemilihan model SVM yang diinginkan.
2 pemilihan dari tanaman untuk formula jamu baru
23 Lampiran 3 lanjutan
24
Lampiran 4 Hasil prediksi komposisi jamu baru
No. Jamu
indica Curcuma longa
Languas
3 Jb0003 Mentha piperita Melaleuca alternifolia
punctata Panax ginseng
Eclipta prostrata
Commiphora
myrrha 6 6 8
5 Jb0005 Zanthoxylum
acanthopodium
6 Jb0006 Borreria hispida Terminalia bellirica
Cinchona succirubra
Solanum
verbacifolium 5 5 8
7 Jb0007 Hydrocotyle
asiatica Syzygium cumini
Quercus
lusitanica Messua ferrea 5 5 8
8 Jb0008 Illicium verum Helicteres isora Notopterygium incisum
Echinacea
purpurea 4 8 8
9 Jb0009 Eriobotrya japonica lentiscus Pistacia arvensis Mentha Wolfiporia extensa 4 8 8
10 Jb0010 Sida rhombifolia Spatholobus suberectus
Canangium
odoratum Ocimum sanctum 6 6 8
11 Jb0011 Schisandra
chinensis
12 Jb0012 Curcuma longa Piper nigrum Aloe vera Tamarindus
indica 5 5 8
13 Jb0013 Apium graveolens Santalum album Zingiber officinale
Canangium
odoratum 9 9 8
14 Jb0014 Aloe vera Oryza sativa Trifolium pratense
Theobroma
cacao 9 9 8
15 Jb0015 Nigella sativa Lavandula angustifolia
Foeniculum vulgare
Glycyrrhiza
uralensis 4 8 8
16 Jb0016 Thymus vulgaris Punica
granatum Panax ginseng
Coriandrum
sativum 5 5 9
17 Jb0017 flagelliforme Typhonium Piper nigrum Foeniculum
vulgare Plantago major 6 6 8
18 Jb0018 Psidium guajava Curcuma longa Alpinia
galanga Languas galanga 4 5 5
20 Jb0020 Kaempferia
pandurata
21 Jb0021 Theae sinensis Curcuma xanthorrhiza
Melaleuca
leucadendra Curcuma longa 4 6 8
22 Jb0022 Mentha piperita Garcinia atroviridis
Psidium guajava
Anacardium
occidentale 4 6 9
23 Jb0023 officinale Zingiber Coriandrum sativum Phaleria papuana atroviridis Garcinia 4 6 8
24 Jb0024 Dioscorea
25 Jb0025 Curcuma longa Piper nigrum Tamarindus indica
Melaleuca
leucadendra 5 6 8
26 Jb0026 Psidium guajava Curcuma longa Carica papaya atroviridis Garcinia 4 5 8
27 Jb0027 Tamarindus
indica Cassia alata
Phaleria papuana
Cymbopogon
nardus 4 9 9
28 Jb0028 Psidium guajava Caesalpinia sappan
Orthosiphon
stamineus Languas galanga 1 6 8
29 Jb0029 Coriandrum
25 Lampiran 4 lanjutan
30 Jb0030 Guazuma
35 Jb0035 Orthosiphon
stamineus Curcuma longa
Morinda
succirubra Aloe vera
Phaleria
papuana 2 6 8
37 Jb0037 Canangium
odoratum Piper betle
Curcuma xanthorrhiza
Melaleuca
leucadendra 5 6 8
38 Jb0038 Mentha piperita Theae sinensis Daucus carota Psidium guajava 4 6 8 39 Jb0039 Orthosiphon
stamineus
Hydrocotyle asiatica
Melaleuca
leucadendra Cassia alata 4 6 9
40 Jb0040 xanthorrhiza Curcuma aromaticum Syzygium officinale Zingiber Psidium guajava 4 6 8
41 Jb0041 Aloe vera Phaleria
42 Jb0042 Psidium guajava Canangium odoratum
Mentha piperita
Hibiscus
sabdariffa 4 6 9
43 Jb0043 Kaempferia
pandurata
Curcuma xanthorrhiza
Melaleuca
leucadendra Curcuma longa 4 5 5
44 Jb0044 Phaleria papuana Piper betle Curcuma xanthorrhiza
Zanthoxylum
acanthopodium 5 6 8
45 Jb0045 Tamarindus
indica
49 Jb0049 Aloe vera Mentha piperita Merremia
mammosa Psidium guajava 9 6 8
50 Jb0050 Psidium guajava Mentha piperita Theae sinensis Tamarindus
indica 4 6 8
keterangan indeks prediksi
1 = urinary related problems (URI) 2 = disorder of apetite (DOA)
3 = disorder of mood and behavior (DMB) 4 = gastrointestinal disorders (GST)
5 = female reproductive organ problems (FML)
6 = muskuloskeletal and connective tissue disorders (MSC) 7 = pain and inflammation (PIN)
8 = respiratory disease (RSP)
26
RIWAYAT HIDUP
Penulis dilahirkan di Lampung Selatan pada tanggal 15 April 1991 dari pasangan Yuyus Ruslan dan Tati Mulyati. Penulis adalah putra pertama dari dua bersaudara. Tahun 2009 penulis lulus dari SMA Negeri 5 Bogor dan pada tahun yang sama penulis lulus seleksi masuk Institut Pertanian Bogor (IPB) melalui Undangan Seleksi Masuk IPB dan diterima di Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam.