DAFTAR LAMPIRAN
HASIL DAN PEMBAHASAN Dokumen tumbuhan obat
Penelitian ini menggunakan 132
dokumen tumbuhan obat yang dibagi menjadi dua bagian, yaitu dokumen latih sebanyak 93 dokumen dan dokumen uji sebanyak 39
dokumen. Setiap dokumen uji akan
diklasifikasikan ke dalam dua kelas target yaitu kelas famili dan kelas penyakit.
Hasil praproses data
Praproses data hanya dilakukan pada
bagian deskripsi dari dokumen tumbuhan
obat. Hasil dari praproses data adalah daftar yang sudah melewati tahap tokenisasi
dan pembuangan & . Adapun jumlah
& yang digunakan adalah 666 kata.
' akhir yang dihasilkan dari tahap
praproses berjumlah 3.933. Hasil pemilihan fitur
Pemilihan fitur dengan metode pengujian W dilakukan pada dua taraf nyata , yaitu 0.01 dan 0.001. Fitur yang dihasilkan pada taraf nyata 0.01 adalah 2.942 fitur. Fitur yang dihasilkan pada taraf nyata 0.001 adalah 1.578 fitur.
Hasil evaluasi klasifikasi KNN Fuzzy 1. Pengaruh taraf nyata ( ) pada
pemilihan fitur terhadap tingkat akurasi
Pemilihan fitur dilakukan pada dua taraf nyata ( ) yang berbeda, yaitu 0.01 dan 0.001. Pengaruh kedua taraf nyata ( ) dengan derajat bebas satu terhadap tingkat akurasi dari pengklasifikasi KNN Fuzzy dapat dilihat pada Tabel 7. Tingkat akurasi yang dihasilkan untuk kelas famili memiliki nilai yang sama, baik untuk fitur pada taraf nyata
0.01 maupun fitur pada taraf nyata 0.001. Tingkat akurasi yang dihasilkan adalah 97.43%. Tidak adanya perbedaan dari tingkat akurasi yang dihasilkan menunjukkan bahwa peningkatan taraf nyata pada saat pemilihan fitur tidak berpengaruh terhadap tingkat akurasi dari pengklasifikasi untuk kelas target famili.
Tabel 7 Pengaruh taraf nyata ( pada
pemilihan fitur terhadap tingkat akurasi pengklasifikasi KNN Fuzzy
Kelas =0.01 =0.001
Famili 97.43% 97.43%
Penyakit 100% 94.87%
Kesalahan pelabelan kelas famili untuk kedua taraf nyata hanya terjadi pada dokumen uji yang berisi informasi tentang tumbuhan obat ‘remek daging’. Hal ini disebabkan kurangnya data latih mengenai
tumbuhan obat ‘remek daging’ dan
kurangnya fitur yang merepresentasikan kelas target ‘achantaceae’. Kesalahan pelabelan kelas dokumen ‘remek daging’ untuk kedua taraf nyata dapat dilihat pada Lampiran 2 dan 3.
Tingkat akurasi untuk kelas penyakit yang dihasilkan oleh fitur pada taraf nyata 0.01 adalah 100%, namun saat fitur yang digunakan adalah fitur pada taraf nyata 0.001, tingkat akurasi turun menjadi 94.87%. Penghitungan akurasi kelas penyakit untuk kedua taraf nyata dilakukan berdasarkan hasil
" yang terdapat pada Lampiran 4. Penurunan tingkat akurasi terjadi karena pemilihan fitur untuk kelas penyakit yang dilakukan pada taraf nyata 0.001 telah
menghilangkan beberapa yang
mempunyai informasi penting sehingga pengklasifikasi tidak mampu memberi label kelas yang benar untuk beberapa dokumen uji.
Hal ini selaras dengan perbedaan jumlah fitur yang dihasilkan oleh kedua taraf nyata. Jumlah fitur yang dihasilkan pada taraf nyata 0.01 (2.942 fitur) lebih banyak dibandingkan dengan jumlah fitur yang dihasilkan pada taraf nyata 0.001 (1.578 fitur) karena pemilihan fitur pada taraf nyata 0.01
menetapkan nilai kritis yang lebih rendah.
Perbedaan tingkat akurasi yang dihasilkan menunjukkan bahwa peningkatan taraf nyata pada saat pemilihan fitur berpengaruh
9 terhadap tingkat akurasi dari pengklasifikasi
untuk kelas target penyakit.
Dilihat dari waktu eksekusi, proses klasifikasi untuk fitur pada taraf nyata 0.01 membutuhkan waktu yang lebih lama dibandingkan dengan fitur pada taraf nyata 0.001. Waktu eksekusi rata-rata untuk fitur yang memiliki taraf nyata 0.01 adalah 13.47 detik, sedangkan waktu eksekusi rata-rata untuk fitur yang memiliki taraf nyata 0.001 adalah 7.56 detik. Pengaruh taraf nyata ( ) terhadap waktu eksekusi dapat dilihat pada Tabel 8.
Tabel 8 Pengaruh taraf nyata ( terhadap waktu eksekusi
Kelas Waktu ekseskusi
(detik)
= 0.01 13.47
'= 0.001 7.56
Perbedaan waktu eksekusi disebabkan oleh perbedaan jumlah fitur yang dihasilkan pada kedua taraf nyata. Jumlah fitur yang dihasilkan pada taraf nyata 0.01 lebih banyak dibandingkan dengan jumlah fitur yang dihasilkan pada taraf nyata 0.001. Jumlah fitur akan sangat berpengaruh pada saat
penghitungan nilai similaritas antara
dokumen uji dengan dokumen latih. Semakin banyak fitur yang digunakan, semakin banyak waktu yang dibutuhkan untuk menghitung similaritas antara dokumen uji dengan setiap dokumen latih.
Perbedaan waktu eksekusi yang tidak
signifikan antara kedua sistem
pengklasifikasi menunjukkan bahwa secara keseluruhan kinerja pengklasifikasi KNN Fuzzy saat menggunakan fitur pada taraf nyata 0.01 lebih baik dibandingkan saat menggunakan fitur pada taraf nyata 0.001 karena fitur yang dihasilkan pada taraf nyata 0.01 lebih informatif dibandingkan dengan fitur yang dihasilkan pada taraf nyata 0.001. 2. Pengaruh nilai \ (\-nearest neighbor)
terhadap tingkat akurasi
Pada saat pengklasifikasi membentuk derajat keanggotaan untuk setiap kelas, pengklasifikasi terlebih dahulu menentukan -tetangga terdekat atau -dokumen latih yang memiliki nilai similaritas tertinggi terhadap dokumen uji.
Penentuan nilai dilakukan secara bertahap
dari =1 hingga =50 dengan interval
sebesar 5. Penentuan nilai secara bertahap
dilakukan untuk melihat nilai yang
optimum terhadap tingkat akurasi
pengklasifikasi. Penentuan nilai dilakukan pada fitur dengan taraf nyata 0.01 dan derajat bebas satu. Pengaruh beberapa nilai terhadap tingkat akurasi pengklasifikasi KNN Fuzzy ditunjukkan pada Gambar 3.
Gambar 3 Pengaruh beberapa nilai \
terhadap tingkat akurasi pengklasifikasi KNN Fuzzy.
Tingkat akurasi optimum pengklasifikasi KNN Fuzzy untuk kelas famili dicapai pada
saat bernilai 5. Tingkat akurasi yang
dihasilkan sebesar 97.43%. Tingkat akurasi
tidak berubah hingga nilai =50. Hal ini
menunjukkan bahwa kinerja pengklasifikasi KNN Fuzzy untuk kelas famili relatif stabil terhadap penentuan nilai .
Tingkat akurasi optimum pengklasifikasi KNN Fuzzy untuk kelas penyakit dicapai pada saat bernilai 5. Tingkat akurasi yang dihasilkan sebesar 100%. Tingkat akurasi untuk kelas penyakit mengalami penurunan sebesar 2.57% pada saat nilai =40. Hal ini menunjukkan bahwa kinerja pengklasifikasi KNN Fuzzy untuk kelas penyakit tidak stabil
terhadap penentuan nilai . Nilai yang
besar ( >40) mengakibatkan pemisahan antar kelas penyakit menjadi kabur sehingga pengklasifikasi tidak mampu memberi label yang benar untuk beberapa dokumen uji. Kesalahan dalam pelabelan kelas penyakit yang terjadi pada saat nilai =40 dapat dilihat pada Lampiran 5. 0 10 20 30 40 50 60 70 80 90 100 1 5 10 15 20 25 30 35 40 45 50 A k u ra si (% ) tetangga terdekat penyakit famili
10
Secara keseluruhan, kinerja
pengklasifikasi untuk kedua kelas target mencapai optimum saat nilai =5. Hal ini ditunjukkan dari tingkat akurasi yang dihasilkan untuk kedua kelas target. Tingkat akurasi yang dihasilkan untuk kelas famili dan kelas penyakit pada saat nilai =5 dapat dilihat pada Tabel 9.
Tabel 9 Tingkat akurasi yang dihasilkan untuk kelas famili dan kelas penyakit pada saat nilai \=5
Kelas Famili Penyakit
Tingkat
akurasi 97.43% 100%
Penentuan nilai diperlukan untuk
mengetahui kinerja pengklasifikasi KNN Fuzzy yang optimum. Penentuan nilai yang ‘baik’ dapat dilakukan dengan teknik optimisasi parameter.
3. Pengaruh fuzzy terhadap distibusi dokumen yang tidak merata
Penggunaan fuzzy pada pengklasifikasi merupakan adaptasi dari algoritma Fuzzy C- means. Algoritma ini memungkinkan suatu
dokumen untuk memiliki tingkat
keanggotaan terhadap semua kelas yang ada sehingga suatu dokumen tidak mutlak dikatakan sebagai anggota dari satu kelas tertentu. Persebaran dokumen yang tidak merata pada setiap kelas menyebabkan dokumen uji cenderung diberi label kelas
yang dominan. Kelas dominan yang
dimaksud adalah kelas yang memiliki jumlah dokumen lebih banyak (secara kuantitas) dibandingkan dengan kelas lainnya. Kelas yang dominan akan memiliki lebih banyak
sampel pada saat pengambilan tetangga
terdekat sehingga dokumen uji berpeluang lebih besar untuk masuk ke dalam kelas yang dominan. Hal ini dapat diatasi dengan menggunakan fuzzy. Penggunaan fuzzy pada
pengklasifikasi digunakan untuk
menghilangkan efek dari kelas dominan dengan cara memberi derajat keanggotaan untuk setiap kelas yang ada.
Pengaruh fuzzy pada algoritma
pengklasifikasi dalam mengatasi masalah persebaran dokumen yang tidak merata
ditunjukkan dari tingkat akurasi yang
dihasilkan. Pada penggunaan fitur dengan taraf nyata 0.01, nilai =5 untuk kelas famili dan =5 untuk kelas penyakit, tingkat akurasi yang dihasilkan untuk kelas famili sebesar
97.43% dan untuk kelas penyakit sebesar
100%. Hasil ini menunjukkan bahwa
penerapan fuzzy pada algoritma
pengklasifikasi mampu mengatasi persebaran dokumen yang tidak merata pada suatu kelas. 4. Pengaruh fuzzy dalam mengatasi
karakteristik dokumen tumbuhan obat yang seragam
Dokumen tumbuhan obat yang
digunakan pada penelitian ini memiliki
karakteristik yang seragam sehingga
pengelompokan dokumen sulit untuk
dilakukan. Pengaruh fuzzy dalam mengatasi karakteristik dokumen yang seragam dapat dilihat melalui pengujian terhadap dua contoh dokumen. Dokumen uji yang pertama adalah dokumen tentang tumbuhan obat ‘landik’
yang diklasifikasikan sebagai kelas
‘achantaceae’ (famili) dan kelas ‘kulit’ (penyakit). Dokumen uji yang kedua adalah dokumen tentang tumbuhan obat ‘kemuning’ yang diklasifikasikan sebagai kelas ‘rutaceae’ (famili) dan kelas ‘nyeri-radang-demam’ (penyakit). Kedua dokumen ini memiliki karakteristik isi dokumen yang seragam meskipun berasal dari kelas yang berbeda. Pengujian kedua dokumen dilakukan pada taraf nyata 0.01 dengan derajat bebas satu, =5 untuk kelas famili dan =5 untuk kelas penyakit. Berikut kedua dokumen uji yang digunakan: ! ! ! ! . ' / # 0 ). . ( + / ! ! !. 1 2 2 / , ! 3 4 ! 5 ! 4 5 ! ! ! ! ! ! . (61789 176: 27 7 29- 7 9 / : ! . 8-# -'9'9/ ' " / ! ! .
11 Tiga kelas famili yang memiliki derajat
keanggotaan tertinggi untuk dokumen uji pertama adalah ‘achantaceae’, ‘rutaceae’ dan
‘euphorbiacae’, sedangkan tiga kelas
penyakit yang memiliki derajat keanggotaan tertinggi untuk dokumen uji pertama adalah
‘kulit’, ‘nyeri-radang-demam’ dan
‘perawatan’. Derajat keanggotaan yang
dihasilkan oleh dokumen uji pertama dapat dilihat pada Tabel 10.
Tabel 10 Derajat keanggotaan yang
dihasilkan oleh dokumen uji pertama dengan taraf nyata 0.01, \=5 untuk kelas famili dan
\=5 untuk kelas penyakit
Kelas Nilai keanggotaan Famili Achantaceae 0.6948 Rutaceae 01528 Euphorbiaceae 0.1523 Menispermaceae 0 Agavaceae 0 Crassulaceae 0 Myrtaceae 0 Amaranthaceae 0 Araliaceae 0 Apiaceae 0 Portulacaceae 0 Pandanaceae 0 Lamiaceae 0 Smilaceae 0 Bromeliaceae 0 Moraceae 0 Apocynaceae 0 Penyakit Kulit 0.8471 Nyeri-Radang- Demam 0.1528 Perawatan 0 Pencernaan 0 Pernapasan 0 Saluran Kemih 0 Kronis 0
Tiga kelas famili yang memiliki derajat keanggotaan tertinggi untuk dokumen uji kedua adalah ‘rutaceae’, ‘euphorbiaceae’ dan
‘menispermacae’, sedangkan tiga kelas
penyakit yang memiliki derajat keanggotaan tertinggi untuk dokumen uji kedua adalah
‘nyeri-radang-demam’, ‘kulit’ dan
‘pencernaan’. Derajat keanggotaan yang dihasilkan oleh dokumen uji kedua dapat dilihat pada Tabel 11.
Hasil klasifikasi terhadap dokumen uji
menunjukkan bahwa fuzzy mampu
mengelompokkan kedua dokumen uji ke dalam kelas yang berbeda meskipun kedua
dokumen memiliki karakteristik yang
seragam. Kedekatan karakteristik antara dua dokumen uji dapat dilihat dari derajat keanggotaan yang dihasilkan.
Tabel 11 Derajat keanggotaan yang
dihasilkan oleh dokumen uji kedua dengan taraf nyata 0.01, \=5 untuk kelas famili dan
\=5 untuk kelas penyakit
Kelas Nilai keanggotaan Famili Rutaceae 0.4141 Euphorbiaceae 0.1964 Menispermaceae 0.1963 Achantaceae 0.1930 Agavaceae 0 Crassulaceae 0 Myrtaceae 0 Amaranthaceae 0 Araliaceae 0 Apiaceae 0 Portulacaceae 0 Pandanaceae 0 Lamiaceae 0 Smilaceae 0 Bromeliaceae 0 Moraceae 0 Apocynaceae 0 Penyakit Nyeri-Radang- Demam 0.4141 Kulit 0.3895 Pencernaan 0.1963 Saluran Kemih 0 Kronis 0 Pernapasan 0 Perawatan 0
Hasil evaluasi temu kembali informasi Evaluasi temu kembali informasi yang
dilakukan dalam penelitian ini
menunjukkan pengaruh klasifikasi dokumen terhadap hasil pencarian dokumen relevan karena kueri tidak melalui tahap klasifikasi terlebih dahulu. Hal ini terjadi akibat waktu eksekusi untuk kedua model klasifikasi yang tidak efisien untuk melakukan pencarian berdasarkan hasil klasifikasi kueri. Oleh karena itu, hasil evaluasi temu kembali informasi tidak merepresentasikan kinerja sistem akibat klasifikasi dokumen.
Evaluasi untuk temu kembali informasi dilakukan terhadap 30 kueri uji yang merepresentasikan isi dokumen. Kueri uji dibagi menjadi dua, yaitu kueri uji dengan
12 panjang 1 kata dan kueri uji dengan panjang
2 kata. Detail dari kueri uji yang digunakan untuk mengevaluasi sistem temu kembali informasi dapat dilihat pada Tabel 5 dan Tabel 6.
Sebagian besar dokumen yang
ditemukembalikan oleh sistem dengan kueri uji 1 kata adalah dokumen yang relevan. Dokumen yang tidak relevan namun ikut ditemukembalikan hanya terjadi pada kueri uji ‘vitamin’ dan kueri uji ‘kalsium’. Hal ini disebabkan sistem tidak mengetahui makna dari kueri yang diinginkan oleh pengguna.
Misalnya informasi yang diinginkan
pengguna adalah informasi mengenai
kandungan vitamin dalam tumbuhan obat
(kueri ‘vitamin’), namun sistem
menemukembalikan informasi mengenai
penyakit yang terjadi akibat kekurangan vitamin (kueri ‘vitamin’).
Pada saat sistem dievaluasi dengan kueri uji 2 kata, terdapat beberapa dokumen tidak relevan yang ikut ditemukembalikan. Hal ini terjadi pada saat sistem dievaluasi dengan kueri ‘gatal-gatal’, ‘vitamin c’, ‘zat warna’ dan ‘buah diperas’. Kesalahan sistem dalam menemukembalikan dokumen disebabkan
sistem melakukan pencarian dokumen
(berdasarkan pembobotan BM25) secara terpisah untuk masing-masing kata. Misalnya untuk kueri ‘zat warna’, sistem akan melakukan pembobotan terhadap kata ‘zat’ dan kata ‘warna’. Hal ini sejalan dengan metode pembobotan BM25 yang hanya memperhatikan kemunculan satu kata tanpa
memperhatikan kedekatan kata yang
digunakan pada kueri.
Pada saat sistem dievaluasi dengan kueri uji 2 kata, sistem akan melakukan pencarian secara terpisah terhadap masing-masing kata dan hal ini menyebabkan dokumen yang tidak relevan ikut terambil, namun ada beberapa kueri dengan panjang 2 kata yang
berhasil menemukembalikan seluruh
dokumen relevan, yaitu kueri ‘batuk pilek’, ‘datang bulan’, ‘sesak napas’, ‘tumbuhan merambat’, ‘tanaman hias’, ‘daun lebar’, ‘buah buni’ dan ‘kalsium oksalat’. Hal ini terjadi karena kata pertama dan kata kedua dalam kueri tersebut memiliki frekuensi kemunculan yang cenderung sama. Frekuensi kemunculan dua kata secara bersamaan sangat dipengaruhi oleh makna dari kata tersebut. Misalnya untuk kata “buah buni”, kata “buni” tidak ditemukan berdiri sendiri dalam seluruh koleksi dokumen tumbuhan
obat karena kemuculan kata “buni” akan selalu diikuti oleh kemunculan kata “buah”. Namun demikian hal ini sangat mungkin dipengaruhi oleh koleksi dokumen yang digunakan.
Nilai AVP yang dihasilkan saat sistem dievaluasi dengan kueri uji 1 kata adalah 0.96, sedangkan nilai AVP yang dihasilkan saat sistem dievaluasi dengan kueri uji 2 kata adalah 0.89. Penurunan nilai AVP sebesar 0.06 menunjukkan bahwa kinerja sistem temu kembali informasi lebih baik pada saat sistem dievaluasi dengan kueri uji yang memiliki panjang 1 kata. Secara keseluruhan kinerja sistem temu kembali informasi sudah baik. Hal ini ditunjukkan dari nilai
& (AVP) yang dihasilkan. Perbandingan nilai AVP untuk kedua kategori kueri uji dapat dilihat pada Gambar 3.
Gambar 4 Perbandingan AVP untuk kueri uji 1 kata dan kueri uji 2 kata.