HASIL DAN PEMBAHASAN Dokumen tumbuhan obat

DAFTAR LAMPIRAN

HASIL DAN PEMBAHASAN Dokumen tumbuhan obat

Penelitian ini menggunakan 132

dokumen tumbuhan obat yang dibagi menjadi dua bagian, yaitu dokumen latih sebanyak 93 dokumen dan dokumen uji sebanyak 39

dokumen. Setiap dokumen uji akan

diklasifikasikan ke dalam dua kelas target yaitu kelas famili dan kelas penyakit.

Hasil praproses data

Praproses data hanya dilakukan pada

bagian deskripsi dari dokumen tumbuhan

obat. Hasil dari praproses data adalah daftar yang sudah melewati tahap tokenisasi

dan pembuangan & . Adapun jumlah

& yang digunakan adalah 666 kata.

' akhir yang dihasilkan dari tahap

praproses berjumlah 3.933. Hasil pemilihan fitur

Pemilihan fitur dengan metode pengujian W dilakukan pada dua taraf nyata , yaitu 0.01 dan 0.001. Fitur yang dihasilkan pada taraf nyata 0.01 adalah 2.942 fitur. Fitur yang dihasilkan pada taraf nyata 0.001 adalah 1.578 fitur.

Hasil evaluasi klasifikasi KNN Fuzzy 1. Pengaruh taraf nyata ( ) pada

pemilihan fitur terhadap tingkat akurasi

Pemilihan fitur dilakukan pada dua taraf nyata ( ) yang berbeda, yaitu 0.01 dan 0.001. Pengaruh kedua taraf nyata ( ) dengan derajat bebas satu terhadap tingkat akurasi dari pengklasifikasi KNN Fuzzy dapat dilihat pada Tabel 7. Tingkat akurasi yang dihasilkan untuk kelas famili memiliki nilai yang sama, baik untuk fitur pada taraf nyata

0.01 maupun fitur pada taraf nyata 0.001. Tingkat akurasi yang dihasilkan adalah 97.43%. Tidak adanya perbedaan dari tingkat akurasi yang dihasilkan menunjukkan bahwa peningkatan taraf nyata pada saat pemilihan fitur tidak berpengaruh terhadap tingkat akurasi dari pengklasifikasi untuk kelas target famili.

Tabel 7 Pengaruh taraf nyata ( pada

pemilihan fitur terhadap tingkat akurasi pengklasifikasi KNN Fuzzy

Kelas =0.01 =0.001

Famili 97.43% 97.43%

Penyakit 100% 94.87%

Kesalahan pelabelan kelas famili untuk kedua taraf nyata hanya terjadi pada dokumen uji yang berisi informasi tentang tumbuhan obat ‘remek daging’. Hal ini disebabkan kurangnya data latih mengenai

tumbuhan obat ‘remek daging’ dan

kurangnya fitur yang merepresentasikan kelas target ‘achantaceae’. Kesalahan pelabelan kelas dokumen ‘remek daging’ untuk kedua taraf nyata dapat dilihat pada Lampiran 2 dan 3.

Tingkat akurasi untuk kelas penyakit yang dihasilkan oleh fitur pada taraf nyata 0.01 adalah 100%, namun saat fitur yang digunakan adalah fitur pada taraf nyata 0.001, tingkat akurasi turun menjadi 94.87%. Penghitungan akurasi kelas penyakit untuk kedua taraf nyata dilakukan berdasarkan hasil

" yang terdapat pada Lampiran 4. Penurunan tingkat akurasi terjadi karena pemilihan fitur untuk kelas penyakit yang dilakukan pada taraf nyata 0.001 telah

menghilangkan beberapa yang

mempunyai informasi penting sehingga pengklasifikasi tidak mampu memberi label kelas yang benar untuk beberapa dokumen uji.

Hal ini selaras dengan perbedaan jumlah fitur yang dihasilkan oleh kedua taraf nyata. Jumlah fitur yang dihasilkan pada taraf nyata 0.01 (2.942 fitur) lebih banyak dibandingkan dengan jumlah fitur yang dihasilkan pada taraf nyata 0.001 (1.578 fitur) karena pemilihan fitur pada taraf nyata 0.01

menetapkan nilai kritis yang lebih rendah.

Perbedaan tingkat akurasi yang dihasilkan menunjukkan bahwa peningkatan taraf nyata pada saat pemilihan fitur berpengaruh

9 terhadap tingkat akurasi dari pengklasifikasi

untuk kelas target penyakit.

Dilihat dari waktu eksekusi, proses klasifikasi untuk fitur pada taraf nyata 0.01 membutuhkan waktu yang lebih lama dibandingkan dengan fitur pada taraf nyata 0.001. Waktu eksekusi rata-rata untuk fitur yang memiliki taraf nyata 0.01 adalah 13.47 detik, sedangkan waktu eksekusi rata-rata untuk fitur yang memiliki taraf nyata 0.001 adalah 7.56 detik. Pengaruh taraf nyata ( ) terhadap waktu eksekusi dapat dilihat pada Tabel 8.

Tabel 8 Pengaruh taraf nyata ( terhadap waktu eksekusi

Kelas Waktu ekseskusi

(detik)

= 0.01 13.47

'= 0.001 7.56

Perbedaan waktu eksekusi disebabkan oleh perbedaan jumlah fitur yang dihasilkan pada kedua taraf nyata. Jumlah fitur yang dihasilkan pada taraf nyata 0.01 lebih banyak dibandingkan dengan jumlah fitur yang dihasilkan pada taraf nyata 0.001. Jumlah fitur akan sangat berpengaruh pada saat

penghitungan nilai similaritas antara

dokumen uji dengan dokumen latih. Semakin banyak fitur yang digunakan, semakin banyak waktu yang dibutuhkan untuk menghitung similaritas antara dokumen uji dengan setiap dokumen latih.

Perbedaan waktu eksekusi yang tidak

signifikan antara kedua sistem

pengklasifikasi menunjukkan bahwa secara keseluruhan kinerja pengklasifikasi KNN Fuzzy saat menggunakan fitur pada taraf nyata 0.01 lebih baik dibandingkan saat menggunakan fitur pada taraf nyata 0.001 karena fitur yang dihasilkan pada taraf nyata 0.01 lebih informatif dibandingkan dengan fitur yang dihasilkan pada taraf nyata 0.001. 2. Pengaruh nilai \ (\-nearest neighbor)

terhadap tingkat akurasi

Pada saat pengklasifikasi membentuk derajat keanggotaan untuk setiap kelas, pengklasifikasi terlebih dahulu menentukan -tetangga terdekat atau -dokumen latih yang memiliki nilai similaritas tertinggi terhadap dokumen uji.

Penentuan nilai dilakukan secara bertahap

dari =1 hingga =50 dengan interval

sebesar 5. Penentuan nilai secara bertahap

dilakukan untuk melihat nilai yang

optimum terhadap tingkat akurasi

pengklasifikasi. Penentuan nilai dilakukan pada fitur dengan taraf nyata 0.01 dan derajat bebas satu. Pengaruh beberapa nilai terhadap tingkat akurasi pengklasifikasi KNN Fuzzy ditunjukkan pada Gambar 3.

Gambar 3 Pengaruh beberapa nilai \

terhadap tingkat akurasi pengklasifikasi KNN Fuzzy.

Tingkat akurasi optimum pengklasifikasi KNN Fuzzy untuk kelas famili dicapai pada

saat bernilai 5. Tingkat akurasi yang

dihasilkan sebesar 97.43%. Tingkat akurasi

tidak berubah hingga nilai =50. Hal ini

menunjukkan bahwa kinerja pengklasifikasi KNN Fuzzy untuk kelas famili relatif stabil terhadap penentuan nilai .

Tingkat akurasi optimum pengklasifikasi KNN Fuzzy untuk kelas penyakit dicapai pada saat bernilai 5. Tingkat akurasi yang dihasilkan sebesar 100%. Tingkat akurasi untuk kelas penyakit mengalami penurunan sebesar 2.57% pada saat nilai =40. Hal ini menunjukkan bahwa kinerja pengklasifikasi KNN Fuzzy untuk kelas penyakit tidak stabil

terhadap penentuan nilai . Nilai yang

besar ( >40) mengakibatkan pemisahan antar kelas penyakit menjadi kabur sehingga pengklasifikasi tidak mampu memberi label yang benar untuk beberapa dokumen uji. Kesalahan dalam pelabelan kelas penyakit yang terjadi pada saat nilai =40 dapat dilihat pada Lampiran 5. 0 10 20 30 40 50 60 70 80 90 100 1 5 10 15 20 25 30 35 40 45 50 A k u ra si (% ) tetangga terdekat penyakit famili

Secara keseluruhan, kinerja

pengklasifikasi untuk kedua kelas target mencapai optimum saat nilai =5. Hal ini ditunjukkan dari tingkat akurasi yang dihasilkan untuk kedua kelas target. Tingkat akurasi yang dihasilkan untuk kelas famili dan kelas penyakit pada saat nilai =5 dapat dilihat pada Tabel 9.

Tabel 9 Tingkat akurasi yang dihasilkan untuk kelas famili dan kelas penyakit pada saat nilai \=5

Kelas Famili Penyakit

Tingkat

akurasi 97.43% 100%

Penentuan nilai diperlukan untuk

mengetahui kinerja pengklasifikasi KNN Fuzzy yang optimum. Penentuan nilai yang ‘baik’ dapat dilakukan dengan teknik optimisasi parameter.

3. Pengaruh fuzzy terhadap distibusi dokumen yang tidak merata

Penggunaan fuzzy pada pengklasifikasi merupakan adaptasi dari algoritma Fuzzy C- means. Algoritma ini memungkinkan suatu

dokumen untuk memiliki tingkat

keanggotaan terhadap semua kelas yang ada sehingga suatu dokumen tidak mutlak dikatakan sebagai anggota dari satu kelas tertentu. Persebaran dokumen yang tidak merata pada setiap kelas menyebabkan dokumen uji cenderung diberi label kelas

yang dominan. Kelas dominan yang

dimaksud adalah kelas yang memiliki jumlah dokumen lebih banyak (secara kuantitas) dibandingkan dengan kelas lainnya. Kelas yang dominan akan memiliki lebih banyak

sampel pada saat pengambilan tetangga

terdekat sehingga dokumen uji berpeluang lebih besar untuk masuk ke dalam kelas yang dominan. Hal ini dapat diatasi dengan menggunakan fuzzy. Penggunaan fuzzy pada

pengklasifikasi digunakan untuk

menghilangkan efek dari kelas dominan dengan cara memberi derajat keanggotaan untuk setiap kelas yang ada.

Pengaruh fuzzy pada algoritma

pengklasifikasi dalam mengatasi masalah persebaran dokumen yang tidak merata

ditunjukkan dari tingkat akurasi yang

dihasilkan. Pada penggunaan fitur dengan taraf nyata 0.01, nilai =5 untuk kelas famili dan =5 untuk kelas penyakit, tingkat akurasi yang dihasilkan untuk kelas famili sebesar

97.43% dan untuk kelas penyakit sebesar

100%. Hasil ini menunjukkan bahwa

penerapan fuzzy pada algoritma

pengklasifikasi mampu mengatasi persebaran dokumen yang tidak merata pada suatu kelas. 4. Pengaruh fuzzy dalam mengatasi

karakteristik dokumen tumbuhan obat yang seragam

Dokumen tumbuhan obat yang

digunakan pada penelitian ini memiliki

karakteristik yang seragam sehingga

pengelompokan dokumen sulit untuk

dilakukan. Pengaruh fuzzy dalam mengatasi karakteristik dokumen yang seragam dapat dilihat melalui pengujian terhadap dua contoh dokumen. Dokumen uji yang pertama adalah dokumen tentang tumbuhan obat ‘landik’

yang diklasifikasikan sebagai kelas

‘achantaceae’ (famili) dan kelas ‘kulit’ (penyakit). Dokumen uji yang kedua adalah dokumen tentang tumbuhan obat ‘kemuning’ yang diklasifikasikan sebagai kelas ‘rutaceae’ (famili) dan kelas ‘nyeri-radang-demam’ (penyakit). Kedua dokumen ini memiliki karakteristik isi dokumen yang seragam meskipun berasal dari kelas yang berbeda. Pengujian kedua dokumen dilakukan pada taraf nyata 0.01 dengan derajat bebas satu, =5 untuk kelas famili dan =5 untuk kelas penyakit. Berikut kedua dokumen uji yang digunakan: ! ! ! ! . ' / # 0 ). . ( + / ! ! !. 1 2 2 / , ! 3 4 ! 5 ! 4 5 ! ! ! ! ! ! . (61789 176: 27 7 29- 7 9 / : ! . 8-# -'9'9/ ' " / ! ! .

11 Tiga kelas famili yang memiliki derajat

keanggotaan tertinggi untuk dokumen uji pertama adalah ‘achantaceae’, ‘rutaceae’ dan

‘euphorbiacae’, sedangkan tiga kelas

penyakit yang memiliki derajat keanggotaan tertinggi untuk dokumen uji pertama adalah

‘kulit’, ‘nyeri-radang-demam’ dan

‘perawatan’. Derajat keanggotaan yang

dihasilkan oleh dokumen uji pertama dapat dilihat pada Tabel 10.

Tabel 10 Derajat keanggotaan yang

dihasilkan oleh dokumen uji pertama dengan taraf nyata 0.01, \=5 untuk kelas famili dan

\=5 untuk kelas penyakit

Kelas Nilai keanggotaan Famili Achantaceae 0.6948 Rutaceae 01528 Euphorbiaceae 0.1523 Menispermaceae 0 Agavaceae 0 Crassulaceae 0 Myrtaceae 0 Amaranthaceae 0 Araliaceae 0 Apiaceae 0 Portulacaceae 0 Pandanaceae 0 Lamiaceae 0 Smilaceae 0 Bromeliaceae 0 Moraceae 0 Apocynaceae 0 Penyakit Kulit 0.8471 Nyeri-Radang- Demam 0.1528 Perawatan 0 Pencernaan 0 Pernapasan 0 Saluran Kemih 0 Kronis 0

Tiga kelas famili yang memiliki derajat keanggotaan tertinggi untuk dokumen uji kedua adalah ‘rutaceae’, ‘euphorbiaceae’ dan

‘menispermacae’, sedangkan tiga kelas

penyakit yang memiliki derajat keanggotaan tertinggi untuk dokumen uji kedua adalah

‘nyeri-radang-demam’, ‘kulit’ dan

‘pencernaan’. Derajat keanggotaan yang dihasilkan oleh dokumen uji kedua dapat dilihat pada Tabel 11.

Hasil klasifikasi terhadap dokumen uji

menunjukkan bahwa fuzzy mampu

mengelompokkan kedua dokumen uji ke dalam kelas yang berbeda meskipun kedua

dokumen memiliki karakteristik yang

seragam. Kedekatan karakteristik antara dua dokumen uji dapat dilihat dari derajat keanggotaan yang dihasilkan.

Tabel 11 Derajat keanggotaan yang

dihasilkan oleh dokumen uji kedua dengan taraf nyata 0.01, \=5 untuk kelas famili dan

\=5 untuk kelas penyakit

Kelas Nilai keanggotaan Famili Rutaceae 0.4141 Euphorbiaceae 0.1964 Menispermaceae 0.1963 Achantaceae 0.1930 Agavaceae 0 Crassulaceae 0 Myrtaceae 0 Amaranthaceae 0 Araliaceae 0 Apiaceae 0 Portulacaceae 0 Pandanaceae 0 Lamiaceae 0 Smilaceae 0 Bromeliaceae 0 Moraceae 0 Apocynaceae 0 Penyakit Nyeri-Radang- Demam 0.4141 Kulit 0.3895 Pencernaan 0.1963 Saluran Kemih 0 Kronis 0 Pernapasan 0 Perawatan 0

Hasil evaluasi temu kembali informasi Evaluasi temu kembali informasi yang

dilakukan dalam penelitian ini

menunjukkan pengaruh klasifikasi dokumen terhadap hasil pencarian dokumen relevan karena kueri tidak melalui tahap klasifikasi terlebih dahulu. Hal ini terjadi akibat waktu eksekusi untuk kedua model klasifikasi yang tidak efisien untuk melakukan pencarian berdasarkan hasil klasifikasi kueri. Oleh karena itu, hasil evaluasi temu kembali informasi tidak merepresentasikan kinerja sistem akibat klasifikasi dokumen.

Evaluasi untuk temu kembali informasi dilakukan terhadap 30 kueri uji yang merepresentasikan isi dokumen. Kueri uji dibagi menjadi dua, yaitu kueri uji dengan

12 panjang 1 kata dan kueri uji dengan panjang

2 kata. Detail dari kueri uji yang digunakan untuk mengevaluasi sistem temu kembali informasi dapat dilihat pada Tabel 5 dan Tabel 6.

Sebagian besar dokumen yang

ditemukembalikan oleh sistem dengan kueri uji 1 kata adalah dokumen yang relevan. Dokumen yang tidak relevan namun ikut ditemukembalikan hanya terjadi pada kueri uji ‘vitamin’ dan kueri uji ‘kalsium’. Hal ini disebabkan sistem tidak mengetahui makna dari kueri yang diinginkan oleh pengguna.

Misalnya informasi yang diinginkan

pengguna adalah informasi mengenai

kandungan vitamin dalam tumbuhan obat

(kueri ‘vitamin’), namun sistem

menemukembalikan informasi mengenai

penyakit yang terjadi akibat kekurangan vitamin (kueri ‘vitamin’).

Pada saat sistem dievaluasi dengan kueri uji 2 kata, terdapat beberapa dokumen tidak relevan yang ikut ditemukembalikan. Hal ini terjadi pada saat sistem dievaluasi dengan kueri ‘gatal-gatal’, ‘vitamin c’, ‘zat warna’ dan ‘buah diperas’. Kesalahan sistem dalam menemukembalikan dokumen disebabkan

sistem melakukan pencarian dokumen

(berdasarkan pembobotan BM25) secara terpisah untuk masing-masing kata. Misalnya untuk kueri ‘zat warna’, sistem akan melakukan pembobotan terhadap kata ‘zat’ dan kata ‘warna’. Hal ini sejalan dengan metode pembobotan BM25 yang hanya memperhatikan kemunculan satu kata tanpa

memperhatikan kedekatan kata yang

digunakan pada kueri.

Pada saat sistem dievaluasi dengan kueri uji 2 kata, sistem akan melakukan pencarian secara terpisah terhadap masing-masing kata dan hal ini menyebabkan dokumen yang tidak relevan ikut terambil, namun ada beberapa kueri dengan panjang 2 kata yang

berhasil menemukembalikan seluruh

dokumen relevan, yaitu kueri ‘batuk pilek’, ‘datang bulan’, ‘sesak napas’, ‘tumbuhan merambat’, ‘tanaman hias’, ‘daun lebar’, ‘buah buni’ dan ‘kalsium oksalat’. Hal ini terjadi karena kata pertama dan kata kedua dalam kueri tersebut memiliki frekuensi kemunculan yang cenderung sama. Frekuensi kemunculan dua kata secara bersamaan sangat dipengaruhi oleh makna dari kata tersebut. Misalnya untuk kata “buah buni”, kata “buni” tidak ditemukan berdiri sendiri dalam seluruh koleksi dokumen tumbuhan

obat karena kemuculan kata “buni” akan selalu diikuti oleh kemunculan kata “buah”. Namun demikian hal ini sangat mungkin dipengaruhi oleh koleksi dokumen yang digunakan.

Nilai AVP yang dihasilkan saat sistem dievaluasi dengan kueri uji 1 kata adalah 0.96, sedangkan nilai AVP yang dihasilkan saat sistem dievaluasi dengan kueri uji 2 kata adalah 0.89. Penurunan nilai AVP sebesar 0.06 menunjukkan bahwa kinerja sistem temu kembali informasi lebih baik pada saat sistem dievaluasi dengan kueri uji yang memiliki panjang 1 kata. Secara keseluruhan kinerja sistem temu kembali informasi sudah baik. Hal ini ditunjukkan dari nilai

& (AVP) yang dihasilkan. Perbandingan nilai AVP untuk kedua kategori kueri uji dapat dilihat pada Gambar 3.

Gambar 4 Perbandingan AVP untuk kueri uji 1 kata dan kueri uji 2 kata.

Dalam dokumen Klasifikasi Dokumen Tumbuhan Obat menggunakan Algoritma KNN Fuzzy (Halaman 36-40)