• Tidak ada hasil yang ditemukan

Pengindeksan dokumen latih yang keseluruhan berjumlah 93 dokumen menghasilkan 3.312 dan 10.346 kata yang berupa kata unik yang ditemui di setiap dokumen dalam keseluruhan dokumen latih.

Pemilihan fitur

Vektor kata unik yang telah dihasilkan dari tahapan praproses kemudian diproses pada tahap pemilihan fitur. Tahapan pemilihan fitur dokumen diujikan terhadap dua teknik berbeda. Teknik pemilihan fitur dokumen yang pertama adalah dengan teknik

chi-kuadrat. Pada teknik pemilihan fitur berikutnya adalah dengan menggunakan teknik document frequency thresholding (DF).

a. Chi-kuadrat (χ2)

Pemilihan fitur dengan teknik chi- kuadrat dilakukan pada dua nilai signifikansi (Tabel 2). Berdasarkan teori terpenuhinya hipotesis, nilai signifikansi 0,001 dapat diartikan bahwa kriteria kata yang dipilih adalah kata yang memiliki nilai χ2 diatas 10,83. Nilai signifikansi 0,01 diartikan sebagai kriteria kata yang dipilih adalah untuk setiap kata yang memiliki nilai χ2 diatas 6,63. Hasil dari tahapan ini adalah 2.942 kata unik pada pemilihan nilai signifikansi 0,01 dan 1.578 kata unik pada pemilihan nilai signifikansi 0,001. Kumpulan kata yang dihasilkan pada tahapan pemilihan fitur inilah yang kemudian hanya akan diolah pada sistem klasifikasi.

Klasifikasi dokumen pada nilai signifikansi 0,01 dan 0,001 memiliki akurasi yang sama besar yaitu 97,44% untuk kategori

family dan 89,74% untuk kategori penyakit (Gambar 6). Pengaruh nyata yang diberikan oleh teknik pemilihan fitur dokumen terlihat pada lama waktu pemrosesan suatu dokumen uji hingga diklasifikasikan ke dalam kelas yang tepat. Gambar 4 menunjukkan waktu rata-rata yang diperlukan untuk menglasifikasikan dokumen uji pada setiap nilai signifikansi yang digunakan. Gambar 4

menjelaskan bahwa waktu rata-rata yang digunakan untuk memproses satu dokumen uji pada pemilihan nilai signifikansi 0,001 adalah selama 0,7 menit dan pada pemilihan nilai signifikansi 0,01 adalah selama 2,15 menit.

Gambar 4 Rataan waktu proses klasifikasi pada setiap pemilihan nilai kritis (chi-kuadrat).

Pemilihan nilai signifikansi 0,001 memberikan kinerja klasifikasi yang lebih baik daripada ketika pemilihan nilai signifikansi 0,01. Hal itu dikarenakan pada pemilihan nilai signifikansi 0,001 menghasilkan himpunan kata penciri yang berjumlah lebih sedikit daripada jumlah kata penciri yang dihasilkan pada pemilihan nilai signifikansi 0,01.

b. Documentfrequency thresholding (df).

Pemilihan fitur dokumen dengan teknik

document frequency thresholding (df)

dilakukan pada dua nilai threshold. Nilai

threshold yang digunakan adalah pada

threshold 3 dan 8. Hipotesis nol akan ditolak jika nilai threshold suatu kata lebih dari nilai

threshold yang digunakan. Nilai threshold 3 menghasilkan kata penciri dokumen latih sebanyak 935 kata. Nilai threshold 8 menghasilkan kata penciri dokumen latih sebanyak 417 kata. Kumpulan kata yang dihasilkan pada tahapan pemilihan fitur inilah yang kemudian hanya akan diolah pada sistem klasifikasi.

Klasifikasi dokumen pada nilai

threshold 3 dan 8 memiliki akurasi 58,97% untuk kategori family dan 76,92% untuk kategori penyakit. Gambar 5 menunjukkan waktu rata-rata yang diperlukan untuk menglasifikasikan dokumen uji pada setiap nilai threshold yang digunakan. Gambar 5 menjelaskan bahwa waktu rata-rata yang

11 digunakan untuk memproses satu dokumen

uji pada pemilihan nilai threshold 3 adalah selama 6,80 menit dan pada pemilihan nilai

threshold 8 adalah selama 5,36 menit.

Gambar 5 Rataan waktu proses klasifikasi pada setiap pemilihan nilai

threshold (df).

Berdasarkan hasil penelitian tersebut, sistem dikembangkan menggunakan pemilihan fitur dokumen chi-kuadrat pada nilai signifikansi 0,001. Pemilihan teknik chi- kuadrat dikarenakan pada teknik tersebut memiliki tingkat akurasi klasifikasi yang lebih baik dan membutuhkan waktu lebih cepat untuk menglasifikasikan dokumen uji daripada teknik document thresholding frequency(df).

Pengujian kinerja sistem

Proses evaluasi yang dilakukan terdiri atas dua proses evaluasi. Evaluasi pertama adalah pengujian tingkat akurasi sistem klasifikasi, dan evaluasi berikutnya adalah pengujian tingkat akurasi sistem temu kembali informasi. Evaluasi sistem dilakukan sesuai pada hasil pemilihan fitur dokumen pada tingkat signifikansi 0,001.

a. Akurasi sistem klasifikasi

Akurasi dari sistem klasifikasi dapat dihitung dengan menggunakan bantuan tabel

confussion matrix. Pada kategori kelas family

tabel confussion matrix ditunjukkan pada Lampiran 5 dan untuk kelas penyakit ditunjukkan pada Lampiran 6.

Akurasi sistem klasifikasi dapat dilihat pada Gambar 5. Akurasi sistem klasifikasi yang dikelaskan berdasarkan family

tumbuhan obat memiliki tingkat akurasi yang lebih tinggi daripada sistem yang dikelaskan

berdasarkan penyakit, yaitu masing-masing sebesar 97,44% dan 89,74%. Hal tersebut disebabkan oleh metode klasifikasi Naive Bayes bekerja dengan memperhitungkan peluang kemunculan suatu kata yang terdapat pada dokumen uji yang dihitung terhadap kemunculan kata dalam suatu kelas dokumen latih.

Gambar 6 Akurasi sistem klasifikasi.

Kata dalam dokumen uji pada dokumen yang salah penglasifikasian memiliki peluang kemunculan kata yang lebih besar untuk muncul pada kelas dokumen yang salah. Hal ini membuat keakurasian dalam penglasifikasian dokumen menjadi rendah. Untuk kategori family, rata-rata dokumen uji masuk ke dalam kelas yang tepat, karena kata penciri untuk suatu kelas family tertentu berbeda antar setiap kelasnya.

b. Akurasi sistem temu kembali informasi Evaluasi sistem temu kembali informasi dilakukan menggunakan 29 kueri uji yang merepresentasikan isi dokumen. Kumpulan kata kueri yang digunakan dalam pengujian sistem temu kembali informasi dapat dilihat pada Tabel 6.

Pengujian sistem temu kembali informasi dilakukan menggunakan recall precision. Hasil penghitungan recall precision ditunjukkan pada Gambar 7.

6.8 5.36 0 1 2 3 4 5 6 7 8 Nilai threshold Wa ktu (menit) 3 8 97.44 89.74 0 10 20 30 40 50 60 70 80 90 100 Kategori Kelas Persen tase Family Penyakit

12 Gambar 7 Grafik recall precision kueri uji

Gambar 7 menunjukkan nilai recall precision yang tinggi. Hal tersebut dibuktikan dengan melihat hasil dokumen yang dikembalikan kepada pengguna. Nilai

average precision adalah sebesar 93,26%. Dapat disimpulkan bahwa kinerja sistem temu kembali informasi memiliki tingkat keakuratan yang baik untuk setiap kueri uji yang diberikan.

Dokumen yang tidak relevan namun ikut ditemukembalikan hanya terjadi pada kueri uji „kalsium‟, „vitamin‟, „buah diperas‟, „gatal-gatal‟, dan „zat warna‟. Hal ini disebabkan karena kueri tersebut memiliki banyak arti penerjemahan antar setiap dokumen tumbuhan obat sehingga kueri tersebut tidak mampu mewakili informasi yang sebenarnya diinginkan oleh pengguna. Misalnya informasi yang diinginkan pengguna adalah informasi mengenai kandungan kalsium dalam tumbuhan obat (kueri „kalsium‟), namun sistem menemukembalikan informasi mengenai penyakit yang terjadi akibat kekurangan kalsium (kueri „kalsium‟). Kesalahan sistem dalam menemukembalikan dokumen disebabkan juga karena sistem melakukan pencarian dokumen untuk masing-masing kata kueri secara terpisah sehingga menyebabkan dokumen yang tidak relevan ikut terambil lebih banyak. Misalnya untuk kueri „zat warna‟, sistem akan melakukan pembobotan terhadap kata „zat‟ dan kata „warna‟. Hal ini sejalan dengan metode pembobotan BM25 yang hanya memperhatikan kemunculan satu kata tanpa

memperhatikan kedekatan kata yang digunakan pada kueri.

Dokumen terkait