Klasifikasi Dokumen Tumbuhan Obat menggunakan Algoritma KNN Fuzzy

(1)

ABSTRACT

PASKIANTI, KRISTINA. Document Classification using KNN Fuzzy Algorithm. Supervised by YENI HERDIYENI.

(2)

1 PENDAHULUAN

Latar Belakang

Indonesia adalah negara

$ yang kaya akan tumbuhan

obat potensial. Sampai tahun 2001,

Laboratorium Konservasi Tumbuhan,

Fakultas Kehutanan IPB telah mendata dari berbagai hasil riset bahwa tidak kurang dari 2.039 spesies tumbuhan obat berasal dari hutan Indonesia (Zuhud 2009). Fakta ini

mendorong para peneliti untuk terus

melakukan penelitian terutama di bidang pemanfaatan tumbuhan obat Indonesia. Banyak dokumen hasil riset yang sudah dihasilkan, namun dokumen tersebut belum memberikan manfaat yang optimal karena sulitnya mencari informasi. Oleh karena itu, diperlukan suatu teknik komputasi dalam

bentuk mesin pencari ( ) yang

mampu memberikan informasi tumbuhan obat secara lebih mudah dan cepat.

Kebutuhan informasi akan tumbuhan obat dapat dikelompokkan menjadi beberapa kategori, seperti famili, ramuan, kandungan

kimia serta penyakit yang dapat

disembuhkan. Hal ini menunjukkan perlunya suatu teknik klasifikasi untuk dokumen hasil riset sehingga pencarian melalui mesin pencari dapat dilakukan dengan efektif dan

efisien. Penerapan teknik klasifikasi

dokumen pada mesin pencari dilakukan untuk mengelompokkan informasi pada

dokumen. Klasifikasi dokumen secara

manual tidak memungkinkan untuk dokumen skala besar karena membutuhkan waktu yang lama. Solusi dari kelemahan klasifikasi

manual adalah membangun klasifikasi

dokumen secara automatis.

Ada banyak metode yang dapat

digunakan untuk klasifikasi dokumen secara

automatis, seperti -Nearest Neighbor

(KNN), Bayes, Decision Tree, Support Vector Machine, Rocchio dan lain-lain.

Shang et al (2006) mengembangkan

algoritma KNN Fuzzy untuk klasifikasi data Reuters-21578 dan data dari International Database Center di China. Algoritma KNN Fuzzy memiliki kemampuan untuk mengatasi persebaran dokumen yang tidak merata dan

karakteristik dokumen yang cenderung

seragam.

Penelitian ini akan menerapkan

algoritma KNN Fuzzy yang telah dilakukan Shang et al (2006) untuk klasifikasi dokumen tumbuhan obat. Penerapan algoritma ini

meliputi proses pemilihan fitur menggunakan

metode pengujian (Chi-Kuadrat).

Klasifikasi dilakukan untuk dua kelas target yaitu kelas famili dan kelas penyakit. Kedua kelas ini dianggap sebagai kelas yang

merepresentasikan kebutuhan informasi

pengguna.

Tujuan

Tujuan penelitian ini adalah menerapkan algoritma pengklasifikasi KNN Fuzzy pada dokumen tumbuhan obat Indonesia untuk sistem temu kembali informasi.

Ruang Lingkup

Ruang lingkup penelitian ini meliputi :

1. Dokumen terbatas pada 32 jenis

tumbuhan obat Indonesia

2. Dokumen berformat XML

Manfaat

Manfaat penelitian ini adalah memberi kemudahan kepada pengguna untuk mencari informasi tumbuhan obat Indonesia.

TINJAUAN PUSTAKA Temu Kembali Informasi

Temu kembali informasi atau

merupakan proses pencarian tidak terstruktur untuk memenuhi kebutuhan informasi dari sekumpulan koleksi yang besar (Manning 2008). Pengindeksan dalam temu kembali informasi adalah proses menentukan penciri dari suatu dokumen dalam sekumpulan koleksi yang besar. Penciri dari suatu dokumen dapat berupa kata, kalimat atau paragraf. Penciri dari suatu

dokumen disebut dengan % Setiap

dokumen akan melewati proses mendapatkan

pembobotan serta pembuatan

indeks.

Terdapat beberapa model dalam temu kembali informasi, salah satunya adalah

model ruang vektor atau & .

Pada model ini, setiap dokumen

direpresentasikan sebagai vektor dalam

ruang vektor. Representasi vektor dokumen

dengan elemen dinotasikan dengan

. Elemen yang dimaksud adalah

yang diperoleh dari proses

(3)

1 PENDAHULUAN

Latar Belakang

seragam.

pengguna.

Tujuan

Ruang Lingkup

Manfaat

indeks.

(4)

2 vektor dalam ruang vektor. Ilustrasi ini dapat

dilihat pada Gambar 1.

Gambar 1 Ilustrasi vektor dokumen dalam ruang vektor.

Pengukuran kesamaan atau kemiripan antara vektor dokumen dan dokumen dalam ruang vektor dilakukan dengan

menghitung nilai similaritas antara

dan . Nilai similaritas

dapat diperoleh dari Persamaan (1).

dengan pembilang menyatakan perkalian (

& ) antara vektor dan , sedangkan penyebut menyatakan perkalian antara panjang vektor.

Klasifikasi

Klasifikasi terbagi menjadi dua fase, yaitu pelatihan dan pengujian. Pada fase pelatihan, sebagian data yang telah diketahui kelasnya (data latih) digunakan untuk membentuk model. Pada fase pengujian, model yang sudah terbentuk diuji dengan sebagian data lainnya (data uji) untuk mengetahui akurasi dari model tersebut. Selanjutnya model dapat digunakan untuk memprediksi kelas data yang belum diketahui (Han & Kamber 2006).

Chi kuadrat (χ2)

Chi kuadrat (χ2) adalah suatu ukuran yang menyatakan perbedaan antara frekuensi observasi (oi) dengan frekuensi harapan (ei)

untuk setiap (i) yang dirumuskan

dengan

Pengaruh kedua frekuensi tersebut dapat diuji dengan suatu hipotesis H0. Hipotesis nol adalah hipotesis yang menyatakan tidak adanya perbedaan yang signifikan antara

frekuensi observasi dengan frekuensi

harapan. Pengujian hipotesis dilakukan pada taraf nyata α tertentu. Taraf nyata yang dimaksud adalah peluang salah menolak hipotesis yang seharusnya benar (Spiegel 2004).

Pada penelitian ini, nilai χ2 digunakan

untuk melihat pengaruh kemunculan

terhadap kelas (Yang&Pedersen 1997).

Nilai χ2 untuk setiap kemunculan

terhadap kelas dihitung menggunakan

Persamaan (2).

dengan adalah jumlah dokumen latih,

adalah jumlah dokumen pada kategori yang

memuat , adalah jumlah dokumen . Penentuan fitur dilakukan berdasarkan

nilai χ2 dari masing-masing . ' yang

memiliki nilai χ2 diatas nilai kritis pada taraf nyata α dan derajat bebas satu adalah yang akan terpilih sebagai fitur. Nilai kritis χ2 dengan derajat bebas satu dan taraf nyata α ditunjukkan oleh Tabel 1.

(5)

3 KNN Fuzzy

KNN Fuzzy adalah pengembangan

metode klasifikasi KNN klasik yang

dilakukan oleh Shang (2006).

Pengembangan ini dilakukan untuk

mengatasi masalah sebaran dokumen yang tidak merata pada suatu kelas. Metode ini

mengadopsi teori untuk

membangun fungsi keanggotaan yang baru berdasarkan nilai similaritas antar dokumen. Penghitungan derajat keanggotaan dokumen uji untuk setiap kelas dinyatakan dalam

keanggotaan bernilai 1 jika dokumen latih adalah anggota kelas dan bernilai 0 jika yang menyatakan jumlah data uji yang benar diklasifikasikan dan jumlah data uji yang

salah diklasifikasikan (Tan 2006).

Contoh " untuk klasifikasi

biner ditunjukkan pada Tabel 2.

Tabel 2 ! " untuk klasifikasi

Keterangan untuk tabel 2 dinyatakan sebagai berikut :

· ' (TP), yaitu jumlah

dokumen dari kelas 1 yang benar diklasifikasikan sebagai kelas 1.

· ' (TN), yaitu jumlah

· (FP), yaitu jumlah

dokumen dari kelas 0 yang salah diklasifikasikan sebagai kelas 1.

· (FN), yaitu jumlah

Perhitungan akurasi dinyatakan dalam

Persamaan (4).

(4)

dan

# dan adalah dua kriteria

yang digunakan untuk mengevaluasi tingkat efektifitas kinerja sistem temu kembali

informasi. # adalah rasio jumlah

dokumen relevan yang ditampilkan terhadap jumlah seluruh dokumen yang relevan. adalah rasio jumlah dokumen relevan yang ditampilkan terhadap jumlah seluruh dokumen yang ditampilkan (Manning

2008). Perhitungan dan &

dinyatakan pada Persamaan (5) dan (6).

() *++

Menurut Baeza-Yates dan Riberio-Neto (1999), algoritma temu kembali informasi yang dievaluasi menggunakan beberapa kueri

berbeda akan menghasilkan nilai dan

Perhitungan AVP dinyatakan dalam

(6)

4

yang memungkinkan untuk

melakukan pencarian dokumen atau $

di komputer. Sphinx menyediakan

fungsionalitas pencarian teks secara cepat dan relevan pada aplikasi klien. Sphinx telah dirancang khusus untuk berintegrasi

dengan $ SQL dan bahasa

pemrograman tertentu (STI 2008).

Pembobotan BM25

Pembobotan BM25 atau Okapi adalah pembobotan yang mengurutkan set dokumen

berdasarkan kueri yang muncul pada

setiap dokumen koleksi. Hubungan antara kueri dengan dokumen dipengaruhi oleh

parameter (parameter untuk kalibrasi skala

frekuensi ) dan parameter @ (parameter

untuk kalibrasi skala panjang dokumen).

Nilai parameter yang optimal untuk

pembobotan BM25 adalah =1.2 dan

@=0.75 (Manning 2008). Penghitungan bobot

suatu dokumen berdasarkan

dinyatakan dalam Persamaan (8).

(8)

dengan'A B " # @ 6 @ 8 C DC_*0) E;

+.2 F_GHI>J adalah ,

KL adalah frekuensi pada dokumen ,

CG dan CMNO adalah panjang dokumen dan

rata-rata panjang dokumen dalam koleksi,

dan @ adalah parameter pengskalaan terhadap

K dan panjang dokumen.

METODE PENELITIAN

Penelitian ini dilaksanakan dalam dua bagian, yaitu klasifikasi dokumen dan temu kembali informasi. Klasifikasi dokumen meliputi tahap pengumpulan data, praproses data, pembagian data menjadi data latih dan data uji, pemilihan fitur dengan χ2, klasifikasi dokumen dengan KNN Fuzzy dan evaluasi. Temu kembali informasi meliputi tahap pencocokan kueri dengan dokumen dalam

koleksi, pembobotan dan evaluasi. Metode penelitian diilustrasikan pada Gambar 2.

' $ (

Gambar 2 Metode penelitian.

Dokumen tumbuhan obat

(7)

4

Pembobotan BM25

(8)

dengan'A B " # @ 6 @ 8 C DC_*0) E;

' $ (

(8)

5 deskripsi, penyakit yang dapat disembuhkan

atau kandungan kimia yang dimiliki.

Dokumen terbatas pada 32 jenis tumbuhan obat Indonesia. Daftar 32 jenis tumbuhan obat yang digunakan dalam penelitian ini dapat dilihat pada Lampiran 1.

Dokumen tumbuhan obat melalui tahap

digitalisasi dan pemberian . Dokumen

ditulis dalam format XML. Berikut

-yang terdapat pada dokumen tumbuhan obat beserta contoh dokumen yang sudah ditulis dalam format XML :

· ini mewakili

keseluruhan dokumen tumbuhan obat.

· ini menunjukkan id

menunjukkan nama latin dari tumbuhan obat.

· ,

ini menunjukkan deskripsi dan manfaat dari tumbuhan obat.

· untuk kelas target

klasifikasi. ' ini menunjukkan famili

atau suku dari tumbuhan obat.

·

untuk kelas target klasifikasi. ' ini

menunjukkan penyakit yang dapat

disembuhkan dengan tumbuhan obat.

Dokumen tumbuhan obat memiliki dua kelas target klasifikasi, yaitu kelas famili dan kelas penyakit. Persebaran jumlah dokumen untuk kelas famili ditunjukkan pada Tabel 3. Persebaran jumlah dokumen untuk kelas

penyakit ditunjukkan pada Tabel 4. Dari

kedua tabel tersebut terlihat bahwa

persebaran jumlah dokumen untuk setiap

kelas tidak merata. Misalnya kelas

Pencernaan memiliki dokumen sebanyak 26, sedangkan kelas Saluran Kemih hanya memiliki dokumen sebanyak 4. Jumlah dokumen yang banyak pada suatu kelas tertentu mengindikasikan bahwa banyak penelitian yang dilakukan terhadap kelas tersebut, sedangkan jumlah dokumen yang sedikit pada suatu kelas mengindikasikan bahwa belum banyak penelitian yang dilakukan terhadap kelas tersebut.

Tabel 3 Persebaran jumlah dokumen untuk

Praproses data hanya dilakukan pada deskripsi. Praproses data meliputi tahap

tokenisasi dan pembuangan & .

Tokenisasi adalah proses memotong teks menjadi bagian-bagian yang disebut dengan

!

! "

(9)

6

token. Selain pemotongan, tokenisasi

mungkin diikuti dengan proses pembuangan

karakter-karakter tertentu (Manning %

2008). Token yang dimaksud dalam

penelitian ini adalah kata atau % Proses

tokenisasi dilakukan sesuai dengan aturan berikut :

· Teks dipotong menjadi token. Karakter

yang dianggap sebagai karakter pemisah token didefinisikan dengan ekspresi regular berikut :

/[\s\-+\/*0-9%,.\"\];()\':=`?\[!@><]+/

· Token yang terdiri atas karakter numerik

saja tidak diikutsertakan

· Besar kecilnya karakter dari token

dipertahankan atau tidak dilakukan penyeragaman.

' yang tidak memiliki arti penting dan

memiliki frekuensi sangat besar ( & ),

seperti “yang”,”di”,”dan”,”atau”, “yakni”, “yaitu” tidak digunakan dalam proses klasifikasi.

Pembagian data

Dokumen tumbuhan obat yang telah melewati tahap praproses data kemudian dibagi menjadi dua, yaitu data latih dan data uji dengan persentasi 70%:30%. Data latih

digunakan sebagai & pelatihan

pengklasifikasi KNN Fuzzy, sedangkan data uji digunakan untuk menguji model hasil pelatihan pengklasifikasi KNN Fuzzy.

Pemilihan fitur dengan UV

Pemilihan fitur adalah proses memilih

subset kata ( ) yang dianggap telah

mewakili informasi penting dari suatu dokumen. Fitur inilah yang kemudian digunakan pada tahap klasifikasi dokumen. Pemilihan fitur memiliki dua tujuan, yaitu

mengurangi dimensi kata yang akan

digunakan dan meningkatkan akurasi

klasifikasi karena telah dihilangkan

(Manning 2008).

Pada penelitian ini, pemilihan fitur dilakukan dengan metode uji Chi-Kuadrat.

Penentuan fitur dilakukan dengan

menghitung nilai 'W antara dengan

kelas yang dinyatakan dalam Persamaan (2). Pemilihan fitur dilakukan pada dua taraf nyata , yaitu 0.01 dan 0.001 dengan derajat

bebas satu. ' yang terpilih pada taraf

nyata =0.01 adalah yang memiliki

nilai χ2 diatas nilai kritis 6.63, sedangkan yang terpilih pada taraf nyata 9S99"

adalah yang memiliki nilai χ2 diatas nilai

kritis 10.83. Fitur yang dihasilkan melalui uji Chi-Kuadrat kemudian digunakan untuk membangun model berbasis vektor . Model

terdiri atas beberapa dokumen yang

direpresentasikan sebagai vektor dari

frekuensi kemunculan fitur.

Klasifikasi KNN Fuzzy

Klasifikasi diawali dengan menghitung

panjang vektor setiap dokumen, baik

dokumen latih maupun dokumen uji. Setelah itu, vektor dokumen uji dikalikan dengan

setiap vektor dokumen latih untuk

mendapatkan ukuran kesamaan .

Ukuran kesamaan dihitung

menggunakan Persamaan (1). Nilai kesamaan antara dokumen uji dengan setiap

dokumen latih kemudian diurutkan secara

menurun.

Pengklasifikasi akan memilih vektor

dokumen X ! "!Y! Z [ yang memiliki

nilai kesamaan tertinggi sebagai

tetangga dari vektor dokumen uji . Nilai ditentukan secara manual dengan metode

$ % Derajat keanggotaan vektor

dokumen uji untuk setiap kelas dihitung menggunakan Persamaan (3). Kelas yang memiliki derajat keanggotaan tertinggi adalah kelas target dari dokumen uji .

Temu Kembali Informasi

Implementasi temu kembali informasi untuk dokumen tumbuhan obat Indonesia

dilakukan dengan Sphinx 1.10 beta.

Implementasi dilakukan dalam beberapa tahap, yaitu praproses data, pengindeksan dan pencarian teks. Praproses data adalah tahap untuk mempersiapkan data yang akan diindeks oleh Sphinx. Data yang digunakan

pada penelitian ini adalah $ SQL

yang memuat seluruh dokumen tumbuhan obat. Data yang akan diindeks memiliki atribut id, nama, nama latin, deskripsi, famili dan penyakit.

Tahap selanjutnya adalah pengindeksan. Pengindeksan dimulai dari membangun

koneksi ke $ , mengambil data yang

akan diindeks melalui perintah ,

tokenisasi, penentuan panjang minimal kata dan pembuatan indeks. Berikut perintah yang digunakan untuk mengambil data yang akan diindeks :

$ %$ & '()(*

(10)

7 Panjang minimal kata yang digunakan pada

penelitian ini adalah tiga karakter.

Tahap terakhir dari implementasi proses temu kembali informasi adalah pencarian

teks. Pencarian teks adalah proses

pencocokan kueri dengan indeks yang dihasilkan pada tahap sebelumnya. Pencarian

teks dilakukan pada kelas hasil

klasifikasi dokumen, tetapi dilakukan pada seluruh dokumen yang terdapat pada koleksi.

Kueri yang masuk diklasifikasikan

terlebih dahulu tetapi langsung diboboti dengan seluruh dokumen yang ada pada koleksi. Pembobotan yang digunakan adalah pembobotan BM25. Penghitungan bobot

dokumen terhadap kueri dinyatakan

dalam Persamaan (8). Dokumen yang paling relevan adalah dokumen yang memiliki bobot paling tinggi.

Evaluasi

Evaluasi yang dilakukan pada penelitian ini meliputi dua bagian, yaitu evaluasi untuk pengklasifikasi KNN Fuzzy dan evaluasi untuk sistem temu kembali informasi.

Evaluasi pengklasifikasi KNN Fuzzy

dilakukan dengan menghitung proporsi antara jumlah dokumen yang benar diklasifikasikan dengan seluruh jumlah dokumen pada koleksi. Nilai akurasi dihitung menggunakan Persamaan (4).

Evaluasi sistem temu kembali informasi dilakukan untuk melihat pengaruh dari klasifikasi dokumen terhadap kinerja sistem temu kembali informasi melainkan untuk melihat kinerja suatu sistem temu kembali

infomasi yang diimplementasikan pada

dokumen tumbuhan obat Indonesia. Evaluasi untuk sistem temu kembali informasi dimulai

dengan menghitung nilai dan &

dari 30 kueri uji. Penghitungan

& dinyatakan dalam Persamaan (5) dan (6). Proses selanjutnya adalah melakukan interpolasi maksimum untuk mendapatkan

nilai & (AVP) terhadap 11

titik standard. Perhitungan AVP

Kueri yang digunakan untuk

mengevaluasi sistem temu kembali informasi ditentukan sesuai dengan topik bahasan yang terdapat pada keseluruhan isi dokumen. Topik bahasan tersebut meliputi penyakit yang dapat disembuhkan oleh tumbuhan obat, deskripsi tumbuhan, kandungan kimia dan cara membuat ramuan dari tumbuhan obat. Pengujian juga dilakukan terhadap kueri

dengan panjang satu kata dan kueri dengan panjang dua kata. Kueri uji dengan panjang satu kata ditunjukkan oleh Tabel 5. Kueri uji dengan panjang dua kata ditunjukkan oleh Tabel 6.

Tabel 5 Kueri uji dengan panjang 1 kata Topik Bahasan Kueri Uji Penyakit yang dapat

Tabel 6 Kueri uji dengan panjang 2 kata Topik Bahasan Kueri Uji

Penyakit yang dapat

Lingkungan implementasi yang digunakan adalah :

1. Perangkat lunak:

a. Sistem operasi Windows 7 Starter

(11)

8

a. Processor Intel Atom 1.66 GHz

b. RAM 1 GB

c. Harddisk dengan sisa kapasitas 179

GB

HASIL DAN PEMBAHASAN Dokumen tumbuhan obat

Penelitian ini menggunakan 132

dokumen tumbuhan obat yang dibagi menjadi dua bagian, yaitu dokumen latih sebanyak 93 dokumen dan dokumen uji sebanyak 39

dokumen. Setiap dokumen uji akan

diklasifikasikan ke dalam dua kelas target yaitu kelas famili dan kelas penyakit.

Hasil praproses data

Praproses data hanya dilakukan pada

bagian deskripsi dari dokumen tumbuhan

obat. Hasil dari praproses data adalah daftar

Pemilihan fitur dengan metode pengujian W dilakukan pada dua taraf nyata , yaitu 0.01 dan 0.001. Fitur yang dihasilkan pada taraf nyata 0.01 adalah 2.942 fitur. Fitur yang dihasilkan pada taraf nyata 0.001 adalah 1.578 fitur.

Hasil evaluasi klasifikasi KNN Fuzzy 1. Pengaruh taraf nyata ( ) pada

pemilihan fitur terhadap tingkat akurasi

Pemilihan fitur dilakukan pada dua taraf nyata ( ) yang berbeda, yaitu 0.01 dan 0.001. Pengaruh kedua taraf nyata ( ) dengan derajat bebas satu terhadap tingkat akurasi dari pengklasifikasi KNN Fuzzy dapat dilihat pada Tabel 7. Tingkat akurasi yang dihasilkan untuk kelas famili memiliki nilai yang sama, baik untuk fitur pada taraf nyata

0.01 maupun fitur pada taraf nyata 0.001. Tingkat akurasi yang dihasilkan adalah 97.43%. Tidak adanya perbedaan dari tingkat akurasi yang dihasilkan menunjukkan bahwa peningkatan taraf nyata pada saat pemilihan fitur tidak berpengaruh terhadap tingkat akurasi dari pengklasifikasi untuk kelas target famili.

Tabel 7 Pengaruh taraf nyata ( pada

pemilihan fitur terhadap tingkat akurasi pengklasifikasi KNN Fuzzy

Kelas =0.01 =0.001

Famili 97.43% 97.43%

Penyakit 100% 94.87%

Kesalahan pelabelan kelas famili untuk kedua taraf nyata hanya terjadi pada dokumen uji yang berisi informasi tentang tumbuhan obat ‘remek daging’. Hal ini disebabkan kurangnya data latih mengenai

tumbuhan obat ‘remek daging’ dan

kurangnya fitur yang merepresentasikan kelas target ‘achantaceae’. Kesalahan pelabelan kelas dokumen ‘remek daging’ untuk kedua taraf nyata dapat dilihat pada Lampiran 2 dan 3.

Tingkat akurasi untuk kelas penyakit yang dihasilkan oleh fitur pada taraf nyata 0.01 adalah 100%, namun saat fitur yang digunakan adalah fitur pada taraf nyata 0.001, tingkat akurasi turun menjadi 94.87%. Penghitungan akurasi kelas penyakit untuk kedua taraf nyata dilakukan berdasarkan hasil

" yang terdapat pada Lampiran 4. Penurunan tingkat akurasi terjadi karena pemilihan fitur untuk kelas penyakit yang dilakukan pada taraf nyata 0.001 telah

menghilangkan beberapa yang

mempunyai informasi penting sehingga pengklasifikasi tidak mampu memberi label kelas yang benar untuk beberapa dokumen uji.

Hal ini selaras dengan perbedaan jumlah fitur yang dihasilkan oleh kedua taraf nyata. Jumlah fitur yang dihasilkan pada taraf nyata 0.01 (2.942 fitur) lebih banyak dibandingkan dengan jumlah fitur yang dihasilkan pada taraf nyata 0.001 (1.578 fitur) karena pemilihan fitur pada taraf nyata 0.01

menetapkan nilai kritis yang lebih rendah.

(12)

8

a. Processor Intel Atom 1.66 GHz

b. RAM 1 GB

c. Harddisk dengan sisa kapasitas 179

GB

HASIL DAN PEMBAHASAN Dokumen tumbuhan obat

Penelitian ini menggunakan 132

dokumen tumbuhan obat yang dibagi menjadi dua bagian, yaitu dokumen latih sebanyak 93 dokumen dan dokumen uji sebanyak 39

dokumen. Setiap dokumen uji akan

diklasifikasikan ke dalam dua kelas target yaitu kelas famili dan kelas penyakit.

Hasil praproses data

Praproses data hanya dilakukan pada

bagian deskripsi dari dokumen tumbuhan

obat. Hasil dari praproses data adalah daftar

Pemilihan fitur dengan metode pengujian W dilakukan pada dua taraf nyata , yaitu 0.01 dan 0.001. Fitur yang dihasilkan pada taraf nyata 0.01 adalah 2.942 fitur. Fitur yang dihasilkan pada taraf nyata 0.001 adalah 1.578 fitur.

Hasil evaluasi klasifikasi KNN Fuzzy 1. Pengaruh taraf nyata ( ) pada

pemilihan fitur terhadap tingkat akurasi

Pemilihan fitur dilakukan pada dua taraf nyata ( ) yang berbeda, yaitu 0.01 dan 0.001. Pengaruh kedua taraf nyata ( ) dengan derajat bebas satu terhadap tingkat akurasi dari pengklasifikasi KNN Fuzzy dapat dilihat pada Tabel 7. Tingkat akurasi yang dihasilkan untuk kelas famili memiliki nilai yang sama, baik untuk fitur pada taraf nyata

0.01 maupun fitur pada taraf nyata 0.001. Tingkat akurasi yang dihasilkan adalah 97.43%. Tidak adanya perbedaan dari tingkat akurasi yang dihasilkan menunjukkan bahwa peningkatan taraf nyata pada saat pemilihan fitur tidak berpengaruh terhadap tingkat akurasi dari pengklasifikasi untuk kelas target famili.

Tabel 7 Pengaruh taraf nyata ( pada

pemilihan fitur terhadap tingkat akurasi pengklasifikasi KNN Fuzzy

Kelas =0.01 =0.001

Famili 97.43% 97.43%

Penyakit 100% 94.87%

Kesalahan pelabelan kelas famili untuk kedua taraf nyata hanya terjadi pada dokumen uji yang berisi informasi tentang tumbuhan obat ‘remek daging’. Hal ini disebabkan kurangnya data latih mengenai

tumbuhan obat ‘remek daging’ dan

kurangnya fitur yang merepresentasikan kelas target ‘achantaceae’. Kesalahan pelabelan kelas dokumen ‘remek daging’ untuk kedua taraf nyata dapat dilihat pada Lampiran 2 dan 3.

Tingkat akurasi untuk kelas penyakit yang dihasilkan oleh fitur pada taraf nyata 0.01 adalah 100%, namun saat fitur yang digunakan adalah fitur pada taraf nyata 0.001, tingkat akurasi turun menjadi 94.87%. Penghitungan akurasi kelas penyakit untuk kedua taraf nyata dilakukan berdasarkan hasil

" yang terdapat pada Lampiran 4. Penurunan tingkat akurasi terjadi karena pemilihan fitur untuk kelas penyakit yang dilakukan pada taraf nyata 0.001 telah

menghilangkan beberapa yang

mempunyai informasi penting sehingga pengklasifikasi tidak mampu memberi label kelas yang benar untuk beberapa dokumen uji.

Hal ini selaras dengan perbedaan jumlah fitur yang dihasilkan oleh kedua taraf nyata. Jumlah fitur yang dihasilkan pada taraf nyata 0.01 (2.942 fitur) lebih banyak dibandingkan dengan jumlah fitur yang dihasilkan pada taraf nyata 0.001 (1.578 fitur) karena pemilihan fitur pada taraf nyata 0.01

menetapkan nilai kritis yang lebih rendah.

(13)

9 terhadap tingkat akurasi dari pengklasifikasi

untuk kelas target penyakit.

Dilihat dari waktu eksekusi, proses klasifikasi untuk fitur pada taraf nyata 0.01 membutuhkan waktu yang lebih lama dibandingkan dengan fitur pada taraf nyata 0.001. Waktu eksekusi rata-rata untuk fitur yang memiliki taraf nyata 0.01 adalah 13.47 detik, sedangkan waktu eksekusi rata-rata untuk fitur yang memiliki taraf nyata 0.001 adalah 7.56 detik. Pengaruh taraf nyata ( ) terhadap waktu eksekusi dapat dilihat pada Tabel 8.

Tabel 8 Pengaruh taraf nyata ( terhadap waktu eksekusi

Kelas Waktu ekseskusi

(detik)

= 0.01 13.47

'= 0.001 7.56

Perbedaan waktu eksekusi disebabkan oleh perbedaan jumlah fitur yang dihasilkan pada kedua taraf nyata. Jumlah fitur yang dihasilkan pada taraf nyata 0.01 lebih banyak dibandingkan dengan jumlah fitur yang dihasilkan pada taraf nyata 0.001. Jumlah fitur akan sangat berpengaruh pada saat

penghitungan nilai similaritas antara

dokumen uji dengan dokumen latih. Semakin banyak fitur yang digunakan, semakin banyak waktu yang dibutuhkan untuk menghitung similaritas antara dokumen uji dengan setiap dokumen latih.

Perbedaan waktu eksekusi yang tidak

signifikan antara kedua sistem

pengklasifikasi menunjukkan bahwa secara keseluruhan kinerja pengklasifikasi KNN Fuzzy saat menggunakan fitur pada taraf nyata 0.01 lebih baik dibandingkan saat menggunakan fitur pada taraf nyata 0.001 karena fitur yang dihasilkan pada taraf nyata 0.01 lebih informatif dibandingkan dengan fitur yang dihasilkan pada taraf nyata 0.001.

2. Pengaruh nilai \ (\-nearest neighbor) terhadap tingkat akurasi

Pada saat pengklasifikasi membentuk derajat keanggotaan untuk setiap kelas, pengklasifikasi terlebih dahulu menentukan -tetangga terdekat atau -dokumen latih yang memiliki nilai similaritas tertinggi terhadap dokumen uji.

Penentuan nilai dilakukan secara bertahap

dari =1 hingga =50 dengan interval

sebesar 5. Penentuan nilai secara bertahap

dilakukan untuk melihat nilai yang

optimum terhadap tingkat akurasi

pengklasifikasi. Penentuan nilai dilakukan pada fitur dengan taraf nyata 0.01 dan derajat bebas satu. Pengaruh beberapa nilai terhadap tingkat akurasi pengklasifikasi KNN Fuzzy ditunjukkan pada Gambar 3.

Gambar 3 Pengaruh beberapa nilai \

terhadap tingkat akurasi pengklasifikasi KNN Fuzzy.

Tingkat akurasi optimum pengklasifikasi KNN Fuzzy untuk kelas famili dicapai pada

saat bernilai 5. Tingkat akurasi yang

dihasilkan sebesar 97.43%. Tingkat akurasi

tidak berubah hingga nilai =50. Hal ini

menunjukkan bahwa kinerja pengklasifikasi KNN Fuzzy untuk kelas famili relatif stabil terhadap penentuan nilai .

Tingkat akurasi optimum pengklasifikasi KNN Fuzzy untuk kelas penyakit dicapai pada saat bernilai 5. Tingkat akurasi yang dihasilkan sebesar 100%. Tingkat akurasi untuk kelas penyakit mengalami penurunan sebesar 2.57% pada saat nilai =40. Hal ini menunjukkan bahwa kinerja pengklasifikasi KNN Fuzzy untuk kelas penyakit tidak stabil

terhadap penentuan nilai . Nilai yang

(14)

10

Secara keseluruhan, kinerja

pengklasifikasi untuk kedua kelas target mencapai optimum saat nilai =5. Hal ini ditunjukkan dari tingkat akurasi yang dihasilkan untuk kedua kelas target. Tingkat akurasi yang dihasilkan untuk kelas famili dan kelas penyakit pada saat nilai =5 dapat dilihat pada Tabel 9.

Tabel 9 Tingkat akurasi yang dihasilkan untuk kelas famili dan kelas penyakit pada saat nilai \=5

Kelas Famili Penyakit

Tingkat

akurasi 97.43% 100%

Penentuan nilai diperlukan untuk

mengetahui kinerja pengklasifikasi KNN Fuzzy yang optimum. Penentuan nilai yang ‘baik’ dapat dilakukan dengan teknik optimisasi parameter.

3. Pengaruh fuzzy terhadap distibusi dokumen yang tidak merata

Penggunaan fuzzy pada pengklasifikasi merupakan adaptasi dari algoritma Fuzzy C-means. Algoritma ini memungkinkan suatu

dokumen untuk memiliki tingkat

keanggotaan terhadap semua kelas yang ada sehingga suatu dokumen tidak mutlak dikatakan sebagai anggota dari satu kelas tertentu. Persebaran dokumen yang tidak merata pada setiap kelas menyebabkan dokumen uji cenderung diberi label kelas

yang dominan. Kelas dominan yang

dimaksud adalah kelas yang memiliki jumlah dokumen lebih banyak (secara kuantitas) dibandingkan dengan kelas lainnya. Kelas yang dominan akan memiliki lebih banyak

sampel pada saat pengambilan tetangga

terdekat sehingga dokumen uji berpeluang lebih besar untuk masuk ke dalam kelas yang dominan. Hal ini dapat diatasi dengan menggunakan fuzzy. Penggunaan fuzzy pada

pengklasifikasi digunakan untuk

menghilangkan efek dari kelas dominan dengan cara memberi derajat keanggotaan untuk setiap kelas yang ada.

Pengaruh fuzzy pada algoritma

pengklasifikasi dalam mengatasi masalah persebaran dokumen yang tidak merata

ditunjukkan dari tingkat akurasi yang

dihasilkan. Pada penggunaan fitur dengan taraf nyata 0.01, nilai =5 untuk kelas famili dan =5 untuk kelas penyakit, tingkat akurasi yang dihasilkan untuk kelas famili sebesar

97.43% dan untuk kelas penyakit sebesar

100%. Hasil ini menunjukkan bahwa

penerapan fuzzy pada algoritma

pengklasifikasi mampu mengatasi persebaran dokumen yang tidak merata pada suatu kelas.

4. Pengaruh fuzzy dalam mengatasi karakteristik dokumen tumbuhan obat yang seragam

Dokumen tumbuhan obat yang

digunakan pada penelitian ini memiliki

karakteristik yang seragam sehingga

pengelompokan dokumen sulit untuk

dilakukan. Pengaruh fuzzy dalam mengatasi karakteristik dokumen yang seragam dapat dilihat melalui pengujian terhadap dua contoh dokumen. Dokumen uji yang pertama adalah dokumen tentang tumbuhan obat ‘landik’

yang diklasifikasikan sebagai kelas

(15)

11 Tiga kelas famili yang memiliki derajat

keanggotaan tertinggi untuk dokumen uji pertama adalah ‘achantaceae’, ‘rutaceae’ dan

‘euphorbiacae’, sedangkan tiga kelas

penyakit yang memiliki derajat keanggotaan tertinggi untuk dokumen uji pertama adalah

‘kulit’, ‘nyeri-radang-demam’ dan

‘perawatan’. Derajat keanggotaan yang

dihasilkan oleh dokumen uji pertama dapat dilihat pada Tabel 10.

Tabel 10 Derajat keanggotaan yang

dihasilkan oleh dokumen uji pertama dengan taraf nyata 0.01, \=5 untuk kelas famili dan

\=5 untuk kelas penyakit

Kelas Nilai keanggotaan tertinggi untuk dokumen uji kedua adalah ‘rutaceae’, ‘euphorbiaceae’ dan

‘menispermacae’, sedangkan tiga kelas

penyakit yang memiliki derajat keanggotaan tertinggi untuk dokumen uji kedua adalah

‘nyeri-radang-demam’, ‘kulit’ dan

‘pencernaan’. Derajat keanggotaan yang dihasilkan oleh dokumen uji kedua dapat dilihat pada Tabel 11.

Hasil klasifikasi terhadap dokumen uji

menunjukkan bahwa fuzzy mampu

mengelompokkan kedua dokumen uji ke dalam kelas yang berbeda meskipun kedua

dokumen memiliki karakteristik yang

seragam. Kedekatan karakteristik antara dua dokumen uji dapat dilihat dari derajat keanggotaan yang dihasilkan.

Tabel 11 Derajat keanggotaan yang

dihasilkan oleh dokumen uji kedua dengan taraf nyata 0.01, \=5 untuk kelas famili dan

\=5 untuk kelas penyakit

Kelas Nilai

Hasil evaluasi temu kembali informasi Evaluasi temu kembali informasi yang

dilakukan dalam penelitian ini

menunjukkan pengaruh klasifikasi dokumen terhadap hasil pencarian dokumen relevan karena kueri tidak melalui tahap klasifikasi terlebih dahulu. Hal ini terjadi akibat waktu eksekusi untuk kedua model klasifikasi yang tidak efisien untuk melakukan pencarian berdasarkan hasil klasifikasi kueri. Oleh karena itu, hasil evaluasi temu kembali informasi tidak merepresentasikan kinerja sistem akibat klasifikasi dokumen.

(16)

12 panjang 1 kata dan kueri uji dengan panjang

2 kata. Detail dari kueri uji yang digunakan untuk mengevaluasi sistem temu kembali informasi dapat dilihat pada Tabel 5 dan Tabel 6.

Sebagian besar dokumen yang

ditemukembalikan oleh sistem dengan kueri uji 1 kata adalah dokumen yang relevan. Dokumen yang tidak relevan namun ikut ditemukembalikan hanya terjadi pada kueri uji ‘vitamin’ dan kueri uji ‘kalsium’. Hal ini disebabkan sistem tidak mengetahui makna dari kueri yang diinginkan oleh pengguna.

Misalnya informasi yang diinginkan

pengguna adalah informasi mengenai

kandungan vitamin dalam tumbuhan obat

(kueri ‘vitamin’), namun sistem

menemukembalikan informasi mengenai

penyakit yang terjadi akibat kekurangan vitamin (kueri ‘vitamin’).

Pada saat sistem dievaluasi dengan kueri uji 2 kata, terdapat beberapa dokumen tidak relevan yang ikut ditemukembalikan. Hal ini terjadi pada saat sistem dievaluasi dengan kueri ‘gatal-gatal’, ‘vitamin c’, ‘zat warna’ dan ‘buah diperas’. Kesalahan sistem dalam menemukembalikan dokumen disebabkan

sistem melakukan pencarian dokumen

(berdasarkan pembobotan BM25) secara terpisah untuk masing-masing kata. Misalnya untuk kueri ‘zat warna’, sistem akan melakukan pembobotan terhadap kata ‘zat’ dan kata ‘warna’. Hal ini sejalan dengan metode pembobotan BM25 yang hanya memperhatikan kemunculan satu kata tanpa

memperhatikan kedekatan kata yang

digunakan pada kueri.

Pada saat sistem dievaluasi dengan kueri uji 2 kata, sistem akan melakukan pencarian secara terpisah terhadap masing-masing kata dan hal ini menyebabkan dokumen yang tidak relevan ikut terambil, namun ada beberapa kueri dengan panjang 2 kata yang

berhasil menemukembalikan seluruh

dokumen relevan, yaitu kueri ‘batuk pilek’, ‘datang bulan’, ‘sesak napas’, ‘tumbuhan merambat’, ‘tanaman hias’, ‘daun lebar’, ‘buah buni’ dan ‘kalsium oksalat’. Hal ini terjadi karena kata pertama dan kata kedua dalam kueri tersebut memiliki frekuensi kemunculan yang cenderung sama. Frekuensi kemunculan dua kata secara bersamaan sangat dipengaruhi oleh makna dari kata tersebut. Misalnya untuk kata “buah buni”, kata “buni” tidak ditemukan berdiri sendiri dalam seluruh koleksi dokumen tumbuhan

obat karena kemuculan kata “buni” akan selalu diikuti oleh kemunculan kata “buah”. Namun demikian hal ini sangat mungkin dipengaruhi oleh koleksi dokumen yang digunakan.

Nilai AVP yang dihasilkan saat sistem dievaluasi dengan kueri uji 1 kata adalah 0.96, sedangkan nilai AVP yang dihasilkan saat sistem dievaluasi dengan kueri uji 2 kata adalah 0.89. Penurunan nilai AVP sebesar 0.06 menunjukkan bahwa kinerja sistem temu kembali informasi lebih baik pada saat sistem dievaluasi dengan kueri uji yang memiliki panjang 1 kata. Secara keseluruhan kinerja sistem temu kembali informasi sudah baik. Hal ini ditunjukkan dari nilai

& (AVP) yang dihasilkan. Perbandingan nilai AVP untuk kedua kategori kueri uji dapat dilihat pada Gambar 3.

Gambar 4 Perbandingan AVP untuk kueri uji 1 kata dan kueri uji 2 kata.

KESIMPULAN DAN SARAN Kesimpulan

Penelitian ini menerapkan metode W

untuk pemilihan fitur dan metode KNN Fuzzy untuk klasifikasi dokumen tumbuhan obat. Pemilihan fitur dilakukan pada dua taraf nyata, yaitu 0.01 dan 0.001. Jumlah fitur yang dihasilkan pada taraf nyata 0.01 lebih banyak dibandingkan dengan jumlah fitur yang dihasilkan pada taraf nyata 0.001 sehingga tingkat akurasi yang dihasilkan oleh

pengklasifikasi saat menggunakan fitur

dengan taraf nyata 0.01 lebih tinggi dibandingkan saat menggunakan fitur dengan

0

(17)

12 panjang 1 kata dan kueri uji dengan panjang

2 kata. Detail dari kueri uji yang digunakan untuk mengevaluasi sistem temu kembali informasi dapat dilihat pada Tabel 5 dan Tabel 6.

Sebagian besar dokumen yang

ditemukembalikan oleh sistem dengan kueri uji 1 kata adalah dokumen yang relevan. Dokumen yang tidak relevan namun ikut ditemukembalikan hanya terjadi pada kueri uji ‘vitamin’ dan kueri uji ‘kalsium’. Hal ini disebabkan sistem tidak mengetahui makna dari kueri yang diinginkan oleh pengguna.

Misalnya informasi yang diinginkan

pengguna adalah informasi mengenai

kandungan vitamin dalam tumbuhan obat

(kueri ‘vitamin’), namun sistem

menemukembalikan informasi mengenai

penyakit yang terjadi akibat kekurangan vitamin (kueri ‘vitamin’).

Pada saat sistem dievaluasi dengan kueri uji 2 kata, terdapat beberapa dokumen tidak relevan yang ikut ditemukembalikan. Hal ini terjadi pada saat sistem dievaluasi dengan kueri ‘gatal-gatal’, ‘vitamin c’, ‘zat warna’ dan ‘buah diperas’. Kesalahan sistem dalam menemukembalikan dokumen disebabkan

sistem melakukan pencarian dokumen

(berdasarkan pembobotan BM25) secara terpisah untuk masing-masing kata. Misalnya untuk kueri ‘zat warna’, sistem akan melakukan pembobotan terhadap kata ‘zat’ dan kata ‘warna’. Hal ini sejalan dengan metode pembobotan BM25 yang hanya memperhatikan kemunculan satu kata tanpa

memperhatikan kedekatan kata yang

digunakan pada kueri.

Pada saat sistem dievaluasi dengan kueri uji 2 kata, sistem akan melakukan pencarian secara terpisah terhadap masing-masing kata dan hal ini menyebabkan dokumen yang tidak relevan ikut terambil, namun ada beberapa kueri dengan panjang 2 kata yang

berhasil menemukembalikan seluruh

dokumen relevan, yaitu kueri ‘batuk pilek’, ‘datang bulan’, ‘sesak napas’, ‘tumbuhan merambat’, ‘tanaman hias’, ‘daun lebar’, ‘buah buni’ dan ‘kalsium oksalat’. Hal ini terjadi karena kata pertama dan kata kedua dalam kueri tersebut memiliki frekuensi kemunculan yang cenderung sama. Frekuensi kemunculan dua kata secara bersamaan sangat dipengaruhi oleh makna dari kata tersebut. Misalnya untuk kata “buah buni”, kata “buni” tidak ditemukan berdiri sendiri dalam seluruh koleksi dokumen tumbuhan

obat karena kemuculan kata “buni” akan selalu diikuti oleh kemunculan kata “buah”. Namun demikian hal ini sangat mungkin dipengaruhi oleh koleksi dokumen yang digunakan.

Nilai AVP yang dihasilkan saat sistem dievaluasi dengan kueri uji 1 kata adalah 0.96, sedangkan nilai AVP yang dihasilkan saat sistem dievaluasi dengan kueri uji 2 kata adalah 0.89. Penurunan nilai AVP sebesar 0.06 menunjukkan bahwa kinerja sistem temu kembali informasi lebih baik pada saat sistem dievaluasi dengan kueri uji yang memiliki panjang 1 kata. Secara keseluruhan kinerja sistem temu kembali informasi sudah baik. Hal ini ditunjukkan dari nilai

& (AVP) yang dihasilkan. Perbandingan nilai AVP untuk kedua kategori kueri uji dapat dilihat pada Gambar 3.

Gambar 4 Perbandingan AVP untuk kueri uji 1 kata dan kueri uji 2 kata.

KESIMPULAN DAN SARAN Kesimpulan

Penelitian ini menerapkan metode W

untuk pemilihan fitur dan metode KNN Fuzzy untuk klasifikasi dokumen tumbuhan obat. Pemilihan fitur dilakukan pada dua taraf nyata, yaitu 0.01 dan 0.001. Jumlah fitur yang dihasilkan pada taraf nyata 0.01 lebih banyak dibandingkan dengan jumlah fitur yang dihasilkan pada taraf nyata 0.001 sehingga tingkat akurasi yang dihasilkan oleh

pengklasifikasi saat menggunakan fitur

dengan taraf nyata 0.01 lebih tinggi dibandingkan saat menggunakan fitur dengan

0

(18)

13 taraf nyata 0.001. Penentuan nilai tetangga

terdekat yang besar menyebabkan batasan antar kelas menjadi lebih kabur. Tingkat akurasi optimum dari pengklasifikasi KNN Fuzzy untuk kedua kelas target dicapai pada saat nilai =5.

Secara keseluruhan, kinerja sistem temu kembali informasi sudah baik. Hal ini

ditunjukkan dari nilai &

(AVP) yang dihasilkan. Nilai AVP yang dihasilkan untuk kueri dengan panjang 1 kata adalah 0.96. Nilai AVP yang dihasilkan untuk kueri dengan panjang 2 kata adalah 0.89. Kinerja sistem temu kembali informasi lebih baik saat pencarian dokumen dilakukan dengan kueri yang memiliki panjang 1 kata.

Saran

Berikut ini penelitian lanjutan yang dapat

dilakukan berkaitan dengan klasifikasi

dokumen menggunakan KNN Fuzzy:

1. Penggunaan jumlah dokumen tumbuhan

obat yang lebih besar dan jenis tumbuhan obat yang lebih bervariasi.

2. Pengaruh teknik optimisasi parameter

dalam menentukan nilai tetangga

terdekat terhadap tingkat akurasi

pengklasifikasi.

DAFTAR PUSTAKA

Baeza-Yates R, Riberio-Neto B. 1999.

! ( # %

England: Addison Wesley.

Han J, Kamber M. 2006% ) !

& ' . USA : Morgan Kaufman Publishers.

Manning CD, Raghavan P, Schutze H. 2008.

( ( # %

New York : Cambridge University Press.

Spiegel M. 2004. * + , .

Jakarta: Erlangga.

Shang % 2006. An Adaptive Fuzzy kNN

Text Classifier. ( -../. Part III. Hal

: 216-223.

[STI] Sphinx Technologies Inc. 2008. & "

0%0. $ %

http://sphinxsearch.com [9 Maret 2011].

Tan % 2006. ( ) ! %

USA: Addison Weasley.

Wang J % 2000. Research on web text

mining. 1 & #

) & . Vol 37. Hal : 518-519. Yang Y, Pedersen J. 1997. A Comparative Study on Feature Selection in Text Categorization. (

! 2 0334%

Zuhud, E.A.M. 2009. Potensi Hutan Tropika Indonesia sebagai Penyangga Bahan Obat Alam untuk Kesehatan Bangsa.

1 5 6 ( . Vol VI

(19)

KLASIFIKASI DO

D

FAKULTAS MAT

SI DOKUMEN TUMBUHAN OBAT MENGG

ALGORITMA KNN FUZZY

KRISTINA PASKIANTI

DEPARTEMEN ILMU KOMPUTER

S MATEMATIKA DAN ILMU PENGETAHUA

INSTITUT PERTANIAN BOGOR

BOGOR

2011

NGGUNAKAN

(20)

13 taraf nyata 0.001. Penentuan nilai tetangga

terdekat yang besar menyebabkan batasan antar kelas menjadi lebih kabur. Tingkat akurasi optimum dari pengklasifikasi KNN Fuzzy untuk kedua kelas target dicapai pada saat nilai =5.

Secara keseluruhan, kinerja sistem temu kembali informasi sudah baik. Hal ini

ditunjukkan dari nilai &

(AVP) yang dihasilkan. Nilai AVP yang dihasilkan untuk kueri dengan panjang 1 kata adalah 0.96. Nilai AVP yang dihasilkan untuk kueri dengan panjang 2 kata adalah 0.89. Kinerja sistem temu kembali informasi lebih baik saat pencarian dokumen dilakukan dengan kueri yang memiliki panjang 1 kata.

Saran

Berikut ini penelitian lanjutan yang dapat

dilakukan berkaitan dengan klasifikasi

dokumen menggunakan KNN Fuzzy:

1. Penggunaan jumlah dokumen tumbuhan

obat yang lebih besar dan jenis tumbuhan obat yang lebih bervariasi.

2. Pengaruh teknik optimisasi parameter

dalam menentukan nilai tetangga

terdekat terhadap tingkat akurasi

pengklasifikasi.

DAFTAR PUSTAKA

Baeza-Yates R, Riberio-Neto B. 1999.

! ( # %

England: Addison Wesley.

Han J, Kamber M. 2006% ) !

& ' . USA : Morgan Kaufman Publishers.

Manning CD, Raghavan P, Schutze H. 2008.

( ( # %

New York : Cambridge University Press.

Spiegel M. 2004. * + , .

Jakarta: Erlangga.

Shang % 2006. An Adaptive Fuzzy kNN

Text Classifier. ( -../. Part III. Hal

: 216-223.

[STI] Sphinx Technologies Inc. 2008. & "

0%0. $ %

http://sphinxsearch.com [9 Maret 2011].

Tan % 2006. ( ) ! %

USA: Addison Weasley.

Wang J % 2000. Research on web text

mining. 1 & #

) & . Vol 37. Hal : 518-519. Yang Y, Pedersen J. 1997. A Comparative Study on Feature Selection in Text Categorization. (

! 2 0334%

Zuhud, E.A.M. 2009. Potensi Hutan Tropika Indonesia sebagai Penyangga Bahan Obat Alam untuk Kesehatan Bangsa.

1 5 6 ( . Vol VI

(21)

KLASIFIKASI DO

D

FAKULTAS MAT

SI DOKUMEN TUMBUHAN OBAT MENGG

ALGORITMA KNN FUZZY

KRISTINA PASKIANTI

DEPARTEMEN ILMU KOMPUTER

S MATEMATIKA DAN ILMU PENGETAHUA

INSTITUT PERTANIAN BOGOR

BOGOR

2011

NGGUNAKAN

(22)

ABSTRACT

PASKIANTI, KRISTINA. Document Classification using KNN Fuzzy Algorithm. Supervised by YENI HERDIYENI.

(23)

KLASIFIKASI DOKUMEN TUMBUHAN OBAT MENGGUNAKAN

ALGORITMA KNN FUZZY

KRISTINA PASKIANTI

Skripsi

Sebagai salah satu syarat untuk memperoleh

gelar Sarjana Komputer pada

Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(24)

Judul : Klasifikasi Dokumen Tumbuhan Obat menggunakan Algoritma KNN Fuzzy

Nama : Kristina Paskianti

NIM : G64070113

Menyetujui: Pembimbing,

Dr. Yeni Herdiyeni, S.Si, M.Kom. NIP. 19750923 200012 2 001

Mengetahui:

Ketua Departemen Ilmu Komputer,

Dr. Ir. Sri Nurdiati, M.Sc. NIP. 19601126 198601 2 001

(25)

PRAKATA

Puji dan syukur penulis panjatkan ke hadirat Tuhan Yang Maha Esa atas limpahan berkat dan karunia-Nya sehingga skripsi yang berjudul “Klasifikasi Dokumen Tumbuhan Obat menggunakan Algoritma KNN Fuzzy” dapat penulis selesaikan dengan baik. Penelitian ini dilaksanakan di departemen Ilmu Komputer Institut Pertanian Bogor selama periode Januari 2011 sampai dengan Juli 2011.

Selama penulis melakukan penelitian, penulis menyadari bahwa banyak pihak yang ikut membantu dalam penyelesaian skripsi ini. Oleh karena itu, penulis ingin menyampaikan ucapan terima kasih yang sebesar-besarnya kepada :

1. Orang tua terkasih, kakak dan keponakan atas doa dan dukungan yang diberikan.

2. Ibu Dr. Yeni Herdiyeni selaku pembimbing tugas akhir yang telah banyak memberikan ilmu,

pengalaman dan nasehat kepada penulis.

3. Bapak Ir. Julio Adisantoso M.Kom dan Bapak Musthofa S.Kom, M.Sc. selaku dosen penguji

atas kemudahan yang diberikan.

4. Yayasan Beasiswa Oikoumene atas bantuan yang diberikan selama periode 2009-2011.

5. Sahabat terbaik di Ilkomerz 44, Ria, Inne, Fani R., Manda, Jilly, Faza, Ade, Gamma, Fai dan

Yoga H. yang telah berbagi cerita suka dan duka bersama selama penulis menjadi mahasiswa.

6. Teman-teman satu bimbingan Yoga H., Fani R., Fani V., Iyos, Ella, Dimpy, Wido, Mba Vira

dan Mba Putri atas semangat, bantuan dan nasehat yang diberikan kepada penulis.

7. Ricky untuk semangat dan dukungan yang telah diberikan selama penulis menyelesaikan

tugas akhir.

Penulis menyadari bahwa masih banyak kekurangan yang ditemukan dalam tugas akhir ini. Penulis berharap adanya saran dan kritik yang membangun dari pihak yang membaca tulisan ini. Akhir kata, semoga tulisan ini dapat membawa manfaat.

Bogor, Juli 2011

(26)

RIWAYAT HIDUP

(27)

v

DAFTAR ISI

Halaman DAFTAR GAMBAR ... vi

DAFTAR LAMPIRAN ... vi

PENDAHULUAN ... 1 Latar Belakang ... 1 Tujuan ... 1 Ruang Lingkup ... 1 Manfaat ... 1

TINJAUAN PUSTAKA ... 1 Temu Kembali Informasi ... 1 Klasifikasi ... 2 Chi kuadrat (χ2) ... 2 KNN Fuzzy ... 3

! " ... 3

# dan ... 3 Sphinx ... 4 Pembobotan BM25... 4

METODE PENELITIAN ... 4 Dokumen tumbuhan obat ... 4 Praproses data ... 5 Pembagian data ... 6 Pemilihan fitur dengan χ ... 6 Klasifikasi KNN Fuzzy ... 6 Temu Kembali Informasi ... 6 Evaluasi ... 7 Lingkungan Implementasi ... 7

HASIL DAN PEMBAHASAN ... 8 Dokumen tumbuhan obat ... 8 Hasil praproses data ... 8 Hasil pemilihan fitur ... 8 Hasil evaluasi klasifikasi KNN Fuzzy ... 8 1. Pengaruh taraf nyata pada pemilihan fitur terhadap tingkat akurasi. ... 8 2. Pengaruh nilai ( -nearest neighbor) terhadap tingkat akurasi ... 9 3. Pengaruh fuzzy terhadap distibusi dokumen yang tidak merata... 10 4. Pengaruh fuzzy dalam mengatasi karakteristik dokumen tumbuhan obat yang seragam .. 10 Hasil evaluasi temu kembali informasi ...11

KESIMPULAN DAN SARAN ... 12 Kesimpulan ...12 Saran ...13

(28)

vi

DAFTAR GAMBAR

Halaman 1 Ilustrasi vektor dokumen dalam ruang vektor. ... 2 2 Metode penelitian. ... 4 3 Pengaruh beberapa nilai terhadap tingkat akurasi pengklasifikasi KNN Fuzzy. ... 9 4 Perbandingan AVP untuk kueri uji 1 kata dan kueri uji 2 kata. ...12

DAFTAR TABEL

Halaman 1 Nilai kritis χ2 dengan derajat bebas satu dan taraf nyata α ... 2 2 ! " untuk klasifikasi biner ... 3 3 Persebaran jumlah dokumen untuk kelas famili ... 5 4 Persebaran jumlah dokumen untuk kelas penyakit... 5 5 Kueri uji dengan panjang 1 kata ... 7 6 Kueri uji dengan panjang 2 kata ... 7 7 Pengaruh taraf nyata ( ) pada pemilihan fitur terhadap tingkat akurasi pengklasifikasi KNN

Fuzzy ... 8 8 Pengaruh taraf nyata ( ) terhadap waktu eksekusi ... 9 9 Tingkat akurasi yang dihasilkan untuk kelas famili dan kelas penyakit pada saat nilai =5 ...10 10 Derajat keanggotaan yang dihasilkan oleh dokumen uji pertama dengan taraf nyata 0.01, =5

untuk kelas famili dan =5 untuk kelas penyakit ...11 11 Derajat keanggotaan yang dihasilkan oleh dokumen uji kedua dengan taraf nyata 0.01, =5

untuk kelas famili dan =5 untuk kelas penyakit ...11

DAFTAR LAMPIRAN

(29)

1 PENDAHULUAN

Latar Belakang

seragam.

pengguna.

Tujuan

Ruang Lingkup

Manfaat

indeks.

(30)

2 vektor dalam ruang vektor. Ilustrasi ini dapat

dilihat pada Gambar 1.

Gambar 1 Ilustrasi vektor dokumen dalam ruang vektor.

Pengukuran kesamaan atau kemiripan antara vektor dokumen dan dokumen dalam ruang vektor dilakukan dengan

menghitung nilai similaritas antara

dan . Nilai similaritas

dapat diperoleh dari Persamaan (1).

dengan pembilang menyatakan perkalian (

& ) antara vektor dan , sedangkan penyebut menyatakan perkalian antara panjang vektor.

Klasifikasi

Klasifikasi terbagi menjadi dua fase, yaitu pelatihan dan pengujian. Pada fase pelatihan, sebagian data yang telah diketahui kelasnya (data latih) digunakan untuk membentuk model. Pada fase pengujian, model yang sudah terbentuk diuji dengan sebagian data lainnya (data uji) untuk mengetahui akurasi dari model tersebut. Selanjutnya model dapat digunakan untuk memprediksi kelas data yang belum diketahui (Han & Kamber 2006).

Chi kuadrat (χ2)

Chi kuadrat (χ2) adalah suatu ukuran yang menyatakan perbedaan antara frekuensi observasi (oi) dengan frekuensi harapan (ei)

untuk setiap (i) yang dirumuskan

dengan

Pengaruh kedua frekuensi tersebut dapat diuji dengan suatu hipotesis H0. Hipotesis nol adalah hipotesis yang menyatakan tidak adanya perbedaan yang signifikan antara

frekuensi observasi dengan frekuensi

harapan. Pengujian hipotesis dilakukan pada taraf nyata α tertentu. Taraf nyata yang dimaksud adalah peluang salah menolak hipotesis yang seharusnya benar (Spiegel 2004).

Pada penelitian ini, nilai χ2 digunakan

untuk melihat pengaruh kemunculan

terhadap kelas (Yang&Pedersen 1997).

Nilai χ2 untuk setiap kemunculan

terhadap kelas dihitung menggunakan

Persamaan (2).

dengan adalah jumlah dokumen latih,

adalah jumlah dokumen pada kategori yang

memuat , adalah jumlah dokumen . Penentuan fitur dilakukan berdasarkan

nilai χ2 dari masing-masing . ' yang

memiliki nilai χ2 diatas nilai kritis pada taraf nyata α dan derajat bebas satu adalah yang akan terpilih sebagai fitur. Nilai kritis χ2 dengan derajat bebas satu dan taraf nyata α ditunjukkan oleh Tabel 1.

(31)

3 KNN Fuzzy

KNN Fuzzy adalah pengembangan

metode klasifikasi KNN klasik yang

dilakukan oleh Shang (2006).

Pengembangan ini dilakukan untuk

mengatasi masalah sebaran dokumen yang tidak merata pada suatu kelas. Metode ini

mengadopsi teori untuk

membangun fungsi keanggotaan yang baru berdasarkan nilai similaritas antar dokumen. Penghitungan derajat keanggotaan dokumen uji untuk setiap kelas dinyatakan dalam

keanggotaan bernilai 1 jika dokumen latih adalah anggota kelas dan bernilai 0 jika yang menyatakan jumlah data uji yang benar diklasifikasikan dan jumlah data uji yang

salah diklasifikasikan (Tan 2006).

Contoh " untuk klasifikasi

biner ditunjukkan pada Tabel 2.

Tabel 2 ! " untuk klasifikasi

Keterangan untuk tabel 2 dinyatakan sebagai berikut :

· ' (TP), yaitu jumlah

· ' (TN), yaitu jumlah

· (FP), yaitu jumlah

· (FN), yaitu jumlah

Perhitungan akurasi dinyatakan dalam

Persamaan (4).

(4)

dan

# dan adalah dua kriteria

yang digunakan untuk mengevaluasi tingkat efektifitas kinerja sistem temu kembali

informasi. # adalah rasio jumlah

dokumen relevan yang ditampilkan terhadap jumlah seluruh dokumen yang relevan. adalah rasio jumlah dokumen relevan yang ditampilkan terhadap jumlah seluruh dokumen yang ditampilkan (Manning

2008). Perhitungan dan &

dinyatakan pada Persamaan (5) dan (6).

() *++

Menurut Baeza-Yates dan Riberio-Neto (1999), algoritma temu kembali informasi yang dievaluasi menggunakan beberapa kueri

berbeda akan menghasilkan nilai dan

Perhitungan AVP dinyatakan dalam

(32)

4

Pembobotan BM25