METODE PENELITIAN - Ekstraksi Ciri Dokumen Tumbuhan Obat Menggunakan Chi-Kuadrat dengan Klasifi

Penelitian ini dilaksanakan dalam beberapa tahapan yang diilustrasikan pada Gambar 2. Data yang diproses dalam sistem ini adalah koleksi dokumen. Input lain yang digunakan adalah stopwords yang merupakan daftar kata buang yang akan digunakan pada tahapan praproses. Tahap selanjutnya adalah dilakukan proses pemilihan fitur pada dokumen latih, kemudian hasilnya digunakan sebagai landasan dalam pembuatan vector space model. Vector space model digunakan untuk melakukan pembobotan terhadap kata sehingga akan merepresentasikan dokumen ke dalam bentuk vektor.

Tahapan berikutnya adalah melakukan klasifikasi Naïve Bayes pada dokumen uji yang belum diketahui kelasnya. Tahapan ini bertujuan untuk membangun model klasifikasi yang berupa indeks klasifikasi. Tahapan selanjutnya setelah model klasifikasi terbentuk yaitu pembangunan sistem temu kembali informasi yang akan mencari informasi berdasarkan hasil klasifikasi pada sistem. Pada tahap akhir, dilakukan evaluasi terhadap kinerja sistem klasifikasi dan kinerja sistem sistem temu kembali informasi yang dihasilkan.

Dokumen tumbuhan obat

Penelitian ini menggunakan koleksi dokumen tumbuhan obat sebagai korpus. Isi dari dokumen tidak diubah sehingga kesalahan ejaan dan tata bahasa tidak diperbaiki. Koleksi dokumen tumbuhan obat berjumlah 132 dokumen yang diperoleh dari buku-buku berikut:

1. Atlas Tumbuhan Obat Indonesia Jilid 1. Oleh dr. Setiawan Dalimartha

2. Atlas Tumbuhan Obat Indonesia Jilid 2. Oleh dr. Setiawan Dalimartha

3. Atlas Tumbuhan Obat Indonesia Jilid 3. Oleh dr. Setiawan Dalimartha

4. Obat Asli Indonesia Oleh Dr. Seno Sastroamidjojo

5. Ensiklopedi Millenium Jilid 1: Tumbuhan Berkhasiat Obat Indonesia.

6. Tumbuhan Obat dan Khasiatnya. Oleh Drs. H. Arief Hariana.

6 C:\Sphinx\bin\indexer.exe --config C:\Sphinx\sphinxDb.conf --all C:\Sphinx\bin> C:\Sphinx\bin\searchd –install – config C:\Sphinx\sphinxDb.conf – servicename SphinxSkripsi

Pada tahap pembangunan sistem temu kembali informasi, terlebih dahulu dilakukan pemrosesan dokumen dengan menggunakan

SphinxSearch. Langkah yang dilakukan pertama kali yaitu melakukan pengindeksan ke semua koleksi dokumen. Proses pengeindeksan menghasilkan file hash. Perintah yang diberikan untuk melakukan pengindeksan koleksi dokumen adalah sebagai berikut:

Langkah selanjutnya yaitu pembuatan service

pada windows dengan nama SphinxSkripsi yang dapat dibuat dengan perintah sebagai berikut:

Service pada windows berguna untuk mencari hasil pengindeksan yang berupa file hash.

Pembobotan BM25

Metode BM25 merupakan metode pembobotan kata yang memeringkatkan setiap kumpulan dokumen yang didasarkan pada kata dalam kueri yang muncul pada setiap dokumen. Rumus dalam menghitung skor pada algoritme BM25 ditunjukkan pada Persamaan 13 berikut ∑ | | (13) Persamaan 13 menjelaskan bahwa

merupakan term frequency pada dokumen D, |D| merupakan banyaknya kata dalam dokumen D, dan avg dl merupakan rata-rata panjang dokumen dalam kumpulan teks dari dokumen tersimpan. k1 dan b merupakan parameter bebas dimana nilai yang biasa dipilih untuk k1=2,0 dan b=0,75. IDF(qi) merupakan bobot dari kata qi. Rumus untuk menghitung IDF ditunjukkan pada Persamaan 14 sebagai berikut

dimana N merupakan banyaknya koleksi dokumen, dan merupakan jumlah dokumen yang memuat kata qi.

METODE PENELITIAN

Dokumen tumbuhan obat

1. Atlas Tumbuhan Obat Indonesia Jilid 1. Oleh dr. Setiawan Dalimartha

2. Atlas Tumbuhan Obat Indonesia Jilid 2. Oleh dr. Setiawan Dalimartha

3. Atlas Tumbuhan Obat Indonesia Jilid 3. Oleh dr. Setiawan Dalimartha

4. Obat Asli Indonesia Oleh Dr. Seno Sastroamidjojo

5. Ensiklopedi Millenium Jilid 1: Tumbuhan Berkhasiat Obat Indonesia.

6. Tumbuhan Obat dan Khasiatnya. Oleh Drs. H. Arief Hariana.

Klasifikasi

Temu Kembali Informasi

Gambar 2 Tahapan penelitian.

Klasifikasi dokumen dikategorikan ke dalam kategori kelas family dan kategori penyakit. Pemilihan kategori tersebut karena kedua informasi mengenai family tumbuhan obat dan penyakit yang dapat disembuhkan oleh suatu jenis tumbuhan obat adalah informasi yang sering dicari. Tabel 4 menjelaskan distribusi dokumen pada kategori kelas penyakit untuk setiap kelasnya. Tabel 5 menjelaskan distribusi dokumen pada kategori kelas family untuk setiap kelasnya.

Koleksi dokumen bertipe file .txt dengan contoh format dokumen yang

terdapat pada Gambar 3. Dokumen dikelompokkan ke dalam tag sebagai berikut:

 <DOK></DOK>, tag ini mewakili keseluruhan dokumen dan melingkupi tag-tag lain yang lebih spesifik.

 <ID></ID>, tag ini menunjukkan ID dari dokumen.

 <NAMA></NAMA>, tag ini menunjukkan nama dari suatu jenis tanaman obat.

 <NAMAL></NAMAL>, tag ini menunjukkan nama latin dari tanaman obat.

 <DESKRIPSI></DESKRIPSI>, tag ini mewakili isi dari dokumen meliputi deskripsi tanaman dan kegunaannya.

 <FAM></FAM>, tag ini menunjukkan nama family dari tanaman obat.

 <PENYAKIT></PENYAKIT>, tag ini menunjukkan penyakit yang dapat disembuhkan dari jenis tumbuhan obat. Tabel 4 Distribusi dokumen penyakit

No Kelas Jumlah Dokumen 1 2 3 4 5 6 7 Kronis Kulit Nyeri-radang-demam Pencernaan Perawatan Pernapasan saluran Kemih 9 15 24 35 27 15 6 Tabel 5 Distribusi dokumen family

No Kelas Jumlah Dokumen 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Achantaceae Agavaceae Amaranthaceae Apiaceae Apocynaceae Araliaceae Bromeliaceae Crassulaceae Euphorbiaceae Lamiaceae Menispermaceae Moraceae Myrtaceae Pandanaceae Portulacaceae Rutaceae Smilacaceae 8 4 13 9 5 3 5 4 12 15 6 6 15 5 6 12 3 Temu kembali Peringkat dokumen Evaluasi Kueri Selesai Mulai Dokumen tumbuhan obat Data latih Data uji Praproses data Pembagian data Index klasifikasi Pemilihan fitur Klasifikasi Naïve Bayes Index klasifikasi

8 Gambar 3 Format koleksi dokumen.

Praproses data

Tahap praproses diawali dengan

lowercasing, tokenisasi, dan pembuangan

stopwords. Lowercasing adalah proses untuk mengubah semua huruf mejadi huruf non- capital agar menjadi case-insensitive pada saat dilakukan pemrosesan teks dokumen.

Tokenisasi adalah suatu tahap pemrosesan teks input yang dibagi menjadi unit-unit kecil yang disebut token atau term, yang dapat berupa suatu kata atau angka. Token yang dimaksud dalam penelitian ini adalah kata atau term. Proses tokenisasi dilakukan sesuai dengan aturan berikut :

 Teks dipotong menjadi token. Karakter yang dianggap sebagai karakter pemisah token didefinisikan dengan ekspresi regular berikut :

/[\s\-+\/*0-9%,.\"\];()\':=`?\[!@><]+/

 Token yang terdiri atas karakter numerik saja tidak diikutsertakan

 Besar kecilnya karakter dari token dipertahankan atau tidak dilakukan penyeragaman.

Stopwords merupakan daftar kata-kata yang dianggap tidak memiliki makna. Kata yang tercantum dalam daftar ini dibuang dan tidak ikut diproses pada tahap selanjutnya. Kata-kata yang termasuk dalam stopwords

pada umumnya merupakan kata-kata yang sering muncul di setiap dokumen sehingga kata tersebut tidak dapat digunakan sebagai penciri suatu dokumen.

Pembagian data

Dokumen tumbuhan obat yang telah melewati tahap praproses data kemudian dibagi menjadi dua, yaitu data latih dan data uji dengan persentasi 70:30. Sebanyak 93 dokumen digunakan sebagai dokumen latih dan 39 dokumen sebagai dokumen uji. Tiap kelas dalam koleksi memiliki jumlah yang

relatif sama. Data latih digunakan sebagai

input pelatihan pengklasifikasi Naive Bayes, sedangkan data uji digunakan untuk menguji model hasil pelatihan Naive Bayes.

Pemilihan fitur

Hasil dari tahap praproses adalah vector term yang kemudian akan dilakukan pemilihan fitur. Pemilihan fitur memiliki dua tujuan, yaitu mengurangi jumlah kata yang digunakan dan meningkatkan akurasi hasil klasifikasi (Manning 2008). Fitur inilah yang kemudian digunakan pada tahap klasifikasi dokumen.

Pada penelitian ini, pemilihan fitur dilakukan dengan dua metode yaitu uji chi- kuadrat dan document thresholding frequency(df). Teknik pemilihan fitur yang terbaik di antara kedua teknik tersebut kemudian digunakan sebagai teknik yang digunakan pengembangan sistem.

Teknik chi-kuadrat memilih fitur berpengaruh dengan menghitung nilai antara kata dengan kelas yang dinyatakan dalam Persamaan 5. Pemilihan fitur dilakukan pada dua tingkat signifikansi , yaitu 0.01 dan 0.001. Kata yang terpilih pada tingkat signifikansi adalah kata yang memiliki nilai diatas nilai kritis 6.63, sedangkan kata yang terpilih pada tingkat signifikansi adalah kata yang memiliki nilai di atas nilai kritis 10.83.

Teknik df memilih fitur berpengaruh dengan cara menerapkan nilai threshold pada penghitungan jumlah kata yang muncul dalam koleksi dokumen latih. Nilai threshold

yang digunakan dalam penelitian ini adalah

threshold 3 dan 8. Kata yang terpilih dalam pemilihan fitur df, merupakan kata yang memiliki nilai penghitungan df diatas nilai

threshold yang sedang digunakan.

Fitur yang dihasilkan pada tahapan pemilihan fitur akan digunakan untuk membuat vector space model. Model terdiri atas beberapa dokumen yang direpresentasikan sebagai vektor dari frekuensi kemunculan fitur.

Klasifikasi Naïve Bayes

Hasil matriks kata pada vector space model digunakan pada sistem klasifikasi untuk menglasifikasikan dokumen baru. Tahapan pertama yang dilakukan adalah menghitung peluang kata terhadap dokumen latih yang mencerminkan suatu kelas. Pada saat melakukan penghitungan tf, dilakukan juga penghitungan jumlah kata unik dalam <dok> <id>6</id> <nama>Kumis Kucing</nama> <namal>Orthosiphon aristatus (Bl.) Miq.</namal> <deskripsi>Famili : Lamiaceae. Nama Lokal : Kumis kucing, .... </deskripsi>

<fam>Lamiaceae</fam> <penyakit>Saluran Kemih</penyakit> </dok>

9 dokumen latih, dan penghitungan jumlah kata

yang terdapat pada dokumen yang berada dalam satu kelas yang sama.

Nilai peluang kata yang didapat kemudian digunakan untuk melakukan penghitungan Naïve Bayes pada dokumen uji untuk setiap kelasnya. Kemudian diambil nilai peluang yang terbesar pada nilai penghitungan Naïve Bayes. Nilai tersebut merupakan kelas dari dokumen uji tersebut.

Temu kembali informasi

Model klasifikasi yang telah terbentuk kemudian digunakan pada sistem temu kembali informasi untuk ditemukembalikan. Tujuan temu kembali ini adalah agar pengguna mendapatkan informasi dengan lebih mudah dan terstruktur. Sistem temu kembali informasi melakukan pengindeksan dokumen sumber (corpus) hanya pada kelas tertentu saja berdasarkan kuerinya. Pembobotan BM25 digunakan untuk menghitung bobot kedekatan kueri dengan dokumen koleksi. Penghitungan pembobotan BM25 telah dijelaskan seperti pada Persamaan 13 dan Persamaan 14.

Evaluasi model klasifikasi

Evalusi kinerja model penglasifikasi

Naive Bayes dilakukan dengan menghitung persentase ketepatan suatu dokumen tumbuhan obat masuk ke dalam kelas tertentu. Evaluasi untuk model penglasifikasi

Naive Bayes dinyatakan dalam bentuk

confusion matrix. Penghitungannilai akurasi terhadap model klasifikasi diperoleh melalui Persamaan 9.

Evaluasi sistem temu kembali

Evaluasi kinerja sistem temu kembali informasi dilakukan dengan menghitung nilai

recall dan precision dari 29 kueri yang diujikan pada sistem. Kueri uji ditentukan dengan cara memilih kata-kata yang mewakili isi setiap tumbuhan obat. Kata-kata tersebut menceritakan tentang penyakit yang dapat disembuhkan, kandungan kimia dalam suatu tumbuhan obat, karakteristik fisik tumbuhan obat tertentu, dan cara penggunaan suatu tumbuhan obat tertentu. Tabel 6 menunjukkan rincian kueri uji.

Penghitungan nilai recall precision yang dinyatakan dalam Persamaan 10 dan Persamaan 11 dilakukan untuk melihat tingkat efektifitas proses temu kembali

informasi terhadap suatu kueri. Penghitungan AVP dinyatakan dalam Persamaan 12. Tabel 6 Kumpulan kueri uji

No Kueri 1 Kanker 2 Flu 3 Diabetes 4 Pusing 5 Merambat 6 Menjari 7 Bergerigi 8 Menyirip 9 Vitamin 10 Antioksidan 11 Protein 12 Kalsium 13 Diseduh 14 Ditumbuk 15 Diperas 16 Batuk Pilek 17 Kencing Batu 18 Datang Bulan 19 Gatal-gatal 20 Sesak Nafas 21 Tumbuhan Merambat 22 Tanaman Hias 23 Daun Elips 24 Buah Buni 25 Kalsium Oksalat 26 Zat Warna 27 Obat Diseduh 28 Obat Ditumbuk 29 Buah Diperas

Lingkungan pengembangan sistem

Penelitian ini menggunakan perangkat lunak dan perangkat keras dengan spesifikasi adalah sebagai berikut :

1. Perangkat Lunak :

 Sistem operasi Microsoft Windows XP

 Notepad++ sebagai code editor

 Server XAMPP

 Perangkat lunak MySQL untuk database

 Web Browser (melalui Local Area Connection): Mozilla Firefox

2. Perangkat Keras :

10 0.7 2.15 0 0.5 1 1.5 2 2.5 Nilai Kritis Wak tu (menit) 0.001 0.01  Memory 2990MB RAM

 Harddisk dengan kapasitas sisa 300GB

 Monitor resolusi 1366 x 768 pixel Mouse dan keyboard

HASIL DAN PEMBAHASAN

Dalam dokumen Ekstraksi Ciri Dokumen Tumbuhan Obat Menggunakan Chi-Kuadrat dengan Klasifikasi Naive Bayes (Halaman 34-39)