PERANAN SUBSTITUSI N-GRAMS DAN CODE SHIFT PADA ALGORITMA SOUNDEX. Oleh : R ZAINAL ARIFIN F S G

(1)

PERANAN SUBSTITUSI N-GRAMS DAN CODE SHIFT PADA

ALGORITMA SOUNDEX

Oleh :

R ZAINAL ARIFIN F S

G64102031

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(2)

PERANAN SUBSTITUSI N-GRAMS DAN CODE SHIFT PADA

ALGORITMA SOUNDEX

Skripsi

sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer

pada Fakultas Matematika dan Ilmu Pengetahuan Alam

Institut Pertanian Bogor

Oleh :

R ZAINAL ARIFIN F S

G64102031

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(3)

RINGKASAN

R ZAINAL ARIFIN F S. Peranan Substitusi N-grams dan Code Shift pada Algoritma Soundex. Dibimbing oleh SRI NURDIATI dan JULIO ADISANTOSO.

Ketidakjelasan akar kata akibat keterbatasan pengetahuan informasi pengguna mengenai nama ilmiah dan sifat kembali nama ilmiah yang hanya memiliki dua kemungkinan hasil temu-kembali, yaitu ditemu-kembalikan semua atau tidak ditemu -kembalikan sama sekali, menyebabkan sistem temu-kembali kesamaan fonetik untuk nama ilmiah memiliki kinerja yang rendah. Tujuan penelitian ini adalah mengukur kinerja n-grams substitution dan code shift dalam upaya meningkatkan nilai recall dan precision algoritma Soundex. Tercakup di dalamnya proses pembentukan kamus kata nama ilmiah, identifikasi nama ilmiah dalam dokumen, dan proses perangkingan dengan menggunakan dice coefficient. Pengujian menggunakan koleksi dokumen sebanyak 849 dokumen dan 20 jenis query dengan jenis kesalahan yang berbeda. Kinerja temu-kembali dibandingkan antara tidak menggunakan substitusi n-grams dan code shift, hanya menggunakan substitusi n-grams (NS), dan menggunakan substitusi n-grams dan code shift (CS). Hasil penelitian mengungkapkan bahwa kinerja substitusi n-grams dan code shift mampu meningkatkan kinerja sistem temu-kembali kesamaan fonetik untuk nama ilmiah. Kedua teknik tersebut mampu 95% menemu-kembalikan nama ilmiah dengan contoh 20 query pengujian tersebut.

Hasil penelitian juga mengungkapkan bahwa data tidak berpengaruh terhadap bahasa ketika ditambahkan substitusi n-grams dan code shift. Hal ini karena substitusi n-grams melakukan penyeragaman terhadap perubahan bunyi akibat pertemuan antara dua alfabet atau lebih ke dalam satu alfabet atau lebih.

Kata Kunci : Temu Kembali Informasi, temu kembali nama ilmiah, Fuzzy Soundex, Soundex, code

(4)

Judul

: Peranan Substitusi N-grams dan Code Shift pada

Algoritma Soundex

Nama : R Zainal Arifin F S

NRP

: G64102031

Menyetujui:

Pembimbing I,

Dr. Ir. Sri Nurdiati, M.Sc

NIP 131578805

Pembimbing II,

Ir. Julio Adisantoso, M.Kom

NIP 131578807

Mengetahui:

Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam

Institut Pertanian Bogor

Dr. Ir. Yonny Koesmaryono, MS

NIP 131473999

(5)

RIWAYAT HIDUP

Penulis dilahirkan di Solo pada tanggal 3 Januari 1985 dari ayah H. Drs. Subandi dan ibu Hj. Dyah Farida Subandi. Penulis merupakan putra kedua dari empat bersaudara. Tahun 2002 penulis lulus dari SMU Negeri 5 Bogor dan pada tahun yang sama lulus seleksi masuk IPB melalui jalur Undangan Seleksi Masuk IPB. Penulis memilih Program Studi Ilmu Komputer, Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam.

Pada tahun 2005 Penulis menjalankan praktek lapangan di Kantor Pengembangan Sistem Informasi Institut Pertanian Bogor selama kurang lebih 2 bulan. Pada tahun 2006 Penulis berkesempatan menjadi pengembang Sistem Informasi Akademik Pasca Sarjana Institut Pertanian Bogor.

(6)

PRAKATA

Alhamdulillahirabbil ‘alamin, puji syukur Penulis panjatkan ke hadirat Allah Subhanahu wa ta’ala atas segala curahan rahmat dan karunia-Nya sehingga skripsi dengan judul Peranan Substitusi

N -grams dan Code Shift pada Algoritma Soundex, dapat diselesaikan. Shalawat serta salam juga Penulis sampaikan kepada junjungan kita Nabi Muhammad Shallalahu ‘alaihi wasallam beserta seluruh sahabat dan umatnya hingga akhir zaman.

Penulis juga mengucapkan terima kasih kepada Ibu Dr. Ir. Sri Nurdiati, M.Sc selaku pembimbing I yang telah banyak membantu Penulis dalam menyusun skripsi ini. Terima kasih juga penulis ucapkan kepada Bapak Ir. Julio Adisantoso, M.Komp selaku pembimbing II yang telah banyak memberi saran, masukan, dan ide-ide kepada Penulis. Tanpa bimbingan dari Ibu Sri dan Bapak Julio, Penulis belum tentu mampu menyelesaikan skripsi ini dalam waktu yang relatif cepat. Penulis juga ingin mengucapkan terima kasih kepada Ibu Yeni Herdiyeni, S.Si., M.Kom selaku penguji yang telah banyak memberi saran dan masukan kepada Penulis. Selanjutnya Penulis juga ingin mengucapkan terima kasih kepada:

1. Papa, Mama, Mas Ishal, dan my little sister Icha yang selalu memberi dukungan, doa, dan semangat kepada Penulis, sehingga Penulis dapat menyelesaikan tugas akhir ini dalam waktu yang relatif cepat.

2. Ratna Widyaningsih, yang selalu membangkitkan semangat Penulis ketika mengalami hari-hari yang sulit dan telah membantu Penulis dalam mengumpulkan query pengujian.

3. Fitri, Andi, Linda, Nia, Nafi, Dek Rani, yang telah bersedia meluangkan waktunya untuk membantu dalam mengumpulkan query pengujian.

4. Mr. Dave Holmes, thank you very much for your attention. You are willing to spare your time for

replying my mails. Without your help, I can’t realize how my paper will finish.

5. Bapak Ir. Yahya Kurniawan, yang telah membantu Penulis ketika mengalami masalah penulisan

coding.

6. Teman-teman seperjuangan, Fatchur, BalQ, Sanda, Edu, Ichoy, Irfan yang telah banyak membantu Penulis pada masa perkuliahan. I’m sorry, I’m the first man.

7. Sahabat -sahabat Ilkom angkatan 39 yang membuat Penulis cepat menghilangkan kepenatan dalam menyusun skripsi.

8. Departemen Ilmu Komputer, staf dan dosen yang telah begitu banyak membantu baik selama penelitian maupun pada masa perkuliahan .

Kepada semua pihak lainnya yang telah memberikan kontribusi yang besar selama pengerjaan penelitian ini yang tidak dapat disebutkan satu-persatu, Penulis ucapkan terima kasih banyak.

Semoga penelitian ini dapat memberikan manfaat.

Bogor, Juni 2006

(7)

DAFTAR ISI

Halaman DAFTAR ISI ………... v DAFTAR TABEL ………. vi DAFTAR GAMBAR ………. vi DAFTAR LAMPIRAN ………. vi PENDAHULUAN ... 1 Latar belakang ... 1 Tujuan ... 1 Ruang lingkup ... 1 TINJAUAN PUSTAKA ... 1

Information Retrieval (Temu-Kembali Informasi) ... 1

Recall and Precision ... 2

Tokenizer ... 2

Algoritma Soundex ……… 2

Algoritma Fuzzy Soundex ………. 3

N-grams ……….... 4

N-grams Substitution ……… ……… 4

Code Shift ………. 4

Dice Co-Efficient ……….. 4

Tatanama Binomial Nomenclatur ………. 4

METODE PENELITIAN ……….. 5

Gambaran Umum Sistem Temu-Kembali Nama Ilmiah ……….. 5

Parsing (Tokenizer) ... 5 Parsing Kamus ... 5 Parsing Dokumen ... 5 N-grams Substitution ... 5 Code Shift ... 6 Pengaburan Kode ... ... 6 Perlakuan (Treatment) ……….. 6

Evaluasi Recall and Precision ... 6

Asumsi-asumsi ... 6

Lingkungan Pengembangan ... 6

HASIL DAN PEMBAHASAN ... 6

Karakteristik Dokumen ... 6

Struktur Data Pengindeksan ... 6

Analisis Identifikasi Nama Ilmiah ... 7

Query ... 7

Substitusi N -grams ... 7

Proses Pengaburan ... 8

Algoritma Pencarian Dengan Dice Co-Efficient ... 8

Code Shift ... 9

Kinerja Temu-Kembali ... 9

KESIMPULAN DAN SARAN ... 11

Kesimpulan ... 11

Saran ... 12

(8)

DAFTAR TABEL

Halaman

Tabel 1. Perbedaan data retrieval dengan information retrieval ... 2

Tabel 2. Tabel pengelompokan konsonan algoritma Soundex (Repici 2006) ... 3

Tabel 3. Tabel pengelompokan konsonan algoritma Soundex (Primasari 1997) ... 3

Tabel 4. Tabel pengelompokan konsonan algoritma Fuzzy Soundex (Holmes & McCabe 2002) ... 3

Tabel 5. Klasifikasi kesalahan menurut Damerau ... 4

Tabel 6. Tabel jenis N-grams yang termasuk kasus N -grams Substitution ……….. 4

Tabel 7. Tabel kasus tambahan substitusi N -grams ………. 8

Tabel 8. Tabel perbandingan kode Kromotoli dengan Quamoclit ... 8

Tabel 9. Tabel perbandingan kode penata dengan pennata ... 9

Tabel 10. Tabel pengaruh code shift pada query Asproha brimbi ... 9

DAFTAR GAMBAR

Halaman Gambar 1. Gambaran umum sistem temu-kembali nama ilmiah ... 5

Gambar 2. Diagram relasional struktur data pengindeksan ... ... 7

Gambar 3. Kurva recall-precision beberapa algoritma Soundex………..…... 9

Gambar 4. Kurva recall-precision beberapa algoritma Soundex (insertion dan omission ) ... 10

Gambar 5. Kurva recall-precision beberapa algoritma Soundex (transposition)………. 10

Gambar 6. Kurva recall-precision beberapa algoritma Soundex (substitution) ...……… 11

DAFTAR LAMPIRAN

Halaman Lampiran 1. DFD Level-0 sistem temu-kembali nama ilmiah ……… 13

Lampiran 2. DFD Level-1 sistem temu-kembali nama ilmiah ... 14

Lampiran 3. DFD Level-2 sistem temu-kembali nama ilmiah ... 15

Lampiran 4. Antarmuka implementasi ... 16

Lampiran 5. Contoh dokumen dalam koleksi ... 19

Lampiran 6. Daftar 354 nama ilmiah dalam kamus.txt ……… 20

Lampiran 7. Daftar query yang digunakan dalam pengujian ... 29

Lampiran 8. Nilai rata-rata recall-precision sistem temu-kembali nama ilmiah untuk beberapa kasus ... 30

(9)

PENDAHULUAN Latar Belakang

Nama merupakan suatu hal penting dalam sebuah sistem informasi. Nama sering digunakan sebagai kriteria pencarian dalam sistem temu-kembali informasi (information

retrieval) untuk keperluan dalam bidang

perpustakaan (nama pengarang), kepolisian (nama tawanan), toko buku, dan lain-lain.

Sistem temu-kembali informasi yang menghasilkan sekelompok nama ilmiah, seringkali menemukan masalah untuk

query-query berkonteks bahasa natural.

Ketidakjelasan akar kata akibat keterbatasan pengetahuan informasi pengguna merupakan titik masalah dari sistem tersebut. Kesalahan pengejaan dalam menuliskan query, akan mengakibatkan informasi yang dibutuhkan tidak ditemu-kembalikan.

Masalah kesalahan pengejaan tersebut dapat dipecahkan dengan menggunakan algoritma-algoritma kesamaan fonetik. Di antaranya, Soundex, phoenix, Pfeifer, dan

Fuzzy Soundex . Algoritma Soundex telah

dikembangkan untuk query bahasa Indonesia dengan memodifikasi pengelompokan konsonan sesuai dengan kaidah bahasa Indonesia. Penelitian yang dilakukan oleh Primasari (1997) tersebut menggunakan konversi nilai biner untuk sistem perangkingannya. Ternyata data tidak berpengaruh terhadap jenis bahasa karena algoritma soundex dalam bahasa Inggris dapat bekerja dengan baik pada bahasa Indonesia. Hal ini karena bahasa Inggris dan Indonesia menggolongkan konsonannya dengan keistimewaan yang sama.

Algoritma Fuzzy Soundex memiliki nilai

recall dan precision yang lebih baik jika

dibandingkan dengan algoritma kesamaan fonetik lainnya. Peningkatan nilai tersebut dipengaruhi oleh dua metode yang disisipkan dalam algoritma Fuzzy Soundex, yaitu

subtitusi n-grams dan code shift. K edua metode tersebut mampu meningkatkan nilai

recall dan precision sistem temu-kembali

kesamaan fonetik.

Nama ilmiah memiliki dua kemungkinan hasil temu-kembali, yaitu ditemu-kembalikan semua atau tidak ditemu-kembalikan sama sekali. Nama ilmiah sedikit berbeda dengan nama yang lainnya, dimana nama ilmiah hanya memiliki satu jenis nama, berbeda dengan nama orang yang memiliki

beberapa keseragaman. Perbedaan tersebut yang menyebabkan temu-kembali untuk

query nama ilmiah sangat sensitif.

Tujuan

Penelitian ini bertujuan mengukur kinerja n-grams substitution dan code shift dalam upaya meningkatkan nilai recall dan precision algoritma Soundex.

Ruang Lingkup

Ruang lingkup penelitian ini adalah: 1. Jenis algoritma Soundex yang digunakan

dalam penelitian ini adalah Soundex,

Fuzzy Soundex, dan Soundex hasil

penelitian Primasari (1997).

2. Query yang diketikkan hanya berupa nama ilmiah dari tanaman obat dengan jumlah kata sebanyak dua kata.

3. Menganalisis kinerja n-grams substitution dan code shift.

4. Koleksi dokumen yang digunakan adalah dokumen-dokumen yang berhubungan dengan bidang pertanian.

TINJAUAN PUSTAKA

Information Retrieval (Temu-Kembali Informasi)

Temu-kembali informasi erat dengan representasi, penyimpanan, pengorganisasian, dan akses ke informas i. Representasi dan pengorganisasian informasi seharusnya menyediakan fasilitas kemudahan akses terhadap informasi (Baeza-Yates & Riberio-Neto 1999).

Sebuah sistem temu-kembali informasi tidak menginformasikan subjek dari pencariannya, melainkan yang berhubungan dengan subjek pencariannya. Tingkat keterhubungan (recall) ditentukan oleh pengguna sendiri. Berbeda dengan data retrieval (temu-kembali data), pengguna mendapatkan hasil pencarian sesuai dengan subjek pencariannya (exact match). Perbedaan antara kembali informasi dengan temu-kembali data dapat dilihat pada Tabel 1 (Rijsbergen 1979).

Pada sistem temu-kembali data, ukuran kesamaannya tepat sesuai dengan yang diinginkan, sedangkan temu-kembali informasi, ukuran kesamaannya mendekati tepat. Hal ini dikarenakan apa yang menurut

(10)

sistem tepat belum tentu sama dengan anggapan pengguna.

Kesimpulan dari hasil sistem temu-kembali data menggunakan pendekatan deduktif yang sederhana (Rijsbergen 1979). Misal, aRb dan bRc maka aRc. Maksudnya, kesimpulan dari temu-kembali data dapat diramalkan. Temu-kembali informasi menggunakan pendekatan induktif, ketereratan hanya dispesifikasikan dengan derajat pasti atau ketidakpastian. Peubah (variable) merupakan hal yang paling dipercaya untuk menarik kesimpulan.

Tabel 1 Perbedaan data retrieval dengan

information retrieval

Data retrieval Information retrieval

Ketepatan Exact match Partial (best) match

Kesimpulan Deduction Induction

Model Deterministic Probabilistic

Klasifikasi Monothetic Polythetic

Bahasa query Artificial Natural Spesifikasi bahasa Lengkap Tidak lengkap Hasil Matching Relevant Error

response

Sensitif Tidak sensitif

Informasi relevan yang ditemu-kembalikan oleh sistem temu-kembali informasi belum tentu menemu-kembalikan semua informasi yang relevan dalam koleksi (probabilistic). Makna query dari temu-kembali informasi yang bersifat ambigu (polythetic) menyebabkan informasi yang relevan tidak semuanya ditemu-kembalikan. Query pada temu-kembali data hanya mempunyai satu makna (monothetic), sehingga dapat dipastikan semua informasi yang dibutuhkan ditemu-kembalikan.

Spesifikasi query yang tidak lengkap karena bahasa yang natural, menyebabkan hasil yang diinginkan berbeda-beda dari setiap pengguna, sehingga respon terhadap kesalahan sangat kecil. Hal ini karena tingkat keterhubungan antara pengguna satu dengan yang lainnya tidak sama.

Recall and Precision

Temu-kembali informasi mempunyai dua peubah untuk mengukur tingkat relevansi dari hasil yang ditemu-kembalikan. Recall

merupakan peubah yang digunaka n sistem temu-kembali informasi untuk membandingkan dokumen relevan yang ditemu-kembalikan dengan seluruh dokumen relevan dalam koleksi, sedangkan precision merupakan peubah untuk membandingkan dokumen relevan yang ditemu-kembalikan dengan seluruh dokumen yang telah ditemu-kembalikan (Baeza-Yates & Riberio-Neto 1999).

Untuk koleksi dokumen yang besar dan tidak terurut dengan baik, kedua peubah tersebut sulit digunakan. Nilai precision sangat tergantung pada keterurutan dokumen yang ditemu-kembalikan. Semakin terurut dokumen tersebut, semakin tinggi nilai

precision (sama dengan satu).

Tokenizer

Tokenizer merupakan suatu algoritma

untuk mendapatkan token dari suatu berkas teks (Ridha 2002). Tokenizer melakukan pemisahan terhadap isi dokumen menjadi unit yang paling kecil atau biasa disebut juga kata. Unit terkecil tersebut disebut juga sebagai

token.

Proses tokenizer juga melakukan pembersihan terhadap kata buang (stoplist) karena kata buang tersebut merupakan kata yang paling sering muncul dalam suatu dokumen. Sementara kata tersebut tidak berhubungan (relevant) dengan dokumen. Algoritma Soundex

Soundex merupakan suatu algoritma

fonetik yang digunakan untuk mengurangi kesalahan pengetikan query akibat kesalahan pengucapan. Algoritma Soundex yang asli telah dipatenkan oleh Margaret O'Dell dan Robert C. Russell pada tahun 1918. Metode yang digunakan adalah melakukan pengelompokan terhadap enam klasifikasi fonetik dari suara manusia (bilabial, labiodental, dental, alveolar, velar, dan glottal), dimana klasifikasi tersebut berdasarkan posisi bibir dan lidah untuk membuat suara (Repici 2006).

Algoritma Soundex adalah sebagai berikut:

(11)

- Pengubahan bentuk kata menjadi kapital (Upper Case), dan semua jenis tanda baca dibuang.

- Huruf pertama tidak diikutkan dalam konversi kode.

- Konversi kata ke dalam kode disesuaikan dengan Tabel 2 .

Tabel 2 Tabel pengelompokan konsonan algoritma Soundex (Repici 2006) Kelompok Alfabet <dihilangkan> A, I, U, E, O, H, W, Y 1 B, F, P, V 2 C, G, J, K, Q, S, X, Z 3 D, T 4 L 5 M, N 6 R

- Jika terdapat kode yang sama dengan kode sebelumnya, maka kode tersebut dibuang.

- Buang semua kode ‘0’.

- Panjang kode Soundex harus empat karakter, jika kurang dari empat karakter, maka tambahkan dengan ‘0’ di belakang kode terakhir, jika lebih dari empat karakter, maka kode yang diambil hanya empat karakter terdepan.

Pada tahun 1997, algoritma Soundex dikembangkan ke dalam bahasa Indonesia dengan mengganti pengelompokan konsonannya ke dalam faktor penyusun konsonan bahasa Indonesia. Faktor-faktor pembentuk konsonan tersebut adalah sebagai berikut (Primasari 1997):

1. Faktor artikulator dan titik artikulasi. 2. Faktor jalan yang dilalui oleh udara. 3. Faktor jenis halangan yang dijumpai

tatkala udara keluar.

Pengelompokan konsonan pada Tabel 3 dilakukan dengan memperhatikan faktor kedua dan ketiga.

Algoritma Fuzzy Soundex

Fuzzy Soundex melakukan pengaburan

(fuzzy) terhadap query. Maksudnya, satu query bisa menghasilkan lebih dari satu macam kode yang berbeda. Sistem temu-kembali fonetik

mampu meningkatkan nilai kesamaan (sim ilarity measure) antara dua nama jika kode yang dikaburkan semakin banyak. Jika tiap nama hanya memiliki sebuah kode

Soundex, kesamaannya adalah biner, sehingga

nilai kesamaannya kurang baik (Holmes Dave 9 Maret 2006, komunikasi pribadi).

Tabel 3 Tabel pengelompokan konsonan algoritma Soundex (Primasari 1997) Kelompok Alfabet <dihilangkan> A, I, U, E, O, H, W, Y 1 F, V 2 S, X, Z 3 L 4 R 5 M, N 6 B, C, D, P, K, T, G, J, Q

Panjang kode dan pengelompokan konsonan pada algoritma Fuzzy Soundex berbeda dengan algoritma Soundex. Panjang kode untuk algoritma Fuzzy Soundex adalah lima karakter, karena dengan menambah panjang kode sebanyak satu karakter, kesalahan yang terdapat pada akhir nama dapat diidentifikasi. Pengelompokan terhadap 18 konsonan dapat dilihat pada Tabel 4.

Tabel 4 Tabel pengelompokan konsonan algoritma Fuzzy Soundex

(Holmes & McCabe 2002) Kelompok Alfabet <dihilangkan> A, I, U, E, O, H, W, Y 1 B, P, F, V 2 C, S, Z 3 D, T 4 L 5 M, N 6 R 7 G ,J ,K, Q, X

Algoritma Fuzzy Soundex menggunakan substitusi n-grams dan code shift dalam upaya meningkatkan nilai recall dan precision hasil temu-kembali (Holmes & McCabe 2002).

(12)

N -grams

N-grams merupakan suatu metode yang menghitung nilai kesamaan antara n kata. Beberapa pen elitian mengenai algoritma fonetik menemukan kesalahan umum yang sama seperti pada Tabel 5 (Holmes & McCabe 2002). N-grams melakukan pemisahan per n huruf dari suatu kata. Misal untuk kata ’Cook’ dengan kata ’Cooke’ menggunakan digram seperti di baw ah ini: ’Cook’ à ’_C’ , ’Co’ , ’ oo’ , ’ok’, ’k_’ ’Cooke’ à ’_C’ , ’Co’ , ’ oo’ , ’ok’, ’ke’ , ’e_’ Dari digram di atas dapat diidentifikasi bahwa kata ‘cooke’ identik dengan ‘cook’ karena memiliki empat dari enam digram yang sama, sehingga kata ‘cooke’ diidentifikasi sebagai ‘cook’.

Tabel 5 Klasifikasi kesalahan menurut Damerau

Jenis kesalahan Nama Asli Kesalahan

Insertion Averrhoa Averrkhoa

Omission Retrofractum Retrofactum

Substitution Canna Kanna

Transposition Phyllanthus Pyhllanthus

N -grams Substitution

Damerau mendefinisikan kesalahan pengucapan ke dalam empat kategori seperti pada Tabel 5. N-grams substitution mampu mengurangi kesalahan pengucapan seperti yang dideskripsikan oleh Damerau. Tabel 6 menggambarkan jenis n-grams yang termasuk kasus kesalahan substitusi (Holmes & McCabe 2002).

Code Shift

Code shift merupakan salah satu upaya

untuk mengurangi jenis kesalahan Damerau

insertion dan omission. Teknik ini mampu

mengidentifikasi kesalahan yang terdapat pada awal nama, sedangkan untuk mengidentifikasi kesalahan pada akhir nama adalah dengan menambah panjang kode sebanyak satu karakter. Code shift mampu meningkatkan nilai recall sebesar 96 % dengan membuang karakter kedua dari lima bit kode Fuzzy

Soundex (Holmes & McCabe 2002).

Dice Coefficient

Dice coefficient merupakan suatu formula

untuk menghitung nilai kesamaan antara kode

fuzzy. Rumus dari Dice coefficient adalah

sebagai berikut (Holmes & McCabe 2002):

δ

= (2*

γ

) / (

α

+

β

), dengan

δ

adalah nilai kesamaan

γ

adalah jumlah irisan antara dua nama

α

adalah jumlah kode pada nama 1

β

adalah jumlah kode pada nama 2

Tabel 6 Tabel jenis n-grams yang termasuk kasus n-grams substitution

N -grams Substitution CA KA CC, CK, CH KK CE SE CL KL CR KR CI SI CO KO CS, CZ, TS, TZ SS CU KU CY SY D G GG G H HH GN, KN, NG NN HR, WR RR H W WW PF, PH FF SCH SSS TIO SIO

Tatanama Binomial Nomenclatur

Tatanama binomial (binomial berarti ’dua nama’) merupakan aturan penamaan baku bagi semua organisme (makhluk hidup) yang terdiri dari dua kata dari sistem taksonomi (biologi), dengan mengambil nama genus dan nama spesies (Wikipedia 2006). Nama yang dipakai adalah nama baku yang diterapkan untuk fungi, tumbuhan dan hewan oleh penyusunnya (Carolus Linnaeus), namun kemudian segera diterapkan untuk bakteri.

(13)

METODE PENELITIAN

Penelitian dengan tema kesamaan fonetik ini pernah dilakukan (Primasari 1997). Algoritma kesamaan fonetik yang digunakan adalah Soundex dan Phoenix, dengan data nama manusia sebagai objek penelitiannya. Dalam hal ini, algoritma yang akan digunakan pada penelitian ini adalah algoritma Soundex,

Fuzzy Soundex dan Sound ex hasil penelitian

Primasari (1997) dengan data nama ilmiah sebagai objek penelitiannya.

Gambaran Umum Sistem Temu-Kembali Nama Ilmiah

Secara garis besar, gambaran umum sistem temu-kembali nama ilmiah dapat dilihat pada Gambar 1. Data Flow Diagram dari sistem temu-kembali nama ilmiah dapat dilihat pada Lampiran 1, 2, dan 3. Untuk antarmuka implementasi diberikan pada Lampiran 4.

Gambar 1 Gambaran umum sistem temu-kembali nama ilmiah.

Parsing (Tokenizer)

Proses parsing (tokenizer) adalah suatu proses unt uk mendapatkan kata (token ) dari sekumpulan kalimat. Proses parsing

melakukan pembersihan terhadap tanda baca dan karakter separator (white space). Beberapa tanda baca yang dianggap sebagai karakter separator karena suatu aturan adalah sebagai berikut:

1. Karakter (.), jika diikuti karakter separator lain.

2. Karakter (,), jika diikuti karakter selain numerik.

3. Karakter (’), jika diapit oleh karakter alphabet dan numerik.

4. Karakter (-), jika kata sebelum karakter (-) sama dengan karakter sesudahnya. Parsing Kamus

Nama-nama ilmiah dalam kamus memiliki jumlah kata yang berbeda. Oleh karena itu, diperlukan keseragaman dalam penentuan jumlah kata dalam satu nama ilmiah. Keseragaman tersebut dapat memudahkan proses pencarian, karena sistem melakukan pencarian mulai dari kata pertama.

Jumlah kata dalam penelitian ini akan diseragamkan sebanyak dua kata. Beberapa alasan digunakan pengambilan dua kata adalah sebagai berikut:

1. Kata-kata setelah kata kedua dalam nama ilmiah tidak banyak digunakan dalam dokumen-dokumen. Kata tersebut merupakan singkatan dari deskriptor yang hasil karyanya diakui (Hendrawan 2004). Contoh : Artemisia vulgaris Linn. 2. Pengambilan dua kata mengikuti sistem

penamaan binomial nomenclatur. Contoh :

Averhoa bilimbi (Belimbing asam). Oryza sativa (Padi ).

3. Penggunaan dua kata telah menjamin keunikan 354 nama ilmiah dalam kamus. Parsing Dokumen

Proses parsing dokumen terdiri dari dua tahap, yang pertama tahap parsing (tokenizer), dan yang kedua proses pembuangan kata buang. Kata-kata buang seperti nanti, nyaris, padahal, dan, dan lain-lain, dapat memboroskan ruang penyimpanan. Kata-kata buang tersebut merupakan kata-kata yang sering muncul dalam dokumen, tetapi tidak berhubungan (relevant) dengan dokumen. N-grams Substitution

Jenis N-grams yang akan dilakukan dalam penelitian ini adalah digram dan trigram. Query yang melalui proses N-grams akan dilakukan pengidentifikasian untuk beberapa kasus substitusi. Misalkan untuk digram ‘PH’ dan ‘PF’ akan disubstitusi

(14)

dengan ‘FF’. Jenis karakter substitusi dapat dilihat pada Tabel 6.

Code shift

Karakter yang dibuang dari lima bit kode

Fuzzy Soundex dalam penelitian ini adalah

karakter ke dua. Hal ini dengan pertimbangan pengucapan yang kurang jelas seringkali di awal penyebutan nama (Holmes & McCabe 2002). Hasil temu-kembali akan dibandingkan antara menggunakan code shift dengan tidak menggunakan code shift, untuk mengetahui seberapa besar pengaruh code shift terhadap hasil temu-kembali pada algoritma Fuzzy

Soundex.

Pengaburan Kode

Query yang telah dikonversi ke dalam

kode Fuzzy Soundex, akan dikaburkan dengan mengurangi panjang kode Fuzzy Soundex di tiap iterasinya. Misalkan query yang telah dikonversi adalah ‘A2546’, maka kode Fuzzy

Soundex yang dapat dihasilkan adalah sebagai

berikut (Holmes Dave 16 Maret 2006, komunikasi pribadi):

- A2546 ( fuzzy 5) - A254 (fuzzy 4) - A25 (fuzzy 3) - A2 (fuzzy 2) - A546 (code shifted) Perlakuan (Treatment)

Tiga jenis algoritma Soundex yang akan dibandingkan mendapatkan perlakuan yang sama seperti di bawah ini:

- Proses pengaburan.

- Panjang kode adalah 5 bit. Hal ini dilakukan untuk mengetahui seberapa besar pengaruh penambahan bit dalam mendeteksi kesalahan yang terdapat pada akhir nama.

- Ketiga algoritma Soundex tersebut ditambahkan teknik substitusi n-grams dan code shift.

- Algoritma perangkinganny a dengan menggunakan dice coefficient.

Evaluasi Recall dan Precision

Penentuan tingkat relevansi dokumen yang ditemu-kembalikan dilakukan secara manual terhadap 849 dokumen yang berhubungan dengan tanaman obat. Koleksi dokumen pengujian menggunakan koleksi dokumen

laboratorium temu-kembali informasi, ditambah dengan dokumen dari situs

www.iptek.net.id sebagai penyedia terbanyak dokumen tanaman obat.

Asumsi-asumsi

Asumsi-asumsi yang digunakan dalam penelitian ini adalah sebagai berikut:

- Nama ilmiah dalam dokumen adalah benar, sehingga identifikasi nama ilmiah tidak melewati proses Fuzzy Soundex. Proses Fuzzy Soundex hanya dilakukan ketika proses pencarian.

- Dokumen yang dianggap berhubungan (relevant) adalah dokumen yang mengandung nama ilmiah.

Lingkungan Pengembangan

Lingkungan pengembangan yang digunakan dalam penelitian ini adalah sebagai berikut:

- Perangkat lunak: Microsoft Windows XP Professional, Microsoft Visual Basic .Net 2003, Microsoft Office Access 2003. - Perangkat keras: Pentium IV 2.66 GHz,

RAM 256 MB.

HASIL DAN PEMBAHASAN Karakteristik Dokumen

Koleksi dokumen yang digunakan memiliki keterkaitan erat dengan tanaman obat. Sebanyak 75 % merupakan dokumen yang berhubungan dengan tanaman obat, dan sisanya merupakan dokumen yang tidak berhubungan dengan tanaman obat. Contoh dokumen dalam koleksi dapat dilihat pada Lampiran 5.

Struktur Data Pengindeksan

Token-token hasil proses parsing

disimpan dalam basis data untuk mempercepat proses pencarian, sehingga proses pars ing hanya dilakukan ketika penambahan dokumen baru. Tabel yang diperlukan untuk keperluan pengindeksan sebanyak empat tabel, yaitu

tblTokenizer, tblIdentName, tblTemp, dan tblDokumen. Diagram relasional dari keempat

(15)

Gambar 2 Diagram relasional struktur data pengindeksan.

Analisis Identifikasi Nama Ilmiah

Nama ilmiah dalam dokumen yang melewati proses tokenizer, tidak teridentifikasi sebagai nama ilmiah. Proses pengidentifikasian memerlukan bantuan kamus sebagai kata pembanding. Kamus kata nama ilmiah dapat dilihat pada Lampiran 6.

Proses pengidentifikasian akan melakukan pengecekan dengan membandingkan kata pertama nama-nama ilmiah dalam kamus dengan token-token hasil proses tokenizer . Jika kata ditemukan, mak a simpan posisi ditemukannya kata pertama tersebut untuk melakukan pengecekan terhadap kata keduanya sesuai dengan posisi tersebut. Jika tidak sama, maka pencarian dilanjutkan. Hal ini terjadi karena terdapat beberapa nama ilmiah yang memiliki kata depan yang sama, yaitu Averhoa carambola dan Averhoa bilimbi. Kedua nama tersebut memiliki common name yang berbeda.

Proses identifikasi nama dari 849 dokumen dalam koleksi menghasilkan 646 nama. Waktu yang dibutuhkan untuk proses tokenizer dan identifikasi nama dengan spesifikasi pengembangan di atas adalah 7 menit 11 detik.

Query

Query yang digunakan dalam penelitian

untuk menguji sistem Fuzzy Soundex berasal dari pihak lain/mahasiswa yang tidak memahami bidang tanaman obat. Hal ini dilakukan agar pengujian dengan menggunakan query yang mengandung empat kesalahan Damerau seperti pada Tabel 5 dapat diimplementasikan. Alasan kedua menggunakan query dari pihak lain adalah pihak lain tidak mengetahui algoritma dari sistem, sehingga kesalahan query murni dari pendenga ran mereka sendiri.

Pengumpulan contoh query setelah melewati proses penyaringan menghasilkan 20

query dengan jenis kesalahan yang berbeda.

Rata-rata jenis kesalahan pengguna dari

contoh query tersebut adalah insertion. Dua puluh query pengujian tersebut dapat dilihat pada Lampiran 7.

Substitusi N-Grams

Perbedaan antara substitusi n-grams dengan n-grams adalah terletak pada kondisi teks yang akan dikoreksi. N -grams akan mengkoreksi teks yang mengalami kesalahan teknis ketika pengetikan, misalnya salah menekan tombol huruf dalam papan kunci, sedangkan substitusi n-grams akan mengkoreksi alfabet yang mengalami perubahan bunyi jika bertemu dengan alfabet lain.

Subsitusi n-grams sangat berpengaruh ketika kesalahan pengetikan terjadi di awal pengetikan. Kata pertama yang tidak dikonversi ke dalam kode mengakibatkan nama yang memiliki keidentikan pengucapan di awal kata dianggap merupakan kode yang berbeda.

Koleus skotiolariades merupakan salah

satu kesalahan pengucapan nama yang memiliki nama asli Coleus scutellarioides. Karakter ‘C’ sering diucapkan sebagai ‘K’ jika bertemu dengan huruf hidup ‘A’, ‘U’ , dan ‘O’. Kode dari Koleus dan Coleus dianggap berbeda meskipun melewati proses pengaburan (Kode fuzzy dari Koleus adalah ‘K4200’ dan Coleus adalah ‘C4200’), karena pengaburan tidak melakukan pemotongan karakter di awal kata.

Substitusi n-grams melakukan penggantian karakter sesuai dengan kasus-kasus penggantian pada Tabel 6. Sebelum melalui proses pengkodean, karakter ‘C’ pada nama ‘Coleus’ akan disubstitusi dengan karakter ‘K’ karena karakter ‘C’ diikuti oleh huruf hidup ‘O’. Nama ‘Coleus’ akan berubah menjadi ‘Koleus’, dimana kedua nama tersebut telah memiliki kode yang sama.

Beberapa kasus substitusi n-grams di luar Tabel 6 ditemukan pada penelitian ini. Karakter seperti ‘NJ’ dan ‘Z’ + ‘huruf vokal’, pengguna sering menemui banyak kesalahan. Karakter ‘NJ’ pada nama Ficus Benjamina sering terdengar sebagai Ficus Benyamina. Kasus tambahan subtitusi N -grams dapat dilihat pada Tabel 7.

(16)

Tabel 7 Tabel kasus tambahan substitusi n- grams

N -grams Substitusi

N J NY

Z + ‘A, I, U, E, O’ J + ‘A, I, U, E, O’

Proses Pengaburan

Pengaburan query dan token dari dokumen yang akan dilakukan adalah melakukan pemotongan panjang kode di tiap iterasinya, ditambah dengan code shift.

Pengaburan dilakukan terhadap kedua kata dari nama ilmiah, sehingga akan menghasilkan 10 jenis query. Sebagai ilustrasi, misalkan terdapat query ‘Averhoa

bilimbi’, maka pengaburan yang akan

dilakukan adalah sebagai berikut: - A1600 B4510 (fuzzy 5) - A160 B451 (fuzzy 4) - A16 B45 (fuzzy 3) - A1 B4 (fuzzy 2) - A600 B510 (code shifted)

Pengaburan token dari dokumen tidak dilakukan bersamaan dengan query.

Pengaburan token tersebut dilakukan ketika proses pencarian dengan Dice Coefficient. Hal ini dilakukan untuk menghemat memori, karena akan banyak sekali hasil pengaburan

token dari dokumen.

Algoritma Pencarian Dengan Dice Coefficient

Hasil dari pengaburan query dan token dalam dokumen akan dibandingkan untuk mencari intersection nya. Algoritma dari proses matching ini adalah sebagai berikut: 1. Untuk semua token kata pertama nama

ilmiah dari dokumen.

2. Hitung nilai Dice coefficientnya,

diceCoef(token1, token2).

3. Jika nilai Dice coefficient

≠

0, maka simpan ID dokumennya dengan nilai Dice

coefficientnya.

A lgoritma D ice coefficient , diceCoef(token1, token2)

1. Lakukan pengaburan terhadap token1 dan token 2.

2. Inisialisasi nilai common = 0.

3. Untuk semua fuzzy query kata pertama. 4. Untuk semua fuzzyToken kata pertama. 5. Jika fuzzyQuery1 = fuzzyToken1, maka

tambahkan nilai common dengan 1. 6. Untuk semua fuzzyQuery kata kedua. 7. Untuk semua fuzzyToken kata kedua. 8. Jika fuzzyQuery2 = fuzzyToken2, maka

tambahkan nilai common dengan 1. 9. Hitung nilai dice coefficient dengan

rumus:

dCoef = (2*common) / ((fQuery1.length*2) + (fToken1.length*2))

10. Kembalikan nilai dCoef (return dCoef). Jika terdapat kesalahan yang jauh pada pengetikan kata pertama, sementara kesalahan pada pengetikan kata kedua tidak terlalu jauh, sistem ini masih mampu menemu-kembalikannya. Misalkan untuk query Kromotoli penata (Quamoclit pennata), kode

dari Kromotoli dan Quamoclit berbeda cukup jauh.

Tabel 8 Tabel perbandingan kode Kromotoli dengan Quamoclit Kromotoli Quamoclit K6534 K5243 K653 K524 K65 K52 K6 K5 K534 K243

Pada Tabel 8 terlihat jelas bahwa kedua kode tidak memiliki kesamaan meskipun ditambahkan code shift, sedangkan kode untuk kata penata (dengan nama asli pennata) memiliki kesamaan yang sangat dekat (pada Tabel 9).

Nilai common merupakan gabungan dari

intersection dari kata pertama dengan kata

kedua. Meskipun nilai common kata pertama adalah 0, nilai common kata kedua sangat tinggi, yaitu 5, sehingga nilai Dice Coefficientnya adalah sebagai berikut:

dCoef = (2*(0+5)) / ((5*2)+(5*2)) = 10 / 20

(17)

Algoritma tetap akan menyimpan ID dari dokumen dan nilai dCoef karena nilai dCoef lebih dari 0, sehingga dokumen yang berhubungan dengan kata pennata tetap ditemu-kembalikan.

Tabel 9 Tabel perbandingan kode penata dengan pennata penata pennata P5300 P5300 P530 P530 P53 P53 P5 P5 P300 P300 Code Shift

Algoritma code shift memiliki pengaruh yang besar terhadap sistem temu-kembali kesamaan fonetik untuk jenis kesalahan

insertion dan omission. Nama Asproha brimbi

(dengan nama asli Averrhoa bilimbi ),

memiliki nilai recall dan precision 0 ketika tidak menggunakan code shift, dengan jumlah nama yang ditemu-kembalikan sebanyak 21 nama. Hasil yang jauh berbeda ditunjukkan ketika menggunakan code shift, dimana semua dokumen yang berhubungan berhasil ditemu-kembalikan.

Tabel 10 Tabel pengaruh code shift pada

query Asproha brimbi

Asproha brimbi Averrhoa bilimbi

Fuzzy 5 A2160 B6510 A1600 B4510

Fuzzy 4 A216 B651 A160 B451

Fuzzy 3 A21 B65 A16 B45

Fuzzy 2 A2 B6 A1 B4

code shift A160 B510 A600 B510

Tabel 10 menunjukkan bahwa query

Asproha brimbi berhasil ditemu-kembalikan

karena kode Asproha pada code shift sama dengan kode Averrhoa pada fuzzy 4. Kasus serupa juga terdapat pada kode brimbi ketika menggunakan code shift dengan kode bilimbi ketika menggunakan code shift.

Kinerja Temu-Kembali

Untuk mengetahui pengaruh substitusi n-grams dan code shift dalam meningkatkan nilai recall dan precision algoritma Soundex, hasil temu-kembali dibandingkan antara tidak menggunakan substitusi n-grams dan code

shift, hanya menggunakan substitusi n-grams

(NS), dan menggunakan substitusi n-grams dan code shift (CS). Nilai precision untuk tiap titik recall yang telah diinterpolasi sebanyak 11 titik secara rinci diberikan pada Lampiran 8.

Gambar 3 Kurva recall-precision beberapa algoritma Soundex.

Kurva recall-precision pada Gambar 3 membuktikan bahwa substitusi n-grams dan

code shift mampu meningkatkan nilai recall

dan precision ketiga algoritma Soundex. Rata-rata peningkatan nilai recall dan precision dari

Fuzzy Soundex 0.4 0.48 0.56 0.64 0.72 0.8 0.88 0.00 0.20 0.40 0.60 0.80 1.00 Recall Precision F-Sdx F-Sdx (NS) F-Sdx (CS) Soundex Primasari (1997) 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.00 0.20 0.40 0.60 0.80 1.00 Recall Precision P-Sdx P-Sdx (NS) P-Sdx (CS) Soundex 0.5 0.58 0.66 0.74 0.82 0.9 0.00 0.20 0.40 0.60 0.80 1.00 Recall Precision S d x Sdx (NS) Sdx (CS)

(18)

ketiga algoritma Soundex tersebut ketika

ditambahkan substitusi n-grams dan code shift adalah sebesar 20%.

Peningkatan nilai recall dan precision dari ketiga algoritma Soundex tersebut dipengaruhi oleh kemampuan substitusi n-grams dan code shift dalam menangani jenis kesalahan insertion, omission, dan transposition . Penambahan kedua algoritma

tersebut ke ketiga algoritma Soundex mampu meningkatkan nilai recall dan precision untuk jenis kesalahan insertion dan omission (Gambar 4) rata-rata sebesar 30%.

Gambar 4 Kurva recall-precision beberapa algoritma Soundex (insertion dan

omission ).

Untuk jenis kesalahan transposisi, rata-rata peningkatannya mampu mencapai 40% (Gambar 5). Penambahan kedua teknik

tersebut pada algoritma Soundex hasil penelitian Primasari (1997) mampu memberikan kinerja yang lebih baik untuk jenis kesalahan ini. Hal ini dapat dilihat pada kurva recall-precision algoritma Soundex Primasari (1997) yang hampir mencapai nilai maksimum.

Gambar 5 Kurva recall-precision beberapa algoritma Soundex (transposition). Penambahan kedua teknik tersebut ke dalam algoritma Soundex hasil penelitian Primasari (1997) tidak begitu berpengaruh pada jenis kesalahan substitusi. Algoritma

Soundex hasil penelitian Primasari (1997)

telah mampu mencapai nilai maksimum ketika belum ditambahkan kedua teknik tersebut. Pengaruh dari penambahan substitusi n-grams

Fuzzy Soundex 0.30 0.48 0.65 0.83 1.00 0.00 0.20 0.40 0.60 0.80 1.00 Recall Precision F-Sdx F-Sdx (NS) F-Sdx (CS) Soundex Primasari (1997) 0.30 0.48 0.65 0.83 1.00 0.00 0.20 0.40 0.60 0.80 1.00 Recall Precision P-Sdx P-Sdx (NS) P-Sdx (CS) Soundex 0.30 0.48 0.65 0.83 1.00 0.00 0.20 0.40 0.60 0.80 1.00 Recall Precision Sdx Sdx (NS) Sdx (CS) Fuzzy Soundex 0.20 0.33 0.45 0.58 0.70 0.83 0.95 0.00 0.20 0.40 0.60 0.80 1.00 Recall Precision F-Sdx F-Sdx (NS) F-Sdx (CS) Soundex Primasari (1997) 0.00 0.20 0.40 0.60 0.80 1.00 0.00 0.20 0.40 0.60 0.80 1.00 Recall Precision P-Sdx P-Sdx (NS) P-Sdx (CS) Soundex 0.20 0.33 0.45 0.58 0.70 0.83 0.95 0.00 0.20 0.40 0.60 0.80 1.00 Recall Precision Sdx Sdx (NS) Sdx (CS)

(19)

dan code shift adalah mampu menjaga kurva tetap stabil pada nilai maksimum (Gambar 6).

Gambar 6 Kurva recall -precision beberapa algoritma Soundex (substitution). Gambar 3 juga mampu membuktikan bahwa data tidak berpengaruh terhadap bahasa ketika ditambahkan substitusi n-grams dan

code shift, karena nilai maks imum yang

mampu dicapai ketiga kurva tersebut tidak jauh berbeda satu sama lain. Hal ini karena substitusi n-grams melakukan penyeragaman terhadap perubahan bunyi akibat pertemuan antara dua alfabet atau lebih ke dalam satu alfabet atau lebih.

Sebagai contoh alfabet ‘C’. Alfabet ‘C’ cenderung akan berubah bunyi menjadi alfabet ‘K’ ketika bertemu dengan huruf -huruf vokal

‘A’, ‘U’, dan ‘O’, dan akan berubah bunyi menjadi alfabet ‘S’ ketika bertemu huruf-huruf vokal ‘I’ dan ‘E’. Pada algoritma Fuzzy

Soundex alfabet ‘C’ dan ‘K’ berbeda

kelompok, sementara kedua algoritma lainnya satu kelompok, dan pada algoritma Soundex hasil penelitian Primasari (1997) alfabet ‘C’ dan ‘S’ berbeda kelompok, sementara kedua algoritma lainnya satu kelompok.

Kinerja algoritma Soundex hasil penelitian Primasari (1997) mengalami peningkatan pada penelitian ini. Hal ini disebabkan oleh beberapa kemungkinan seperti di bawah ini:

- Proses pengaburan mampu meningkatkan jumlah kemungkinan nama yang berhubungan untuk ditemu-kembalikan. - Penambahan teknik substitusi n-grams

dan code shift serta penambahan panjang kode sebanyak 1 bit.

- Algoritma perangkingan yang digunakan adalah dice coefficient . Pada penelitian Primasari (1997), algoritma perangkingan yang digunakan adalah konversi nilai biner.

Kinerja substitusi n-grams dan code shift dalam algoritma Soundex yang baik, dapat dimanfaatkan oleh perpustakaan Fakultas Pertanian Institut Pertanian Bogor atau perpustakaan pusat Institut Pertanian Bogor dalam memperbaiki sistem pencarian dengan

query nama ilmiah. Kesalahan dalam

pengetikan nama ilmiah, baik sedikit maupun banyak, dapat mengakibatkan informasi yang

relevant tidak ditemu-kembalikan.

Situasi sistem pencarian tersebut dapat menghambat mahasiswa dalam mencari informasi yang diinginkan, sementara tidak banyak mahasiswa yang paham betul mengenai nama ilmiah dari suatu spesies tertentu. Salah satu sebab utamanya adalah pelafalan nama ilmiah yang sulit. Mahasiswa yang baru mengenal nama ilmiah untuk spesies tertentu akan mengalami banyak kesalahan dalam melafalkan atau mengetikkannya.

KESIMPULAN DAN SARAN Kesimpulan

Penambahan subtitusi n-grams dan code

shift ke dalam algoritma Soundex terbukti

mampu meningkatkan nilai recall dan

precision sistem temu-kembali nama ilmiah. Fuzzy Soundex 0.60 0.68 0.76 0.84 0.92 1.00 0.00 0.20 0.40 0.60 0.80 1.00 Recall Precision F-Sdx F-Sdx (NS) F-Sdx (CS) Soundex Primasari (1997) 0.50 0.60 0.70 0.80 0.90 1.00 0.00 0.20 0.40 0.60 0.80 1.00 Recall Precision P-Sdx P-Sdx (NS) P-Sdx (CS) Soundex 0.70 0.75 0.80 0.85 0.90 0.95 1.00 0.00 0.20 0.40 0.60 0.80 1.00 Recall Precision Sdx Sdx (NS) Sdx (CS)

(20)

Dari 20 query yang diujikan, penambahan kedua teknik tersebut mampu mengembalikan 95% nama ilmiah yang diujikan dengan jenis kesalahan yang berbeda-beda.

Data tidak berpengaruh terhadap bahasa ketika ditambahkan substitusi n-grams dan

code shift. Hal ini karena substitusi n-grams

melakukan penyeragaman terhadap perubahan bunyi akibat pertemuan antara dua alfabet atau lebih ke dalam satu alfabet atau lebih.

Sistem temu-kembali nama ilmiah dengan penambahan substitusi n-grams dan code shift ke dalam algoritma Soundex, dapat diterapkan di sistem pencarian perpustakaan Fakultas Pertanian IPB atau perpustakaan pusat IPB. Kedua perpustakaan tersebut memiliki kekurangan apabila query nama ilmiah yang diketikkan tidak sesuai dengan data dalam basis data.

Saran

Kesalahan teknis yang disebab kan oleh pengguna seperti salah menekan tombol pada papan kunci, tidak mampu ditangani oleh sistem ini. Penelitian selanjutnya dapat ditambahkan teknik pengkoreksian n-grams sebelum query dikonversi ke dalam kode

Soundex.

Sistem yang dikembangkan hanya mam pu menemu-kembalikan dokumen yang berhubungan dengan nama yang diketikkan. Dokumen yang hanya memiliki common name tidak mampu ditemu-kembalikan. Ada beberapa metode yang bisa digunakan di antaranya adjacency, within list, SVD, dan lain-lain.

Sistem pencar ian belum mampu menemu-kembalikan dengan cepat jika hasil yang ditemu-kembalikan dalam jumlah besar. Penelitian selanjutnya dapat dilakukan pencarian dengan sistem paralel untuk koleksi dokumen dalam jumlah yang sangat besar.

DAFTAR PUSTAKA

Baeza-Yat es Ricardo, Riberio-Neto Berthier. 1999. Modern Information Retrieval. New York: Addison-Wesley.

Hendrawan Kiki. 2004. Cara Klasifikasi dan Tata Nama.

http://clearinghouse.dikmenum.go.id/sho wContent.php?id=192&idCont=Bpn&Su bjectID=21&mnMode=mnBp [21 Maret 2006].

Holmes David, Catherine McCabe M. 2002. Improving Precision and Recall for Soundex Retrieval. Las Vegas.

http://ir.iit.edu/publications/downloads/IE EESoundexV5.pdf [12 Juni 2005]. Primasari Dewi. 1997. Metode Pencarian dan

Temu-Kembali Nama Berdasarkan Kesamaan Fonetik. [Skripsi]. Bogor:

Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor.

Repici Dominic John. 2006. Soundex Algorithms Explained.

http://www.creativyst.com/Doc/Articles/S

oundEx1/SoundEx1.htm#Algorithm [14

Juni 2005].

Ridha Ahmad. 2002. Pengindeksan Otomatis

Dengan Istilah Tunggal Untuk Dokumen Berbahasa Indonesia. [Skripsi]. Bogor:

Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor.

Van Rijsbergen C. J. 1979. Information Retrieval. http://www.dcs.gla.ac.uk/ Keith/Preface.html [25 Juni 2005]. Wikipedia. 2006. Tatanama Binomial.

http://id.wikipedia.org/wiki/Tatanama_bi nomial [21 Maret 2006].

(21)

(22)

(23)

(24)

(25)

(26)

(27)

(28)

Lampiran 5 Contoh dokumen dalam koleksi

<DOC>

<DOCNO> </DOCNO> <TITLE> Jarak Bali

(Jatropha podagrica Hook.) </TITLE> <AUTHOR> </AUTHOR> <DOCSOURCE> </DOCSOURCE> <DATE> </DATE> <ABSTRACT> </ABSTRACT> <KEYWORD> <KW> </KW> </KEYWORD> <TEXT> <CAPTION> </CAPTION> Sinonim : Familia : Euphorbiaceae Uraian :

Tanaman ini dapat ditemukan sebagai tanaman hias, yang ditanam di pekarangan atau tempat rekreasi. Asalnya, dari Amerika tropis. Perdu tegak, tinggi 0,5- 1,5 m, bergetah warna putih, batang tunggal atau sedikit bercabang, dengan pangkal batang yang membesar dan melembung seperti umbi. Daun bertangkai yang panjangnya 20-30 cm, helai daun bangun perisai, bentuknya bulat telur melebar dengan ukuran penampang 20-40 cm, bercangap 3 atau 5, taju runcing atau membulat. Bunga dalam malai rata yang bertangkai panjang, dengan bunga betina dan bunga jantan dalam satu tangkai, warnanya merah oranye. Buah bentuk elips melebar, berkendaga tiga, panjang 1,5 cm. Biji lonjong atau bulat panjang.

Nama Lokal : Jarak batang gajah.;

Penyakit Yang Dapat Diobati :

Demam, bengkak terpukul, digigit ular biasa.; Pemanfaatan :

BAGIAN YANG DIPAKAI: Seluruh tanaman KEGUNAAN:

- Demam

- Bengkak terpukul - Digigit ular berbisa

PEMAKAIAN:

Untuk minum: 10-15 g direbus. Ampasnya digunakan untuk ditempelkan pada tempat yang sakit. </TEXT>

(29)

Lampiran 6 Daftar 354 nama ilmiah dalam kamus.txt

No. Nama asli Nama depan Nama belakang

1 ABRUS PRECATORIUS, LINN ABRUS PRECATORIUS

2 ABUTILON INDICUM (L.) SWEET ABUTILON INDICUM

3 ACALYPHA AUSTRALIS LINN ACALYPHA AUSTRALIS

4 ACALYPHA INDICA ACALYPHA INDICA

5 ACANTHUS ILICIFOLIUS LINN ACANTHUS ILICIFOLIUS

6 ACHYRANTHES ASPERA LINN ACHYRANTHES ASPERA

7 ACORUS CALAMUS L ACORUS CALAMUS

8 AGERATUM CONYZOIDES AGERATUM CONYZOIDES

9 AGLAIA ODORATA LOUR AGLAIA ODORATA

10 ALEURITES MELUCCANA ALEURITES MELUCCANA

11 ALLAMANDA CATHARTICA ALLAMANDA CATHARTICA

12 ALLIUM AMPELOPRASUM ALLIUM AMPELOPRASUM

13 ALLIUM CEPA ALLIUM CEPA

14 ALLIUM SATIVUM, LINN ALLIUM SATIVUM

15 ALLIUM TUBEROSUM ALLIUM TUBEROSUM

16 ALOE VERA LINN ALOE VERA

17 ALPINIA GALANGA, LINN., WILLD ALPINIA GALANGA

18 ALPINIA PURPURATA K SCHUM ALPINIA PURPURATA

19 ALSTONIA SCHOLARIS [L.] R. BR ALSTONIA SCHOLARIS

20 ALYXIA REINWARDITI ALYXIA REINWARDITI

21 AMARANTHUS SPINOUSUS, LINN AMARANTHUS SPINOUSUS

22 AMOMUM CARDAMOMUM WILD AMOMUM CARDAMOMUM

23

AMOMUM COMPACTUM SOLAND

EX MATON AMOMUM COMPACTUM

24

ANACARDIUM OCCIDENTALE,

LINN ANACARDIUM OCCIDENTALE

25 ANANAS CUMOSUS L. MERR ANANAS CUMOSUS

26

ANDROGRAPHIS PANICULATA

NESS ANDROGRAPHIS PANICULATA

27 ANDROPOGON CITRATUS ANDROPOGON CITRATUS

28 ANDROPOGON SORGHUM ANDROPOGON SORGHUM

29 ANNONA MURICATA ANNONA MURICATA

30 ANNONA RETICULATA L ANNONA RETICULATA

31 ANTHURIUM SPP ANTHURIUM SPP

32 ANTIDESMA BUNIUS (L.) SPRENG ANTIDESMA BUNIUS

33 APIUM GRAVEOLENS, LINN APIUM GRAVEOLENS

34 ARACHIS HYPOGAEA ARACHIS HYPOGAEA

35 ARECA CATECHU L ARECA CATECHU

36 ARENGA PINNATA, MERR ARENGA PINNATA

37 ARTEMISIA VULGARIS LINN ARTEMISIA VULGARIS

38 ARTOCARPUS CHAPEDEN ARTOCARPUS CHAPEDEN

39 ARTOCARPUS EROPHYLLUS ARTOCARPUS EROPHYLLUS

40

ARTOCARPUS HETEROPHYLLA

UNK ARTOCARPUS HETEROPHYLLA

41

ARTOCARPUS INTEGRA MERR.

(30)

Lanjutan Lampiran 6 Daftar 354 nama ilmiah dalam kamus.txt

42

ASPARAGUS COCHINCHINENESIS

(LOUR.) MERR ASPARAGUS COCHINCHINENESIS

43 AVERHOA BILIMBI AVERHOA BILIMBI

44 AVERHOA CARAMBOLA AVERHOA CARAMBOLA

45 AVERRHOA BILIMBI L AVERRHOA BILIMBI

46 AXONOPUS COMPRESSUS AXONOPUS COMPRESSUS

47 AZADIRACHTA INDICA JUSS AZADIRACHTA INDICA

48 AZOLLA PINNATA AZOLLA PINNATA

49 BAMBUSA SP BAMBUSA SP

50 BARLERIA CRISTATA L BARLERIA CRISTATA

51 BARLERIA LUPULINA LINDL BARLERIA LUPULINA

52 BARLERIA PRIONITIS L BARLERIA PRIONITIS

53 BARSSICA JUNCEA BARSSICA JUNCEA

54 BASELLA RUBRA LINN BASELLA RUBRA

55 BATATAS EDULIS CHOIS BATATAS EDULIS

56 BIXA ORELLANA BIXA ORELLANA

57

BLETILLA STRIATA (THUNB.)

REICHB.F BLETILLA STRIATA

58 BLUMEA BALSAMIFERA (L.) DC BLUMEA BALSAMIFERA

59 BLUMEODENDRON KURZII BLUMEODENDRON KURZII

60 BOCHMEREA NIVEA BOCHMEREA NIVEA

61

BOESENBERGIA PANDUREATA

ROXB BOESENBERGIA PANDUREATA

62 BOUGAINVILLEA SPECTABILIS BOUGAINVILLEA SPECTABILIS

63 BRASSICA OLERACEA BRASSICA OLERACEA

64 BRUCEA JAVANICA (L) MERR BRUCEA JAVANICA

65 CAESALPIA SAPPAN L CAESALPIA SAPPAN

66 CAESALPINIA SAPPAN CAESALPINIA SAPPAN

67 CAJANUS CAJAN [LINN.] MILLSP CAJANUS CAJAN

68 CALOPHYLLUM INOPHYLLUM L CALOPHYLLUM INOPHYLLUM

69 CALOTROPIS GIGANTEAN CALOTROPIS GIGANTEAN

70 CAMELLIA SINENSIS [L.] KUNTZE CAMELLIA SINENSIS

71 CAMELLIA SINENSIS L CAMELLIA SINENSIS

72

CANANGIUM ODORATUM, (LAMK.), HOOK DAN THORMS.

(LAT) CANANGIUM ODORATUM

73 CANNA INDICA LINN CANNA INDICA

74 CAPISCUM FRUTESCENS CAPISCUM FRUTESCENS

75 CAPSICUM SP CAPSICUM SP

76 CARICA PAPAYA, LINN CARICA PAPAYA

77 CARNICIA MANGOSTANA L CARNICIA MANGOSTANA

78 CASSIA ALATA, LINN CASSIA ALATA

79 CASSIA FISTULA L CASSIA FISTULA

80 CASSIA TORA LINN CASSIA TORA

81

CATHARANTUS ROSEUS (L.) G.

DON CATHARANTUS ROSEUS

(31)

83 CELOSIA ARGENTEA LINN CELOSIA ARGENTEA

84 CENTELLA ASIATICA, (LINN), URB CENTELLA ASIATICA

85

CHRYSANTHEMUM MORIFOLIUM

RAM CHRYSANTHEMUM MORIFOLIUM

86 CHRYSOMELA SCRIPTA CHRYSOMELA SCRIPTA

87 CINNAMOMUM BURMANI CINNAMOMUM BURMANI

88 CINNAMOMUM CASSIA PRESL CINNAMOMUM CASSIA

89 CINNAMOMUM SINTOK BI CINNAMOMUM SINTOK

90 CITRUS AURANTIFOLIA, SWINGLE CITRUS AURANTIFOLIA

91 CITRUS MAXIMA CITRUS MAXIMA

92 CITRUS NOBILIS CITRUS NOBILIS

93 CLEOME SPINOSA L CLEOME SPINOSA

94

CLERODENDRON SERRATURE [L.]

SPR CLERODENDRON SERRATURE

95

CLERODENDRUM THOMSONAE

BALFF CLERODENDRUM THOMSONAE

96

CLERODENTRUM CALAMITOSUM

L CLERODENTRUM CALAMITOSUM

97 COCOS NUCIFERA, LINN COCOS NUCIFERA

98 COFFEA SP COFFEA SP

99 COIX LACHRYMA-JOBIL COIX LACHRYMA-JOBIL

100 COLEUS AMBOINICUS, LOUR COLEUS AMBOINICUS

101 COLEUS AROMATICUS BENTH COLEUS AROMATICUS

102 COLEUS ATROPURPUREUS L COLEUS ATROPURPUREUS

103

COLEUS SCUTELLARIOIDES,

LINN,BENTH COLEUS SCUTELLARIOIDES

104 COLOCASIA ESCULENTA COLOCASIA ESCULENTA

105 CONVOLVULUS BATATAS L CONVOLVULUS BATATAS

106 CORIANDRUM SATIVUM L CORIANDRUM SATIVUM

107 CRINUM ASIATICUM CRINUM ASIATICUM

108 CROTALARIA JUNCEA CROTALARIA JUNCEA

109 CUCUMIS SATIVUS L CUCUMIS SATIVUS

110 CUCURBITA PEPO CUCURBITA PEPO

111 CUMINUM CYMINUM, LINN CUMINUM CYMINUM

112 CURCUBITA MOSCHATA DUCH CURCUBITA MOSCHATA

113 CURCUMA ACRUGINOSSA CURCUMA ACRUGINOSSA

114 CURCUMA AEROGINOSA ROXB CURCUMA AEROGINOSA

115 CURCUMA ALBAL L CURCUMA ALBAL

116 CURCUMA DOMESTICA VAL CURCUMA DOMESTICA

117 CURCUMA HEYNEANA VAL. & V CURCUMA HEYNEANA

118 CURCUMA LONGA LINN CURCUMA LONGA

119 CURCUMA XANTHOMIZHA ROZB CURCUMA XANTHOMIZHA

120 CURCUMA XANTHORRHIZA, ROXB CURCUMA XANTHORRHIZA

121 CURCUMA ZEDOARIA CURCUMA ZEDOARIA

122 CYCLEA BARBATA CYCLEA BARBATA

(32)

124

CYMBOPOGAN NARDUS L.

REANDLE CYMBOPOGAN NARDUS

125 CYMBOPOGON CITRATUS CYMBOPOGON CITRATUS

126 CYPERUS ALTERNIFOLIUS CYPERUS ALTERNIFOLIUS

127 CYPERUS PAPYRUS CYPERUS PAPYRUS

128 CYPERUS ROTUNDUS CYPERUS ROTUNDUS

129 DATURA METEL, LINN DATURA METEL

130 DAUCUS CAROTA, LINN DAUCUS CAROTA

131

DESMODIUM TRIQUETRUM [L.]

D.C DESMODIUM TRIQUETRUM

132 DIOSCOREA SPP DIOSCOREA SPP

133 DIPTEROCARPUS SP DIPTEROCARPUS SP

134 DOLICHOS LABLAB DOLICHOS LABLAB

135 DURIO ZIBETHINUS DURIO ZIBETHINUS

136 DYSOXYLUM EXCELSUM DYSOXYLUM EXCELSUM

137 ECLIPTA ALBA (L.) HASSK ECLIPTA ALBA

138 ELEPHANTOPUS SCABER L ELEPHANTOPUS SCABER

139 EPIPHYLLUM ANGULIGER EPIPHYLLUM ANGULIGER

140 EQUISETUM DEBILE ROXB EQUISETUM DEBILE

141 ERCHORMIA CRASSIPES ERCHORMIA CRASSIPES

142 ERECHTITES VALERIANNIFOLIA ERECHTITES VALERIANNIFOLIA

143

ERVATAMIA DIVARICATA (L.)

BURK ERVATAMIA DIVARICATA

144 ERYTHRINA HYPOPHORUS ERYTHRINA HYPOPHORUS

145 ERYTHRINA ORIENTALIS ERYTHRINA ORIENTALIS

146 EUGENIA CUMINI EUGENIA CUMINI

147 EUGENIA POLYANTHA EUGENIA POLYANTHA

148 EUPATORIUM TRIPLINERVE VAHL EUPATORIUM TRIPLINERVE

149 EUPHARBIA TIRUCALLI L EUPHARBIA TIRUCALLI

150 E U PHORBIA ANTIQUORUM L EUPHORBIA ANTIQUORUM

151 EUPHORBIA HIRTA, LINN EUPHORBIA HIRTA

152

EUPHORBIA MILII CH.DES

MOULINS EUPHORBIA MILII

153

EUPHORBIA PUICHERRIMA

WILLD. ET KLOTZSCH EUPHORBIA PUICHERRIMA

154 EUPHORBIA THYMIFOLIA LINN EUPHORBIA THYMIFOLIA

155 EURYCOMA LONGIFOLIA EURYCOMA LONGIFOLIA

156 EVODIAA SUAVEOLENS EVODIAA SUAVEOLENS

157

EXCOECARIA COCHINCHINENSIS

LOUR EXCOECARIA COCHINCHINENSIS

158 FEDERIA FOETIDAL FEDERIA FOETIDAL

159 FICUS BENYAMINA L FICUS BENYAMINA

160 FOENICULUM VULGARE MILL FOENICULUM VULGARE

161

GANODERMA LUCIDUM (LEYSS.EX

FR.) KARST GANODERMA LUCIDUM

162 GARDENIA AUGUSTA, MERR GARDENIA AUGUSTA

163 GARDENIA JASMINOIDES ELLIS GARDENIA JASMINOIDES

(33)

165 GLYCINE MAX, (LINN.) MERRILL GLYCINE MAX

166 GLYCYRRHIZA GLABRA L GLYCYRRHIZA GLABRA

167 GOMPHRENA GLOBOSE LINN GOMPHRENA GLOBOSE

168 GOSSYPIUM SP GOSSYPIUM SP

169

GRAPTOPHYLLUM PICTUM,

(LINN), GRIFF GRAPTOPHYLLUM PICTUM

170 GUAZOMA ULMIFOLIA LAMK GUAZOMA ULMIFOLIA

171 GYNURA PROCUMBENS GYNURA PROCUMBENS

172 GYNURA PSEUDO-CHINA GYNURA PSEUDO -CHINA

173 GYNURA SEGETUM (LOUR.) MERR GYNURA SEGETUM

174 HEDYOTIS CORYMBOSA (L.] LAMK HEDYOTIS CORYMBOSA

175 HEDYOTIS DIFFUSA HEDYOTIS DIFFUSA

176 HELIANTHUS ANNUUS LINN HELIANTHUS ANNUUS

177 HELIOTHIS ARMIGERA HELIOTHIS ARMIGERA

178 HELIOTROPIUM INDICUM L HELIOTROPIUM INDICUM

179 HEMIGRAPHIS COLORATA HEMIGRAPHIS COLORATA

180

HIBISCUS SCHIZOPETALUS

(MAST.) HOOK. F HIBISCUS SCHIZOPETALUS

181 HIBISCUS TILIACEUS HIBISCUS TILIACEUS

182 HISBISCUS MUTABILIS HISBISCUS MUTABILIS

183

HYDROCOTYLE SIBTHORPIOIDES

LAM HYDROCOTYLE SIBTHORPIOIDES

184 IMPATIENS BALSAMINA LINN IMPATIENS BALSAMINA

185 IMPERATA CYLINDRICAL IMPERATA CYLINDRICAL

186 IPOMEA AQUATICA SP IPOMEA AQUATICA

187 IPOMOEA BATATAS PIR IPOMOEA BATATAS

188 IPOMOEA PES-CAPRAE (L.) SWEET IPOMOEA PES-CAPRAE

189 IXORA STRICTER ROXB IXORA STRICTER

190 JASMINUM PUBESCENS JASMINUM PUBESCENS

191 JASMINUM SAMBAC, AIT JASMINUM SAMBAC

192 JATROPHA GOSSYPIFOLIA L JATROPHA GOSSYPIFOLIA

193 JATROPHA PODAGRICA HOOK JATROPHA PODAGRICA

194 JUSTICIA GENDARUSSA BURM. F JUSTICIA GENDARUSSA

195 KAEMPFERIA GALANGA, LINN KAEMPFERIA GALANGA

196 KALANCHOE PINNATA (LAM.) PER KALANCHOE PINNATA

197 LACTUCA SATIVA LACTUCA SATIVA

198 LAGERSTROEMIA SPECIOSA AUCT LAGERSTROEMIA SPECIOSA

199 LAMINARIA JAPONICA LAMINARIA JAPONICA

200 LANTANA CAMARA LINN LANTANA CAMARA

201 LASIUM DOMESTICUM LASIUM DO MESTICUM

202 LAWSONIA INERMIS LAWSONIA INERMIS

203 LEONURUS SIBIRICUS L LEONURUS SIBIRICUS

204

LEUCAENA LEUCOCEPHALA,

LMK. DE WIT LEUCAENA

LEUCOCEPHALA

205 LEUCAS LAVANDULIFOLIA SMITH LEUCAS LAVANDULIFOLIA

206 LITSEA GLUTINOSA (LOUR) C.D LITSEA GLUTINOSA

(34)

208 LSOTOMA LONGIFLORA PRESI LSOTOMA LONGIFLORA

209 LUFFA ACUTANGULA L. ROXB LUFFA ACUTANGULA

210 MANGIFERA INDICA MANGIFERA INDICA

211 MANIHOT ESCULENTA, CRAUTZ MANIHOT ESCULENTA

212 MANIHOT UTILISSIMA POHL. MANIHOT UTILISSIMA

213 MARANTA ARUNDINACEA L. MARANTA ARUNDINACEA

214 MASSOIO AROMATICA MASSOIO AROMATICA

215 MEIALEUCA LEUCADENDRA L MEIALEUC A LEUCADENDRA

216 MELASTOMA CANDIDUM D. DON MELASTOMA CANDIDUM

217 MELATOMA CANDIDUM D. DON MELATOMA CANDIDUM

218 MELIA AZE DARACHTA MELIA AZE

219 MENTHA ARVENSIS MENTHA ARVENSIS

220

MERREMIA MAMMOSA (LOUR.)

HALL.F MERREMIA MAMMOSA

221 MICHELIA CHAMPACA MICHELIA CHAMPACA

222 MIMOSA PUDICA LINN MIMOSA PUDICA

223 MIMUSOPS ELENGI L MIMUSOPS ELENGI

224 MIRABILISJALAPA LINN MIRABILISJALAPA LINN

225 MOMORDICA CHARANTIA L MOMORDICA CHARANTIA

226 MORINDA CITRIFOLIA, LINN MORINDA CITRIFOLIA

227 MORINGA OLEIFERA, LAMK MORINGA OLEIFERA

228 MORUS ALBA L MORUS ALBA

229 MURRAYA PANICULATA [L..] JACK MURRAYA PANICULATA

230 MUSA BRACHYCARPA BACK MUSA BRACHYCARPA

231 MUSA PARADISIACA, LINN MUSA PARADISIACA

232 MUSSAENDA PUBESCENS MUSSAENDA PUBESCENS

233 MYRISTICA FRAGRANS HOUFF MYRISTICA FRAGRANS

234 NASTURTIUM MONTANUM WALL NASTURTIUM MONTANUM

235 NASTURTIUM OFFICINALE L. R. BR NASTURTIUM OFFICINALE

236 NELUMBIUM NELUMBO DRUCE NELUMBIUM NELUMBO

237 NEPHELIUM LAPPACEUM NEPHELIUM LAPPACEUM

238 NERIUM OLEANDER NERIUM OLEANDER

239 NIGELLA SATIVA NIGELLA SATIVA

240

NOTHOPANAX SCUTELLARIUM

MERR NOTHOPANAX SCUTELLARIUM

241 NYCTANTHES ARBOR-TRISTIS L NYCTANTHES ARBOR-TRISTIS

242 NYMPHAEA LOTUS L NYMPHAEA LOTUS

243 NYMPHAEA TETRAGONA GEORGI NYMPHAEA TETRAGON A

244 OCIMUM BASILICUM L OCIMUM BASILICUM

245 OLDENLANDIA CORYMBOSA OLDENLANDIA CORYMBOSA

246 OPUNTIA DILENII HAW OPUNTIA DILENII

247 ORIADRUM SATIVUM ORIADRUM SATIVUM

248

ORTHOSIPHON ARISTATUS (B1)

MIQ ORTHOSIPHON ARISTATUS

249

ORTHOSIPHON STAMINEU S

BENTH ORTHOSIPHON STAMINEUS

250 ORYZA, SATIVA L ORYZA SATIVA