PERANAN SUBSTITUSI N-GRAMS DAN CODE SHIFT PADA
ALGORITMA SOUNDEX
Oleh :
R ZAINAL ARIFIN F S
G64102031
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
PERANAN SUBSTITUSI N-GRAMS DAN CODE SHIFT PADA
ALGORITMA SOUNDEX
Skripsi
sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer
pada Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor
Oleh :
R ZAINAL ARIFIN F S
G64102031
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
RINGKASAN
R ZAINAL ARIFIN F S. Peranan Substitusi N-grams dan Code Shift pada Algoritma Soundex. Dibimbing oleh SRI NURDIATI dan JULIO ADISANTOSO.
Ketidakjelasan akar kata akibat keterbatasan pengetahuan informasi pengguna mengenai nama ilmiah dan sifat kembali nama ilmiah yang hanya memiliki dua kemungkinan hasil temu-kembali, yaitu ditemu-kembalikan semua atau tidak ditemu -kembalikan sama sekali, menyebabkan sistem temu-kembali kesamaan fonetik untuk nama ilmiah memiliki kinerja yang rendah. Tujuan penelitian ini adalah mengukur kinerja n-grams substitution dan code shift dalam upaya meningkatkan nilai recall dan precision algoritma Soundex. Tercakup di dalamnya proses pembentukan kamus kata nama ilmiah, identifikasi nama ilmiah dalam dokumen, dan proses perangkingan dengan menggunakan dice coefficient. Pengujian menggunakan koleksi dokumen sebanyak 849 dokumen dan 20 jenis query dengan jenis kesalahan yang berbeda. Kinerja temu-kembali dibandingkan antara tidak menggunakan substitusi n-grams dan code shift, hanya menggunakan substitusi n-grams (NS), dan menggunakan substitusi n-grams dan code shift (CS). Hasil penelitian mengungkapkan bahwa kinerja substitusi n-grams dan code shift mampu meningkatkan kinerja sistem temu-kembali kesamaan fonetik untuk nama ilmiah. Kedua teknik tersebut mampu 95% menemu-kembalikan nama ilmiah dengan contoh 20 query pengujian tersebut.
Hasil penelitian juga mengungkapkan bahwa data tidak berpengaruh terhadap bahasa ketika ditambahkan substitusi n-grams dan code shift. Hal ini karena substitusi n-grams melakukan penyeragaman terhadap perubahan bunyi akibat pertemuan antara dua alfabet atau lebih ke dalam satu alfabet atau lebih.
Kata Kunci : Temu Kembali Informasi, temu kembali nama ilmiah, Fuzzy Soundex, Soundex, code
Judul
: Peranan Substitusi N-grams dan Code Shift pada
Algoritma Soundex
Nama : R Zainal Arifin F S
NRP
: G64102031
Menyetujui:
Pembimbing I,
Dr. Ir. Sri Nurdiati, M.Sc
NIP 131578805
Pembimbing II,
Ir. Julio Adisantoso, M.Kom
NIP 131578807
Mengetahui:
Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor
Dr. Ir. Yonny Koesmaryono, MS
NIP 131473999
RIWAYAT HIDUP
Penulis dilahirkan di Solo pada tanggal 3 Januari 1985 dari ayah H. Drs. Subandi dan ibu Hj. Dyah Farida Subandi. Penulis merupakan putra kedua dari empat bersaudara. Tahun 2002 penulis lulus dari SMU Negeri 5 Bogor dan pada tahun yang sama lulus seleksi masuk IPB melalui jalur Undangan Seleksi Masuk IPB. Penulis memilih Program Studi Ilmu Komputer, Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam.
Pada tahun 2005 Penulis menjalankan praktek lapangan di Kantor Pengembangan Sistem Informasi Institut Pertanian Bogor selama kurang lebih 2 bulan. Pada tahun 2006 Penulis berkesempatan menjadi pengembang Sistem Informasi Akademik Pasca Sarjana Institut Pertanian Bogor.
PRAKATA
Alhamdulillahirabbil ‘alamin, puji syukur Penulis panjatkan ke hadirat Allah Subhanahu wa ta’ala atas segala curahan rahmat dan karunia-Nya sehingga skripsi dengan judul Peranan Substitusi
N -grams dan Code Shift pada Algoritma Soundex, dapat diselesaikan. Shalawat serta salam juga Penulis sampaikan kepada junjungan kita Nabi Muhammad Shallalahu ‘alaihi wasallam beserta seluruh sahabat dan umatnya hingga akhir zaman.
Penulis juga mengucapkan terima kasih kepada Ibu Dr. Ir. Sri Nurdiati, M.Sc selaku pembimbing I yang telah banyak membantu Penulis dalam menyusun skripsi ini. Terima kasih juga penulis ucapkan kepada Bapak Ir. Julio Adisantoso, M.Komp selaku pembimbing II yang telah banyak memberi saran, masukan, dan ide-ide kepada Penulis. Tanpa bimbingan dari Ibu Sri dan Bapak Julio, Penulis belum tentu mampu menyelesaikan skripsi ini dalam waktu yang relatif cepat. Penulis juga ingin mengucapkan terima kasih kepada Ibu Yeni Herdiyeni, S.Si., M.Kom selaku penguji yang telah banyak memberi saran dan masukan kepada Penulis. Selanjutnya Penulis juga ingin mengucapkan terima kasih kepada:
1. Papa, Mama, Mas Ishal, dan my little sister Icha yang selalu memberi dukungan, doa, dan semangat kepada Penulis, sehingga Penulis dapat menyelesaikan tugas akhir ini dalam waktu yang relatif cepat.
2. Ratna Widyaningsih, yang selalu membangkitkan semangat Penulis ketika mengalami hari-hari yang sulit dan telah membantu Penulis dalam mengumpulkan query pengujian.
3. Fitri, Andi, Linda, Nia, Nafi, Dek Rani, yang telah bersedia meluangkan waktunya untuk membantu dalam mengumpulkan query pengujian.
4. Mr. Dave Holmes, thank you very much for your attention. You are willing to spare your time for
replying my mails. Without your help, I can’t realize how my paper will finish.
5. Bapak Ir. Yahya Kurniawan, yang telah membantu Penulis ketika mengalami masalah penulisan
coding.
6. Teman-teman seperjuangan, Fatchur, BalQ, Sanda, Edu, Ichoy, Irfan yang telah banyak membantu Penulis pada masa perkuliahan. I’m sorry, I’m the first man.
7. Sahabat -sahabat Ilkom angkatan 39 yang membuat Penulis cepat menghilangkan kepenatan dalam menyusun skripsi.
8. Departemen Ilmu Komputer, staf dan dosen yang telah begitu banyak membantu baik selama penelitian maupun pada masa perkuliahan .
Kepada semua pihak lainnya yang telah memberikan kontribusi yang besar selama pengerjaan penelitian ini yang tidak dapat disebutkan satu-persatu, Penulis ucapkan terima kasih banyak.
Semoga penelitian ini dapat memberikan manfaat.
Bogor, Juni 2006
DAFTAR ISI
Halaman DAFTAR ISI ………... v DAFTAR TABEL ………. vi DAFTAR GAMBAR ………. vi DAFTAR LAMPIRAN ………. vi PENDAHULUAN ... 1 Latar belakang ... 1 Tujuan ... 1 Ruang lingkup ... 1 TINJAUAN PUSTAKA ... 1Information Retrieval (Temu-Kembali Informasi) ... 1
Recall and Precision ... 2
Tokenizer ... 2
Algoritma Soundex ……… 2
Algoritma Fuzzy Soundex ………. 3
N-grams ……….... 4
N-grams Substitution ……… ……… 4
Code Shift ………. 4
Dice Co-Efficient ……….. 4
Tatanama Binomial Nomenclatur ………. 4
METODE PENELITIAN ……….. 5
Gambaran Umum Sistem Temu-Kembali Nama Ilmiah ……….. 5
Parsing (Tokenizer) ... 5 Parsing Kamus ... 5 Parsing Dokumen ... 5 N-grams Substitution ... 5 Code Shift ... 6 Pengaburan Kode ... ... 6 Perlakuan (Treatment) ……….. 6
Evaluasi Recall and Precision ... 6
Asumsi-asumsi ... 6
Lingkungan Pengembangan ... 6
HASIL DAN PEMBAHASAN ... 6
Karakteristik Dokumen ... 6
Struktur Data Pengindeksan ... 6
Analisis Identifikasi Nama Ilmiah ... 7
Query ... 7
Substitusi N -grams ... 7
Proses Pengaburan ... 8
Algoritma Pencarian Dengan Dice Co-Efficient ... 8
Code Shift ... 9
Kinerja Temu-Kembali ... 9
KESIMPULAN DAN SARAN ... 11
Kesimpulan ... 11
Saran ... 12
DAFTAR TABEL
Halaman
Tabel 1. Perbedaan data retrieval dengan information retrieval ... 2
Tabel 2. Tabel pengelompokan konsonan algoritma Soundex (Repici 2006) ... 3
Tabel 3. Tabel pengelompokan konsonan algoritma Soundex (Primasari 1997) ... 3
Tabel 4. Tabel pengelompokan konsonan algoritma Fuzzy Soundex (Holmes & McCabe 2002) ... 3
Tabel 5. Klasifikasi kesalahan menurut Damerau ... 4
Tabel 6. Tabel jenis N-grams yang termasuk kasus N -grams Substitution ……….. 4
Tabel 7. Tabel kasus tambahan substitusi N -grams ………. 8
Tabel 8. Tabel perbandingan kode Kromotoli dengan Quamoclit ... 8
Tabel 9. Tabel perbandingan kode penata dengan pennata ... 9
Tabel 10. Tabel pengaruh code shift pada query Asproha brimbi ... 9
DAFTAR GAMBAR
Halaman Gambar 1. Gambaran umum sistem temu-kembali nama ilmiah ... 5Gambar 2. Diagram relasional struktur data pengindeksan ... ... 7
Gambar 3. Kurva recall-precision beberapa algoritma Soundex………..…... 9
Gambar 4. Kurva recall-precision beberapa algoritma Soundex (insertion dan omission ) ... 10
Gambar 5. Kurva recall-precision beberapa algoritma Soundex (transposition)………. 10
Gambar 6. Kurva recall-precision beberapa algoritma Soundex (substitution) ...……… 11
DAFTAR LAMPIRAN
Halaman Lampiran 1. DFD Level-0 sistem temu-kembali nama ilmiah ……… 13Lampiran 2. DFD Level-1 sistem temu-kembali nama ilmiah ... 14
Lampiran 3. DFD Level-2 sistem temu-kembali nama ilmiah ... 15
Lampiran 4. Antarmuka implementasi ... 16
Lampiran 5. Contoh dokumen dalam koleksi ... 19
Lampiran 6. Daftar 354 nama ilmiah dalam kamus.txt ……… 20
Lampiran 7. Daftar query yang digunakan dalam pengujian ... 29
Lampiran 8. Nilai rata-rata recall-precision sistem temu-kembali nama ilmiah untuk beberapa kasus ... 30
PENDAHULUAN Latar Belakang
Nama merupakan suatu hal penting dalam sebuah sistem informasi. Nama sering digunakan sebagai kriteria pencarian dalam sistem temu-kembali informasi (information
retrieval) untuk keperluan dalam bidang
perpustakaan (nama pengarang), kepolisian (nama tawanan), toko buku, dan lain-lain.
Sistem temu-kembali informasi yang menghasilkan sekelompok nama ilmiah, seringkali menemukan masalah untuk
query-query berkonteks bahasa natural.
Ketidakjelasan akar kata akibat keterbatasan pengetahuan informasi pengguna merupakan titik masalah dari sistem tersebut. Kesalahan pengejaan dalam menuliskan query, akan mengakibatkan informasi yang dibutuhkan tidak ditemu-kembalikan.
Masalah kesalahan pengejaan tersebut dapat dipecahkan dengan menggunakan algoritma-algoritma kesamaan fonetik. Di antaranya, Soundex, phoenix, Pfeifer, dan
Fuzzy Soundex . Algoritma Soundex telah
dikembangkan untuk query bahasa Indonesia dengan memodifikasi pengelompokan konsonan sesuai dengan kaidah bahasa Indonesia. Penelitian yang dilakukan oleh Primasari (1997) tersebut menggunakan konversi nilai biner untuk sistem perangkingannya. Ternyata data tidak berpengaruh terhadap jenis bahasa karena algoritma soundex dalam bahasa Inggris dapat bekerja dengan baik pada bahasa Indonesia. Hal ini karena bahasa Inggris dan Indonesia menggolongkan konsonannya dengan keistimewaan yang sama.
Algoritma Fuzzy Soundex memiliki nilai
recall dan precision yang lebih baik jika
dibandingkan dengan algoritma kesamaan fonetik lainnya. Peningkatan nilai tersebut dipengaruhi oleh dua metode yang disisipkan dalam algoritma Fuzzy Soundex, yaitu
subtitusi n-grams dan code shift. K edua metode tersebut mampu meningkatkan nilai
recall dan precision sistem temu-kembali
kesamaan fonetik.
Nama ilmiah memiliki dua kemungkinan hasil temu-kembali, yaitu ditemu-kembalikan semua atau tidak ditemu-kembalikan sama sekali. Nama ilmiah sedikit berbeda dengan nama yang lainnya, dimana nama ilmiah hanya memiliki satu jenis nama, berbeda dengan nama orang yang memiliki
beberapa keseragaman. Perbedaan tersebut yang menyebabkan temu-kembali untuk
query nama ilmiah sangat sensitif.
Tujuan
Penelitian ini bertujuan mengukur kinerja n-grams substitution dan code shift dalam upaya meningkatkan nilai recall dan precision algoritma Soundex.
Ruang Lingkup
Ruang lingkup penelitian ini adalah: 1. Jenis algoritma Soundex yang digunakan
dalam penelitian ini adalah Soundex,
Fuzzy Soundex, dan Soundex hasil
penelitian Primasari (1997).
2. Query yang diketikkan hanya berupa nama ilmiah dari tanaman obat dengan jumlah kata sebanyak dua kata.
3. Menganalisis kinerja n-grams substitution dan code shift.
4. Koleksi dokumen yang digunakan adalah dokumen-dokumen yang berhubungan dengan bidang pertanian.
TINJAUAN PUSTAKA
Information Retrieval (Temu-Kembali Informasi)
Temu-kembali informasi erat dengan representasi, penyimpanan, pengorganisasian, dan akses ke informas i. Representasi dan pengorganisasian informasi seharusnya menyediakan fasilitas kemudahan akses terhadap informasi (Baeza-Yates & Riberio-Neto 1999).
Sebuah sistem temu-kembali informasi tidak menginformasikan subjek dari pencariannya, melainkan yang berhubungan dengan subjek pencariannya. Tingkat keterhubungan (recall) ditentukan oleh pengguna sendiri. Berbeda dengan data retrieval (temu-kembali data), pengguna mendapatkan hasil pencarian sesuai dengan subjek pencariannya (exact match). Perbedaan antara kembali informasi dengan temu-kembali data dapat dilihat pada Tabel 1 (Rijsbergen 1979).
Pada sistem temu-kembali data, ukuran kesamaannya tepat sesuai dengan yang diinginkan, sedangkan temu-kembali informasi, ukuran kesamaannya mendekati tepat. Hal ini dikarenakan apa yang menurut
sistem tepat belum tentu sama dengan anggapan pengguna.
Kesimpulan dari hasil sistem temu-kembali data menggunakan pendekatan deduktif yang sederhana (Rijsbergen 1979). Misal, aRb dan bRc maka aRc. Maksudnya, kesimpulan dari temu-kembali data dapat diramalkan. Temu-kembali informasi menggunakan pendekatan induktif, ketereratan hanya dispesifikasikan dengan derajat pasti atau ketidakpastian. Peubah (variable) merupakan hal yang paling dipercaya untuk menarik kesimpulan.
Tabel 1 Perbedaan data retrieval dengan
information retrieval
Data retrieval Information retrieval
Ketepatan Exact match Partial (best) match
Kesimpulan Deduction Induction
Model Deterministic Probabilistic
Klasifikasi Monothetic Polythetic
Bahasa query Artificial Natural Spesifikasi bahasa Lengkap Tidak lengkap Hasil Matching Relevant Error
response
Sensitif Tidak sensitif
Informasi relevan yang ditemu-kembalikan oleh sistem temu-kembali informasi belum tentu menemu-kembalikan semua informasi yang relevan dalam koleksi (probabilistic). Makna query dari temu-kembali informasi yang bersifat ambigu (polythetic) menyebabkan informasi yang relevan tidak semuanya ditemu-kembalikan. Query pada temu-kembali data hanya mempunyai satu makna (monothetic), sehingga dapat dipastikan semua informasi yang dibutuhkan ditemu-kembalikan.
Spesifikasi query yang tidak lengkap karena bahasa yang natural, menyebabkan hasil yang diinginkan berbeda-beda dari setiap pengguna, sehingga respon terhadap kesalahan sangat kecil. Hal ini karena tingkat keterhubungan antara pengguna satu dengan yang lainnya tidak sama.
Recall and Precision
Temu-kembali informasi mempunyai dua peubah untuk mengukur tingkat relevansi dari hasil yang ditemu-kembalikan. Recall
merupakan peubah yang digunaka n sistem temu-kembali informasi untuk membandingkan dokumen relevan yang ditemu-kembalikan dengan seluruh dokumen relevan dalam koleksi, sedangkan precision merupakan peubah untuk membandingkan dokumen relevan yang ditemu-kembalikan dengan seluruh dokumen yang telah ditemu-kembalikan (Baeza-Yates & Riberio-Neto 1999).
Untuk koleksi dokumen yang besar dan tidak terurut dengan baik, kedua peubah tersebut sulit digunakan. Nilai precision sangat tergantung pada keterurutan dokumen yang ditemu-kembalikan. Semakin terurut dokumen tersebut, semakin tinggi nilai
precision (sama dengan satu).
Tokenizer
Tokenizer merupakan suatu algoritma
untuk mendapatkan token dari suatu berkas teks (Ridha 2002). Tokenizer melakukan pemisahan terhadap isi dokumen menjadi unit yang paling kecil atau biasa disebut juga kata. Unit terkecil tersebut disebut juga sebagai
token.
Proses tokenizer juga melakukan pembersihan terhadap kata buang (stoplist) karena kata buang tersebut merupakan kata yang paling sering muncul dalam suatu dokumen. Sementara kata tersebut tidak berhubungan (relevant) dengan dokumen. Algoritma Soundex
Soundex merupakan suatu algoritma
fonetik yang digunakan untuk mengurangi kesalahan pengetikan query akibat kesalahan pengucapan. Algoritma Soundex yang asli telah dipatenkan oleh Margaret O'Dell dan Robert C. Russell pada tahun 1918. Metode yang digunakan adalah melakukan pengelompokan terhadap enam klasifikasi fonetik dari suara manusia (bilabial, labiodental, dental, alveolar, velar, dan glottal), dimana klasifikasi tersebut berdasarkan posisi bibir dan lidah untuk membuat suara (Repici 2006).
Algoritma Soundex adalah sebagai berikut:
- Pengubahan bentuk kata menjadi kapital (Upper Case), dan semua jenis tanda baca dibuang.
- Huruf pertama tidak diikutkan dalam konversi kode.
- Konversi kata ke dalam kode disesuaikan dengan Tabel 2 .
Tabel 2 Tabel pengelompokan konsonan algoritma Soundex (Repici 2006) Kelompok Alfabet <dihilangkan> A, I, U, E, O, H, W, Y 1 B, F, P, V 2 C, G, J, K, Q, S, X, Z 3 D, T 4 L 5 M, N 6 R
- Jika terdapat kode yang sama dengan kode sebelumnya, maka kode tersebut dibuang.
- Buang semua kode ‘0’.
- Panjang kode Soundex harus empat karakter, jika kurang dari empat karakter, maka tambahkan dengan ‘0’ di belakang kode terakhir, jika lebih dari empat karakter, maka kode yang diambil hanya empat karakter terdepan.
Pada tahun 1997, algoritma Soundex dikembangkan ke dalam bahasa Indonesia dengan mengganti pengelompokan konsonannya ke dalam faktor penyusun konsonan bahasa Indonesia. Faktor-faktor pembentuk konsonan tersebut adalah sebagai berikut (Primasari 1997):
1. Faktor artikulator dan titik artikulasi. 2. Faktor jalan yang dilalui oleh udara. 3. Faktor jenis halangan yang dijumpai
tatkala udara keluar.
Pengelompokan konsonan pada Tabel 3 dilakukan dengan memperhatikan faktor kedua dan ketiga.
Algoritma Fuzzy Soundex
Fuzzy Soundex melakukan pengaburan
(fuzzy) terhadap query. Maksudnya, satu query bisa menghasilkan lebih dari satu macam kode yang berbeda. Sistem temu-kembali fonetik
mampu meningkatkan nilai kesamaan (sim ilarity measure) antara dua nama jika kode yang dikaburkan semakin banyak. Jika tiap nama hanya memiliki sebuah kode
Soundex, kesamaannya adalah biner, sehingga
nilai kesamaannya kurang baik (Holmes Dave 9 Maret 2006, komunikasi pribadi).
Tabel 3 Tabel pengelompokan konsonan algoritma Soundex (Primasari 1997) Kelompok Alfabet <dihilangkan> A, I, U, E, O, H, W, Y 1 F, V 2 S, X, Z 3 L 4 R 5 M, N 6 B, C, D, P, K, T, G, J, Q
Panjang kode dan pengelompokan konsonan pada algoritma Fuzzy Soundex berbeda dengan algoritma Soundex. Panjang kode untuk algoritma Fuzzy Soundex adalah lima karakter, karena dengan menambah panjang kode sebanyak satu karakter, kesalahan yang terdapat pada akhir nama dapat diidentifikasi. Pengelompokan terhadap 18 konsonan dapat dilihat pada Tabel 4.
Tabel 4 Tabel pengelompokan konsonan algoritma Fuzzy Soundex
(Holmes & McCabe 2002) Kelompok Alfabet <dihilangkan> A, I, U, E, O, H, W, Y 1 B, P, F, V 2 C, S, Z 3 D, T 4 L 5 M, N 6 R 7 G ,J ,K, Q, X
Algoritma Fuzzy Soundex menggunakan substitusi n-grams dan code shift dalam upaya meningkatkan nilai recall dan precision hasil temu-kembali (Holmes & McCabe 2002).
N -grams
N-grams merupakan suatu metode yang menghitung nilai kesamaan antara n kata. Beberapa pen elitian mengenai algoritma fonetik menemukan kesalahan umum yang sama seperti pada Tabel 5 (Holmes & McCabe 2002). N-grams melakukan pemisahan per n huruf dari suatu kata. Misal untuk kata ’Cook’ dengan kata ’Cooke’ menggunakan digram seperti di baw ah ini: ’Cook’ à ’_C’ , ’Co’ , ’ oo’ , ’ok’, ’k_’ ’Cooke’ à ’_C’ , ’Co’ , ’ oo’ , ’ok’, ’ke’ , ’e_’ Dari digram di atas dapat diidentifikasi bahwa kata ‘cooke’ identik dengan ‘cook’ karena memiliki empat dari enam digram yang sama, sehingga kata ‘cooke’ diidentifikasi sebagai ‘cook’.
Tabel 5 Klasifikasi kesalahan menurut Damerau
Jenis kesalahan Nama Asli Kesalahan
Insertion Averrhoa Averrkhoa
Omission Retrofractum Retrofactum
Substitution Canna Kanna
Transposition Phyllanthus Pyhllanthus
N -grams Substitution
Damerau mendefinisikan kesalahan pengucapan ke dalam empat kategori seperti pada Tabel 5. N-grams substitution mampu mengurangi kesalahan pengucapan seperti yang dideskripsikan oleh Damerau. Tabel 6 menggambarkan jenis n-grams yang termasuk kasus kesalahan substitusi (Holmes & McCabe 2002).
Code Shift
Code shift merupakan salah satu upaya
untuk mengurangi jenis kesalahan Damerau
insertion dan omission. Teknik ini mampu
mengidentifikasi kesalahan yang terdapat pada awal nama, sedangkan untuk mengidentifikasi kesalahan pada akhir nama adalah dengan menambah panjang kode sebanyak satu karakter. Code shift mampu meningkatkan nilai recall sebesar 96 % dengan membuang karakter kedua dari lima bit kode Fuzzy
Soundex (Holmes & McCabe 2002).
Dice Coefficient
Dice coefficient merupakan suatu formula
untuk menghitung nilai kesamaan antara kode
fuzzy. Rumus dari Dice coefficient adalah
sebagai berikut (Holmes & McCabe 2002):
δ
= (2*γ
) / (α
+β
), denganδ
adalah nilai kesamaanγ
adalah jumlah irisan antara dua namaα
adalah jumlah kode pada nama 1β
adalah jumlah kode pada nama 2Tabel 6 Tabel jenis n-grams yang termasuk kasus n-grams substitution
N -grams Substitution CA KA CC, CK, CH KK CE SE CL KL CR KR CI SI CO KO CS, CZ, TS, TZ SS CU KU CY SY D G GG G H HH GN, KN, NG NN HR, WR RR H W WW PF, PH FF SCH SSS TIO SIO
Tatanama Binomial Nomenclatur
Tatanama binomial (binomial berarti ’dua nama’) merupakan aturan penamaan baku bagi semua organisme (makhluk hidup) yang terdiri dari dua kata dari sistem taksonomi (biologi), dengan mengambil nama genus dan nama spesies (Wikipedia 2006). Nama yang dipakai adalah nama baku yang diterapkan untuk fungi, tumbuhan dan hewan oleh penyusunnya (Carolus Linnaeus), namun kemudian segera diterapkan untuk bakteri.
METODE PENELITIAN
Penelitian dengan tema kesamaan fonetik ini pernah dilakukan (Primasari 1997). Algoritma kesamaan fonetik yang digunakan adalah Soundex dan Phoenix, dengan data nama manusia sebagai objek penelitiannya. Dalam hal ini, algoritma yang akan digunakan pada penelitian ini adalah algoritma Soundex,
Fuzzy Soundex dan Sound ex hasil penelitian
Primasari (1997) dengan data nama ilmiah sebagai objek penelitiannya.
Gambaran Umum Sistem Temu-Kembali Nama Ilmiah
Secara garis besar, gambaran umum sistem temu-kembali nama ilmiah dapat dilihat pada Gambar 1. Data Flow Diagram dari sistem temu-kembali nama ilmiah dapat dilihat pada Lampiran 1, 2, dan 3. Untuk antarmuka implementasi diberikan pada Lampiran 4.
Gambar 1 Gambaran umum sistem temu-kembali nama ilmiah.
Parsing (Tokenizer)
Proses parsing (tokenizer) adalah suatu proses unt uk mendapatkan kata (token ) dari sekumpulan kalimat. Proses parsing
melakukan pembersihan terhadap tanda baca dan karakter separator (white space). Beberapa tanda baca yang dianggap sebagai karakter separator karena suatu aturan adalah sebagai berikut:
1. Karakter (.), jika diikuti karakter separator lain.
2. Karakter (,), jika diikuti karakter selain numerik.
3. Karakter (’), jika diapit oleh karakter alphabet dan numerik.
4. Karakter (-), jika kata sebelum karakter (-) sama dengan karakter sesudahnya. Parsing Kamus
Nama-nama ilmiah dalam kamus memiliki jumlah kata yang berbeda. Oleh karena itu, diperlukan keseragaman dalam penentuan jumlah kata dalam satu nama ilmiah. Keseragaman tersebut dapat memudahkan proses pencarian, karena sistem melakukan pencarian mulai dari kata pertama.
Jumlah kata dalam penelitian ini akan diseragamkan sebanyak dua kata. Beberapa alasan digunakan pengambilan dua kata adalah sebagai berikut:
1. Kata-kata setelah kata kedua dalam nama ilmiah tidak banyak digunakan dalam dokumen-dokumen. Kata tersebut merupakan singkatan dari deskriptor yang hasil karyanya diakui (Hendrawan 2004). Contoh : Artemisia vulgaris Linn. 2. Pengambilan dua kata mengikuti sistem
penamaan binomial nomenclatur. Contoh :
Averhoa bilimbi (Belimbing asam). Oryza sativa (Padi ).
3. Penggunaan dua kata telah menjamin keunikan 354 nama ilmiah dalam kamus. Parsing Dokumen
Proses parsing dokumen terdiri dari dua tahap, yang pertama tahap parsing (tokenizer), dan yang kedua proses pembuangan kata buang. Kata-kata buang seperti nanti, nyaris, padahal, dan, dan lain-lain, dapat memboroskan ruang penyimpanan. Kata-kata buang tersebut merupakan kata-kata yang sering muncul dalam dokumen, tetapi tidak berhubungan (relevant) dengan dokumen. N-grams Substitution
Jenis N-grams yang akan dilakukan dalam penelitian ini adalah digram dan trigram. Query yang melalui proses N-grams akan dilakukan pengidentifikasian untuk beberapa kasus substitusi. Misalkan untuk digram ‘PH’ dan ‘PF’ akan disubstitusi
dengan ‘FF’. Jenis karakter substitusi dapat dilihat pada Tabel 6.
Code shift
Karakter yang dibuang dari lima bit kode
Fuzzy Soundex dalam penelitian ini adalah
karakter ke dua. Hal ini dengan pertimbangan pengucapan yang kurang jelas seringkali di awal penyebutan nama (Holmes & McCabe 2002). Hasil temu-kembali akan dibandingkan antara menggunakan code shift dengan tidak menggunakan code shift, untuk mengetahui seberapa besar pengaruh code shift terhadap hasil temu-kembali pada algoritma Fuzzy
Soundex.
Pengaburan Kode
Query yang telah dikonversi ke dalam
kode Fuzzy Soundex, akan dikaburkan dengan mengurangi panjang kode Fuzzy Soundex di tiap iterasinya. Misalkan query yang telah dikonversi adalah ‘A2546’, maka kode Fuzzy
Soundex yang dapat dihasilkan adalah sebagai
berikut (Holmes Dave 16 Maret 2006, komunikasi pribadi):
- A2546 ( fuzzy 5) - A254 (fuzzy 4) - A25 (fuzzy 3) - A2 (fuzzy 2) - A546 (code shifted) Perlakuan (Treatment)
Tiga jenis algoritma Soundex yang akan dibandingkan mendapatkan perlakuan yang sama seperti di bawah ini:
- Proses pengaburan.
- Panjang kode adalah 5 bit. Hal ini dilakukan untuk mengetahui seberapa besar pengaruh penambahan bit dalam mendeteksi kesalahan yang terdapat pada akhir nama.
- Ketiga algoritma Soundex tersebut ditambahkan teknik substitusi n-grams dan code shift.
- Algoritma perangkinganny a dengan menggunakan dice coefficient.
Evaluasi Recall dan Precision
Penentuan tingkat relevansi dokumen yang ditemu-kembalikan dilakukan secara manual terhadap 849 dokumen yang berhubungan dengan tanaman obat. Koleksi dokumen pengujian menggunakan koleksi dokumen
laboratorium temu-kembali informasi, ditambah dengan dokumen dari situs
www.iptek.net.id sebagai penyedia terbanyak dokumen tanaman obat.
Asumsi-asumsi
Asumsi-asumsi yang digunakan dalam penelitian ini adalah sebagai berikut:
- Nama ilmiah dalam dokumen adalah benar, sehingga identifikasi nama ilmiah tidak melewati proses Fuzzy Soundex. Proses Fuzzy Soundex hanya dilakukan ketika proses pencarian.
- Dokumen yang dianggap berhubungan (relevant) adalah dokumen yang mengandung nama ilmiah.
Lingkungan Pengembangan
Lingkungan pengembangan yang digunakan dalam penelitian ini adalah sebagai berikut:
- Perangkat lunak: Microsoft Windows XP Professional, Microsoft Visual Basic .Net 2003, Microsoft Office Access 2003. - Perangkat keras: Pentium IV 2.66 GHz,
RAM 256 MB.
HASIL DAN PEMBAHASAN Karakteristik Dokumen
Koleksi dokumen yang digunakan memiliki keterkaitan erat dengan tanaman obat. Sebanyak 75 % merupakan dokumen yang berhubungan dengan tanaman obat, dan sisanya merupakan dokumen yang tidak berhubungan dengan tanaman obat. Contoh dokumen dalam koleksi dapat dilihat pada Lampiran 5.
Struktur Data Pengindeksan
Token-token hasil proses parsing
disimpan dalam basis data untuk mempercepat proses pencarian, sehingga proses pars ing hanya dilakukan ketika penambahan dokumen baru. Tabel yang diperlukan untuk keperluan pengindeksan sebanyak empat tabel, yaitu
tblTokenizer, tblIdentName, tblTemp, dan tblDokumen. Diagram relasional dari keempat
Gambar 2 Diagram relasional struktur data pengindeksan.
Analisis Identifikasi Nama Ilmiah
Nama ilmiah dalam dokumen yang melewati proses tokenizer, tidak teridentifikasi sebagai nama ilmiah. Proses pengidentifikasian memerlukan bantuan kamus sebagai kata pembanding. Kamus kata nama ilmiah dapat dilihat pada Lampiran 6.
Proses pengidentifikasian akan melakukan pengecekan dengan membandingkan kata pertama nama-nama ilmiah dalam kamus dengan token-token hasil proses tokenizer . Jika kata ditemukan, mak a simpan posisi ditemukannya kata pertama tersebut untuk melakukan pengecekan terhadap kata keduanya sesuai dengan posisi tersebut. Jika tidak sama, maka pencarian dilanjutkan. Hal ini terjadi karena terdapat beberapa nama ilmiah yang memiliki kata depan yang sama, yaitu Averhoa carambola dan Averhoa bilimbi. Kedua nama tersebut memiliki common name yang berbeda.
Proses identifikasi nama dari 849 dokumen dalam koleksi menghasilkan 646 nama. Waktu yang dibutuhkan untuk proses tokenizer dan identifikasi nama dengan spesifikasi pengembangan di atas adalah 7 menit 11 detik.
Query
Query yang digunakan dalam penelitian
untuk menguji sistem Fuzzy Soundex berasal dari pihak lain/mahasiswa yang tidak memahami bidang tanaman obat. Hal ini dilakukan agar pengujian dengan menggunakan query yang mengandung empat kesalahan Damerau seperti pada Tabel 5 dapat diimplementasikan. Alasan kedua menggunakan query dari pihak lain adalah pihak lain tidak mengetahui algoritma dari sistem, sehingga kesalahan query murni dari pendenga ran mereka sendiri.
Pengumpulan contoh query setelah melewati proses penyaringan menghasilkan 20
query dengan jenis kesalahan yang berbeda.
Rata-rata jenis kesalahan pengguna dari
contoh query tersebut adalah insertion. Dua puluh query pengujian tersebut dapat dilihat pada Lampiran 7.
Substitusi N-Grams
Perbedaan antara substitusi n-grams dengan n-grams adalah terletak pada kondisi teks yang akan dikoreksi. N -grams akan mengkoreksi teks yang mengalami kesalahan teknis ketika pengetikan, misalnya salah menekan tombol huruf dalam papan kunci, sedangkan substitusi n-grams akan mengkoreksi alfabet yang mengalami perubahan bunyi jika bertemu dengan alfabet lain.
Subsitusi n-grams sangat berpengaruh ketika kesalahan pengetikan terjadi di awal pengetikan. Kata pertama yang tidak dikonversi ke dalam kode mengakibatkan nama yang memiliki keidentikan pengucapan di awal kata dianggap merupakan kode yang berbeda.
Koleus skotiolariades merupakan salah
satu kesalahan pengucapan nama yang memiliki nama asli Coleus scutellarioides. Karakter ‘C’ sering diucapkan sebagai ‘K’ jika bertemu dengan huruf hidup ‘A’, ‘U’ , dan ‘O’. Kode dari Koleus dan Coleus dianggap berbeda meskipun melewati proses pengaburan (Kode fuzzy dari Koleus adalah ‘K4200’ dan Coleus adalah ‘C4200’), karena pengaburan tidak melakukan pemotongan karakter di awal kata.
Substitusi n-grams melakukan penggantian karakter sesuai dengan kasus-kasus penggantian pada Tabel 6. Sebelum melalui proses pengkodean, karakter ‘C’ pada nama ‘Coleus’ akan disubstitusi dengan karakter ‘K’ karena karakter ‘C’ diikuti oleh huruf hidup ‘O’. Nama ‘Coleus’ akan berubah menjadi ‘Koleus’, dimana kedua nama tersebut telah memiliki kode yang sama.
Beberapa kasus substitusi n-grams di luar Tabel 6 ditemukan pada penelitian ini. Karakter seperti ‘NJ’ dan ‘Z’ + ‘huruf vokal’, pengguna sering menemui banyak kesalahan. Karakter ‘NJ’ pada nama Ficus Benjamina sering terdengar sebagai Ficus Benyamina. Kasus tambahan subtitusi N -grams dapat dilihat pada Tabel 7.
Tabel 7 Tabel kasus tambahan substitusi n- grams
N -grams Substitusi
N J NY
Z + ‘A, I, U, E, O’ J + ‘A, I, U, E, O’
Proses Pengaburan
Pengaburan query dan token dari dokumen yang akan dilakukan adalah melakukan pemotongan panjang kode di tiap iterasinya, ditambah dengan code shift.
Pengaburan dilakukan terhadap kedua kata dari nama ilmiah, sehingga akan menghasilkan 10 jenis query. Sebagai ilustrasi, misalkan terdapat query ‘Averhoa
bilimbi’, maka pengaburan yang akan
dilakukan adalah sebagai berikut: - A1600 B4510 (fuzzy 5) - A160 B451 (fuzzy 4) - A16 B45 (fuzzy 3) - A1 B4 (fuzzy 2) - A600 B510 (code shifted)
Pengaburan token dari dokumen tidak dilakukan bersamaan dengan query.
Pengaburan token tersebut dilakukan ketika proses pencarian dengan Dice Coefficient. Hal ini dilakukan untuk menghemat memori, karena akan banyak sekali hasil pengaburan
token dari dokumen.
Algoritma Pencarian Dengan Dice Coefficient
Hasil dari pengaburan query dan token dalam dokumen akan dibandingkan untuk mencari intersection nya. Algoritma dari proses matching ini adalah sebagai berikut: 1. Untuk semua token kata pertama nama
ilmiah dari dokumen.
2. Hitung nilai Dice coefficientnya,
diceCoef(token1, token2).
3. Jika nilai Dice coefficient
≠
0, maka simpan ID dokumennya dengan nilai Dicecoefficientnya.
A lgoritma D ice coefficient , diceCoef(token1, token2)
1. Lakukan pengaburan terhadap token1 dan token 2.
2. Inisialisasi nilai common = 0.
3. Untuk semua fuzzy query kata pertama. 4. Untuk semua fuzzyToken kata pertama. 5. Jika fuzzyQuery1 = fuzzyToken1, maka
tambahkan nilai common dengan 1. 6. Untuk semua fuzzyQuery kata kedua. 7. Untuk semua fuzzyToken kata kedua. 8. Jika fuzzyQuery2 = fuzzyToken2, maka
tambahkan nilai common dengan 1. 9. Hitung nilai dice coefficient dengan
rumus:
dCoef = (2*common) / ((fQuery1.length*2) + (fToken1.length*2))
10. Kembalikan nilai dCoef (return dCoef). Jika terdapat kesalahan yang jauh pada pengetikan kata pertama, sementara kesalahan pada pengetikan kata kedua tidak terlalu jauh, sistem ini masih mampu menemu-kembalikannya. Misalkan untuk query Kromotoli penata (Quamoclit pennata), kode
dari Kromotoli dan Quamoclit berbeda cukup jauh.
Tabel 8 Tabel perbandingan kode Kromotoli dengan Quamoclit Kromotoli Quamoclit K6534 K5243 K653 K524 K65 K52 K6 K5 K534 K243
Pada Tabel 8 terlihat jelas bahwa kedua kode tidak memiliki kesamaan meskipun ditambahkan code shift, sedangkan kode untuk kata penata (dengan nama asli pennata) memiliki kesamaan yang sangat dekat (pada Tabel 9).
Nilai common merupakan gabungan dari
intersection dari kata pertama dengan kata
kedua. Meskipun nilai common kata pertama adalah 0, nilai common kata kedua sangat tinggi, yaitu 5, sehingga nilai Dice Coefficientnya adalah sebagai berikut:
dCoef = (2*(0+5)) / ((5*2)+(5*2)) = 10 / 20
Algoritma tetap akan menyimpan ID dari dokumen dan nilai dCoef karena nilai dCoef lebih dari 0, sehingga dokumen yang berhubungan dengan kata pennata tetap ditemu-kembalikan.
Tabel 9 Tabel perbandingan kode penata dengan pennata penata pennata P5300 P5300 P530 P530 P53 P53 P5 P5 P300 P300 Code Shift
Algoritma code shift memiliki pengaruh yang besar terhadap sistem temu-kembali kesamaan fonetik untuk jenis kesalahan
insertion dan omission. Nama Asproha brimbi
(dengan nama asli Averrhoa bilimbi ),
memiliki nilai recall dan precision 0 ketika tidak menggunakan code shift, dengan jumlah nama yang ditemu-kembalikan sebanyak 21 nama. Hasil yang jauh berbeda ditunjukkan ketika menggunakan code shift, dimana semua dokumen yang berhubungan berhasil ditemu-kembalikan.
Tabel 10 Tabel pengaruh code shift pada
query Asproha brimbi
Asproha brimbi Averrhoa bilimbi
Fuzzy 5 A2160 B6510 A1600 B4510
Fuzzy 4 A216 B651 A160 B451
Fuzzy 3 A21 B65 A16 B45
Fuzzy 2 A2 B6 A1 B4
code shift A160 B510 A600 B510
Tabel 10 menunjukkan bahwa query
Asproha brimbi berhasil ditemu-kembalikan
karena kode Asproha pada code shift sama dengan kode Averrhoa pada fuzzy 4. Kasus serupa juga terdapat pada kode brimbi ketika menggunakan code shift dengan kode bilimbi ketika menggunakan code shift.
Kinerja Temu-Kembali
Untuk mengetahui pengaruh substitusi n-grams dan code shift dalam meningkatkan nilai recall dan precision algoritma Soundex, hasil temu-kembali dibandingkan antara tidak menggunakan substitusi n-grams dan code
shift, hanya menggunakan substitusi n-grams
(NS), dan menggunakan substitusi n-grams dan code shift (CS). Nilai precision untuk tiap titik recall yang telah diinterpolasi sebanyak 11 titik secara rinci diberikan pada Lampiran 8.
Gambar 3 Kurva recall-precision beberapa algoritma Soundex.
Kurva recall-precision pada Gambar 3 membuktikan bahwa substitusi n-grams dan
code shift mampu meningkatkan nilai recall
dan precision ketiga algoritma Soundex. Rata-rata peningkatan nilai recall dan precision dari
Fuzzy Soundex 0.4 0.48 0.56 0.64 0.72 0.8 0.88 0.00 0.20 0.40 0.60 0.80 1.00 Recall Precision F-Sdx F-Sdx (NS) F-Sdx (CS) Soundex Primasari (1997) 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.00 0.20 0.40 0.60 0.80 1.00 Recall Precision P-Sdx P-Sdx (NS) P-Sdx (CS) Soundex 0.5 0.58 0.66 0.74 0.82 0.9 0.00 0.20 0.40 0.60 0.80 1.00 Recall Precision S d x Sdx (NS) Sdx (CS)
ketiga algoritma Soundex tersebut ketika
ditambahkan substitusi n-grams dan code shift adalah sebesar 20%.
Peningkatan nilai recall dan precision dari ketiga algoritma Soundex tersebut dipengaruhi oleh kemampuan substitusi n-grams dan code shift dalam menangani jenis kesalahan insertion, omission, dan transposition . Penambahan kedua algoritma
tersebut ke ketiga algoritma Soundex mampu meningkatkan nilai recall dan precision untuk jenis kesalahan insertion dan omission (Gambar 4) rata-rata sebesar 30%.
Gambar 4 Kurva recall-precision beberapa algoritma Soundex (insertion dan
omission ).
Untuk jenis kesalahan transposisi, rata-rata peningkatannya mampu mencapai 40% (Gambar 5). Penambahan kedua teknik
tersebut pada algoritma Soundex hasil penelitian Primasari (1997) mampu memberikan kinerja yang lebih baik untuk jenis kesalahan ini. Hal ini dapat dilihat pada kurva recall-precision algoritma Soundex Primasari (1997) yang hampir mencapai nilai maksimum.
Gambar 5 Kurva recall-precision beberapa algoritma Soundex (transposition). Penambahan kedua teknik tersebut ke dalam algoritma Soundex hasil penelitian Primasari (1997) tidak begitu berpengaruh pada jenis kesalahan substitusi. Algoritma
Soundex hasil penelitian Primasari (1997)
telah mampu mencapai nilai maksimum ketika belum ditambahkan kedua teknik tersebut. Pengaruh dari penambahan substitusi n-grams
Fuzzy Soundex 0.30 0.48 0.65 0.83 1.00 0.00 0.20 0.40 0.60 0.80 1.00 Recall Precision F-Sdx F-Sdx (NS) F-Sdx (CS) Soundex Primasari (1997) 0.30 0.48 0.65 0.83 1.00 0.00 0.20 0.40 0.60 0.80 1.00 Recall Precision P-Sdx P-Sdx (NS) P-Sdx (CS) Soundex 0.30 0.48 0.65 0.83 1.00 0.00 0.20 0.40 0.60 0.80 1.00 Recall Precision Sdx Sdx (NS) Sdx (CS) Fuzzy Soundex 0.20 0.33 0.45 0.58 0.70 0.83 0.95 0.00 0.20 0.40 0.60 0.80 1.00 Recall Precision F-Sdx F-Sdx (NS) F-Sdx (CS) Soundex Primasari (1997) 0.00 0.20 0.40 0.60 0.80 1.00 0.00 0.20 0.40 0.60 0.80 1.00 Recall Precision P-Sdx P-Sdx (NS) P-Sdx (CS) Soundex 0.20 0.33 0.45 0.58 0.70 0.83 0.95 0.00 0.20 0.40 0.60 0.80 1.00 Recall Precision Sdx Sdx (NS) Sdx (CS)
dan code shift adalah mampu menjaga kurva tetap stabil pada nilai maksimum (Gambar 6).
Gambar 6 Kurva recall -precision beberapa algoritma Soundex (substitution). Gambar 3 juga mampu membuktikan bahwa data tidak berpengaruh terhadap bahasa ketika ditambahkan substitusi n-grams dan
code shift, karena nilai maks imum yang
mampu dicapai ketiga kurva tersebut tidak jauh berbeda satu sama lain. Hal ini karena substitusi n-grams melakukan penyeragaman terhadap perubahan bunyi akibat pertemuan antara dua alfabet atau lebih ke dalam satu alfabet atau lebih.
Sebagai contoh alfabet ‘C’. Alfabet ‘C’ cenderung akan berubah bunyi menjadi alfabet ‘K’ ketika bertemu dengan huruf -huruf vokal
‘A’, ‘U’, dan ‘O’, dan akan berubah bunyi menjadi alfabet ‘S’ ketika bertemu huruf-huruf vokal ‘I’ dan ‘E’. Pada algoritma Fuzzy
Soundex alfabet ‘C’ dan ‘K’ berbeda
kelompok, sementara kedua algoritma lainnya satu kelompok, dan pada algoritma Soundex hasil penelitian Primasari (1997) alfabet ‘C’ dan ‘S’ berbeda kelompok, sementara kedua algoritma lainnya satu kelompok.
Kinerja algoritma Soundex hasil penelitian Primasari (1997) mengalami peningkatan pada penelitian ini. Hal ini disebabkan oleh beberapa kemungkinan seperti di bawah ini:
- Proses pengaburan mampu meningkatkan jumlah kemungkinan nama yang berhubungan untuk ditemu-kembalikan. - Penambahan teknik substitusi n-grams
dan code shift serta penambahan panjang kode sebanyak 1 bit.
- Algoritma perangkingan yang digunakan adalah dice coefficient . Pada penelitian Primasari (1997), algoritma perangkingan yang digunakan adalah konversi nilai biner.
Kinerja substitusi n-grams dan code shift dalam algoritma Soundex yang baik, dapat dimanfaatkan oleh perpustakaan Fakultas Pertanian Institut Pertanian Bogor atau perpustakaan pusat Institut Pertanian Bogor dalam memperbaiki sistem pencarian dengan
query nama ilmiah. Kesalahan dalam
pengetikan nama ilmiah, baik sedikit maupun banyak, dapat mengakibatkan informasi yang
relevant tidak ditemu-kembalikan.
Situasi sistem pencarian tersebut dapat menghambat mahasiswa dalam mencari informasi yang diinginkan, sementara tidak banyak mahasiswa yang paham betul mengenai nama ilmiah dari suatu spesies tertentu. Salah satu sebab utamanya adalah pelafalan nama ilmiah yang sulit. Mahasiswa yang baru mengenal nama ilmiah untuk spesies tertentu akan mengalami banyak kesalahan dalam melafalkan atau mengetikkannya.
KESIMPULAN DAN SARAN Kesimpulan
Penambahan subtitusi n-grams dan code
shift ke dalam algoritma Soundex terbukti
mampu meningkatkan nilai recall dan
precision sistem temu-kembali nama ilmiah. Fuzzy Soundex 0.60 0.68 0.76 0.84 0.92 1.00 0.00 0.20 0.40 0.60 0.80 1.00 Recall Precision F-Sdx F-Sdx (NS) F-Sdx (CS) Soundex Primasari (1997) 0.50 0.60 0.70 0.80 0.90 1.00 0.00 0.20 0.40 0.60 0.80 1.00 Recall Precision P-Sdx P-Sdx (NS) P-Sdx (CS) Soundex 0.70 0.75 0.80 0.85 0.90 0.95 1.00 0.00 0.20 0.40 0.60 0.80 1.00 Recall Precision Sdx Sdx (NS) Sdx (CS)
Dari 20 query yang diujikan, penambahan kedua teknik tersebut mampu mengembalikan 95% nama ilmiah yang diujikan dengan jenis kesalahan yang berbeda-beda.
Data tidak berpengaruh terhadap bahasa ketika ditambahkan substitusi n-grams dan
code shift. Hal ini karena substitusi n-grams
melakukan penyeragaman terhadap perubahan bunyi akibat pertemuan antara dua alfabet atau lebih ke dalam satu alfabet atau lebih.
Sistem temu-kembali nama ilmiah dengan penambahan substitusi n-grams dan code shift ke dalam algoritma Soundex, dapat diterapkan di sistem pencarian perpustakaan Fakultas Pertanian IPB atau perpustakaan pusat IPB. Kedua perpustakaan tersebut memiliki kekurangan apabila query nama ilmiah yang diketikkan tidak sesuai dengan data dalam basis data.
Saran
Kesalahan teknis yang disebab kan oleh pengguna seperti salah menekan tombol pada papan kunci, tidak mampu ditangani oleh sistem ini. Penelitian selanjutnya dapat ditambahkan teknik pengkoreksian n-grams sebelum query dikonversi ke dalam kode
Soundex.
Sistem yang dikembangkan hanya mam pu menemu-kembalikan dokumen yang berhubungan dengan nama yang diketikkan. Dokumen yang hanya memiliki common name tidak mampu ditemu-kembalikan. Ada beberapa metode yang bisa digunakan di antaranya adjacency, within list, SVD, dan lain-lain.
Sistem pencar ian belum mampu menemu-kembalikan dengan cepat jika hasil yang ditemu-kembalikan dalam jumlah besar. Penelitian selanjutnya dapat dilakukan pencarian dengan sistem paralel untuk koleksi dokumen dalam jumlah yang sangat besar.
DAFTAR PUSTAKA
Baeza-Yat es Ricardo, Riberio-Neto Berthier. 1999. Modern Information Retrieval. New York: Addison-Wesley.
Hendrawan Kiki. 2004. Cara Klasifikasi dan Tata Nama.
http://clearinghouse.dikmenum.go.id/sho wContent.php?id=192&idCont=Bpn&Su bjectID=21&mnMode=mnBp [21 Maret 2006].
Holmes David, Catherine McCabe M. 2002. Improving Precision and Recall for Soundex Retrieval. Las Vegas.
http://ir.iit.edu/publications/downloads/IE EESoundexV5.pdf [12 Juni 2005]. Primasari Dewi. 1997. Metode Pencarian dan
Temu-Kembali Nama Berdasarkan Kesamaan Fonetik. [Skripsi]. Bogor:
Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor.
Repici Dominic John. 2006. Soundex Algorithms Explained.
http://www.creativyst.com/Doc/Articles/S
oundEx1/SoundEx1.htm#Algorithm [14
Juni 2005].
Ridha Ahmad. 2002. Pengindeksan Otomatis
Dengan Istilah Tunggal Untuk Dokumen Berbahasa Indonesia. [Skripsi]. Bogor:
Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor.
Van Rijsbergen C. J. 1979. Information Retrieval. http://www.dcs.gla.ac.uk/ Keith/Preface.html [25 Juni 2005]. Wikipedia. 2006. Tatanama Binomial.
http://id.wikipedia.org/wiki/Tatanama_bi nomial [21 Maret 2006].
Lampiran 5 Contoh dokumen dalam koleksi
<DOC>
<DOCNO> </DOCNO> <TITLE> Jarak Bali
(Jatropha podagrica Hook.) </TITLE> <AUTHOR> </AUTHOR> <DOCSOURCE> </DOCSOURCE> <DATE> </DATE> <ABSTRACT> </ABSTRACT> <KEYWORD> <KW> </KW> </KEYWORD> <TEXT> <CAPTION> </CAPTION> Sinonim : Familia : Euphorbiaceae Uraian :
Tanaman ini dapat ditemukan sebagai tanaman hias, yang ditanam di pekarangan atau tempat rekreasi. Asalnya, dari Amerika tropis. Perdu tegak, tinggi 0,5- 1,5 m, bergetah warna putih, batang tunggal atau sedikit bercabang, dengan pangkal batang yang membesar dan melembung seperti umbi. Daun bertangkai yang panjangnya 20-30 cm, helai daun bangun perisai, bentuknya bulat telur melebar dengan ukuran penampang 20-40 cm, bercangap 3 atau 5, taju runcing atau membulat. Bunga dalam malai rata yang bertangkai panjang, dengan bunga betina dan bunga jantan dalam satu tangkai, warnanya merah oranye. Buah bentuk elips melebar, berkendaga tiga, panjang 1,5 cm. Biji lonjong atau bulat panjang.
Nama Lokal : Jarak batang gajah.;
Penyakit Yang Dapat Diobati :
Demam, bengkak terpukul, digigit ular biasa.; Pemanfaatan :
BAGIAN YANG DIPAKAI: Seluruh tanaman KEGUNAAN:
- Demam
- Bengkak terpukul - Digigit ular berbisa
PEMAKAIAN:
Untuk minum: 10-15 g direbus. Ampasnya digunakan untuk ditempelkan pada tempat yang sakit. </TEXT>
Lampiran 6 Daftar 354 nama ilmiah dalam kamus.txt
No. Nama asli Nama depan Nama belakang
1 ABRUS PRECATORIUS, LINN ABRUS PRECATORIUS
2 ABUTILON INDICUM (L.) SWEET ABUTILON INDICUM
3 ACALYPHA AUSTRALIS LINN ACALYPHA AUSTRALIS
4 ACALYPHA INDICA ACALYPHA INDICA
5 ACANTHUS ILICIFOLIUS LINN ACANTHUS ILICIFOLIUS
6 ACHYRANTHES ASPERA LINN ACHYRANTHES ASPERA
7 ACORUS CALAMUS L ACORUS CALAMUS
8 AGERATUM CONYZOIDES AGERATUM CONYZOIDES
9 AGLAIA ODORATA LOUR AGLAIA ODORATA
10 ALEURITES MELUCCANA ALEURITES MELUCCANA
11 ALLAMANDA CATHARTICA ALLAMANDA CATHARTICA
12 ALLIUM AMPELOPRASUM ALLIUM AMPELOPRASUM
13 ALLIUM CEPA ALLIUM CEPA
14 ALLIUM SATIVUM, LINN ALLIUM SATIVUM
15 ALLIUM TUBEROSUM ALLIUM TUBEROSUM
16 ALOE VERA LINN ALOE VERA
17 ALPINIA GALANGA, LINN., WILLD ALPINIA GALANGA
18 ALPINIA PURPURATA K SCHUM ALPINIA PURPURATA
19 ALSTONIA SCHOLARIS [L.] R. BR ALSTONIA SCHOLARIS
20 ALYXIA REINWARDITI ALYXIA REINWARDITI
21 AMARANTHUS SPINOUSUS, LINN AMARANTHUS SPINOUSUS
22 AMOMUM CARDAMOMUM WILD AMOMUM CARDAMOMUM
23
AMOMUM COMPACTUM SOLAND
EX MATON AMOMUM COMPACTUM
24
ANACARDIUM OCCIDENTALE,
LINN ANACARDIUM OCCIDENTALE
25 ANANAS CUMOSUS L. MERR ANANAS CUMOSUS
26
ANDROGRAPHIS PANICULATA
NESS ANDROGRAPHIS PANICULATA
27 ANDROPOGON CITRATUS ANDROPOGON CITRATUS
28 ANDROPOGON SORGHUM ANDROPOGON SORGHUM
29 ANNONA MURICATA ANNONA MURICATA
30 ANNONA RETICULATA L ANNONA RETICULATA
31 ANTHURIUM SPP ANTHURIUM SPP
32 ANTIDESMA BUNIUS (L.) SPRENG ANTIDESMA BUNIUS
33 APIUM GRAVEOLENS, LINN APIUM GRAVEOLENS
34 ARACHIS HYPOGAEA ARACHIS HYPOGAEA
35 ARECA CATECHU L ARECA CATECHU
36 ARENGA PINNATA, MERR ARENGA PINNATA
37 ARTEMISIA VULGARIS LINN ARTEMISIA VULGARIS
38 ARTOCARPUS CHAPEDEN ARTOCARPUS CHAPEDEN
39 ARTOCARPUS EROPHYLLUS ARTOCARPUS EROPHYLLUS
40
ARTOCARPUS HETEROPHYLLA
UNK ARTOCARPUS HETEROPHYLLA
41
ARTOCARPUS INTEGRA MERR.
Lanjutan Lampiran 6 Daftar 354 nama ilmiah dalam kamus.txt
No. Nama asli Nama depan Nama belakang
42
ASPARAGUS COCHINCHINENESIS
(LOUR.) MERR ASPARAGUS COCHINCHINENESIS
43 AVERHOA BILIMBI AVERHOA BILIMBI
44 AVERHOA CARAMBOLA AVERHOA CARAMBOLA
45 AVERRHOA BILIMBI L AVERRHOA BILIMBI
46 AXONOPUS COMPRESSUS AXONOPUS COMPRESSUS
47 AZADIRACHTA INDICA JUSS AZADIRACHTA INDICA
48 AZOLLA PINNATA AZOLLA PINNATA
49 BAMBUSA SP BAMBUSA SP
50 BARLERIA CRISTATA L BARLERIA CRISTATA
51 BARLERIA LUPULINA LINDL BARLERIA LUPULINA
52 BARLERIA PRIONITIS L BARLERIA PRIONITIS
53 BARSSICA JUNCEA BARSSICA JUNCEA
54 BASELLA RUBRA LINN BASELLA RUBRA
55 BATATAS EDULIS CHOIS BATATAS EDULIS
56 BIXA ORELLANA BIXA ORELLANA
57
BLETILLA STRIATA (THUNB.)
REICHB.F BLETILLA STRIATA
58 BLUMEA BALSAMIFERA (L.) DC BLUMEA BALSAMIFERA
59 BLUMEODENDRON KURZII BLUMEODENDRON KURZII
60 BOCHMEREA NIVEA BOCHMEREA NIVEA
61
BOESENBERGIA PANDUREATA
ROXB BOESENBERGIA PANDUREATA
62 BOUGAINVILLEA SPECTABILIS BOUGAINVILLEA SPECTABILIS
63 BRASSICA OLERACEA BRASSICA OLERACEA
64 BRUCEA JAVANICA (L) MERR BRUCEA JAVANICA
65 CAESALPIA SAPPAN L CAESALPIA SAPPAN
66 CAESALPINIA SAPPAN CAESALPINIA SAPPAN
67 CAJANUS CAJAN [LINN.] MILLSP CAJANUS CAJAN
68 CALOPHYLLUM INOPHYLLUM L CALOPHYLLUM INOPHYLLUM
69 CALOTROPIS GIGANTEAN CALOTROPIS GIGANTEAN
70 CAMELLIA SINENSIS [L.] KUNTZE CAMELLIA SINENSIS
71 CAMELLIA SINENSIS L CAMELLIA SINENSIS
72
CANANGIUM ODORATUM, (LAMK.), HOOK DAN THORMS.
(LAT) CANANGIUM ODORATUM
73 CANNA INDICA LINN CANNA INDICA
74 CAPISCUM FRUTESCENS CAPISCUM FRUTESCENS
75 CAPSICUM SP CAPSICUM SP
76 CARICA PAPAYA, LINN CARICA PAPAYA
77 CARNICIA MANGOSTANA L CARNICIA MANGOSTANA
78 CASSIA ALATA, LINN CASSIA ALATA
79 CASSIA FISTULA L CASSIA FISTULA
80 CASSIA TORA LINN CASSIA TORA
81
CATHARANTUS ROSEUS (L.) G.
DON CATHARANTUS ROSEUS
Lanjutan Lampiran 6 Daftar 354 nama ilmiah dalam kamus.txt
No. Nama asli Nama depan Nama belakang
83 CELOSIA ARGENTEA LINN CELOSIA ARGENTEA
84 CENTELLA ASIATICA, (LINN), URB CENTELLA ASIATICA
85
CHRYSANTHEMUM MORIFOLIUM
RAM CHRYSANTHEMUM MORIFOLIUM
86 CHRYSOMELA SCRIPTA CHRYSOMELA SCRIPTA
87 CINNAMOMUM BURMANI CINNAMOMUM BURMANI
88 CINNAMOMUM CASSIA PRESL CINNAMOMUM CASSIA
89 CINNAMOMUM SINTOK BI CINNAMOMUM SINTOK
90 CITRUS AURANTIFOLIA, SWINGLE CITRUS AURANTIFOLIA
91 CITRUS MAXIMA CITRUS MAXIMA
92 CITRUS NOBILIS CITRUS NOBILIS
93 CLEOME SPINOSA L CLEOME SPINOSA
94
CLERODENDRON SERRATURE [L.]
SPR CLERODENDRON SERRATURE
95
CLERODENDRUM THOMSONAE
BALFF CLERODENDRUM THOMSONAE
96
CLERODENTRUM CALAMITOSUM
L CLERODENTRUM CALAMITOSUM
97 COCOS NUCIFERA, LINN COCOS NUCIFERA
98 COFFEA SP COFFEA SP
99 COIX LACHRYMA-JOBIL COIX LACHRYMA-JOBIL
100 COLEUS AMBOINICUS, LOUR COLEUS AMBOINICUS
101 COLEUS AROMATICUS BENTH COLEUS AROMATICUS
102 COLEUS ATROPURPUREUS L COLEUS ATROPURPUREUS
103
COLEUS SCUTELLARIOIDES,
LINN,BENTH COLEUS SCUTELLARIOIDES
104 COLOCASIA ESCULENTA COLOCASIA ESCULENTA
105 CONVOLVULUS BATATAS L CONVOLVULUS BATATAS
106 CORIANDRUM SATIVUM L CORIANDRUM SATIVUM
107 CRINUM ASIATICUM CRINUM ASIATICUM
108 CROTALARIA JUNCEA CROTALARIA JUNCEA
109 CUCUMIS SATIVUS L CUCUMIS SATIVUS
110 CUCURBITA PEPO CUCURBITA PEPO
111 CUMINUM CYMINUM, LINN CUMINUM CYMINUM
112 CURCUBITA MOSCHATA DUCH CURCUBITA MOSCHATA
113 CURCUMA ACRUGINOSSA CURCUMA ACRUGINOSSA
114 CURCUMA AEROGINOSA ROXB CURCUMA AEROGINOSA
115 CURCUMA ALBAL L CURCUMA ALBAL
116 CURCUMA DOMESTICA VAL CURCUMA DOMESTICA
117 CURCUMA HEYNEANA VAL. & V CURCUMA HEYNEANA
118 CURCUMA LONGA LINN CURCUMA LONGA
119 CURCUMA XANTHOMIZHA ROZB CURCUMA XANTHOMIZHA
120 CURCUMA XANTHORRHIZA, ROXB CURCUMA XANTHORRHIZA
121 CURCUMA ZEDOARIA CURCUMA ZEDOARIA
122 CYCLEA BARBATA CYCLEA BARBATA
Lanjutan Lampiran 6 Daftar 354 nama ilmiah dalam kamus.txt
No. Nama asli Nama depan Nama belakang
124
CYMBOPOGAN NARDUS L.
REANDLE CYMBOPOGAN NARDUS
125 CYMBOPOGON CITRATUS CYMBOPOGON CITRATUS
126 CYPERUS ALTERNIFOLIUS CYPERUS ALTERNIFOLIUS
127 CYPERUS PAPYRUS CYPERUS PAPYRUS
128 CYPERUS ROTUNDUS CYPERUS ROTUNDUS
129 DATURA METEL, LINN DATURA METEL
130 DAUCUS CAROTA, LINN DAUCUS CAROTA
131
DESMODIUM TRIQUETRUM [L.]
D.C DESMODIUM TRIQUETRUM
132 DIOSCOREA SPP DIOSCOREA SPP
133 DIPTEROCARPUS SP DIPTEROCARPUS SP
134 DOLICHOS LABLAB DOLICHOS LABLAB
135 DURIO ZIBETHINUS DURIO ZIBETHINUS
136 DYSOXYLUM EXCELSUM DYSOXYLUM EXCELSUM
137 ECLIPTA ALBA (L.) HASSK ECLIPTA ALBA
138 ELEPHANTOPUS SCABER L ELEPHANTOPUS SCABER
139 EPIPHYLLUM ANGULIGER EPIPHYLLUM ANGULIGER
140 EQUISETUM DEBILE ROXB EQUISETUM DEBILE
141 ERCHORMIA CRASSIPES ERCHORMIA CRASSIPES
142 ERECHTITES VALERIANNIFOLIA ERECHTITES VALERIANNIFOLIA
143
ERVATAMIA DIVARICATA (L.)
BURK ERVATAMIA DIVARICATA
144 ERYTHRINA HYPOPHORUS ERYTHRINA HYPOPHORUS
145 ERYTHRINA ORIENTALIS ERYTHRINA ORIENTALIS
146 EUGENIA CUMINI EUGENIA CUMINI
147 EUGENIA POLYANTHA EUGENIA POLYANTHA
148 EUPATORIUM TRIPLINERVE VAHL EUPATORIUM TRIPLINERVE
149 EUPHARBIA TIRUCALLI L EUPHARBIA TIRUCALLI
150 E U PHORBIA ANTIQUORUM L EUPHORBIA ANTIQUORUM
151 EUPHORBIA HIRTA, LINN EUPHORBIA HIRTA
152
EUPHORBIA MILII CH.DES
MOULINS EUPHORBIA MILII
153
EUPHORBIA PUICHERRIMA
WILLD. ET KLOTZSCH EUPHORBIA PUICHERRIMA
154 EUPHORBIA THYMIFOLIA LINN EUPHORBIA THYMIFOLIA
155 EURYCOMA LONGIFOLIA EURYCOMA LONGIFOLIA
156 EVODIAA SUAVEOLENS EVODIAA SUAVEOLENS
157
EXCOECARIA COCHINCHINENSIS
LOUR EXCOECARIA COCHINCHINENSIS
158 FEDERIA FOETIDAL FEDERIA FOETIDAL
159 FICUS BENYAMINA L FICUS BENYAMINA
160 FOENICULUM VULGARE MILL FOENICULUM VULGARE
161
GANODERMA LUCIDUM (LEYSS.EX
FR.) KARST GANODERMA LUCIDUM
162 GARDENIA AUGUSTA, MERR GARDENIA AUGUSTA
163 GARDENIA JASMINOIDES ELLIS GARDENIA JASMINOIDES
Lanjutan Lampiran 6 Daftar 354 nama ilmiah dalam kamus.txt
No. Nama asli Nama depan Nama belakang
165 GLYCINE MAX, (LINN.) MERRILL GLYCINE MAX
166 GLYCYRRHIZA GLABRA L GLYCYRRHIZA GLABRA
167 GOMPHRENA GLOBOSE LINN GOMPHRENA GLOBOSE
168 GOSSYPIUM SP GOSSYPIUM SP
169
GRAPTOPHYLLUM PICTUM,
(LINN), GRIFF GRAPTOPHYLLUM PICTUM
170 GUAZOMA ULMIFOLIA LAMK GUAZOMA ULMIFOLIA
171 GYNURA PROCUMBENS GYNURA PROCUMBENS
172 GYNURA PSEUDO-CHINA GYNURA PSEUDO -CHINA
173 GYNURA SEGETUM (LOUR.) MERR GYNURA SEGETUM
174 HEDYOTIS CORYMBOSA (L.] LAMK HEDYOTIS CORYMBOSA
175 HEDYOTIS DIFFUSA HEDYOTIS DIFFUSA
176 HELIANTHUS ANNUUS LINN HELIANTHUS ANNUUS
177 HELIOTHIS ARMIGERA HELIOTHIS ARMIGERA
178 HELIOTROPIUM INDICUM L HELIOTROPIUM INDICUM
179 HEMIGRAPHIS COLORATA HEMIGRAPHIS COLORATA
180
HIBISCUS SCHIZOPETALUS
(MAST.) HOOK. F HIBISCUS SCHIZOPETALUS
181 HIBISCUS TILIACEUS HIBISCUS TILIACEUS
182 HISBISCUS MUTABILIS HISBISCUS MUTABILIS
183
HYDROCOTYLE SIBTHORPIOIDES
LAM HYDROCOTYLE SIBTHORPIOIDES
184 IMPATIENS BALSAMINA LINN IMPATIENS BALSAMINA
185 IMPERATA CYLINDRICAL IMPERATA CYLINDRICAL
186 IPOMEA AQUATICA SP IPOMEA AQUATICA
187 IPOMOEA BATATAS PIR IPOMOEA BATATAS
188 IPOMOEA PES-CAPRAE (L.) SWEET IPOMOEA PES-CAPRAE
189 IXORA STRICTER ROXB IXORA STRICTER
190 JASMINUM PUBESCENS JASMINUM PUBESCENS
191 JASMINUM SAMBAC, AIT JASMINUM SAMBAC
192 JATROPHA GOSSYPIFOLIA L JATROPHA GOSSYPIFOLIA
193 JATROPHA PODAGRICA HOOK JATROPHA PODAGRICA
194 JUSTICIA GENDARUSSA BURM. F JUSTICIA GENDARUSSA
195 KAEMPFERIA GALANGA, LINN KAEMPFERIA GALANGA
196 KALANCHOE PINNATA (LAM.) PER KALANCHOE PINNATA
197 LACTUCA SATIVA LACTUCA SATIVA
198 LAGERSTROEMIA SPECIOSA AUCT LAGERSTROEMIA SPECIOSA
199 LAMINARIA JAPONICA LAMINARIA JAPONICA
200 LANTANA CAMARA LINN LANTANA CAMARA
201 LASIUM DOMESTICUM LASIUM DO MESTICUM
202 LAWSONIA INERMIS LAWSONIA INERMIS
203 LEONURUS SIBIRICUS L LEONURUS SIBIRICUS
204
LEUCAENA LEUCOCEPHALA,
LMK. DE WIT LEUCAENA
LEUCOCEPHALA
205 LEUCAS LAVANDULIFOLIA SMITH LEUCAS LAVANDULIFOLIA
206 LITSEA GLUTINOSA (LOUR) C.D LITSEA GLUTINOSA
Lanjutan Lampiran 6 Daftar 354 nama ilmiah dalam kamus.txt
No. Nama asli Nama depan Nama belakang
208 LSOTOMA LONGIFLORA PRESI LSOTOMA LONGIFLORA
209 LUFFA ACUTANGULA L. ROXB LUFFA ACUTANGULA
210 MANGIFERA INDICA MANGIFERA INDICA
211 MANIHOT ESCULENTA, CRAUTZ MANIHOT ESCULENTA
212 MANIHOT UTILISSIMA POHL. MANIHOT UTILISSIMA
213 MARANTA ARUNDINACEA L. MARANTA ARUNDINACEA
214 MASSOIO AROMATICA MASSOIO AROMATICA
215 MEIALEUCA LEUCADENDRA L MEIALEUC A LEUCADENDRA
216 MELASTOMA CANDIDUM D. DON MELASTOMA CANDIDUM
217 MELATOMA CANDIDUM D. DON MELATOMA CANDIDUM
218 MELIA AZE DARACHTA MELIA AZE
219 MENTHA ARVENSIS MENTHA ARVENSIS
220
MERREMIA MAMMOSA (LOUR.)
HALL.F MERREMIA MAMMOSA
221 MICHELIA CHAMPACA MICHELIA CHAMPACA
222 MIMOSA PUDICA LINN MIMOSA PUDICA
223 MIMUSOPS ELENGI L MIMUSOPS ELENGI
224 MIRABILISJALAPA LINN MIRABILISJALAPA LINN
225 MOMORDICA CHARANTIA L MOMORDICA CHARANTIA
226 MORINDA CITRIFOLIA, LINN MORINDA CITRIFOLIA
227 MORINGA OLEIFERA, LAMK MORINGA OLEIFERA
228 MORUS ALBA L MORUS ALBA
229 MURRAYA PANICULATA [L..] JACK MURRAYA PANICULATA
230 MUSA BRACHYCARPA BACK MUSA BRACHYCARPA
231 MUSA PARADISIACA, LINN MUSA PARADISIACA
232 MUSSAENDA PUBESCENS MUSSAENDA PUBESCENS
233 MYRISTICA FRAGRANS HOUFF MYRISTICA FRAGRANS
234 NASTURTIUM MONTANUM WALL NASTURTIUM MONTANUM
235 NASTURTIUM OFFICINALE L. R. BR NASTURTIUM OFFICINALE
236 NELUMBIUM NELUMBO DRUCE NELUMBIUM NELUMBO
237 NEPHELIUM LAPPACEUM NEPHELIUM LAPPACEUM
238 NERIUM OLEANDER NERIUM OLEANDER
239 NIGELLA SATIVA NIGELLA SATIVA
240
NOTHOPANAX SCUTELLARIUM
MERR NOTHOPANAX SCUTELLARIUM
241 NYCTANTHES ARBOR-TRISTIS L NYCTANTHES ARBOR-TRISTIS
242 NYMPHAEA LOTUS L NYMPHAEA LOTUS
243 NYMPHAEA TETRAGONA GEORGI NYMPHAEA TETRAGON A
244 OCIMUM BASILICUM L OCIMUM BASILICUM
245 OLDENLANDIA CORYMBOSA OLDENLANDIA CORYMBOSA
246 OPUNTIA DILENII HAW OPUNTIA DILENII
247 ORIADRUM SATIVUM ORIADRUM SATIVUM
248
ORTHOSIPHON ARISTATUS (B1)
MIQ ORTHOSIPHON ARISTATUS
249
ORTHOSIPHON STAMINEU S
BENTH ORTHOSIPHON STAMINEUS
250 ORYZA, SATIVA L ORYZA SATIVA