• Tidak ada hasil yang ditemukan

SISTEM TEMU BALIK INFORMASI Algoritma Na

N/A
N/A
Protected

Academic year: 2018

Membagikan "SISTEM TEMU BALIK INFORMASI Algoritma Na"

Copied!
12
0
0

Teks penuh

(1)

SISTEM TEMU BALIK INFORMASI

Algorit a Nazief da Adria i

Disusun Oleh:

Dyan Keke 11/323494/PA/14356

Rian Chikita 11/323813/PA/14362

Agus Dwi Prayogo 11/323856/PA/14367

PRODI S1 ILMU KOMPUTER

JURUSAN ILMU KOMPUTER DAN ELEKTRONIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS GADJAH MADA

YOGYAKARTA

(2)

Pendahuluan

Pencarian informasi berupa dokumen teks atau yang dikenal dengan istilah Information Retrieval (IR) merupakan proses pemisahan dokumen-dokumen yang dianggap relevan dari sekumpulan dokumen yang tersedia. Bertambahnya jumlah dokumen teks yang dapat diakses di internet diikuti dengan meningkatnya kebutuhan pengguna akan perangkat pencarian informasi yang efektif dan efisien. Efektif berarti user mendapatkan dokumen yang relevan dengan query yang diinputkan. Efisien berarti waktu pencarian yang sesingkat-singkatnya.

Stemming merupakan suatu proses yang terdapat dalam sistem IR yang mentransformasikan kata-kata yang terdapat dalam suatu dokumen ke kata-kata akarnya (root word) dengan menggunakan aturan-aturan tertentu. Sebagai contoh, kata bersama, kebersamaan, menyamai, aka diste ke root ord ya yaitu sa a .

Stemming Bahasa Indonesia dengan Algoritma Nazief dan Andriani

Algoritma stemming untuk bahasa yang satu berbeda dengan algoritma stemming untuk bahasa lainnya. Sebagai contoh bahasa Inggris memiliki morfologi yang berbeda dengan bahasa Indonesia sehingga algoritma stemming untuk kedua bahasa tersebut juga berbeda. Proses stemming pada teks berbahasa Indonesia lebih rumit/kompleks karena terdapat variasi imbuhan yang harus dibuang untuk mendapatkan root word (kata dasar) dari sebuah kata.

Pada umumnya kata dasar pada bahasa Indonesia terdiri dari kombinasi:

(3)

Algoritma Nazief & Adriani yang dibuat oleh Bobby Nazief dan Mirna Adriani ini memiliki tahap-tahap sebagai berikut:

1. Pertama cari kata yang akan diistem dalam kamus kata dasar. Jika ditemukan maka diasumsikan kata adalah root word. Maka algoritma berhenti.

2. Inflection Suffixes -lah , -kah , -ku , - u , atau - ya di ua g. Jika berupa particles -lah , -kah , -tah atau -pu aka la gkah i i diula gi lagi untuk menghapus Possesive Pronouns -ku , - u , atau - ya , jika ada.

3. Hapus Derivation Suffixes -i , -a atau -ka . Jika kata dite uka di kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a

a) Jika -a telah dihapus da huruf terakhir dari kata terse ut adalah -k , aka -k juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b. b) Akhira ya g dihapus -i , -a atau -ka dike alika , la jut ke

langkah 4

4. Hilangkan derivatio prefixes DP { di- , ke- , se- , e- , e- , pe , te- } dengan iterasi maksimum adalah 3 kali:

(4)

Tabel 1. Kombinasi Awalan Akhiran Yang Tidak Diijinkan

Awalan Akhiran yang tidak diizinkan

be- -i

di- -an

ke- -i, -kan

me- -an

se- -i, -kan

te- -an

b) Identifikasikan tipe awalan dan hilangkan. Awalan ada tipe:

 “ta dar: di- , ke- , se- yang dapat langsung dihilangkan dari kata.

(5)
(6)

c) Cari kata yang telah dihilangkan awalannya ini di dalam kamus. Apabila tidak ditemukan, maka langkah 4 diulangi kembali. Apabila ditemukan, maka keseluruhan proses dihentikan.

5. Apabila setelah langkah 4 kata dasar masih belum ditemukan, maka proses recoding dilakukan dengan mengacu pada aturan pada Tabel 2. Recoding dilakukan dengan menambahkan karakter recoding di awal kata yang dipenggal. Pada Tabel 2, karakter recoding adalah huruf kecil setelah tanda hu u g - da terkada g erada se elu ta da kuru g. “e agai o toh, kata e a gkap atura 15 , setelah dipe ggal e jadi a gkap . Kare a tidak valid, maka recoding dilakuka da e ghasilka kata ta gkap . 6. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal

diasumsikan sebagai root word. Proses selesai.

Tipe awalan ditentukan melalui langkah-langkah berikut:

1. Jika a ala ya adalah: di- , ke- , atau se- aka tipe a ala ya se ara berturut-turut adalah di- , ke- , atau se- .

2. Jika a ala ya adalah te- , e- , e- , atau pe- aka di utuhka sebuah proses tambahan untuk menentukan tipe awalannya.

3. Jika dua karakter perta a uka di- , ke- , se- , te- , e- , e- , atau pe- aka erhe ti.

(7)

Tabel 3. Cara Me e tuka Tipe Awala U tuk awala te-

Tabel 4. Jenis Awalan Berdasarkan Tipe Awalannya

Tipe Awalan Awalan yang harus dihapus

di- di-

Untuk mengatasi keterbatasan pada algoritma di atas, maka ditambahkan aturan-aturan dibawah ini :

1. Aturan untuk reduplikasi.

a) Jika kedua kata yang dihubungkan oleh kata penghubung adalah kata yang sama maka root word adalah bentuk tunggalnya, contoh :

(8)

b) Kata lai , isal ya olak- alik , er alas-balasa , da seolah

-2. Tambahan bentuk awalan dan akhiran serta aturannya.

a) U tuk tipe a ala e - , kata ya g dia ali de ga a ala e p e iliki tipe a ala e - .

b) Tipe a ala e g- , kata ya g dia ali de ga a ala e gk -e iliki tip-e a ala -e g- .

Berikut contoh-contoh aturan yang terdapat pada awalan sebagai pembentuk kata dasar ;

1. Awalan

(9)
(10)

3. Awalan

(11)

 Pe + beri = pemberi

Pe + konsonan (l,m,n,r,w,y) tetap tidak berubah Contoh :

 Pe + lamar = pelamar  Pe + makan = pemakan  Pe + nanti = penanti  Pe + wangi = pewangi

Kelebihan dan Kelemahan Algoritma Nazief dan Adriani

 Kelebihan :

1. Memperhatikan kemungkinan adanya partikel-partikel yang mungkin mengikuti suatu kata berimbuhan.

(12)

 Kelemahan :

1. Penyamarataan makna variasi kata

2. Jumlah database kata dan kata dasarnya harus besar. Kesalahan terjadi bila kata tidak ditemukan di database dan kemudian dianggap kata dasar, padahal bukan

3. Lamanya waktu yang diperlukan dalam proses pencarian kata di dalam kamus.

Daftar Pustaka

Mahendra,K.,2008, Penggunaan Algoritma Semut dan Confix Stripping Stemmer untuk Klasifikasi Dokumen Berita Berbahasa Indonesia,Tugas Akhir,Institut Teknologi Sepuluh November, Surabaya.

Gambar

Tabel 1. Kombinasi Awalan Akhiran Yang Tidak Diijinkan
Tabel 4. Jenis Awalan Berdasarkan Tipe Awalannya

Referensi

Dokumen terkait

Adapun saran yang dapat disampaikan berdasarkan hasil penelitian adalah sebagai berikut: (1) Bagi guru yang ingin menerapkan keterampilan mengadakan variasi ini sepenuhnya

Indonesia merupakan salah satu dari seratus empat puluh enam negara berkembang peratifikasi Konvensi Basel 1989 yang mengatur perpindahan limbah bahan berbahaya dan beracun

PERANCANGAN ALAT PENDETEKSI BENDA ASING PADA TAHAP AKHIR PROSES PEMISAHAN TERI

Kewajiban melaksanakan EDD sebagaimana dimaksud dalam Pasal 32 juga berlaku dalam hal Penyelenggara melakukan transaksi dengan Pengguna Jasa yang patut diduga merupakan

asam semut dan tawas sebagai penggumpal karet di Desa Pinang Sebatang. Kecamatan Simpang Katis Kabupaten

Banyaknya clique maksimal yang diperoleh dari graf G adalah delapan buah (salah satunya ditunjukkan pada Gambar 3c) dan diantara clique maksimal tersebut tidak

Dalam hal suatu liabilitas keuangan yang ada digantikan oleh liabilitas keuangan lain dari pemberi pinjaman yang sama dengan persyaratan yang berbeda secara

personality disorder) memiliki rasa bangga atau keyakinan yang berlebihan terhadap diri mereka sendiri dan kebutuhan yang ekstrem akan pemujaan.. berharap orang lain melihat