• Tidak ada hasil yang ditemukan

Mesin Pencari SMS berbasis Android dengan Menggunakan Metode N-gram

N/A
N/A
Protected

Academic year: 2017

Membagikan "Mesin Pencari SMS berbasis Android dengan Menggunakan Metode N-gram"

Copied!
32
0
0

Teks penuh

(1)

MESIN PENCARI SMS BERBASIS ANDROID DENGAN

MENGGUNAKAN METODE N-GRAM

RIZKY UTAMA PRAMUDIA

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(2)

RIZKY UTAMA PRAMUDIA

Skripsi

Sebagai salah satu syarat untuk memperoleh gelar

Sarjana Komputer pada

Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2013

(3)

Search engines Short-Messaging Service (SMS) on mobile devices are still using the exact match method. This method can only find SMS containing words, which one exact matches of the query. Therefore, a method to correct the spelling of the text is needed. Trigram similarity measure method is one of spelling correction methods developed which gives a relatively good performance. Therefore, this study applied the method of N-gram with bigram models and trigram models for SMS in Indonesian. The result of this research is a search engine with an average precision (AVP) 49.6% for bigram models and 80.8% for trigram models.

(4)

Judul Skripsi : Mesin Pencari SMS berbasis Android dengan Menggunakan Metode N-gram Nama : Rizky Utama Pramudia

NRP : G64080083

Menyetujui: Pembimbing

Ir. Julio Adisantoso, M.Kom NIP.196207141986011002

Mengetahui:

Ketua Departemen Ilmu Komputer

Dr. Ir. Agus Buono, M.Si, M.Kom NIP.196607021993021001

(5)

Pencari SMS berbasis Android dengan Menggunakan Metode N-gram. Penulis juga menyampaikan terima kasih kepada seluruh pihak yang telah berperan dalam tugas akhir ini, yaitu:

 Ayahanda H.Safrudin, Ibunda Fitriana Wulandari, serta keluarga besar penulis yang selalu memberikan doa, nasihat, semangat, dan kasih sayang yang luar biasa kepada penulis.

 Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing tugas akhir yang memberikan bimbingan, ide, dukungan, semangat serta kesabaran dalam pengerjaan tugas akhir ini.

 Bapak Ahmad Ridha, S.Kom, MS dan Bapak Sony H. Wijaya, S.Kom, M.Kom selaku dosen penguji yang telah memberi masukan dan saran pada tugas akhir penulis.

 Rekan satu bimbingan Susi Handayani, Fania R K, Meri Marlina, Meriska Defriani, Anita, Hafidzhia Dzikrul A, Alfa Nugraha, Putri Dewi Purnama Sari, dan Nofel Saputra. Terima kasih atas bantuan, kebersamaan dan semangatnya dalam menyelesaikan tugas akhir ini.

 Tri Lugina Kusumaningtias, Anjar Hafidhun, Satria Wardana, Rian Senja dan Aida Ratna Juwita. Terima kasih atas semangat dan dukungannya yang telah diberikan kepada penulis. Semoga kita bisa berjumpa kembali kelak sebagai orang-orang sukses.

 Seluruh keluarga besar PONDOK AA (Uda Roni, Bang Aad, Bang Aan, Bang Bono, Wido, Rilan, dan rekan-rekan lain) yang selalu memberikan semangat kepada penulis selama melaksanakan tugas akhir ini.

 Seluruh rekan-rekan Ilmu Komputer angkatan 45 atas segala kebersamaan, bantuan, canda tawa, dan kenangan indah serta semangat bagi penulis slama masa studi. Semoga kita semua bisa berjumpa kembali kelak sebagai orang-orang sukses.

Penulis berharap tugas akhir ini dapat memberikan manfaat, khususnya bagi bidang temu kembali informasi. Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat kekurangan dalam berbagai hal. Penulis berharap adanya masukan yang bersifat membangun dari pembaca demi kesempurnaan tugas akhir ini.

Bogor, Januari 2013

(6)

RIWAYAT HIDUP

Rizky Utama Pramudia dilahirkan di Jakarta pada tanggal 19 September 1990 dari pasangan Bapak H Safrudin dan Ibu Fitriana Wulandari. Pada tahun 2008, penulis lulus dari SMA Negeri 106 Jakarta dan menjadi mahasiswa di Departemen Ilmu Komputer Institut Pertanian Bogor (IPB) melalui Undangan Seleksi Masuk IPB (USMI).

(7)

v

DAFTAR ISI

Halaman

DAFTAR TABEL ... vi

DAFTAR GAMBAR ... vi

DAFTAR LAMPIRAN ... vi

PENDAHULUAN ... 1

Latar Belakang ... 1

Tujuan ... 1

Ruang Lingkup ... 1

Praproses Dokumen ... 2

Pemrosesan Kueri... 2

Pemeringkatan Dokumen ... 2

Evaluasi Sistem ... 2

Lingkungan Implementasi ... 3

HASIL DAN PEMBAHASAN... 3

Dokumen Pengujian ... 3

Pemrosesan dokumen ... 3

Pemrosesan Kueri... 4

Ukuran Kesamaan ... 4

Pengujian Kinerja Sistem ... 4

Pengembangan Sistem ... 7

SIMPULAN DAN SARAN ... 7

Simpulan ... 7

Saran ... 7

DAFTAR PUSTAKA ... 7

(8)

DAFTAR TABEL

Halaman

1 Relevant dan retrieved dokumen ... 3

2 Contoh daftar hasil pencarian untuk kueri Q1 ... 5

3 Contoh hasil keluaran sistem trec_eval trigram 0.1 ... 5

4 Perbandingan nilai AVP sepuluh kueri pada sistem ... 6

DAFTAR GAMBAR

Halaman 1 Tahapan pembangunan sistem. ... 1

2 Format dokumen uji SMS (.xml). ... 3

3 Grafik recall precision bigram dan trigram dengan threshold 0.1. ... 5

4 Grafik recall precision bigram dan trigram dengan threshold 0.05. ... 6

5 Grafik recall precision bigram dan trigram dengan threshold 0.0. ... 6

DAFTAR LAMPIRAN

Halaman 1 Daftar kueri uji dan dokumen yang relevan ... 10

2 Contoh dokumen SMS pengujian ... 11

3 Hasil keluaran sistem trec_eval bigram 0.1 ... 12

4 Hasil keluaran sistem trec_eval trigram 0.05 ... 13

5 Hasil keluaran sistem trec_eval bigram 0.05 ... 14

6 Hasil keluaran sistem trec_eval trigram 0.0 ... 15

7 Hasil keluaran sistem trec_eval bigram 0.0 ... 16

8 Daftar AVP pada pengujian model bigram dengan threshold 0.1 ... 17

9 Daftar AVP pada pengujian model trigram dengan threshold 0.1 ... 18

10 Daftar AVP pada pengujian model bigram dengan threshold 0.05 ... 19

11 Daftar AVP pada pengujian model trigram dengan threshold 0.05 ... 20

12 Daftar AVP pada pengujian model bigram dengan threshold 0.0 ... 21

13 Daftar AVP pada pengujian model trigram dengan threshold 0.0 ... 22

14 Antarmuka halaman utama sistem pencarian SMS ... 23

15 Antarmuka hasil pencarian ... 23

16 Antarmuka read SMS ... 23

17 Antarmuka reply SMS ... 23

(9)

PENDAHULUAN

Latar Belakang

Sistem temu kembali informasi sangat erat kaitannya dengan sistem pencarian (search engine). Sistem pencarian membutuhkan masukan berupa kueri untuk memperoleh suatu informasi yang diinginkan. Kadangkala, informasi yang ditemukembalikan kurang relevan dengan kebutuhan pengguna (Rahmawan 2011). Saat ini pengembangan sistem pencarian short message service (SMS) menggunakan perangkat mobile belum banyak dikembangkan. Sistem pencarian SMS yang terdapat pada perangkat mobile saat ini masih menggunakan metode exact match.

Sistem pencarian SMS menggunakan metode exact match telah diterapkan pada perangkat mobile berbasis Android. Android adalah sistem operasi untuk perangkat mobile yang berbasis Linux. Android menyediakan platform terbuka bagi para pengembang untuk menciptakan aplikasi mereka sendiri untuk digunakan oleh bermacam perangkat mobile yang berbasis Android. Sistem pencarian SMS pada Android hanya bisa mencari SMS dengan kueri yang tepat sama dengan kata yang ada pada SMS. Sistem ini tidak bisa mengatasi bila pengguna salah ejaan kata pada saat memasukkan kueri.

Berbagai metode telah dikembangkan untuk program pengoreksi ejaan berbahasa Inggris dan hasilnya cukup memuaskan. Untuk Bahasa Indonesia, metode tersebut masih merupakan bahan kajian yang harus diteliti dan dikembangkan lebih lanjut terutama pada dokumen berbentuk SMS (Wahyudin 1999).

Menurut Damerau (1964) dalam Peterson (1980) 80% kesalahan ejaan merupakan variasi dari empat hal, yaitu penggantian satu huruf, penyisipan satu huruf, penghilangan satu huruf, dan transposisi dua huruf berdekatan.

Algoritme ukuran kesamaan trigram adalah salah satu metode pengoreksi ejaan yang dikembangkan oleh Angell et al. (1983) di Inggris yang memberikan kinerja cukup baik, yaitu antara 75%-90% koreksi kesalahan ejaan dengan kamus sebanyak 64.636 kata. Algoritme ini digunakan untuk mengukur kesamaan dua string yang tidak tepat sama. Pada kenyataannya, SMS sering ditulis dengan tidak benar sehingga sulit dicari dengan metode kesamaan string tepat sama.

Oleh karena itu, pada penelitian ini akan dikembangkan sistem pencarian SMS berbasis Android menggunakan metode N-gram sehingga sistem diharapkan dapat mencari SMS menggunakan kueri yang tidak tepat sama.

Tujuan

Tujuan dari penelitian ini adalah:

1 Mengimplementasikan sistem mesin pencari SMS berbasis Android.

2 Menganalisis kinerja sistem yang akan dibangun dengan mengembalikan dokumen SMS yang relevan dari banyak dokumen SMS yang tidak hanya menggunakan bahasa baku.

Ruang Lingkup

Ruang lingkup dalam penelitian ini adalah: 1 Dokumen yang digunakan dalam penelitian adalah dokumen SMS berbahasa Indonesia.

2 Dokumen yang relevan dengan kueri uji, ditentukan berdasarkan penulis.

METODE

Penelitian ini dilaksanakan dalam beberapa tahapan, yaitu: pengumpulan koleksi dokumen SMS, perhitungan metode N-gram, perhitungan ukuran kesamaan antara dokumen dan kueri, pemeringkatan dokumen, dan perhitungan evaluasi hasil temu-kembali sistem. Tahapan-tahapan tersebut dapat dilihat pada Gambar 1.

(10)

2

Koleksi Dokumen

Dokumen yang digunakan sebagai dokumen uji adalah dokumen SMS yang berasal dari penulis. Dokumen berjumlah 661 SMS inbox dan sent item dan kueri uji berjumlah 10 kueri dengan daftar dokumen yang relevan (Lampiran 1).

Praproses Dokumen

Tahapan penelitian dimulai dengan melakukan pembersihan data terhadap dokumen SMS di dalam sebuah kumpulan SMS. Terdapat dua tahapan praproses yang digunakan pada penelitian. Tahapan pertama adalah pembersihan data. Pembersihan data adalah suatu proses pembuangan separator yang dianggap kurang representatif dalam proses selanjutnya. Hal ini dilakukan dengan cara menghapus semua karakter tanda baca yang terdapat pada dokumen SMS dan mengubah semua huruf menjadi lowercase. Penelitian ini tidak menggunakan pembobotan melainkan dokumen SMS yang sudah dilakukan pembersihan data diproses menggunakan metode N-gram.

Tahapan yang kedua yaitu proses N-gram. N-gram (Markov Chain) adalah rangkaian karakter (alfabet) atau kata yang diekstrak dari sebuah teks. N-gram dapat dibedakan menjadi dua kategori, yaitu basis karakter dan basis kata. Sebuah karakter N-gram merupakan rangkaian dari n karakter yang berurutan. Tujuan utama pendekatan ini adalah menentukan kata-kata yang mirip dengan rangkaian N-gram secara umum (Majumder et al 2002).

Pada umumnya N-gram mengekstrak dokumen atau kata-kata menjadi dua atau tiga rangkaian yang terurut (sering disebut bigrams dan trigrams). Sebagai contoh susunan bigrams dari kata ‘computer’ adalah ‘CO’, ‘OM’, ‘MP’, ‘PU’, ‘UT’, ‘TE’, dan ‘ER’. Pemrosesan Kueri

Pemrosesan pada tahap ini sama halnya dengan praproses dokumen SMS, yaitu dilakukan tokenisasi, pembuangan tanda baca, dan spasi terhadap kueri. Kueri yang dimasukkan akan dilakukan proses dengan metode N-gram yang kemudian akan diperoleh array kueri yang dapat digunakan dalam proses perhitungan ukuran kesamaan. Pemeringkatan Dokumen

Hasil pemrosesan dengan metode N-gram yang diperoleh dari dokumen SMS dan kueri

kemudian diperiksa kesamaan dokumennya menggunakan ukuran kesamaan Dice. Nilai pengukuran kesamaan pada sistem akan mengembalikan dokumen relevan menurut sistem.

Persamaan (1) menunjukkan proses penghitungan ukuran kesamaan dari N-gram dengan metode dice coefficient dari dua buah kata.

Dice = 2 � | ∩ |

+| |

… …

..

(1)

dengan X adalah string dari N-gram X dan Y adalah string dari N-gram Y.

Semakin tinggi nilai kesamaan dice menunjukkan bahwa dokumen tersebut memiliki tingkat kemiripan yang besar dengan kueri yang diberikan.

Ukuran lain yang bisa digunakan untuk menghitung ukuran kesamaan adalah jaccard coefficient. Jaccard coefficient dari dua buah kata adalah:

Jaccard = | ∩ |

| ⋃ |... (2)

Dalam penelitian ini digunakan ukuran kesamaan dice coefficient untuk mengukur kesamaan dua string hasil N-gram.

Evaluasi Sistem

Pada proses evaluasi hasil temu-kembali dilakukan menggunakan ukuran recall-precision untuk menentukan tingkat keefektifan proses temu-kembali. Dua ukuran utama untuk keefektifan penemukembalian yang telah digunakan sejak lama adalah recall dan precision (Salton 1989). Recall adalah perbandingan jumlah dokumen relevan yang ditemukembalikan terhadap jumlah dokumen yang relevan, sedangkan precision adalah perbandingan jumlah dokumen relevan yang ditemukembalikan terhadap jumlah dokumen yang ditemukembalikan.

(11)

Tabel 1 Relevant dan retrieved dokumen

Relevant Non relevant

Retrieved True positive

(tp)

Lingkungan implementasi yang digunakan adalah sebagai berikut:

1 Perangkat lunak:

a Sistem operasi Windows 8 Professional sebagai sistem operasi, b Java rule-based Android sebagai

bahasa pemrograman c Android SDK Windows, d Eclipse IDE

e Trec_eval, dan

f Microsoft Office 2007 sebagai aplikasi yang digunakan untuk melakukan perhitungan dalam evaluasi sistem. 2 Perangkat keras:

a Processor Intel Core i3.2310 2.10 GHz b RAM 4 GB

c Harddisk dengankapasitas 500 GB

HASIL DAN PEMBAHASAN

Dokumen Pengujian

Penelitian ini menggunakan 661 dokumen SMS yang berasal dari SMS penulis yang terbagi menjadi 394 dokumen SMS inbox dan 267 dokumen SMS sent item. Dokumen SMS yang digunakan berformat XML yang di-export dari perangkat mobile. Dokumen tersebut di-import ke dalam emulator Android agar bisa digunakan dalam implementasi sistem dengan menggunakan aplikasi pendukung di Android. Contoh format dokumen uji yang digunakan dapat dilihat pada Gambar 2.

Koleksi ini dibuat sesuai struktur tag XML pada masing-masing dokumen. Tag XML yang digunakan dalam koleksi dokumen pertanian, yaitu:

<SMSes/></SMSes>, mewakili jumlah dokumen SMS yang berhasil di-export. <SMS></SMS>, mewakili keseluruhan

dokumen. Di dalamnya terdapat attribute lain yang mendeskripsikan isi dokumen secara lebih jelas.

Jumlah kueri uji yang akan digunakan dalam penelitian ini adalah 10 kueri uji dokumen SMS yang berasal penulis (Lampiran 1).

<? xmlversion='1.0 'encoding='UTF-8' standalone='yes' ?> subject="null" body="Ki, pinjemin kalkulator dong, gw lupa ih" toa="null" sc_toa="null" service_center="+62816124" read="1" status="-1" locked="0"

date_sent="null" readable_date="Oct 17, 2011 7:04:18 AM"

contact_name="Laras_ilkom" /><SMSes> Gambar 2 Format dokumen uji SMS (.xml). Pemrosesan dokumen

Pemrosesan dokumen dilakukan melalui beberapa tahapan, yaitu pembersihan data dan proses N-gram. Tahap normalisasi dilakukan dengan pembacaan karakter per karakter. Tujuannya untuk membedakan karakter-karakter yang bersifat separator. Separator yang dihilangkan yaitu: karakter pemisah indeks istilah (whitespace), karakter angka, titik, koma, dan karakter lainnya yang dianggap kurang representasif dalam mencirikan suatu dokumen. Dalam hal ini pembuangan spasi, karakter angka, titik, koma, dan karakter lainnya yang dianggap kurang representatif bertujuan untuk menaikkan nilai ukuran kesamaan. Karena jika karakter tersebut tidak dihilangkan maka akan menambah panjang string dari proses N-gram yang menyebabkan turunnya nilai ukuran kesamaan yang berdampak juga pada turunnya kinerja sistem. Karena semakin panjang string yang dihasilkan dari proses N-gram, nilai dari ukuran kesamaan antara kueri dan dokumen SMS juga semakin kecil. Hal ini disebakkan oleh rumus ukuran kesamaan dice coefficient yang membagi banyaknya karakter yang sama dari dua string N-gram dengan penjumlahan dari panjang dua string tersebut.

(12)

4 kueri dilakukan normalisasi, pembuangan tanda baca, dan spasi. Kueri yang dimasukkan akan dilakukan proses dengan metode N-gram yang akan menghasilkan array kueri yang dapat digunakan dalam proses perhitungan ukuran kesamaan .

Ukuran Kesamaan

Hasil proses N-gram dokumen digunakan untuk menghitung kemiripan kueri dengan dokumen. Kemiripan yang digunakan untuk menghitung bobot antara dokumen dan kueri adalah dice coefficient. Hasil dari similarity akan diurutkan berdasarkan dokumen yang memunyai kemiripan terbesar sampai terkecil. Pengujian Kinerja Sistem

Proses evaluasi dalam penelitian ini dilakukan pada 661 koleksi dokumen SMS. Proses evaluasi pada koleksi dokumen SMS menggunakan 10 kueri uji yang berasal dari penulis.

Pencarian dengan kueri uji ini dilakukan dengan melakukan pengukuran recall-precision dari sistem. Recall adalah rasio dokumen relevan yang ditemukembalikan dan precision adalah dokumen relevan yang ditemukembalikan. Perhitungan recall dan precision menggunakan persamaan (3). Hasil dari evaluasi recall precision masing-masing kueri diinterpolasi maksimum untuk mencari nilai average precision (AVP) dan digambarkan dalam bentuk grafik serta tabel. Proses perhitungan recall dan precision pada penelitian ini menggunakan aplikasi -trec_eval. Trec_eval adalah aplikasi standar yang digunakan oleh Text Retrieval Conference (TREC) untuk menguji kinerja suatu sisem temukembali informasi (Manning et al. 2008). Aplikasi trec_eval sendiri hanya dapat dijalankan pada sistem operasi Linux dengan menggunakan perintah di command line. Untuk menggunakannya, perlu disediakan daftar kueri serta dokumen yang seharusnya relevan dan daftar hasil cari dari sistem. Contoh daftar hasil pencarian dari sistem dapat dilihat pada Tabel 2.

Pada Tabel 3 dapat dilihat hasil uji kinerja sistem temu kembali informasi pada model

trigram dengan nilai threshold 0.1 dan hasil uji lainnya dapat dilihat pada Lampiran 3, 4, 5, 6, dan 7. Pada program trec_eval perhitungan nilai interpolasi menggunakan rumus interpolasi maksimum. Hasil keluaran program trec_eval nilai-nilai dari interpolasi, yaitu:

1 Num_q, menunjukkan jumlah kueri yang di uji pada program trec_eval. 2 Num_ret, menunjukkan jumlah

dokumen yang berhasil di-retrieve oleh program trec_eval.

3 Num_rel, menunjukkan jumlah kueri yang relevance.

4 Num_rel_ret, menunjukan banyak dokumen relevance yang berhasil di-retrieve.

5 Map, menunjukkan nilai dari Mean Average Precision dari sistem.

6 Gm_ap, menunjukkan nilai dari

9 Recip_rank, menunjukkan nilai Recipricial Rank pada dokumen yang relevance.

10 Ircl_prn, menunjukkan nilai interpolasi dari 11 standar nilai recall dari sistem yang diuji.

Nilai-nilai ircl_prn tersebut adalah nilai yang digunakan untuk membuat kurva recal precision untuk membandingkan antara model bigram dengan model trigram.

(13)

Tabel 2 Contoh daftar hasil pencarian untuk kueri Q1

Qid Docno Similarity

Q1 Dok52 0.43 meningkatkan nilai precision pada titik recall 0.0 – 0.4 kemudian jatuh pada titik recall selanjutnya. Hal tersebut tidak terjadi pada metode bigram yang hanya mampu meningkatkan nilai precision pada titik recall 0.0 – 0.2 yang kemudiam jatuh pada titik recall selanjutnya. Pada Gambar 4, dengan nilai threshold 0.05, kedua metode menghasilkan grafik yang lebih baik dari grafik sebelumya. Penurunan nilai precision kedua metode tersebut tidak setajam pada grafik dengan threshold 0.1 walaupun hanya dapat meningkatkan nilai precision pada titik recall rendah.

Tabel 3 Contoh hasil keluaran sistem trec_eval trigram 0.1

Variabel output Nilai Interpolasi num_q threshold 0.0 menghasilkan hasil lebih baik untuk metode trigram bila dibandingkan dengan dua grafik recall-precision sebelumnya. Pada metode trigram dapat dilihat bahwa dengan nilai threshold 0.0 dapat meningkatkan nilai precision yang stabil sampai titik recall tertinggi. Meskipun terdapat penurunan, penurunan tersebut tidak terlalu signifikan. Pada metode bigram menghasilkan nilai yang sedikit menurun. Hal tersebut disebabkan oleh penurunan nilai precision pada titik recall 0.8 bila dibandingkan dengan grafik pada Gambar 4.

(14)

6

Gambar 4 Grafik recall precision bigram dan trigram dengan threshold 0.05.

Gambar 5 Grafik recall precision bigram dan trigram dengan threshold 0.0.

(15)

Berdasarkan Tabel 4 model trigram memiliki hasil pencarian lebih baik dari model bigram pada setiap nilai threshold. Namun terdapat kueri dari model bigram yang memiliki nilai AVP lebih baik dari model trigram pada nilai threshold 0.1. Kueri tersebut adalah kripto.

Hal tersebut disebabkan oleh jumlah elemen dari array yang dibentuk oleh model bigram dan trigram pada dokumen SMS dari kueri tersebut sedikit. Jumlah elemen array yang sedikit berakibat pada pula hasil perhitungan ukuran kesamaan dice coefficient yang melihat jumlah elemen array yang sama antara dokumen SMS dan kueri. Selain itu panjang array SMS dan kueri juga sangat mempengaruhi karena jumlah elemen array yang sama antar SMS dan kueri akan dibagi dengan panjang array SMS dan kueri. Semakin sedikit jumlah elemen array yang sama dan panjang array SMS dan kueri semakin panjang maka ukuran kesamaan yang dihasilkan semakin kecil.

Penggunaan nilai threshold yang berbeda juga berpengaruh terhadap kinerja sistem. Hal tersebut disebabkan karena nilai threshold yang semakin kecil akan menampilkan hasil pencarian yang lebih banyak dimana terdapat beberapa dokumen yang relevan yang memiliki nilai kecil mendekati 0.0 yang disebabkan oleh panjang dokumen SMS. Hal ini menyebabkan kinerja sistem menurun pada nilai threshold yang semakin besar.

Pengembangan Sistem

Pada tahap pengembangan sistem ini, seluruh tahapan dari mulai normalisasi, proses N-gram, perhitungan dice coefficient, dan pemeringkatan dokumen diadopsi dan diimplementasikan menggunakan bahasa

pemrograman Android. Dalam

implementasinya, sistem ini tidak hanya mampu mencari SMS sesuai dengan kueri yang diberikan, namun juga terdapat beberapa fitur tambahan, yaitu:

1 Read, pengguna dapat melihat isi dari SMS dari hasil pencarian secara keseluruhan dengan menekan layar pada device yang terkait dengan SMS yang ingin dilihat. Sistem akan mengeluarkan tampilan dialog box yang berisi isi SMS tersebut yang terlihat pada Lampiran 11.

2 Reply & forward SMS, setelah melihat isi SMS secara keseluruhan, pengguna

juga dapat membalas atau meneruskan SMS tersebut. Dengan menekan tombol reply atau forwad yang ada pada dialog box seperti pada Lampiran 12 dan Lampiran 13. 3 Send SMS, pengguna dapat mengirim

SMS setelah membalas atau meneruskan isi SMS dengan menekan tombol send pada dialog box.

SIMPULAN DAN SARAN

Simpulan

Berdasarkan penelitian yang telah dilakukan, dapat disimpulkan bahwa sistem mesin pencari SMS berhasil menerapkan metode N-gram yang menggunakan model bigram dan trigram. Akurasi hasil model trigram lebih besar dibanding model bigram untuk 661 dokumen SMS yang terbagi menjadi 364 dokumen SMS inbox dan 297 dokumen SMS sent item, dengan model bigram 49.6% dan model trigram 80.8%. Saran

Pada peneletian ini belum menggunakan indexing pada kueri dan dokumen SMS dan hanya menggunakan metode N-gram dan ukuran kesamaan dice coefficient, maka pada penelitian selanjutnya disarankan :

1 Menggunakan metode ukuran kesamaan yang lain seperti soundex atau Damerau-levenstein-Metric serta ukuran kesamaan jaccard coefficient untuk melihat berbagai perbandingan dari metode ukuran kesamaan pada sistem pencarian SMS. 2 Diharapkan adanya proses indexing dan

penggunaan stopword serta pemakaian karakter spasi, koma, titik, dan karakter lainnya yang pada penelitian ini dianggap kurang representatif untuk melihat perbandingan kinerja sistem dari penelitian sebelumnya.

DAFTAR PUSTAKA

Angell RC, Freund GE, Willett P. 1983. Automatic spelling correction using a trigram similarity Measure. Information Processing & Management.19(4):255-261.

Baeza-Yates R, Ribeiro-Neto B. 1999. Modern Information Retrieval. New York: Addison Wesley.

(16)

8

Spelling Errors. Communications of the ACM. 7:171-176.

Majumder P, Mitra M, Chaudhuri BB. 2002. N-gram: A Language Indpendent Approach to IR and NLP. International Conference on Universal Knowledge and Language (ICUKL). 1:1-7.

Manning CD, Raghavan P, Schutze H. 2008. Introduction to Information Retrieval. Cambridge: Cambridge University Press Peterson JL. 1980. Computer program for

detecting and correcting spelling erorrs. Communications of the ACM. 23:676-687.

Rahmawan F. 2011. Implementasi Question Answering System pada dokumen bahasa Indonesia menggunakan metode N-gram. [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Salton G. 1989. Automatic Text Processing: The Transformation, Analysis, and Retrieval of Information by Computer. Boston: Addison-Wesley.

(17)
(18)

10

Lampiran 1 Daftar kueri uji dan dokumen yang relevan

Kueri Uji Dokumen Relevan

Jarkom

dok52, dok55, dok81, dok90, dok96, dok172, dok208, dok239,dok243,dok247, dok291, dok292, dok297, dok303, dok325, dok347, dok384, dok387, dok388,dok391, dok399, dok404,dok408, dok437, dok463, dok467, dok504,dok505, dok520, dok549, dok 659

Kripto dok52,dok55,dok69,dok70,dok238,dok242,dok243,dok244,dok292,dok336,dok34 7,dok384,dok399,dok400,dok482,dok517,dok518,dok520,dok528

Ppcd dok102,dok123,dok129,dok142,dok225,dok325,dok370,dok391,dok482,dok494 Analgor dok3,dok4,dok7,dok206,dok208,dok386,dok481,dok482,dok493,dok504

Basket dok53,dok54,dok93,dok94,dok297,dok304,dok348,dok357,dok358,dok378,dok37 9,dok381,dok467,dok547,dok549

Tki dok3,dok4,dok172,dok289,dok298,dok299,dok326,dok482,dok496,dok511,dok51 2,dok567,dok578,dok608,dok620,dok626

Makrab dok36,dok208,dok228,dok259,dok265,dok267,dok280

Transfer dok74,dok82,dok83,dok131,dok137,dok176,dok183,dok185,dok286,dok288,dok2 90,dok472,dok486,dok538,dok555

Kosan

dok19,dok20,dok27,dok30,dok66,dok68,dok87,dok88,dok114,dok187,dok236,dok 237,dok257,dok279,dok339,dok344,dok353,dok374,dok389,dok410,dok414,dok4 16,dok447,dok450,dok462,dok506,dok554,dok576,dok605,dok606,dok609,dok62 1,dok623,dok639,dok640

(19)

Lampiran 2 Contoh dokumen SMS pengujian <SMSes count="661">

<SMS protocol="0" address="+6285718489781" date="1319420715198" type="2" subject="null" body="Iyah dah prnah baca gw,,bisa klo ada ios nya mah hahaha" toa="null" sc_toa="null" service_center="null" read="1" status="0" locked="0" date_sent="null" />

<SMS protocol="0" address="+6285718489781" date="1319420777689" type="1" subject="null" body="Kagak bisa ngoding di ipad kiiiii&#10;huwaaaa" toa="null" sc_toa="null" service_center="+62816124" read="1" status="-1" locked="0" date_sent="null" />

<SMS protocol="0" address="+6285718489781" date="1319420804300" type="2" subject="null" body="Gadein ipad lw buat beli macbook lalalalala" toa="null" sc_toa="null" service_center="null" read="1" status="0" locked="0" date_sent="null" />

<SMS protocol="0" address="+6285718489781" date="1319420842680" type="1" subject="null" body="Aaaaaaak" toa="null" sc_toa="null" service_center="+62816124" read="1" status="-1" locked="0" date_sent="null" />

<SMS protocol="0" address="085718489781" date="1319589001951" type="2" subject="null" body="Lw SMS apa mank ras?" toa="null" sc_toa="null" service_center="null" read="1" status="0" locked="0" date_sent="null" />

(20)

12

Lampiran 3 Hasil keluaran sistem trec_eval bigram 0.1 Variabel output Nilai Interpolasi

num_q num_ret num_rel num_rel_ret

map gm_ap R-prec bpref recip_rank ircl_prn.0.00 ircl_prn.0.10 ircl_prn.0.20 ircl_prn.0.30 ircl_prn.0.40 ircl_prn.0.50 ircl_prn.0.60 ircl_prn.0.70 ircl_prn.0.80 ircl_prn.0.90 ircl_prn.1.00

(21)

Lampiran 4 Hasil keluaran sistem trec_eval trigram 0.05 Variabel output Nilai Interpolasi

num_q num_ret num_rel num_rel_ret

map gm_ap R-prec bpref recip_rank ircl_prn.0.00 ircl_prn.0.10 ircl_prn.0.20 ircl_prn.0.30 ircl_prn.0.40 ircl_prn.0.50 ircl_prn.0.60 ircl_prn.0.70 ircl_prn.0.80 ircl_prn.0.90 ircl_prn.1.00

(22)

14

Lampiran 5 Hasil keluaran sistem trec_eval bigram 0.05 Variabel output Nilai Interpolasi

num_q num_ret num_rel num_rel_ret

map gm_ap R-prec bpref recip_rank ircl_prn.0.00 ircl_prn.0.10 ircl_prn.0.20 ircl_prn.0.30 ircl_prn.0.40 ircl_prn.0.50 ircl_prn.0.60 ircl_prn.0.70 ircl_prn.0.80 ircl_prn.0.90 ircl_prn.1.00

10 2149

(23)

Lampiran 6 Hasil keluaran sistem trec_eval trigram 0.0 Variabel output Nilai Interpolasi

num_q num_ret num_rel num_rel_ret

map gm_ap R-prec bpref recip_rank ircl_prn.0.00 ircl_prn.0.10 ircl_prn.0.20 ircl_prn.0.30 ircl_prn.0.40 ircl_prn.0.50 ircl_prn.0.60 ircl_prn.0.70 ircl_prn.0.80 ircl_prn.0.90 ircl_prn.1.00

(24)

16

Lampiran 7 Hasil keluaran sistem trec_eval bigram 0.0 Variabel output Nilai Interpolasi

num_q num_ret num_rel num_rel_ret

map gm_ap R-prec bpref recip_rank ircl_prn.0.00 ircl_prn.0.10 ircl_prn.0.20 ircl_prn.0.30 ircl_prn.0.40 ircl_prn.0.50 ircl_prn.0.60 ircl_prn.0.70 ircl_prn.0.80 ircl_prn.0.90 ircl_prn.1.00

10 3479

(25)

Lampiran 8 Daftar AVP pada pengujian model bigram dengan threshold 0.1

Kueri Uji Titik Recall

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

Jarkom 1.000 1.000 1.000 0.583 0.237 0.000 0.000 0.000 0.000 0.000 0.000

Kripto 1.000 1.000 1.000 1.000 1.000 0.500 0.000 0.000 0.000 0.000 0.000

Ppcd 1.000 1.000 1.000 1.000 0.642 0.642 0.642 0.642 0.642 0.642 0.000

Analgor 1.000 1.000 1.000 1.000 0.833 0.833 0.667 0.212 0.000 0.000 0.000

Basket 1.000 1.000 1.000 1.000 0.461 0.333 0.132 0.000 0.000 0.000 0.000

Tki 0.200 0.131 0.131 0.131 0.000 0.000 0.000 0.000 0.000 0.000 0.000

Makrab 1.000 1.000 1.000 1.000 0.187 0.000 0.000 0.000 0.000 0.000 0.000

Transfer 1.000 1.000 1.000 1.000 0.700 0.667 0.600 0.550 0.500 0.189 0.189

Kosan 1.000 1.000 1.000 1.000 1.000 0.758 0.758 0.675 0.432 0.000 0.000

Kolokium 1.000 1.000 1.000 1.000 0.667 0.151 0.126 0.126 0.126 0.126 0.126

Rata-rata interpolasi

maksimum 0.920 0.913 0.871 0.716 0.5648 0.388 0.292 0.220 0.170 0.095 0.031

(26)

18

Lampiran 9 Daftar AVP pada pengujian model trigram dengan threshold 0.1

Kueri Uji Titik Recall

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

Jarkom 1.000 1.000 0.889 0.857 0.812 0.000 0.000 0.000 0.000 0.000 0.000

Kripto 1.000 1.000 1.000 1.000 0.800 0.667 0.000 0.000 0.000 0.000 0.000

Ppcd 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.889 0.889 0.000 0.000

Analgor 1.000 1.000 1.000 1.000 1.000 1.000 0.875 0.875 0.000 0.000 0.000

Basket 1.000 1.000 1.000 1.000 1.000 1.000 0.000 0.000 0.000 0.000 0.000

Tki 1.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000

Makrab 1.000 1.000 1.000 1.000 1.000 0.000 0.000 0.000 0.000 0.000 0.000

Transfer 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.923 0.923 0.736 0.000

Kosan 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.965 0.000 0.000

Kolokium 1.000 1.000 1.000 1.000 1.000 1.000 0.846 0.000 0.000 0.000 0.000

Rata-rata interpolasi

maksimum 1.000 0.900 0.889 0.885 0.861 0.667 0.472 0.368 0.277 0.073 0.000

(27)

Lampiran 10 Daftar AVP pada pengujian model bigram dengan threshold 0.05

Kueri Uji Titik Recall

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

Jarkom 1.000 0.583 0.476 0.467 0.237 0.178 0.177 0.167 0.142 0.000 0.000

Kripto 1.000 1.000 1.000 1.000 1.000 0.500 0.205 0.205 0.142 0.000 0.000

Ppcd 1.000 1.000 1.000 1.000 0.642 0.642 0.642 0.642 0.642 0.642 0.000

Analgor 0.750 0.750 0.750 0.750 0.714 0.714 0.600 0.205 0.714 0.714 0.417

Basket 1.000 1.000 1.000 1.000 0.461 0.333 0.132 0.075 0.075 0.000 0.000

Tki 0.200 0.132 0.132 0.132 0.116 0.116 0.116 0.000 0.000 0.000 0.000

Makrab 1.000 1.000 1.000 0.187 0.187 0.027 0.000 0.000 0.000 0.000 0.000

Transfer 1.000 1.000 1.000 0.700 0.700 0.667 0.600 0.550 0.550 0.189 0.189

Kosan 1.000 1.000 1.000 1.000 1.000 0.758 0.758 0.675 0.675 0.288 0.168

Kolokium 1.000 1.000 1.000 0.667 0.583 0.151 0.126 0.126 0.126 0.126 0.126

Rata-rata interpolasi

maksimum 0.895 0.888 0.846 0.691 0.564 0.408 0.336 0.265 0.277 0.196 0.092

(28)

20

Lampiran 11 Daftar AVP pada pengujian model trigram dengan threshold 0.05

Kueri Uji Titik Recall

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

Jarkom 1.000 1.000 0.889 0.857 0.823 0.700 0.700 0.667 0.657 0.000 0.000

Kripto 1.000 1.000 1.000 1.000 0.800 0.684 0.684 0.667 0.000 0.000 0.000

Ppcd 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.900 0.900 0.900 0.000

Analgor 1.000 1.000 0.833 0.833 0.833 0.833 0.778 0.778 0.409 0.409 0.312

Basket 1.000 1.000 1.000 1.000 1.000 1.000 0.692 0.578 0.545 0.000 0.000

Tki 1.000 1.000 0.857 0.857 0.000 0.000 0.000 0.000 0.000 0.000 0.000

Makrab 1.000 1.000 1.000 1.000 0.363 0.363 0.000 0.000 0.000 0.000 0.000

Transfer 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.923 0.923 0.736 0.000

Kosan 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.965 0.864 0.000

Kolokium 1.000 1.000 1.000 1.000 1.000 1.000 0.674 0.894 0.894 0.894 0.894

Rata-rata interpolasi

maksimum 1.000 1.000 0.957 0.954 0.845 0.758 0.674 0.640 0.529 0.380 0.120

(29)

Lampiran 12 Daftar AVP pada pengujian model bigram dengan threshold 0.0

Kueri Uji Titik Recall

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

Jarkom 1.000 1.000 0.583 0.467 0.237 0.178 0.177 0.167 0.142 0.111 0.086

Kripto 1.000 1.000 1.000 1.000 1.000 0.500 0.205 0.205 0.142 0.000 0.000

Ppcd 1.000 1.000 1.000 1.000 0.642 0.642 0.642 0.642 0.642 0.642 0.357

Analgor 0.750 0.750 0.750 0.750 0.714 0.714 0.600 0.205 0.071 0.071 0.041

Basket 1.000 1.000 1.000 1.000 0.461 0.333 0.132 0.075 0.075 0.046 0.041

Tki 0.200 0.131 0.131 0.131 0.116 0.116 0.116 0.111 0.111 0.087 0.000

Makrab 1.000 1.000 0.667 0.176 0.176 0.027 0.019 0.019 0.019 0.019 0.019

Transfer 1.000 1.000 1.000 0.700 0.700 0.667 0.600 0.550 0.500 0.189 0.189

Kosan 1.000 1.000 1.000 1.000 1.000 0.758 0.758 0.675 0.675 0.288 0.168

Kolokium 1.000 1.000 1.000 0.667 0.583 0.151 0.126 0.126 0.126 0.126 0.126

Rata-rata interpolasi

maksimum 0.895 0.888 0.813 0.690 0.563 0.408 0.337 0.278 0.226 0.158 0.103

(30)

22

Lampiran 13 Daftar AVP pada pengujian model trigram dengan threshold 0.0

Kueri Uji Titik Recall

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

Jarkom 1.000 1.000 0.889 0.857 0.823 0.700 0.700 0.667 0.657 0.604 0.484

Kripto 1.000 1.000 1.000 1.000 0.800 0.684 0.684 0.667 0.615 0.000 0.000

Ppcd 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.909 0.909 0.909 0.909

Analgor 1.000 1.000 0.833 0.833 0.833 0.833 0.778 0.778 0.409 0.409 0.312

Basket 1.000 0.800 0.800 0.800 0.800 0.800 0.600 0.523 0.500 0.368 0.288

Tki 1.000 1.000 0.857 0.857 0.857 0.842 0.842 0.842 0.842 0.842 0.842

Makrab 1.000 1.000 1.000 1.000 1.000 0.363 0.291 0.291 0.291 0.291 0.291

Transfer 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.923 0.923 0.736 0.000

Kosan 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.965 0.864 0.795

Kolokium 1.000 1.000 1.000 1.000 1.000 1.000 0.894 0.894 0.894 0.894 0.894

Rata-rata interpolasi

maksimum 1.000 0.980 0.939 0.936 0.913 0.822 0.779 0.749 0.700 0.592 0.481

(31)

Lampiran 14 Antarmuka halaman utama sistem pencarian SMS

Lampiran 15 Antarmuka hasil pencarian

Lampiran 16 Antarmuka read SMS

(32)

24

Gambar

Gambar 1 Tahapan pembangunan sistem.
Tabel 1  Relevant dan retrieved dokumen
Tabel 3 Contoh hasil keluaran sistem trec_eval   trigram 0.1
Gambar 4 Grafik recall precision bigram dan trigram dengan threshold 0.05.

Referensi

Dokumen terkait

1 Penerapan sensor turbidity pada sistem pemonitor penyaringan limbah cair sudah sesuai dengan tujuan yaitu mendeteksi tingkat kekeruhan limbah cair.. Melalui perhitungan

3.6 Menganalisis kebutuhan beban / bandwidth   jaringan 4.6 Menyajikan hasil analisis kebutuhan beban/bandwidth   jaringan 3.6.1 Menjelaskan kebutuhan bandwidth  untuk komunikasi

Volume kupasan tanah pucuk yang sangat besar (5.608.643,0 m 3 ) memiliki arti sangat penting karena tanah yang dikupas tersebut merupakan tanah subur dibanding tanah

Sudirman Hasan, Wakaf Uang Perspektif Fiqih, Hukum Positif, dan Manajemen (Malang: UIN MALIKI PRESS, 2011), 22.. Dalam paradigma baru sekarang ini wakaf bukan hanya pada barang

Penelitian ini bertujuan untuk : (1) menganalisis perubahan penggunaan lahan pada periode tahun 1998 dan 2008 di Kabupaten Bandung Barat, (2) menganalisis perubahan penggunaan

Pada ibu hamil gangguan pola tidur sering dirasakan saat kehamila n Trimester II dan III, hal tersebut terjadi karena perubahan adaptasi fisiolo gis dan

Min keseluruhan item adalah 3.64 dengan sebanyak 50.9 % responden bersetuju bahawa faktor minat, rakan sebaya, ibu bapa dan kemudahan yang disediakan mempengaruhi penglibatan

Rencana Tata Ruang Wilayah Kota/Rencana Umum Tata Ruang Kawasan Perkotaan adalah sebagai pedoman untuk:.  Perumusan kebijakan pokok pemanfaatan ruang di Wilayah