i Universitas Kristen Maranatha
ABSTRAK
Information retrieval (IR) system adalah sistem yang secara otomatis
melakukan pencarian atau penemuan kembali informasi yang relevan terhadap
kebutuhan pengguna. Kebutuhan pengguna, diekspresikan dalam query, menjadi
input bagi IR system dan selanjutnya IR system mencari dan menampilkan dokumen
yang relevan dengan query tersebut.
Aplikasi Cata merupakan salah satu contoh dari Information Retrieval System.
Aplikasi ini mempunyai fitur untuk menambah dan mengubah sebuah dokumen yang
ada dalam koleksi dokumen. Aplikasi ini menggunakan algoritma Generalized Vector
Space Model. Sebelum algoritma ini diterapkan, masukan yang dimasukkan oleh user
akan diproses terlebih dahulu. Pemrosesan kata meliputi pembuangan stopwords
(membuang kata depan) dan stemming (membuang awalan dan akhiran).
Aplikasi ini menampilkan dokumen – dokumen yang relevan dengan query,
sesuai dengan kemiripannya. Hasil pencarian yang ditampilkan diurutkan
berdasarkan nilai kemiripan yang paling tinggi.
ii Universitas Kristen Maranatha
ABSTRACT
Information retrieval (IR) system is a system, which is used to search and
retrieve information relevant to the user’s needs. IR system retrieves and displays
documents that are relevant to the user’s input (query).
The Cata application is one among Information Retrieval System. This
application has features such as to add and change a document which is in document
collection. There is also a feature to search the information in document collection.
This application uses Generalized Vector Space Model algorithm. Before applying
this algorithm, the query which is entered by the user will be process first. The
processing of words include the disposal of stopwords and stemming.
This application performs searching the documents which are relevant to the
queries, based on the similarities. The searching result which is ordered based on the
highest of the similarity value.
v Universitas Kristen Maranatha
2.1 PERSYARATAN ANTARMUKA EKSTERNAL ... 7
vi Universitas Kristen Maranatha
3.1.3 Information Retrieval (IR) System ... 16
3.1.4 Generalized Vector Space Model ... 18
3.2 DESAIN PERANGKAT LUNAK SECARA KESELURUHAN ... 25
3.2.1 Use Case Diagram ... 25
3.2.2 Sequence Diagram ... 29
3.2.3 Class Diagram ... 32
3.3 DESAIN ARSITEKTUR PERANGKAT LUNAK ... 33
3.3.1 Activity Diagram ... 33
3.3.2 Desain Antar Muka ... 35
BAB IV ... 41
PENGEMBANGAN SISTEM ... 41
4.1 PERENCANAAN TAHAP IMPLEMENTASI ... 41
4.1.1 Pembagian Modul / Class Implementasi ... 41
4.1.2 Keterkaitan Antar Modul / Class ... 50
4.2 PERJALANAN TAHAP IMPLEMENTASI (CODING) ... 50
4.2.1 Bottom Up Implementasi ... 50
4.2.2 Debugging ... 51
4.3 ULASAN REALISASI FUNGSIONALITAS ... 51
4.4 ULASAN REALISASI USER INTERFACE DESIGN ... 53
BAB V ... 58
TESTING DAN EVALUASI SISTEM ... 58
vii Universitas Kristen Maranatha
5.1.1 Test Case ... 58
5.1.2 Uji Fungsionalitas Modul ... 59
5.2 PERJALANAN METODOLOGI PENGUJIAN ... 60
5.2.1 Black Box ... 60
5.3 ULASAN HASIL EVALUASI ... 61
BAB VI ... 62
KESIMPULAN DAN SARAN ... 62
6.1 Keterkaitan Antara Kesimpulan Dengan Hasil Evaluasi ... 62
6.2 Keterkaitan Antara Saran Dengan Hasil Evaluasi ... 62
DAFTAR PUSTAKA ... 63
LAMPIRAN ... 64
viii Universitas Kristen Maranatha
DAFTAR GAMBAR
Gambar 2.1 Mekanisme IR system ... 8
Gambar 3.1 Bagian – bagian Information Retrieval System ... 16
Gambar 3.2 Use Case Diagram Aplikasi Cata ... 25
Gambar 3.3 Sequence Diagram Cari Kata ... 29
Gambar 3.4 Sequence Diagram Tambah Dokumen ... 30
Gambar 3.5 Sequence Diagram Ubah Dokumen ... 30
Gambar 3.6 Sequence Diagram Hapus Dokumen ... 31
Gambar 3.7 Class Diagram Aplikasi Cata ... 32
Gambar 3.8 Activity Diagram Cari kata ... 33
Gambar 3.9 Activity Diagram Tambah Dokumen ... 34
Gambar 3.10 Activity Diagram Ubah Dokumen ... 34
Gambar 3.11 Activity Diagram Hapus Dokumen ... 35
Gambar 3.12 Antarmuka Pencarian Kata ... 35
Gambar 3.13 Antarmuka Tambah Dokumen ... 36
Gambar 3.14 Antarmuka Daftar Dokumen ... 37
Gambar 3.15 Antarmuka Ubah Dokumen ... 38
Gambar 3.16 Antarmuka Hapus Dokumen ... 39
Gambar 3.17 Format Koleksi Dokumen ... 39
Gambar 4.1 Keterkaitan Modul Aplikasi Cata ... 50
ix Universitas Kristen Maranatha
DAFTAR TABEL
Tabel 2.1 Tabel fitur aplikasi ... 9
Tabel 4.1 Variabel Class WeightIndexTerm ... 42
Tabel 4.2 Pseudocode Class WeightIndexTerm ... 45
Tabel 4.3 Variabel Class DocRanker ... 46
Tabel 4.4 Pseudocode Class DocRanker ... 49
Tabel 4.5 Tabel Realisasi Fungsionalitas Aplikasi ... 52
Tabel 5.1 Test Case Aplikasi Cata ... 59
Tabel 5.2 Pengujian Black Box Aplikasi Cata ... 60
1 Universitas Kristen Maranatha
BAB I
PERSYARATAN PRODUK
1.1
PENDAHULUAN
Pada saat kita melakukan pencarian melalui search engine (google.com,
yahoo, dsb), kita bisa mendapatkan beberapa hasil, yang berupa dokumen - dokumen
yang sama atau hampir sesuai dengan kata atau query yang kita masukkan. Demikian
pula jika kita melakukan pencarian dalam aplikasi sistem informasi, seperti halnya
sistem pencarian dalam perpustakaan. Aplikasi yang dibuat adalah aplikasi yang
menggunakan algoritma IR (Information Retrieval) dengan metode Generalized
Vector Space. Information Retrieval (IR) system merupakan suatu sistem yang
membantu pengguna dalam mencari informasi di dalam dokumen - dokumen.
Beberapa sistem yang menggunakan IR system adalah aplikasi search engine, seperti
google.com dan aplikasi sistem informasi, seperti perpustakaan.
Algoritma yang dibahas menggunakan konsep ruang vektor. Masukan dari
pengguna dan dokumen – dokumen diterjemahkan menjadi vektor- vektor kemudian
vektor – vektor tersebut dikenakan operasi perkalian titik dan dan hasilnya menjadi
acuan dalam menentukan relevansi masukan pengguna (query) dengan dokumen –
dokumen.
Aplikasi ini juga didukung dengan adanya stemmer, yaitu suatu program yang
digunakan untuk memecah kata, artinya mengambil kata dasar. Program ini dibuat
untuk mempermudah perhitungan kesamaan kata pada algoritma IR.
Aplikasi ini diimplementasikan dengan menggunakan bahasa JAVA. Apabila
seorang programmer membuat software dengan berbasis bahasa Java, software
tersebut dapat dijalankan sekaligus di berbagai sistem operasi, termasuk Windows
2 Universitas Kristen Maranatha
1.1.1. Tujuan
Membuat aplikasi pencarian yang diharapkan dapat memudahkan user
untuk mencari dan mendapatkan informasi sesuai dengan query. Aplikasi ini
menerapkan Generalized Vector Space Model yang digunakan untuk
membantu aplikasi dalam mencari informasi di dalam dokumen – dokumen
berdasarkan query yang dimasukkan oleh user. Aplikasi ini juga
menggunakan stemmer, yang digunakan untuk memecah kata, yaitu
mengambil kata dasar, dengan memisahkan kata depan, kata penghubung, dan
imbuhan.
1.1.2. Ruang Lingkup Proyek
Dalam tugas akhir ini, aplikasi pencarian akan dirancang dan dibuat
dengan memanfaatkan algoritma Information Retrieval.
Kemampuan aplikasi yang akan dikembangkan tersebut adalah
•Menampilkan dokumen - dokumen yang dibutuhkan berdasarkan informasi atau query yang dimasukan oleh user.
•Melakukan pemecahan kata. Apabila query dimasukan, kata-kata yang bukan merupakan kata dasar, akan dipecah menjadi sebuah kata dasar.
Dalam hal ini, aplikasi stemmer membuang kata depan, imbuhan, kata
penghubung,dll dan hanya mengambil kata dasarnya saja.
•Menampilkan dokumen - dokumen berdasarkan kesamaan nilai yang didapat dari perhitungan hasil kali titik vektor – vektor, dan menjadi acuan
untuk menampilkan urutan dokumen sesuai dengan query yang telah
diinputkan.
1.1.3. Definisi, Akronim dan Singkatan
♦ Query : inputan atau masukan dari user
3 Universitas Kristen Maranatha
♦ Recall : ukuran performansi Information Retrieval berdasarkan banyak
dokumen yang relevan dan ter-retrieved dibagi banyak semua
dokumen relevan di koleksi dokumen
♦ Precision : ukuran performansi Information Retrieval berdasarkan banyak
dokumen yang relevan dan ter-retrieved dibagi semua
dokumen ter-retrieved
♦ Stemming : teknik membuang awalan dan akhiran dari sebuah kata untuk
memperoleh kata dasar
♦ User : pengguna
♦ JAVA : nama salah satu bahasa pemrograman
♦ input : masukan ♦ output : keluaran / hasil
♦ minterm : mewakili pola index term yang mungkin muncul dalam suatu
dokumen
1.1.4. Overview Laporan
Laporan ini berisi hal-hal yang berkaitan dengan pembuatan sebuah
produk yaitu: tujuan pembuatan produk, gambaran antarmuka produk, fungsi
produk, dsb. Selain itu juga dibahas mengenai fitur-fitur produk, batasan
desain, rancangan antarmuka produk, serta rancangan coding yang telah
disusun.
Pada bab I akan dijelaskan mengenai tujuan, ruang lingkup proyek,
definisi, akronim dan singkatan, overview laporan, selain itu terdapat pula
gambaran keseluruhan dari produk antara lain perspektif produk, fungsi
produk, karakteristik pengguna, batasan-batasan, asumsi dan ketergantungan
serta penundaan persyaratan.
Pada bab II merupakan gambaran keseluruhan dari spesifikasi produk
4 Universitas Kristen Maranatha
perangkat lunak, antarmuka komunikasi, fitur yang ada dalam aplikasi
berserta penjelasannya.
Pada bab III akan berisi identifikasi kebutuhan sistem, rancangan
sistem baru, desain perangkat lunak secara keseluruhan, desain arsitektur
perangkat lunak, komponen perangkat lunak, konsep eksekusi, dan desain
antarmuka aplikasi.
Pada bab IV akan berisi perencanaan tahap implementasi yang
meliputi pembagian Class implementasi, keterkaitan antar Class, selain itu
juga akan membahas perjalanan tahap implementasi meliputi jenis
implementasi, debugging dan membahas ulasan realisasi fungsionalitas, dan
ulasan realisasi user interface desain aplikasi.
Pada bab V akan berisi rencana pengujian sistem terimplementasi, test
case, uji fungsionalitas Class, perjalanan metodologi pengujian, white box,
black box, survey/wawancara, serta ulasan hasil evaluasi yang telah
dilaksanakan.
Pada bab VI akan berisi kesimpulan dan saran yang meliputi
keterkaitan antara kesimpulan dengan hasil evaluasi, keterkaitan antara saran
dengan hasil evaluasi serta akan membahas rencana perbaikan/implementasi
terhadap saran yang diberikan.
1.2
GAMBARAN KESELURUHAN
Aplikasi ini dirancang untuk membantu user dalam mencari informasi di dalam
sekumpulan dokumen. Dengan menggunakan Generalized Vector Space Model, yang
dapat mempermudah pencarian dalam sistem, dan dapat menilai kesamaan antara
5 Universitas Kristen Maranatha
1.2.1. Perspektif Produk
Aplikasi ini dibuat untuk membantu memudahkan pencarian informasi
dalam kumpulan dokumen, dengan menggunakan algoritma Generalized
Vector Space Model dengan metode vektor.
Term adalah query yang telah dikenai operasi teks, seperti pemotongan
kata depan, kata penghubung, dan imbuhan. Dokumen - dokumen diurutkan
dengan menggunakan rumus kesamaan. Nilai kesamaan didapat dari perkalian
vektor antara query dan masing – masing dokumen.
1.2.2. Fungsi Produk
Aplikasi ini digunakan untuk memudahkan semua pengguna dalam
mencari informasi dalam koleksi dokumen. Berbagai informasi bisa didapat
oleh pengguna dengan memasukkan kata kunci informasi yang ingin
diperoleh. Kata kunci yang dimasukkan dapat berupa kata benda atau kata
sifat.
1.2.3. Karakteristik Pengguna
Untuk menjalankan aplikasi ini diperlukan user yang mengerti
bagaimana mengoperasikan komputer, memiliki pengalaman dalam
melakukan input data. Input data adalah memasukkan kata dalam sebuah
textbox untuk mendapatkan informasi yang dibutuhkan dari sistem.
1.2.4. Batasan - Batasan
• Aplikasi yang dibuat adalah aplikasi pencarian informasi dalam koleksi dokumen dengan menggunakan metode vektor. Metode vektor
yang digunakan adalah Generalized Vector Space Model.
6 Universitas Kristen Maranatha
• Koleksi dokumen yang digunakan untuk pengujian berupa dokumen teks tanpa format. Hal ini dimaksudkan untuk menghilangkan
kebutuhan untuk mempelajari format dokumen seperti Microsoft Word
Document Format, Adobe Portable Document Format, dan lain-lain.
Software yang menunjang pembuatan program: • Microsoft Windows XP Professional SP 1 • JDK1.6
• Netbeans 5.5
1.2.5. Asumsi dan Ketergantungan
Untuk dapat menjalankan aplikasi ini diperlukan komputer yang
mempunyai Java SE Runtime Environment (JRE) 1.6
62 Universitas Kristen Maranatha
BAB VI
KESIMPULAN DAN SARAN
6.1.
Keterkaitan Antara Kesimpulan Dengan Hasil Evaluasi
Hasil akhir dari seluruh proses perancangan, pendesainan serta proses implementasi telah
menghasilkan aplikasi yang setelah dilakukan pengujian, dinilai dapat digunakan dengan baik.
Pembuatan aplikasi ini sudah mencapai tujuan utama dari aplikasi, yaitu mempermudah user
untuk mencari informasi dalam koleksi dokumen. Kesimpulan mengenai metode yang
digunakan, yaitu Generalized Vector Space Model adalah
a. Menggunakan bobot index term
b. Adanya vektor dokumen dan query
c. Perhitungan cross product menentukan kesamaan query dan dokumen
6.2.
Keterkaitan Antara Saran Dengan Hasil Evaluasi
Selain menarik kesimpulan dari hasil evaluasi juga didapatkan saran-saran untuk
pengembangan ataupun perbaikan aplikasi dimasa yang akan datang. Saran tersebut antara lain
adalah :
• Pencarian dengan metode lain untuk membandingkan kualitas metode. Ada berbagai metode dalam IR system, salah satu contohnya adalah probabilistic method.
• Fitur-fitur yang tersedia pada aplikasi ini juga diharapkan dapat lebih dilengkapi untuk meningkatkan kualitas aplikasi. Penambahan fitur untuk pilihan metode atau algoritma.
Sehingga user dapat mencari kata sesuai dengan algoritma yang diinginkan
63 Universitas Kristen Maranatha
DAFTAR PUSTAKA
Anonymus. Model Perolehan Informasi.
http://www.cs.ui.ac.id/WebKuliah/textpro/PT07-MODEL.pdf. 12 Desember
2007.
Anonymus. IR Models. http://www.cs.ui.ac.id/WebKuliah/TKSI/MIK/IRModels.doc.
12 Desember 2007.
Baeza, Ricardo, B. Ribeiro. 1999. Modern Information Retrieval. ACM press. United
States of America. 1999.
Bunyamin, Hendra. 2005. Information Retrieval System dengan Menggunakan
Metode Lantent Semantic Indexing, Tesis S2 Magister Teknik Informatika.
McLaughlin, Brett, G. Pollice, D. West. 2006. Head First Object-Oriented Analysis
and Design. O’Reilly Media, Inc. Unites States of America. 2007.
Wikipedia. 2007. Vector Space Model.
http://en.wikipedia.org/wiki/Vector_space_model. 12 Desember 2007.
Wong, S., W Ziarko, P. Wong. 1985. Generalized Vector Space Model in
Information Retrieval.
http://140.122.185.120/PastCourses/2003F-InformationRetrievalandExtraction/Present_2003F/2003F_GeneralizedVect
orSpaceModelInInformationRetrieval.pdf. 12 Desember 2007.
Wong, S., W. Ziarko, V. Raghavan. 1987. On Modeling of Information Retrieval
Concepts in Vector Spaces.
http://delivery.acm.org/10.1145/30000/22957/p299-wong.pdf. 28 Januari