BAB 4 IMPLEMENTASI DAN PENGUJIAN SISTEM
5.2 Saran
Aplikasi dari Sistem Pencarian Informasi Buku perlu dikembangkan lagi agar menjadi sistem yang lebih handal dan akurat dalam melakukan pencarian, berikut ini adalah beberapa saran yang dapat dilakukan :
1. Perbaiki tampilan web menggunakan AJAX dan/atau JQuery agar bisa menghemat bandwidth.
2. Gunakan algoritma stemming lain yang memiliki tingkat akurasi lebih tinggi dari algoritma Nazief & Adriani.
3. Gunakan sistem paging pada halaman pencarian lebih lanjut, sehingga hasil pencarian tidak menumpuk pada satu halaman saja.
137
[1] Cristianini, Nello., dan Shawe, John., Support Vector Machinesand other
kernel-based learning methods. http://www.support-vector.net/references.html.
Diakses pada tanggal 1 Maret 2012.
[2] Joachims, Thorsten. (1997). Text Categorization with Support Vector
Machine : Learning with Many Relevant Features. Technical Report 23,
Universitat Dortmund, LS VIII.
[3] Hariyono, Ashari, Erwin, Muhammad., dan Wahyudi. (2005). Customer
Information Gathering Menggunakan Metode Temu Kembali Informasi Dengan
Model Ruang Vektor. ISBN: 979-756-061-6.
[4] Sommerville, Ian. "Software Engineering. 6th. Addison Wesley. 2000.
[5] B. Schcolkopf and A.J. Smola. Learning with Kernels. The MIT Press,
Cambridge, Massachusetts, 2002.
[6] V. Vapnik. The Nature of Statistical Learning Theory. Springer Verlag, 1995.
[7] Simon Haykin. Neural Network: A Comprehensive Foundation. Prentice Hall,
New Jersey, 1999.
[8] Larsen, Jan. 1998. Vector Space Model.
http://cogsys.imm.dtu.dk/thor/projects/multimedia/textmining/node5.html. Diakses pada tanggal 4 Juni 2012.
[9] T. Onoda, H. Murata, and S. Yamada, Relevance feedback with active
learning for document retrieval, in Proc. of IJCNN2003, pp. 1757–1762, 2003. [10] Witten, Ian H., Moffat, Alistair, Bell, Timothy C., Managing Gigabytes:
Compressing and Indexing Documents and Images, second edition. Morgan
Kaufmann Publishers, Academic Press, 1999.
[11] D. Harris, S. Behzad, G. C. David. Relevance Feedback using Support Vector
Machines. AT&T Research.
[12] Parmawati, Putu Tika. Kesiman, Made Windu Antara. Agustini, Ketut. Sistem
Temu Kembali Kelas Buku Untuk Menentukan Nomor Klasifikasi Buku di Perpustakaan. ISSN 2087-2658. 2010.
[13] Murad, AzmiMA., Martin, Trevor.2007.Word Similarity for Document
Grouping using Soft Computing.IJCSNS International Journal of Computer
Science and Network Security, Vol.7 No.8, August 2007, pp. 20-
27.(online).(http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.132.1750&
rep=rep1&type=pdf, diakses 19 Juni 2012).
[14] Frakes, William B and Yates, Ricardo Baeza. Information Retrieval: Data
Structures and Algorithms. 2004.
[15] Cios, Krzysztof J. Etc. Data Mining a Knowledge Discovery Approach,
Springer. 2007.
[16] Chu W. Liu Z, Mao W. Textual Document Indexing and Retrieval via
[17] Hyusein, Byurhan, Patel, Ahmad. Web Document Indexing and Retrieval,
LNCS 2588 pp. 573-579, Springer Verlag Berlin. 2003.
[18] Manning, Christopher D, Ragnavan Prabhakar, Schutze, Hinrich. Introduction
to Information Retrieval, Cambridge University Press. 2008.
[19] Document Indexing Tutorial for Information Retrieval Students and Search
Engine Marketers, http://www.miislita.com/information-retrievaltutorial/
indexing.html, 10 November 2008.
[20] Polettini, Nicola. The Vector Space Model in Information Retrieval – Term Weighting Problem. 2004.
[21] Tata, Sandeep, Patel M, Jignesh. Estimating he Selectivity of tf-idf based
Cosine Similarity edicates, Sigmod Record December 2007 Vol 36 No. 4
[22] Garcia. E. Dr. Cosine Similarity Term Weight Tutorial. 2006. (online).
(http://www.miislita.com/information-retrieval-tutorial/indexing.html. diakses 10
maret 2011).
[23] Nazief, Bobby dan Mirna Adriani. Confix-Stripping: Approach to Stemming
Algorithm for Bahasa Indonesia, Fakulty of Computer Science University of
Indonesia.
[24] Agusta, Ledy. Perbandingan Algoritma Stemming Porter Dengan Algoritma
Nazief & Adriani Untuk Stemming Dokumen Teks Bahasa Indonesia. 2009.
Fakultas Teknologi Informasi dari Universitas Kristen Satya Wacana Indonesia.
[25] Anonim. Information Retrieval and Extraction. 2008. (online)
[26] D.P. Bertsekas. Nonlinear Programming. Athena Scientific, Belmount,
Massachusetts, 1990.
[27] A. B. Manwar, dkk. A Vector Space Model For Information Retrieval: A
Matlab Approach. Indian Journal of Computer Science and Engineering (IJCSE).
[28] Cholifah, Purwananto. Yudhi, dan Bramantoro. Arif. Aplikasi Information
Retrieval Untuk Pembentukan Tesaurus Berbahasa Indonesia Secara Otomatis.
Institut Teknologi Sepuluh Nopember, Surabaya.
[29] Santosa. Budi. Tutorial Support Vector Machines. Institut Teknologi Sepuluh
1. DATA PRIBADI
nama : Riki Hidayat
jenis kelamin : Laki-laki
tempat, tanggal lahir : Bandung, 1 Januari 1991
agama : Islam
kewarganegaraan : Indonesia
status : Belum kawin
anak ke : Tiga dari lima bersaudara
alamat : Jl. Cibuntu Timur No.19 RT. 06/04 Kelurahan Warung Muncang Kecamatan Bandung Kulon- Bandung 40211
telepon : +62856 2407 7144
e-mail : riki.hidayat.91@gmail.com
2. RIWAYAT PENDIDIKAN
1. Sekolah Dasar : Madrasah Ibtidayah AT-Taufiq
tahun ajaran 1996-2002
2. Sekolah Menengah Pertama : SMP Negeri 10 Bandung
tahun ajaran 2002-2005
3. Sekolah Menengah Atas : SMA YWKA Bandung
Demikian riwayat hidup ini saya buat dengan sebenar-benarnya dalam keadaan
sadar dan tanpa paksaan.
Bandung,
INFORMASI BUKU
1. Jumlah buku yang semakin banyak.
2. Belum adanya sistem pencarian informasi buku untuk mempermudah atau
mempercepat pengunjung untuk melakukan pencarian buku.
3. Terbatasanya informasi mengenai identitas buku yang diketahui
pengunjung perpustakaan.
Bagaimana membangun sistem pencarian informasi buku yang dinamis,
dengan menerapkan metode vector space model dan support vector
machines.
Halaman 4
membuat suatu desain dan implementasi sistem pencarian informasi buku yang
dinamis di perpustakaan daerah provinsi Jawa Barat dengan menerapkan
metode VSM dan SVMs
Maksud
Mempermudah melakukan pencarian informasi buku dengan menggunakan
query sebagai masukan terhadap sistem.
1. Sistem akan dibangun berbasiskan website,
2. Sistem yang dibangun adalah sistem pencarian informasi buku yang ada
diperpustakaan daerah Bandung, provinsi Jawa Barat,
3. Sistem merupakan pengembangan dari http://www.bapusipda.jabarprov.go.id,
4. Sistem digunakan oleh dua kategori pengguna yaitu operator dan pengunjung situs,
5. Sistem hanya membutuhkan satu pengguna sebagai operator,
6. Informasi yang diberikan sistem yaitu berupa identitas buku (judul, pengarang, dan
golongan) dan deskripsi buku,
7. Sistem akan dibangun menggunakan bahasa pemrograman PHP dan Database
Management System MySQL.
Halaman 8
Definition
System and Software Design
Implementation and Unit Testing
Integration and System Testing
Operation and Maintenance
Halaman 9
Masukkan Query
Cek Data Buku yang Relevan
Mencari dan Memberi Peringkat Data Buku Berdasarkan Ukuran Kemiripan
Menampilkan Maksimal 10 Informasi Buku dengan Ukuran Kemiripan Tertinggi
Menampilkan Informasi Buku Hasil Klasifikasi
Mengklasifikasi Seluruh Data Buku Berdasarkan Hasil Cek Pengunjung
1. Tokenizing
2. Filtering
3. Stemming
4. Pembuatan Keyword
5. Vector Space Model (VSM)
6. Support Vector Machines (SVMs)
proses pemotongan string input berdasarkan tiap kata yang menyusunya serta
membedakan karakter-karakter tertentu yang dapat diperlakukan sebagai
pemisah kata atau bukan
Halaman 11
Dalam buku ini, ada bagian tentang pengantar dan
pengenalan TOEFL dalam buku ini ada bagian tentang pengantar dan pengenalan toefl Teks Masukkan Hasil Tokenizing
Karakter Karakter Karakter Karakter ! ~ + \ @ & = / # * { “ $ ( } „ % ) [ : ^ - ] ; ` - | . , < > ?
white space (tab, spasi, enter)
Proses mengambil kata-kata penting dari hasil tokenizing dengan cara
menghapus kata yang tidak penting (stop word).
Halaman 13 dalam buku ini ada bagian tentang pengantar dan pengenalan toefl Hasil Tokenizing buku pengantar pengenalan toefl Hasil Filtering
Halaman 14 yang sudah mampu tetapi tentang bisa di melakukannya setelah lakukan semua memang hampir baik juga lain am pernah antara setiap dan untuk ada dari seperti mendapatkan jadi punya karena telah of mr mrs …, dan lain-lain
Proses mencari kata dasar dari tiap kata hasil filtering.
Halaman 15 buku pengantar pengenalan toefl Hasil Filtering buku antar kenal toefl Hasil Stemming1. Cari kata dikamus.
2. Hapus Inflection Suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”)
3. Hapus Derivation Suffixes (“-i”, “-an” atau “-kan”)
4. Hapus Derivation Prefix (“be-”, “di-”, “ke-”, “me-”, “pe-”, “se-”, danc “te-”)
5. Melakukan Recoding
6. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal
diasumsikan sebagai root word.
Recoding
Halaman 17
5 beC1erC2... be-C1erC2... dimana C1!={‟r‟|‟l‟}
6 terV... ter-V... | te-rV...
7 terCerV... ter-CerV... dimana C!=‟r‟
8 terCP... ter-CP... dimana C!=‟r‟ dan P!=‟er‟
9 teC1erC2... te-C1erC2... dimana C1!=‟r‟
10 me{l|r|w|y}V... me-{l|r|w|y}V...
11 mem{b|f|v}... mem-{b|f|v}...
12 mempe... mem-pe...
13 mem{rV|V}... me-m{rV|V}... |me-p{rV|V}…
14 men{c|d|j|z}... men-{c|d|j|z}...
15 menV... me-nV... | me-tV
16 meng{g|h|q|k}... meng-{g|h|q|k}...
17 mengV... meng-V... | meng-kV...
18 menyV... meny-sV...
19 mempV... mem-pV... dengan V!=‟e‟
20 pe{w|y}V... pe-{w|y}V...
21 perV... per-V... | pe-rV...
22 perCAP per-CAP... dimana C!=‟r‟ dan P!=‟er‟
23 perCAerV... per-CAerV... dimana C!=‟r‟
24 pem{b|f|V}... pem-{b|f|V}...
25 pem{rV|V}... pe-m{rV|V}... | pe-p{rV|V}…
26 pen{c|d|j|z}... pen-{c|d|j|z}...
27 penV... pe-nV... | pe-tV...
28 peng{g|h|q}... peng-{g|h|q}...
29 pengV... peng-V... | peng-kV...
30 penyV... peny-sV...
31 pelV... pe-lV... kecuali “pelajar” yang menghasilkan “ajar”
32 peCerV... per-erV... dimana C!={r|w|y|l|m|n}
33 peCP... pe-CP... dimana C!={r|w|y|l|m|n} dan P!=‟er‟
34 terC1erC2... ter-C1erC2... dimana C1!=‟r‟
Awalan (prefix) Akhiran (suffix) yang dilarang
be- -i
di- -an
ke- -i, -kan
me- -an
se- -i, -kan
te- -an
Keyword yang dimaksud dalam penelitian ini adalah data buku yang
merupakan gabungan dari judul, pengarang dan deskripsi buku yang sudah
mengalami proses tokenizing, filtering dan stemming.
1. Data buku langsung diketik di form Penambahan atau Pengubahan Data
Buku tidak disarankan untuk menyalin melalui media lain, seperti Microsoft
Office.
2. Jika ada lebih dari satu pengarang maka gunakan tanda ” ; ” atau “ : ”
sebagai pemisah antara pengarang yang satu dengan yang lainnya.
3. Jika ada poin-poin dalam deskripsi gunakan tanda “ - “ sebagai tanda poin
dalam kalimat.
1. Pembobotan
2. Normalisasi
3. Ukuran Kemiripan (Cosine Similiarity)
Halaman 23
1. Reperesentasi Data
2. Pembelajaran dan Klasifikasi
Keyword
7700 peribahasa indonesia drs nur arifin chaniago bagas pratama spd tata
bahasa bahasa indonesia kenal peribahasa peribahasa kandung makna
dalam hidup itu sebab orang peribahasa sampai maksud ungkap judul 7700
peribahasa indonesia saji lengkap bahasa ringkas padat
Format SVM Light
1 1:0.239011 2:0.348346 3:0.0256246 4:0.119506 5:0.157205
6:0.157205 7:0.157205 8:0.157205 9:0.157205 10:0.157205 11:0.157205
12:0.113099 15:0.0818057 18:0.157205 19:0.157205 20:0.0974526
21:0.0696691 22:0.119506 23:0.157205 24:0.0974526 26:0.157205
27:0.119506 28:0.157205 29:0.157205 33:0.0597528 34:0.0376998
36:0.157205 37:0.157205
Halaman 25Halaman 26
d
1
)
(x
f
1
)
(x
f
1
)
(x
f
1
)
(x
f
0
)
(x
f
margin
w
w
b
1. Usecase
2. Aktivitas Optimisasi Sistem Pencarian
3. Aktivitas Pencarian Menggunakan VSM
4. Aktivitas Pencarian Menggunakan SVMs
Halaman 28 <<i ncl ude>> <<extend>> Pencari an M enggunakan Vector Space M odel Pengunj ung Operator Penyaj i an Deskri psi T am bah Data Buku Hapus Data Buku Ubah Data Buku Opti m i sasi Si stem Pencari an Support Vector M achi nes T am bah Data Gol ongan Ubah Data Gol ongan Logi n Pencari an Berdasarkan Judul Buku
Halaman 29
[Jumlah = 0]
[Jumlah > o] [Data Buku] Menekan T ombol
Optimisasi Cek Jumlah Data Buku
Membuat Index Menghitung Bobot Normalisasi Membuat Data T es Menampilkan Pesan Kesalahan
Halaman 31
[Semua Relevan atau T idak Relevan]
[Beberapa Relevan] [Data Buku]
[Semua Relevan atau T idak Relevan] [Semua Relevan atau
T idak Relevan] Men checklist
Beberapa Data Buku Relevan
Membaca Data Buku Relevan dan tidak
Relevan
Membuat Data Latih
Membuat Model File
Melakukan T es Pada Setiap Data Buku
Menampilkan Hasil Klasifikasi
Menghapus Hasil T es
Menghapus Data Latih
Menghapus Model File Menampilkan Pesan
Alpha
1. Pengujian Optimisasi Sistem Pencarian
2. Pengujian Pencarian Menggunakan Vector Space Model
3. Pencarian Menggunakan Support Vector Machines
Beta
Data Masukan Keyword
Yang Diharapkan Menghitung bobot setiap kata yang terdapat di
keyword, jika ada kata yang sama maka kata diwakili oleh satu nilai bobot saja kemudian nilai bobot
disimpan ke database
Pengamatan Sistem melakukan proses yang diharapkan
Kesimpulan [√] Diterima [ ]Ditolak
Halaman 33
Kasus dan Hasil Uji (Data Normal)
Data Masukan Bobot kata
Yang Diharapkan Membaca nilai bobot dari database kemudian ditulis dalam file text dengan format SVM Light dan diberi nama file “[idbuku]_[judul buku].txt”
Pengamatan Sistem melakukan proses yang diharapkan
Kasus dan Hasil Uji (Data Normal)
Data Masukan Deskripsi kebutuhan user (query)
Yang Diharapkan Menampilkan maksimal 10 informasi buku yang memiliki tingkat ukuran kemiripan tertinggi dengan query
Pengamatan Sistem melakukan proses yang diharapkan
Kesimpulan [√] Diterima [ ]Ditolak
Kasus Dan Hasil Uji (Data Salah) Data Masukan Kosong atau tidak diisi
Yang Diharapkan Menampilkan pesan kesalahan pencarian
Pengamatan Sistem melakukan proses yang diharapkan
Kesimpulan [√] Diterima [ ]Ditolak
Kasus dan Hasil Uji (Data Normal)
Data Masukan Beberapa data buku yang di-checklist
Yang Diharapkan Menampilkan informasi buku yang relevan terhadap data masukan dan menampilkan kembali data masukan
Pengamatan Sistem melakukan proses yang diharapkan
Kesimpulan [√] Diterima [ ]Ditolak
Kasus Dan Hasil Uji (Data Salah)
Data Masukan Semua data buku di-checklist atau tidak di-checklist
Yang Diharapkan Menampilkan pesan kesalahan pencarian lebih lanjut
Pengamatan Sistem melakukan proses yang diharapkan
Kesimpulan [√] Diterima [ ]Ditolak