BAB II
TINJAUAN PUSTAKA
2.1 Sistem Temu Kembali Informasi
Temu Kembali informasi (IR) adalah Proses, metode, dan prosedur yang digunakan untuk menyeleksi informasi yang relevan yang tersimpan dalam database.Kebutuhan akan IR datang saat koleksi dokumen mencapai ukuran dimana teknik katalog tradisional tidak lagi memadai (Sanderson, M. Croft, W.B. 2012). Banyak pihak menggunakan IR untuk menyediakan informasi ke organisasinya sendiri atau publik, informasi tersebut bisa berupa buku, jurnal ataupun dokumen lain.
Banyak sistem IR yang mengkomputasikan nilai numerik untuk tiap object di databasenya, tentang seberapa cocoknya object dengan query yang diberi oleh user, dan merankingkan hasil tersebut sesuai nilai yang didapat. Dalam perpustakaan dan arsip, temu kembali informasi biasanya untuk dokumen yang diketahui atau untuk informasi mengenai subyek tertentu, dan file biasanya katalog atau indeks, atau penyimpanan informasi berbasis komputer dan sistem pencarian, seperti katalog online atau Database bibliografi.Dalam merancang sistem tersebut, keseimbangan harus dicapai antara kecepatan, akurasi, biaya, kenyamanan, dan efektivitas.
Dari ilustrasi yang ada (gambar 2.1), tergambar jelas bagaimana cara kerja dari sistem temu kembali
1. Pengguna akan memberikan query yang merupakan apa yang ingin di cari oleh pengguna, query tersebut bisa berisi 1 term atau lebih, namun tidak boleh kosong.
2. query tersebut akan selanjutnya di proses yang meliputi pemilihan kata-kata dalam query maupun dokumen dalam pentransformasian dokumen atau query menjadi terms index.Perubahan ini bisa berupa proses stemming atau proses lainnya.
3. Namun sebelum itu, sebelum dilakukan proses pencarian oleh user, dokumen terlebih dahulu di proses oleh sistem, melalui proses indexing, tiap kata di dokumen akan di index dan dikumpulkan menjadi kumpulan index.
4. kumpulan index inilah yang akan dicocokkan dengan term index,kemudian menggunakan sebuah metode perankingan tertentu akan didapatkan dokumen-dokumen dengan nilai terbaik sesuai dengan metode perankingan, dokemen inilah yang akan diberikan kepada User.
Penjelasan di atas memberikan gambaran kerja dari Sistem Temu Kembali Informasi, dimana terdapat banyak subsistem yang harus bekerja dengan baik supaya sistem mampu menghasilkan output yang sesuai dengan keinginan pengguna, salah satu subsistem yang penting tersebut ialah proses indexing.
Indexing sendiri merupakan sebuah teknik mengindeks atau menata kata-kata dari dokumen yang disimpan supaya pada proses pencarian nanti, hal ini akan memangkas waktu pencarian dan meringankan beban komputasi sistem. Hal ini dikarenakan sistem tidak usah membandingkan query user dengan dokumen satu-persatu melainkan cukup dengan mencari apakah query yang dicari terdapat di indeks atau tidak. Contohnya, sebuah index dari ratusan dokumen bisa diquery hanya dalam beberapa detik, namun pencarian satu persatu terhadap 100 dokumen akan menghabiskan waktu berjam-jam
Gambar 2.2 Indexing dokumen
Seperti pada gambar 2, proses indexing akan mengambil seluruh kata dari dokumen yang diterima dan membuat sebuah list yang berisi kata-kata dari dokumen yang ada beserta dengan dari mana kata tersebut berasal. Informasi ini akan meningkatkan keefesienan dari waktu query sistem (Christopher, 2008).
2.2 BM25 (Best Matching 25)
BM25 merupakan sebuah metode perangkingan yang digunakan oleh search engine untuk merankingkan dokumen sesuai dengan kerelevanannya dengan query yang diterima. BM25 merupakan teknik perankingan yang didesign oleh Stephen E. Robertson, BM merupakan singkatan dari Best Match (Kecocokan terbaik).
Proses perangkingan BM25 berdasarkan jumlah query yang muncul di dokumen. Sehingga term-frequency dan juga inverse dokumen frequency digunakan dalam penghitungan BM25.Term Frequency (tf) adalah penentuan bobot term pada suatu dokumen berdasarkan jumlah kemunculannya dalam dokumen tersebut. sehingga semakin besar jumlah kemunculan suatu term (tf tinggi) dalam dokumen, semakin besar pula bobotnya dalam dokumen atau akan memberikan nilai kesesuian yang semakin besar.Inverse Document Frequency (idf) adalah pengurangan dominansi term yang sering muncul di berbagai dokumen.Hal ini diperlukan karena term yang banyak muncul di berbagai dokumen, dapat dianggap sebagai term umum (common term) sehingga tidak penting nilainya.Sebaliknya faktor kejarangmunculan kata (term scarcity) dalam koleksi dokumen harus diperhatikan dalam pemberian bobot.
Berikut merupakan rumus perankingan BM25 (Anne, 2014)
Dimana
idf (qi) adalah inverse document frequency, dimana dihitung sebagai
berikut idf(qi) = log (
𝑁−𝑑𝑓 (𝑞𝑖)+ 0,5
𝑑𝑓 (𝑞𝑖)+ 0,5 ), dimana N adalah jumlah total dokumen di koleksi dan df (qi) adalah jumlah dokumen yang memiliki
term qi paling tidak 1 buah.
-tf (qi , q) adalah term frequency yang merupakan berapa kali term qi
muncul di dokumen d
-qtf(qi,q) adalah query term frequency yang merupakan jumlah kemunculan term qi dari query q
|d|
avgdl adalah panjang dokumen d, dinormalisasi oleh panjang rata-rata dari seluruh dokumen di koleksi
k1, b dan k3, adalah parameter bebas dari BM25, biasanya k1 di set nilainya antara 1 hingga 3, b di set sekitar 0.8, dan k3 di set menjadi 0.
Contoh penggunaan rumus diatas, ialah sebagai berikut
Contoh sebuah query dimasukkan oleh pengguna yang berupa satu buah term, dimana term tersebut terdapat di 30 dokumen, dan disalah satu dokumen memiliki panjang 250 kata, terdapat 50 kali term diulangi di dokumen tersebut, dimana seluruh dokumen berjumlah 100 dan jumlah rata-rata kata di dokumen tersebut ialah 200 kata. maka nilai BM25 untuk term pada dokumen tersebut ialah
Nilai idf = log
(
100−30+ 0,5BM25 (q,d) =
0,363 .50 .2 50+1 (1−0,8 + 0,8 .250 200).
(0+1).1 0+1BM25 (q,d) =
18.22 61.22= 0.29
Maka nilai BM25 di dokumen tersebut untuk term yang digunakan ialah 0,29. Nilai tersebut merupakan nilai untuk satu term, apabila digunakan 2 term maka akan dilakukan 2 kali penghitungan seperti itu dimana yang dibedakan ialah nilai idf dan tf dan hasil keduanya akan ditambahkan. Hal ini merupakan penghitungan untuk nilai perangkingan satu dokumen, apabila diperlukan penghitungan akan dilakukan ke lebih banyak dokumen sesuai dengan ada tidaknya term yang dicari pada dokumen-dokumen yang ada.
2.3 Stemming
2.3.1 Porter Stemming
Dalam lingkungan temu kembali, index memiliki banyak kata didalamnnya. Beberapa term dalam index terkadang memiliki arti yang sama namun tercatat sebagai term-term yang berbeda, sebagai contohnya
CONNECT CONNECTED CONNECTING CONNECTION CONNECTIONS
Term-term seperti diatas apabila di gabung menjadi 1 term akan meningkatkan performa dari temu kembali (Porter, 1997). Sehingga teknik stemming dilakukan pada temu kembali untuk menghindari term-term bermakna sama.
Porter Stemming merupakan Algoritma penghilangan imbuhan pada kata berbahasa Inggris, yang digunakan untuk proses normalisasi kata yang biasanya dilakukan saat preprocessing Sistem Temu Kembali.Algoritma porter pertama akan mengidentifikasi kata berdasarkan huruf konsonan(k) dan vokal(v). Huruf a,
i, u , e , o dan y akan dianggap sebagai huruf vocal dan selain huruf-huruf tersebut dianggap konsonan. Sebuah kata yang memiliki huruf konsonan dengan panjang lebih dari 0 akan dianggap sebagai c begitu juga dengan kata yang memiliki huruf konsonan dengan panjang lebih dari 0 akan dianggap sebagai v. Contoh:
TREE = C(TR) V(EE) = CV
COMPUTER = C(C) V(O) C(MP) V(U) C(T) V(E) C(R) = CVCVCVC
Dalam algortimanya digunakan penghitungan "m" yang merupakan jumlah pengulangan VC pada tiap kata, dimana tiap kata akan diawali dengan C dan diakhiri dengan V. Jika awal dan akhir kata bukan C dan V, maka akan ditambahkan tanpa mengindahkan susunan kata, namun jika ada maka C dan V dari kata tersebut akan digunakan dalam penghitungan, berikut penghitungannya:
COMPUTER = [C] VCVCVC [V] ; m = 3
Kata COMPUTER memiliki susunan kata CVCVCVC, sehingga C awal digunakan sebagai penanda penghitungan awal. setelah itu VC terulang sebanyak 3 kali. Karena susunan diakhiri dengan huruf Konsonan (C), maka ditambahkan V penutup. (Jika huruf terakhir adalah V, Maka V tersebut yang digunakan sebagai penutup).Kemudia aturan dari algoritma porter akan ditulis berikut SSES -> SS. Hal ini berarti jika imbuhan sebuah kata adalah SSES, imbuhan tersebut akan diubah menjadi SS.Algoritma Porter sendiri memiliki 5 tahap yaitu:
1. Tahap Pertama
Adalah penghilangan plural dan past participle kata bahasa Inggris, dimana dilakukan hal berikut
Tabel 2.1 Tabel Aturan 1a Porter
Aturan Contoh
SSES -> SS caresses -> caress IES -> I ponies -> poni SS -> SS caress -> caress S -> cats -> cat
Tahap pertama memiliki beberapa langkah, diatas merupakan langkah a, selanjtunya dilakukan langkah b, berikut aturannya:
Tabel 2.2 Tabel Aturan 1b Porter
aturan contoh
(m>0) EED -> EE agreed -> agree (ada V) ED -> plastered -> plaster (ada V) ING -> motoring -> motor
Apabila aturan kedua dan ketiga dari aturan 1b terpenuhi, maka aturan berikut dijalankan
Tabel 2.3 Tabel Aturan tambahan 1b Porter aturan contoh
AT -> ATE conflat(ed) -> conflate BL -> BLE troubl(ed) -> trouble IZ -> IZE siz(ed) -> size -> E fil(ing) -> file Setelah itu dilakukan langkah terakhir seperti berikut
Tabel 2.4 Tabel Aturan 1c Porter
aturan contoh
(ada V) Y -> I happy -> happi 2. Tahap Kedua
Tabel 2.5 Tabel Aturan 2 Porter
aturan contoh
(m>0) ATIONAL -> ATE relational -> relate (m>0) TIONAL -> TION conditional -> condition (m>0) ENCI -> ENCE valenci -> valence (m>0) ANCI -> ANCE hesitanci -> hesitance (m>0) IZER -> IZE digitizer -> digitize (m>0) ABLI -> ABLE conformabli -> conformable (m>0) ALLI -> AL radicalli -> radical (m>0) ENTLI -> ENT differentli -> different (m>0) ELI -> E vileli - > vile (m>0) OUSLI -> OUS analogousli -> analogous (m>0) IZATION -> IZE vietnamization -> vietnamize (m>0) ATION -> ATE predication -> predicate (m>0) ATOR -> ATE operator -> operate (m>0) ALISM -> AL feudalism -> feudal (m>0) IVENESS -> IVE decisiveness -> decisive (m>0) FULNESS -> FUL hopefulness -> hopeful (m>0) OUSNESS -> OUS callousness -> callous (m>0) ALITI -> AL formaliti -> formal (m>0) IVITI -> IVE sensitiviti -> sensitive (m>0) BILITI -> BLE sensibiliti -> sensible
3. Tahap Ketiga
Tabel 2.6 Tabel Aturan 3 Porter
Aturan Contoh
(m>0) ICATE -> IC triplicate -> triplic (m>0) ATIVE -> formative -> form (m>0) ALIZE -> AL formalize -> formal (m>0) ICITI -> IC electriciti -> electric (m>0) ICAL -> IC electrical -> electric (m>0) FUL -> hopeful -> hope (m>0) NESS -> goodness -> good 4. Tahap Keempat
Tabel 2.7 Tabel Aturan 4 Porter
aturan contoh
(m>1) AL -> revival -> reviv (m>1) ANCE -> allowance -> allow (m>1) ENCE -> inference -> infer (m>1) ER -> airliner -> airlin (m>1) IC -> gyroscopic -> gyroscop (m>1) ABLE -> adjustable -> adjust (m>1) IBLE -> defensible -> defens (m>1) ANT -> irritant -> irrit (m>1) EMENT -> replacement -> replac (m>1) MENT -> adjustment -> adjust (m>1) ENT -> dependent -> depend (m>1) ION -> adoption -> adopt (m>1) OU -> homologou -> homolog (m>1) ISM -> communism -> commun (m>1) ATE -> activate -> activ (m>1) ITI -> angulariti -> angular (m>1) OUS ->
(m>1) IVE ->
homologous -> homolog effective -> effect (m>1) IZE -> bowdlerize -> bowdler
5. Tahap Kelima
Tabel 2.8 Tabel Aturan 5a Porter
Aturan contoh
(m>1) E -> probate -> probat
Aturan pada tabel 2.8 akan dilakukan apabila kata yang dimaksud tidak diakhiri dengan susunan kata CVC.Aturan tabel 2.9 pun dilakukan bila diakhir dengan 2 C
Tabel 2.9 Tabel Aturan 5b Porter
Aturan contoh
(m > 1) -> 1 huruf controll -> control 2.3.2 Tala Stemming
Stemmer Tala (Tala, 2003), adalah pengembangan dari algoritma stemmer porter yang merupakan algoritma stemming bahasa Inggris. Stemmer ini akan mengecek imbuhan kata dan melakukan penghilangan imbuhan tersebut untuk mendapatkan kata dasar kata tersebut. Stemmer ini dievaluasi dengan stemmer bahasa indonesia lain yaitu Nazief, dimana stemmer Tala mampu memiliki nilai presisi yang sedikit lebih baik dari Nazief. Turunan-turunan kata yang mungkin terjadi pada kata berbahasa Indonesia menurut Tala adalah :
1. Akhiran –lah, -kah, -pun, -tah.
Contoh : siapa + kah = siapakah , kamu + lah = kamulah
2. Akhiran –ku, -mu, -nya.
Contoh : buku + ku = bukuku, tv + mu = tvmu
3. Kata yang meliputi awalan + akhiran dan kombinasi dari keduanya. ber-, di-, ke-, meng-, peng-, per-, ter-.
Contoh : ber + kembang = berkembang di + puji = dipuji ke + luar = keluar meng + usik = mengusik peng + gila = penggila per + kecil = perkecil ter + lukis = terlukis
4. Turunan akhiran -i , -kan dan -an.
Contoh : kipas + i = kipasi minum + an = minuman beri + kan = berikan
5. Turunan akhiran dan awalan.
Contoh : per + luas + an = perluasan ke + kalah + an = kekalahanan ber + lari + an = berlarian meng + adil + i = mengadili
2.4 HTML5
HTML 5 merupakan bahasa yang digunakan untuk menstrukturkan dan merepresentasikan konten untuk web, dan merupakan teknologi yang digunakan di internet secara luas.HTML 5 merupakan revisi ke 5 dari standard HTML. HTML 5 dirancang untuk meningkatkan dukungan HTML terhadap multimedia dan juga membuatnya tetap mudah dimengerti oleh Manusia(T.N.Sharma, 2012).
HTML5 akan digunakan dalam penelitian ini karena, HTML 5 merupakan "state-of-the-art"dari bahasa pemprograman yang digunakan untuk pemprograman web. HTML 5 sendiri memiliki banyak peningkatan dibanding dengan HTML sebelumnnya seperti berikut:
Audio dan video adalah bagian integral dari spesifikasi HTML 5
Cache aplikasi, Database SQL web dan penyimpanan web ada sebagai penyimpanan di sisi client.
Channel Komunikasi full duplex bisa di lakukan dengan server menggunakan soket web.
Javascript bisa dijalankan di background.
DOCTYPE dibutuhkan unutk mengaktifkan mode standard untuk dokumen HTML. namun untuk HTML 5 hal ini di singkat hanya dengan menambahkan <!DOCTYPE html>
2.5 Teknik Pengujian Sistem
Pengujian sistem dilakukan pada saat sistem telah selesai dibuat, tujuan pengujian ini adalah untuk mengetes kualitas dari sistem yang telah dibuat.Terdapat 4 jenis pengujian(Everett, 2007), yaitu:
2.5.1 Pengujian Statis (Static Testing)
Sekitar 85% kecacatan perangkat lunak bisa dilihat pada fase design dari pengembangan (Software Testin, Testing Across the Entire Software Development Life Cycle), sehingga diperlukan sebuah pengujian pada fase design tersebut untuk mengurangi cacat yang ada.
Pengujian tersebut tidak dilakukan dengan memperbaiki coding yang ada, karena code dilakukan pada tahap pemprograman nantinya.Namun dengan melakukan tes dokumentasi, dikarenakan dokumentasi telah dibuat baik pada saat pengembangan dimulai, berlanjut, bahkan berakhir.Pengetesan Dokumentasi dilakukan dengan inspeksi, presentasi, walkthrough, dan pengecekkan. Seluruh teknik tersebut akan mengecek kebenaran dan kelengkapan dari dokumen yang dites. Apabila ditemukan, maka kecacatan dalam dokumen harus segera dicek untuk dikoreksi.
2.5.2 Blackbox Testing
Blackbox Testing adalah test yang dilakukan saat tester tidak memiliki source code, hanya code yang bisa dijalankan. Testing blackbox dilakukan dengan menjalankan aplikasi dan melakukan apa yang bisa dikerjakan oleh aplikasi, apa yang dilakukan dan bagaimana hasil yang diberikan aplikasi adalah hal yang diteliti.
Hal penting yang harus dilakukan pada testing ini adalah, apakah tester mengetahui hasil (benar) apa yang diharapkan dan apakah tester melakukan test dengan benar. Dari kedua hal tersebut maka bisa dilihat apabila terjadi kesalahan, apakah kesalah tersebut dikarenakan kesalahan aplikasi atau kesalahan implementasi. Dalam testing ini akan digunakan 2 metode evaluasi yaitu precision,Recall dan DCG (Discounted Cumulative Gain).
Precision dan Recall
Precision dan recall adalah penghitungan dasar untuk mengevaluasi sistem pencarian. Recall adalah rasio dari jumlah data relevan yang terambil terhadap jumlah data relevan di database. Sedangkan Precision adalah rasio dari jumlah data relevan terhadap jumlah data relevan dan tak relevan yang terambil. Kedua nilai tersebut biasanya diekspresikan dalam persen.
Sebagai contoh, sebuah database menyimpan 80 data akan sebuah topik. Sebuah pencarian data dilakukan akan topik tersebut dan 60 data terambil. Dari 60 data tersebut, 45 diantaranya relevan.
Dari contoh diatas maka:
B=Total data relevan yang tak terambil = 35 (80-45) C=Total data tak relevan yang terambil = 15 (60-45) Recall = (45 / (45 + 35)) * 100% => 45/80 * 100% = 56% Precision = (45 / (45 + 15)) * 100% => 45/60 * 100% = 75%
Discounted Cumulative Gain (DCG)
DCG adalah teknik penghitungan kualitas perangkingan. Dalam sitem temu kembali, DCG digunakan untuk menghitung keefektifan dari algoritma temu kembali, dimana dilakukan penghitungan nilai berdasarkan posisi dokumen di hasil pencarian (Jarvelin, 2002). Aturan DCG adalah apabila dokumen yang relevan muncul di urutan belakang pada list pencarian, maka akan berdampak negative terhadap nilai DCG. Berikut merupakan rumus dari DCG
Dimana reli adalah nilai urutan dari posisi i. Untuk lebih jelasnya, sebagai
contoh sebuah pencarian menghasilkan 6 dokumen, dan dilakukan penilaian kerelevanan dari 6 dokumen tersebut dengan nilai 0-3. Nilai 3 berarti dokumen tersebut sangat relevan. Nilai 1-2 berarti "berada di tengah-tengah". Dan nilai 0 berarti tidak relevan.
Dimulai dari urutan teratas hingga terbawah, penilaian menghasilkan nilai 3, 2, 3, 0, 1, 2. Yang berarti dokumen 1 memiliki nilai 3, dokumen 2 nilai 2 dan seterusnya. Sehingga nilai DCG seperti yang ditampilkan di tabel
Sehingga nilai DCG6 adalah seperti berikut
Nilai diatas jika dibandingkan dengan hasil pencarian lain, akan menghasilkan hasil yang berbeda karena ditiap pencarian bisa menghasilkan hasil yang lebih panjang atau lebih pendek. Karena itu hasil dari DCG harus dinormalisasikan menggunakan perhitungan Normalisasi DCG (nDCG).
Nilai IDCG didapat dengan mengurutkan nilai kerelevanan dari DCG yang akan dinormalisasikan, karena nilai kerelevanan contoh sebelumnnya adalah 3, 2, 3, 0, 1, 2. Jika diurutkan akan menjadi 3,3,2,2,1,0. Sehingga nilai ideal DCG(iDCG) adalah 8.69. Jadi nilai nDCG pencarian tersebut adalah 8.10/8.69 = 0.932.
2.5.3 Whitebox Testing
Whitebox testing merupakan sebuah pengetesan yang dilakukan saat source code dimiliki untuk di test, source code itu sendiri biasanya tidak berikan oleh developer kepada user atau pihak lain karena source code tersebut merupakan rahasia developer. Testing whitebox dilakukan oleh developer dengan cara mengetest tiap line dalam code satu-persatu.
Namun Hal ini akan memakan banyak waktu untuk mengetest masing-masing line, terutama jika line mencapai ribuan hingga puluhan ribu, sehingga developer terkadang harus membuat rencana testing yang mengetest kebanyakan source code secara metodis. Testing seperti inipun lebih condong ke pengujian logika karena dominannya analisis jalur logika bagaimana input yang dimasukkan di proses oleh perangkat lunak menjadi hasil-hasil yang akan diproses hingga menjadi hasil yang diinginkan. Salah satu metode whitebox yang digunakan adalah pengujian jalur/path dari logika sistem, atau disebut dengan Cyclomatic Complexity (Bray, 2007).
2.5.4 Pengujian Performa (Performance Testing)
Testing performa merupakan testing yang dilakukan apabila perangkat lunak telah berjalan dengan benar.Pengetesan ini dilakukan bukan untuk mengetes kebenaran dari sistem namun hasil dan waktu respon dari perangkat lunak.Pengetesan performa dilakukan dengan menyiapkan peralatan test. Pengetestsan menguji aplikasi mulai dari saat ia tidak bekerja (idle) hingga kesaat sedang puncak sibuk bekerja. Pengujian performa ini berbeda dengan whitebox ataupun blackbox testing, apabila kecacatan ditemukan oleh testing whitebox atau blackbox maka akan dilakukan koreksi program, namun Pengujian performa akan lebih memeriksa aplikasi untuk kemampuannya terhadap hardware, dimana kecacacatan dalam test performa akan membuat developer menyarankan pembelian hardware yang lebih memadai untuk aplikasinya.
2.6 Tinjauan Studi
Penelitian lain yang terkait yang pernah dilakukan mengenai pembuatan Sistem temu kembali antara lain:
i. Implementasi Metode Term Frequency Inverse Document Frequency (TF-IDF) Pada Sistem Temu Kembali Informasi (Atika Zafikri, 2010) Pada penelitian ini, penulis merancang pembuatan sistem temu kembali informasi dengan menggunakan tf-idf sebagai metode perankingan dokumennya.Metode tf yang digunakan oleh penulis merupakan tf murni.Sistem yang dibangun menggunakan perangkat lunak Borland Delphi 7.0.Metodologi untuk membentuk sistem menggunakan pendekatan model air terjun. Tahapan yang penulis lakukan untuk melakukan proses pembentukan sistem tersebut meliputi tahapan analisis permasalahan, perancangan aplikasi yang melibatkan diagram alir data, algoritma dan flowchart beserta desain antar muka aplikasi, sehingga aplikasi yang terbentuk menjadi mudah dipergunakan dan memiliki fungsi yang optimal.
ii. Implementasi Teknik Peringkasan Semantic Virtual Dokumen Pada Pengelompokkan Hasil Pencarian Halaman Web (Rahmani Dwiastuti, 2012)
Pada Jurnal Penelitian ini, penulis membuat sebuah sistem temu kembali yang memiliki fungsi peringkasan dokumen.Dalam penelitian ini, teknik peringkasan dokumen yang digunakan ialahmetode Semantic Virtual Document (SVD) untuk melakukan peringkasan, teknik klasterisasi berbasis hirarki Single Linkage untuk melakukan pengelompokkan.
Karena membuat sebuah sistem temu kembali informasi maka penulis melakukan uji coba terhadap beberapa metode perangkingan yang akan digunakan dalam aplikasinya, terdapat 4 Kandidat metode perankingan dalam penelitian tersebut yaitu tf-idf, Mutual Information (MI), BM25, dan LTU. Dari hasil penelitiannya BM25 merupakan salah satu metode pembobotan terbaik, yang memiliki nilai threshold yang cukup tinggi.