Pencarian Semantik Dokumen Berita Menggunakan Essential Dimension of Latent Semantic Indexing dengan Memakai Reduksi Fitur Document Frequency

(1)

18-27

Pencarian Semantik Dokumen Berita Menggunakan Essential Dimension

of Latent Semantic Indexing dengan Memakai Reduksi Fitur

Document Frequency dan Information Gain Thresholding

Yuita Arum Sari 1) _{, Eva Yulia Puspanigrum}2) 1, 2) _{Teknik Informatika Institut Teknologi Sepuluh Nopember}

Kampus ITS Keputih , Sukolilo, Surabaya 60111, Jawa Timur email : [email protected] 1)_{, [email protected]}2)

Abstrak

Perkembangan informasi secara digital yang bertambah, menyebabkan dimensi data bertambah besar. Teknik proses temu kembali diperlukan agar mempermudah dalam melakukan pencarian. Dimensi data yang terlalu besar menyebabkan informasi yang penting menyebar terlalu luas, sehingga menjadi kurang informatif. Seleksi fitur dengan memanfaatkan reduksi digunakan untuk menyeleksi kata yang sifatnya penting di dalam dokumen teks. Seleksi fitur yang digunakan pada penelitian ini adalah kombinasi Document Frequency (DF) thresholding, dan Information Gain (IG). Hasil kombinasi dari kedua teknik tersebut menghasilkan matriks pembobotan dengan proses seleksi kata-kata yang penting, dan proses seleksi fitur dapat membantu mengurangi waktu komputasi. Matriks hasil seleksi fitur digunakan untuk perhitungan dalam mencari dokumen yang relevan antara query dan corpus. Essential Dimension of Latent Semantic Indexing (EDLSI), digunakan untuk melakukan pencarian dokumen yang relevan secara semantik. EDLSI merupakan teknik perbaikan dari LSI, dan proses yang digunakan hampir sama dengan LSI. Pada EDLSI terdapat parameter x yang merupakan bobot faktor dimana (0<=x <=1) dan masukan k-rank yang digunakan adalah lebih kecil dibanding menggunakan LSI. Penelitian ini menggunakan dua proses pengujian, dimana pengujian pertama adalah pengujian terhadap 90 data, dan pengujian kedua menggunakan 120 data. Dari hasil pengujian didapatkan nilai Mean Average Precision (MAP) optimal ketika threshold 0.9, k-rank=2, dan x=0.7.

Kata kunci :

EDLSI, Document Frequency thresholding, Information Gain, Singular Value Decomposition

1. Pendahuluan

Pergeseran informasi berlangsung cepat dari waktu ke waktu, dimulai dari media cetak hingga saat ini teknologi penyebaran informasi telah menggunakan digital. Salah satu contoh penyebaran informasi melalui teknik digital adalah berita digital. Perkembangan berita digital setiap hari akan bertambah, berbanding lurus dengan banyaknya dimensi data, sehingga sistem pencarian diperlukan untuk mencari informasi yang relevan antara corpus dengan query [1].

Dimensi data yang besar menyebabkan proses komputasi juga besar, oleh karena itu teknik reduksi dimensi diadopsi, agar dapat mengurangi waktu komputasi. Yang dan Pedersen [2] melakukan percobaan mengenai feature selection pada kategorisasi teks. Feature selection merupakan teknik reduksi dimensi yang digunakan untuk memperkecil matriks data dengan memperhatikan informasi kata penting yang perlu diproses. Yang dan Pedersen menggunakan teknik reduksi dimensi Document Frequency (DF) thresholding, Information Gain (IG), Mutual Information (MI), Chi square, dan Term Strengt (TS). Hasil percobaan menunjukkan bahwa akurasi IG paling bagus, namun IG, DF thresholding , dan chi square masih tergolong bagus hasilnya dibandingkan dengan teknik reduksi dimensi yang lain.

Penelitian Lailil dan Baharuddin [3] menggunakan Document Frequency (DF) thresholding dalam melakukan pengelompokan dokumen menggunakan SVD dan FCM. Sementara pada penelitian Samat, Murat, Abdullah, dan Atan [4] menggunakan teknik reduksi dimensi Singular Value Decomposition dalam melakukan pengelompokan dokumen teks berbahasa Malaysia. Teknik reduksi dimensi dengan menggunakan SVD digunakan untuk mereduksi berdasarkan sifat concept-space dimana teknik matematis SVD digunakan dalam LSI/LSA untuk mengelompokkan atau melakukan pencarian yang sifatnya semantik.

Terdapat kelemahan dalam LSA yaitu eksekusi waktu untuk komputasi ketika mendokomposisi matriks dengan menggunakan SVD. Pengurangan dimensi matriks membutuhkan waktu yang cukup lama dikarenakan pengaruh nilai masukan k-rank. Pemilihan k-rank di dalam LSI sangat sensitif, jika terlalu kecil akan menghasilkan informasi yang kurang bagus, dan jika terlalu besar informasi yang didapatkan akan menurun kualitasnya serta peningkatan waktu komputasi yang boros [5]. Oleh karena itu, Kontostathis melakukan penelitian tentang LSI untuk mengatasi permasalahan mengurangi waktu komputasi saat mereduksi dimensi namun dapat meningkatkan proses temu kembali. Kontostathis menghasilkan teknik EDLSI yang menggunakan masukan k-rank yang lebih kecil dibandingkan dengan menggunakan LSI, sehingga dengan masukan k-rank yang lebih kecil dapat digunakan untuk mengurangi waktu komputasi. EDLSI juga menghasilkan hubungan keterkaitan semantik antar

(2)

18-28 kata yang lebih baik dibanding LSI. Berdasarkan uraian diatas, maka pada penelitian ini dieksplorasi untuk melakukan teknik pencarian semantik dengan menggunakan EDLSI dan menanfaatkan fitur seleksi dengan DF thresholding dan IG.

2. Tinjauan Pustaka

Tinjauan pustaka yang digunakan dalam penelitian ini diantaranya adalah materi mengenai proses temu kembali teks, text mining, inverted index, pembobotan TF-IDF ternormalisasi, Document Frequecy (DF) thresholding, Information Gain (IG) thresholding, Singular Value Decomposition (SVD), Latent Semantic Indexing (LSI), dan Essential Dimension of Latent Semantic Indexing (EDLSI).

2.1 Proses Temu Kembali Teks

Proses temu kembali teks yang lebih dikenal dengan nama text information retrieval (IR), merupakan sebuah teknik pencarian dengan menggunakan algoritma tertentu untuk mendapatkan hasil pencarian yang relevan. Ukuran umum yang digunakan untuk mengukur kualitas dari text retrieval adalah kombinasi precision dan recall [6].

2.3 Text Mining

Ilmu di dalam text mining termasuk dalam NLP. NLP atau pengolahan bahasa alami merupakan salah satu bidang ilmu Kecerdasan Buatan yang mempelajari komunikasi antara manusia dengan komputer melalui bahasa alami [7].

Text mining adalah salah satu bidang khusus dari data mining. Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannnya adalah mencari kata-kata yang dapat mewakili isi dokumen sehingga dapat dilakukan analisa keterhubngan anatar dokumen [8]. Agar dapat dikomputasikan, maka sebuah kumpulan dokumen teks harus diolah agar menjadi numerik. Teknik tersebut dinamakan preprocessing. Teknik yang terdapat dalam preprocessing yaitu case folding, stopword removal, tokenizing, dan stemming. Case foding merupakan proses untuk membuat semua teks menjadi pola yang seragam (uppercase atau lowercase). Stopword removal menghilangkan kata-kata yang dianggap tidak mempunyai kata penting. Tokenizing atau teknik parsing digunakan untuk memecah kalimat menjadi kata-kata. Selanjutnya, kata-kata tersebut diolah sehingga hanya didapatkan kata-dasar saja. Teknik tersebut dinamakan dengan stemming. Stemming yang digunakan pada penelitian ini adalah algoritma Nazief-Andriani [9].

2.3 Inverted Index

Sebuah struktur data indeks yang dibangun untuk memudahkan query pencarian. Jika kata dan

dokumen yang digunakan banyak, maka akan menghasilkan matriks dengan ukuran besar. Hal ini membutuhkan proses komputasi yang lama sehingga dibuatlah inverted index. Inverted Index merupakan struktur data berbentuk matriks, yang digunakan untuk mempermudah dalam merepresentasikan banyaknya kata yang muncul dalam dokumen teks [10].

2.4 Pembobotan TF-IDF ternormalisasi

Terdapat tiga cara untuk menghitung nilai term frequency (TF), yaitu dengan menghitung frekuensi sebagai bobot, menghitung peluang kemunculan sebagai bobot (TF tanpa ternormalisasi), dan menghitung logaritma dari banyaknya kemunculan term (TF ternormalisasi). Dari ketiga fungsi tersebut , menurut Garcia [11], TF dengan normalisasi menghasilkan nilai pembobotan yang baik, karena dapat mengurangi efek panjang dari dokumen. TF ternormalisasi dihitung sebagai berikut [11] :

(1) dimana fi,j adalah frekuensi ternormalisasi, tfi,j adalah

frekuensi kata i pada dokumen j, max tfi,j adalah

frekuensi maksimum kata i pada dokumen j. Untuk normalisasi frekuensi dalam query diberikan rumus :

(2) dimana fi,j adalah frekuensi ternormalisasi, tfi,j adalah

frekuensi kata i pada dokumen j, dan max tfi,j adalah

frekuensi maksimum kata i pada dokumen j. Sehingga, pembobotan TF-IDF pada kata i dan dokumen j dapat ditulis sebagai berikut :

(3)

dimana Wi,j adalah bobot kata i pada dokumen j , fi,j

adalah frekuensi ternormalisasi, tfi,j adalah frekuensi

kata i pada dokumen j, max tfi,j adalah frekuensi

maksimum kata i pada dokumen j, D adalah banyaknya dokumen yang diinputkan/ banyaknya dokumen dalam corpus, dan dfi adalah banyaknya dokumen yang

mengandung kata i.

Pembobotan tersebut digunakan untuk pembobotan pada corpus. Pembobotan pada query dapat ditulis sebagai berikut :

(4)

dimana Wi,j adalah bobot kata i pada dokumen j, fi,j

adalah frekuensi ternormalisasi, tfi,j adalah frekuensi kata

i pada dokumen j, max tfi,j adalah frekuensi maksimum

kata i pada dokumen j, D adalah banyaknya dokumen yang diinputkan/ banyaknya dokumen dalam corpus, dan dfi adalah banyaknya dokumen yang mengandung kata i.

2.5 DF thresholding

DF thresholding adalah teknik sederhana untuk reduksi kata. Frekuensi dokumen adalah banyaknya kata yang muncul dalam dokumen. Pada DF thresholding, menghitung frekuensi dokumen untuk setiap kata dalam

(3)

18-29 corpus dan menghapus kata-kata yang kurang batas yang telah ditentukan. Asumsi dasarnya adalah bahwa kata-kata baik non-informatif untuk prediksi kategori, atau tidak berpengaruh dalam kinerja. Pada penelitian ini digunakan teknik DF thresholding dengan cara kata yang memiliki TF>2 dan DF yang panjangnya lebih dari sama dengan setengah dokumen akan dihapus [3].

2.6 IG thresholding

IG adalah salah satu atribut pengukuran seleksi data yang digunakan untuk memilih tes pada tiap atribut. Atribut dengan IG tertinggi dipilih sebagai tes atribut dari suatu node [12]. Rumus mendapatkan IG dari sebuah matriks dokumen dapat dihitung sebagai berikut [2] :

(5)

dimana G adalah gain dari atribut, t adalah kata, maka G(t) adalah gain dari kata. c adalah kategori, dan p adalah nilai peluang kata terhadap kategori. Semakin besar nilai IG (w), semakin besar diskriminatif kekuatan w kata. Untuk corpus dokumen yang berisi n dokumen dan kata-kata d, kompleksitas perhitungan gain informasi adalah O (n · d · k) [13].

2.7 SVD

SVD adalah metode aljabar linier [14] yang memecah matriks A (terms-documents) berdimensi t x d menjadi tiga matriks USV. U adalah matriks kata terms) berukuran t x r, S adalah matriks diagonal berisi nilai skalar (eigen values) berdimensi r x r, dan r ditentukan sebelumnya, dan V adalah matriks dokumen berukuran r x d. Dekomposisi nilai singular dari matriks A dinyatakan sebagai A = USVT_{, seperti yang} diilustrasikan pada gambar 2.1.

SVD dapat mereduksi dimensi dari matriks A dengan cara mengurangi ukuran r dari matriks diagonal S. Pengurangan dimensi dari matriks S dilakukan dengan cara mengubah semua nilai diagonal matriks S menjadi nol, kecuali untuk nilai diagonal dari dimensi yang tersisa. Pengalian ketiga matriks USVT_{akan membentuk} matriks A awal dengan nilai setiap elemennya mendekati nilai sebenarnya [15].

Gambar 2.1 Ilustrasi matriks SVD

2.8 LSI

LSI bertujuan meningkatkan efektifitas dari sistem IR dengan mengembalikan dokumen yang lebih relevan terhadap query pengguna dengan memanipulasi matriks term-document dengan menggunakan aljabar linear SVD Matriks asli biasanya sangat besar bagi sumber daya komputasi yang tersedia. Terdapat pula kemungkinan noise misalnya beberapa term yang bersifat anekdot atau terlalu jauh dari topik dokumen. Karena itu dibuat sebuah matriks baru yang lebih kecil dan bersih dari term-term yang tidak diperlukan [6].

2.9 EDLSI

EDLSI signifikan dalam meningkatkan kinerja pengambilan data yang tidak didapatkan dari LSI, dan memberikan peningkatan runtime kinerja yang lebih tinggi. EDLSI memperoleh nilai dokumen akhir dengan menghitung bobot LSI tradisional menggunakan nilai kecil untuk k-rank dan nilai bobot dari vector space. Hasilnya vektor perhitungan adalah:

(6)

dimana x adalah bobot faktor ( 0≤ ≤ 1) dan input k-rank adalah kecil. Di dalam penelitian Kontostathis, pengaturan parameter k-rank = 10 dan x = 0,2 terlihat memberi hasil yang konsisten baik. EDLSI dapat meningkatkan rata-rata kinerja dalam teknik pengambilan sebanyak 12% dari bobot dengan menggunakan vektor secara konvensional. Perbaikan signifikan atas LSI juga mencatat dalam banyak kasus. LSI mengungguli EDLSI untuk k-rank = 10 dan x = 0,2 hanya pada dua dataset kecil. EDLSI membutuhkan runtime perfomance yang lebih kecil dibandingkan dengan LSI [5].

2.10 Tipe Evaluasi

Precision, recall, dan F-Measure merupakan kumpulan evaluasi untuk mengetahui keakuratan sistem temu kembali secara unranked retrieval, atau dengan pengembalian dokumen tanpa perangkingan. Tipe evaluasi yang digunakan untuk mengevaluasi sistem temu kembali dengan ranked retrieval pada penelitian ini digunakan Mean Average Precission (MAP). Dalam konteks sistem temu kembali, dokumen yang dikembalikan dengan memasukkan top-k dokumen yang retrieved. Average Precission (AP) hanya mengambil nilai presisi dari dokumen-dokumen yang relevan dan kemudian hasilnya dibagi dengan jumlah dokumen yang dilibatkan [16]. Pengukuran dari MAP merupakan hasil perhitungan rata-rata dokumen relevan yang retrieved dari setiap query yang terlibat di dalam sistem, sedangkan dokumen yang tidak relevan nilainya adalah 0 [17]. Rumus dari Mean Average Precission adalah sebagai berikut [18]:

(7) dimana nilai Q merupakan kumpulan query atau menyatakan banyaknya query yang diinputkan qj € Q

{d1,……dmj} dan Rjk adalah nilai precission dari kumpulan

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 1 1 1 ( ) log | log | ~ |~ log |~ m i i i m i i i m i i i G t p c p c p t p c t p c t p t p c t p c t = = = = − + +

∑

(4)

18-30 file lirik lagu retrieved dan relevan yang telah diranking. Nilai MAP mempunyai rentang nilai 0 sampai 1, dan dalam sebuah sistem dikatakan baik jika nilai MAP mendekati 1 [18].

3. Metode Penelitian

3.1 Analisis Data

Dataset yang digunakan adalah dokumen berita dari http://kompas.com/. Dataset yang diambil dikumpulkan menjadi satu dengan format file yang sifatnya plain text. Data yang diambil meliputi 3 kategori dan 4 kategori. Pada pengujian 3 kategori data yang digunakan dalam corpus ada 90 data dengan masing-masing kategori berisi 30 file. Pada pengujian dengan 4 kategori, jumlah data dalam file corpus ada 120 data dengan masing-masing data berisi 30 file. Data corpus dan query yang diolah hanya konten berita saja tanpa melibatkan judul berita.

3.2 Perancangan Sistem secara Umum

Dokumen berita yang terletak dalam corpus dan query mengalami teknik preprocessing terlebih dahulu. Teknik preprocessing digunakan untuk mengubah data teks menjadi data numerik sehingga bisa dikomputasikan. Teknik preprocessing sering digunakan di dalam dunia text mining. Teknik preprocessing meliputi case folding, filtering, stemming dan tokenizing, sebagaimana telah dijelaskan dalam subbab 2.2. Teknik preprocessing dilakukan pada dokumen corpus dan query. Diagram alir sistem secara umum terdapat pada gambar 3.1.

Hasil teknik preprocessing pada corpus dan query digunakan untuk membuat Term Document Matrix (TDM) frekuensi. Proses pembuatan TDM frekuensi pada corpus digunakan teknik inverted index sebagai mana telah dijelaskan dalam bab 2.3. Inverted index adalah struktur data yang menghasilkan matriks dimana banyaknya baris menunjukkan banyaknya kata dan banyaknya kolom merupakan representasi dari banyaknya dokumen.

Gambar 3.1 Diagram sistem secara umum

Proses TDM frekuensi digunakan untuk membuat TDM pembobotan, dimana perhitungan

pembobotan menggunakan TF-IDF dengan

ternormalisasi (normalized weighting). Pembobotan TF-IDF ternormalisasi pada corpus menggunakan persamaan 3, sedangkan pembobotan pada query menggunakan persamaan 4. Proses reduksi fitur memanfaatkan hasil dari TDM frekuensi dan menerapkan hasil proses reduksi fitur pada TDM pembobotan.

Proses reduksi fitur dengan menggunakan DF thresholding yaitu dengan cara mengambil kata-kata penting berdasarkan nilai TF yang lebih dari 2 dihapus, dan kata yang mempunyai nilai DF lebih dari sama dengan panjang dokumen juga dihapus. TF merupakan banyaknya kata yang muncul dan dalam suatu dokumen. Sedangkan DF merepresentasikan banyaknya dokumen yang mengandung kata tertentu dalam suatu kumpulan dokumen. Setelah mengalami proses seleksi fitur dengan menggunakan DF thresholding, IG dimanfaatkan untuk merangking kata-kata penting dari hasil reduksi fitur dengan DF thresholding. Hasil dari proses IG adalah kata penting yang bersifat informatif dan digunakan dalam TDM pembobotan di corpus, dengan memasukkan parameter nilai thresholding.

Matriks TDM yang telah melalui proses reduksi fitur dengan DF thresholding dan IG, didekomposisi dengan menggunakan SVD sehingga menghasilkan matriks U, S, dan VT_{. Hasil input k-rank pada} masing-masing matriks yang didekomposisi dikalikan dan menghasilkan matriks Ak. Matriks Ak disebut dengan matriks pembobotan dari LSI, sementara matriks A merupakan matriks yang dibagun dari hasil pembobotan TF-IDF ternormalisasi dengan reduksi fitur. Proses terakhir adalah menghitung EDLSI dengan persamaan yang telah disampaikan dalam persamaan 6. Hasil dari

(5)

18-31 EDLSI merupakan matriks bobot vektor yang menyatakan relevansi antara query dan corpus. Bobot tersebut diurutkan secara descending order dan diambil sebanyak top-k.

4. Hasil dan Pembahasan

Hasil pengujian dilakukan terhadap dua jenis dataset pada corpus. Dataset yang pertama berisi 90 file yang terdiri dari 3 buah kategori yaitu kategori olahraga, teknologi, dan hiburan. Dataset yang kedua berisi 120 file terdiri dari 4 kategori. Sama seperti pada dataset yang pertama, kategori yang ditambahkan adalah adalah kesehatan. Masing-masing kategori berisi 30 data plain text.

Pengujian dilakukan dengan memasukkan beberapa parameter diantaranya adalah nilai thresholding, k-rank, dan nilai x. Parameter thresholding pada uji coba digunakan nilai 0.9 dan nilai 0.5. Nilai k-rank yang diinputkan pada thresholding 0.9 adalah k-rank=10, k-rank=5, dan k-rank=2. Pada thresholding 0.5 nilai rank yang digunakan adalah k-rank=10 dan k-rank=2. Pada masing-masing k-rank nilai x yang digunakan adalah 0.2, 0.5, dan 0.7.

Tabel 3.1 Perubahan dimensi kata sebelum dan setelah mengalami thresholding

Banyak data Atribut Banyak kata

90 data Matriks Awal 3963

DF 1375

IG 0.5 1003

IG 0.9 665

120 data Matriks Awal 6136

DF 2516

IG 0.5 1701

IG 0.9 1219

Pada 90 data, nilai matriks hasil reduksi DF mencapai 35% dari matriks awal. Reduksi IG dengan threshold 0.5 dihasilkan 1003 banyak kata, menunjukkan nilai reduksi 48% dari matriks DF, dan dengan threshold 0.9 menunjukkan hasil yang signifikan mencapai 665 kata atau 71 % dari reduksi fitur DF. Dari pengujian pertama menggunakan 90 data terhadap kategori dalam reduksi fitur, menunjukkan hasil bahwa reduksi dengan menggunakan threshold 0.9 dapat mengurangi banyak dimensi kata. Pada pengujian kedua dengan menggunakan 120 data, dimensi data dengan reduksi fitur DF mempunyai nilai 41% dari matriks awal, selanjutnya nilai reduksi fitur dengan menggunakan IG dan threshold 0.5 menghasilkan 48%. Tidak terlalu menunjukkan perubahan yang signifikan antara reduksi fitur DF ke IG dengan threshold 0.5. Nilai threshold 0.9 menunjukkan hasil reduksi sebanyak 68% dari reduksi fitur DF. Sama dengan pengujian pertama, threshold 0.9 pada pengujian kedua dapat juga mengurangi banyak dimensi kata.

Nilai Average Precission (AP) yang optimal pada pengujian pertama ditunjukkan ketika threshold

gain bernilai 0.9 , k-rank = 2, dan nilai bobot vektor ( x ) adalah 0.7, yaitu mencapai 61%

Gambar 3.2 Pengujian terhadap 3 kategori

Nilai AP yang optimal pada pengujian kedua ditunjukkan ketika threshold gain bernilai 0.9 , k-rank = 2, dan nilai bobot vektor ( x ) adalah 0.7, yaitu mencapai 80%

Gambar 3.3 Pengujian terhadap 4 kategori

Hasil penelitian dengan menggunakan k-rank yang paling kecil yaitu k-rank=2 menghasilkan nilai yang lebih baik dibandingkan dengan nilai k-rank yang lain. Pada EDLSI nilai k-rank yang kecil dapat meningkatkan proses pencarian sematik, sehingga implementasi dari teori EDLSI dapat digunakan dalam penelitian ini.

Tabel 3.2 Hasil MAP

Threshold Gain k-rank x MAP

0.9 10 0.2 0.351 0.5 0.335 0.7 0.333 5 0.2 0.351 0.5 0.350 0.7 0.314 2 0.2 0.442 0.5 0.615 0.7 0.706 0.5 10 0.2 0.348 0.5 0.336 0.7 0.330 2 0.2 0.354 0.5 0.339 0.7 0.315

(6)

18-32

5. Kesimpulan dan Saran

Kombinasi reduksi fitur DF thresholding dan IG menghasilkan matriks term-document yang lebih kecil dapat meminimalkan proses komputasi. Setelah proses reduksi fitur, proses reduksi kembali terjadi ketika SVD dijalankan. Masukan k-rank pada EDLSI yang lebih kecil dibandingkan dengan menggunakan LSI, menghasilkan komputasi yang tidak besar, namun tetap mampu menunjukkan konsep semantik dari EDLSI.

Nilai threshold pada IG yang terlalu kecil mengakibatkan informasi penting terlalu banyak, sehingga bisa menimbulkan adanya noise karena ada data yang penting masih menyebar. Pada penelitian ini threshold dengan hasil yang optimal dihasilkan ketika threshold = 0.9. Berbanding terbalik dengan nilai threshold, nilai k-rank yang lebih kecil menghasilkan nilai MAP yang baik, karena pada EDLSI, Kontostathis telah membuktikan dengan adanya k-rank yang lebih kecil dapat mencapai proses pencarian yang optimal. Nilai k-rank=2 dengan threshold = 0.9 menghasilkan nilai yang lebih baik dibandingkan dengan masukan parameter yang lain, yaitu MAP sekitar 58%. Nilai bobot vektor x menghasilkan hasil akurasi yang berbeda-beda. Pada nilai MAP yang paling tinggi, nilai x yang digunakan adalah 0.7 dan menghasilkan nilai MAP 71%.

Saran yang dapat disampaikan berdasarkan hasil penelitian, yaitu pada proses preprocesing, teknik tokenizing atau parsing sebaiknya digunakan kata dan frasa, sehingga menjadi lebih informatif dalam melakukan pencarian semantik di dokumen teks. Parsing dengan menggunakan frasa dapat mengurangi redudansi dari dimensi data [19]. Selain pada parsing teknik stemming untuk Bahasa Indonesia lebih baik menggunakan algoritma perbaikan dari Nazief Andriani, sehingga akar kata yang didapatkan mempunyai hasil yang lebih baik.

Daftar Pustaka

[1] Fuhr, N, 2002, Information Retrieval-Introduction and

Survey, University of Disburg-Essen , Germany

[2] Yang, Yaming dan Pedersen, 1997, J.O, A Comparative

Study on Feature Selection in Text Categorization, School

of Computer Science, Carnegie Mellon University, USA [3] Muflikhah, Lailil, dan Baharudin, Baharum, 2009,

Document Clustering using Concept Space and Cosine Similarity Measurement, 2009 IEEE International

Conference on Computer Technology and Development [4] Samat,N.Ab, Murad, M.A.A, Abdullah, M.T, dan Atan,

R.2009. Malay Document Clustering Algorithm Based on

Singular Value Decomposition. Malaysia. Fakultas Ilmu

Komputer dan Teknologi Informasi, Universitas Putra Malaysia

[5] Kontostathis, A, 2007, Essential dimensions of Latent

Semantic Indexing (LSI), IEEE Proceedings of the 40th

Hawaii International Conference on System Sciences - 2007

[6] Cios, Krzysztof J. Etc., 2007, Data Mining A Knowledge

Discovery Approach, Springer

[7] Michael A. Covington, 1994, Natural Language

Processing for Prolog Programmers, Prentice Hall

[8] Raymond J.Mooney, 2006, 391L:Machine learning Text

Categorization. University of Texas at Austin

[9] Asian, Jelita, Wiliams, Hugh E, dan Tahaghoghi S.M.M. , 2005, Stemming Indonesian. Australia : School of Computer Science and Information Technology.

[10] Sriyasa,W, 2009, Temu Kembali Informasi : Rekonstruksi

Inverted Index dan Inplementasi Stopwords. Departemen

Ilmu Komputer.IPB

[11] Garcia,E, 2006, Tanggal akses 15 Desember 2012, Vector

Models Based on Normalized Frequencies : Improving Word Weights with Normalized Frequencies.

http://www.miislita.com/word-vector/word-vector-4.html [12] Risvik, Knut Magne, 1997, Discretization of Numerical

Attributes, Preprocessing for Machine Learning,

Norwegian University of Science and Technology-Department of Computer and Information Science [13] Anggarwal, Charu C, Zhai, ChengXiang, 2012, Mining

Text Data. Springer

[14] Bau III, David, Lloyd N. Trefethen, 1997, Numerical

Linear Algebra, Philadelphia: Society for Industrial and

Applied Mathematics

[15] GeiB, Johanna, 2008, Latent Semantic Indexing and

Information Retrieval – Aquest with Bosse. Saarbrücken:

VDM Verlag Dr. Müller Aktiengesll schaft & Co. KG [16] Strehl,A,et al, 2000, Impact of Similarity Measures on

Web-Page Clustering. Proceeding of the Workshop of

Artificial Intelligent for Web Search, 17th National Conference on Artificial Intelligence

[17] Blanken,H, Vries,Arjen P.de, Blok, Henk Ernst, dan Feng, Ling , 2007, Multimedia Retrieval. Springer Berlin Heidelberg, New York

[18] Manning, Christoper.D, Raghavan,Prabhakar, dan

Schutze, H, 2009, An Introduction to Information

Retrieval. Cambridge.England.Cambridge University Press

[19] Chen,J,et.al, 2006, Diverse Topic Phrase Extraction

through Latent Semantic Analysis, Departement of

Computer Science, IEEE

Biodata Penulis

Yuita Arum Sari, memperoleh gelar Sarjana Komputer

(S.Kom) , Program Studi Ilmu Komputer FMIPA Universitas Brawijaya, lulus Nopember tahun 2011. Saat ini penulis sedang menjalankan studi (semester pertama) Magister Komputer (M.Kom) di Teknik Informatika Institut Teknologi Sepuluh Nopemper (ITS).

Eva Yulia Puspaningrum, memperoleh gelar Sarjana

Komputer (S.Kom), Program Studi Teknik Informatika, Fakultas Teknik Industri Universitas Pembangunan Nasional (UPN) “Veteran” Jawa Timur. Saat ini penulis sedang menjalankan studi (semester pertama) Magister Komputer (M.Kom) di Teknik Informatika Institut Teknologi Sepuluh Nopemper (ITS).