Perangkingan Dokumen Berbahasa Arab Berdasarkan Susunan Posisi Kata
dari Query
1Indra Lukmana – 2Agus Zainal Arifin – 3Diana Purwitasari
Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember
Email : 1indrolm@gmail.com, 2agusza@its-sby.edu, 3diana@its-sby.edu
Abstrak
Pencarian data sederhana untuk mendapatkan informasi berdasarkan kata dan memasangkannya dengan dokumen sudah jamak di temukan pada sistem komputer saat ini, Namun pemrosesan ini memiliki banyak kelemahan seperti waktu proses yang lama, redundansi hasil, tidak sesuainya hasil dengan keinginan pengguna. Karena permasalahan-permasalahan tersebut diperlukan suatu metode untuk pencarian informasi yang efektif. Makalah ini bertujuan untuk mengaplikasikan metode perangkingan dokumen berdasarkan susunan posisi kata dari query untuk dokumen berbahasa Arab. Dengan mendasarkan perangkingan pada susunan kata dari query, hasil perangkingan akan lebih sesuai dengan konteks yang ada pada query dibandingkan dengan berdasarkan kata per kata saja. Berdasarkan uji coba perangkingan berdasarkan posisi kata dari query dapat di aplikasikan pada pencarian teks berbahasa Arab. Dengan rata-rata F-Measure sebesar 0,44 dengan rata-rata precision 0,60 dan rata-rata recall mencapai 0,38. Evaluasi hasil perangkingan ini meningkat dibandingkan dengan perangkingan kata per kata.
1 Pendahuluan
Kebutuhan untuk menemukan informasi tertentu dari data-data yang banya secara cepat tidak terbatas pada i nternet, komputer desktop pun saat ini dapat menyimpan data dalam jumlah yang sangat besar hingga multi-tera- byte. Membuka file satu persatu untuk mencari informasi jelas bukan merupakan tindakan yang efektif. Pencarian d ata sederhana untuk mendapatkan informasi b erdasarkan kata dan memasangkannya dengan dokumen dalam suatu dokumen sudah umum di temukan pada sistem komputer saat ini, proses ini biss memberikan hasil pencarian dokumen yang ditemukan pada sistem baik hasil yang relevan maupun tidak. Namun pemrosesan ini memiliki banyak kelemahan seperti waktu proses yang lama, redundansi hasil, tidak sesuainya hasil dengan keinginan pengguna [1].
Karena permasalahan-permasalahan tersebut diperlukan suatu metode untuk pencarian informasi yang efektif. Metode-metode untuk menangani masalah-masalah tersebut dibahas
dalam information retrieval (temu kembali informasi) [1][2].
Hingga saat ini pembahasan tentang temu kembali informasi paling banyak dalam bahasa Inggris, baru dewasa ini pembahasan selain dalam bahasa Inggris mulai semakin bertambah banyak. Termasuk juga bahasa Arab meskipun masih jauh dari bahasa Inggris yang telah mendominasi temu kembali informasi selama lebih dari 50 t ahun[2][4]. Salah satu alasan kurangnya pembahasan temu kembali dalam bahasa Arab adalah perbedaan struktur bahasanya dengan bahasa latin seperti bahasa Inggris[2][5].
Salah satu pembahasan temu kembali informasi yang biasa di teliti adalah tentaang perangkingan dokumen. Perangkingan dokumen ini dilakukan untuk menyediakan informasi dokumen yang sesuai dengan data yang diinginkan pengguna dari query pengguna[6][1]. Beberapa penelitian yang membahas perangkingan dokumen berbahasa Arab telah dilakukan sebelumnya, seperti: perangkingan
dengan menggunakan pencocokan N-gram terhadap kata dari query dan dokumen[7][8], menggunakan modul crawler dokumen dengan
feedback bentuk kata yang tepat[6], berdasarkan
variasi orthographic [9].
Permasalahan pada penelitian-penelitian ini adalah perangkingan dokumen dilakukan dengan melakukan perbandingan pada kata per kata (term by term). Perbandingan dokumen dengan menggunakan kata per kata memiliki beberapa kelemahan. Salah satunya dengan hanya menggunakan kata saja, konteks yang dicari kurang lengkap dibandingkan dengan query yang diberikan. Salah satu solusi masalah ini adalah dengan melakukan perbandingan dengan mendasarkan posisi kata dari query. Dengan melakukan perbandingan tersebut maka rangking dokumen yang dilakukan akan lebih sesuai dengan konteks query [10].
Pembahasan perangkingan dokumen dengan mendasarkan posisi kata dari query telah dilakukan sebelumnya pada bahasa Cina [11][10]. Penelitian-penelitian tersebut menunjukkan peningkatan hasil dengan melakukan perangkingan dengan mendasarkan posisi kata dari query dibandingkan dengan hanya mengunakan kata per kata. Hal ini dikarenakan dengan mendasarkan perangkingan pada posisi kata dari query, hasil yang dikembalikan lebih berkaitan dengan konteks dari query yang gunakan.
Oleh karena itu makalah ini dibuat untuk mengatasi masalah perangkingan kata per kata dengan menggunakan metode yang menggunakan posisi kata dari query sebagai kunci perangkingan dokumen berbahasa Arab.
2 Perangkingan Dokumen
Perangkingan dokumen menggunakan representasi vector space model dari kumpulan dataset. Dokumen dalam vector space model di representasikan dalam matriks yang berisi bobot kata pada dokumen. Bobot tersebut menyatakan
kepentingan/kontribusi kata terhadap suatu dokumen dan kumpulan dokumen. Kepentingan suatu kata dalam dokumen dapat dilihat dari frekuensi kemunculannya terhadap dokumen. Biasanya kata yang berbeda memiliki frekuensi yang berbeda. Dibawah ini terdapat beberapa metode pembobotan :
1. Term Frequency (TF)
Term frequency merupakan metode
yang paling sederhana dalam membobotkan kata. Setiap kata diasumsikan memiliki kepentingan yang proporsional terhadap jumlah kemunculan kata pada dokumen. Bobot dari kata t pada dokumen d yaitu :
𝑇𝐹(𝑑, 𝑡) = 𝑓(𝑑, 𝑡, ) ( 2.1) dimana f(d,t) adalah frekuensi kemunculan term t pada dokumen d.
2. Inverse Document Frequency (IDF)
Bila term frequency memperhatiakan kemunculan term di dalam dokumen, maka IDF memperhatikan kemunculan term pada kumpulan dokumen. Latar belakang pembobotan ini adalah term yang jarang muncul pada kumpulan dokumen sangat bernilai. Kepentingan tiap term diasumsikan memilki proporsi yang berkebalikan dengan jumlah dokumen yang mengandung term. Faktor
IDF dari term t yaitu :
𝑰𝑫𝑭(𝒕) = 𝒍𝒐𝒈(𝑵 𝒅𝒇(𝒕)⁄ ), ( 2.2) dimana N adalah jumlah seluruh dokumen, df(t) jumlah dokumen yang mengandung term t.
3. TFIDF
Perkalian antara term frequency dan
yang lebih baik. Kombinasi bobot dari
term t pada dokumen d yaitu :
𝑻𝑭𝑰𝑫𝑭(𝒅, 𝒕) = 𝑻𝑭(𝒅, 𝒕) × 𝑰𝑫𝑭(𝒕), ( 2.3)
Term yang sering muncul pada
dokumen tapi jarang muncul pada kumpulan dokumen memberikan nilai bobot yang tinggi. TFIDF akan meningkat dengan jumlah kemunculan
term pada dokumen dan berkurang
dengan jumlah term yang muncul pada dokumen [3].
Dari pembobotan tersebut di peroleh bobot kata pada dokumen. Bobot tiap kata ini merupakan representasi vektor kata pada dokumen.
Dari representasi bobot tersebut dapat dihitung nilai kemiripan suatu dokumen dengan
query. Nilai kemiripan ini biasa dihitung
dengan rumusan cosine similarity, perhitungan tingkat kemiripan ini dibuat dengan berdasar pada besar sudut kosinus antara dua vektor, dalam hal ini adalah vektor dokumen.
Karena berdasarkan kosinus sudut antara dua vektor, maka nilainya berkisar pada 0 sampai dengan 1, dimana 0 menandakan bahwa kedua dokumen tidak mirip sama sekali, dan 1 menandakan bahwa antara query dan dokumen benar-benar identik. Cosine dinyatakan sebagai berikut [17]:
[
]
[
]
, ) , ( ) , ( ) , cos( 2 2∑
∑
∑
• • = j t k k j j TFIDFd TFIDFq d t TFIDF q t TFIDF d q k ( 2.4) dimana cos(q,dj) merupakan nilai kosinusantara query dan dokumen j, sedangkan
TFIDF(tk,q) dan TFIDF(tk,dj) adalah
pembobotan TFIDF kata tk pada query dan
dokumen j. |TFIDFq| dan |TFIDFdj| adalah
panjang dari vektor query q dan dokumen. Sebagai contoh ||di||2 = (TFIDFt12+ TFIDFt22+
TFIDFt32+...+TFIDFtk2)1/2, dimana TFIDFtk
adalah bobot kata ke-tk pada vektor dokumen
di.
3 Perangkingan Berdasarkan Posisi Kata
dari Query
Perhitungan perangkingan dokumen menggunakan cosine similarity yang dibahas sebelumnya menggunakan kata per kata query (term by term). Hal ini memiliki beberapa kelemahan, misal dengan query
"
ﻪﻘﻔﻟﺍ ﺏﺎﺘﻛ
"
maka saat perhitungan menggunakan kata per kata dokumen yang mengandung kata"
ﺏﺎﺘﻛ
"
dalam jumlah yang tinggi bisa mendapat nilaisimilairity tinggi, padahal belum tentu
berhubungan dengan query
"
ﻪﻘﻔﻟﺍ ﺏﺎﺘﻛ
"
[10]. Oleh karena itu maka cosine similarity ini di kembangkan agar dapat menitikberatkan pada dokumen yang lebih berelasi dengan susunan kata dari query.Perangkingan dokumen dengan menggunakan kata dari query memerlukan tahapan berikut:
1) Melakukan perhitungan cosine similarity kata per kata
2) Menentukan kata dari query pada dokumen dan menghitung bobot.
3) Menghitung nilai rangking baru yang menitik beratkan pada penggunaan kata dari query.
3.1 9BPenentuan kata dari query pada
dokumen
Kata dari query di identifikasi dengan mencatat posisi kemunculan query pada dokumen. Posisi ini digunakan sebagai dasar susunan query untuk pembobotan.
3.2 10BPerhitungan bobot kata dari query Perhitugan bobot kata dari query dilakukan dengan menggunakan persamaan sebagai berikut:
𝑊𝑝
= �(∑𝐾𝑖=1𝑑𝑓(𝑡, 𝑑𝑖) × 𝑓(𝑖𝑑𝑓(𝑡, 𝐶) 𝑅⁄ )) 𝐾⁄ × �|𝑡|, 𝑑𝑓(𝑡, 𝑑𝑖) = �1 𝑡 ∉ 𝑑𝑖0 𝑡 ∈ 𝑑𝑖,
( 3.1) dimana K adalah jumlah dokumen hasil
pencarian kata per kata, df(t,di) jumlah dokumen yang terdapat kata dari query t pada dokumen ke-i, f(i) jumlah kemunjulan kata dari query pada dokumen ke-i, df(t,C) jumlah dokumen yang mengandung kata dari query pada corpus dataset, R jumlah dataset.
3.3 Perhitungan perangkingan berdasarkan posisi kata dari
Setelah di tentukan bobot kata dari
query maka nilai yang di dapat dari cosine similarity kata per kata di modifikasi
dengan nilai bobot pada persamaan 2.5. Nilai bobot ini di aplikasikan pada dokumen yang mengandung kata dari
query yang didapat dari query.
4 Contoh Perangkingan Dokumen Pada
Bahasa Arab
Dari beberapa teori perhitungan temu kembali informasi pada subbab sebelumnya pada Tabel 2.2 diberikan contoh perhitungan temu kembali informasi. Yang meliputi frekuensi term, pembobotan menggunakan rumus TFIDF dan perhitungan jarak menggunakan Cosine
Similairty. Misalkan diberikan beberapa
dokumen bahasa Arab yang terdiri dari dokumen 1 dampai dokumen 4 dan dicari suatu query .
Tabel 4.1 Representasi Dokumen Contoh Perhitungan
Dokumen Isi Dokumen
d1 ﺪﺠﻬﺘﻟﺍ ﺓﻼﺻ ﺔﻴﻔﻴﻛ
d2 ﺓﻼﺼﻟﺍﻭ ءﻮﺿﻮﻟﺍ ﻥﺎﻛﺭﺍﻲﻓ ﺔﻟﺎﺳﺭ
d3 ﺓﻼﺼﻟﺍ ﻥﺎﻛﺭﺃ ْﻦِﻣﻝﻭﻷﺍ ﻰﻫ ﺔﻴﻨﻟﺍ
d4 ءﻮﺿﻮﻟﺍ ﻥﺎﻛﺭﺃ ﻦﻣﻦﻛﺭ ﺱﺃﺮﻟﺍ ﺢﺴﻣ
query ﺓﻼﺼﻟﺍ ﻥﺎﻛﺭﺃ
Dari dokumen-dokumen yang terdapat pada Tabel 4.1 setelah di lakukan filtering dan
stemming diperoleh term-term dan frekuensi
kemunculannya TF sebagaimana persamaan 2.1 dalam Tabel 4.2. Dengan kolom kata dasar menunjukkan term yang telah diproses, dan kolom Frekuensi menunjukkan jumlah kemunculan term pada dokumen.
Tabel 4.2 Contoh Perhitungan Frekuensi
Term dasar Kata Frekuensi (TF)
d1 d2 d3 d4 t1 ﺔﻴﻔﻴﻛ 1 0 0 0 t2 ﺓﻼﺻ 1 1 1 0 t3 ﺪﺠﻬﺗ 1 2 0 0 t4 ﺔﻟﺎﺳﺭ 0 1 0 0 t5 ﻦﻛﺭ 0 1 1 2 t6 ءﻮﺿﻭ 0 1 0 1 t7 ﺔﻴﻧ 0 0 1 0 t8 ﻝﻭﺃ 0 0 1 0 t9 ﺢﺴﻣ 0 0 0 1 t10 ﺱﺃﺭ 0 0 0 1
Tabel 4.3 Contoh Perhitungan IDF
Term df(t) IDF t1 1 0,60 t2 3 0,12 t3 1 0,60 t4 1 0,60 t5 3 0,12 t6 2 0,30 t7 1 0,60 t8 1 0,60 t9 1 0,60 t10 1 0,60
Dari Tabel 4.2 lalu dihitung inverse document
frequency (IDF) sebagaimana dalam persamaan
2.2, dengan hasil perhitungan pada Tabel 4.3. Dengan kolom df(t) menunjukan jumlah kemunculan term pada dataset, dan IDF
menunjukan hasil perhitungan persamaan 2.2 dengan jumlah dataset 4.
Dari TF yang didapat pada Tabel 4.2 dan IDF pada Tabel 4.3 berdasarkan persamaan 2.3 diperoleh bobot term pada Tabel 4.4.
Tabel 4.4 Contoh Perhitungan TFIDF
Term TFIDF d1 d2 d3 d4 t1 0,60 0,00 0,00 0,00 t2 0,12 0,12 0,12 0,00 t3 0,60 1,20 0,00 0,00 t4 0,00 0,60 0,00 0,00 t5 0,00 0,12 0,12 0,25 t6 0,00 0,30 0,00 0,30 t7 0,00 0,00 0,60 0,00 t8 0,00 0,00 0,60 0,00 t9 0,00 0,00 0,00 0,60 t10 0,00 0,00 0,00 0,60
Dari hasil perhitungan bobot pada Tabel 4.4 maka selanjutnya dapat dicari jarak kemiripan antara query terhadap dokumen d1, d2, d3, dan
d4 menggunakan cosine similarity sebagaimana
ditunjukkan pada persamaan 2.4.
Untuk menentukan nilai cosine similarity tersebut diperlukan dua langkah. Yang pertama menghitung perkalian vektor antara query dan dokumen, dan yang kedua menghitung dotproduct dari query dan dokumen.
Berdasarkan persamaan 2.4 diperoleh hasil perkalian vektor sebagaimana diperlihatkan pada Tabel 4.5. Dengan kemunculan term pada query dianggap sebagai bobot query pada kolom Wq, kolom perkalian vektor q denan dokumen adalah perkalian antara vektor bobot term query dengan bobot term dokumen i dan baris jumlah adalah hasil perkalian vektor TFIDF term dokumen dengan bobot query.
Tabel 4.5 Contoh Perhitungan Perkalian Vektor
Term query Perkalian vektor q dengan dokumen
d1 d2 d3 d4 t1 0 0 0 0 0 t2 1 0,12 0,12 0,12 0 t3 0 0 0 0 0 t4 0 0 0 0 0 t5 1 0 0,12 0,12 0,25 t6 0 0 0 0 0 t7 0 0 0 0 0 t8 0 0 0 0 0 t9 0 0 0 0 0 t10 0 0 0 0 0 Jumlah 0,12 0,25 0,25 0,25
Setelah itu berdasarkan permaan 2.4 juga dihitung dot product (perkalian titik) dari query dan dokumen. Dengan kemunculan term pada
query dianggap sebagai bobot query dan dengan
bobot TFIDF pada Tabel 4.4, maka diperoleh hasil perkalian titik sebagaimana Tabel 4.6 pada kolom perkalian titik.
Tabel 4.6 Contoh Hasil Perkalian Titik
Dokumen Perkalian Titik
d1 1,21
d2 1,96
d3 1,23
d4 1,33
Dari hasil perkalian vektor pada Tabel 4.5 dan akar jumlah kuadrat bobot dari Tabel 4.6 selanjutnya dapat ditentukan Cosine Distance berdasarkan persamaan 2.4 sebagai berikut.
• Cos(query,d1) = 0.12/1.21 = 0.08
• Cos(query,d2) = 0.25/1.96 = 0.25
• Cos(query,d3) = 0,25/1.23 = 0,15
• Cos(query,d4) = 0.25/1,33 = 0.17
Dari hasil perhitungan tersebut maka di dapatkan jarak dari query ke dokumen d1,d2, d3 dan d4 yang dapat di lihat pada Tabel 4.7.
Tabel 4.7 Hasil cosine similarity
Rank dokumen Cosine
2 d4 0,17
3 d3 0,15
4 d1 0,08
Karena rentang nilai Cosine Similary antara 0 sampai 1 ya ng artinya 0 dok umen yang dihitung jaraknya tidak mirip sama sekali sedangkan 1 mengindikasikan dokumen tersebut identik / mirip. Dari Tabel 4.7 dapat disimpulkan query paling dekat dengan dokumen d2.
5 Contoh Perangkingan Berdasarkan
Susunan Posisi Kata dari Query
Dari contoh dokumen untuk perhitungan cosine
similarity pada Tabel 4.1 Representasi Dokumen
Contoh Perhitungan. Dan hasil perhitungan Tabel 4.7. di hitung bobot kata dari query dengan t adalah kata dari query pada Tabel 4.1. Berdasarkan persamaan 2.5 maka diperoleh hitungan sebagai berikut:
Dengan K = 4 dan di adalah dokumen yang mengandung kata dari query t: ∑𝐾𝑖=1𝑑𝑓(𝑡, 𝑑𝑖) × 𝑓(𝑖) = (1×0)+(1×0) +(1×1) +(1×0) dengan jumlah dokumen pada dataset yang mengandung kata dari
query t: 𝑑𝑓(𝑡, 𝐶) = 1, dengan jumlah dataset
sebesar R = 4, dan dengan�|𝑡| = √2 = 1,41 Maka diperoleh Wp = 1,41
Setelah didapat Wp nilai ini dikalikan pada hasil
cosine similarity pada dokumen di Tabel 4.7 yang
mengandung kata dari query t. Maka nilai cosine
similarity baru adalah seperti pada Tabel 5.1. dari
table tersebut dapat dilihat terjadi perubahan rangking dokumen d3 da ri rangking ke-4 menjadi ke-3.
Tabel 5.1 Hasil Perhitungan Nilai Cosine Similarity Berdasarkan Posisi Kata Pada Query
Rank dokumen Cosine
1 d2 0,25
2 d3 0,21
3 d4 0,17
4 d1 0,08
Pada metode ini dokumen yang dikembalikan adalah dokumen yang benar benar mengandung susunan kata pada query. Sehingga yang di kembalikan kepada pengguna adalah dokumen d3 karena mengandung susunan kata sesuai query yang diberikan pengguna.
6 Uji Coba
Data yang digunakan dalam uji coba ini merupakan corpus atau kumpulan dokumen teks berbahasa Arab, yang diambil dari 20 kitab dalam perangkat lunak Maktabah Syamilah. halaman kitab-kitab sebagai suatu dokumen. Jumlah total dokumen dari seluruh kitab tersebut adalaha 6642 dokumen. Tiap dokumen tersebut terdiri dari rata-rata 426 kata. Dan dari seluruh dokumen dataset tersebut terdapat 24.833 kata bebeda (distincnt
term).
Data uji perangkingan pada aplikasi dalam Makalah ini berupa dokumen berisi teks bahasa Arab yang diambil dari kitab pada perangkat lunak
Maktabah Syamilah. Dokumen-dokumen inilah
yang nanti akan diproses dari tahap preprocessing, penghapusan stopword, pembentukan kata dasar, hingga proses perangkingan itu sendiri
Uji pertama dilakukan untuk melihat keterkaitan antara metode perangkingan dokumen berdasarkan posisi kata dari query dengan perangkingan dokumen berdasarkan kata per kata.
Pelaksanaan uji coba ini dilakukan dengan memasukkan query satu kata setelah itu di dapat dokumen-dokumen yang dianggap relevan dengan
query tersebut. Pada uji coba ini digunakan query
sebanyak tiga seperti terlihat pada.
Dari uji coba pertama ini diperoleh hasil temu kembali yang sama baik untuk perangkingan berdasarkan posisi kata dari query maupun perangkingan dokumen berdasarkan kata per kata sebagaimana Tabel 6.1.
Hasil seperti ini didapatkan karena penggunaan
query satu kata saja tidak merubah rangking cosine similarity. Perubahan rangking dilakukan dengan
pembobotan kata dari query pada persamaan WP dilakukan pada dokumen yang berisi kata dari
query. Dengan query yang hanya satu kata saja
maka modifikasi score cosine similarity ini dilakukan pada seluruh hasil temu kembali. Sehingga rangking yang di hasilkan tidak sama dengan rangking awal sebelum modifikasi
Tabel 6.1 Hasil temu kembali pencarian satu kata
Rank Q1 Q2 Q3 Kitab Halaman Kitab Halaman Kitab Halaman 1 22 225 13 85 8 362 2 22 225 22 4887 17 155 3 22 5826 22 4887 1 637 4 22 5826 22 48 8 145 5 22 242 22 4646 22 296 6 22 242 22 48 22 296 7 22 231 22 4646 16 215 8 22 231 15 133 1 285
Uji coba kedua dilakukan untuk mengetahui keberhasilan proses perangkingan dokumen bahasa Arab berdasarkan posisi kata pada query. Keberhasilan proses perangkingan ini bisa dilihat pada hasil evaluasi dengan perhitungan recall,
precission,dan F-Measure.
Pelaksanaan uji coba ini dilakukan dengan memasukkan query dua kata setelah itu di dapat dokumen-dokumen yang dianggap relevan dengan
query tersebut. Disini di uji cobakan query
sebanyak sebelas seperti yang terdapat pada Tabel 6.2.
Tabel 6.2 Query Uji Coba II
Query Isi Relevan
Q1 ءﻮﺿﻮﻟﺍ ﺾﺋﺍﺮﻓ 6 Q2 ءﻮﺿﻮﻟﺍ ﻦﻨﺳ 23 Q3 ﺓﻼﺼﻟﺍ ﻥﺎﻛﺭﺍ 17 Q4 ﺓﻼﺼﻟﺍ ﻦﻨﺳ 14 Q5 ﻪﻌﻤﺠﻟﺍ ﺓﻼﺻ 14 Q6 ﺮﻄﻔﻟﺍ ﺓﺎﻛﺯ 16 Q7 ﻝﺎﻤﻟﺍ ﺓﺎﻛﺯ 13 Q8 ﻉﻮﻄﺘﻟﺍ ﺓﻼﺻ 11 Q9 ﻦﻳﺪﻴﻌﻟﺍ ﺓﻼﺻ 18 Q10 ﻮﻬﺴﻟﺍ ﺩﻮﺠﺳ 16 Q11 ﺓﻭﻼﺘﻟﺍ ﺩﻮﺠﺳ 18
Query pada Tabel 6.2 di uji cobakan pada
perangkingan berdasarkan posisi kata dari query dan perangkingan kata perkata. Hasil temu kembali setiap query dari Tabel 6.2 dihitung nilai prescision,
recall, dan F-Measure nya, baik untuk
perangkingan berdasarkan posisi kata dari query maupun perangkingan kata per kata. Hal ini dimaksudkan untuk menganalisa performa perangkingan dokumen terhadap tiap query.
Nilai precision yang tinggi menunjukan keberhasilan pencarian dalam memberikan dokumen yang relevan pada rangkingnya. Dengan nilai 1,00 mengindikasikan pencarian berhasil memberikan dokumen relevan pada perangkingannya.
Nilai recall yang semakin tinggi menunjukan keberhasilan proses pencarian dalam mendapat dokumen yang relevan. Dengan nilai 1,00 mengindikasikan proses pencarian berhasil mendapatkan seluruh dokumen yang relevan dengan
query.
Tabel 6.3 Nilai Rata-Rata evaluasi uji coba II untuk perangkingan berdasar posisi kata
Query Precision Recall F-Measure
Q1 0,93 0,60 0,68 Q2 0,63 0,15 0,23 Q3 0,67 0,44 0,52 Q4 0,56 0,44 0,49 Q5 0,70 0,50 0,53 Q6 0,48 0,29 0,33 Q7 0,50 0,47 0,52 Q8 0,73 0,45 0,59 Q9 0,47 0,27 0,34 Q10 0,44 0,29 0,32 Q11 0,52 0,25 0,30 Rata-Rata 0,60 0,38 0,44 Tabel 6.4 Nilai Rata-Rata evaluasi uji coba II untuk
perangkingan kata per kata
Query Precision Recall F-Measure
Q1 0,36 0,52 0,37 Q2 0,76 0,33 0,42 Q3 0,44 0,32 0,36 Q4 0,13 0,13 0,13 Q5 0,32 0,24 0,26 Q6 0,46 0,30 0,33
Q7 0,46 0,42 0,42 Q8 0,43 0,46 0,43 Q9 0,46 0,30 0,34 Q10 0,37 0,27 0,29 Q11 0,67 0,36 0,43 Rata-Rata 0,44 0,33 0,34 Dari uji coba kedua metode pencarian tersebut didapati peningkatan nilai evaluasi pada perangkingan berdasarkan posisi kata dari
query.dibandingakan dengan perangkingan kata per
kata. Baik pada nilai evaluasi precision , recall, dan
F-Measure.
Nilai rata-rata keseluruhan precision meningkat dari 0,44 untuk pencarian kata perkata pada Tabel 6.4 menjadi 0,60 untuk pencarian berdasarkan posisi kata dari query pada Tabel 6.3. hal ini disebabkan modifikasi score yang digunakan pada pencaraian berdasarkan pisisi kata dari query mengakibatkan dokumen-dokumen yang lebih relevan dengan bentuk kata dari query dikembalikan pada rangking yang atas. Dibandingkan dengan pencarian kata per kata yang tidak menghiraukan susunan kata.
Peningkatan nilai evaluasi juga didapati pada nilai rata-rata keseluruhan recall yang meningkat dari 0,33 untuk pencarian kata perkata pada Tabel 6.4 menjadi 0,38 untuk pencarian berdasarkan posisi kata dari query pada Tabel 6.3. Peningkatan ini menunjukkan dokumen-dokumen yang relevan dengan query lebih banyak di kembalikan oleh perangkingan berdasarkan posisi kata dari query. Hal ini dikarenakan metode ini menggunakan susunan kata dari query dan membentuknya sebagai kata dari query, sehingga hasil temu kembali yang dihasilkan lebih sesuai dengan konteks dari query dibandinkan dengan perangkingan kata per kata.
Dengan meningkatnya hasil evaluasi precision dan recall dari perangkingan berdasarkan posisi kata dari query dibandingkan dengan perangkingan kata per kata, maka nilai rata-rata F-Measure yang dihasilkan juga meningkat. Dengan nilai rata-rata keseluruhan F-Measure perangkingan berdasarkan posisi kata dari query 0,44 pada Tabel 6.3 meningkat dari 0,34 pada Tabel 6.4 untuk perangkingan kata per kata.
7
7BKesimpulan dan Saran
Berdasarkan hasil yang didapat dari serangkaian uji coba yang telah dilakukan, maka dapat ditarik beberapa kesimpulan bahwa, perangkingan berdasarkan posisi dokumen berdasarkan posisi kata dari query dapat di aplikasikan pada pencarian teks berbahasa Arab dengan nilai rata-rata F-Measure 0,44 dengan rata-rata precision 0,60 dan rata-rata
recall mencapai 0,38. Dibandingkan dengan
perangkingan kata perkata nilai-nilai evaluasi perangkingan berdasarkan posisi kata dari query meningkat lebih tinggi.
Untuk penelitian lebih lanjut metode yang dibahas di disini dapat di palikasikan untuk pemilihan dan pembobotan kata dari query pada
query yang panjang, untuk meningkatkan
kesesuaian konteks query dengan pencarian dokumen.
8
8BDaftar Pustaka
[1] C.D. Manning, R. Prabhakar, and S. Hinrich, An Introduction to Information
Retrieval. Cambridge, England: Cambridge
University Press, 2009.
[2] A. Ibrahim El-Khair, "Arabic Information Retrieval," Information Science and
Technology, vol. 41, no. 1, pp. 505-533,
2007.
[3] G. Salton, Automatic Text Processing: the
Transformation, Analysis, and Retrieval of Information by Computer.: Addison-Wesly,
1989.
[4] M. Haidar and L. Andrew, "Information Retrieval from Full-Text Arabic Databases: Can Search Engines Designe for English Do the Job?," Libri, vol. 51, pp. 63-74, 2001.
[5] L.S. Leah and B. Lisa, "Improving Stemming for Arabic Information Retrieval: Light Stemming and Co-occurrence Analysis," Special Interest
Group on Information Retrieval, pp.
275-282, 2002.
[6] E.A. Esraa, B.L. Nagma, and M.F. Tolba, "An Efficient Rangking Module for an Arabic Search Engine," International
Journal of Computer Science and Network Security, vol. 10, no. 2, pp. 218-226, 2010.
[7] H.M. Suleiman, "Character Contiguity in N-gram-based Word Matching: the Case for Arabic Text Searching," Information
Processing and Management, pp. 819-827,
2005.
[8] N. Ahmad, Z.A. Agus, and P. Diana,
Makalah Jurusan Teknik Informatika dengan Judul: Implementasi N-Gram Dalam Pencarian Teks Sebagai Penunjang Aplikasi Perpustakaan Kitab Berbahasa Arab. Surabaya, Indonesia: Institut
Teknologi Sepuluh Nopember, 2011. [9] H.M. Suleiman, "Arabic String Searching
in the Context of Character Code Standards and Orthographic Variations," Computer
Standards and Interfaces, vol. 20, pp.
31-51, 1998.
[10] M. Zhu, S. Shi, M. Li, and J. Wen, "Effective top-k Computation with Term Proximity Support," Information Processing & Management, vol. 45, pp.
401-412, 2008.
[11] Y. Lingpeng, J. Donghong, and L. Munkew, "Document reranking by term distribution and maximal marginal relevance for chinese information retrieval," Information Processing and