Perangkingan Dokumen Berbahasa Arab Berdasarkan Susunan Posisi Kata dari Query

(1)

Perangkingan Dokumen Berbahasa Arab Berdasarkan Susunan Posisi Kata

dari Query

1_{Indra Lukmana –}2_{Agus Zainal Arifin –}3_{Diana Purwitasari}

Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember

Email : [email protected], [email protected], [email protected]

Abstrak

Pencarian data sederhana untuk mendapatkan informasi berdasarkan kata dan memasangkannya dengan dokumen sudah jamak di temukan pada sistem komputer saat ini, Namun pemrosesan ini memiliki banyak kelemahan seperti waktu proses yang lama, redundansi hasil, tidak sesuainya hasil dengan keinginan pengguna. Karena permasalahan-permasalahan tersebut diperlukan suatu metode untuk pencarian informasi yang efektif. Makalah ini bertujuan untuk mengaplikasikan metode perangkingan dokumen berdasarkan susunan posisi kata dari query untuk dokumen berbahasa Arab. Dengan mendasarkan perangkingan pada susunan kata dari query, hasil perangkingan akan lebih sesuai dengan konteks yang ada pada query dibandingkan dengan berdasarkan kata per kata saja. Berdasarkan uji coba perangkingan berdasarkan posisi kata dari query dapat di aplikasikan pada pencarian teks berbahasa Arab. Dengan rata-rata F-Measure sebesar 0,44 dengan rata-rata precision 0,60 dan rata-rata recall mencapai 0,38. Evaluasi hasil perangkingan ini meningkat dibandingkan dengan perangkingan kata per kata.

1 Pendahuluan

Kebutuhan untuk menemukan informasi tertentu dari data-data yang banya secara cepat tidak terbatas pada i nternet, komputer desktop pun saat ini dapat menyimpan data dalam jumlah yang sangat besar hingga multi-tera- byte. Membuka file satu persatu untuk mencari informasi jelas bukan merupakan tindakan yang efektif. Pencarian d ata sederhana untuk mendapatkan informasi b erdasarkan kata dan memasangkannya dengan dokumen dalam suatu dokumen sudah umum di temukan pada sistem komputer saat ini, proses ini biss memberikan hasil pencarian dokumen yang ditemukan pada sistem baik hasil yang relevan maupun tidak. Namun pemrosesan ini memiliki banyak kelemahan seperti waktu proses yang lama, redundansi hasil, tidak sesuainya hasil dengan keinginan pengguna [1].

Karena permasalahan-permasalahan tersebut diperlukan suatu metode untuk pencarian informasi yang efektif. Metode-metode untuk menangani masalah-masalah tersebut dibahas

dalam information retrieval (temu kembali informasi) [1][2].

Hingga saat ini pembahasan tentang temu kembali informasi paling banyak dalam bahasa Inggris, baru dewasa ini pembahasan selain dalam bahasa Inggris mulai semakin bertambah banyak. Termasuk juga bahasa Arab meskipun masih jauh dari bahasa Inggris yang telah mendominasi temu kembali informasi selama lebih dari 50 t ahun[2][4]. Salah satu alasan kurangnya pembahasan temu kembali dalam bahasa Arab adalah perbedaan struktur bahasanya dengan bahasa latin seperti bahasa Inggris[2][5].

Salah satu pembahasan temu kembali informasi yang biasa di teliti adalah tentaang perangkingan dokumen. Perangkingan dokumen ini dilakukan untuk menyediakan informasi dokumen yang sesuai dengan data yang diinginkan pengguna dari query pengguna[6][1]. Beberapa penelitian yang membahas perangkingan dokumen berbahasa Arab telah dilakukan sebelumnya, seperti: perangkingan

(2)

dengan menggunakan pencocokan N-gram terhadap kata dari query dan dokumen[7][8], menggunakan modul crawler dokumen dengan

feedback bentuk kata yang tepat[6], berdasarkan

variasi orthographic [9].

Permasalahan pada penelitian-penelitian ini adalah perangkingan dokumen dilakukan dengan melakukan perbandingan pada kata per kata (term by term). Perbandingan dokumen dengan menggunakan kata per kata memiliki beberapa kelemahan. Salah satunya dengan hanya menggunakan kata saja, konteks yang dicari kurang lengkap dibandingkan dengan query yang diberikan. Salah satu solusi masalah ini adalah dengan melakukan perbandingan dengan mendasarkan posisi kata dari query. Dengan melakukan perbandingan tersebut maka rangking dokumen yang dilakukan akan lebih sesuai dengan konteks query [10].

Pembahasan perangkingan dokumen dengan mendasarkan posisi kata dari query telah dilakukan sebelumnya pada bahasa Cina [11][10]. Penelitian-penelitian tersebut menunjukkan peningkatan hasil dengan melakukan perangkingan dengan mendasarkan posisi kata dari query dibandingkan dengan hanya mengunakan kata per kata. Hal ini dikarenakan dengan mendasarkan perangkingan pada posisi kata dari query, hasil yang dikembalikan lebih berkaitan dengan konteks dari query yang gunakan.

Oleh karena itu makalah ini dibuat untuk mengatasi masalah perangkingan kata per kata dengan menggunakan metode yang menggunakan posisi kata dari query sebagai kunci perangkingan dokumen berbahasa Arab.

2 Perangkingan Dokumen

Perangkingan dokumen menggunakan representasi vector space model dari kumpulan dataset. Dokumen dalam vector space model di representasikan dalam matriks yang berisi bobot kata pada dokumen. Bobot tersebut menyatakan

kepentingan/kontribusi kata terhadap suatu dokumen dan kumpulan dokumen. Kepentingan suatu kata dalam dokumen dapat dilihat dari frekuensi kemunculannya terhadap dokumen. Biasanya kata yang berbeda memiliki frekuensi yang berbeda. Dibawah ini terdapat beberapa metode pembobotan :

1. Term Frequency (TF)

Term frequency merupakan metode

yang paling sederhana dalam membobotkan kata. Setiap kata diasumsikan memiliki kepentingan yang proporsional terhadap jumlah kemunculan kata pada dokumen. Bobot dari kata t pada dokumen d yaitu :

𝑇𝐹(𝑑, 𝑡) = 𝑓(𝑑, 𝑡, ) ( 2.1) dimana f(d,t) adalah frekuensi kemunculan term t pada dokumen d.

2. Inverse Document Frequency (IDF)

Bila term frequency memperhatiakan kemunculan term di dalam dokumen, maka IDF memperhatikan kemunculan term pada kumpulan dokumen. Latar belakang pembobotan ini adalah term yang jarang muncul pada kumpulan dokumen sangat bernilai. Kepentingan tiap term diasumsikan memilki proporsi yang berkebalikan dengan jumlah dokumen yang mengandung term. Faktor

IDF dari term t yaitu :

𝑰𝑫𝑭(𝒕) = 𝒍𝒐𝒈(𝑵 𝒅𝒇(𝒕)⁄ ), ( 2.2) dimana N adalah jumlah seluruh dokumen, df(t) jumlah dokumen yang mengandung term t.

3. TFIDF

Perkalian antara term frequency dan

(3)

yang lebih baik. Kombinasi bobot dari

term t pada dokumen d yaitu :

𝑻𝑭𝑰𝑫𝑭(𝒅, 𝒕) = 𝑻𝑭(𝒅, 𝒕) × 𝑰𝑫𝑭(𝒕), ( 2.3)

Term yang sering muncul pada

dokumen tapi jarang muncul pada kumpulan dokumen memberikan nilai bobot yang tinggi. TFIDF akan meningkat dengan jumlah kemunculan

term pada dokumen dan berkurang

dengan jumlah term yang muncul pada dokumen [3].

Dari pembobotan tersebut di peroleh bobot kata pada dokumen. Bobot tiap kata ini merupakan representasi vektor kata pada dokumen.

Dari representasi bobot tersebut dapat dihitung nilai kemiripan suatu dokumen dengan

query. Nilai kemiripan ini biasa dihitung

dengan rumusan cosine similarity, perhitungan tingkat kemiripan ini dibuat dengan berdasar pada besar sudut kosinus antara dua vektor, dalam hal ini adalah vektor dokumen.

Karena berdasarkan kosinus sudut antara dua vektor, maka nilainya berkisar pada 0 sampai dengan 1, dimana 0 menandakan bahwa kedua dokumen tidak mirip sama sekali, dan 1 menandakan bahwa antara query dan dokumen benar-benar identik. Cosine dinyatakan sebagai berikut [17]:

[

]

[

]

, ) , ( ) , ( ) , cos( 2 2

_∑

∑

• • = j t k k j j TFIDFd TFIDFq d t TFIDF q t TFIDF d q k ( 2.4) dimana cos(q,dj) merupakan nilai kosinus

antara query dan dokumen j, sedangkan

TFIDF(tk,q) dan TFIDF(tk,dj) adalah

pembobotan TFIDF kata tk pada query dan

dokumen j. |TFIDFq| dan |TFIDFdj| adalah

panjang dari vektor query q dan dokumen. Sebagai contoh ||di||2 = (TFIDFt12+ TFIDFt22+

TFIDFt32+...+TFIDFtk2)1/2, dimana TFIDFtk

adalah bobot kata ke-tk pada vektor dokumen

di.

3 Perangkingan Berdasarkan Posisi Kata

dari Query

Perhitungan perangkingan dokumen menggunakan cosine similarity yang dibahas sebelumnya menggunakan kata per kata query (term by term). Hal ini memiliki beberapa kelemahan, misal dengan query

"

ﻪﻘﻔﻟﺍ ﺏﺎﺘﻛ

"

maka saat perhitungan menggunakan kata per kata dokumen yang mengandung kata

"

ﺏﺎﺘﻛ

"

dalam jumlah yang tinggi bisa mendapat nilai

similairity tinggi, padahal belum tentu

berhubungan dengan query

"

ﻪﻘﻔﻟﺍ ﺏﺎﺘﻛ

"

[10]. Oleh karena itu maka cosine similarity ini di kembangkan agar dapat menitikberatkan pada dokumen yang lebih berelasi dengan susunan kata dari query.

Perangkingan dokumen dengan menggunakan kata dari query memerlukan tahapan berikut:

1) Melakukan perhitungan cosine similarity kata per kata

2) Menentukan kata dari query pada dokumen dan menghitung bobot.

3) Menghitung nilai rangking baru yang menitik beratkan pada penggunaan kata dari query.

3.1 9BPenentuan kata dari query pada

dokumen

Kata dari query di identifikasi dengan mencatat posisi kemunculan query pada dokumen. Posisi ini digunakan sebagai dasar susunan query untuk pembobotan.

3.2 10BPerhitungan bobot kata dari query Perhitugan bobot kata dari query dilakukan dengan menggunakan persamaan sebagai berikut:

(4)

𝑊𝑝

= �(∑𝐾𝑖=1𝑑𝑓(𝑡, 𝑑𝑖) × 𝑓(𝑖_{𝑑𝑓(𝑡, 𝐶) 𝑅}_⁄ )) 𝐾⁄ × �|𝑡|, 𝑑𝑓(𝑡, 𝑑𝑖) = �1 𝑡 ∉ 𝑑𝑖_{0 𝑡 ∈ 𝑑𝑖},

( 3.1) dimana K adalah jumlah dokumen hasil

pencarian kata per kata, df(t,di) jumlah dokumen yang terdapat kata dari query t pada dokumen ke-i, f(i) jumlah kemunjulan kata dari query pada dokumen ke-i, df(t,C) jumlah dokumen yang mengandung kata dari query pada corpus dataset, R jumlah dataset.

3.3 Perhitungan perangkingan berdasarkan posisi kata dari

Setelah di tentukan bobot kata dari

query maka nilai yang di dapat dari cosine similarity kata per kata di modifikasi

dengan nilai bobot pada persamaan 2.5. Nilai bobot ini di aplikasikan pada dokumen yang mengandung kata dari

query yang didapat dari query.

4 Contoh Perangkingan Dokumen Pada

Bahasa Arab

Dari beberapa teori perhitungan temu kembali informasi pada subbab sebelumnya pada Tabel 2.2 diberikan contoh perhitungan temu kembali informasi. Yang meliputi frekuensi term, pembobotan menggunakan rumus TFIDF dan perhitungan jarak menggunakan Cosine

Similairty. Misalkan diberikan beberapa

dokumen bahasa Arab yang terdiri dari dokumen 1 dampai dokumen 4 dan dicari suatu query .

Tabel 4.1 Representasi Dokumen Contoh Perhitungan

Dokumen Isi Dokumen

d1 ﺪﺠﻬﺘﻟﺍ ﺓﻼﺻ ﺔﻴﻔﻴﻛ

d2 ﺓﻼﺼﻟﺍﻭ ءﻮﺿﻮﻟﺍ ﻥﺎﻛﺭﺍﻲﻓ ﺔﻟﺎﺳﺭ

d3 ﺓﻼﺼﻟﺍ ﻥﺎﻛﺭﺃ ْﻦِﻣﻝﻭﻷﺍ ﻰﻫ ﺔﻴﻨﻟﺍ

d4 ءﻮﺿﻮﻟﺍ ﻥﺎﻛﺭﺃ ﻦﻣﻦﻛﺭ ﺱﺃﺮﻟﺍ ﺢﺴﻣ

query ﺓﻼﺼﻟﺍ ﻥﺎﻛﺭﺃ

Dari dokumen-dokumen yang terdapat pada Tabel 4.1 setelah di lakukan filtering dan

stemming diperoleh term-term dan frekuensi

kemunculannya TF sebagaimana persamaan 2.1 dalam Tabel 4.2. Dengan kolom kata dasar menunjukkan term yang telah diproses, dan kolom Frekuensi menunjukkan jumlah kemunculan term pada dokumen.

Tabel 4.2 Contoh Perhitungan Frekuensi

Term _dasarKata Frekuensi (TF)

d1 d2 d3 d4 t1 ﺔﻴﻔﻴﻛ 1 0 0 0 t2 ﺓﻼﺻ 1 1 1 0 t3 ﺪﺠﻬﺗ 1 2 0 0 t4 ﺔﻟﺎﺳﺭ 0 1 0 0 t5 ﻦﻛﺭ 0 1 1 2 t6 ءﻮﺿﻭ 0 1 0 1 t7 ﺔﻴﻧ 0 0 1 0 t8 ﻝﻭﺃ 0 0 1 0 t9 ﺢﺴﻣ 0 0 0 1 t10 ﺱﺃﺭ 0 0 0 1

Tabel 4.3 Contoh Perhitungan IDF

Term df(t) IDF t1 1 0,60 t2 3 0,12 t3 1 0,60 t4 1 0,60 t5 3 0,12 t6 2 0,30 t7 1 0,60 t8 1 0,60 t9 1 0,60 t10 1 0,60

Dari Tabel 4.2 lalu dihitung inverse document

frequency (IDF) sebagaimana dalam persamaan

2.2, dengan hasil perhitungan pada Tabel 4.3. Dengan kolom df(t) menunjukan jumlah kemunculan term pada dataset, dan IDF

(5)

menunjukan hasil perhitungan persamaan 2.2 dengan jumlah dataset 4.

Dari TF yang didapat pada Tabel 4.2 dan IDF pada Tabel 4.3 berdasarkan persamaan 2.3 diperoleh bobot term pada Tabel 4.4.

Tabel 4.4 Contoh Perhitungan TFIDF

Term TFIDF d1 d2 d3 d4 t1 0,60 0,00 0,00 0,00 t2 0,12 0,12 0,12 0,00 t3 0,60 1,20 0,00 0,00 t4 0,00 0,60 0,00 0,00 t5 0,00 0,12 0,12 0,25 t6 0,00 0,30 0,00 0,30 t7 0,00 0,00 0,60 0,00 t8 0,00 0,00 0,60 0,00 t9 0,00 0,00 0,00 0,60 t10 0,00 0,00 0,00 0,60

Dari hasil perhitungan bobot pada Tabel 4.4 maka selanjutnya dapat dicari jarak kemiripan antara query terhadap dokumen d1, d2, d3, dan

d4 menggunakan cosine similarity sebagaimana

ditunjukkan pada persamaan 2.4.

Untuk menentukan nilai cosine similarity tersebut diperlukan dua langkah. Yang pertama menghitung perkalian vektor antara query dan dokumen, dan yang kedua menghitung dotproduct dari query dan dokumen.

Berdasarkan persamaan 2.4 diperoleh hasil perkalian vektor sebagaimana diperlihatkan pada Tabel 4.5. Dengan kemunculan term pada query dianggap sebagai bobot query pada kolom Wq, kolom perkalian vektor q denan dokumen adalah perkalian antara vektor bobot term query dengan bobot term dokumen i dan baris jumlah adalah hasil perkalian vektor TFIDF term dokumen dengan bobot query.

Tabel 4.5 Contoh Perhitungan Perkalian Vektor

Term query Perkalian vektor q dengan dokumen

d1 d2 d3 d4 t1 0 0 0 0 0 t2 1 0,12 0,12 0,12 0 t3 0 0 0 0 0 t4 0 0 0 0 0 t5 1 0 0,12 0,12 0,25 t6 0 0 0 0 0 t7 0 0 0 0 0 t8 0 0 0 0 0 t9 0 0 0 0 0 t10 0 0 0 0 0 Jumlah 0,12 0,25 0,25 0,25

Setelah itu berdasarkan permaan 2.4 juga dihitung dot product (perkalian titik) dari query dan dokumen. Dengan kemunculan term pada

query dianggap sebagai bobot query dan dengan

bobot TFIDF pada Tabel 4.4, maka diperoleh hasil perkalian titik sebagaimana Tabel 4.6 pada kolom perkalian titik.

Tabel 4.6 Contoh Hasil Perkalian Titik

Dokumen Perkalian Titik

d1 1,21

d2 1,96

d3 1,23

d4 1,33

Dari hasil perkalian vektor pada Tabel 4.5 dan akar jumlah kuadrat bobot dari Tabel 4.6 selanjutnya dapat ditentukan Cosine Distance berdasarkan persamaan 2.4 sebagai berikut.

• Cos(query,d1) = 0.12/1.21 = 0.08

• Cos(query,d2) = 0.25/1.96 = 0.25

• Cos(query,d3) = 0,25/1.23 = 0,15

• Cos(query,d4) = 0.25/1,33 = 0.17

Dari hasil perhitungan tersebut maka di dapatkan jarak dari query ke dokumen d1,d2, d3 dan d4 yang dapat di lihat pada Tabel 4.7.

Tabel 4.7 Hasil cosine similarity

Rank dokumen Cosine

(6)

2 d4 0,17

3 d3 0,15

4 d1 0,08

Karena rentang nilai Cosine Similary antara 0 sampai 1 ya ng artinya 0 dok umen yang dihitung jaraknya tidak mirip sama sekali sedangkan 1 mengindikasikan dokumen tersebut identik / mirip. Dari Tabel 4.7 dapat disimpulkan query paling dekat dengan dokumen d2.

5 Contoh Perangkingan Berdasarkan

Susunan Posisi Kata dari Query

Dari contoh dokumen untuk perhitungan cosine

similarity pada Tabel 4.1 Representasi Dokumen

Contoh Perhitungan. Dan hasil perhitungan Tabel 4.7. di hitung bobot kata dari query dengan t adalah kata dari query pada Tabel 4.1. Berdasarkan persamaan 2.5 maka diperoleh hitungan sebagai berikut:

Dengan K = 4 dan di adalah dokumen yang mengandung kata dari query t: ∑𝐾𝑖=1𝑑𝑓(𝑡, 𝑑𝑖) × 𝑓(𝑖) = (1×0)+(1×0) +(1×1) +(1×0) dengan jumlah dokumen pada dataset yang mengandung kata dari

query t: 𝑑𝑓(𝑡, 𝐶) = 1, dengan jumlah dataset

sebesar R = 4, dan dengan�|𝑡| = √2 = 1,41 Maka diperoleh Wp = 1,41

Setelah didapat Wp nilai ini dikalikan pada hasil

cosine similarity pada dokumen di Tabel 4.7 yang

mengandung kata dari query t. Maka nilai cosine

similarity baru adalah seperti pada Tabel 5.1. dari

table tersebut dapat dilihat terjadi perubahan rangking dokumen d3 da ri rangking ke-4 menjadi ke-3.

Tabel 5.1 Hasil Perhitungan Nilai Cosine Similarity Berdasarkan Posisi Kata Pada Query

Rank dokumen Cosine

1 d2 0,25

2 d3 0,21

3 d4 0,17

4 d1 0,08

Pada metode ini dokumen yang dikembalikan adalah dokumen yang benar benar mengandung susunan kata pada query. Sehingga yang di kembalikan kepada pengguna adalah dokumen d3 karena mengandung susunan kata sesuai query yang diberikan pengguna.

6 Uji Coba

Data yang digunakan dalam uji coba ini merupakan corpus atau kumpulan dokumen teks berbahasa Arab, yang diambil dari 20 kitab dalam perangkat lunak Maktabah Syamilah. halaman kitab-kitab sebagai suatu dokumen. Jumlah total dokumen dari seluruh kitab tersebut adalaha 6642 dokumen. Tiap dokumen tersebut terdiri dari rata-rata 426 kata. Dan dari seluruh dokumen dataset tersebut terdapat 24.833 kata bebeda (distincnt

term).

Data uji perangkingan pada aplikasi dalam Makalah ini berupa dokumen berisi teks bahasa Arab yang diambil dari kitab pada perangkat lunak

Maktabah Syamilah. Dokumen-dokumen inilah

yang nanti akan diproses dari tahap preprocessing, penghapusan stopword, pembentukan kata dasar, hingga proses perangkingan itu sendiri

Uji pertama dilakukan untuk melihat keterkaitan antara metode perangkingan dokumen berdasarkan posisi kata dari query dengan perangkingan dokumen berdasarkan kata per kata.

Pelaksanaan uji coba ini dilakukan dengan memasukkan query satu kata setelah itu di dapat dokumen-dokumen yang dianggap relevan dengan

query tersebut. Pada uji coba ini digunakan query

sebanyak tiga seperti terlihat pada.

Dari uji coba pertama ini diperoleh hasil temu kembali yang sama baik untuk perangkingan berdasarkan posisi kata dari query maupun perangkingan dokumen berdasarkan kata per kata sebagaimana Tabel 6.1.

Hasil seperti ini didapatkan karena penggunaan

query satu kata saja tidak merubah rangking cosine similarity. Perubahan rangking dilakukan dengan

(7)

pembobotan kata dari query pada persamaan WP dilakukan pada dokumen yang berisi kata dari

query. Dengan query yang hanya satu kata saja

maka modifikasi score cosine similarity ini dilakukan pada seluruh hasil temu kembali. Sehingga rangking yang di hasilkan tidak sama dengan rangking awal sebelum modifikasi

Tabel 6.1 Hasil temu kembali pencarian satu kata

Rank Q1 Q2 Q3 Kitab Halaman Kitab Halaman Kitab Halaman 1 22 225 13 85 8 362 2 22 225 22 4887 17 155 3 22 5826 22 4887 1 637 4 22 5826 22 48 8 145 5 22 242 22 4646 22 296 6 22 242 22 48 22 296 7 22 231 22 4646 16 215 8 22 231 15 133 1 285

Uji coba kedua dilakukan untuk mengetahui keberhasilan proses perangkingan dokumen bahasa Arab berdasarkan posisi kata pada query. Keberhasilan proses perangkingan ini bisa dilihat pada hasil evaluasi dengan perhitungan recall,

precission,dan F-Measure.

Pelaksanaan uji coba ini dilakukan dengan memasukkan query dua kata setelah itu di dapat dokumen-dokumen yang dianggap relevan dengan

query tersebut. Disini di uji cobakan query

sebanyak sebelas seperti yang terdapat pada Tabel 6.2.

Tabel 6.2 Query Uji Coba II

Query Isi Relevan

Q1 ءﻮﺿﻮﻟﺍ ﺾﺋﺍﺮﻓ 6 Q2 ءﻮﺿﻮﻟﺍ ﻦﻨﺳ 23 Q3 ﺓﻼﺼﻟﺍ ﻥﺎﻛﺭﺍ 17 Q4 ﺓﻼﺼﻟﺍ ﻦﻨﺳ 14 Q5 ﻪﻌﻤﺠﻟﺍ ﺓﻼﺻ 14 Q6 ﺮﻄﻔﻟﺍ ﺓﺎﻛﺯ 16 Q7 ﻝﺎﻤﻟﺍ ﺓﺎﻛﺯ 13 Q8 ﻉﻮﻄﺘﻟﺍ ﺓﻼﺻ 11 Q9 ﻦﻳﺪﻴﻌﻟﺍ ﺓﻼﺻ 18 Q10 ﻮﻬﺴﻟﺍ ﺩﻮﺠﺳ 16 Q11 ﺓﻭﻼﺘﻟﺍ ﺩﻮﺠﺳ 18

Query pada Tabel 6.2 di uji cobakan pada

perangkingan berdasarkan posisi kata dari query dan perangkingan kata perkata. Hasil temu kembali setiap query dari Tabel 6.2 dihitung nilai prescision,

recall, dan F-Measure nya, baik untuk

perangkingan berdasarkan posisi kata dari query maupun perangkingan kata per kata. Hal ini dimaksudkan untuk menganalisa performa perangkingan dokumen terhadap tiap query.

Nilai precision yang tinggi menunjukan keberhasilan pencarian dalam memberikan dokumen yang relevan pada rangkingnya. Dengan nilai 1,00 mengindikasikan pencarian berhasil memberikan dokumen relevan pada perangkingannya.

Nilai recall yang semakin tinggi menunjukan keberhasilan proses pencarian dalam mendapat dokumen yang relevan. Dengan nilai 1,00 mengindikasikan proses pencarian berhasil mendapatkan seluruh dokumen yang relevan dengan

query.

Tabel 6.3 Nilai Rata-Rata evaluasi uji coba II untuk perangkingan berdasar posisi kata

Query Precision Recall F-Measure

Q1 0,93 0,60 0,68 Q2 0,63 0,15 0,23 Q3 0,67 0,44 0,52 Q4 0,56 0,44 0,49 Q5 0,70 0,50 0,53 Q6 0,48 0,29 0,33 Q7 0,50 0,47 0,52 Q8 0,73 0,45 0,59 Q9 0,47 0,27 0,34 Q10 0,44 0,29 0,32 Q11 0,52 0,25 0,30 Rata-Rata 0,60 0,38 0,44 Tabel 6.4 Nilai Rata-Rata evaluasi uji coba II untuk

perangkingan kata per kata

Query Precision Recall F-Measure

Q1 0,36 0,52 0,37 Q2 0,76 0,33 0,42 Q3 0,44 0,32 0,36 Q4 0,13 0,13 0,13 Q5 0,32 0,24 0,26 Q6 0,46 0,30 0,33

(8)

Q7 0,46 0,42 0,42 Q8 0,43 0,46 0,43 Q9 0,46 0,30 0,34 Q10 0,37 0,27 0,29 Q11 0,67 0,36 0,43 Rata-Rata 0,44 0,33 0,34 Dari uji coba kedua metode pencarian tersebut didapati peningkatan nilai evaluasi pada perangkingan berdasarkan posisi kata dari

query.dibandingakan dengan perangkingan kata per

kata. Baik pada nilai evaluasi precision , recall, dan

F-Measure.

Nilai rata-rata keseluruhan precision meningkat dari 0,44 untuk pencarian kata perkata pada Tabel 6.4 menjadi 0,60 untuk pencarian berdasarkan posisi kata dari query pada Tabel 6.3. hal ini disebabkan modifikasi score yang digunakan pada pencaraian berdasarkan pisisi kata dari query mengakibatkan dokumen-dokumen yang lebih relevan dengan bentuk kata dari query dikembalikan pada rangking yang atas. Dibandingkan dengan pencarian kata per kata yang tidak menghiraukan susunan kata.

Peningkatan nilai evaluasi juga didapati pada nilai rata-rata keseluruhan recall yang meningkat dari 0,33 untuk pencarian kata perkata pada Tabel 6.4 menjadi 0,38 untuk pencarian berdasarkan posisi kata dari query pada Tabel 6.3. Peningkatan ini menunjukkan dokumen-dokumen yang relevan dengan query lebih banyak di kembalikan oleh perangkingan berdasarkan posisi kata dari query. Hal ini dikarenakan metode ini menggunakan susunan kata dari query dan membentuknya sebagai kata dari query, sehingga hasil temu kembali yang dihasilkan lebih sesuai dengan konteks dari query dibandinkan dengan perangkingan kata per kata.

Dengan meningkatnya hasil evaluasi precision dan recall dari perangkingan berdasarkan posisi kata dari query dibandingkan dengan perangkingan kata per kata, maka nilai rata-rata F-Measure yang dihasilkan juga meningkat. Dengan nilai rata-rata keseluruhan F-Measure perangkingan berdasarkan posisi kata dari query 0,44 pada Tabel 6.3 meningkat dari 0,34 pada Tabel 6.4 untuk perangkingan kata per kata.

7

7B

Kesimpulan dan Saran

Berdasarkan hasil yang didapat dari serangkaian uji coba yang telah dilakukan, maka dapat ditarik beberapa kesimpulan bahwa, perangkingan berdasarkan posisi dokumen berdasarkan posisi kata dari query dapat di aplikasikan pada pencarian teks berbahasa Arab dengan nilai rata-rata F-Measure 0,44 dengan rata-rata precision 0,60 dan rata-rata

recall mencapai 0,38. Dibandingkan dengan

perangkingan kata perkata nilai-nilai evaluasi perangkingan berdasarkan posisi kata dari query meningkat lebih tinggi.

Untuk penelitian lebih lanjut metode yang dibahas di disini dapat di palikasikan untuk pemilihan dan pembobotan kata dari query pada

query yang panjang, untuk meningkatkan

kesesuaian konteks query dengan pencarian dokumen.

8

8B

Daftar Pustaka

[1] C.D. Manning, R. Prabhakar, and S. Hinrich, An Introduction to Information

Retrieval. Cambridge, England: Cambridge

University Press, 2009.

[2] A. Ibrahim El-Khair, "Arabic Information Retrieval," Information Science and

Technology, vol. 41, no. 1, pp. 505-533,

2007.

[3] G. Salton, Automatic Text Processing: the

Transformation, Analysis, and Retrieval of Information by Computer.: Addison-Wesly,

1989.

[4] M. Haidar and L. Andrew, "Information Retrieval from Full-Text Arabic Databases: Can Search Engines Designe for English Do the Job?," Libri, vol. 51, pp. 63-74, 2001.

[5] L.S. Leah and B. Lisa, "Improving Stemming for Arabic Information Retrieval: Light Stemming and Co-occurrence Analysis," Special Interest

Group on Information Retrieval, pp.

275-282, 2002.

[6] E.A. Esraa, B.L. Nagma, and M.F. Tolba, "An Efficient Rangking Module for an Arabic Search Engine," International

Journal of Computer Science and Network Security, vol. 10, no. 2, pp. 218-226, 2010.

(9)

[7] H.M. Suleiman, "Character Contiguity in N-gram-based Word Matching: the Case for Arabic Text Searching," Information

Processing and Management, pp. 819-827,

2005.

[8] N. Ahmad, Z.A. Agus, and P. Diana,

Makalah Jurusan Teknik Informatika dengan Judul: Implementasi N-Gram Dalam Pencarian Teks Sebagai Penunjang Aplikasi Perpustakaan Kitab Berbahasa Arab. Surabaya, Indonesia: Institut

Teknologi Sepuluh Nopember, 2011. [9] H.M. Suleiman, "Arabic String Searching

in the Context of Character Code Standards and Orthographic Variations," Computer

Standards and Interfaces, vol. 20, pp.

31-51, 1998.

[10] M. Zhu, S. Shi, M. Li, and J. Wen, "Effective top-k Computation with Term Proximity Support," Information Processing & Management, vol. 45, pp.

401-412, 2008.

[11] Y. Lingpeng, J. Donghong, and L. Munkew, "Document reranking by term distribution and maximal marginal relevance for chinese information retrieval," Information Processing and