• Tidak ada hasil yang ditemukan

Penelitian ini menggunakan dokumen skripsi mahasiswa Ilmu Komputer Institut Pertanian Bogor yang berasal dari repository.ipb.ac.id sebanyak 100 dokumen dalam bentuk PDF. Daftar dokumen yang digunakan pada penelitian ini dapat dilihat pada Lampiran 1. Dokumen-dokumen tersebut kemudian dikonversi secara manual ke dalam bentuk TXT dengan hanya mengambil bab pendahuluan sampai bab kesimpulan dan saran. Proses ini menghasilkan rata-rata jumlah kalimat sebanyak 212 kalimat, sedangkan jumlah kalimat maksimum sebanyak 420 kalimat pada dokumen 9 dan jumlah kalimat minimum sebanyak 100 kalimat pada dokumen 61.

Proses selanjutnya yang dilakukan adalah proses pembersihan dokumen TXT sesuai dengan aturan yang telah dijelaskan pada bagian metode penelitian dengan melakukan copy-paste per kalimat dalam dokumen. Proses ini memakan waktu cukup lama karena kalimat dalam tiap dokumen harus diperiksa satu per satu bilamana terdapat kalimat yang harus dihilangkan sesuai aturan pengumpulan dokumen. Dari 100 dokumen TXT yang terkumpul rata-rata ukuran dokumennya sebesar 21 KB. Rata-rata jumlah kalimat yang dihasilkan dari proses ini sebanyak 134 kalimat per dokumen, sedangkan jumlah maksimum kalimat sebanyak 308 kalimat pada dokumen 9 dan jumlah kalimat minimum sebanyak 64 kalimat pada dokumen 31.

Jika dihitung berdasarkan persentase, rata-rata jumlah kalimat yang digunakan sebagai korpus yaitu 65.67% dari jumlah kalimat awal. Dokumen 99 menjadi dokumen yang paling sedikit menghilangkan kalimat-kalimat sesuai dengan aturan pengumpulan dokumen yaitu sebesar 93.22% dengan hanya menghilangkan 8 kalimat, sedangkan dokumen yang paling banyak

9 menghilangkan kalimat-kalimat sesuai dengan aturan pengumpulan dokumen adalah dokumen 100 yaitu sebesar 35.97% dengan menghilangkan 162 kalimat.

Selain proses pembersihan dokumen, ringkasan manual untuk tiap dokumen juga dibuat sebagai pembanding hasil ringkasan sistem. Keseluruhan dokumen tersebut digunakan sebagai data latih untuk menentukan fitur kata dan juga sebagai data uji untuk pengujian sistem.

Pengindeksan

Tahap pengindeksan dilakukan dengan mengunggah 100 dokumen TXT satu per satu ke dalam sistem, kemudian sistem akan melakukan pemisahan kata. Kata-kata tersebut kemudian dihitung nilai IDF-nya untuk seleksi fitur kata. Pemilihan Fitur Kata

Pemilihan fitur kata dalam penelitian ini dihitung menggunakan persamaan 1 untuk tiap kata unik dalam keseluruhan dokumen. Kemudian dilakukan filtering atau penghapusan kata unik yang terdiri atas kurang dari tiga huruf. Setelah dilakukan filtering, terdapat lebih dari 10000 kata unik dari seluruh dokumen dan sebanyak 894 fitur kata terpilih merupakan kata unik yang memiliki nilai IDF antara 0.1 ≤ IDF < 2.0. Alasan penentuan rentang tersebut karena ingin mengabaikan kata yang hanya muncul pada 1 dokumen dari 100 dokumen dan juga kata yang muncul pada lebih dari 80 dokumen karena kata-kata tersebut kurang baik untuk merepresentasikan fitur kata. Kata unik terpilih tersebut kemudian disimpan ke dalam database untuk digunakan sebagai fitur kata.

Fitur kata terpilih tersebut masih mengandung kata-kata yang merupakan

stopwords seperti kata “agar”, “adapun”, “jika”, dan lain sebagainya. Ada sekitar

111 stopwords yang terambil sebagai fitur kata. Namun, tidak semua stopwords muncul sebagai fitur kata, misalnya kata “dan”, “dari”, “ada”, dan lain sebagainya tidak terpilih sebagai fitur kata kerena kata-kata tersebut muncul di hampir seluruh dokumen. Fitur kata yang memiliki nilai IDF tertinggi sebanyak 68 kata yang masing-masing muncul pada 14 dokumen dengan nilai IDF 0.86. Kata-kata tersebut diantaranya “xml”, “pohon”, “inisiaisasi”, dan lain sebagainya. Sebaliknya, kata yang memiliki nilai IDF terendah adalah kata “informasi” yang muncul pada 90 dokumen dengan nilai IDF 0.05 atau jika dibulatkan menjadi 0.1 yang merupakan batas bawah nilai IDF untuk fitur kata.

Proses Peringkasan

Proses peringkasan dilakukan untuk tiap dokumen dengan cara mengunggah dokumen tersebut ke dalam sistem. Sistem kemudian akan melakukan proses peringkasan di antaranya: parsing kalimat, pembobotan TF.ISF, penghitungan nilai kemiripan cosine similarity, dan seleksi kalimat menggunakan metode MMR. Parsing Kalimat

Tahap awal dari proses peringkasan dokumen adalah memecah dokumen menjadi potongan kalimat proses pemisahan kalimat ini dilakukan berdasarkan

10

aturan yang telah dijelaskan pada metode penelitian. Namun, dalam prosesnya terdapat kendala pada penggunaan tanda titik (.). Dalam dokumen skripsi tanda titik (.) bukan hanya digunakan sebagai tanda akhir kalimat, tetapi juga digunakan untuk penulisan bilangan desimal atau penulisan format file. Oleh karena itu, dibuat aturan tambahan untuk mengganti tanda titik (.) pada kasus-kasus tersebut, di antaranya:

1 Tanda titik (.) pada bilangan desimal diganti dengan tanda bintang (*). Misalnya 44.87 diganti menjadi 44*87. Begitu juga untuk alamat

website.

2 Tanda titik (.) pada penulisan "et al." dihilangkan dan menjadi "et al". 3 Tanda titik (.) pada format file diganti menjadi tanda bintang (*).

Misalnya .txt diganti menjadi *txt.

Aturan tersebut hanya digunakan dalam pemrosesan pada sistem, sedangkan untuk hasil akhir kalimat ringkasan yang akan ditampilkan akan diubah kembali menjadi tanda titik (.). Hasil dari proses parsing kalimat menghasilkan kalimat-kalimat yang merupakan kandidat kalimat-kalimat ringkasan kecuali judul dokumen atau

query.

Pembobotan TF.ISF

Proses selanjutnya dalam proses peringkasan dokumen adalah menghitung bobot kata dalam kalimat. Asumsikan dokumen yang akan diringkas adalah D yang memiliki sebanyak n kalimat yaitu s1, s2, s3, s4, …, sn serta query sn+1, maka bobot TF.ISF wm,n dihitung menggunakan persamaan 3. Nilai ISF tiap kalimat didapat dari persamaan 2. Hasil dari pembobotan tersebut menghasilkan matriks seperti pada Tabel 2. Matriks tersebut berukuran besar dan banyak terdapat nilai 0 dikarenakan fitur kata yang muncul pada suatu kalimat tidak mencapai 10 kata dari 894 fitur kata yang digunakan. Bahkan ada beberapa kalimat yang sama sekali tidak mengandung salah satu fitur kata tersebut.

Rata-rata matriks tersebut berukuran 894 x 135 dengan jumlah data TF.ISF maksimum sebanyak 276246 data dan minimum 58110 data. Lebih dari 99% data tersebut bernilai 0 dan hanya kurang dari 1% yang ada nilainya. Dokumen yang memiliki jumlah data TF.ISF terbanyak adalah dokumen 88 sebesar 0.93% dengan jumlah data TF.ISF yang tidak 0 sebanyak 608 data dari 65262 data, sedangkan yang paling sedikit adalah dokumen 55 sebesar 0.48% dengan jumlah data TF.ISF yang tidak 0 sebanyak 643 data dari 134994 data.

Tabel 2 Matriks TF.ISF

s1 s2 s3 ... sn sn+1 t1 w1,1 w1,2 w1,3 ... w1,n w1,n+1 t2 w2,1 w2,2 w2,3 ... w2,n w2,n+1 t3 w3,1 w3,2 w3,3 ... w3,n w3,n+1 t4 w4,1 w4,2 w4,3 ... w4,n w4,n+1 t5 w5,1 w5,2 w5,3 ... w5,n w5,n+1 ... ... ... ... ... ... ... tm wm,1 wm,2 wm,3 ... wm,n wm,n+1

11 Seleksi Kalimat Menggunakan MMR

Penghitungan MMR dilakukan dengan iterasi yang mengkombinasikan nilai kemiripan kalimat dengan query dan kalimat dengan kalimat yang telah terpilih sebagai ringkasan. Pada iterasi pertama, nilai kemiripan sim2(si,sj) bernilai 0 karena belum ada kalimat yang terambil sebagai ringkasan. Setelah itu, untuk semua kalimat dalam dokumen dihitung nilai MMR-nya menggunakan persamaan 5. Kalimat dengan nilai MMR tertinggi pada iterasi pertama akan dijadikan ringkasan, misalnya sj1. Berikut potongan kode program untuk iterasi 1.

1 if($iterasi == 1){ 2 $mmr[$loopSeBanyakKalimat] = ($lambda * 3 $nilai_kemiripan[0][$loopSeBanyakKalimat]) - ((1-$lambda) * 0); 4 if($mmr[$loopSeBanyakKalimat] > $hitmax){ 5 $hitmax = $mmr[$loopSeBanyakKalimat]; 6 $inmax = $loopSeBanyakKalimat; 7 } 8 }

Pada iterasi kedua, dihitung kembali nilai MMR tiap kalimat selain kalimat

sj1. Untuk tiap kalimat, nilai kemiripan sim2(si,sj) yang digunakan adalah nilai kemiripan antara kalimat dengan kalimat sj1 karena hanya terdapat satu kalimat ringkasan. Selanjutnya seperti pada iterasi pertama, dipilih kembali kalimat dengan nilai MMR tertinggi, misalnya kalimat sj2. Sampai disini kalimat yang telah terambil sebagai ringkasan ada 2 kalimat. Berikut potongan kode program untuk iterasi 2.

1 else if($iterasi == 2){

2 if(!array_search($loopSeBanyakKalimat, $array)){

3 $mmr[$loopSeBanyakKalimat] = ($lambda * $nilai_kemiripan[0][$loopSeBanyakKalimat]) - 4 ((1-$lambda) * $nilai_kemiripan[$maxim][$loopSeBanyakKalimat]); 5 if($mmr[$loopSeBanyakKalimat] > $hitmax){ 6 $hitmax = $mmr[$loopSeBanyakKalimat]; 7 $inmax = $loopSeBanyakKalimat; 8 } 9 } 10 }

Pada iterasi ketiga, karena ada lebih dari 1 kalimat ringkasan yaitu sj1 dan sj2, maka nilai kemiripan yang digunakan adalah nilai kemiripan maksimum yang didapat setelah membandingkan nilai kemiripan seluruh kandidat kalimat yang tersisa dengan kalimat sj1 dan sj2. Misalnya nilai kemiripan maksimum yang didapat adalah nilai kemiripan antara kalimat ke-i dengan kalimat sj1, maka yang digunakan sebagai pembanding kemiripan adalah kalimat sj1. Berarti, pada iterasi ketiga dibandingkan nilai kemiripan seluruh kandidat kalimat tersisa dengan kalimat sj1. Selanjutnya setelah dihitung kembali nilai MMR-nya, kalimat dengan nilai MMR tertinggi diambil sebagai ringkasan. Berikut potongan kode program untuk iterasi 3.

1 else{

2 if(!array_search($loopSeBanyakKalimat, $array)){

3 $mmr[$loopSeBanyakKalimat] = ($lambda * $nilai_kemiripan[0][$loopSeBanyakKalimat]) - 4 ((1-$lambda)*$nilai_kemiripan[$indexbesar][$loopSeBanyakKalimat]);

5 if($mmr[$loopSeBanyakKalimat] >= $hitmax ){ 6 $hitmax = $mmr[$loopSeBanyakKalimat];

12 7 $inmax = $loopSeBanyakKalimat; 8 } 9 } 10 } 1 $array[$iterasi] = $inmax; 2 $maxim = $inmax; 3 if($iterasi >= 2){ 4 $bandingbesar = 0;

5 for($i = 1; $i<count($array); $i++){ 6 $kalmbil = $array[$i]; 7 if($kalmbil != 0){ 8 for($loopSeBanyakKalimat2=1; $loopSeBanyakKalimat2<$BanyakKalimat; 9 $loopSeBanyakKalimat2++){ 10 if(!array_search($loopSeBanyakKalimat2, $array)){ 11 if($nilai_kemiripan[$loopSeBanyakKalimat2][$kalmbil] > $bandingbesar){ 12 $bandingbesar = $nilai_kemiripan[$loopSeBanyakKalimat2][$kalmbil]; 13 $indexbesar = $kalmbil; 14 } 15 } 16 } 17 } 18 } 19 }

Untuk iterasi keempat dan seterusnya, lakukan hal yang sama seperti pada iterasi ketiga. Iterasi dilakukan hingga mencapai kompresi ringkasan yang telah ditentukan. Untuk penelitian ini, kompresi ringkasan yang digunakan sebesar 10%, 20%, dan 30%. Selain itu ditentukan pula nilai parameter λ yang digunakan dalam penelitian ini yaitu 0.25, 0.50, dan 0.75. Parameter tersebut digunakan sebagai bobot nilai kemiripan.

Nilai MMR tertinggi diperoleh kalimat 14 pada iterasi 1 di dokumen 54 untuk nilai λ = 0.75 yaitu sebesar 0.75. Ini artinya nilai MMR yang didapat sempurna karena nilai kemiripan kalimat 14 dengan query sim1(s14,Q) = 1.

Kata-kata yang terdapat pada query dan termasuk fitur Kata-kata terdapat juga pada kalimat 14, sedangkan kalimat selain kalimat yang sama antara kalimat 14 dengan query, baik yang pada kalimat 14 maupun query, tidak terdapat pada fitur kata.

Nilai MMR terendah yaitu 0. Misalnya seperti yang diperoleh kalimat 1 pada iterasi 2 di dokumen 56 untuk nilai λ = 0.5. Iterasi 2 berarti selain menghitung nilai kemiripan kalimat 1 dengan query, dihitung juga kemiripan kalimat 1 dengan kalimat hasil iterasi 1, yaitu kalimat 17. Untuk kemiripan kalimat 1 dengan query, hanya terdapat 1 kata yang sama tetapi kata tersebut bukan merupakan fitur kata, berarti nilai kemiripannya 0. Untuk kemiripan kalimat 1 dengan kalimat 17, terdapat 2 kata yang sama dan juga bukan merupakan fitur kata, berarti nilai kemiripannya 0. Oleh karena itu, kombinasi keduanya akan menghasilkan nilai MMR = 0.

Hasil ringkasan menggunakan MMR masih belum bisa mengambil kalimat di setiap bagian dokumen skripsi. Misalnya pada dokumen 12, hasil ringkasan kalimat pertama yaitu kalimat 40 yang merupakan bagian dari metode penelitian, sedangkan bagian pendahuluan tidak terseleksi. Ini dikarenakan kalimat-kalimat pada bagian pendahuluan tidak relevan dengan query, dan jikalau ada kata dalam kalimat yang relevan dengan query, kata tersebut bukan termasuk fitur kata. Pada dokumen 12, hanya terdapat 2 kata pada query yang juga terdapat pada fitur kata. Ini menjadi penyebab banyaknya kalimat yang menghasilkan nilai MMR = 0.

13 Evaluasi Hasil Ringkasan

Tahap evaluasi hasil ringkasan sistem dengan ringkasan manual untuk nilai

λ = 0.50, yang berarti bobot kemiripan kalimat dengan judul dan kalimat dengan

kalimat ringkasan yang telah terpilih seimbang, menghasilkan nilai akurasi ringkasan sebesar 58.67% pada kompresi ringkasan 30%, 61.05% pada kompresi ringkasan 20%, dan 62.14% pada kompresi ringkasan 10%. Akurasi tertinggi yang didapatkan sebesar 85.67% pada kompresi ringkasan 10%, sedangkan akurasi terendah adalah sebesar 39.74% pada kompresi ringkasan 30%. Perbandingan akurasi untuk λ = 0.50 dapat dilihat pada Gambar 2.

Untuk nilai λ = 0.25, dengan bobot nilai kemiripan kalimat dengan query lebih kecil dibandingkan dengan bobot nilai kemiripan kalimat dengan kalimat terpilih, akurasi yang didapatkan sebesar 57.68% pada kompresi ringkasan 30%, 60.26% pada kompresi ringkasan 20%, dan 61.61% pada kompresi ringkasan 10%. Nilai ini sedikit lebih rendah dibandingkan dengan penggunaan nilai λ = 0.50. Sama seperti percobaan dengan nilai λ = 0.50, akurasi tertinggi yang didapatkan yaitu sebesar 85.67% pada kompresi ringkasan 10% dan akurasi terendah juga pada kompresi ringkasan 30% sebesar 42.86%. Perbandingan akurasi untuk nilai λ = 0.25 dapat dilihat pada Gambar 3.

Nilai akurasi mengalami peningkatan setelah menaikkan nilai λ menjadi 0.75. Untuk nilai λ tersebut nilai akurasinya sebesar 59.87% pada kompresi ringkasan 30%, 62.11% pada kompresi ringkasan 20%, dan 62.61% pada kompresi ringkasan 10%. Akurasi tertinggi dan terendah yang dicapai masih sama dengan percobaan sebelumnya, yaitu untuk nilai akurasi tertinggi berada pada kompresi ringkasan 10% sebesar 82.95% dan nilai akurasi terendah berada pada kompresi ringkasan 30% sebesar 43.75%. Perbandingan akurasi untuk nilai = 0.75 dapat dilihat pada Gambar 4.

Gambar 2 Akurasi maksimum (a), rata-rata (b), dan minimum (c) untuk nilai λ=0.50

14

Berdasarkan percobaan yang telah dilakukan pada kompresi ringkasan 10%, 20%, dan 30% untuk masing-masing nilai λ sebesar 0.25, 0.50, dan 0.75 didapatkan nilai akurasi rata-rata tertinggi yaitu pada kompresi ringkasan 10% dan

λ = 0.75 sebesar 62.61%. Perbandingan nilai akurasi secara keseluruhan dapat

dilihat pada Gambar 5, sedangkan grafik akurasi untuk tiap kompresi ringkasan dapat dilihat pada Lampiran 2.

Penurunan yang terjadi pada saat λ = 0.25 dan peningkatan pada saat λ = 0.75 wajar terjadi karena ringkasan yang baik adalah ringkasan yang relevan terhadap query. Penggunaan nilai λ = 0.75 berarti bobot query-relevance lebih diperbesar, sehingga otomatis akurasinya menjadi lebih besar. Untuk tiap Gambar 3 Akurasi maksimum (a), rata-rata (b), dan minimum (c) untuk

nilai λ=0.25

Gambar 4 Akurasi maksimum (a), rata-rata (b), dan minimum (c) untuk nilai λ=0.75

15 kompresi ringkasan, jumlah dokumen yang bisa dikatakan query-relevance atau semakin besar nilai λ maka semakin besar pula nilai akurasinya yaitu sebanyak 53 dokumen untuk kompresi ringkasan 30%, 59 dokumen untuk kompresi ringkasan 20%, dan 52 dokumen untuk kompresi ringkasan 10%. Jadi, bisa dikatakan hasil ringkasan sudah cukup baik karena jumlah dokumen yang query-relevance sudah lebih dari 50%. Artinya, sebagian besar hasil ringkasan sudah sesuai untuk merepresentasikan isi dokumen.

Sementara itu, peningkatan nilai akurasi pada kompresi ringkasan 10% juga wajar terjadi karena nilai akurasi hasil ringkasan sistem akan lebih besar jika hasil ringkasan sistem lebih sedikit, yang berarti batas nilai MMR minimum semakin tinggi, dengan asumsi bahwa hasil ringkasan manual, yang digunakan sebagai pembanding, sudah baik.

Peningkatan akurasi yang terjadi untuk setiap nilai λ tidak terlalu signifikan. Jadi dapat disimpulkan bahwa nilai λ tidak terlalu mempengaruhi hasil akurasi ringkasan, sedangkan kompresi ringkasan hanya sedikit mempengaruhi akurasi hasil ringkasan.

Selain nilai akurasi, dalam evaluasi hasil ringkasan juga dihitung nilai recall,

precision, dan F-1 yang menghasilkan rata-rata seperti pada Gambar 6, 7, dan 8. Recall, precision, dan F-1 merupakan ukuran keakuratan ringkasan yang hanya

memperhatikan kalimat yang relevan. Recall merupakan ukuran keakuratan ringkasan terhadap ringkasan manual, precision merupakan ukuran keakuratan ringkasan terhadap ringkasan sistem, sedangkan F-1 merupakan gabungan keduanya, yakni keakuratan ringkasan diukur berdasarkan ringkasan sistem dan ringkasan manual. Sementara itu, akurasi memperhatikan seluruh kalimat, baik yang relevan maupun yang tidak relevan.

Gambar 5 Akurasi rata-rata hasil ringkasan untuk nilai λ=0.75 (a), λ=0.50 (b), dan λ=0.25 (c)

16

Pada Gambar 6 terlihat nilai recall rata-rata untuk masing-masing nilai λ pada tiap kompresi ringkasan tidak jauh berbeda. Namun, untuk setiap kenaikan kompresi ringkasan pada nilai λ yang sama memiliki perbedaan kurang lebih 10%. Untuk kompresi ringkasan yang menghasilkan persentase recall rata-rata terbesar yaitu pada kompresi ringkasan 30%.

Nilai recall dipengaruhi oleh jumlah kalimat yang sama dalam hasil ringkasan sistem dan ringkasan manual dengan hasil ringkasan manual. Nilai

recall tertinggi yaitu 54.05% pada dokumen 3 dengan kompresi ringkasan 30%

dan λ = 0.50 dan 0.75. Jumlah kalimat yang sama sebanyak 20 kalimat dan jumlah kalimat ringkasan manual sebanyak 37 kalimat. Sementara itu, nilai recall terendah sebesar 2.94% pada dokumen 44 dengan kompresi ringkasan 10% dan λ = 0.75 dengan jumlah kalimat yang sama hanya 1 kalimat, sedangkan jumlah ringkasan manual ada 34 kalimat. Jika dilihat, ada selisih yang cukup banyak antara kalimat yang sama dengan ringkasan manual. Jadi, dapat disimpulkan semakin sedikit selisih jumlah kalimat yang sama dengan hasil ringkasan manualnya, maka semakin besar nilai recall-nya, begitu pula sebaliknya. Grafik nilai recall untuk tiap kompresi ringkasan dapat dilihat pada Lampiran 3, sedangkan grafik recall untuk tiap nilai lambda (λ) dapat dilihat pada Lampiran 4.

Gambar 7 menunjukkan nilai precision rata-rata baik untuk masing-masing nilai λ maupun kompresi ringkasan tidak terdapat perbedaan yang signifikan. Kompresi ringkasan 10% menghasilkan nilai precision rata-rata yang paling besar karena peluang kemunculan kalimat hasil ringkasan sistem pada ringkasan manual akan lebih besar jika hasil ringkasan sistem lebih sedikit, sedangkan jumlah Gambar 6 Recall rata-rata hasil ringkasan untuk nilai λ=0.75 (a), λ=0.50 (b),

17 ringkasan manual sama. Namun, perbedaan nilai precision antarkompresi ringkasan maupun antarnilai λ tidak terlalu jauh, jadi setiap kalimat hasil ringkasan sistem mempunyai peluang yang hampir sama terdapat dalam ringkasan manual.

Nilai precision dipengaruhi oleh jumlah kalimat yang sama dalam ringkasan sistem dan ringkasan manual dengan hasil ringkasan sistem. Nilai precision tertinggi yaitu 92.86% pada dokumen 81 untuk kompresi ringkasan 10% dan λ = 0.50. Jumlah kalimat yang sama sebanyak 13 kalimat dan jumlah kalimat hasil peringkasan sistem sebanyak 14 kalimat. Sementara itu, nilai precision terendah sebesar 3.33% pada dokumen 9 untuk kompresi ringkasan 10% dan λ = 0.75 dengan jumlah kalimat yang sama hanya 1 kalimat, sedangkan jumlah hasil ringkasan sistem ada 30 kalimat. Jika dilihat, ada selisih yang cukup banyak antara kalimat yang sama dengan ringkasan sistem. Jadi, dapat disimpulkan semakin sedikit selisih jumlah kalimat yang sama dengan hasil ringkasan sistemnya, maka semakin besar nilai precision-nya. Grafik nilai precision untuk tiap kompresi ringkasan dapat dilihat pada Lampiran 5, sedangkan grafik

precision untuk tiap nilai lambda (λ) dapat dilihat pada Lampiran 6.

Pada Gambar 8 terlihat nilai F-1 yang didapat untuk tiap nilai λ pada kompresi ringkasan yang sama tidak berbeda jauh, sedangkan untuk kompresi ringkasan yang berbeda terlihat cukup ada perbedaan. Kompresi ringkasan 30% menghasilkan nilai F-1 tertinggi.

Nilai F-1 dipengaruhi oleh jumlah kalimat yang sama di dalam ringkasan manual dan hasil ringkasan sistem karena F-1 hanya memperhatikan jumlah kalimat yang relevan. Nilai F-1 tertinggi adalah 62.61% pada dokumen 81 dengan

Gambar 7 Precision rata-rata hasil ringkasan untuk nilai λ=0.75 (a), λ=0.50 (b), dan λ=0.25 (c)

18

kompresi ringkasan 30% dan λ = 0.25. Jumlah kalimat yang sama sebanyak 36 kalimat dari hasil ringkasan sistem sebanyak 44 kalimat dan ringkasan manual sebanyak 71 kalimat. Sementara itu, untuk nilai F-1 terendah adalah 3.45% berada pada dokumen 9 dengan kompresi ringkasan 10% dan λ = 0.75. Jumlah kalimat yang sama pada dokumen tersebut hanya 1 kalimat dari hasil ringkasan sistem sebanyak 30 kalimat dan ringkasan manual 28 kalimat. Dengan demikian, dapat disimpulkan bahwa semakin banyak kalimat yang sama, maka nilai F-1 semakin tinggi, begitu pula sebaliknya. Dalam hal ini, pada kompresi ringkasan 30% jumlah kalimat hasil ringkasan lebih banyak, jadi kemungkinan terdapat kata yang sama akan lebih besar. Grafik nilai F-1 untuk tiap kompresi ringkasan dapat dilihat pada Lampiran 7, sedangkan grafik F-1 untuk tiap nilai lambda (λ) dapat dilihat pada Lampiran 8. Statistik hasil recall, precision, F-1, dan akurasi dapat dilihat pada Tabel 3.

Gambar 8 F-1 rata-rata hasil ringkasan untuk nilai λ=0.75 (a), λ=0.50 (b), dan λ=0.25 (c)

19

Dokumen terkait