Peringkasan Dokumen Bahasa Indonesia Menggunakan Pembobotan Fitur Kalimat

(1)

PERINGKASAN DOKUMEN BAHASA INDONESIA

MENGGUNAKAN PEMBOBOTAN FITUR KALIMAT

YOZI SUKMATUL AHDA

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

(2)

(3)

PERNYATAAN MENGENAI SKRIPSI DAN

SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA

Dengan ini saya menyatakan bahwa skripsi berjudul Peringkasan Dokumen Bahasa Indonesia Menggunakan Pembobotan Fitur Kalimat adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.

Bogor, Desember 2015

Yozi Sukmatul Ahda

(4)

ABSTRAK

YOZI SUKMATUL AHDA. Peringkasan Dokumen Bahasa Indonesia Menggunakan Pembobotan Fitur Kalimat. Dibimbing oleh JULIO ADISANTOSO.

Membaca dokumen yang panjang memerlukan waktu yang lama untuk menemukan isi penting dari bacaan tersebut, sehingga diperlukan suatu ringkasan untuk memudahkan dalam memahami isi dokumen. Ringkasan dokumen otomatis dapat digunakan untuk menemukan ringkasan dokumen dengan cepat. Penelitian ini menggunakan 9 fitur kalimat untuk pembobotan kalimat sebagai penentu hasil ringkasan. Hasil ringkasan tersebut menggunakan CR 10%, 20%, dan 30%. Untuk mengetahui keakuratan hasil ringkasan maka dilakukan evaluasi menggunakan

precision, recall, f-measure, dan akurasi. Untuk hasil perhitungan precision

didapatkan hasil tertinggi 60.99% pada CR 10%, recall tertinggi 41.16% pada CR 30%, f-measure tertinggi 45.42% pada CR 30%, dan hasil akurasi tertinggi 64.18% pada CR 10%.

Kata kunci: fitur kalimat, pembobotan kalimat, ringkasan dokumen

ABSTRACT

YOZI SUKMATUL AHDA. Indonesian Text Summarization by Using Weighting of Sentence Features. Supervised by JULIO ADISANTOSO.

Reading long document needs a long time to find the important contents of the reading, so summary is needed to make it easier to understand. Automatic text summarization can be used to find text summarization quickly. This research used 9 sentences features to weight the sentences as determinant of the summary results. The result of the summary uses CR 10%, 20%, and 30%. The accuracy of the summary is calculated using precision, recall, f-measure, and accuracy. The highest precision results is 60.99% in CR 10%, the highest recall results is 41.16% in CR 30%, the highest f-measure results is 45.42% in CR 30%, and the highest accuracy results is 64.18% in CR 10%.

(5)

Skripsi

sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer

pada

Departemen Ilmu Komputer

PERINGKASAN DOKUMEN BAHASA INDONESIA

MENGGUNAKAN PEMBOBOTAN FITUR KALIMAT

YOZI SUKMATUL AHDA

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

(6)

Penguji:

1 Irman Hermadi, SKom, MS, PhD

(7)

Judul Skripsi : Peringkasan Dokumen Bahasa Indonesia Menggunakan Pembobotan Fitur Kalimat

Nama : Yozi Sukmatul Ahda NIM : G64134018

Disetujui oleh

Ir Julio Adisantoso, MKom Pembimbing

Diketahui oleh

Dr Ir Agus Buwono, MSi, MKom Ketua Departemen

(8)

(9)

PRAKATA

Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala yang telah memberikan rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan skripsi yang berjudul “Peringkasan Dokumen Bahasa Indonesia Menggunakan Pembobotan Fitur Kalimat”.

Terima kasih penulis ucapkan kepada Bapak Julio Adisantoso selaku pembimbing, serta Bapak Irman Hermadi dan Ibu Husnul Khotimah yang telah banyak memberi saran. Ungkapan terima kasih juga disampaikan kepada kedua orang tua dan seluruh keluarga, atas segala doa dan kasih sayangnya, serta semua pihak yang telah banyak membantu dalam menyelesaikan skripsi ini. Tak lupa juga penulis ucapkan terima kasih kepada rekan-rekan satu bimbingan, Lutfia dan Rheza, atas bantuan dan kerjasamanya dalam melakukan penelitian ini, serta kepada rekan-rekan seperjuangan di Ekstensi Ilmu Komputer angkatan 8, atas dukungan, bantuan, dan kebersamaannya selama menjalani masa studi. Semoga skripsi ini dapat memberikan kontribusi yang bermakna bagi pengembangan wawasan para pembaca, khususnya mahasiswa dan masyarakat pada umumnya.

Semoga karya ilmiah ini bermanfaat.

Bogor, Desember 2015

(10)

(11)

DAFTAR ISI

DAFTAR TABEL x

DAFTAR GAMBAR x

PENDAHULUAN 1

Latar Belakang 1

Perumusan Masalah 2

Tujuan Penelitian 2

Manfaat Penelitian 2

Ruang Lingkup Penelitian 2

METODE 2

Pengumpulan Dokumen 3

Parsing Kalimat 3

Fitur Kalimat 5

Seleksi Kalimat 8

Evaluasi 9

HASIL DAN PEMBAHASAN 10

Pengumpulan Dokumen 10

Parsing Kalimat 10

FiturKalimat 10

Seleksi Kalimat 13

Evaluasi 13

SIMPULAN DAN SARAN 16

Simpulan 16

Saran 17

DAFTAR PUSTAKA 17

(12)

DAFTAR TABEL

1 Matrix confusion 9

2 Dokumen yang memiliki kalimat yang bernilai 0 12

DAFTAR GAMBAR

1 Tahapan proses penelitian 3

2 Pemisahan kalimat dan case folding 4

3 Filtering kata 4

4 Grafik nilai rata-rata precision 14

5 Grafik nilai rata-rata recall 15

6 Grafik nilai rata-rata f-measure 15

(13)

PENDAHULUAN

Latar Belakang

Membaca dokumen dengan isi yang panjang memerlukan waktu yang lama untuk menemukan intisari dari dokumen tersebut. Sehingga dibutuhkan suatu ringkasan yang memuat intisari dari keseluruhan isi dokumen. Ringkasan dokumen memudahkan untuk memahami isi dokumen. Peringkasan dokumen merupakan proses mendapatkan informasi penting dari tiap-tiap subbagian dari keseluruhan dokumen. Peringkasan dokumen dapat dilakukan secara manual maupun otomatis. Peringkasan dokumen yang jumlahnya banyak, apabila dilakukan secara manual membutuhkan waktu yang lama dibandingkan dengan peringkasan teks secara otomatis (Aristoteles et al. 2012).

Ada beberapa teknik untuk melakukan peringkasan dokumen diantaranya teknik ekstraksi dan teknik abstraksi (Jezek dan Steiberger 2008). Teknik ekstraksi yaitu menyalin semua teks tanpa mengubah kalimat teks aslinya, sedangkan teknik abstraksi yaitu membuat kalimat baru dari isi dokumen aslinya, namun makna kalimat tetap sama dengan teks dokumen aslinya (Jezek dan Steiberger 2008).

Peringkasan dengan teknik ekstraksi membutuhkan fitur karena fitur digunakan untuk merepresentasikan dokumen (Zaman dan Winarko 2011). Peringkasan dokumen otomatis dengan teknik ekstraksi telah banyak dilakukan diantaranya Fattah dan Ren (2008) membandingkan algoritme genetika dengan regresi matematika. Hasil penelitian Fattah dan Ren (2008) menunjukkan akurasi peringkasan teks dengan algoritme genetika 44.94% lebih baik dibandingkan akurasi menggunakan regresi matematika 43.82%. Aristoteles et al. (2012) membuat pembobotan fitur teks pada peringkasan teks bahasa Indonesia menggunakan algoritme genetika.

Pembobotan fitur teks mengindikasikan pentingnya suatu teks dalam dokumen. Pada penelitian Aristoteles et al. (2012) ada 11 fitur teks yang digunakan yaitu posisi kalimat, positive keyword, negative keyword, kemiripan antarkalimat, kalimat yang menyerupai judul dokumen, kalimat yang mengandung nama entiti, kalimat yang mengandung data numerik, panjang relatif kalimat, koneksi antar-kalimat, penjumlahan bobot koneksi antar-antar-kalimat, dan kalimat semantik. Hasil penelitian tersebut menunjukkan bahwa penggunaan 4 fitur teks dengan penambahan kalimat semantik merepresentasikan hasil akurasi 11 fitur teks sebesar 46.44%. Selain itu, Marlina (2012) melakukan penelitian untuk menghitung pembobotan fitur teks menggunakan regresi logistik biner. Penelitian tersebut menghasilkan akurasi sebesar 42.84% pada compression rate 30%.

(14)

2

Perumusan Masalah

Perumusan masalah dalam penelitian ini yaitu:

1 Bagaimanakah pengembangan pembobotan kalimat berdasarkan fitur kalimat untuk peringkasan dokumen otomatis?

2 Apakah pembobotan kalimat dengan fitur kalimat tersebut tepat digunakan untuk peringkasan dokumen?

3 Bagaimana implementasi dari fitur kalimat tersebut untuk dokumen skripsi berbahasa Indonesia?

Tujuan Penelitian

Penelitian ini bertujuan untuk:

1 Mengembangkan peringkasan dokumen otomatis menggunakan pembobotan.

kalimat berdasarkan fitur kalimat.

2 Menganalisis ketepatan penggunaan pembobotan kalimat dengan fitur kalimat untuk peringkasan dokumen.

3 Mengimplementasikan fitur kalimat untuk dokumen skripsi berbahasa Indonesia.

Manfaat Penelitian

Manfaat dari penelitian ini yaitu menghasilkan ringkasan yang relevan dan melakukan peringkasan dokumen secara cepat sehingga dapat digunakan oleh mahasiswa untuk mencari dokumen skripsi untuk dijadikan acuan penelitiannya.

Ruang Lingkup Penelitian

Ruang lingkup penelitian ini adalah:

1 Dokumen yang digunakan yaitu skripsi Ilmu Komputer berbahasa Indonesia.

2 Menggunakan fitur kalimat untuk pembobotan kalimat dengan teknik ekstraksi.

METODE

Penelitian ini dilakukan dengan beberapa tahap yaitu pengumpulan dokumen,

(15)

3 Pengumpulan Dokumen

Penelitian ini menggunakan dokumen skripsi mahasiswa Departemen Ilmu Komputer Institut Pertanian Bogor yang berjumlah 100 dokumen yang diambil dari repository.ipb.ac.id. Dokumen ini digunakan untuk membandingkan ringkasan manual dengan ringkasan sistem. Dokumen dikumpulkan dalam format file.txt dan diberikan tanda pemisah sebagai berikut:

1 {{bab-pendahuluan}} {{/bab-pendahuluan}}untuk pendahuluan. 2 {{bab-metode}} {{/bab-metode}} untuk metode.

3 {{bab-hasil}} {{/bab-hasil}} untuk hasil dan pembahasan. 4 {{bab-penutup}} {{/bab-penutup}} untuk penutup.

5 {{{subbab1}}} {{{/subbab1}}} untuk subbab.

6 {{{kesimpulan}}} {{{/kesimpulan}}} untuk kesimpulan. 7 {{{{paragraf1}}}} {{{{/paragraf1}}}} untuk paragraf.

Ada beberapa aturan yang digunakan untuk pengumpulan dokumen sebagai berikut:

1 Tabel, gambar, persamaan, algoritme beserta isinya dihapus dari dokumen. 2 Bukan berupa list pendek, kecuali pada bagian kesimpulan dan saran. 3 Tinjauan pustaka yang ada di dalam dokumen dihilangkan.

4 Judul bab dan subbab dihilangkan. 5 Catatan kaki dihilangkan.

Parsing Kalimat

Dalam parsing kalimat dilakukan pemisahan kalimat, case folding, dan

filtering kata. Dalam pemisahan kalimat memperhatikan tanda baca seperti tanda titik (.), tanda tanya (?), dan tanda seru (!). Untuk kalimat kutipan yang

(16)

4

menggunakan tanda baca kutip dua (“ “), apabila berada sebelum tanda titik, tanda tanya, dan tanda seru, maka dianggap satu kalimat.

Tahap case folding merupakan tahapan mengubah huruf dalam kalimat menjadi huruf yang sama. Dalam penelitian ini semua huruf dalam kalimat akan diubah menjadi huruf kecil (lower case). Contoh pemisahan kalimat dan case folding dapat dilihat pada Gambar 2.

Tahap selanjutnya melakukan filtering kata. Dalam filtering kata dilakukan pembuangan kata-kata yang sering muncul tapi tidak punya makna yang penting, disebut juga dengan stopword (Kogilavani dan Balasubramani 2010). Contoh

filtering kata dapat dilihat pada Gambar 3.

Gambar 3 Filtering kata

(17)

5 Fitur Kalimat

Penelitian ini mengacu pada penelitian Aristoteles et al. (2012) yang menggunakan fitur kalimat sebagai berikut posisi kalimat, kemiripan antarkalimat, kalimat yang mengandung nama entiti, kalimat yang mengandung data numerik, kalimat yang menyerupai judul dokumen, dan panjang kalimat.

Posisi Kalimat (f1)

Fitur kalimat berdasarkan posisi kalimat terdiri atas posisi kalimat dalam pendahuluan, posisi kalimat dalam metode, posisi kalimat dalam hasil dan pembahasan, dan posisi kalimat dalam kesimpulan.

Posisi Kalimat dalam Pendahuluan (f1a)

Posisi kalimat S dalam setiap subbab pada pendahuluan dapat dihitung dengan:

Skor f_1a= P_N

dengan P adalah posisi paragraf di mana kalimat S berada dan N adalah jumlah paragraf. Berikut ini contoh fitur kalimat berdasarkan posisi kalimat dalam pendahuluan yang dikutip dari penelitian Mustika (2006).

“Dewasa ini, ketersediaan data semakin melimpah, apalagi ditunjang dengan banyaknya kegiatan yang sudah dilakukan secara terkomputerisasi. Namun seringkali data tersebut hanya disimpan tanpa diolah lebih lanjut sehingga tidak mempunyai nilai guna lebih untuk keperluan di masa mendatang”.

Berdasarkan contoh tersebut diasumsikan posisi paragraf adalah paragraf pertama dengan jumlah paragraf pada subbab pertama adalah 4, maka perhitungan skor fitur kalimat berdasarkan posisi kalimat dalam pendahuluan untuk seluruh kalimat pada paragraf pertama adalah 1₄, skor untuk seluruh kalimat pada paragraf kedua adalah 2₄, skor untuk seluruh kalimat pada paragraf ketiga adalah 3₄, dan skor untuk seluruh kalimat pada paragraf keempat adalah 4₄.

Posisi Kalimat dalam Metode (f1b)

Posisi kalimat S dalam setiap subbab pada metode dapat dihitung dengan: Skor f₁_b = (K-(M_K -1))

dengan K adalah jumlah kalimat dalam paragraf dan M adalah posisi kalimat S

dalam paragraf. Berikut contoh fitur kalimat berdasarkan posisi kalimat dalam metode yang dikutip dari penelitian Mustika (2006).

Berdasarkan contoh tersebut jumlah kalimat adalah 2, maka skor kalimat pertama adalah 2₂ dan skor kalimat kedua adalah 1₂.

(1)

(18)

6

Posisi Kalimat dalam Hasil dan Pembahasan (f1c)

Posisi kalimat S dalam setiap subbab hasil dan pembahasan dapat dihitung dengan:

Skor f₁_c = M_n

dengan n adalah jumlah kalimat dalam paragraf dan M adalah posisi kalimat S

dalam paragraf. Berikut contoh fitur kalimat berdasarkan posisi kalimat dalam hasil dan pembahasan yang dikutip dari penelitian Mustika (2006).

Berdasarkan contoh tersebut skor kalimat pertama adalah 1₂ dan skor kalimat kedua adalah 2₂.

Posisi Kalimat dalam Kesimpulan (f1d)

Posisi kalimat S dalam kesimpulan dapat dihitung dengan: Skor f_1d = (j - (Z_j - 1))

dengan j adalah jumlah kalimat dalam paragraf dan Z adalah posisi kalimat S dalam paragraf. Berikut contoh fitur kalimat berdasarkan posisi kalimat dalam kesimpulan yang dikutip dari penelitian Mustika (2006).

“Sebagian besar aturan asosiasi memiliki nilai fuzzy confidence yang tinggi karena nilai fuzzy support gabungan antecedent dengan consequent juga tinggi. Parameter yang paling mempengaruhi jumlah aturan asosiasi yang dihasilkan adalah nilai minsup”.

Berdasarkan contoh tersebut skor kalimat pertama adalah 2₂ dan skor kalimat kedua adalah 1₂.

Kemiripan Antarkalimat (f2)

Kemiripan antarkalimat merupakan kata yang muncul dalam suatu kalimat juga ada dalam kalimat yang lain. Dapat dirumuskan sebagai berikut:

Skor f₂ = K_Ks ∩ Ko

s∪Ko

dengan Ks adalah kata dalam kalimat S dan Ko adalah kata dalam kalimat lain.

Berikut contoh fitur kalimat berdasarkan kemiripan antarkalimat.

1 Saya pergi ke kampus

2 Kampus saya di Baranangsiang

3 Saya terlambat mengikuti pelajaran

Berdasarkan contoh kalimat pertama memiliki 2 kata yang sama dengan kalimat kedua dan ketiga, yaitu “saya, kampus”. Kalimat kedua memiliki 2 kata yang sama dengan kalimat pertama dan ketiga, yaitu “saya, kampus”. Sedangkan kalimat ketiga memiliki 1 kata yang sama dengan kalimat pertama dan kedua, yaitu (3)

(4)

(19)

7 “saya”. Maka skor kalimat pertama adalah 2₉, skor kalimat kedua adalah 2₉, dan skor kalimat ketiga adalah 1₉.

Kalimat yang Mengandung Nama Entitas (f3)

Nama entitas merupakan kumpulan kata yang memiliki makna, seperti nama institusi, nama orang, nama negara, nama daerah, dan nama pulau. Dapat dirumuskan sebagai berikut:

Skor f₃ = E

Ls

dengan E adalah jumlah entitas dalam kalimat S dan Ls adalah panjang kalimat S. Berikut contoh fitur kalimat berdasarkan kalimat yang mengandung nama entitas yang dikutip dari penelitian Sofi (2006).

“DKI Jakarta sebagai ibukota negara, saat ini mengalami pembangunan yang pesat. Pembangunan ini meliputi pembangunan rumah, gedung, perkantoran, pusat perbelanjaan, pabrik, dan lain sebagainya, yang membuat DKI Jakarta semakin padat”.

Berdasarkan contoh kalimat yang mengandung nama entitas terdapat pada kalimat pertama dan kedua, yaitu “DKI Jakarta” merupakan nama provinsi. Maka skor kalimat pertama adalah 1₇ dan skor kalimat kedua adalah ₁₃1. Dalam menghitung panjang kalimat, kata yang termasuk stopword tidak ikut dihitung.

Kalimat yang Mengandung Data Numerik (f4)

Kalimat yang mengandung data numerik biasanya terdapat informasi yang penting. Dapat dirumuskan sebagai berikut:

Skor f₄ = N_Ln

s

dengan Nn adalah jumlah data numerik dalam kalimat S dan Ls adalah panjang kalimat S. Berikut contoh fitur kalimat berdasarkan kalimat yang mengandung data numerik yang dikutip dari penelitian Sofi (2006)..

“Menurut data yang diperoleh dari Dinas Pertanian dan Kehutanan Propinsi DKI Jakarta tahun 2005, tecatat bahwa di DKI Jakarta terdapat 47 area hutan yang tersebar di lima kotamadya dan masih produktif sebagai hutan kota. Keberadaan hutan kota ini jarang diketahui oleh masyarakat pada umumnya dan masyarakat Jakarta pada khususnya, sehingga pengetahuan masyarakat akan hutan kota menjadi sangat kurang”.

Berdasarkan contoh kalimat pertama memiliki 2 data numerik sedangkan kalimat kedua tidak memiliki data numerik, maka skor kalimat pertama adalah 2

23.

Kalimat yang Menyerupai Judul Dokumen (f5)

Kalimat yang menyerupai judul dokumen yaitu kata yang muncul pada kalimat juga muncul pada judul. Untuk menghitung skor kalimat yang menyerupai judul dokumen digunakan Cosine Similarity. Cosine Similarity merepresentasikan kalimat dalam bentuk vektor (Xie dan Liu 2008) sebagai berikut:

(6)

(20)

8

Skor f₅ = sim(s1, s2) = _|_{⃗⃗⃗ |}_s1s⃗⃗⃗ 1 ∙ _|⃗⃗⃗ s_{⃗⃗⃗ |}_s22 = ∑is1,i ∙ s2,i

√∑ s₁2_,_i

i √∑is22,i

dengan s1 adalah kalimat S dan s2 adalah judul dokumen. Berikut contoh fitur kalimat berdasarkan kalimat yang menyerupai judul dokumen.

Judul dokumen: Saya Terlambat 1 Saya pergi ke kampus

2 Kampus saya di Baranangsiang 3 Saya terlambat mengikuti pelajaran

Berdasarkan contoh kata “saya” pada judul dokumen muncul pada kalimat pertama, kedua, dan ketiga, sedangkan kata “terlambat” hanya muncul pada kalimat ketiga. Maka skor kalimat pertama adalah _2.451 , skor kalimat kedua adalah _2.451 , dan skor kalimat ketiga adalah _2.832 .

Panjang Kalimat (f6)

Panjang kalimat merupakan jumlah kata dalam kalimat dibagi jumlah kata unik dalam dokumen.

Skor f₆ = N_Kw

u

dengan Nwadalah jumlah kata dalam kalimat S, Kuadalah jumlah kata unik dalam

dokumen. Berikut contoh fitur kalimat berdasarkan panjang kalimat yang dikutip dari penelitian Mustika (2006).

Berdasarkan contoh kata dalam kalimat pertama berjumlah 8 (tidak termasuk

stopword), asumsikan kata unik dalam dokumen berjumlah 25 kata, maka skor kalimat pertama adalah ₂₅8 dan skor kalimat kedua adalah ₂₅8.

Seleksi Kalimat

Seleksi kalimat dilakukan setelah mendapatkan bobot kalimat. Pembobotan kalimat dihitung menggunakan persamaan regresi logistik biner. Regresi logistik merupakan metode untuk menganalisis hubungan variabel respon dan variabel penjelas yang memiliki dua atau lebih kategori (Hosmer dan Lemeshow 2000). Variabel respon yang digunakan terdiri atas 2 kategori yaitu 1 dan 0.

Ringkasan manual yang telah dibuat akan dibandingkan dengan dokumen untuk menentukan kalimat tersebut masuk ke dalam ringkasan atau tidak. Dengan memberikan tanda y=1 untuk kalimat yang “terambil sebagai ringkasan” dan y=0 untuk kalimat yang “tidak terambil sebagai ringkasan”. Menurut Hosmer dan Lemeshow (2000) regresi logistik biner adalah:

(8)

(21)

9

g = ln(_{1 -}π_π) = a0 + ∑ai f_i n

i = 1

dengan a0 adalah nilai konstanta regresi, ai adalah nilai dugaan koefisien regresi,

dan fiadalah skor fitur kalimat, di mana i = 1, 2,..., n. Apabila π merupakan peluang

kalimat terambil sebagai ringkasan (y=1) dengan π > = 0.50, maka didapatkan persamaan untuk mencari peluangnya yaitu:

π = (_{1 +}eg_e_g)

Setelah mendapatkan bobot kalimat langkah selanjutnya menyeleksi kalimat untuk membuat ringkasan menggunakan rasio kompresi ringkasan (CR) 30%, 20%, dan 10%.

Evaluasi

Pada tahap evaluasi, keakuratan hasil ringkasan manual akan dibandingkan dengan hasil ringkasan sistem. Untuk menghitung keakuratan tersebut digunakan perhitungan Precision (P), Recall (R), F-Measure (F-1), dan akurasi dari dokumen.

Precision adalah proporsi kalimat yang diprediksi benar dan kenyataannya masuk kategori benar, sedangkan recall adalah proporsi kalimat yang termasuk kategori benar dan tepat masuk dalam kategori benar tersebut (Power 2011). F-Measure

adalah gabungan dari recall dan precision (Zaman dan Winarko 2011). Akurasi adalah perbandingan jumlah kalimat benar dengan total kalimat keseluruhan. Dalam memudahkan perhitungan dapat digunakan tabel pendukung (matrix confusion) seperti Tabel 1. Matrix confusion merupakan matriks yang berisi informasi pengklasifikasian aktual dan prediksi oleh sistem (Wijakso 2012).

Perhitungan precision, recall, f-measure, dan akurasi berdasarkan Tabel 1 menurut Manning et al. (2008) sebagai berikut:

P = ₍_tp₊tp_fp₎

R = ₍_tp₊tp_fn₎

F-1 = (2 × ₍_R₊R × _P₎P)

Akurasi = ₍ (tp + tn)

tp + fp + fn + tn) Tabel 1 Matrix confusion

(22)

10

dengan true positive (tp) adalah kalimat yang ada dalam ringkasan manual dan muncul dalam ringkasan sistem, false positive (fp) adalah kalimat yang tidak ada dalam ringkasan manual tapi kalimat tersebut muncul dalam ringkasan sistem, false negative (fn) adalah kalimat yang ada dalam ringkasan manual tapi tidak muncul dalam ringkasan sistem, dan true negative (tn)adalah kalimat yang tidak ada dalam ringkasan manual maupun dalam ringkasan sistem.

HASIL DAN PEMBAHASAN

Pengumpulan Dokumen

Dokumen yang digunakan pada penelitian ini adalah skripsi mahasiswa Departemen Ilmu Komputer yang berjumlah 100 dokumen. Dokumen tersebut diunduh dari repository.ipb.ac.id dalam format file.pdf. Dokumen tersebut dikonversi ke dalam bentuk file.txt, misalnya 1.txt. Rata-rata jumlah kalimat awal untuk 100 dokumen tersebut yaitu 212 dengan jumlah kalimat terendah yaitu 100 pada dokumen 61.txt dan tertinggi yaitu 420 pada dokumen 9.txt. Namun rata-rata kalimat menjadi 134 setelah dilakukan penghapusan tinjauan pustaka dan kalimat yang menjelaskan tentang gambar, grafik maupun tabel. Rata-rata perbandingan kalimat yang terambil setelah dilakukan penghapusan sebesar 65.67% dengan rata-rata terendah adalah 35.97% pada dokumen 100.txt dan tertinggi adalah 93.22% pada dokumen 99.txt. Ukuran dokumen terendah adalah 12 KB dan terbesar 40 KB. Selanjutnya dokumen tersebut digunakan untuk membuat ringkasan manual.

Parsing Kalimat

Pemisahan kalimat dilakukan berdasarkan aturan yang telah dijelaskan pada metode penelitian. Jumlah kalimat terendah yaitu 64 pada dokumen 31.txt dan tertinggi yaitu 308 pada dokumen 9.txt. Namun, dalam prosesnya terdapat kendala pada penggunaan tanda titik (.). Karena tanda titik (.) bukan hanya digunakan sebagai tanda akhir kalimat, tapi digunakan juga untuk penulisan bilangan desimal atau penulisan format file. Sehingga, ditambahkan aturan untuk mengganti tanda titik (.) pada kasus-kasus tersebut, di antaranya:

1 Tanda titik (.) pada bilangan desimal diganti dengan tanda bintang (*). Misalnya 25.10 diganti menjadi 25*10.

2 Tanda titik (.) pada penulisan ”et al.” dihilangkan sehingga menjadi ”et al”.

3 Tanda titik (.) pada format file diganti menjadi tanda bintang (*). Misalnya .txt diganti menjadi *txt.

FiturKalimat

(23)

11 berdasarkan metode (f1b), posisi kalimat berdasarkan hasil dan pembahasan (f1c),

posisi kalimat berdasarkan kesimpulan (f1d), kemiripan antarkalimat (f2), kalimat

yang mengandung entitas (f3), kalimat yang mengandung data numerik (f4), kalimat yang menyerupai judul dokumen (f5), dan panjang kalimat (f6).

Posisi Kalimat dalam Pendahuluan (f1a)

Kalimat dalam pendahuluan memiliki nilai rata-rata 0.16 dengan rata-rata terendah 0.06 pada dokumen 9.txt dan tertinggi 0.27 pada dokumen 44.txt. Pada dokumen 9.txt jumlah nilai kalimat yang terambil sebagai kalimat dalam pendahuluan adalah 18.5 menghasilkan rata-rata 0.06 dengan jumlah kalimat 308. Sedangkan pada dokumen 44.txt jumlah nilai kalimatnya 20.8 menghasilkan rata-rata 0.27 dengan jumlah kalimat 78. Dari hasil pengamatan tersebut diperoleh bahwa jumlah kalimat yang muncul dalam paragraf akan mempengaruhi tinggi rendahnya jumlah nilai kalimat dan akan mempengaruhi nilai rata-ratanya.

Posisi Kalimat dalam Metode (f1b)

Kalimat dalam metode memiliki nilai rata-rata 0.19 dengan rata-rata terendah 0.05 pada dokumen 11.txt dan tertinggi 0.35 pada dokumen 48.txt. Ada 153 kalimat yang muncul dalam metode pada dokumen 11.txt dengan jumlah nilai kalimat 7.5 dan pada dokumen 48.txt ada 180 kalimat dengan jumlah nilai kalimat 64. Dari hasil pengamatan diperoleh bahwa jumlah nilai kalimat yang kecil akan mempengaruhi rendahnya nilai rata-ratanya apabila jumlah kalimatnya banyak. Posisi Kalimat dalam Hasil dan Pembahasan (f1c)

Kalimat dalam hasil dan pembahasan memiliki nilai rata-rata 0.28 dengan ratarata terendah 0.03 pada dokumen 54.txt dengan jumlah nilai kalimat 30 serta jumlah kalimat 106. Untuk rata-rata tertinggi 0.54 pada dokumen 11.txt dengan jumlah nilai kalimat 82 serta jumlah kalimat 153. Dari hasil pengamatan diperoleh bahwa jumlah nilai kalimat yang kecil akan mempengaruhi rendahnya nilai rata-rata.

Posisi Kalimat dalam Kesimpulan (f1d)

Kalimat dalam kesimpulan memiliki nilai rata-rata 0.05 dengan rata-rata terendah 0.02 pada dokumen 65.txt dengan jumlah kalimat 183 dan jumlah nilai kalimat 3.00. Dokumen 85.txt merupakan dokumen yang memiliki rata-rata tertinggi sebesar 0.20 dengan jumlah kalimat 159 dan jumlah nilai kalimat 3.17. Perbedaan jumlah nilai antara rata-rata terendah dan tertinggi tidak terlalu signifikan disebabkan karena jumlah kalimat yang muncul antara 4 sampai 13. Kemiripan Antarkalimat (f2)

(24)

12

adalah satu kalimat baru dan menyebabkan kalimat tersebut bernilai 0. Kalimat yang tidak memiliki kemiripan dengan kalimat lainnya dapat dilihat pada Tabel 2.

Kalimat yang Mengandung Data Numerik (f4)

Kalimat yang mengandung data numerik memiliki rata 0.05 dengan rata-rata terendah 0.005 pada dokumen 3.txt dan 5.txt, sedangkan tertinggi 0.13 pada dokumen 40.txt. Dari hasil pengamatan walaupun dokumen 3.txt dan 5.tx merupakan nilai terendah, namun jumlah kalimat yang mengandung data numerik berbeda. Untuk dokumen 3.txt ada 8 kalimat yang mengandung data numerik sedangkan dokumen 5.txt memiliki 5 kalimat yang mengandung data numerik. Panjang kalimat dan jumlah data numerik dalam kalimat juga mempengaruhi nilai kalimat. Pada dokumen 75.txt merupakan dokumen yang memiliki nilai tertinggi yaitu sebesar 2, karena data numerik dalam kalimat berjumlah 8 sedangkan panjang kalimat 4. Hal tersebut terjadi karena kalimat data numerik ada dalam satu kata yang dipisahkan oleh huruf yaitu: nilai hash yang didapatkan yaitu 932625cac9419081a92c4d6af3b5da44.

Kalimat yang Menyerupai Judul Dokumen (f5)

Dari hasil pengamatan nilai rata-rata untuk kalimat yang menyerupai judul adalah 0.26 dengan rata-rata terendah 0.01 pada dokumen 76.txt dan tertinggi 0.58 pada dokumen 97.txt. Nilai terendah 0.50 pada dokumen 99.txt dan tertinggi 1 pada 10 dokumen. Ada 48 dokumen yang memiliki rata-rata di atas 0.26. Banyaknya jumlah kata yang muncul dalam satu kalimat menghasilkan nilai kalimatnya tinggi. Panjang Kalimat (f6)

Dari hasil pengamatan nilai rata-rata sebesar 0.06 dengan rata-rata terendah 0.03 pada dokumen 9.txt dan tertinggi 0.10 pada dokumen 64.txt. Dengan nilai rata-rata panjang kalimat terendah 0.08 pada dokumen 48.txt dan tertinggi 0.38 pada

Tabel 2 Dokumen yang memiliki kalimat yang bernilai 0

Dokumen Kalimat

3.txt apakah point, polygon, atau line.

6.txt Coming together is a beginning, staying together is process, and working together is success.

19.txt direktori-direktori tersebut adalah /home/ilos/.config, /home/ilos/.gconf, /home/ilos/.gconfd, dan /home/ilos/.gnome2. 43.txt crebrisculpta (Dharma 1988).

48.txt (marcus et al 2004).

51.txt hal ini dilakukan untuk mempermudah dalam pemrosesan selanjutnya.

59.txt s-p-o-pel-k

80.txt semakin besar coverage-nya, maka semakin besar representasi mikroorganismenya.

(25)

13 dokumen 41.txt. Walaupun jumlah panjang kalimat dalam suatu kalimat pada dokumen yang berdeda adalah sama, apabila jumlah kata uniknya besar maka nilai kalimat kecil.

Seleksi Kalimat

Untuk menyeleksi kalimat yang terambil sebagai ringkasan menggunakan perhitungan regresi logistik biner. Nilai regresi logistik biner diperoleh dari nilai-nilai fitur kalimat. Nilai yang dihasilkan yaitu g = (-1.51672) + (-0.02115 f1a) + (0.45545 f1b) +(-0.28097 f1c) + (0.26993 f1d) + (21.71967 f2) + (1.68182 f3) + (0.97838 f4) + (1.60137 f5) + (2.39809 f6). Dari persamaan tersebut akan menghasilkan nilai bobot masing-masing kalimat. Bobot kalimat tersebut diurutkan dari yang terbesar dengan ketentuan bobot kalimat yang lebih besar sama dengan 0.50 akan terambil sebagai kalimat ringkasan. Bobot kalimat yang telah terurut akan diseleksi menggunakan CR 30%, 20%, dan 10% untuk dijadikan ringkasan. Pada ringkasan sistem, kalimat dengan bobot di bawah 0.50 terambil sebagai ringkasan pada CR 30% karena jumlah kalimat dengan bobot lebih dari 0.50 kurang dari jumlah kalimat yang dibutuhkan untuk dijadikan ringkasan. selain itu judul dokumen juga terambil sebagai ringkasan yang muncul pada kalimat terakhir ringkasan tersebut. Padahal di dalam penghitungan fitur kalimat, judul dokumen tidak termasuk dalam banyaknya jumlah kalimat.

Evaluasi

Proses evaluasi ini bertujuan untuk membandingkan ringkasan manual dengan hasil ringkasan sistem. Dari hasil pengamatan pada CR 10% diperoleh kalimat yang sama sebanyak 1 kalimat untuk nilai terendah yang terdapat pada dokumen 17.txt dan tertinggi pada 66.txt dengan kalimat yang sama 18 kalimat. Untuk CR 20% diperoleh kalimat yang sama sebanyak 3 kalimat untuk nilai terendah yang terdapat pada dokumen 17.txt dan tertinggi pada dokumen 86.txt sebanyak 32 kalimat yang sama. Sedangkan untuk CR 30% diperoleh kalimat yang sama sebanyak 6 kalimat pada dokumen 17.txt dan tertinggi sebanyak 46 kalimat yang sama pada dokumen 70.txt. Untuk melakukan evaluasi digunakan perhitungan

precision, recall, f-measure,dan akurasi.

Evaluasi dengan menggunakan precision dapat dilihat pada Gambar 4. Dari hasil pengamatan rata-rata perhitungan pada CR 10% yaitu sebesar 60.99% dengan nilai terendah 7.69% pada dokumen 17.txt dan tertinggi 100% pada dokumen 69.txt. Untuk CR 20% rata-rata sebesar 54.62% dengan nilai terendah 11.54% pada dokumen 17.txt dan tertinggi 85.71% pada dokumen 88.txt. Sedangkan CR 30% rata-rata sebesar 52.02% dengan nilai terendah 15.22% pada dokumen 9.txt dan tertinggi 90.48% pada dokumen 88.txt. Selain itu juga menghasilkan nilai rata-rata

fp pada CR 10% sebesar 5.49, CR 20% sebesar 12.51, dan CR 30% sebesar 19.74. Dari hasil tersebut didapatkan bahwa semakin tinggi kompresi ringkasan maka semakin tinggi jumlah kalimat di sistem yang tidak terambil dalam ringkasan manual. Dapat disimpulkan bahwa semakin tinggi kompresi ringkasan dan nilai fp

(26)

14

Dengan menggunakan recall didapatkan rata-rata perhitungan untuk CR 10% yaitu sebesar 16.02% dengan nilai terendah 5.00% pada dokumen 17.txt dan tertinggi 32.14% pada dokumen 19.txt, CR 20% sebesar 28.94% dengan nilai terendah 15.11% pada dokumen 51.txt dan tertinggi 48.65% pada dokumen 3.txt, sedangkan CR 30% sebesar 41.16% dengan nilai terendah 23.68% pada dokumen 14.txt dan tertinggi 62.16% pada dokumen 57.txt dapat dilihat pada Gambar 5. Dari hasil pengamatan pada CR 10% didapatkan nilai rata-rata fn sebesar 41.56, CR 20% sebesar 35.16, dan CR 30% sebesar 29.04. Hasil tersebut menunjukkan bahwa semakin tinggi kompresi ringkasan dan nilai fn rendah maka semakin tinggi kalimat ringkasan manual yang muncul pada sistem. Hal ini terjadi karena jumlah kalimat ringkasan manual lebih banyak dibanding dengan ringkasan sistem.

Selanjutnya perhitungan dengan f-measure dengan memperhatikan nilai

recall dan precision. Pada penelitian ini nilai precision mengalami penurunan dari kompresi ringkasan CR 10% sebesar 6.37% terhadap CR 20% dan 8.97% terhadap CR 30%. Namun mengalami kenaikan sebesar 12% terhadap CR 20% dan 25.16% terhadap CR 30% pada nilai recall. Dihasilkan nilai rata-rata perhitungan untuk CR 10% yaitu sebesar 25.06% dengan nilai terendah 6.06% pada dokumen 17.txt dan tertinggi 40.91% pada dokumen 60.txt. Untuk CR 20% sebesar 37.39% dengan nilai terendah 13.04% pada dokumen 17.txt dan tertinggi 59.02% pada dokumen 3.txt. Sedangkan CR 30% sebesar 45.42% dengan nilai terendah 20.34% pada dokumen 17.txt dan tertinggi 67.65% pada dokumen 57.txt yang dapat dilihat pada Gambar 6. Sehingga dapat disimpulkan bahwa tingginya kompresi ringkasan, tingginya nilai

precision,dan rendahnya nilai recall menghasilkan tingginya nilai f-measure. Gambar 4 Grafik nilai rata-rata precision

(27)

15

Selain itu untuk perhitungan akurasi didapatkan hasil rata-rata untuk CR 10% yaitu sebesar 64.18% dengan nilai terendah 50.60% pada dokumen 73.txt dan tertinggi 87.01% pada dokumen 9.txt, CR 20% sebesar 63.93% dengan nilai terendah 47.06% pada dokumen 51.txt dan tertinggi 78.99% pada dokumen 3.txt, dan CR 30% sebesar 63.32% dengan nilai terendah 50% pada dokumen 5.txt serta 51.txt dan tertinggi 78.64% pada dokumen 57.txt dapat dilihat pada Gambar 7. Hasil tersebut menunjukkan bahwa akurasi tertinggi didapatkan pada CR 10%, hal

Gambar 6 Grafik nilai rata-rata f-measure

6.06

Gambar 5 Grafik nilai rata-rata recall

(28)

16

ini terjadi karena semakin sedikit hasil ringkasan maka peluang kalimat terambil sebagai ringkasan semakin tinggi. Dari hasil pengamatan pada CR 10% hanya ada 37% dokumen yang akurasinya tinggi dibanding dengan akurasi pada CR 20% dan CR 30%. Tidak dapat disimpulkan bahwa ringkasan tidak cukup baik, karena 63% dokumen yang bernilai rendah memiliki nilai akurasi di atas 50%. Hal ini berarti bahwa 63% dokumen lainnya sudah dapat merepresentasikan isi dokumen.

SIMPULAN DAN SARAN

Simpulan

Pembobotan kalimat menggunakan pembobotan fitur kalimat menghasilkan nilai rata-rata tertinggi untuk precision pada CR 10% sebesar 60.99%, recall pada CR 30% sebesar 41.16%, f-measure pada CR 30% sebesar 45.42%, dan akurasi pada CR 10% sebesar 64.18%. Berdasarkan hasil tersebut dapat disimpulkan bahwa hasil peringkasan dokumen menggunakan pembobotan fitur kalimat menunjukkan nilai akurasi yang cukup baik untuk dokumen yang panjang seperti skripsi karena untuk membuat ringkasannya tidak mudah dan memerlukan waktu untuk memahaminya.

(29)

17 Saran

Pada penelitian selanjutnya disarankan untuk menambahkan aturan pembacaan tanda titik (.) pada kalimat yang mengandung sumber rujukan agar kalimat sesudah tanda titik (.) tersebut tidak dibaca sebagai kalimat baru, serta menambahkan aturan pembacaan kalimat yang setelah tanda titik(.) tidak ada spasi padahal kalimat tersebut merupakan kalimat baru.

DAFTAR PUSTAKA

Aristoteles, Herdiyeni Y, Ridha A, Adisantoso J. 2012. Text feature weighting for summarization of documents in bahasa Indonesia using Genetic Algorithm.

IJCSI.9(1): 1–6.

Fattah MA, Ren F. 2008. Automatic text summarization. International Journal of Computer, Electrical, Automation, Control and Information Engineering.2(1): 90-93.

Hosmer DW, Lemeshow S. 2000. Applied Logistic Regression. Ed ke-2. Canada (CA): A Wiley-Interscience Publ.

Jezek K, Steiberger J. 2008. Automatic text summarization (the state of the art 2007 and new challenges). Di dalam: Znalosti 2008;Bratislave, 13-15 Feb 2008. hlm 1-12.

Kogilavani A, Balasubramani P. 2010. Clustering and feature specific sentence extraction based summarization of multiple documents. IJCSIT. 2(4): 99–111. Manning CD, Raghavan P, Schutze H. 2008. Introduction to Information Retrieval.

Cambridge (GB): Cambridge University Press.

Marlina M. 2012. Sistem peringkasan dokumen berita bahasa Indonesia menggunakan metode Regresi Logistik Biner [skripsi]. Bogor (ID): Institut Pertanian Bogor.

Mustika A. 2006. Pengembangan aplikasi Data Mining menggunakan Fuzzy Association Rules [skripsi]. Bogor (ID): Institut Pertanian Bogor.

Power DMW. 2011. Evaluation: from precision, recall and f-Measure to ROC, informedness, markedness & correlation. Journal of Machine Learning Technologies.2(1): 37–63.

Sofi F. 2006. Pengembangan Sistem Informasi Geografis hutan kota propinsi DKI Jakarta [skripsi]. Bogor (ID): Institut Pertanian Bogor.

Turney PD, Pantel P. 2010. From frequency to meaning: Vector Space Models of Semantics. Journal of Artificial Intelligence Research.37(5): 141–188.

Wijakso B. 2012. Klasifikasi jurnal ilmiah berbahasa Inggris berdasarkan abstrak menggunakan Algoritma ID3 [skripsi]. Malang (ID): Universitas Brawijaya. Xie S, Liu Y. 2008. Using corpus and knowledge based Similarity Measure

in Maximum Marginal Relevance for meeting summarization. ICASSP. 4985–4988.

(30)

18