BAB 4 HASIL DAN PEMBAHASAN

(1)

91

HASIL DAN PEMBAHASAN

4.1 Uji Algoritma

Pengujian algoritma dilakukan untuk tahap training dan testing. Setiap dokumen dalam training dan testing melalui proses read text input, pre-summarization (split into paragraphs, sentence and word tokenization, convert to lowercase, stop words elimination, dan lemmatization), serta summarization (kalkulasi TF-ISF, sentence location, relative sentence length, LDA topic modeling, title similarities, keyword similarities, sentence cohesion, numerical data, dan sentence extraction).

Akan tetapi sebelum training dan testing dilakukan, perlu diperhatikan bahwa dalam LDA topic modeling, model LDA telah dibuat sebelumnya dengan melalui inferensi hidden topic structure terhadap kumpulan dokumen berukuran sangat besar. Model LDA tersebut disimpan dan akan dipakai dalam training dan testing, khususnya pada saat transformasi bag of words dari judul, isi, dan keywords artikel ke bentuk LDA. Transformasi ini diperlukan untuk penghitungan title similarities, keyword similarities, dan sentence cohesion.

4.1.1 Spesifikasi Sistem

Untuk pengujian, algoritma Automatic Text Summarization berbahasa Indonesia diimplementasikan dengan menggunakan Python 2.7.5, Django 1.5.2., package NLTK 2.0.4, library Gensim 0.8.6, database MySQL 5.5.32, dan web server Apache 2.4.4 pada localhost environment.

Komputer dilengkapi dengan processor Intel Core 2 Duo P8800 2.66 GHz dan RAM sebesar 4 GB.

4.1.2 Training

Dokumen training yang digunakan berjumlah 100 dokumen berbahasa Indonesia yang merupakan kumpulan artikel dari situs kompas.com, detik.com, tempo.co, gatra.com, chip.co.id, dan femina.co.id. Artikel yang digunakan merupakan artikel dari tanggal 29 Februari 2012 sampai 6 Desember 2013. Jumlah kalimat per artikel berada pada rentang 6-67 kalimat. Rata-rata jumlah kalimat per artikel yaitu 16,11 kalimat.

(2)

Ringkasan referensi yang digunakan adalah hasil ringkasan manual yang dibuat oleh 38 orang dengan rasio sebesar 30% pada tanggal 7-12 Desember 2013. Ringkasan sistem yang digunakan pada tahap training memiliki rasio 30%.

Input judul, isi dokumen, dan rasio akan divalidasi terlebih dahulu. Kemudian pre-summarization akan dijalankan. Setelah isi dokumen dipisahkan ke dalam paragraf-paragraf, NLTK tokenizer digunakan untuk sentence and word tokenization. Lalu disusul oleh konversi ke huruf kecil, eliminasi stop words, dan lemmatization. Dalam lemmatization akan dilakukan dictionary lookup ke database MySQL kamus bahasa Indonesia. Proses selanjutnya adalah summarization. Kalkulasi nilai features TF-ISF, lokasi kalimat, panjang relatif kalimat, LDA topic modeling, title similarities, keyword similarities, sentence cohesion, dan numerical data akan dilakukan. Hasilnya akan dipakai untuk ekstraksi kalimat ringkasan sesuai dengan input rasio. Setelah melalui proses read input text, pre-summarization, dan summarization, nilai features setiap kalimat akan digunakan dalam training Genetic Algorithm untuk menemukan bobot masing-masing feature.

Genetic Algorithm dilakukan untuk 100 generasi, dengan masing-masing generasi terdiri dari 1000 kromosom. Elitist selection diberlakukan dengan meloloskan secara langsung 50 kromosom yang memiliki nilai fitness tertinggi. Crossover rate yang digunakan adalah 0,8 dan mutation rate sebesar 0,2.

Training GA berlangsung selama 18 menit 41,792 detik. Berdasarkan hasil training, nilai fitness tertinggi diperoleh dari kromosom '1001111011001111111010011001' dengan nilai presisi rata-rata 100 dokumen sebesar 0,5549982. Kromosom tersebut di-decode per 4 bits sehingga diperoleh 7 nilai bobot features dengan rentang nilai 0-15.

(3)

Tabel 4.1 Bobot Features Hasil Training Genetic Algorithm

Features Binary Kromosom Bobot Features

TF-ISF 1001 9

Sentence location 1110 14

Relative sentence length 1100 12

Title similarities 1111 15

Keyword similarities 1110 14

Sentence cohesion 1001 9

Numerical data 1001 9

Persamaan umum nilai kalimat berdasarkan bobot features (Wk) dan nilai sentence features (S_Fk(S)) adalah sebagai berikut:

Dengan demikian setelah bobot features hasil training GA disertakan, maka persamaan lengkap untuk kalkulasi nilai kalimat pada tahap testing yaitu:

4.1.3 Testing

Tahap testing merupakan tahap pembuatan ringkasan yang nantinya akan dipakai oleh pengguna. Sejumlah 50 artikel berbahasa Indonesia diambil dari situs kompas.com (20 artikel), detik.com (10 artikel), tempo.co (2 artikel), gatra.com (8 artikel), chip.co.id (2 artikel), dan femina.co.id (8 artikel) untuk menjadi bagian dari kumpulan dokumen testing. Ringkasan referensi yang digunakan adalah hasil ringkasan manual. Ringkasan referensi tersebut akan menjadi tolak ukur bagi ringkasan yang dihasilkan oleh sistem.

Kumpulan 50 artikel dibuat ringkasan manualnya oleh 29 orang pada tanggal 15-20 Desember 2013. Tanggal publikasi artikel tersebut yaitu antara 24 Januari 2011 sampai 14 Desember 2013. Jumlah kalimat per artikel berada pada rentang 5-33 kalimat dengan rata-rata 14,94 kalimat per artikel. Jumlah kata per artikel berkisar antara 114-571 kata dan rata-ratanya yaitu 280,12 kata.

(4)

Setelah input judul, isi dokumen, dan rasio ringkasan diterima, akan dilakukan validasi terlebih dahulu. Langkah berikutnya adalah pre-summarization. Isi dokumen yang sudah dipisahkan ke dalam paragraf-paragraf, akan diproses dengan bantuan NLTK tokenizer untuk sentence and word tokenization. Seluruh token akan dikonversi ke huruf kecil, stop words dieliminasi, dan dilakukan lemmatization. Lemmatization menggunakan dictionary lookup ke database MySQL kamus bahasa Indonesia. Setelah pre-summarization tersebut selesai dijalankan, maka akan dilanjutkan ke proses inti yaitu summarization. Untuk setiap kalimat akan dilakukan kalkulasi nilai features TF-ISF, lokasi kalimat, panjang relatif kalimat, LDA topic modeling, title similarities, keyword similarities, sentence cohesion, dan numerical data. Masing-masing nilai feature akan dikalikan dengan bobot feature yang telah didapat dari training dalam persamaan berikut ini.

Kalimat-kalimat akan diurutkan dari nilai terbesar hingga terkecil. Sejumlah kalimat dengan nilai teratas akan diekstraksi untuk menjadi ringkasan. Jumlah kalimat yang terpilih untuk menjadi bagian dari ringkasan diperoleh dari input rasio dikalikan dengan jumlah kalimat. Tersedia pilihan rasio 5%-50% dengan interval 5%.

Berikut ini adalah contoh salah satu artikel dan hasil ringkasan sistem dengan menggunakan rasio 30%. Artikel berjudul "Mudah Fokus pada Detail Tanda IQ Tinggi?" ditulis oleh Lusia Kus Anna dan dipublikasikan di situs Kompas pada tanggal 27 Mei 2013. Artikel diakses tanggal 6 Desember 2013 dengan sumber: http://health.kompas.com/read/2013/05/27/1719535/Mudah.Fokus.pada.Detail.Tanda .IQ.Tinggi.

(5)

Artikel asli:

Mudah Fokus pada Detail Tanda IQ Tinggi?

Sebuah riset terbaru menunjukkan bahwa kecerdasan adalah soal bagaimana pilihan otak untuk mengabaikan sesuatu, bukannya tentang kemampuan otak memproses informasi dengan cepat.

Orang yang memiliki tingkat kecerdasan (IQ) tinggi cenderung lebih lambat mendeteksi gerakan besar di latar belakang karena otak mereka menyaring informasi yang dianggap tidak penting. Karena itu mereka lebih pandai dalam mendeteksi obyek bergerak berukuran kecil.

Penelitian tersebut dilakukan terhadap 53 orang dan dimuat dalam Current Biology. Penelitian dilakukan dengan tes penglihatan dan tes kecerdasan standar.

Hasil penelitian menunjukkan, orang dengan skor IQ tinggi lebih cepat dalam mengenali gerakan arah panah berukuran kecil di layar komputer.

"Dari studi sebelumnya kami menyangka para partisipan akan kesulitan mendeteksi gerakan besar, tetapi ternyata orang dengan IQ tinggi paling payah dalam hal itu," kata Michael Melnick dari Universitas Rochester.

Para peneliti menjelaskan bahwa dalam kebanyakan skenario, gerakan di latar belakang tidak terlalu penting dibanding objek kecil yang bergerak di bagian depan. Misalnya saja saat menyetir mobil, berjalan di lorong, atau menggerakkan mata ke dalam ruangan.

Semakin tinggi tingkat kecerdasan seseorang, demikian juga dengan kemampuan mereka menyaring gerakan di latar belakang yang mengganggu dan berkonsentrasi pada apa yang ada di depan.

"Untuk kecerdasan, dibutuhkan kemampuan memproses informasi penting dengan cepat. Tapi kita juga perlu bisa fokus pada informasi yang paling penting dan menyaring yang tidak penting," kata Duje Tadin, salah satu peneliti.

Dalam studi awal terhadap 12 orang, ada korelasi sebesar 64 persen antara penekanan gerakan dan tingkat IQ. Dalam studi lebih besar terhadap 53 orang, kaitannya mencapai 71 persen.

Meski begitu kemampuan untuk mengabaikan gerakan di latar belakang bukan satu-satunya cara untuk mengukur kecerdasan. Hal ini karena kecerdasan adalah susunan yang selalu berubah, kita tidak bisa mendeteksinya hanya dari satu bagian otak saja.

"Namun karena tes ini sangat sederhana dan paling dekat dengan nilai IQ, maka ini bisa menjadi petunjuk tentang apa yang membuat otak lebih efisien dan tentunya lebih cerdas," kata Tadin.

(6)

Hasil ringkasan sistem dengan rasio 30%:

4.1.3.1 Kecepatan

Dalam uji pembuatan ringkasan untuk 50 dokumen, ditemukan bahwa rasio ringkasan tidak memengaruhi kecepatan. Tabel berikut ini menunjukkan rincian waktu proses yang diperlukan untuk membuat ringkasan.

Tabel 4.2 Rincian Uji Kecepatan Pembuatan Ringkasan

No Judul Artikel Jumlah

Kalimat

Jumlah Kata

Waktu (detik)

1 Kirim Surat Jadi Lebih Asyik dengan Cookies

Huruf Ini! 17 233 3,082

2 Mungkin Ini Penyebab Orang Ketagihan

Biskuit Oreo 16 267 2,906

3 Semangka Mini Ini Dibuat Acar dan Obat di

Amerika Selatan 17 252 2,824

4 Sering Makan Umphokoqo Jadi Rahasia Umur

Panjang Nelson Mandela 18 258 2,837

5 Batasi Konsumsi Gula 5 Sendok Teh Sehari

Agar Tak Mudah Sakit Gigi 16 248 2,672

Mudah Fokus pada Detail Tanda IQ Tinggi?

Sebuah riset terbaru menunjukkan bahwa kecerdasan adalah soal bagaimana pilihan otak untuk mengabaikan sesuatu, bukannya tentang kemampuan otak memproses informasi dengan cepat. Orang yang memiliki tingkat kecerdasan (IQ) tinggi cenderung lebih lambat mendeteksi gerakan besar di latar belakang karena otak mereka menyaring informasi yang dianggap tidak penting. "Dari studi sebelumnya kami menyangka para partisipan akan kesulitan mendeteksi gerakan besar, tetapi ternyata orang dengan IQ tinggi paling payah dalam hal itu," kata Michael Melnick dari Universitas Rochester. "Untuk kecerdasan, dibutuhkan kemampuan memproses informasi penting dengan cepat. Tapi kita juga perlu bisa fokus pada informasi yang paling penting dan menyaring yang tidak penting," kata Duje Tadin, salah satu peneliti. "Namun karena tes ini sangat sederhana dan paling dekat dengan nilai IQ, maka ini bisa menjadi petunjuk tentang apa yang membuat otak lebih efisien dan tentunya lebih cerdas," kata Tadin.

(7)

6 Hati-hati, Konsumsi Susu Sapi Mentah

Sebabkan Infeksi Bakteri 16 293 3,030

7 Cegah Bakteri pada Miss V dengan Konsumsi

Yogurt dan Kacang 14 218 2,718

8 Sapi yang Diberi Pakan Rumput dan Red

Clover Hasilkan Susu Tinggi Omega 12 235 2,624

9 Mengantuk Bikin Ngidam Junk Food 18 282 2,891

10 Peningkatan Konsumsi Daging di India dan

China Berpotensi Rusak Lingkungan 12 231 2,666

11 Tanda-tanda Kecanduan Gula 19 375 2,984

12 Mengatasi Anak yang Kecanduan Game 33 571 3,642

13 Gigi Habis karena Kecanduan Minuman

Ringan 12 288 2,650

14 Ganja Berpotensi Cegah Kerusakan Otak 14 314 2,996 15 Mudah Fokus pada Detail Tanda IQ Tinggi? 16 318 2,904

16 Obat Migrain Saat Hamil Kurangi Kecerdasan

Bayi 13 245 3,041

17 Tanda-tanda Anak Punya Kecerdasan Tinggi 23 381 3,024 18 Pencernaan Sehat Pengaruhi Kecerdasan Anak 14 291 2,900

19 Agar Anak Pintar Baca, Konsumsi Ini Selama

Hamil 16 286 2,773

20 Jutaan Perokok Pasif Ikut Tanggung Risiko

Kesehatan 18 362 3,026

21 Cegah Perokok Pasif 17 343 2,886

22 Perokok Pasif Paling Dirugikan 22 383 3,258

23 Perokok Pasif Berisiko Lebih Tinggi Diabetes 11 271 2,713 24 Indonesia dalam Kondisi Bahaya Narkoba 6 204 2,586 25 Alkohol Tak Bantu Lupakan Kenangan Buruk 19 337 3,142 26 Benarkah Bir Punya Manfaat Kesehatan? 22 390 3,158

27 Alkohol Bukan Pelepas Stres 15 320 2,844

28 Salah Diet, Risiko Osteoporosis Orang Gemuk

(8)

29 Tangkal Osteoporosis dengan Susu atau

Suplemen Kalsium? 19 339 3,186

30 Ubah Perilaku Jika Ingin Makan Sehat 16 310 3,234

31 Intel dan Kemdikbud Berikan Penghargaan

Kepada 6 Guru Berprestasi 12 379 3,268

32 Link Facial Coding, Membaca Respons Iklan di

TV Lewat Raut Wajah 12 250 2,882

33 Ketidakpastian Nilai Rupiah 12 160 2,570

34 Investasi di Bursa 8 114 2,402

35 Proposal Kredit yang Baik 11 178 2,525

36 Koleksi Kartu Keanggotaan 7 141 2,454

37 Samuel Wattimena Menang Di Fiji Fashion

Week 2013 5 143 2,395

38 Kesepakatan Soal Karier 14 242 2,588

39 Warna Alami Henna 8 120 2,454

40 Guratan Hitam, Kohl 8 160 2,454

41 Qiang Hui Optimistis Indonesia Bisa Raih

Emas 14 282 2,900

42 Tiger Woods Kehilangan Salah Satu Sponsor 22 313 3,289

43 Konversi BBM ke BBG Terus Diupayakan bagi

Nelayan 6 170 2,632

44 Indonesia Harus Tolak Didikte Negara Maju di

WTO 24 399 3,146

45 Gubernur BI Terus Berupaya Jaga Likuiditas 7 153 2,424

46 Pasar Keuangan Indonesia Pengaruhi Gejolak

Nilai Tukar Rupiah 15 281 2,694

47 Dua Faktor Macetkan Sistem Presidensil 22 456 3,100

48 Mahfud: Presidensil Macet Karena Presiden

"Disandera" 17 390 2,870

49 JK:Saya Tidak Akan Pernah Keluar dari Golkar 14 266 2,691

50 Presidensial Tak Efektif karena SBY Resmi

(9)

Kumpulan 50 artikel tersebut memiliki rata-rata waktu proses 2,85062 detik untuk rata-rata panjang artikel 14,94 kalimat dan 280,12 kata. Rangkuman dari rincian uji kecepatan pembuatan ringkasan dapat dilihat pada tabel berikut ini.

Tabel 4.3 Gambaran Umum Uji Kecepatan Pembuatan Ringkasan

Artikel Waktu Tercepat (Jumlah Kalimat, Jumlah Kata) Waktu Terlama (Jumlah Kalimat, Jumlah Kata) Rata-rata Waktu (Rata-rata Kalimat, Kata) 50 artikel 2,395 detik (5 kalimat, 143 kata) 3,642 detik (33 kalimat, 571 kata) 2,85062 detik (rata-rata 14,94 kalimat, 280,12 kata)

Dapat disimpulkan bahwa jumlah kalimat dan kata dalam dokumen memiliki pengaruh terhadap lama waktu pembuatan ringkasan, tetapi tidak secara mutlak menentukan durasi tersebut. Secara keseluruhan, kecepatan pembuatan ringkasan sistem dari artikel dalam pengujian ini berada pada rentang 2,395-3,642 detik dan mengungguli kecepatan pembuatan ringkasan secara manual.

4.1.3.2 Presisi, Recall, dan F-measure

Dalam kalkulasi presisi, recall, dan F-measure untuk 50 artikel, ringkasan referensi yang digunakan adalah ringkasan manual yang dibuat oleh 29 orang dengan rasio berkisar antara 15%-30%. Sedangkan ringkasan kumpulan artikel dibuat oleh sistem dengan tiga rasio yaitu 10%, 20%, dan 30%.

(10)

Tabel 4.4 Presisi dan Recall Ringkasan Sistem Rasio 10% (50 Artikel)

No Judul Artikel Presisi Recall

Rasio RM (%)

Huruf Ini! 0,500 0,333 20

2 Mungkin Ini Penyebab Orang Ketagihan Biskuit

Oreo 0 0 20

Amerika Selatan 0,500 0,250 25

Panjang Nelson Mandela 0,500 0,333 15

5 Batasi Konsumsi Gula 5 Sendok Teh Sehari Agar

Tak Mudah Sakit Gigi 0,500 0,200 30

6 Hati-hati, Konsumsi Susu Sapi Mentah Sebabkan

Infeksi Bakteri 1,000 0,500 25

Yogurt dan Kacang 1,000 0,250 30

8 Sapi yang Diberi Pakan Rumput dan Red Clover

Hasilkan Susu Tinggi Omega 1,000 0,250 30

9 Mengantuk Bikin Ngidam Junk Food 0,500 0,250 30

10 Peningkatan Konsumsi Daging di India dan China

Berpotensi Rusak Lingkungan 1,000 0,250 30

11 Tanda-tanda Kecanduan Gula 0,500 0,200 25

12 Mengatasi Anak yang Kecanduan Game 0,333 0,100 30 13 Gigi Habis karena Kecanduan Minuman Ringan 1,000 0,250 30 14 Ganja Berpotensi Cegah Kerusakan Otak 1,000 0,250 30 15 Mudah Fokus pada Detail Tanda IQ Tinggi? 0,500 0,250 25 16 Obat Migrain Saat Hamil Kurangi Kecerdasan Bayi 0 0 20 17 Tanda-tanda Anak Punya Kecerdasan Tinggi 0,500 0,167 25 18 Pencernaan Sehat Pengaruhi Kecerdasan Anak 0 0 30

(11)

Kesehatan 0,500 0,200 30

21 Cegah Perokok Pasif 0,500 0,250 30

22 Perokok Pasif Paling Dirugikan 1,000 0,286 30 23 Perokok Pasif Berisiko Lebih Tinggi Diabetes 1,000 0,333 30 24 Indonesia dalam Kondisi Bahaya Narkoba 0 0 30 25 Alkohol Tak Bantu Lupakan Kenangan Buruk 1,000 0,333 30 26 Benarkah Bir Punya Manfaat Kesehatan? 0,500 0,200 25

27 Alkohol Bukan Pelepas Stres 0,500 0,200 30

Meningkat 0,500 0,200 30

29 Tangkal Osteoporosis dengan Susu atau Suplemen

Kalsium? 0,500 0,200 25

30 Ubah Perilaku Jika Ingin Makan Sehat 0,500 0,250 25

31 Intel dan Kemdikbud Berikan Penghargaan Kepada

6 Guru Berprestasi 1,000 0,250 30

32 Link Facial Coding, Membaca Respons Iklan di TV

Lewat Raut Wajah 1,000 0,250 30

33 Ketidakpastian Nilai Rupiah 1,000 0,250 30

34 Investasi di Bursa 1,000 0,500 25

35 Proposal Kredit yang Baik 0 0 30

36 Koleksi Kartu Keanggotaan 0 0 30

37 Samuel Wattimena Menang Di Fiji Fashion Week

2013 1,000 1,000 25

38 Kesepakatan Soal Karier 1,000 0,250 30

39 Warna Alami Henna 0 0 25

40 Guratan Hitam, Kohl 1,000 0,500 25

41 Qiang Hui Optimistis Indonesia Bisa Raih Emas 1,000 0,250 30 42 Tiger Woods Kehilangan Salah Satu Sponsor 1,000 0,286 30

(12)

WTO 0,500 0,143 30

45 Gubernur BI Terus Berupaya Jaga Likuiditas 1,000 0,500 30

46 Pasar Keuangan Indonesia Pengaruhi Gejolak Nilai

Tukar Rupiah 1,000 0,500 25

47 Dua Faktor Macetkan Sistem Presidensil 1,000 0,286 30

"Disandera" 1,000 0,400 30

49 JK: Saya Tidak Akan Pernah Keluar dari Golkar 1,000 0,250 30

50 Presidensial Tak Efektif karena SBY Resmi Bentuk

Oposisi 1,000 0,500 20

Nilai presisi rata-rata dari ringkasan dengan rasio 10% tersebut adalah 0,66666 dan recall rata-rata sebesar 0,258. Dengan demikian nilai F-measure dapat dihitung sebagai berikut:

(13)

Rasio RM (%)

Huruf Ini! 0,333 0,333 20

Oreo 0 0 20

Amerika Selatan 0,667 0,500 25

12 Mengatasi Anak yang Kecanduan Game 0,286 0,200 30 13 Gigi Habis karena Kecanduan Minuman Ringan 1,000 0,500 30 14 Ganja Berpotensi Cegah Kerusakan Otak 1,000 0,750 30 15 Mudah Fokus pada Detail Tanda IQ Tinggi? 0,667 0,500 25 16 Obat Migrain Saat Hamil Kurangi Kecerdasan Bayi 0,667 0,667 20 17 Tanda-tanda Anak Punya Kecerdasan Tinggi 0,200 0,167 25 18 Pencernaan Sehat Pengaruhi Kecerdasan Anak 0,333 0,250 30

(14)

Kesehatan 0,750 0,600 30

22 Perokok Pasif Paling Dirugikan 0,750 0,429 30 23 Perokok Pasif Berisiko Lebih Tinggi Diabetes 1,000 0,667 30 24 Indonesia dalam Kondisi Bahaya Narkoba 0 0 30 25 Alkohol Tak Bantu Lupakan Kenangan Buruk 0,750 0,500 30 26 Benarkah Bir Punya Manfaat Kesehatan? 0,500 0,400 25

Meningkat 0,667 0,400 30

Kalsium? 0,250 0,200 25

31 Intel dan Kemdikbud Berikan Penghargaan Kepada

6 Guru Berprestasi 1,000 0,500 30

35 Proposal Kredit yang Baik 0,500 0,333 30

36 Koleksi Kartu Keanggotaan 0,500 0,500 30

2013 1,000 1,000 25

(15)

WTO 0,400 0,286 30

45 Gubernur BI Terus Berupaya Jaga Likuiditas 1,000 0,500 30

"Disandera" 0,667 0,400 30

Oposisi 1,000 1,000 20

Hasil nilai presisi rata-rata dari ringkasan dengan rasio 20% tersebut yaitu 0,60274. Sedangkan nilai recall rata-ratanya yaitu 0,4213. Dengan demikian nilai F-measure dapat dihitung sebagai berikut:

(16)

Rasio RM (%)

1 Kirim Surat Jadi Lebih Asyik dengan Cookies Huruf

Ini! 0,400 0,667 20

Oreo 0,200 0,333 20

3 Semangka Mini Ini Dibuat Acar dan Obat di Amerika

Selatan 0,400 0,500 25

12 Mengatasi Anak yang Kecanduan Game 0,200 0,200 30 13 Gigi Habis karena Kecanduan Minuman Ringan 1,000 1,000 30 14 Ganja Berpotensi Cegah Kerusakan Otak 0,750 0,750 30 15 Mudah Fokus pada Detail Tanda IQ Tinggi? 0,400 0,500 25 16 Obat Migrain Saat Hamil Kurangi Kecerdasan Bayi 0,500 0,667 20 17 Tanda-tanda Anak Punya Kecerdasan Tinggi 0,286 0,333 25 18 Pencernaan Sehat Pengaruhi Kecerdasan Anak 0,250 0,250 30 19 Agar Anak Pintar Baca, Konsumsi Ini Selama Hamil 0,400 0,500 25

(17)

Kesehatan 0,800 0,800 30

22 Perokok Pasif Paling Dirugikan 0,857 0,857 30

23 Perokok Pasif Berisiko Lebih Tinggi Diabetes 0,667 0,667 30 24 Indonesia dalam Kondisi Bahaya Narkoba 0,500 0,500 30 25 Alkohol Tak Bantu Lupakan Kenangan Buruk 0,500 0,500 30 26 Benarkah Bir Punya Manfaat Kesehatan? 0,571 0,800 25

Meningkat 0,400 0,400 30

Kalsium? 0,500 0,600 25

31 Intel dan Kemdikbud Berikan Penghargaan Kepada 6

Guru Berprestasi 0,750 0,750 30

35 Proposal Kredit yang Baik 0,333 0,333 25

36 Koleksi Kartu Keanggotaan 0,500 0,500 30

2013 0,500 0,500 20

(18)

44 Indonesia Harus Tolak Didikte Negara Maju di WTO 0,429 0,429 30 45 Gubernur BI Terus Berupaya Jaga Likuiditas 0,500 0,500 30

"Disandera" 0,400 0,400 30

Oposisi 0,667 1,000 20

Untuk ringkasan dengan rasio 30% tersebut, nilai presisi rata-rata yaitu 0,53448 dan nilai recall rata-rata sebesar 0,58134. Dengan demikian nilai F-measure dapat dihitung sebagai berikut:

Berikut ini adalah rangkuman dari uji presisi, recall, dan F-measure terhadap 50 dokumen dengan rasio ringkasan sistem 10%, 20%, dan 30%.

Tabel 4.7 Presisi, Recall, dan F-measure 50 Artikel

Rasio Ringkasan Rata-rata Presisi Rata-rata Recall Rata-rata F-measure

10% 0,66666 0,258 0,372025

20% 0,60274 0,4213 0,495946

30% 0,53448 0,58134 0,556926

Dapat disimpulkan bahwa nilai rata-rata presisi menurun dan recall membaik seiring dengan bertambahnya rasio ringkasan. Semakin tinggi nilai presisi berarti semakin sedikit hasil ringkasan sistem yang tidak berhubungan. Sedangkan semakin

(19)

tinggi nilai recall berarti semakin banyak informasi penting pada ringkasan referensi yang juga terdapat pada ringkasan sistem. Idealnya ringkasan yang baik adalah ringkasan yang memiliki nilai presisi dan recall yang tinggi. Akan tetapi pada pengujian terlihat bahwa kenaikan presisi akan dibarengi dengan penurunan recall dan sebaliknya. F-measure digunakan untuk menyatakan kualitas ringkasan sistem dengan memadukan presisi dan recall. Terlihat nilai F-measure tertinggi didapatkan saat rasio ringkasan 30%.

Nilai F-measure sebesar 0,556926 dan presisi sebesar 0,53448 untuk ringkasan dengan rasio 30% tersebut lebih tinggi dibandingkan dengan:

1. Nilai F-measure metode sentence features dengan Latent Semantic Analysis milik Aristoteles, Herdiyeni, Ridha, dan Adisantoso tahun 2012 yaitu sebesar 0,4763 untuk rasio 30%.

2. Nilai F-measure sebesar 0,45359 dan presisi 0,46471 untuk metode sentence features dan Genetic Algorithm milik Suanmali, Binwahlan, dan Salim tahun 2011.

3. Nilai presisi metode Lexical Chains dan Genetic Algorithm milik Berker dan Gungor tahun 2013 yaitu sebesar 0,46.

4.2 Evaluasi

Evaluasi dilakukan melalui kuesioner terhadap pengguna untuk mengukur kualitas ringkasan secara subjektif.

4.2.1 Evaluasi User

Evaluasi user ini terdiri dari dua metode yaitu kuesioner mengenai tingkat keterwakilan artikel asli oleh ringkasan dan menjawab soal berdasarkan ringkasan wacana.

4.2.1.1 Kuesioner

Sejumlah 55 artikel asli dan ringkasan rasio 30% dari tahap testing disajikan kepada pengguna melalui kuesioner. Kuesioner disebarkan melalui spreadsheet Google Docs dari tanggal 28 Desember 2013 hingga 4 Januari 2014. Evaluasi user ini bersifat subjektif. Pengguna diminta untuk menilai apakah ringkasan tersebut sudah mewakili informasi yang dibutuhkan dan terpenting dari artikel asli. Pilihan jawaban yang tersedia yaitu:

(20)

1. Sangat tidak mewakili 2. Tidak mewakili 3. Cukup

4. Mewakili

5. Sangat tidak mewakili

Total respon yang diterima untuk 55 artikel tersebut adalah sebanyak 645 jawaban dengan rincian sebagai berikut:

Tabel 4.8 Hasil Kuesioner

Pilihan Jawaban Jumlah Respon Persentase (%)

Sangat tidak mewakili 5 0,775

Tidak mewakili 35 5,426

Cukup 154 23,876

Mewakili 330 51,163

Sangat mewakili 121 18,760

Dari hasil tersebut dapat disimpulkan bahwa sebanyak 69,923% merupakan respon positif terhadap keterwakilan artikel asli oleh ringkasan sistem rasio 30%. Respon negatif sejumlah 6,201% dan netral sejumlah 23,876%. Perbedaan signifikan antara respon positif dengan respon negatif dan netral menunjukkan bahwa pengguna merasa bahwa kualitas mayoritas ringkasan sudah memuaskan karena sudah mewakili informasi penting yang dibutuhkan dari artikel asli.

Selain itu, Drs. Marcus Bambang Walgito, SF.Th. selaku dosen bahasa Indonesia juga turut mengevaluasi keterwakilan artikel asli oleh ringkasan sistem rasio 30%. Jumlah artikel beserta ringkasannya yaitu sebanyak 5 (lima) buah. Hasil evaluasi ringkasan sistem yaitu 2 ringkasan sangat mewakili, 2 ringkasan mewakili, dan 1 ringkasan tidak mewakili artikel asli.

4.2.1.2 Menjawab Soal

Pada evaluasi ini diambil 8 buah wacana bahasa Indonesia yang terdapat dalam ujian tingkat nasional. Seluruh soal pilihan ganda yang berkaitan dengan wacana tersebut juga turut ditampung, yaitu sebanyak 25 soal. Wacana dan soal diambil dari SIMAK UI 2012 (2 wacana 3 soal), UN SD 2009 (1 wacana 5 soal),

(21)

EBTANAS SD 1994 (1 wacana 3 soal), EBTANAS SMP 1987 (1 wacana 4 soal), EBTANAS SMP 1990 (1 wacana 3 soal), EBTANAS SMA 1986 (1 wacana 5 soal), dan EBTANAS SMA 1994 (1 wacana 2 soal). Wacana yang dipilih adalah wacana yang memiliki panjang 200 karakter atau lebih.

Pada tanggal 8 dan 9 Januari 2014, Drs. Marcus Bambang Walgito, SF.Th. selaku dosen bahasa Indonesia menjawab soal-soal tersebut tanpa melihat wacana asli, melainkan dengan memakai hasil ringkasan sistem dengan rasio 30% dari wacana asli. Hasilnya yaitu 21 soal dapat dijawab hanya dengan membaca ringkasan sistem, sedangkan 4 soal lainnya tidak dapat dijawab karena tidak cukup informasi dalam ringkasan sistem (tetapi dapat dijawab saat membaca wacana asli).

Dari evaluasi ini dapat disimpulkan bahwa ringkasan sistem mengandung mayoritas informasi yang diperlukan untuk menjawab soal-soal tersebut.

4.3 Implementasi

Algoritma diimplementasikan melalui aplikasi web yang dibuat dengan framework Django yang berbasis Python. Aplikasi juga menggunakan database MySQL untuk keperluan lemmatization. Pada tampilan utama aplikasi terdapat input fields untuk judul, isi teks, dan rasio ringkasan.

(22)

Pilihan rasio ringkasan yang tersedia yaitu antara 5% hingga 50% dengan interval 5%. Berikut ini adalah contoh input judul, isi artikel, dan rasio ringkasan.

Gambar 4.2 Contoh Input pada Aplikasi

Saat pengguna menekan tombol 'Ringkas', maka akan dilakukan validasi terlebih dulu. Jika isi dokumen tidak melebihi 200 karakter, maka akan kembali ke tampilan utama aplikasi. Sebaliknya, jika isi dokumen memenuhi syarat terdiri dari 200 karakter atau lebih, proses pemilihan kalimat ringkasan akan dilakukan oleh sistem dan hasilnya ditampilkan.

(23)

Gambar 4.3 Contoh Hasil Ringkasan

Selain hasil ringkasan, terdapat pula pilihan untuk membuat ringkasan lain (kembali ke tampilan utama), simpan ringkasan dalam format plain text (.txt), dan simpan ringkasan dalam format PDF (.pdf). Jika tombol simpan ringkasan dalam format plain text atau PDF ditekan, file attachment berisi ringkasan dapat di-download oleh pengguna. Tersedia juga pilihan untuk menampilkan teks asli.

(24)

Saat tombol tampilkan teks asli ditekan, maka teks asli akan muncul seperti pada Gambar 4.5. Pengguna juga dapat menyembunyikan kembali teks asli tersebut.