91
HASIL DAN PEMBAHASAN
4.1 Uji Algoritma
Pengujian algoritma dilakukan untuk tahap training dan testing. Setiap dokumen dalam training dan testing melalui proses read text input, pre-summarization (split into paragraphs, sentence and word tokenization, convert to lowercase, stop words elimination, dan lemmatization), serta summarization (kalkulasi TF-ISF, sentence location, relative sentence length, LDA topic modeling, title similarities, keyword similarities, sentence cohesion, numerical data, dan sentence extraction).
Akan tetapi sebelum training dan testing dilakukan, perlu diperhatikan bahwa dalam LDA topic modeling, model LDA telah dibuat sebelumnya dengan melalui inferensi hidden topic structure terhadap kumpulan dokumen berukuran sangat besar. Model LDA tersebut disimpan dan akan dipakai dalam training dan testing, khususnya pada saat transformasi bag of words dari judul, isi, dan keywords artikel ke bentuk LDA. Transformasi ini diperlukan untuk penghitungan title similarities, keyword similarities, dan sentence cohesion.
4.1.1 Spesifikasi Sistem
Untuk pengujian, algoritma Automatic Text Summarization berbahasa Indonesia diimplementasikan dengan menggunakan Python 2.7.5, Django 1.5.2., package NLTK 2.0.4, library Gensim 0.8.6, database MySQL 5.5.32, dan web server Apache 2.4.4 pada localhost environment.
Komputer dilengkapi dengan processor Intel Core 2 Duo P8800 2.66 GHz dan RAM sebesar 4 GB.
4.1.2 Training
Dokumen training yang digunakan berjumlah 100 dokumen berbahasa Indonesia yang merupakan kumpulan artikel dari situs kompas.com, detik.com, tempo.co, gatra.com, chip.co.id, dan femina.co.id. Artikel yang digunakan merupakan artikel dari tanggal 29 Februari 2012 sampai 6 Desember 2013. Jumlah kalimat per artikel berada pada rentang 6-67 kalimat. Rata-rata jumlah kalimat per artikel yaitu 16,11 kalimat.
Ringkasan referensi yang digunakan adalah hasil ringkasan manual yang dibuat oleh 38 orang dengan rasio sebesar 30% pada tanggal 7-12 Desember 2013. Ringkasan sistem yang digunakan pada tahap training memiliki rasio 30%.
Input judul, isi dokumen, dan rasio akan divalidasi terlebih dahulu. Kemudian pre-summarization akan dijalankan. Setelah isi dokumen dipisahkan ke dalam paragraf-paragraf, NLTK tokenizer digunakan untuk sentence and word tokenization. Lalu disusul oleh konversi ke huruf kecil, eliminasi stop words, dan lemmatization. Dalam lemmatization akan dilakukan dictionary lookup ke database MySQL kamus bahasa Indonesia. Proses selanjutnya adalah summarization. Kalkulasi nilai features TF-ISF, lokasi kalimat, panjang relatif kalimat, LDA topic modeling, title similarities, keyword similarities, sentence cohesion, dan numerical data akan dilakukan. Hasilnya akan dipakai untuk ekstraksi kalimat ringkasan sesuai dengan input rasio. Setelah melalui proses read input text, pre-summarization, dan summarization, nilai features setiap kalimat akan digunakan dalam training Genetic Algorithm untuk menemukan bobot masing-masing feature.
Genetic Algorithm dilakukan untuk 100 generasi, dengan masing-masing generasi terdiri dari 1000 kromosom. Elitist selection diberlakukan dengan meloloskan secara langsung 50 kromosom yang memiliki nilai fitness tertinggi. Crossover rate yang digunakan adalah 0,8 dan mutation rate sebesar 0,2.
Training GA berlangsung selama 18 menit 41,792 detik. Berdasarkan hasil training, nilai fitness tertinggi diperoleh dari kromosom '1001111011001111111010011001' dengan nilai presisi rata-rata 100 dokumen sebesar 0,5549982. Kromosom tersebut di-decode per 4 bits sehingga diperoleh 7 nilai bobot features dengan rentang nilai 0-15.
Tabel 4.1 Bobot Features Hasil Training Genetic Algorithm
Features Binary Kromosom Bobot Features
TF-ISF 1001 9
Sentence location 1110 14
Relative sentence length 1100 12
Title similarities 1111 15
Keyword similarities 1110 14
Sentence cohesion 1001 9
Numerical data 1001 9
Persamaan umum nilai kalimat berdasarkan bobot features (Wk) dan nilai sentence features (S_Fk(S)) adalah sebagai berikut:
Dengan demikian setelah bobot features hasil training GA disertakan, maka persamaan lengkap untuk kalkulasi nilai kalimat pada tahap testing yaitu:
4.1.3 Testing
Tahap testing merupakan tahap pembuatan ringkasan yang nantinya akan dipakai oleh pengguna. Sejumlah 50 artikel berbahasa Indonesia diambil dari situs kompas.com (20 artikel), detik.com (10 artikel), tempo.co (2 artikel), gatra.com (8 artikel), chip.co.id (2 artikel), dan femina.co.id (8 artikel) untuk menjadi bagian dari kumpulan dokumen testing. Ringkasan referensi yang digunakan adalah hasil ringkasan manual. Ringkasan referensi tersebut akan menjadi tolak ukur bagi ringkasan yang dihasilkan oleh sistem.
Kumpulan 50 artikel dibuat ringkasan manualnya oleh 29 orang pada tanggal 15-20 Desember 2013. Tanggal publikasi artikel tersebut yaitu antara 24 Januari 2011 sampai 14 Desember 2013. Jumlah kalimat per artikel berada pada rentang 5-33 kalimat dengan rata-rata 14,94 kalimat per artikel. Jumlah kata per artikel berkisar antara 114-571 kata dan rata-ratanya yaitu 280,12 kata.
Setelah input judul, isi dokumen, dan rasio ringkasan diterima, akan dilakukan validasi terlebih dahulu. Langkah berikutnya adalah pre-summarization. Isi dokumen yang sudah dipisahkan ke dalam paragraf-paragraf, akan diproses dengan bantuan NLTK tokenizer untuk sentence and word tokenization. Seluruh token akan dikonversi ke huruf kecil, stop words dieliminasi, dan dilakukan lemmatization. Lemmatization menggunakan dictionary lookup ke database MySQL kamus bahasa Indonesia. Setelah pre-summarization tersebut selesai dijalankan, maka akan dilanjutkan ke proses inti yaitu summarization. Untuk setiap kalimat akan dilakukan kalkulasi nilai features TF-ISF, lokasi kalimat, panjang relatif kalimat, LDA topic modeling, title similarities, keyword similarities, sentence cohesion, dan numerical data. Masing-masing nilai feature akan dikalikan dengan bobot feature yang telah didapat dari training dalam persamaan berikut ini.
Kalimat-kalimat akan diurutkan dari nilai terbesar hingga terkecil. Sejumlah kalimat dengan nilai teratas akan diekstraksi untuk menjadi ringkasan. Jumlah kalimat yang terpilih untuk menjadi bagian dari ringkasan diperoleh dari input rasio dikalikan dengan jumlah kalimat. Tersedia pilihan rasio 5%-50% dengan interval 5%.
Berikut ini adalah contoh salah satu artikel dan hasil ringkasan sistem dengan menggunakan rasio 30%. Artikel berjudul "Mudah Fokus pada Detail Tanda IQ Tinggi?" ditulis oleh Lusia Kus Anna dan dipublikasikan di situs Kompas pada tanggal 27 Mei 2013. Artikel diakses tanggal 6 Desember 2013 dengan sumber: http://health.kompas.com/read/2013/05/27/1719535/Mudah.Fokus.pada.Detail.Tanda .IQ.Tinggi.
Artikel asli:
Mudah Fokus pada Detail Tanda IQ Tinggi?
Sebuah riset terbaru menunjukkan bahwa kecerdasan adalah soal bagaimana pilihan otak untuk mengabaikan sesuatu, bukannya tentang kemampuan otak memproses informasi dengan cepat.
Orang yang memiliki tingkat kecerdasan (IQ) tinggi cenderung lebih lambat mendeteksi gerakan besar di latar belakang karena otak mereka menyaring informasi yang dianggap tidak penting. Karena itu mereka lebih pandai dalam mendeteksi obyek bergerak berukuran kecil.
Penelitian tersebut dilakukan terhadap 53 orang dan dimuat dalam Current Biology. Penelitian dilakukan dengan tes penglihatan dan tes kecerdasan standar.
Hasil penelitian menunjukkan, orang dengan skor IQ tinggi lebih cepat dalam mengenali gerakan arah panah berukuran kecil di layar komputer.
"Dari studi sebelumnya kami menyangka para partisipan akan kesulitan mendeteksi gerakan besar, tetapi ternyata orang dengan IQ tinggi paling payah dalam hal itu," kata Michael Melnick dari Universitas Rochester.
Para peneliti menjelaskan bahwa dalam kebanyakan skenario, gerakan di latar belakang tidak terlalu penting dibanding objek kecil yang bergerak di bagian depan. Misalnya saja saat menyetir mobil, berjalan di lorong, atau menggerakkan mata ke dalam ruangan.
Semakin tinggi tingkat kecerdasan seseorang, demikian juga dengan kemampuan mereka menyaring gerakan di latar belakang yang mengganggu dan berkonsentrasi pada apa yang ada di depan.
"Untuk kecerdasan, dibutuhkan kemampuan memproses informasi penting dengan cepat. Tapi kita juga perlu bisa fokus pada informasi yang paling penting dan menyaring yang tidak penting," kata Duje Tadin, salah satu peneliti.
Dalam studi awal terhadap 12 orang, ada korelasi sebesar 64 persen antara penekanan gerakan dan tingkat IQ. Dalam studi lebih besar terhadap 53 orang, kaitannya mencapai 71 persen.
Meski begitu kemampuan untuk mengabaikan gerakan di latar belakang bukan satu-satunya cara untuk mengukur kecerdasan. Hal ini karena kecerdasan adalah susunan yang selalu berubah, kita tidak bisa mendeteksinya hanya dari satu bagian otak saja.
"Namun karena tes ini sangat sederhana dan paling dekat dengan nilai IQ, maka ini bisa menjadi petunjuk tentang apa yang membuat otak lebih efisien dan tentunya lebih cerdas," kata Tadin.
Hasil ringkasan sistem dengan rasio 30%:
4.1.3.1 Kecepatan
Dalam uji pembuatan ringkasan untuk 50 dokumen, ditemukan bahwa rasio ringkasan tidak memengaruhi kecepatan. Tabel berikut ini menunjukkan rincian waktu proses yang diperlukan untuk membuat ringkasan.
Tabel 4.2 Rincian Uji Kecepatan Pembuatan Ringkasan
No Judul Artikel Jumlah
Kalimat
Jumlah Kata
Waktu (detik)
1 Kirim Surat Jadi Lebih Asyik dengan Cookies
Huruf Ini! 17 233 3,082
2 Mungkin Ini Penyebab Orang Ketagihan
Biskuit Oreo 16 267 2,906
3 Semangka Mini Ini Dibuat Acar dan Obat di
Amerika Selatan 17 252 2,824
4 Sering Makan Umphokoqo Jadi Rahasia Umur
Panjang Nelson Mandela 18 258 2,837
5 Batasi Konsumsi Gula 5 Sendok Teh Sehari
Agar Tak Mudah Sakit Gigi 16 248 2,672
Mudah Fokus pada Detail Tanda IQ Tinggi?
Sebuah riset terbaru menunjukkan bahwa kecerdasan adalah soal bagaimana pilihan otak untuk mengabaikan sesuatu, bukannya tentang kemampuan otak memproses informasi dengan cepat. Orang yang memiliki tingkat kecerdasan (IQ) tinggi cenderung lebih lambat mendeteksi gerakan besar di latar belakang karena otak mereka menyaring informasi yang dianggap tidak penting. "Dari studi sebelumnya kami menyangka para partisipan akan kesulitan mendeteksi gerakan besar, tetapi ternyata orang dengan IQ tinggi paling payah dalam hal itu," kata Michael Melnick dari Universitas Rochester. "Untuk kecerdasan, dibutuhkan kemampuan memproses informasi penting dengan cepat. Tapi kita juga perlu bisa fokus pada informasi yang paling penting dan menyaring yang tidak penting," kata Duje Tadin, salah satu peneliti. "Namun karena tes ini sangat sederhana dan paling dekat dengan nilai IQ, maka ini bisa menjadi petunjuk tentang apa yang membuat otak lebih efisien dan tentunya lebih cerdas," kata Tadin.
Tabel 4.2 Rincian Uji Kecepatan Pembuatan Ringkasan
6 Hati-hati, Konsumsi Susu Sapi Mentah
Sebabkan Infeksi Bakteri 16 293 3,030
7 Cegah Bakteri pada Miss V dengan Konsumsi
Yogurt dan Kacang 14 218 2,718
8 Sapi yang Diberi Pakan Rumput dan Red
Clover Hasilkan Susu Tinggi Omega 12 235 2,624
9 Mengantuk Bikin Ngidam Junk Food 18 282 2,891
10 Peningkatan Konsumsi Daging di India dan
China Berpotensi Rusak Lingkungan 12 231 2,666
11 Tanda-tanda Kecanduan Gula 19 375 2,984
12 Mengatasi Anak yang Kecanduan Game 33 571 3,642
13 Gigi Habis karena Kecanduan Minuman
Ringan 12 288 2,650
14 Ganja Berpotensi Cegah Kerusakan Otak 14 314 2,996 15 Mudah Fokus pada Detail Tanda IQ Tinggi? 16 318 2,904
16 Obat Migrain Saat Hamil Kurangi Kecerdasan
Bayi 13 245 3,041
17 Tanda-tanda Anak Punya Kecerdasan Tinggi 23 381 3,024 18 Pencernaan Sehat Pengaruhi Kecerdasan Anak 14 291 2,900
19 Agar Anak Pintar Baca, Konsumsi Ini Selama
Hamil 16 286 2,773
20 Jutaan Perokok Pasif Ikut Tanggung Risiko
Kesehatan 18 362 3,026
21 Cegah Perokok Pasif 17 343 2,886
22 Perokok Pasif Paling Dirugikan 22 383 3,258
23 Perokok Pasif Berisiko Lebih Tinggi Diabetes 11 271 2,713 24 Indonesia dalam Kondisi Bahaya Narkoba 6 204 2,586 25 Alkohol Tak Bantu Lupakan Kenangan Buruk 19 337 3,142 26 Benarkah Bir Punya Manfaat Kesehatan? 22 390 3,158
27 Alkohol Bukan Pelepas Stres 15 320 2,844
28 Salah Diet, Risiko Osteoporosis Orang Gemuk
Tabel 4.2 Rincian Uji Kecepatan Pembuatan Ringkasan
29 Tangkal Osteoporosis dengan Susu atau
Suplemen Kalsium? 19 339 3,186
30 Ubah Perilaku Jika Ingin Makan Sehat 16 310 3,234
31 Intel dan Kemdikbud Berikan Penghargaan
Kepada 6 Guru Berprestasi 12 379 3,268
32 Link Facial Coding, Membaca Respons Iklan di
TV Lewat Raut Wajah 12 250 2,882
33 Ketidakpastian Nilai Rupiah 12 160 2,570
34 Investasi di Bursa 8 114 2,402
35 Proposal Kredit yang Baik 11 178 2,525
36 Koleksi Kartu Keanggotaan 7 141 2,454
37 Samuel Wattimena Menang Di Fiji Fashion
Week 2013 5 143 2,395
38 Kesepakatan Soal Karier 14 242 2,588
39 Warna Alami Henna 8 120 2,454
40 Guratan Hitam, Kohl 8 160 2,454
41 Qiang Hui Optimistis Indonesia Bisa Raih
Emas 14 282 2,900
42 Tiger Woods Kehilangan Salah Satu Sponsor 22 313 3,289
43 Konversi BBM ke BBG Terus Diupayakan bagi
Nelayan 6 170 2,632
44 Indonesia Harus Tolak Didikte Negara Maju di
WTO 24 399 3,146
45 Gubernur BI Terus Berupaya Jaga Likuiditas 7 153 2,424
46 Pasar Keuangan Indonesia Pengaruhi Gejolak
Nilai Tukar Rupiah 15 281 2,694
47 Dua Faktor Macetkan Sistem Presidensil 22 456 3,100
48 Mahfud: Presidensil Macet Karena Presiden
"Disandera" 17 390 2,870
49 JK:Saya Tidak Akan Pernah Keluar dari Golkar 14 266 2,691
50 Presidensial Tak Efektif karena SBY Resmi
Kumpulan 50 artikel tersebut memiliki rata-rata waktu proses 2,85062 detik untuk rata-rata panjang artikel 14,94 kalimat dan 280,12 kata. Rangkuman dari rincian uji kecepatan pembuatan ringkasan dapat dilihat pada tabel berikut ini.
Tabel 4.3 Gambaran Umum Uji Kecepatan Pembuatan Ringkasan
Artikel Waktu Tercepat (Jumlah Kalimat, Jumlah Kata) Waktu Terlama (Jumlah Kalimat, Jumlah Kata) Rata-rata Waktu (Rata-rata Kalimat, Kata) 50 artikel 2,395 detik (5 kalimat, 143 kata) 3,642 detik (33 kalimat, 571 kata) 2,85062 detik (rata-rata 14,94 kalimat, 280,12 kata)
Dapat disimpulkan bahwa jumlah kalimat dan kata dalam dokumen memiliki pengaruh terhadap lama waktu pembuatan ringkasan, tetapi tidak secara mutlak menentukan durasi tersebut. Secara keseluruhan, kecepatan pembuatan ringkasan sistem dari artikel dalam pengujian ini berada pada rentang 2,395-3,642 detik dan mengungguli kecepatan pembuatan ringkasan secara manual.
4.1.3.2 Presisi, Recall, dan F-measure
Dalam kalkulasi presisi, recall, dan F-measure untuk 50 artikel, ringkasan referensi yang digunakan adalah ringkasan manual yang dibuat oleh 29 orang dengan rasio berkisar antara 15%-30%. Sedangkan ringkasan kumpulan artikel dibuat oleh sistem dengan tiga rasio yaitu 10%, 20%, dan 30%.
Tabel 4.4 Presisi dan Recall Ringkasan Sistem Rasio 10% (50 Artikel)
No Judul Artikel Presisi Recall
Rasio RM (%)
1 Kirim Surat Jadi Lebih Asyik dengan Cookies
Huruf Ini! 0,500 0,333 20
2 Mungkin Ini Penyebab Orang Ketagihan Biskuit
Oreo 0 0 20
3 Semangka Mini Ini Dibuat Acar dan Obat di
Amerika Selatan 0,500 0,250 25
4 Sering Makan Umphokoqo Jadi Rahasia Umur
Panjang Nelson Mandela 0,500 0,333 15
5 Batasi Konsumsi Gula 5 Sendok Teh Sehari Agar
Tak Mudah Sakit Gigi 0,500 0,200 30
6 Hati-hati, Konsumsi Susu Sapi Mentah Sebabkan
Infeksi Bakteri 1,000 0,500 25
7 Cegah Bakteri pada Miss V dengan Konsumsi
Yogurt dan Kacang 1,000 0,250 30
8 Sapi yang Diberi Pakan Rumput dan Red Clover
Hasilkan Susu Tinggi Omega 1,000 0,250 30
9 Mengantuk Bikin Ngidam Junk Food 0,500 0,250 30
10 Peningkatan Konsumsi Daging di India dan China
Berpotensi Rusak Lingkungan 1,000 0,250 30
11 Tanda-tanda Kecanduan Gula 0,500 0,200 25
12 Mengatasi Anak yang Kecanduan Game 0,333 0,100 30 13 Gigi Habis karena Kecanduan Minuman Ringan 1,000 0,250 30 14 Ganja Berpotensi Cegah Kerusakan Otak 1,000 0,250 30 15 Mudah Fokus pada Detail Tanda IQ Tinggi? 0,500 0,250 25 16 Obat Migrain Saat Hamil Kurangi Kecerdasan Bayi 0 0 20 17 Tanda-tanda Anak Punya Kecerdasan Tinggi 0,500 0,167 25 18 Pencernaan Sehat Pengaruhi Kecerdasan Anak 0 0 30
19 Agar Anak Pintar Baca, Konsumsi Ini Selama
Tabel 4.4 Presisi dan Recall Ringkasan Sistem Rasio 10% (50 Artikel)
20 Jutaan Perokok Pasif Ikut Tanggung Risiko
Kesehatan 0,500 0,200 30
21 Cegah Perokok Pasif 0,500 0,250 30
22 Perokok Pasif Paling Dirugikan 1,000 0,286 30 23 Perokok Pasif Berisiko Lebih Tinggi Diabetes 1,000 0,333 30 24 Indonesia dalam Kondisi Bahaya Narkoba 0 0 30 25 Alkohol Tak Bantu Lupakan Kenangan Buruk 1,000 0,333 30 26 Benarkah Bir Punya Manfaat Kesehatan? 0,500 0,200 25
27 Alkohol Bukan Pelepas Stres 0,500 0,200 30
28 Salah Diet, Risiko Osteoporosis Orang Gemuk
Meningkat 0,500 0,200 30
29 Tangkal Osteoporosis dengan Susu atau Suplemen
Kalsium? 0,500 0,200 25
30 Ubah Perilaku Jika Ingin Makan Sehat 0,500 0,250 25
31 Intel dan Kemdikbud Berikan Penghargaan Kepada
6 Guru Berprestasi 1,000 0,250 30
32 Link Facial Coding, Membaca Respons Iklan di TV
Lewat Raut Wajah 1,000 0,250 30
33 Ketidakpastian Nilai Rupiah 1,000 0,250 30
34 Investasi di Bursa 1,000 0,500 25
35 Proposal Kredit yang Baik 0 0 30
36 Koleksi Kartu Keanggotaan 0 0 30
37 Samuel Wattimena Menang Di Fiji Fashion Week
2013 1,000 1,000 25
38 Kesepakatan Soal Karier 1,000 0,250 30
39 Warna Alami Henna 0 0 25
40 Guratan Hitam, Kohl 1,000 0,500 25
41 Qiang Hui Optimistis Indonesia Bisa Raih Emas 1,000 0,250 30 42 Tiger Woods Kehilangan Salah Satu Sponsor 1,000 0,286 30
43 Konversi BBM ke BBG Terus Diupayakan bagi
Tabel 4.4 Presisi dan Recall Ringkasan Sistem Rasio 10% (50 Artikel)
44 Indonesia Harus Tolak Didikte Negara Maju di
WTO 0,500 0,143 30
45 Gubernur BI Terus Berupaya Jaga Likuiditas 1,000 0,500 30
46 Pasar Keuangan Indonesia Pengaruhi Gejolak Nilai
Tukar Rupiah 1,000 0,500 25
47 Dua Faktor Macetkan Sistem Presidensil 1,000 0,286 30
48 Mahfud: Presidensil Macet Karena Presiden
"Disandera" 1,000 0,400 30
49 JK: Saya Tidak Akan Pernah Keluar dari Golkar 1,000 0,250 30
50 Presidensial Tak Efektif karena SBY Resmi Bentuk
Oposisi 1,000 0,500 20
Nilai presisi rata-rata dari ringkasan dengan rasio 10% tersebut adalah 0,66666 dan recall rata-rata sebesar 0,258. Dengan demikian nilai F-measure dapat dihitung sebagai berikut:
Tabel 4.5 Presisi dan Recall Ringkasan Sistem Rasio 20% (50 Artikel)
No Judul Artikel Presisi Recall
Rasio RM (%)
1 Kirim Surat Jadi Lebih Asyik dengan Cookies
Huruf Ini! 0,333 0,333 20
2 Mungkin Ini Penyebab Orang Ketagihan Biskuit
Oreo 0 0 20
3 Semangka Mini Ini Dibuat Acar dan Obat di
Amerika Selatan 0,667 0,500 25
4 Sering Makan Umphokoqo Jadi Rahasia Umur
Panjang Nelson Mandela 0,250 0,333 15
5 Batasi Konsumsi Gula 5 Sendok Teh Sehari Agar
Tak Mudah Sakit Gigi 0,333 0,200 30
6 Hati-hati, Konsumsi Susu Sapi Mentah Sebabkan
Infeksi Bakteri 0,667 0,500 25
7 Cegah Bakteri pada Miss V dengan Konsumsi
Yogurt dan Kacang 0,667 0,500 30
8 Sapi yang Diberi Pakan Rumput dan Red Clover
Hasilkan Susu Tinggi Omega 1,000 0,500 30
9 Mengantuk Bikin Ngidam Junk Food 0,250 0,200 30
10 Peningkatan Konsumsi Daging di India dan China
Berpotensi Rusak Lingkungan 0,500 0,250 30
11 Tanda-tanda Kecanduan Gula 0,500 0,400 25
12 Mengatasi Anak yang Kecanduan Game 0,286 0,200 30 13 Gigi Habis karena Kecanduan Minuman Ringan 1,000 0,500 30 14 Ganja Berpotensi Cegah Kerusakan Otak 1,000 0,750 30 15 Mudah Fokus pada Detail Tanda IQ Tinggi? 0,667 0,500 25 16 Obat Migrain Saat Hamil Kurangi Kecerdasan Bayi 0,667 0,667 20 17 Tanda-tanda Anak Punya Kecerdasan Tinggi 0,200 0,167 25 18 Pencernaan Sehat Pengaruhi Kecerdasan Anak 0,333 0,250 30
19 Agar Anak Pintar Baca, Konsumsi Ini Selama
Tabel 4.5 Presisi dan Recall Ringkasan Sistem Rasio 20% (50 Artikel)
20 Jutaan Perokok Pasif Ikut Tanggung Risiko
Kesehatan 0,750 0,600 30
21 Cegah Perokok Pasif 0,333 0,200 30
22 Perokok Pasif Paling Dirugikan 0,750 0,429 30 23 Perokok Pasif Berisiko Lebih Tinggi Diabetes 1,000 0,667 30 24 Indonesia dalam Kondisi Bahaya Narkoba 0 0 30 25 Alkohol Tak Bantu Lupakan Kenangan Buruk 0,750 0,500 30 26 Benarkah Bir Punya Manfaat Kesehatan? 0,500 0,400 25
27 Alkohol Bukan Pelepas Stres 0,667 0,400 30
28 Salah Diet, Risiko Osteoporosis Orang Gemuk
Meningkat 0,667 0,400 30
29 Tangkal Osteoporosis dengan Susu atau Suplemen
Kalsium? 0,250 0,200 25
30 Ubah Perilaku Jika Ingin Makan Sehat 0,333 0,250 25
31 Intel dan Kemdikbud Berikan Penghargaan Kepada
6 Guru Berprestasi 1,000 0,500 30
32 Link Facial Coding, Membaca Respons Iklan di TV
Lewat Raut Wajah 1,000 0,500 30
33 Ketidakpastian Nilai Rupiah 1,000 0,500 30
34 Investasi di Bursa 0,500 0,500 25
35 Proposal Kredit yang Baik 0,500 0,333 30
36 Koleksi Kartu Keanggotaan 0,500 0,500 30
37 Samuel Wattimena Menang Di Fiji Fashion Week
2013 1,000 1,000 25
38 Kesepakatan Soal Karier 1,000 0,750 30
39 Warna Alami Henna 0 0 25
40 Guratan Hitam, Kohl 0,500 0,500 25
41 Qiang Hui Optimistis Indonesia Bisa Raih Emas 0,333 0,250 30 42 Tiger Woods Kehilangan Salah Satu Sponsor 1,000 0,571 30
43 Konversi BBM ke BBG Terus Diupayakan bagi
Tabel 4.5 Presisi dan Recall Ringkasan Sistem Rasio 20% (50 Artikel)
44 Indonesia Harus Tolak Didikte Negara Maju di
WTO 0,400 0,286 30
45 Gubernur BI Terus Berupaya Jaga Likuiditas 1,000 0,500 30
46 Pasar Keuangan Indonesia Pengaruhi Gejolak Nilai
Tukar Rupiah 1,000 0,750 25
47 Dua Faktor Macetkan Sistem Presidensil 0,750 0,429 30
48 Mahfud: Presidensil Macet Karena Presiden
"Disandera" 0,667 0,400 30
49 JK: Saya Tidak Akan Pernah Keluar dari Golkar 0,667 0,500 30
50 Presidensial Tak Efektif karena SBY Resmi Bentuk
Oposisi 1,000 1,000 20
Hasil nilai presisi rata-rata dari ringkasan dengan rasio 20% tersebut yaitu 0,60274. Sedangkan nilai recall rata-ratanya yaitu 0,4213. Dengan demikian nilai F-measure dapat dihitung sebagai berikut:
Tabel 4.6 Presisi dan Recall Ringkasan Sistem Rasio 30% (50 Artikel)
No Judul Artikel Presisi Recall
Rasio RM (%)
1 Kirim Surat Jadi Lebih Asyik dengan Cookies Huruf
Ini! 0,400 0,667 20
2 Mungkin Ini Penyebab Orang Ketagihan Biskuit
Oreo 0,200 0,333 20
3 Semangka Mini Ini Dibuat Acar dan Obat di Amerika
Selatan 0,400 0,500 25
4 Sering Makan Umphokoqo Jadi Rahasia Umur
Panjang Nelson Mandela 0,400 0,667 15
5 Batasi Konsumsi Gula 5 Sendok Teh Sehari Agar
Tak Mudah Sakit Gigi 0,400 0,400 30
6 Hati-hati, Konsumsi Susu Sapi Mentah Sebabkan
Infeksi Bakteri 0,600 0,750 25
7 Cegah Bakteri pada Miss V dengan Konsumsi
Yogurt dan Kacang 0,500 0,500 30
8 Sapi yang Diberi Pakan Rumput dan Red Clover
Hasilkan Susu Tinggi Omega 0,750 0,750 30
9 Mengantuk Bikin Ngidam Junk Food 0,400 0,400 30
10 Peningkatan Konsumsi Daging di India dan China
Berpotensi Rusak Lingkungan 0,500 0,500 30
11 Tanda-tanda Kecanduan Gula 0,500 0,600 25
12 Mengatasi Anak yang Kecanduan Game 0,200 0,200 30 13 Gigi Habis karena Kecanduan Minuman Ringan 1,000 1,000 30 14 Ganja Berpotensi Cegah Kerusakan Otak 0,750 0,750 30 15 Mudah Fokus pada Detail Tanda IQ Tinggi? 0,400 0,500 25 16 Obat Migrain Saat Hamil Kurangi Kecerdasan Bayi 0,500 0,667 20 17 Tanda-tanda Anak Punya Kecerdasan Tinggi 0,286 0,333 25 18 Pencernaan Sehat Pengaruhi Kecerdasan Anak 0,250 0,250 30 19 Agar Anak Pintar Baca, Konsumsi Ini Selama Hamil 0,400 0,500 25
Tabel 4.6 Presisi dan Recall Ringkasan Sistem Rasio 30% (50 Artikel)
20 Jutaan Perokok Pasif Ikut Tanggung Risiko
Kesehatan 0,800 0,800 30
21 Cegah Perokok Pasif 0,400 0,400 30
22 Perokok Pasif Paling Dirugikan 0,857 0,857 30
23 Perokok Pasif Berisiko Lebih Tinggi Diabetes 0,667 0,667 30 24 Indonesia dalam Kondisi Bahaya Narkoba 0,500 0,500 30 25 Alkohol Tak Bantu Lupakan Kenangan Buruk 0,500 0,500 30 26 Benarkah Bir Punya Manfaat Kesehatan? 0,571 0,800 25
27 Alkohol Bukan Pelepas Stres 0,400 0,400 30
28 Salah Diet, Risiko Osteoporosis Orang Gemuk
Meningkat 0,400 0,400 30
29 Tangkal Osteoporosis dengan Susu atau Suplemen
Kalsium? 0,500 0,600 25
30 Ubah Perilaku Jika Ingin Makan Sehat 0,400 0,500 25
31 Intel dan Kemdikbud Berikan Penghargaan Kepada 6
Guru Berprestasi 0,750 0,750 30
32 Link Facial Coding, Membaca Respons Iklan di TV
Lewat Raut Wajah 1,000 1,000 30
33 Ketidakpastian Nilai Rupiah 0,750 0,750 30
34 Investasi di Bursa 0,500 0,500 25
35 Proposal Kredit yang Baik 0,333 0,333 25
36 Koleksi Kartu Keanggotaan 0,500 0,500 30
37 Samuel Wattimena Menang Di Fiji Fashion Week
2013 0,500 0,500 20
38 Kesepakatan Soal Karier 0,750 0,750 30
39 Warna Alami Henna 0 0 25
40 Guratan Hitam, Kohl 0,500 0,500 25
41 Qiang Hui Optimistis Indonesia Bisa Raih Emas 0,500 0,500 30 42 Tiger Woods Kehilangan Salah Satu Sponsor 0,857 0,857 30
43 Konversi BBM ke BBG Terus Diupayakan bagi
Tabel 4.6 Presisi dan Recall Ringkasan Sistem Rasio 30% (50 Artikel)
44 Indonesia Harus Tolak Didikte Negara Maju di WTO 0,429 0,429 30 45 Gubernur BI Terus Berupaya Jaga Likuiditas 0,500 0,500 30
46 Pasar Keuangan Indonesia Pengaruhi Gejolak Nilai
Tukar Rupiah 0,600 0,750 25
47 Dua Faktor Macetkan Sistem Presidensil 0,857 0,857 30
48 Mahfud: Presidensil Macet Karena Presiden
"Disandera" 0,400 0,400 30
49 JK: Saya Tidak Akan Pernah Keluar dari Golkar 0,500 0,500 30
50 Presidensial Tak Efektif karena SBY Resmi Bentuk
Oposisi 0,667 1,000 20
Untuk ringkasan dengan rasio 30% tersebut, nilai presisi rata-rata yaitu 0,53448 dan nilai recall rata-rata sebesar 0,58134. Dengan demikian nilai F-measure dapat dihitung sebagai berikut:
Berikut ini adalah rangkuman dari uji presisi, recall, dan F-measure terhadap 50 dokumen dengan rasio ringkasan sistem 10%, 20%, dan 30%.
Tabel 4.7 Presisi, Recall, dan F-measure 50 Artikel
Rasio Ringkasan Rata-rata Presisi Rata-rata Recall Rata-rata F-measure
10% 0,66666 0,258 0,372025
20% 0,60274 0,4213 0,495946
30% 0,53448 0,58134 0,556926
Dapat disimpulkan bahwa nilai rata-rata presisi menurun dan recall membaik seiring dengan bertambahnya rasio ringkasan. Semakin tinggi nilai presisi berarti semakin sedikit hasil ringkasan sistem yang tidak berhubungan. Sedangkan semakin
tinggi nilai recall berarti semakin banyak informasi penting pada ringkasan referensi yang juga terdapat pada ringkasan sistem. Idealnya ringkasan yang baik adalah ringkasan yang memiliki nilai presisi dan recall yang tinggi. Akan tetapi pada pengujian terlihat bahwa kenaikan presisi akan dibarengi dengan penurunan recall dan sebaliknya. F-measure digunakan untuk menyatakan kualitas ringkasan sistem dengan memadukan presisi dan recall. Terlihat nilai F-measure tertinggi didapatkan saat rasio ringkasan 30%.
Nilai F-measure sebesar 0,556926 dan presisi sebesar 0,53448 untuk ringkasan dengan rasio 30% tersebut lebih tinggi dibandingkan dengan:
1. Nilai F-measure metode sentence features dengan Latent Semantic Analysis milik Aristoteles, Herdiyeni, Ridha, dan Adisantoso tahun 2012 yaitu sebesar 0,4763 untuk rasio 30%.
2. Nilai F-measure sebesar 0,45359 dan presisi 0,46471 untuk metode sentence features dan Genetic Algorithm milik Suanmali, Binwahlan, dan Salim tahun 2011.
3. Nilai presisi metode Lexical Chains dan Genetic Algorithm milik Berker dan Gungor tahun 2013 yaitu sebesar 0,46.
4.2 Evaluasi
Evaluasi dilakukan melalui kuesioner terhadap pengguna untuk mengukur kualitas ringkasan secara subjektif.
4.2.1 Evaluasi User
Evaluasi user ini terdiri dari dua metode yaitu kuesioner mengenai tingkat keterwakilan artikel asli oleh ringkasan dan menjawab soal berdasarkan ringkasan wacana.
4.2.1.1 Kuesioner
Sejumlah 55 artikel asli dan ringkasan rasio 30% dari tahap testing disajikan kepada pengguna melalui kuesioner. Kuesioner disebarkan melalui spreadsheet Google Docs dari tanggal 28 Desember 2013 hingga 4 Januari 2014. Evaluasi user ini bersifat subjektif. Pengguna diminta untuk menilai apakah ringkasan tersebut sudah mewakili informasi yang dibutuhkan dan terpenting dari artikel asli. Pilihan jawaban yang tersedia yaitu:
1. Sangat tidak mewakili 2. Tidak mewakili 3. Cukup
4. Mewakili
5. Sangat tidak mewakili
Total respon yang diterima untuk 55 artikel tersebut adalah sebanyak 645 jawaban dengan rincian sebagai berikut:
Tabel 4.8 Hasil Kuesioner
Pilihan Jawaban Jumlah Respon Persentase (%)
Sangat tidak mewakili 5 0,775
Tidak mewakili 35 5,426
Cukup 154 23,876
Mewakili 330 51,163
Sangat mewakili 121 18,760
Dari hasil tersebut dapat disimpulkan bahwa sebanyak 69,923% merupakan respon positif terhadap keterwakilan artikel asli oleh ringkasan sistem rasio 30%. Respon negatif sejumlah 6,201% dan netral sejumlah 23,876%. Perbedaan signifikan antara respon positif dengan respon negatif dan netral menunjukkan bahwa pengguna merasa bahwa kualitas mayoritas ringkasan sudah memuaskan karena sudah mewakili informasi penting yang dibutuhkan dari artikel asli.
Selain itu, Drs. Marcus Bambang Walgito, SF.Th. selaku dosen bahasa Indonesia juga turut mengevaluasi keterwakilan artikel asli oleh ringkasan sistem rasio 30%. Jumlah artikel beserta ringkasannya yaitu sebanyak 5 (lima) buah. Hasil evaluasi ringkasan sistem yaitu 2 ringkasan sangat mewakili, 2 ringkasan mewakili, dan 1 ringkasan tidak mewakili artikel asli.
4.2.1.2 Menjawab Soal
Pada evaluasi ini diambil 8 buah wacana bahasa Indonesia yang terdapat dalam ujian tingkat nasional. Seluruh soal pilihan ganda yang berkaitan dengan wacana tersebut juga turut ditampung, yaitu sebanyak 25 soal. Wacana dan soal diambil dari SIMAK UI 2012 (2 wacana 3 soal), UN SD 2009 (1 wacana 5 soal),
EBTANAS SD 1994 (1 wacana 3 soal), EBTANAS SMP 1987 (1 wacana 4 soal), EBTANAS SMP 1990 (1 wacana 3 soal), EBTANAS SMA 1986 (1 wacana 5 soal), dan EBTANAS SMA 1994 (1 wacana 2 soal). Wacana yang dipilih adalah wacana yang memiliki panjang 200 karakter atau lebih.
Pada tanggal 8 dan 9 Januari 2014, Drs. Marcus Bambang Walgito, SF.Th. selaku dosen bahasa Indonesia menjawab soal-soal tersebut tanpa melihat wacana asli, melainkan dengan memakai hasil ringkasan sistem dengan rasio 30% dari wacana asli. Hasilnya yaitu 21 soal dapat dijawab hanya dengan membaca ringkasan sistem, sedangkan 4 soal lainnya tidak dapat dijawab karena tidak cukup informasi dalam ringkasan sistem (tetapi dapat dijawab saat membaca wacana asli).
Dari evaluasi ini dapat disimpulkan bahwa ringkasan sistem mengandung mayoritas informasi yang diperlukan untuk menjawab soal-soal tersebut.
4.3 Implementasi
Algoritma diimplementasikan melalui aplikasi web yang dibuat dengan framework Django yang berbasis Python. Aplikasi juga menggunakan database MySQL untuk keperluan lemmatization. Pada tampilan utama aplikasi terdapat input fields untuk judul, isi teks, dan rasio ringkasan.
Pilihan rasio ringkasan yang tersedia yaitu antara 5% hingga 50% dengan interval 5%. Berikut ini adalah contoh input judul, isi artikel, dan rasio ringkasan.
Gambar 4.2 Contoh Input pada Aplikasi
Saat pengguna menekan tombol 'Ringkas', maka akan dilakukan validasi terlebih dulu. Jika isi dokumen tidak melebihi 200 karakter, maka akan kembali ke tampilan utama aplikasi. Sebaliknya, jika isi dokumen memenuhi syarat terdiri dari 200 karakter atau lebih, proses pemilihan kalimat ringkasan akan dilakukan oleh sistem dan hasilnya ditampilkan.
Gambar 4.3 Contoh Hasil Ringkasan
Selain hasil ringkasan, terdapat pula pilihan untuk membuat ringkasan lain (kembali ke tampilan utama), simpan ringkasan dalam format plain text (.txt), dan simpan ringkasan dalam format PDF (.pdf). Jika tombol simpan ringkasan dalam format plain text atau PDF ditekan, file attachment berisi ringkasan dapat di-download oleh pengguna. Tersedia juga pilihan untuk menampilkan teks asli.
Saat tombol tampilkan teks asli ditekan, maka teks asli akan muncul seperti pada Gambar 4.5. Pengguna juga dapat menyembunyikan kembali teks asli tersebut.