SUMMARISATION
Ni Wayan Trisna Mayasari¹, Imelda Atastina², Agus Nursikuwagus.³
¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom
Abstrak
Peringkasan teks (text summarisation) adalah proses menyaring informasi penting dari sebuah dokumen untuk membuat sebuah versi ringkas dari teks yang dijalankan dengan program
komputer. Ringkasan (sumary) dapat didefinisikan sebagai sebuah teks yang dihasilkan dari satu atau lebih teks yang berisi informasi penting dari teks aslinya dan panjangnya tidak lebih dari setengah teks aslinya. Sedangkan text summarisation adalah proses menyaring informasi penting dari sumber untuk menghasilkan versi singkat untuk pengguna atau tugas tertentu.Dalam Tugas Akhir ini text summarisation dilakukan dengan ekstraksi kalimat, yaitu dengan memilih kalimat -kalimat sebagai calon anggota solusi dilihat dari nilai bobot dan similaritynya. Pemilihan -kalimat - kalimat yang akan menjadi calon solusi memanfaatkan Algoritma Genetika dengan representasi permutasi yang yang dalam kasus ini berupa kumpulan kalimat sebagai sebuah calon solusi. Hasil dari Tugas Akhir ini adalah, mendapatkan sebuah solusi berupa kombinasi kalimat - kalimat yang sudah disaring informasinya sampai setengah atau sepertiga yang optimal menurut algoritma genetika yang dibangun dilihat dari nilai fitnessnya. Fungsi Fitness yang digunakan,
menggunakan parameter sumary factor, sehingga fungsi fitness yang digunakan dalam algoritma genetikanya dapat dikatakan menjamin hasil solusi yang dihasilkan.
Kata Kunci : text summarisation, algoritma genetika, sumary factor, fitness, kalimat.
Abstract
Text Summarisation is a filtering process the information from document to make the summarize version use computer system. Summary can be defined a text with important information from the original document, and the length no more than a half from the original text. In this final project , text summarisation in this sistem focused on sentences extraction, by the choose the sentences to make a solution from the weight and similarity between sentences. Choose the combination of sentences to make the best solution using genetic algorithm with permutation representation. The result from this system is to get a solution with the best combination of sentences, and the information have been filtering until a half from oroginal document by genetic algorithm. The best solution considered from fitness use sumary factor , so that fitness function used in this genetic algorithm can ensure to get the best solution.
1
Bab 1 Pendahuluan
1.1 Latar Belakang
Text summarisation bertujuan meringkas sebuah artikel tanpa menghilangkan informasi penting yang tersedia dalam artikel tersebut. Text summarisation dapat meringkas keseluruhan isi dokumen menjadi tidak lebih dari setengahnya dengan tetap mempertahankan informasi penting yang ada dalam dokumen, sehingga dapat mempercepat user dalam mendapatkan informasi yang dibutuhkannya dalam membaca sebuah artikel atau dokumen.
Secara umum Ringkasan (Sumary) dapat didefinisikan sebagai sebuah teks yang dihasilkan dari satu atau lebih teks yang berisi informasi penting dari teks aslinya dan panjangnya tidak lebih dari setengah teks aslinya. Sedangkan text
summarisation adalah proses menyaring informasi penting dari sumber untuk
menghasilkan versi singkat untuk pengguna atau tugas tertentu. Text
summarisation memiliki dua pendekatan yaitu dengan Natural Language Programming (analisis semantik) atau dengan Information Retrieval (analisis
statistik) [9]. Dan teknik meringkas itu sendiri terdiri dari abstraction dengan melakukan parafrase dari teks asli, biasa dilakukan dengan menggabungkan dua konsep. Sedangkan extraction adalah dengan menyimpan informasi penting dalam teks asli, dengan memperhatikan kata – kata penting dan lokasi dalam paragrafnya [8]. Selain dengan cara seperti yang telah dijelaskan sebelumnya,peringkasan teks dapat juga memanfaatkan metode Artificial
Intelegence (AI) untuk lebih mengoptimalkan lagi summarisation, contohnya
adalah dengan Algoritma Genetika, untuk membantu dalam menentukan kualitas
sumary factor. Dalam tugas akhir ini akan membangun text summarisation
dengan cara extration menggunakan Algoritma Genetika.
Text summarisation dengan cara extraction, membutuhkan beberapa informasi penting yang biasa disebut dengan sumary factor yang dalam tugas akhir ini akan memperhatikan tiga nilai sumary factor diantaranya TRF (Topic
Relation Factor) , CF (Cohesion Factor), dan RF (Readability Factor) [11].
Untuk mempermudah penentuan nilai sumary factor tersebut maka akan dilakukan representasi dokumen terlebih dahulu dengan menggunakan teori graph, yang nantinya semua kalimat - kalimat pada dokumen yang sudah dipreprocessing akan membentuk graph terhubung berdasarkan bobotnya yang dihitung dengan mencari similarity antar kalimat. Algoritma Genetika digunakan dalam mengekstrak kalimat untuk membentuk ringkasan, karena algoritma
genetika bisa menemukan solusi yang baik secara heuristik untuk masalah kombinatorial, dimana menitikberatkan pada rekombinasi atau crossover[12]. Sehingga hasil akhirnya diharapkan, mendapat sebuah kombinasi terbaik dalam penentuan sumary factor yang berpengaruh langsung dalam penentuan fungsi
fitness. Fungsi fitness sendiri dibangun dari fungsi objektif dan batasan, dalam
Tugas akhir ini fungsi objektifnya adalah bagaimana memaksimalkan kombinasi antar sumary factor untuk mendapatkan hasil peringkasan teks yang baik. Dan batasannya adalah pemilihan nilai alpha,beta,gama yang sesuai dalam penetuan nilai fitness. Algoritma genetika menggunakan fungsi fitness sebagai ukuran kualitas yang sangat berpengaruh pada performansi algoritma genetika.
1.2 Perumusan Masalah
Dari penjelasan diatas maka masalah yang akan dicari penyelesaiannya dalam Tugas akhir ini adalah :
Bagaimana pengaruh algoritma genetika dalam text summarisation?
Bagaimana performansi text summarisation dengan menggunakan algoritma genetika?
Dalam tugas akhir ini yang dibahas adalah impelementasi algoritma genetika dalam text summarisation dengan batasan masalahnya sebagai berikut :
Dalam sistem yang akan dibangun representasi dokumen dengan menggunakan representasi graph, untuk mempermudah perhitungan summary
factor.
Dalam percobaan akan digunakan dokumen, dengan jumlah kata, sekitar 400-1000 kata.
Summary Factor yang digunakan adalah Topic Relation Factor, Cohesion Factor dan Readability Factor.
Representasi kromosom pada algoritma genetika menggunakan representasi permutasi.
Dokumen yang digunakan adalah dokumen bahasa Indonesia.
Kondisi berhenti proses evolusi dalam algoritma genetika yang digunakan adalah ketika evolusi telah memenuhi jumlah generasi maksimum yang ditentukan.
3
1.3 Tujuan
Berdasarkan pada masalah yang telah diidentifikasikan diatas, maka tujuan yang ingin dicapai dalam tugas akhir ini adalah :
Mengimplementasikan penggunaan algoritma genetika dalam text summarisation.
Menganalisa performansi dari text summarisation yang dibangun dengan menggunakan algoritma genetika.
1.4 Hipotesa
Hipotesa yang akan diteliti dari Tugas Akhir ini adalah :
Algoritma Genetika dapat diimplementasikan dalam text summarisation.
1.5 Metodologi Penyelesaian Masalah
Metode yang akan digunakan untuk menyelesaikan Tugas Akhir ini, yaitu :
a. Studi Literatur
Pada tahap ini dilakukan pencarian sumber-sumber bacaan yang berhubungan dengan penelitian yang dilakukan. Topik – topik yang dipelajari adalah mengenai
text summarisation, algoritma genetika,dan teori graph. Sumber bacaan berupa
e-book, jurnal,paper atau artikel yang diperoleh dari internet dan perpustakaan IT Telkom.
b. Analisis Kebutuhan Sistem dan Perancangan Perangkat Lunak
Pada tahap ini akan dilakukan analisis, perancangan dan penerapan dari algoritma genetika dalam text summarisation, inputan sistem berupa dokumen, kemudian dokumen direpresentasikan dalam bentuk graph, untuk mempermudah implementasi algoritma genetika, dan keluaran berupa hasil ringkasan dengan panjang sepertiga atau setengah dari panjang dokumen yang dianggap menjadi solusi terbaik dari hasil algoritma genetika.
c. Implementasi Sistem
Pada tahap ini dilakukan realisasi terhadap sistem yang telah dirancang. Akan dibangun sistem text summarisation dengan algoritma genetika yang terdiri dari beberapa tahap seperti representasi dokumen, penerapan algoritma genetika, dan pengukuran performansi sistem. Berikut gambaran secara umum urutan proses yang ingin dibangundalam tugas akhir ini :
start
Dokumen Preprosesing text (dengan tools) Representasi Dokumen Mencari Fungsi Fitness Cek nilai
fitness Nilai Fitnes No Yes Analisis Fitness Finish Genetik Algoritma Alpha,beta,g ama Pengukuran faktor peringkasan
d. Pengujian dan Analisis hasil
Dilakukan pengujian data terhadap sistem yang telah dibuat. Dalam sistem ini pengujian dilakukan bertujuan untuk :
Menganalisis pengaruh jumlah individu (ukuran populasi) dalam setiap generasi
Menganalisis pengaruh jumlah maksimal generasi dalam algoritma genetika yang digunakan dalam text summarisation
Menganalisis pengaruh probabilitas rekombinasi dan probabilitas mutasi dalam algoritma genetika yang digunakan dalam text summarisation.
Menganalisis pengaruh parameter - parameter algoritma genetika terhadap hasil panjang ringkasan.
Mencari kombinasi nilai parameter (alpha , beta , gamma) untuk digunakan dalam pencarian solusi sesuai dengan data yang digunakan dilihat dari nilai fitnessnya.
Menganalisis performansi algoritma genetika dalam melakukan pencarian optimal dengan memperhatikan nilai fitness dan summary factornya.
e. Penarikan Kesimpulan dan Penyusunan Laporan Tugas Akhir
Membuat kesimpulan dari hasil analisis dan pegujian yang dilakukan. Kemudian dilakukan dokumentasi semua tahapan proses diatas berupa laporan yang berisi tentang dasar teori dan hasil Tugas Akhir ini ke dalam sebuah buku tugas akhir
46
Bab 5. Kesimpulan Dan Saran
5.1 Kesimpulan
Berdasarkan pengujian yang dilakukan dalam Tugas Akhir ini, dapat disimpulkan bahwa :
a) Semakin panjang suatu dokumen semakin membutuhkan maksimal generasi yang besar sampai pada titik tertentu akan mencapai titik jenuhnya.
b) Semakin panjang suatu dokumen semakin membutuhkan ukuran populasi yang besar sampai pada titik tertentu akan mencapai titik jenuhnya.
c) Probabilitas rekombinasi terbaik adalah 0,6 sampai 0,9 tergantung dari jenis data yang diujikan.
d) Probabilitas mutasi sebaiknya di set dengan sangat kecil.
e) Algoritma genetika dalam peringkasan dapat dipercepat dengan memperkecil parameter algoritma genetika yaitu maksimal generasi, ukuran populasi, probabilitas rekombinasi dan probabilitas mutasi, namun akurasi dapat ditingkatkan dengan mencari kombinasi nilai alpha, beta, gamma yang tepat. f) Nilai alpha, beta, gamma yang tepat dapat ditentukan setelah melihat nilai
TRF, CF, dan RF
5.2 Saran
a) Perbaiki dalam preprocessing text karena preprocessing text dapat mempengaruhi optimalisasi sistem.
b) Dapat dicoba diimplementasikan dengan menggunakan summary factor yang lainnya, yang semula dalam tugas akhir ini baru menggunakan 3 summary factor seperti Topic Relation Factor (TRF), Cohession Factor (CF), dan Readability Factor (RF).
Powered by TCPDF (www.tcpdf.org)
Daftar Pustaka
[1] Data Dokumen : Dokumen Pendek : http://www.desawisata.net/?p=448 Dokumen Sedang : http://anggorocahyadi.wordpress.com/2010/01/27/pengembangan-pariwisata-budaya-dan-tantangannya/ Dokumen Panjang : http://www.anjond.com/news/pengertian-budaya-pariwisata/[2] Fauziyah, Nely. (2008).Analisis dan Implementasi Comparative Text
Mining dengan Suffix Tree Clustering.
[3] Goldberg, andrew (2007) ‗Advanced NLP : Automatic Summarisation‘
[4] Hovy,Edward Chin-Yew Lin, and Daniel Marcu, ‗Automated Text Summarisation‘ Information Sciences Institute University of Southern California.
[5] http://elib.unikom.ac.id/files/disk1/437/jbptunikompp-gdl-kristianpr-21823-11-12.bab-i.pdf
[6] http://voetstappen.wordpress.com/2011/05/20/text-dan-we-mining/
[7] J.Mooney, Raymond (2006) ‗Machine Learning Text Categorization‘. University of Texas at Austin.
[8] Kupiec, J., Pedersen, J.O. and Chen, F. (1995) ‗A trainable document summarizer‘, Proceedings of 18th Annual International ACM SIGIR
Conference on Research and Development in Information Retrieval,
pp.68–73.
[9] Mitra, M., Singhal, A. and Buckley, C. (1997) ‗Automatic text summarization by paragraph extraction‘, Proceedings of the
ACL’97/EACL’97 Workshop on Intelligent Scalable Text Summarization,
48
[10] Purwasih,Nurzaitun.(2009) Peringkasan Teks Otomatis Dokumen
Tunggal Berbahasa Indonesia Menggunakan Graph-based Summarization Algorithm dan Similarity (Studi Kasus Artikel Berita).
[11] Qazvinian,Vahed, Leila Sharif Hassanabadi, Ramin Halavati. (2008) ‗Summarising text with a genetic algorithm-based sentence extraction‘. [12] Suyanto, (2008). Evolutionary Computation, Komputasi Berbasis
‘Evolusi’ dan ‘Genetika’. pages 27-103.
Powered by TCPDF (www.tcpdf.org)