Timestamped Graph Model Pada Peringkas Otomatis Untuk Multidokumen Berita

(1)

TIMESTAMPED GRAPH MODEL PADA PERINGKAS OTOMATIS UNTUK MULTIDOKUMEN BERITA

Pratitis Widya Putri¹, Adiwijawa², Moch Arif Bijaksana³

¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Abstrak

Peringkasan teks otomatis (automatic text summarization) adalah proses mengambil informasi yang paling penting dari sebuah teks dokumen atau beberapa teks dokumen sehingga dihasilkan versi yang lebih singkat yang digunakan oleh user (users) untuk task tertentu (tasks) dengan memanfaatkan aplikasi berbasis komputer.

Pada Tugas Akhir ini diimplementasikan suatu teknik Automatic Text summarization berdasarkan pendekatan graf yaitu Timestamped Graph Model untuk multi dokumen berita. Aplikasi ini dilakukan terhadap multidokumen berita berbahasa Indonesia atau Inggris yang memiliki topik yang sama. Metode ini menerapkan konsep Topic-sensitive PageRank untuk menghasilkan skor tiap kalimat pada seluruh dokumen sehingga didapatkan urutan rangking seluruh kalimat. Beberapa kalimat yang memiliki rangking tertinggi akan diekstraksi menjadi kalimat ringkasan sesuai dengan parameter compression rate yang diinginkan user. Perhitungan skor kalimat dilakukan berdasarkan similarity antar kalimat dengan user query dan Timestamped Graph, yaitu graf berarah yang dibangun secara bertahap dengan simpulnya sebagai kalimat dan sisinya sebagai similarity antar kalimat. Metode similarity yang digunakan yaitu cosine-based similarity. Proses ordering dan reranking dilakukan agar kalimat-kalimat hasil ringkasan dapat terurut dan tidak ada redundancy data atau informasi yang berulang.

Pengujian dilakukan dengan menggunakan ROUGE evaluation toolkit dengan membandingkan hasil aplikasi ini dengan summarizer lainnya yaitu MEAD. Hasil pengujian menunjukkan bahwa metode Timestamped Graph Model yang diaplikasikan pada tugas akhir ini sudah memiliki akurasi yang cukup baik.

Kata Kunci : peringkas teks otomatis, Timestamped Graph Model, topic-senstive PageRank, user query, cosine-based similarity, ordering, reranking.

Abstract

The automatic text summarization is the process of taking the most important information from a text or some text to create a brief version of that text to fulfill user's need or any tasks

required.using a computer-based application.

On this final assessment the Automatic Text summarization technique based on Graph approach which is Timestamped Graph Model for multi-document of news is applied. As the input for this application are Indonesia and English news documents which have same topic. This method applies the concept of Topic-Sensitive Pagerank to yield the score of every sentence to get

sequence ranking of all sentence. Some sentences which have highest ranking will be extracted to be a summary as according to parameter of compression rate from user. The calculation of sentence score is based on similarity sentences with query and Timestamped Graph which is directed graph builded step by step with its node as sentence and its edge as similarity between sentences. Similarity method that is used is cosine-based similarity. Ordering and reranking process are apllied to produce a summary which has chronological in meaning yet and there are no redundancy data or repeated information

Evaluation of the summaries uses ROUGE evaluation toolkit comparing the result from another summarizer, MEAD. Result of examination indicate that the method of Timestamped Graph Model application in this final assessment have owned the good enough accuration.

Keywords : automatic text summarization, Timestamped Graph Model, topic-senstive PageRank, cosine-based similarity, ordering, reranking.

Powered by TCPDF (www.tcpdf.org)

(2)

1

1. Pendahuluan

1.1 Latar Belakang Masalah

Seiring dengan perkembangan jaman dan teknologi yang semakin pesat, tidak dipungkiri lagi bahwa kebutuhan orang akan informasi pun semakin meningkat. Informasi tersebut pun berkembang begitu pesatnya, sehingga ada kemungkinan orang tidak dapat membaca semua informasi tersebut, dan belum dapat mengambil suatu keputusan penting berdasarkan informasi yang ada. Untuk itulah diperlukan suatu peringkas otomatis yang diharapkan dapat menghasilkan suatu teks berupa ringkasan dari informasi yang ada.

Peringkas text otomatis (Automatic Text Summarization) adalah suatu teknik pembuatan yang lebih singkat dari sebuah teks secara otomatis, dimana suatu sistem diberikan suatu textual sources atau requirements, meringkasnya dan mengoutputkan hasil peringkasan tersebut. Teks-teks dokumen tersebut akan disusun menjadi suatu kumpulan kalimat-kalimat penting yang relevan dari teks asli sehingga diharapkan informasi-informasi yang terkandung dalam dokumen tersebut akan lebih mudah dan cepat dipahami.

Graph based automatic text summarization merupakan pendekatan baru dalam summarization. Namun, teori graf sendiri memiliki dasar matematika yang sangat kuat. Walaupun pendekatan tradisional berbasis nongraf telah berhasil dalam menempatkan salient text units dalam dokumen-dokumen, para peneliti percaya bahwa teori graf dapat membantu user untuk mengerti hubungan text units lebih baik. Graph based automatic text summarization dapat diterapkan baik pada single-document maupun multi-document summarization. Salah satunya adalah membangun suatu Automatic Text Summarization dengan menggunakan

Timestamp Graph model. Model ini dimotivasi oleh proses membaca dan menulis

manusia dan menunjukkan bagaimana text units dalam model muncul dari waktu ke waktu. Untuk itu diperlukan dua asumsi sederhana dari proses menulis dan membaca manusia yaitu:

1. Penulis menulis artikel-artikel dari kalimat pertama ke kalimat berikutnya hingga kalimat terakhir

2. Pembaca membaca artikel-artikel dari kalimat pertama ke kalimat berikutnya hingga kalimat terakhir.

Asumsi tersebut menyarankan bahwa kita sebaiknya menambahkan kalimat-kalimat ke dalam graf dalam kronologi: kita menambahkan kalimat-kalimat pertama, diikuti dengan kalimat kedua, dan seterusnya hingga kalimat terakhir ditambahkan. Asumsi-asumsi tersebut sesuai untuk single-dokumen. Namun untuk kasus multidokumen dapat diperlakukan secara sederhana sebagai multiple instances dari kasus single-dokumen yang dilakukan secara paralel. Sehingga, dalam graf multi-dokumen, kita menambahkan kalimat dari tiap dokumen ke graf pada setiap timestep.

Dalam sistem ini, suatu cluster dokumen dan sebuah query akan dijadikan sebagai inputan dan akan diproses ke dalam empat proses. Tahap pertama yaitu pemecahan kalimat, dimana kalimat-kalimat pada tiap dokumen akan dipecah dan diberikan ID tertentu yang menunjukkan informasi asal source dari dokumen

(3)

2

disertai nomor letak kalimat dalam dokumen tersebut sehingga dalam proses pembuatan graf, kalimat akan ditambahkan secara kronologi. Tahap kedua yaitu pembuatan graf, dimana kalimat-kalimat direpresentasikan sebagai titik dan

similarity sebagai sisi. Tahap selanjutnya yaitu perangkingan kalimat, dimana perhitungannya dengan menggunakan topic-sensitive PageRank. Tahap terakhir adalah mengekstraksi kalimat. Pada tahap ini, extractor akan memilih top-ranked sentences untuk digabungkan dan membentuk ringkasan (summary).

1.2 Perumusan Masalah

Dengan mengacu pada latar belakang di atas, maka permasalahan yang akan dibahas dan diteliti pada tugas akhir ini adalah:

1. Bagaimana membentuk graf secara kronologi atau per timestep.

2. Bagaimana membangun graf berdasarkan similarity antar kalimat-kalimat pada dokumen-dokumen.

3. Bagaimana memperoleh nilai pagerank suatu kalimat lalu merangkingnya

4. Bagaimana menghilangkan redundancy data dari hasil ringkasan yang didapatkan.

5. Bagaimana melakukan proses pengurutan (ordering) hasil dari ringkasan yang diperoleh.

6. Melakukan evaluasi, apakah metode ini dapat menghasilkan ringkasan yang relevan dengan informasi pada teks asli.

Adapun batasan masalah pada tugas akhir ini yaitu:

1. Teks asli yang akan diringkas dan dokumen ideal adalah dokumen berita berbahasa Indonesia dan bahasa Inggris.

2. Hasil peringkasan berupa ekstraksi terhadap kalimat dari teks asli. 3. Peringkasan yang dilakukan adalah peringkasan terhadap multi

dokumen.

4. Inputan berupa suatu cluster dokumen dengan topik yang sama dan suatu query (berupa kalimat) yang berhubungan dengan topik yang akan diringkas

5. Sistem melakukan proses penghilangan stopword.

6. Untuk evaluasi, referensi ringkasan manusia juga berupa ringkasan ekstraksi.

7. Evaluasi dilakukan dengan membandingkan content overlap antara hasil peringkasan otomatis dan ringkasan referensi dengan menggunakan ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

evaluation toolkit.

1.3 Tujuan

Tujuan dari Tugas Akhir ini adalah :

1. Menganalisis metode peringkasan teks berbasis perangkingan graf dengan menggunakan Timestamped Graph Model pada multi dokumen berita.

2. Mengimplementasikan metode tersebut menjadi sebuah sistem peringkas otomatis untuk dokumen berita.

(4)

3

3. Menganalisis hasil Timestamped Graph Model untuk peringkasan multi dokumen dengan membandingkan terhadap ringkasan manusia dengan menggunakan tool ROUGE [4] dan membandingkannya dengan hasil ringkasan MEAD summarizer.

1.4 Hipotesa Awal

Timestamped Graph Model ini dapat diimplementasikan untuk membentuk

ringkasan yang baik dari multidokumen berita.

1.5 Metodologi Penyelesaian Masalah

Metode yang digunakan dalam penyelesaian tugas akhir ini adalah menggunakan metode studi pustaka atau studi literatur dan analisis dengan langkah kerja sebagai berikut:

1. Studi literatur

a. Pencarian referensi yang layak dan berhubungan dengan metode peringkasan teks, peringkasan dengan berbasis graf khususnya

Timestamped Graph Model.

b. Pendalaman materi, memperlajari dan memahami materi yang berhubungan dengan tugas akhir.

2. Analisis permasalahan

a. Mempelajari konsep Timestamped Graph Model untuk peringkasan teks yang akan digunakan dalam mengimplementasi perangkat lunak. b. Menganalisis metode Timestamped Graph Model untuk peringkasan

teks dalam perancangan perangkat lunak.

3. Mengumpulkan requirement terhadap perangkat lunak yang akan dibangun.

Melakukan pencarian data-data yang diperlukan untuk mendukung penyelesaian masalah, untuk artikel bahasa Indonesia didapat dari beberapa situs berita online seperti republika.co.id, kompas.com, detiknews.com, okezone.com dll. Sedangkan, untuk artikel bahasa Inggris didapat dari data DUC 2004.

4. Analisis kebutuhan dan perancangan aplikasi yang akan dibangun Melakukan analisis metode peringkasan teks yang akan diaplikasikan dalam peringkasan teks otomatis. Menganalisis dan mendesain sistem yang sesuai dengan tujuan aplikasi.

5. Melakukan implementasi perancangan perangkat lunak. 6. Pengujian

Melakukan pengujian sistem dan menganalisis hasil keluaran sistem yang berupa ringkasan teks, sejauh mana ringkasan dapat menggambarkan makna utama teks dan mengujinya dengan ROUGE

evaluation toolkit.

7. Pengambilan kesimpulan dan penyusunan laporan tugas akhir

(5)

38

5. Kesimpulan dan Saran

5.1 Kesimpulan

Berdasarkan pengujian dan analisis yang telah dibahas dan dilaksanakan pada Bab 4, maka dapat disimpulkan beberapa hal sebagai berikut:

1. Graf pada metode Timestamped Graph model dapat menunjukkan kalimat-kalimat yang memiliki informasi penting yaitu dengan melihat dari jumlah derajat masuk kalimat-kalimat tersebut. Kalimat-kalimat yang dianggap penting yaitu yang memiliki derajat masuk yang jumlahnya banyak.

2. Berdasarkan pengujian yang dilakukan menunjukkan hasil dari

Timestamped Graph Model tidak memberikan akurasi yang lebih baik dari MEAD.

3. Timestamped Graph Model tidak begitu bagus untuk menghasilkan ringkasan yang pendek (10%), tetapi sudah cukup baik untuk ringkasan sedang dan panjang berdasarkan compression rate-nya (20%, 30%, 40% , 50%).

4.2 Saran

Berdasarkan hasil analisis dan kesimpulan, terdapat beberapa saran untuk perbaikan pada penelitian peringkasan teks sebagai berikut:

1. Mencoba menggunakan metode similarity yang lain untuk meningkatkan hasil akurasi hasil ringkasan.

2. Mencoba menggunakan parameter-parameter dengan nilai yang berbeda-beda pada algoritma timestamped graph untuk dapat menghasilkan ringkasan yang lebih baik.

3. Mencoba menggunakan preprocessing seperti stemming.

4. Mencoba menggunakan metode ordering yang lain untuk menghasilkan ringkasan yang lebih baik.

5. Mencoba menggunakan metode reranker yang lain untuk menghilangkan kalimat yang berulang agar menghasilkan ringkasan yang lebih baik.

(6)

39

Referensi

[1] Chin-Yew Lin, 2004, “ROUGE: A Package for Automatic Evaluation of Summaries”. http://www.aclweb.org/anthology-new/W/W04/W04-1013.pdf, didownload pada tanggal 18 September 2008.

[2] Das, Dipanjan and A. Martins. 2007. A Survey on Automatic Text Summarization. Language Technologies Institute Carnegie Mellon University.

http://www.cs.cmu.edu/~nasmith/LS2/das-martins.07.pdf, didownload pada tanggal 22 Desember 2008

[3] Ding, Yuan. 2004. A Survey on Multi-Document Summarization. Department of Computer and Information Science University of Pennsylvania.

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.121.2153&rep1&typ e=pdf, didownload pada tanggal 22 Desember 2008

[4] E. H. Hovy, 2001, “Automated Text Summarization”. Handbook of computation linguistics, Oxford University Press.

http://www.isi.edu/natural-language/people/hovy/papers/05Handbook-Summ-hovy.pdf, didownload pada

tanggal 16 Oktober 2008.

[5] Ganapathiraju, M.K. 2002. Relevance of Cluster size in MMR based

Summarizer: A Report.

http://www.cs.cmu.edu/~madhavi/publications/Ganapathiraju_11-42Report.pdf, didownload pada tanggal 22 Januari 2009

[6] Goldberg, Andrew. 2007. CS838-1 Advanced NLP: Automatic Summarization.

http://pages.cs.wisc.edu/~goldberg/publications/summarization.pdf, didownload pada tanggal 10 Januari 2009

[7] Goldstein, Jade, et.al. Multi-Document Summarization By Sentence Extraction.

Language Technologies Institute Carnegie Mellon University : USA.

http://www.aclweb.org/anthology/W/W00/W00-0405.pdf, didownload pada tanggal 22 Desember 2008

[8] Lin, Ziheng, et.al. NUS at TAC 2008: Using Augmented Timestamped Graph Model and Opinion Snippet Sentence Mining. School of Computing National

University of Singapore.

http://www.comp.nus.edu.sg/~kanmy/papers/tac08.pdf, didownload pada tanggal 10 Januari 2009

[9] Radev, Dragomir R. 2001. Experiments in Single and Multi-document

Summarization Using MEAD. University of Michigan.

http://www-nlpir.nist.gov/projects/duc/pubs/2001papers/umich.pdf, didownload pada tanggal 20 Desember 2008.

[10] Radev, Dragomir R. 2004. “Centroid-based Summarization of Multiple Documents : Sentence Extraction, Utility-based Evaluation, and User studies”.

http://tangra.si.umich.edu/~radev/papers/centroid.pdf, didownload pada tanggal 20 Desember 2008.

[11] Radev, Dragomir et. al., 2006, “MEAD Documentation v3.10”.

http://www.summarization.com/mead/, didownload pada tanggal 10 Januari 2009.

[12] Wikipedia. Automatic Summarization.

http://en.wikipedia.org/wiki/Automatic_summarization.htm, didownload pada

(7)

40

tanggal 17 September 2008

[13] Ziheng ,Lin. 2007. Graph-Based Methods for Automatic Text Summarization.

Department of Computer Science School of Computing National University of Singapore. http://wing.comp.nus.edu.sg/~linzihen/publications/HYP-thesis.pdf, didownloadpada tanggal 17 September 2008