• Tidak ada hasil yang ditemukan

Nurzaitun Purwasih¹, Moch. Arif Bijaksana², Bowo Prasetyo³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

N/A
N/A
Protected

Academic year: 2021

Membagikan "Nurzaitun Purwasih¹, Moch. Arif Bijaksana², Bowo Prasetyo³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom"

Copied!
7
0
0

Teks penuh

(1)

INDONESIA MENGGUNAKAN GRAPH-BASED SUMMARIZATION ALGORITHM DAN SIMILARITY (STUDI KASUS ARTIKEL BERITA)

Nurzaitun Purwasih¹, Moch. Arif Bijaksana², Bowo Prasetyo³

¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Abstrak

Peringkasan teks otomatis (automatic text summarization) adalah proses menyaring informasi paling penting dari sebuah sumber atau beberapa sumber untuk membuat sebuah versi ringkas dari teks dengan memanfaatkan aplikasi yang dijalankan pada komputer.

Pada Tugas Akhir ini diimplementasikan graph-based summarization algorithm dan similarity yang mengambil konsep perankingan graf untuk melakukan perankingan kalimat. Proses ini menghasilkan keluaran berupa ringkasan ekstraktif yang terdiri dari kalimat-kalimat beranking tinggi. Metode perankingan berbasis graf yang diterapkan adalah TextRank, serta dua metode lain yang menggabungkan konsep TextRank dengan konsep kemiripan dengan judul, yaitu modified TextRank dan penggabungan linear TextRank dengan similarity with title.

Pengujian dilakukan menggunakan ROUGE evaluation toolkit. Hasil pengujian menunjukkan modified TextRank dan penggabungan linear TextRank dengan similarity with title memiliki akurasi lebih baik daripada TextRank. Metode penggabungan linear TextRank dan similarity with title menunjukkan akurasi terbaik. Selain itu, hasil pengujian menunjukkan eliminasi stopwords sebagai penambahan pengetahuan kebahasaan tidak selalu meningkatkan akurasi hasil

peringkasan.

Kata Kunci : peringkasan teks, TextRank, modified TextRank, similarity with title, stopwords

Abstract

Automatic text summarization is a computerized process of distilling the most important information of a source (or sources) for making a brief version of text(s).

This final assignment implements graph-based summarization algorithm and similarity applying graph-based ranking concept for sentences ranking. The process produces the output in the form of extractive summary that consists of high ranked sentences. Graph-based method applied is TextRank, and two other methods which combine the TextRank concept and similarity with title concept, modified TextRank and linear combination of TextRank and similarity with title.

Evaluation of summaries uses ROUGE evaluation toolkit. The result of experiment shows accuracy of modified TextRank and linear combination of TextRank and similarity with title is better than TextRank. Linear combination of TextRank and similarity with title shows the best accuracy. Besides that, stopwords elimination as a language knowledge to the method does not always improve accuracy of summaries.

Keywords : automatic text summarization, TextRank, modified TextRank, similarity with title, stopwords

Powered by TCPDF (www.tcpdf.org)

(2)

1

1. Pendahuluan

1.1 Latar belakang

Peringkasan teks otomatis (automatic text summarization) adalah proses menyaring informasi paling penting dari sebuah sumber atau beberapa sumber untuk membuat sebuah versi ringkas dari teks. Riset peringkasan teks pertama kali dilakukan oleh Luhn pada tahun 1950-an. Sejak itu, mulai berkembang penelitian-penelitian peringkasan teks serta banyak workshop dan konferensi peringkasan teks terus dilakukan di seluruh dunia sampai sekarang [9]. Seiring dengan berkembangnya penelitian di bidang tersebut, berbagai metodologi pun telah dikembangkan dan diterapkan dalam peringkasan teks otomatis.

Dimotivasi oleh penelitian peringkasan teks dokumen berbahasa Inggris yang berlangsung cukup lama, berkembang juga penelitian-penelitian peringkasan teks untuk bahasa-bahasa lain yang ada di dunia. Setiap bahasa adalah unik dan memiliki tingkat kesulitan tersendiri dalam peringkasan teks otomatis. Begitu pula dengan bahasa Indonesia. Penelitian peringkasan teks untuk bahasa Indonesia mulai mengalami perkembangan beberapa tahun terakhir. Metode-metode peringkasan teks yang telah diterapkan pada bahasa Inggris mulai diadaptasi untuk peringkasan teks berbahasa Indonesia [1].

Graph-based summarization algorithm atau peringkasan teks berbasis graf

merupakan suatu metode peringkasan teks yang language independent dan dapat menghasilkan ringkasan ekstraktif. Metode berbasis graf termasuk sebuah pendekatan baru pada peringkasan teks. Walaupun pendekatan non-graf cukup berhasil menemukan unit teks yang paling penting dalam dokumen, teori graf dapat membantu pemahaman lebih baik terhadap keterhubungan antar unit teks. Teks sumber direpresentasikan menjadi sebuah graf [6,10,11,12,13] sehingga disebut graf tekstual. Vertex pada graf tersebut dapat berupa unit-unit teks seperti kata-kata, kalimat-kalimat, atau paragraf-paragraf dalam teks. Edge dalam graf menunjukkan keterhubungan antar vertex. Keterhubungan dapat berupa similarity antar kalimat ataupun hubungan leksikal atau gramatikal antar kata/frasa. Konsep

similarity antar unit teks digunakan dalam proses pembangunan graf tekstual.

Tugas akhir ini mengimplementasikan metode peringkasan berbasis graf dengan konsep perankingan terhadap vertices dalam graf terhadap dokumen tunggal berbahasa Indonesia. Peringkasan berbasis graf ini sesuai diterapkan pada dokumen tunggal karena prosesnya yang cepat, tidak memerlukan proses training karena metode bersifat unsupervised sehingga ringkasan yang dihasilkan bergantung sepenuhnya terhadap dokumen masukan.

Studi kasus yang diambil adalah artikel berita karena merupakan salah satu jenis dokumen teks yang banyak dibutuhkan orang dan dapat dengan mudah diperoleh di internet sebagai salah satu alternatif membaca berita dari koran. Melalui ringkasan, pembaca dapat mengetahui intisari atau informasi utama teks tanpa harus terlebih dahulu membaca keseluruhan teks sehingga dapat menghemat waktu pembacaan.

Metode yang diimplementasikan menambahkan pengetahuan kebahasaan berupa penghilangan kata-kata yang sangat umum dalam bahasa Indonesia (biasa disebut stopwords), khususnya pada artikel berita serta menggabungkannya

(3)

2

dengan konsep similarity with title yang mempertimbangkan kemiripan setiap kalimat dengan judul teks. Hal tersebut dengan pertimbangan bahwa pada umumnya, judul merepresentasikan topik sebuah teks.

1.2 Perumusan masalah

Permasalahan yang menjadi objek penelitian pada tugas akhir ini adalah 1. Bagaimana algoritma perankingan berbasis graf dapat menemukan

kalimat-kalimat yang mengandung informasi paling penting dari sebuah teks. 2. Bagaimana pengaruh penggabungan konsep similarity with title dengan

perankingan berbasis graf.

3. Bagaimana pengaruh penghilangan kata-kata umum terhadap perankingan,

sebagai penambahan pengetahuan kebahasaan.

Dalam tugas akhir ini, peringkasan teks dilakukan dengan batasan masalah sebagai berikut:

1. Teks sumber yang akan diringkas adalah artikel berita berbahasa Indonesia

yang diperoleh dari website berita. 2. Peringkasan dilakukan secara offline.

3. Peringkasan yang dilakukan adalah peringkasan dokumen tunggal.

4. Hasil peringkasan berupa ekstraksi dari teks sumber.

5. Tidak melakukan stemming terhadap teks masukan.

6. Algortima peringkasan berbasis graf yang akan diimplementasikan dan

dianalisis adalah TextRank [13].

7. Evaluasi dilakukan dengan membandingkan content overlap antara hasil

peringkasan otomatis dan ringkasan referensi dengan menggunakan ROUGE (Recall-Oriented Understudy for Gisting Evaluation) evaluation

toolkit [2].

1.3 Tujuan

Tujuan tugas akhir ini adalah:

1. Mengimplementasikan metode peringkasan berbasis graf dan similarity

terhadap dokumen tunggal berbahasa Indonesia, khususnya artikel berita. 2. Menganalisis pengaruh penggabungan metode peringkasan berbasis graf

dan similarity dengan konsep similarity with title terhadap hasil ringkasan. 3. Menganalisis pengaruh penghilangan kata-kata umum terhadap hasil

ringkasan, sebagai penambahan pengetahuan kebahasaan.

1.4 Metodologi penyelesaian masalah

Metodologi yang dilakukan untuk menyelesaikan permasalahan adalah sebagai berikut:

1. Melakukan studi literatur khususnya mengenai peringkasan teks otomatis,

teori graf dan similarity, dan algoritma perankingan berbasis graf.

2. Melakukan analisis kemungkinan modifikasi atau penambahan terhadap

algoritma peringkasan teks berbasis graf yang akan diimplementasikan.

(4)

3

3. Melakukan analisis kebutuhan perangkat lunak dan perancangan perangkat

lunak peringkas teks otomatis yang menerapkan algoritma peringkasan berbasis graf dan similarity.

4. Melakukan implementasi perangkat lunak sesuai dengan perancangan

yang telah dilakukan.

5. Melakukan pencarian data yang diperlukan untuk penelitian berupa

teks-teks berita berbahasa Indonesia dari website berita.

6. Melakukan pengujian pada implementasi metode peringkasan berbasis

graf dan similarity terhadap dokumen tunggal berita berbahasa Indonesia. 7. Menganalisis hasil ringkasan teks.

8. Pembuatan laporan tugas akhir.

Powered by TCPDF (www.tcpdf.org)

(5)

38

5. Penutup

5.1 Kesimpulan

Berdasarkan analisis terhadap hasil pengujian, diperoleh simpulan sebagai berikut:

1. Perankingan berbasis graf dapat diimplementasikan pada perankingan

kalimat untuk menghasilkan ringkasan ekstraktif.

2. Penggabungan metode similarity with title dengan TextRank melalui dua

cara, yaitu modified TextRank dan penggabungan linear TextRank dan

similarity with title dapat menghasilkan ringkasan dengan akurasi yang

lebih baik dibandingkan TextRank.

3. Eliminasi stopwords pada proses peringkasan sebagai penambahan

kebahasaan terhadap metode peringkasan berbasis graf yang language

independent tidak selalu meningkatkan akurasi peringkasan.

4. Akurasi hasil peringkasan juga dipengaruhi oleh panjang ringkasan; hasil

pengujian secara umum menunjukkan akurasi ringkasan 25% lebih baik daripada akurasi ringkasan 10%.

5.2 Saran

Berdasarkan hasil analisis dan simpulan, terdapat beberapa saran untuk perbaikan pada penelitian peringkasan teks sebagai berikut:

1. Menggabungkan konsep perankingan berbasis graf yang diimplementasikan pada tugas akhir ini dengan konsep similarity with first yang melibatkan kemiripan tiap kalimat dengan kalimat pertama pada teks, untuk meningkatkan akurasi peringkasan.

2. Menambah atau memperbaiki kata-kata pada daftar stopwords sehingga

peran eliminasi stopwords dapat diperoleh akurasi yang lebih baik.

Powered by TCPDF (www.tcpdf.org)

(6)

39

Referensi

[1] BPPT, “SiDoBi: Sistem Ikhtisar Dokumen untuk Bahasa Indonesia”, Open Source

Software oleh Badan Pengkajian dan Penerapan Teknologi.

http://www.inn.bppt.go.id/.

[2] Chin-Yew Lin, 2004, “ROUGE: A Package for Automatic Evaluation of

Summaries”. http://www.aclweb.org/anthology-new/W/W04/W04-1013.pdf,

didownload pada tanggal 18 September 2008.

[3] Dragomir R Radev, 2004, “Text summarization: Tutorial ACM SIGIR”. CLAIR: Computational Linguistics And Information Retrieval group University of

Michigan. www.summarization.com/sigirtutorial2004.ppt, didownload pada

tanggal 16 Mei 2008.

[4] Dragomir R Radev, et. al., 2006, “MEAD Documentation v3.10”.

http://www.summarization.com/mead/, didownload pada tanggal 7 Juli 2008. [5] E. H. Hovy, 2001, “Automated Text Summarization”. Handbook of computation

linguistics, Oxford University Press.

http://www.isi.edu/natural-language/people/hovy/papers/05Handbook-Summ-hovy.pdf, didownload pada tanggal 16 Oktober 2008.

[6] Güne Erkan, Dragomir R. Radev, 2004, “LexRank: Graph-based Centrality as

Salience in Text Summarization”.

http://tangra.si.umich.edu/~radev/lexrank/lexrank.pdf, didownload pada tanggal 16 Mei 2008.

[7] H. P. Edmundson, 1969, “New methods in automatic extracting”. JACM: Journal

of the ACM. http://courses.ischool.berkeley.edu/i256/f06/papers/edmonson69.pdf,

didownload pada tanggal 25 Januari 2009.

[8] Hongyan Jing, et. al, 1998, “Summarization Evaluation Methods: Experiments and

Analysis”. https://eprints.kfupm.edu.sa/67426/1/67426.pdf, didownload pada

tanggal 25 Januari 2009.

[9] Inderjeet Mani, Mark T. Maybury, 2001, “Automatic Summarization: Turorial Notes”.

http://mitre.org/resources/centers/it/maybury/summarization/summarization.htm, didownload pada tanggal 6 Juli 2008.

[10] Lin Ziheng, 2007, “Graph-Based Methods for Automatic Text Summarization”, Department of Computer Science School of Computing National University of

Singapore. http://wing.comp.nus.edu.sg/~linzihen/publications/HYP-thesis.pdf,

didownload pada tanggal 17 September 2008.

[11] Rada Mihalcea, 2004, “Graph-based Ranking Algorithms for Sentence Extraction,

Applied to Text Summarization”,

http://www.cs.unt.edu/~rada/papers/mihalcea.acl2004.pdf, didownload pada tanggal 23 Juni 2008.

[12] Rada Mihalcea, 2004, “Language Independent Extractive Summarization”.

http://www.aclweb.org/anthology-new/P/P05/P05-3013.pdf, didownload pada tanggal 16 Oktober 2008.

[13] Rada Mihalcea, Paul Tarau, 2004, “TextRank: Bringing Order into Texts”.

http://www.cs.unt.edu/~rada/papers/mihalcea.emnlp04.pdf, didownload pada tanggal 16 Oktober 2008.

[14] Sergey Brin, Lawrence Page, 1998, “The Anatomy of a Large-Scale Hypertextual Web Search Engine”. Computer Networks and ISDN Systems, 30(1-7).

http://infolab.stanford.edu/pub/papers/google.pdf, didownload pada tanggal 16 Oktober 2008.

(7)

40

[15] Taher H. Haveliwala, 2003, “Topic-Sensitive PageRank: A Context-Sensitive

Ranking Algorithm for Web Search”.

http://www-cs-students.stanford.edu/~taherh/papers/topic-sensitive-pagerank-tkde.pdf, didownload pada tanggal 25 Januari 2009.

[16] ___. Automatic summarization.

http://en.wikipedia.org/wiki/Automatic_summarization.htm, didownload pada tanggal 31 Mei 2008.

[17] ___. Graph (mathematics). http://en.wikipedia.org/wiki/Graph_(graph_theory).htm,

didownload pada tanggal 10 Januari 2009.

Powered by TCPDF (www.tcpdf.org)

Referensi

Dokumen terkait

Hasil uji parsial (Uji t) penelitian ini menunjukan bahwa semua variabel bebas (job embeddedness dan kepuasan kerja) secara parsial berpengaruh negatif dan

Adapun permasalahan yang akan diteliti dalam tugas akhir ini adalah bagaimana mengimplementasikan berbagai tingkatan QoS dengan menggunakan arsitektur Diffserv pada jaringan

Apabila sistem yang digunakan untuk memprediksikan nilai tenaga listrik yang perlu dibangkitkan oleh P.T PLN belum disediakan maka applikasi yang akan dibangun oleh penulis

Dengan mengimplementasikan METEOR metric dengan stemming untuk teks berbahasa Indonesia maka diharapkan akan semakin banyak kata-kata dalam hasil terjemahan mesin translasi

Dari uraian di atas dapat diambil simpulan bahwa kondisi sosial, politik, ekonomi dan budaya berpengaruh terhadap pertumbuhan dan perkembangan pendidikan dan

Besarnya displacement horisontal bored pile walls untuk kedua tipe tanah yang ditinjau dengan penambahan sirtu di atas lapisan soft clay dapat dilihat pada Tabel 4.3 dan

Hubungan Tingkat Kemandirian dalam Melakukan Aktivitas Kehidupan Sehari-Hari dan Status Gizi pada Usia Lanjut di Panti Sosial Tresna Werdha Sabai Nan Aluih

Pembalakan ilegal terjadi secara luas dan sistematis dibanyak wilayah Indonesia, dan pada tahun 2000, memasuki sekitar 50 sampai 70 persen kebutuhan kayu