• Tidak ada hasil yang ditemukan

Deep Reinforced Model dan Rules-Based untuk Peringkasan Kalimat Bahasa Indonesia

N/A
N/A
Protected

Academic year: 2021

Membagikan "Deep Reinforced Model dan Rules-Based untuk Peringkasan Kalimat Bahasa Indonesia"

Copied!
7
0
0

Teks penuh

(1)

Vol 3, No 2

September

2020

Deep Reinforced Model dan Rules-Based untuk

Peringkasan Kalimat Bahasa Indonesia

Yuniarti Musa’adah#1

, Yudi Wibisono*2, Yaya Wihardi#3 #Ilmu Komputer, Universitas Pendidikan Indonesia

Jl. Dr. Setiabudi No.229, Isola, Kec. Sukasari, Kota Bandung, Jawa Barat 40154

1[email protected]

2[email protected]

3[email protected]

Abstrak— Berkembangnya teknologi berdampak terhadap

terus bertambahnya jumlah informasi sehingga menimbulkan kondisi yang dikenal sebagai information

overload. Hal ini mengakibatkan sulitnya mendapatkan

informasi secara efisien. Salah satu solusi untuk permasalahan tersebut adalah dengan mempersingkat atau meringkas informasi sehingga waktu yang diperlukan untuk mengetahui informasi menjadi lebih sedikit.

Peringkasan informasi (teks) dapat dilakukan menggunakan Long-short term memory (LSTM) ataupun

rules-based. LSTM adalah salah satu jenis arsitektur RNN

yang mampu mempelajari ketergantungan jangka panjang. Sedangkan Rules-Based adalah metode untuk memecahkan masalah dengan aturan yang dibuat berdasarkan pengetahuan. Terbatasnya dataset untuk peringkasan teks Bahasa Indonesia mengakibatkan sulitnya mengetahui apakah metode yang mendapatkan nilai rouge besar dalam teks Bahasa Inggris dapat digunakan untuk Bahasa Indonesia.

Penelitian ini dilakukan untuk membandingkan peringkasan kalimat Bahasa Indonesia dengan menggunakan LSTM dan Rules-based. Selain itu penelitian ini juga bertujuan untuk menghasilkan dataset peringkasan kalimat. Hasil yang diperoleh dari peringkasan kalimat menggunakan Long-short Term Memory mendapatkan nilai Rouge-1 sebesar 14.44. Sedangkan peringkasan menggunakan rules-based mendapatkan nilai Rouge-1 sebesar 49.71 Dataset yang dihasilkan terdiri dari 1200 kalimat Bahasa Indonesia beserta ringkasannya.

Kata kunci

peringkasan kalimat, long-short term memory, rules-based, dependency parser, Rouge

I. PENDAHULUAN

Pada saat ini, perkembangan teknologi informasi sangat cepat, salah satunya adalah penggunaan internet [1]. Berkembangnya internet berdampak terhadap bertambahnya jumlah informasi yang mengakibatkan sangat sulit untuk mendapatkan informasi secara efisien [2]. Salah satu informasi yang sangat banyak dicari adalah berita [3].

Pada tahun 2013, media online bernama kapanlagi yang merupakan salah satu penggerak pertama di industri media online Indonesia menyatakan bahwa perusahaan tersebut membuat sekitar 500 artikel perhari untuk lima anak media mereka. Jika dikalkulasikan dalam setahun satu perusahaan online saja dapat menghasilkan 182.500 artikel.

Dengan banyaknya artikel berita yang dibuat setiap harinya dan perkembangan internet yang mendukung menyebabkan informasi berita online sangatlah mudah untuk didapatkan akan tetapi yang menjadi permasalahan di era informasi ini adalah mendapatkan informasi yang diinginkan dengan waktu yang pendek atau singkat.

Oleh karena itu diperlukan sebuah sistem yang dapat menyajikan informasi secara singkat namun mengandung informasi yang penting dari teks aslinya, hal itu disebut sebagai ringkasan [2]. Dengan adanya ringkasan, pembaca dapat dengan cepat dan mudah memahami isi sebuah berita tanpa harus membaca keseluruhan isi berita [4].

Peringkasan teks diklasifikasikan menjadi dua yaitu peringkasan ekstraktif dan peringkasan abstraktif. Peringkasan ekstraktif adalah peringkasan teks yang menghasilkan ringkasan dengan memilih beberapa kalimat penting dari teks aslinya. Sedangkan peringkasan abstraktif adalah peringkasan teks yang menghasilkan ringkasan dengan memahami teks asli dan menghasilkan kalimat baru dari teks yang diringkas [5].

Salah satu penelitian mengenai peringkasan abstraktif yang menghasilkan nilai Rouge yang besar adalah A Deep Reinforced Model for Abstractive Summarization. Deep Reinforced Model (DRM) menerapkan algoritma Encoder-Decoder dan menggunakan Long-short Term Memory, Attention Mechanism serta Reinforcement Learning. DRM menghasilkan nilai Rouge-1, Rouge-2, dan Rouge-L masing-masing sebesar 41.16, 15.75, dan 39.08 pada CNN/Daily Mail dataset dan menghasilkan nilai Rouge-1, Rouge-2, dan Rouge-L masing-masing sebesar 47.22, 30.51, dan 43.27 pada New York Times dataset [6]. Sebelum banyaknya penelitian yang

(2)

untuk peringkasan teks seperti [7] dan [8]. Dependency parser ini digunakan penulis untuk peringkasan Rules-Based. Oleh karena itu penulis melakukan penelitian untuk membandingkan nilai Rouge antara metode Deep Reinfoced Model dengan metode Rules-Based pada peringkasan berita Bahasa Indonesia. Akan tetapi peringkasan berita pada penelitian ini difokuskan pada peringkasan kalimat. Pada saat ini dataset mengenai peringkasan kalimat tidak dapat ditemukan. Oleh karena itu, penelitian ini juga bertujuan untuk menghasilkan dataset peringkasan kalimat yang dapat digunakan untuk penelitian selanjutnya.

II. PENELITIAN TERKAIT

Peringkasan teks menggunakan metode deep learning telah digunakan pada banyak penelitian peringkasan abstraktif seperti penelitian [9] yang menambahkan attention mechanism, switching generator pointer dan hierarchical attention. Kemudian pada penelitian [10] dengan menambahkan query-based pada pembentukan ringkasannya. Setelah itu pada penelitian [6] dengan menambahkan attention mechanism dan pembelajaran baru yang menggabungkan antara maximumlike-lihood dan reinforcement learning. Kemudian penelitian terbaru yaitu [11] dengan menambahkan reinforce-selected sentence rewriting.

Peringkasan teks menggunakan LSTM pada penelitian ini mengimplementasikan model dari [6] yang disebut Deep Reinforced Model (DRM) dengan source code yang digunakan untuk mengimplementasikan model ini adalah source code dari theamrzaki yang dapat diakses pada https://github.com/theamrzaki/text_summurization_abstra ctive_methods. Pada model ini dimodifikasi pada bagian word embedding dikarenakan Bahasa yang digunakan adalah Bahasa Indonesia, berbeda dengan Bahasa pada model aslinya yang menggunakan Bahasa Inggris. Word embedding yang digunakan adalah Word2vec dengan dimensi 50. Word2vec dibangun menggunakan data 210 berita Bahasa Indonesia dan Wikipedia Bahasa Indonesia. Sedangkan peringkasan teks menggunakan metode Rules-based telah digunakan pada penelitian [12]. Penelitian [12] menggunakan strategi pemilihan kalimat representatif cluster dengan pendekatan sentence information density dan semantic rule labeling. Sedangkan pada penelitian ini, pemilihan kata dilakukan berdasarkan hasil dependency parser dan struktur kalimat.

III. STUDI LITERATUR

A. Kalimat

Kalimat adalah satuan bahasa terkecil yang dapat mengungkapkan pikiran atau suatu informasi secara lengkap. Struktur inti kalimat Bahasa Indonesia terdiri dari subjek dan predikat (S-P). Struktur inti tersebut dapat diperluas menjadi beberapa tipe kalimat dasar yang

ditambah dengan objek, pelengkap, dan/atau keterangan [13]. Contoh kalimat-kalimat dasar adalah sebagai berikut:

• Anak itu sering melamun. (Subjek + Predikat)

• Sukarno dan Mohammad Hatta mempersatukan bangsa ini. (Subjek + Predikat + Objek)

Menurut [13], kalimat Bahasa Indonesia dapat dibedakan menjadi empat yaitu kalimat simpleks, kompleks, majemuk, dan majemuk kompleks.

1) Kalimat Simpleks atau kalimat tunggal: Kalimat yang hanya terdiri atas satu klausa atau satu struktur predikat. Contoh kalimat simpleks adalah sebagai berikut:

• Orang itu guru kami. (S - P)

• Kartini sedang membuat surat jawaban. (S - P – O)

• Kepakaran Teguh diakui banyak orang. (S – P – Pel) 2) Kalimat Kompleks: Kalimat yang terdiri atas klausa utama dan klausa subordinatif. Klausa utama lazim disebut induk kalimat, sedangkan klausa subordinatif lazim disebut anak kalimat. Klausa utama dapat berdiri sendiri sebagai kalimat yang lepas dan tidak bergantung pada klausa yang lain, sedangkan klausa subordinatif selalu bergantung pada klausa utama .

3) Kalimat majemuk: Kalimat yang terdiri atas dua klausa utama atau lebih yang dapat berdiri sendiri sebagai kalimat lepas.

4) Kalimat majemuk kompleks: Kalimat yang terdiri atas tiga klausa atau lebih. Dua diantara klausa dalam kalimat majemuk ini merupakan klausa utama, sedangkan yang lain merupakan klausa subordinatif.

TABELI CONTOH KALIMAT KOMPLEKS

No Kalimat Klausa

1

Supriyati tetap berangkat meskipun hari telah gelap

Klausa utama:

Supriyati tetap berangkat

Klausa subordinatif:

Meskipun hari telah gelap

2

Alamat email penulis (Courier), Sel-sel dalam tabel

Klausa utama:

Hermawan masih berada di atas bus

Klausa subordinatif:

Ketika hujan turun

Hubungan antarkedua klausa dalam kalimat ditandai dengan penggunaan konjungsi subordinatif seperti “sejak”, “semenjak”, “ketika”, “selama”, “setelah”, “sebelum”, “sehabis”, “selesai”, “asalkan”, “apabila”, “jika”, “jikalau”, “manakala”, “tatkala”, “seandainya”, “seumpama”, “agar”, “supaya”, “walaupun”, “meskipun”, “kendatipun”, “sekalipun”, “sehingga”, “sampai”, “maka”, “dengan”, “tanpa”, “bahwa”, dan “yang”.

(3)

TABELII CONTOH KALIMAT MAJEMUK

No Kalimat Klausa

1

Yanto membaca stilistika dan istrinya membuatkan susu jahe.

Klausa pertama:

Yanto membaca stiliska

Klausa kedua:

istrinya membuatkan susu jahe

2 Giyarti memesan bakso, tetapi suaminya memesan sate sapi. Klausa pertama:

Giyarti memesan bakso

Klausa kedua:

Suaminya memesan sate sapi

TABELIII

CONTOH KALIMAT MAJEMUK KOMPLEKS

No Kalimat Klausa

1

Ayah sedang melukis dan adik sedang belajar ketika kebakaran itu terjadi.

Klausa pertama :

Ayah sedang melukis

Klausa kedua:

Adik sedang belajar

Klausa subordinatif:

Ketika kebakaran itu terjadi

2

Jika rapel penelitinya turun, Harno akan membelikan adiknya sepatu basket, sedangkan Hardi akan membelikan istrinya ponsel.

Klausa pertama:

Harno akan membelikan adiknya sepatu basket

Klausa kedua:

Hardi akan membelikan istrinya ponsel

Klausa subordinatif:

Jika rapel penelitiannya turun B. Peringkasan kalimat

Peringkasan kalimat adalah penyederhanaan kalimat dengan cara mengurangi informasi dari kalimat tetapi tetap mempertahankan informasi yang paling penting dan gramatikal [14].

Peringkasan kalimat bertujuan untuk mendapatkan rangkuman dari sebuah teks. Peringkasan kalimat dapat menghapus, mengganti, atau menambahkan kata pada kalimat asli untuk mendapatkan kalimat yang lebih sederhana [15].

C. Rules-based system

Rules-based system dibuat untuk memecahkan masalah dengan aturan yang dibuat berdasarkan pengetahuan dari pakar. Aturan tersebut terdiri dari dua bagian yaitu IF dan THEN, dimana IF merupakan kondisi yang mungkin benar atau tidak benar, sedangkan THEN adalah tindakan yang dilakukan jika kondisi benar.

Rules-based system tidak dapat membuat peraturan baru atau memodifikasi peraturan yang ada dengan sendirinya karena rules-based tidak dirancang untuk dapat belajar. Umumnya rules-based system digunakan pada pembangunan aplikasi sistem pakar atau sistem pendukung keputusan [16].

D. Long-short term memory

Long-short term memory (LSTM) networks adalah salah satu jenis arsitektur RNN yang mampu mempelajari ketergantungan jangka panjang. LSTM diperkenalkan oleh [17] yang kemudian dikembangkan dan dipopulerkan oleh banyak periset.

Arsitektur LSTM terdapat unit special yang disebut memory block dalam recurrent hidden layer. Memory block tersebut berisi sel-sel memori dengan keterhubungannya sendiri yang menyimpan keadaan sementara dari jaringan [18].

E. Rouge

Rouge adalah singkatan dari Recall-Oriented Understudy for Gisting Evaluation. Rouge digunakan untuk mengukur kualitas dari suatu ringkasan yang ditentukan secara otomatis berdasarkan hasil dari perbandingan antara ringkasan yang dibuat oleh komputer dengan ringkasan ideal yang dibuat oleh manusia. Nilai Rouge dihasilkan dengan menghitung jumlah dari kata yang sama, seperti n-gram, urutan kata, dan pasangan kata [19].

Rouge adalah metrik kualitas pemilihan konten yang paling sering digunakan karena murah dan cepat [20]. Menurut [19], Rouge mempunyai pengukuran yang berbeda-beda, diantaranya yaitu:

Rouge-N, pengukuran berdasarkan unigram (Rouge-1), bigram (Rouge-2), trigram (Rouge-3), dan n-gram yang lebih tinggi lainnya yang sama.

Rouge-L, pengukuran berdasarkan urutan terpanjang kata yang sama dengan menggunakan Longest Common Subsequence (LCS).

Rouge-S, pengukuran yang memperbolehkan adanya celah yang berubah-ubah atau sering disebut skip-bigram. Skip-bigram mengukur kesamaan dari pasangan kata yang dapat memiliki jarak maksimum dua celah antar kata.

IV. HASIL DAN PEMBAHASAN

A. Dataset Kalimat Bahasa Indonesia

Dataset yang dihasilkan pada penelitian ini adalah teks yang didapatkan dari kalimat-kalimat pada berita Bahasa Indonesia. Berita Bahasa Indonesia dikumpulkan dari salah satu situs berita online yaitu CNN Indonesia yang dapat diakses pada laman https://www.cnnindonesia.com/.

Pengumpulan berita dilakukan secara manual yaitu dengan cara copy paste. Berita yang berhasil dikumpulkan sebanyak 210 berita dengan topik lalu lintas. Satu berita dibagi menjadi beberapa kalimat yang kemudian diringkas secara manual. Data yang dihasilkan dari 210 berita Bahasa Indonesia tersebut adalah 1200 kalimat beserta ringkasannya. Dataset dapat diakses pada https://github.com/KEYuni/dbKalimatBahasaIndo atau https://s.id/97diL. Contoh dataset yang dihasilkan dapat dilihat pada tabel IV.

(4)

TABELIV

CONTOH DATA KALIMAT BESERTA RINGKASANNYA

No Kalimat Ringkasan

1

Alasannya, demi keamanan perjalanan mudik, mengingat ruas tol fungsional masih belum benar-benar bisa beroperasi dan selesai sepenuhnya.

Ruas tol fungsional belum benar-benar bisa beroperasi.

2

Senada dengan Royke, Direktur Utama PT Jasa Raharja Budi Raharjo mengatakan pemudik harus berhati-hati saat melewati ruas jalan fungsional.

Pemudik harus berhati-hati saat melewati ruas jalan fungsional.

3

Karena, selain belum rampung 100 persen, jalur fungsional juga belum memperoleh sertifikasi.

Jalur fungsional belum memperoleh sertifikasi.

4

Ia juga meminta pemudik agar mengikuti arahan setiap petugas dan aparat kepolisian saat melewati jalur fungsional, serta menaati batasan kecepatan yang ditetapkan.

Permintaan agar pemudik mengikuti arahan petugas dan aparat kepolisian.

B. Peringkasan rules-based

1) Praproses Data

Praproses data dilakukan yang dilakukan pada peringkasan rules-based ini adalah case folding. Case folding bertujuan untuk merubah kata pada kalimat menjadi huruf kecil semua sehingga keseluruhan data yang digunakan menjadi konsisten.

2) Dependency Parser

Dependency parser dilakukan untuk mengetahui hubungan atau relasi antar kata pada kalimat yang dimasukan. Dependency dilakukan dengan menggunakan StanfordNLP.

3) Rules-based

Penghapusan kata dilakukan berdasarkan beberapa aturan yang telah dibuat sebelumnya. Aturan tersebut dibuat setelah memperhatikan relasi antar kata yang dihasilkan dari dependency parser.

Dalam penelitian ini, terdapat 4 aturan yang digunakan untuk meringkas kalimat dan dapat dilihat pada table V. Aturan pertama dan kedua, dibuat untuk menghilangkan klausa subordinatif pada kalimat kompleks. Sedangkan pembuatan aturan ketiga dan keempat, terinspirasi dari [7]

yang menilai kepentingan kata berdasarkan banyak child-nya. Semakin banyak child dari sebuah kata, maka semakin penting kata tersebut. Pada aturan keempat, penghapusan dilakukan berdasarkan child yang selevel. Child yang selevel pada aturan ini dijelaskan pada kalimat “Bambang mengatakan pengusaha mengeluhan penutupan tol yang terlampau lama bisa merugikan pengiriman logistik” dalam Gambar 1 dan Tabel VI.

TABELV ATURAN PENGHAPUSAN KATA

No. Aturan Aturan Penghapusan

Aturan 1

IF Relasi dari kata(A) adalah ‘case’ THEN Hapus mulai dari head kata(A)

beserta childnya Aturan 2

IF Relasi dari kata(A) adalah ‘mark’ AND

Head kata(A) adalah root THEN Hapus kata(A) beserta childnya

Aturan 3

IF Kata(A) tidak mempunyai child

AND

Head kata(A) adalah root AND Relasi dari kata(A) bukan subjek, objek atau tanda baca titik. THEN Hapus kata(A)

Aturan 4

IF Kata(A) bukan root AND

Kata(A) mempunyai child yang selevel lebih dari 4

THEN Hapus kata(A) beserta childnya

Gambar. 1 Contoh hasil dependency parser

Input

Praproses Dependency Parser

Rules-Based Post- processing

Output root mengatakan

.

mengeluhkan pengusaha bambang penutupan tol merugikan

yang terlampau lama bisa pengiriman

logistik

(nsubj) (advcl) (obj) (punct) (obj)

(compound) (acl) (obj)

(nsubj) (advmod) (amod) (advmod) (compound)

(5)

TABELVI LEVEL KATA ATAU CHILD

Tingkat Kata yang termasuk

Level 1 mengatakan

Level 2 bambang, mengeluhkan, pengusaha, . (titik) Level 3 penutupan

Level 4 tol, merugikan

Level 5 pengiriman, yang, terlampau, lama, bisa Level 6 logistik

4) Post processing

Post processing pada peringkasan kalimat rules-based ini adalah menghilangkan tanda baca yang berada diawal ringkasan yang dihasilkan setelah penghapusan kata pada tahap sebelumnya.

C. Pengujian

Pengujian sistem dilakukan dengan menggunakan 300 dari 1200 kalimat pada dataset. Pengujian akan dilakukan dengan menggunakan 12 skenario untuk mendapatkan nilai Rouge paling besar dengan mengganti parameter hidden size LSTM dan epochs yang dilakukan saat training model.

Skenario 1, 2, 3, dan 4 mempunyai epochs masing-masing sebanyak 50, 100, 200, dan 300. Nilai hidden size LSTM nya 100. Skenario 5, 6, 7, dan 8 mempunyai epochs masing-masing sebanyak 50, 100, 200, dan 300. Nilai hidden size LSTM nya 200. Skenario 9, 10, 11, dan 12 mempunyai epochs masing-masing sebanyak 50, 100, 200, dan 300. Nilai hidden size LSTM nya 300. Nilai learning rate di setiap skenarionya adalah 0.001.

Pengujian tersebut menghasilkan nilai Rouge dari Deep Reinforced Model yang dapat dilihat pada tabel VII, dan contoh hasil ringkasannya pada tabel VIII.

TABELVII

NILAI ROUGE PERINGKASAN RULES-BASED

Skenario Rouge-1 Rouge-2 Rouge-L

1 10.54 0.79 13.96 2 10.95 0.66 13.87 3 12.06 1.28 15.27 4 12.58 2.00 15.76 5 13.54 1.86 17.35 6 14.11 2.41 16.71 7 12.49 2.12 15.79 8 11.48 2.21 14.10 9 14.44 2.82 18.23 10 13.79 2.20 16.77 11 14.23 3.08 17.56 12 9.73 9.73 12.75 TABELVIII

CONTOH HASIL RINGKASAN DEEP REINFORCED MODEL

No Kalimat Referensi Ringkasan DRM

1

penyempitan jalur akibat pembangunan proyek konstruksi proyek mass rapid transit ( mrt ) di jalan rs fatmawati pun mengakibatkan kondisi lalu lintas semakin padat pagi ini , khususnya di pertigaan jalan cipete raya . Penyempit an jalur akibat pembangu nan proyek MRT. faktor pembangun an kebakaran mengalami kebakaran kecelakaan usia <UNK> 2 kasubdit pengawalan dan patroli jalan raya polri , kombes bambang sentot widodo menyebut ada kecenderungan puncak arus mudik , yang semula diperkirakan terjadi pada 12 dan 13 juni , bergeser menjadi 8 dan 9 juni . Ada kecenderu ngan puncak arus mudik bergeser. road jalan ini terjadi terjadi secara terjadi terjadinya <UNK> <UNK> 3 berdasarkan catatan di gerbang tol ciawi , jumlah kendaraan yang keluar gerbang tol ciawi menuju arah puncak dan sekitarnya pada minggu 30 desember 2018 sebanyak 32.529 unit , sedangkan yang masuk menuju jakarta sebanya 29.063 unit . Jumlah kendaraan yang keluar gerbang tol Ciawi menuju arah Puncak sebanyak 32.529 unit. jalur gerbang gerbang gerbang utama ke utama utama park <UNK> <UNK> 4 berdasarkan catatan di gerbang tol ciawi , jumlah kendaraan yang keluar gerbang tol ciawi menuju arah puncak dan sekitarnya pada minggu 30 desember 2018 sebanyak 32.529 unit , sedangkan yang masuk menuju jakarta sebanya 29.063 unit . Jumlah kendaraan yang keluar gerbang tol Ciawi menuju arah Puncak sebanyak 32.529 unit. jalur gerbang gerbang gerbang utama ke utama utama park <UNK> <UNK>

Sedangkan hasil ringkasan dari Rules-Based dapat dilihat pada tabel IX dan nilai Rougenya pada Tabel X.

(6)

TABELIX

CONTOH HASIL RINGKASAN RULES-BASED

No Kalimat Referensi Ringkasan

Rules-based

1

kebijakan buka tutup sejumlah gerbang tol dalam masa uji coba rekayasa lalu lintas menjelang asian games 2018 mulai diterapkan. kebijakan buka tutup gerbang tol mulai diterapkan. kebijakan buka tutup sejumlah gerbang tol lalu lintas mulai diterapkan . 2 namun, kalangan pengusaha dan pelaku bisnis jasa logistik meminta waktu penutupan itu dipangkas karena akan berdampak buruk terhadap kelancaran arus pengiriman barang. pengusaha dan pelaku bisnis jasa logistik meminta waktu penutupan dipangkas. kalangan pengusaha dan pelaku bisnis jasa logistik meminta waktu penutupan itu dipangkas karena akan berdampak buruk .

No Kalimat Referensi Ringkasan

Rules-based

3

bambang prihartono mengatakan truk logistik memiliki batas waktu tertentu untuk mengantar barang yang dibawanya ke perusahaan. truk logistik memiliki batas waktu untuk mengantar barang. bambang prihartono mengatakan truk logistik memiliki batas waktu tertentu TABELX

NILAI ROUGE PERINGKASAN RULES-BASED

Rouge Precision Recall F1-score

Rouge-1 12.46 16.79 13.96

Rouge-2 13.27 15.03 13.87

Rouge-3 14.68 16.52 15.27

Perbandingan nilai Rouge dari Deep Reinforced Model dan Rules-Based dapat dilihat pada tabel XI.

TABELXI

NILAI ROUGE PERINGKASAN RULES-BASED

Metode Precision Recall F1-score Deep reinforced

model 12.46 16.79 13.96

Rules-based 13.27 15.03 13.87

Tabel XI menjelaskan bahwa peringkasan Rules-Based menghasilkan ringkasan yang lebih bagus dari pada peringkasan Deep Reinforced Model. Hal tersebut dapat terlihat dari nilai Rouge yang diperoleh dari masing-masing metode. Deep Reinforced Model menghasilkan nilai Rouge yang lebih rendah dikarenakan data yang digunakan untuk melatih model terbilang sedikit.

V. KESIMPULAN DAN SARAN

Berdasarkan hasil pengujian, peringkasan kalimat dengan menggunakan rules-based mendapatkan nilai Rouge yang lebih besar yaitu Rouge-1 sebesar 49.71 dibandingkan dengan Deep Reinforced Model yang mendapatkan nilai Rouge-1 sebesar 14.44. Peringkasan kalimat menggunakan Deep Reinforced Model belum mendapatkan nilai Rouge yang maksimal dikarenakan dataset yang digunakan masih terbilang sedikit untuk pemrosesan menggunakan neural network. Peringkasan kalimat menggunakan rules-based yang dikembangkan juga belum sepenuhnya efektif karena hanya berdasarkan dependency parser. Oleh karena itu, dibutuhkan penelitian lebih lanjut dengan dataset yang lebih banyak maupun rules yang lebih banyak seperti rules yang dibuat berdasarkan bobot kata dan ketergantungan antar kata.

REFERENSI

[1] R. T. Wahyuni, D. Prastiyanto, and E. Supraptono, “Penerapan Algoritma Cosine Similarity dan Pembobotan TF-IDF pada Sistem Klasifikasi Dokumen Skripsi,” J. Tek. Elektro, vol. 9, no. 1, 2017.

[2] R. Indrianto, M. A. Fauzi, and L. Muflikhah, “Peringkasan Teks Otomatis Pada Artikel Berita Kesehatan Menggunakan K-Nearest Neighbor Berbasis Fitur Statistik,” J. Pengemb.

Teknol. Inf. dan Ilmu Komput., vol. 1, no. 11, pp. 1198–1203,

2017.

[3] B. K. Wangsa, D. Utomo, and S. Nugroho, “Sistem Peringkas Berita Otomatis berbasis Text Mining menggunakan Generalized Vector Space Model : Studi Kasus Berita diambil dari Media Massa Online,” Techne J. Ilm. Elektrotek., vol. 13, no. 2, pp. 231–241, 2014.

[4] W. Budiyono and F. Solihin, “Aplikasi Peringkas Berita Online Otomatis Menggunakan Metode Ordinary Weighting Pada,” J. Ilm. NERO, vol. 1, no. 2, pp. 53–62, 2014.

[5] G. Mandar and G. Gunawan, “Peringkasan dokumen berita Bahasa Indonesia menggunakan metode Cross Latent Semantic Analysis,” Regist. J. Ilm. Teknol. Sist. Inf., vol. 3, no. 2, pp. 94–104, 2018.

[6] R. Paulus, C. Xiong, and R. Socher, “A Deep Reinforced Model for Abstractive Summarization,” ICLR, no. i, pp. 1–12, 2017.

[7] A. El-Kilany and I. Saleh, “Unsupervised document summarization using clusters of dependency graph nodes,” Int.

Conf. Intell. Syst. Des. Appl. ISDA, pp. 557–561, 2012.

[8] S. Banerjee, P. Mitra, and K. Sugiyama, “Abstractive Meeting Summarization Using Dependency Graph Fusion,” Proc. 24th

Int. Conf. World Wide Web, 2015.

[9] R. Nallapati, B. Zhou, and C. dos Santos, “Abstractive Text Summarization using Sequence to sequence RNNs and Beyond,” 2016.

[10] J. Hasselqvist, N. Helmertz, and M. Kågebäck, “Query-Based Abstractive Summarization Using Neural Networks,” 2017. [11] Y. Chen and M. Bansal, “Fast Abstractive Summarization with

Reinforce-Selected Sentence Rewriting,” 2018.

[12] G. N. Syaifuddiin, A. Z. Arifin, and D. Purwitasari, “Semantic Rule Labeling Dan Sentence Information Density Dalam Pemilihan Kalimat Representatif Cluster Pada Peringkasan Multi-Dokumen,” J. Inspirat., vol. 6, no. 1, 2016.

[13] Kementrian Pendidikan dan Kebudayaan, Kalimat. 2015. [14] E. C. Marsi, E. J. Krahmer, I. Hendrickk, and W. Daelemans,

“Is sentence compression an NLG task ?,” Proc. 12th Eur.

(7)

[15] M. Bernard, I. Asror, and I. L. Sardi, “Penyederhanaan kalimat dalam dokumen menggunakan Metode A noisy-channel,”

e-Proceeding Eng., vol. 5, no. 2, pp. 3671–3681, 2018.

[16] S. H. Chen, A. J. Jakeman, and J. P. Norton, “Artificial Intelligence techniques: An introduction to their use for modelling environmental systems,” Math. Comput. Simul., vol. 78, no. 2–3, pp. 379–400, 2008.

[17] S. Hochreiter and J. Urgen Schmidhuber, “Long Short-Term Memory,” Neural Comput., vol. 9, no. 8, pp. 1735–1780, 1997. [18] H. Sak, A. Senior, and F. Beaufays, “Long Short-Term

Memory Based Recurrent Neural Network Architectures for Large Vocabulary Speech Recognition,” arXiv Prepr.

arXiv1402.1128, no. Cd, 2014.

[19] C.-Y. Lin, “ROUGE : A Package for Automatic Evaluation of Summaries,” Text Summ. branches out, pp. 74–81, 2004. [20] A. Nenkova and K. McKeown, “Automatic Summarization,”

in Foundations and Trends in Information Retrieval, vol. 5, 2011, pp. 103–233.

Gambar

TABEL I  C ONTOH  K ALIMAT KOMPLEKS
TABEL III
TABEL V  A TURAN  P ENGHAPUSAN  K ATA
TABEL VI  L EVEL KATA ATAU CHILD
+2

Referensi

Dokumen terkait

Penulis mempersembahkan tugas akhir dengan judul “ Kemampuan Fraksi Terlarut dan Tidak Terlarut Buah Apel Fuji dan Rome Beauty dalam Pengikatan Kadmium Secara In.. Vitro

Berdasarkan tujuan pembelajaran yang telah dirumuskan, langkah selanjutnya adalah mengembangkan alat atau instrumen penilaian yang mampu mengukur pencapaian hasil

Diantara wakaf yang berkembang ialah wakaf uang atau bisa dikatakan juga sebagai wakaf produktif yang dimana dapat dimanfaatkan oleh kita untuk membangun suatu

Adapun sumber data dalam penelitian ini adalah subjek dari mana data dapat.. diperoleh, dengan kata lain sumber data dalam penelitian ini

Kafein banyak digunakan di dalam makanan dan minuman ringan karena memiliki karakteristik rasa yang pahit dank has (Sadler, 1999) rasa pahit dari kafein pada

Berdasarkan hasil penelitian dan pembahasan yang telah diuraikan tentang pengaruh kemampuan guru dalam membuat rencana pelaksanaan pembelajaran (RPP) terhadap

Detta kan man lyfta till en diskussion om hur likvärdig utbildningen faktiskt blir för eleverna då man inte har tillgång till lika mycket resurser.. Detta berörs också i

permasalahan dalam penelitian ini dapat diidentifikasi sebagai berikut. 1) Berlandaskan inferensi pragmatik, terdapat sejumlah tuturan film horor di. Indonesia yang