IMPLEMENTASI METODE TEXTRANK DAN MAXIMUM MARGINAL RELEVANCE PADA PERINGKAS BERITA DIFABEL OTOMATIS

(1)

IMPLEMENTASI METODE TEXTRANK DAN MAXIMUM

MARGINAL RELEVANCE PADA PERINGKAS BERITA

DIFABEL OTOMATIS

Diajukan sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer (S.Kom)

Steven Wijaya 00000020163

PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK DAN INFORMATIKA UNIVERSITAS MULTIMEDIA NUSANTARA

TANGERANG 2021

(2)

ii

LEMBAR PENGESAHAN

IMPLEMENTASI METODE TEXTRANK DAN MAXIMUM MARGINAL RELEVANCE PADA PERINGKAS BERITA DIFABEL OTOMATIS

Oleh

Nama : Steven Wijaya

NIM : 00000020163

Program Studi : Informatika

Falkutas : Teknik dan Informatika

Tangerang, 21 Juni 2021 Ketua Sidang

Alexander Waworuntu, S.Kom., M.T.I.

Dosen Penguji

Farica Perdana Putri, S.kom., M.Sc.

DosenPembimbing

Dennis Gunawan, S.Kom., M.Sc. Mengetahui,

Ketua Program Studi Informatika

Marlinda Vasty Overbeek, S.Kom., M.Kom.

Farica

Perdana

Putri

Digitally signed by Farica Perdana Putri Date: 2021.06.22 09:03:43 +07'00' Digitally signed by Alexander Waworuntu Date: 2021.06.23 11:22:11+07'00'

Digitally signed by Dennis Gunawan DN: CN=Dennis Gunawan, C=ID, OU=Department of Informatics, O=Universitas Multimedia Nusantara, [email protected] Reason: I am approving this document

Location: Jakarta Date: 2021-06-23 13:51:03

Digitally signed by Marlinda Vasty Overbeek Date: 2021.06.24 08:02:13 +07'00'

(3)

iii

PERNYATAAN TIDAK MELAKUKAN PLAGIAT

Dengan ini saya:

Nama : Steven Wijaya

NIM : 00000020163

Program Studi : Informatika

Falkutas : Teknik dan Informatika

menyatakan bahwa Skripsi yang berjudul “Implementasi Metode Textrank Dan Maximum Marginal Relevance Pada Peringkas Berita Difabel” ini adalah karya ilmiah saya sendiri, bukan plagiat dari karya ilmiah yang ditulis oleh orang lain atau lembaga lain, dan semua karya ilmiah orang lain atau lembaga lain yang dirujuk dalam Skripsi ini telah disebutkan sumber kutipannya serta dicantumkan Daftar Pustaka.

Jika di kemudian hari terbukti ditemukan kecurangan/ penyimpangan, baik dalam pelaksanaan Skripsi maupun dalam penulisan laporan Skripsi, saya bersedia menerima konsekuensi dinyatakan TIDAK LULUS untuk mata kuliah Skripsi yang telah saya tempuh.

Tangerang, 21 Juni 2021

(4)

iv

PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH

UNTUK KEPENTINGAN AKADEMIS

Sebagai sivitas akademik Universitas Multimedia Nusantara, saya yang bertanda tangan dibawah ini:

Nama : Steven Wijaya NIM : 00000020163 Program Studi : Informatika

Falkutas : Teknik dan Informatika Jenis Karya : Skripsi

Demi pengembangan ilmu pengetahuan, menyetujui dan memberikan izin kepada Universitas Multimedia Nusantara hak Bebas Royalti Non-eksklusif

(Non-exclusive Royalty-Free Right) atas karya ilmiah saya yang berjudul:

Implementasi Metode Textrank Dan Maximum Marginal Relevance Pada Peringkas Berita Difabel

Beserta perangkat yang diperlukan.

Dengan Hak Bebas Royalti Non-eksklusif ini, pihak Universitas Multimedia Nusantara berhak menyimpan, mengalihmedia atau format-kan, mengelola dalam bentuk pangkalan data (database), merawat, mendistribusi dan menampilkan atau mempublikasikan karya ilmiah saya di internet atau media lain untuk kepentingan akademis, tanpa perlu meminta izin dari saya maupun memberikan royalti kepada saya, selama tetap mencantumkan nama saya sebagai penulis karya ilmiah tersebut. Deminikan pernyataan ini saya buat dengan sebenarnya untuk dipergunakan sebagaimana mestinya.

(5)

v

HALAMAN PERSEMBAHAN/ MOTO

“Because sometimes even if you know how something’s gonna end,

that doesn’t mean you can’t enjoy the ride”

(6)

vi

KATA PENGANTAR

Puji syukur kepada Tuhan Yang Maha Esa atas berkat, kuasa, dan segala karunia-Nya, penulis dapat menyelesaikan laporan Skripsi yang berjudul “Implementasi Metode Textrank Dan Maximum Marginal Relevance Pada Peringkas Berita Difabel” dengan baik dan tepat waktu.

Penulis juga mengucapkan terima kasih kepada:

1. Dr. Ninok Leksono M.A, selaku Rektor Universitas Multimedia Nusantara 2. Dr.Eng. Niki Prastomo, S.T., M.Sc., selaku Dekan Falkutas Teknik dan

Informatika Universitas Multimedia Nusantara,

3. Marlinda Vasty Overbeek, S.Kom., M.Kom. sebagai Ketua Program Studi Informatika atas dukungan selama proses pengerjaan laporan Skripsi hingga selesai,

4. Dennis Gunawan, S.Kom., M.Sc. yang telah sabar membimbing, menerima penulis dengan baik untuk berkonsultasi, dan mengajarkan penulis tata cara menulis karya ilmiah dengan benar,

5. Para dosen yang telah memberikan ilmu dan arahan kepada penulis selama masa perkuliahan,

6. Orang tua serta keluarga yang telah menemani, memberikan dukungan, dan semangat dari awal masa perkuliahan hingga tersusunnya laporan Skripsi ini,

7. Aaron Effendi, Albert Wijaya, Devira Paramitha, Djasen Tjendry, dan Steve Manumpil sebagai teman seperjuangan yang menemani penulis untuk menyelesaikan penulisan laporan Skripsi,

(7)

vii

8. Annah, Carel Andersent, Juan Andreas, Priscillia, Stevanny Agatha Wijaya, dan William Suryajaya sebagai teman terkasih dan menemani penulis di masa perkuliahan serta memberikan dukungan dalam penulisan laporan Skripsi,

9. Teman-teman terdekat atas bantuan, semangat, dan hiburan di kala penulis merasa kesulitan dalam menyusun laporan Skripsi ini.

Semoga laporan Skripsi ini dapat bermanfaat, baik sebagai sumber informasi maupun sumber inspirasi, bagi para pembaca.

(8)

viii

IMPLEMENTASI METODE TEXTRANK DAN MAXIMUM

MARGINAL RELEVANCE PADA PERINGKAS BERITA

DIFABEL OTOMATIS

ABSTRAK

Minimnya liputan mengenai penyandang disabilitas, seolah menyembunyikan ketidaksetaraan yang penyandang disabilitas alami. Media massa sebagai pihak penyedia informasi pun merasa kesulitan karena dianggap kompleks dan membutuhkan kepekaan serta analisa yang mendalam. Diperlukan sebuah cara untuk membantu para jurnalis melakukan penelitian dengan lebih cepat. Ringkasan merupakan salah satu solusinya, akan tetapi meringkas secara manual membutuhkan banyak sekali waktu dan usaha. Oleh karena itu dibutuhkan peringkas berita yang bekerja secara otomatis. TextRank merupakan salah satu metode yang paling populer dan sering digunakan menjadi standar dalam peringkasan teks otomatis. Maximal Marginal Relevance (MMR) dapat mengurangi kemunculan kalimat redundant dan juga hasil ringkasannya dianggap mampu mendekati hasil ringkasan manusia. Penelitian dimulai dengan memilih berita difabel pada dataset IndoSum dan scraping pada website berita difabel

online, text preprocessing, pemilihan model yang dapat merepresentasikan teks

menjadi vector dengan baik, pemeringkatan menggunakan TextRank dan pemeringkatan ulang menggunakan Maximal Marginal Relevance. Hasil evaluasi terbaik didapatkan oleh model FastText pre-trained dengan nilai cosine similarity mencapai 0.98653 dan nilai f1-score, precision, recall mencapai 0.36528 pada

dataset hasil scraping sedangkan pada dataset IndoSum mendapatkan nilai cosine similarity sebesar 0.97316 dengan nilai f1-score, precision, recall sebesar 0.36634.

Kata Kunci: FastText, Maximal Marginal Relevance, Penyandang Disabilitas, Ringkasan Berita, TextRank.

(9)

ix

IMPLEMENTATION OF TEXTRANK AND MAXIMUM

MARGINAL RELEVANCE (MMR) IN AUTOMATIC

SUMMARIZER FOR NEWS ABOUT DISABILITY

ABSTRACT

The lack of media coverage seems to hide the inequality that people with disabilities experience. The mass media also find it difficult because it is considered complex and requires sensitivity and in-depth analysis. A way is needed to help journalists conduct research more quickly. A summary is one solution but summarizing manually takes a lot of time and effort. Therefore, we need a news summary that works automatically. TextRank is one of the most popular methods and is often used as the standard in automatic text summarization. Maximal Marginal Relevance (MMR) can reduce the appearance of redundant sentences and the summary results are considered to be able to approach human summary results. The research begins by selecting news about people with disabilities on the IndoSum dataset and scraping on online websites, text preprocessing, selecting a model that can represent text into vector well, ranking using TextRank, and re-rating using Maximal Marginal Relevance. The best evaluation results were obtained by the pre-trained FastText model with a cosine similarity value reaching 0.98653 and an f1-score, precision, recall reaching 0.36528 on the scraping dataset while the IndoSum

dataset got a cosine similarity value of 0.97316 with an f1-score, precision, recall

of 0.36634.

Keywords: Disability, FastText, Maximal Marginal Relevance, News Summarization, TextRank.

(10)

x

DAFTAR ISI

LEMBAR PENGESAHAN……….ii

PERNYATAAN TIDAK MELAKUKAN PLAGIAT ... iii

PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS ... iv

HALAMAN PERSEMBAHAN/ MOTO ... v

KATA PENGANTAR ... vi

ABSTRAK ... viii

ABSTRACT ... ix

DAFTAR ISI ... x

DAFTAR GAMBAR ... xiii

DAFTAR TABEL ... xvi

DAFTAR RUMUS ... xvii

BAB 1 PENDAHULUAN ... 1

1.1 Latar Belakang Masalah ... 1

1.2 Rumusan Masalah ... 9

1.3 Batasan Masalah ... 9

1.4 Tujuan Penelitian ... 10

1.5 Manfaat Penelitian ... 10

1.6. Sistematika Penulisan ... 11

BAB 2 LANDASAN TEORI ... 12

2.1 Definisi Penyandang Disabilitas ... 12

2.2 Definisi dan Konsep Dasar Peringkasan Teks Otomatis ... 14

2.3 One-hot Encoding ... 15

2.4 Term Frequency - Inverse Document Frequency (TF-IDF) ... 16

2.5 FastText ... 18

2.6 Konsep Dasar Metode Textrank ... 19

2.7 Konsep Dasar Metode Maximum Marginal Relevance ... 20

2.8 Confusion Matrix ... 22

2.9 Cosine Similarity ... 23

BAB 3 METODOLOGI PENELITIAN... 25

(11)

xi

3.2 Studi Literatur ... 27

3.3 Collecting Data ... 27

3.3.1 Collecting Difable News in Dataset IndoSum ... 27

3.3.2 Collecting Difable News by Scraping ... 32

3.4 Text Preprocessing ... 34

3.5 Create Model ... 36

3.6 TextRank ... 39

3.6.1 Build Similarity Matrix ... 40

3.6.2 Calculate PageRank Score ... 43

3.6.3 Reduce Summary Length ... 44

3.7 Maximal Marginal Relevance ... 46

3.8 Perancangan Aplikasi ... 48

3.9 Pembangunan Aplikasi ... 54

3.10 Dokumentasi ... 54

BAB 4 HASIL DAN DISKUSI ... 55

4.1 Hasil Pemilihan Berita ... 55

4.1.1 Dataset IndoSum ... 55

4.1.2 Dataset Hasil Proses Scraping ... 56

4.2 Hasil Implementasi Aplikasi ... 58

4.2.1 Hasil Implementasi Antarmuka Aplikasi ... 58

4.2.2 Source Code Hasil Implementasi Proses Sumarisasi ... 63

4.2.3 Source Code Hasil Implementasi Proses Text Preprocessing ... 64

4.2.4 Source Code Hasil Implementasi Proses Pembangunan Model One-hot Encoding ... 66

4.2.5 Source Code Hasil Implementasi Proses Pembangunan Model TF-IDF ... 67

4.2.6 Source Code Hasil Implementasi Proses Pembangunan Model FastText ... 68

4.2.7 Source Code Hasil Implementasi Proses Pemeringkatan TextRank 69 4.2.8 Source Code Hasil Implementasi Proses Pemeringkatan Maximal Marginal Relevance ... 75

4.3 Uji Coba ... 76

(12)

xii

4.3.2 Hasil Pengujian ... 77

4.3.3 Diskusi Hasil Pengujian ... 81

BAB 5 SIMPULAN DAN SARAN ... 88

5.1 Simpulan ... 88

5.2 Saran ... 88

DAFTAR PUSTAKA ... 86

(13)

xiii

DAFTAR GAMBAR

Gambar 2.1 Representasi Kata Dalam One-Hot Vector... 16

Gambar 2.2 Tabel Confusion Matrix ... 22

Gambar 3.1 Flowchart Gambaran Umum Metodologi Penelitian……….26

Gambar 3.2 Flowchart Collecting Data... 27

Gambar 3.3 Bentuk Dataset IndoSum ... 28

Gambar 3.4 Struktur File Pada Dataset IndoSum ... 29

Gambar 3.5 Jumlah Data Pada Training Subset, Test Subset, dan Development Subset Dalam Setiap Bentuk ... 29

Gambar 3.6 Flowchart Collecting News About People with Disabilities in Dataset IndoSum ... 32

Gambar 3.7 Salah Satu Artikel Berita yang Tidak Relevan... 31

Gambar 3.8 Flowchart Collecting News about People with Disabilities by scraping ... 33

Gambar 3.9 Dataset Hasil Proses Scraping ... 34

Gambar 3.10 Flowchart text preprocessing ... 34

Gambar 3.11 Hasil Word Dictionary ... 38

Gambar 3.12 Flowchart Proses TextRank ... 40

Gambar 3.13 Flowchart Build Similarity Matrix ... 41

Gambar 3.14 Flowchart Calculate Sentence Similarity ... 42

Gambar 3.15 Flowchart Reduce Summary Length ... 46

Gambar 3.16 Flowchart Maximal Marginal Relevance ... 47

Gambar 3.17 Flowchart Aplikasi Peringkas Berita Otomatis ... 48

Gambar 3.18. Flowchart Fitur Meringkas Berita Teks ... 49

Gambar 3.19 Flowchart Fitur Meringkas File ... 49

Gambar 3.20 Rancangan Antarmuka Meringkas Teks Berita dengan Compression Panjang Kalimat ... 51

Gambar 3.21 Rancangan Antarmuka Halaman Meringkas Teks Berita dengan Percentage Slider ... 51

Gambar 3.22 Rancangan Antarmuka Meringkas Teks Berita Dengan Percentage Input ... 52

Gambar 3.23 Rancangan Antarmuka Halaman Multi Document Percentage Input ... 53

Gambar 3.24 Rancangan Antarmuka Halaman Multi Document Percentage Slider ... 53

Gambar 3.25 Rancangan Antarmuka Halaman Multi Document Summary Length ... 54

Gambar 4.1 Source code Penggabungan 3 Subset IndoSum………..55

Gambar 4.2 Source Code dan Hasil Pemeriksaan Keywords dalam Berita IndoSum ... 56

(14)

xiv

Gambar 4.4 Source Code Ekstraksi Informasi Link Berita ... 58

Gambar 4.5 Tampilan Awal Halaman Pertama ... 59

Gambar 4.6 Error Message Saat Input Text Kosong ... 59

Gambar 4.7 Error Message Saat Belum Memilih compression ... 60

Gambar 4.8 Error Message Saat Jumlah Kalimat Yang Diingin Terlalu Besar ... 60

Gambar 4.9 Hasil Ringkasan Pada Halaman Pertama ... 61

Gambar 4.10 Tampilan Awal Halaman Kedua ... 61

Gambar 4.11 Error Message Saat Upload File bukan csv ... 62

Gambar 4.12 Isi File csv Hasil Ringkasan ... 62

Gambar 4.13 Error Message Jumlah Kalimat Yang Diingin Terlalu Besar Pada csv ... 63

Gambar 4.14 Source code Proses Sumarisasi ... 63

Gambar 4.15 Source Code Import Library dan Method Dalam Text Preprocessing ... 64

Gambar 4.16 Source Code Text Preprocessing ... 66

Gambar 4.17 Source Code Pembentukan Word Dictionary One-hot Encoding ... 67

Gambar 4.18 Source Code Pembangunan Model TF-IDF ... 67

Gambar 4.19 Source Code Pembangunan Model FastText CBOW ... 68

Gambar 4.20 Source Code Pembangunan Model FastText Skipgram ... 68

Gambar 4.21 Source Code Pemanggilan Model FastText Pre-Trained ... 69

Gambar 4.22 Source Code Proses Pemeringkatan TextRank ... 70

Gambar 4.23 Source Code Pembentukan Similarity Matrix ... 71

Gambar 4.24 Source Code Sentence Similarity Model One-hot Encoding ... 72

Gambar 4.25 Source Code Sentence Similarity Model TF-IDF ... 73

Gambar 4.26 Source Code Sentence Similarity Model FastText ... 73

Gambar 4.27 Source Code Reduce Summary Length metode above average ... 74

Gambar 4.28 Source code reduce summary length metode 50:50 ... 75

Gambar 4.29 Source Code Pemeringkatan Maximal Marginal Relevance... 76

Gambar 4.30 Hasil Pengujian f1-score Pada Dataset IndoSum Dengan Metode Reduksi Above Average ... 78

Gambar 4.31 Hasil Pengujian f1-score Pada Dataset IndoSum Dengan Metode Reduksi 50:50 ... 78

Gambar 4.32 Hasil Pengujian Cosine Similarity Pada Dataset IndoSum Dengan Metode Reduksi Above Average ... 79

Gambar 4.33 Hasil Pengujian Cosine Similarity Pada Dataset IndoSum Dengan Metode Reduksi 50:50 ... 79

Gambar 4.34 Hasil Pengujian f1-score Pada Dataset hasil scraping Dengan Metode Reduksi Above Average ... 80

Gambar 4.35 Hasil Pengujian f1-score Pada Dataset hasil scraping Dengan Metode Reduksi 50:50 ... 80

Gambar 4.36 Hasil Pengujian Cosine Similarity Pada Dataset hasil scraping Dengan Metode Reduksi Above Average ... 81

(15)

xv

Gambar 4.37 Hasil Pengujian Cosine Similarity Pada Dataset hasil scraping Dengan Metode Reduksi 50:50 ... 81 Gambar 4.38 Kemunculan Kalimat Rendundan Pada Hasil Ringkasan Dengan Model FastText Skipgram Saat Lambda Bernilai 1 ... 84 Gambar 4.39 Contoh Hasil Ringkasan Dengan Model FastText Skipgram Saat

Lambda Bernilai 0.2 ... 84

Gambar 4. 40 Penggunaan Kata ‘Cacat’ Pada Salah Satu Berita Dalam Dataset IndoSum ... 87 Gambar 4. 41 Penggunaan Kata ‘Cacat’ Pada Salah Satu Berita Dalam Dataset Hasil Scraping ... 87

(16)

xvi

DAFTAR TABEL

Tabel 4.1 Performa Model Pre-Trained FastText Pada Metode Reduksi Above

Average ... 82

Tabel 4.2 Selisih Nilai Cosine Similarity Antara FastText Skipgram Dengan FastText CBOW pada Dataset Hasil Scraping dengan Metode Reduksi Above

Average ... 83

Tabel 4.3 Selisih Nilai f1-score Antara Metode Reduksi Above Average Dan 50:50 Pada Dataset Hasil IndoSum Dengan Model one-hot encoding ... 85

(17)

xvii

DAFTAR RUMUS

Rumus 2.1 Term Frequency - Inverse Document Frequency ... 17

Rumus 2.2 Term Frequency ... 17

Rumus 2.3 Inverse Document Frequency ... 17

Rumus 2.4 Inverse Document Frequency saat smooth_idf false ... 18

Rumus 2.5 Inverse Document Frequency saat smooth_idf true ... 18

Rumus 2.6 TextRank ... 20

Rumus 2.7 Maximal Marginal Relevance ... 21

Rumus 2.8 Precision ... 23

Rumus 2.9 Recall ... 23

Rumus 2.10 f1-score ... 23

(18)

93

DAFTAR LAMPIRAN

Lampiran 1 Daftar Riwayat Hidup ... 94

Lampiran 2 Daftar Berita ... 95

Lampiran 3 Hasil Uji Coba ... 100