iii
PERNYATAAN TIDAK MELAKUKAN PLAGIAT
Dengan ini saya:
Nama : Aaron Effendi
NIM : 00000020915
Program Studi : Informatika
Fakultas : Teknik dan Informatika
menyatakan bahwa Skripsi yang berjudul “Implementasi Metode Latent Semantic Analysis Pada Peringkas Berita Difabel Otomatis” ini adalah karya
ilmiah saya sendiri, bukan plagiat dari karya ilmiah yang ditulis oleh orang lain atau lembaga lain, dan semua karya ilmiah orang lain atau lembaga lain yang dirujuk dalam Skripsi ini telah disebutkan sumber kutipannya serta dicantumkan di Daftar Pustaka.
Jika di kemudian hari terbukti ditemukan kecurangan/ penyimpangan, baik dalam pelaksanaan Skripsi maupun dalam penulisan laporan Skripsi, saya bersedia menerima konsekuensi dinyatakan TIDAK LULUS untuk mata kuliah Skripsi yang telah saya tempuh.
Tangerang, 7 Juni 2021
Aaron Effendi
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH
UNTUK KEPENTINGAN AKADEMIS
Sebagai sivitas akademik Universitas Multimedia Nusantara, saya yang bertanda tangan di bawah ini:
Nama : Aaron Effendi
NIM : 00000020915
Program Studi : Informatika
Fakultas : Teknik dan Informatika
Jenis Karya : Skripsi
Demi pengembangan ilmu pengetahuan, menyetujui dan memberikan izin kepada Universitas Multimedia Nusantara hak Bebas Royalti Non-eksklusif (Non- exclusive Royalty-Free Right) atas karya ilmiah saya yang berjudul:
Implementasi Metode Latent Semantic Analysis Pada Peringkas Berita Difabel Otomatis
beserta perangkat yang diperlukan.
Dengan Hak Bebas Royalti Non-eksklusif ini, pihak Universitas Multimedia Nusantaraberhak menyimpan, mengalihmedia atau format-kan, mengelola dalam bentuk pangkalan data (database), merawat, dan mendistribusi dan menampilkan atau mempublikasikan karya ilmiah saya di internet atau media lain untuk
v
kepentingan akademis, tanpa perlu meminta izin dari saya maupun memberikan royalti kepada saya, selama tetap mencantumkan nama saya sebagai penulis karya ilmiah tersebut.
Demikian pernyataan ini saya buat dengan sebenarnya untuk dipergunakan sebagaimana mestinya.
Tangerang, 7 Juni 2021
Aaron Effendi
HALAMAN PERSEMBAHAN / MOTO
“When something is important enough, you do it even if the odds are not in your favor.”
- Elon Musk
vii
KATA PENGANTAR
Puji syukur kepada Tuhan Yang Maha Esa atas berkat dan karunia-Nya, sehingga penulis dapat menyelesaikan laporan Skripsi yang berjudul
“Implementasi Metode Latent Semantic Analysis Pada Peringkas Berita Difabel Otomatis” dengan baik dan tepat waktu.
Penulis juga mengucapkan terima kasih kepada:
1. Dr. Ninok Leksono, Rektor Universitas Multimedia Nusantara, yang memberi inspirasi bagi penulis untuk berprestasi,
2. Dr. Eng. Niki Prastomo, S.T., M.Sc., Dekan Fakultas Teknik dan Informatika Universitas Multimedia Nusantara,
3. Marlinda Vasty Overbeek, S.Kom., M.Kom., Ketua Program Studi Universitas Multimedia Nusantara, yang menerima penulis dengan baik untuk berkonsultasi,
4. Dennis Gunawan, S.Kom., M.Sc., yang membimbing pembuatan Skripsi dan yang telah mengajar penulis tata cara menulis karya ilmiah dengan benar.
5. Para dosen yang telah memberikan ilmu dan arahan kepada penulis selama masa perkuliahan,
6. Keluarga yang selalu mendukung dalam proses pelaksanaan kerja mangang, 7. Albert Wijaya, Djasen Tjendry, Hendriki Kasa, Matthew Evans, Michael
Roni, Steven Wijaya, dan Vanessa Ardelia Layustira sebagai teman yang membantu dalam proses pembuatan Skripsi, dan
8. Semua pihak yang tidak dapat disebutkan satu per satu yang telah membantu dengan doa dan dukungan sehingga penulisan laporan kerja mangang ini dapat selesai dengan baik.
Semoga Skripsi ini dapat bermanfaat, baik sebagai sumber informasi maupun sumber inspirasi, bagi para pembaca.
Tangerang, 7 Juni 2021
Aaron Effendi
ix
IMPLEMENTASI METODE LATENT SEMANTIC ANALYSIS PADA PERINGKAS BERITA DIFABEL OTOMATIS
ABSTRAK
Di Indonesia, perhatian masyarakat terhadap penyandang disabilitas masih sedikit jika dibandingkan dengan negara luar. Penyebab sedikitnya perhatian terhadap penyandang disabilitas salah satunya adalah kurangnya informasi mengenai penyandang disabilitas. Salah satu cara untuk mendapatkan informasi adalah dengan membaca berita. Tetapi, penulisan berita difabel sangat kompleks dan membutuhkan analisis yang mendalam. Diperlukan cara yang dapat membantu jurnalis untuk melakukan penelitian dengan lebih cepat. Membaca ringkasan adalah salah satunya. Oleh karena itu, diperlukan peringkas berita otomatis. LSA (Latent Semantic Analysis) dan TF-IDF (Term Frequency - Inverse Document Frequency) adalah salah satu metode yang sering digunakan. TF-IDF digunakan untuk pembobotan pada setiap kata yang ada pada teks. LSA digunakan untuk pembobotan terhadap kalimat sesuai dengan semantiknya selayaknya manusia.
Bobot yang dihasilkan LSA digunakan untuk memilih kalimat yang akan menjadi ringkasan. Dalam penelitian ini digunakan dua dataset, yaitu dataset IndoSum dan dataset scraping yang didapatkan dari website yang telah ditentukan. Hasil dari penelitian yang dilakukan menunjukan bahwa LSA mendapatkan cosine similarity sebesar 0.9419 dan F1-score sebesar 0.2076 pada dataset IndoSum, dan cosine similarity 0.9698 dan F1-score sebesar 0.2454 pada dataset scraping.
Kata Kunci: Berita Difabel, LSA, Penyandang Disabilitas, Peringkas Berita Otomatis, TF-IDF
IMPLEMENTATION OF THE LATENT SEMANTIC ANALYSIS METHOD IN AUTOMATIC
SUMMARIZER FOR NEWS ABOUT DISABILITIES
ABSTRACT
In Indonesia, public attention to persons with disabilities is still low when compared to foreign countries. One of the causes of lack of attention to people with disabilities is the lack of information about people with disabilities. One way to get information is to read the news. However, writing news about disabilities is very complex and requires in-depth analysis. There is a need for a way that can help journalists to conduct research more quickly. Reading summaries is one of them. Therefore, an automatic news summary is required. LSA (Latent Semantic Analysis) and TF-IDF (Term Frequency - Inverse Document Frequency) are methods that are often used. TF-IDF is used for weighting each word in the text.
LSA is used for weighting sentences according to their semantics like humans.
The weights generated by the LSA are used to select sentences to be summarized.
In this study, two used datasets were IndoSum dataset and scraping dataset obtained from predetermined websites. The results of the research show that LSA has cosine similarity of 0.9419 and F1-score of 0.2076 on IndoSum dataset, and cosine similarity of 0.9698 and F1-score of 0.2454 on scraping dataset.
Keywords: Automatic News Summary, Disabilities, LSA, News About Disabilities, TF-IDF
xi
DAFTAR ISI
LEMBAR PENGESAHAN ... ii
PERNYATAAN TIDAK MELAKUKAN PLAGIAT ... iii
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH ... iv
HALAMAN PERSEMBAHAN / MOTO ... vi
KATA PENGANTAR ... vii
ABSTRAK ... ix
ABSTRACT ... x
DAFTAR ISI ... xi
DAFTAR GAMBAR ... xiii
DAFTAR TABEL ... xv
DAFTAR RUMUS ... xvi
BAB 1 PENDAHULUAN ... 1
1.1 Latar Belakang Masalah... 1
1.2 Rumusan Masalah ... 4
1.3 Batasan Masalah ... 4
1.4 Tujuan Penelitian ... 4
1.5 Manfaat Penelitian ... 5
1.6 Sistematika Penulisan ... 5
BAB 2 LANDASAN TEORI ... 7
2.1 Text Summarization ... 7
2.2 Disabilitas atau Difabel ... 7
2.3 Text Preprocessing... 8
2.4 Latent Semantic Analysis ... 9
2.5 One-hot Encoding ... 12
2.6 FastText ... 13
2.7 Cosine Similarity ... 13
2.8 Confusion Matrix ... 14
BAB 3 METODOLOGI PENELITIAN ... 16
3.1 Gambaran Umum Metodologi Penelitian ... 16
3.2 Telaah Literatur ... 17
3.3 Pengumpulan Data ... 17
3.3.1 Pengumpulan Dataset IndoSum ... 18
3.3.2 Pengumpulan Dataset Scraping ... 22
3.4 Text Preprocessing... 23
3.5 Latent Semantic Analysis ... 25
3.5.1 Create Term-Sentence Matrix ... 25
3.5.2 Singular Value Decomposition ... 29
3.5.3 Sentence Selection ... 30
3.6 Perancangan Aplikasi... 33
3.7 Pembangunan Aplikasi ... 38
3.8 Testing dan Evaluating ... 38
3.9 Penulisan Laporan ... 39
BAB 4 HASIL DAN DISKUSI ... 40
4.1 Hasil Pemilihan Berita ... 40
4.1.1 Dataset IndoSum ... 40
4.1.2 Dataset Scraping ... 41
4.2 Hasil Implementasi Aplikasi ... 43
4.2.1 Hasil Implementasi Antarmuka Aplikasi ... 43
4.2.2 Source Code Hasil Implementasi Proses Text Preprocessing ... 45
4.2.3 Source Code Hasil Implementasi Metode Latent Semantic Analysis .. 47
4.3 Uji Coba ... 53
4.3.1 Skenario Pengujian ... 53
4.3.2 Hasil Pengujian ... 54
4.3.3 Diskusi Hasil Penelitian ... 56
BAB 5 SIMPULAN DAN SARAN... 59
5.1 Simpulan ... 59
5.2 Saran ... 59
DAFTAR PUSAKA ... 61
DAFTAR LAMPIRAN ... 64
xiii
DAFTAR GAMBAR
Gambar 2.1 Singular Value Decomposition ... 11
Gambar 2.2 Representasi Kata dalam One-Hot Encoding ... 12
Gambar 2.3 Confusion Matrix ... 14
Gambar 3.1 Flowchart Gambaran Umum Metodologi Penelitian ... 16
Gambar 3.2 Flowchart Pengumpulan Data ... 18
Gambar 3.3 Bentuk Dataset IndoSum ... 19
Gambar 3.4 Struktur File Dataset IndoSum ... 19
Gambar 3.5 Flowchart Pengumpulan Dataset IndoSum ... 21
Gambar 3.6 Flowchart Pengumpulan Dataset Scraping ... 22
Gambar 3.7 Bentuk Dataset Scraping ... 23
Gambar 3.8 Flowchart Text Preprocessing ... 24
Gambar 3.9 Flowchart Latent Semantic Analysis ... 25
Gambar 3.10 Flowchart Create Term-Sentence Matrix ... 26
Gambar 3.11 Flowchart Create Frequency Matrix ... 26
Gambar 3.12 Flowchart Create TF Matrix dan Array Count Doc per Word ... 27
Gambar 3.13 Flowchart Create IDF Matrix ... 28
Gambar 3.14 Flowchart Create TF-IDF Matrix ... 28
Gambar 3.15 Flowchart Create Matrix ... 29
Gambar 3.16 Flowchart Singular Value Decomposition (SVD) ... 30
Gambar 3.17 Flowchart Sentence Selection ... 30
Gambar 3.18 Flowchart Preprocessing VT Matrix ... 31
Gambar 3.19 Flowchart Calculate Length ... 32
Gambar 3.20 Flowchart Summary Sentence Selection... 33
Gambar 3.21 Flowchart Aplikasi Web ... 34
Gambar 3.22 Rancangan Interface Halaman Awal Dengan Percentage Ratio ... 35
Gambar 3.23 Rancangan Interface Halaman Awal Dengan Percentage Silder .... 35
Gambar 3.24 Rancangan Interface Halaman Awal Dengan Panjang Kalimat Ringkasan ... 36
Gambar 3.25 Rancangan Interface Halaman Upload File Dengan Percentage Ratio ... 37
Gambar 3.26 Rancangan Interface Halaman Upload File Dengan Percentage Slider ... 37
Gambar 3.27 Rancangan Interface Halaman Upload File Dengan Panjang Kalimat
Ringkasan ... 38
Gambar 4.1 Source Code Proses Pengabungan 3 Subset IndoSum... 40
Gambar 4.2 Source Code Proses Penyaringan Berita Berdasarkan Kata Kunci ... 41
Gambar 4.3 Source Code Proses Pengumpulan Link Berita ... 42
Gambar 4.4 Source Code Proses Pengumpulan Informasi ... 42
Gambar 4.5 Tampilan Halaman Awal Aplikasi ... 43
Gambar 4.6 Tampilan Halaman Awal Saat Menampilkan Ringkasan ... 44
Gambar 4.7 Tampilan Halaman Upload File ... 44
Gambar 4.8 Bentuk File CSV Hasil Ringkasan ... 45
Gambar 4.9 Isi File CSV Ketika Terdapat Error Message ... 45
Gambar 4.10 Source Code Proses Text Preprocessing ... 46
Gambar 4.11 Source Code Proses Pembuatan Matriks Frekuensi ... 47
Gambar 4.12 Source Code Proses Pembuatan Matriks TF ... 48
Gambar 4.13 Source Code Proses Pembuatan Matriks IDF ... 49
Gambar 4.14 Source Code Proses Pembuatan Matriks TF-IDF... 49
Gambar 4.15 Source Code Proses Pembuatan Matriks Term-Sentence ... 50
Gambar 4.16 Source Code Proses Pembuatan Matriks VT dan Matriks Sigma .... 50
Gambar 4.17 Source Code Proses Preprocessing Matriks VT ... 51
Gambar 4.18 Source Code Proses Perhitungan Length ... 52
Gambar 4.19 Source Code Proses Pemilihan Kalimat Ringkasan ... 52
Gambar 4.20 Contoh Teks Berita Dan Ringkasan Aplikasi Yang Memiliki Nilai Cosine Similarity Yang Tinggi ... 57
Gambar 4.21 Contoh Ringkasan Dua Kalimat Yang Dimiliki Oleh Dataset IndoSum ... 58
xv
DAFTAR TABEL
Tabel 4.1 Hasil Uji Coba Perhitungan Cosine Similarity Dengan Dataset IndoSum ... 54 Tabel 4.2 Hasil Uji Coba Perhitungan Precision, Recall, dan F1-Score Dengan Dataset IndoSum ... 55 Tabel 4.3 Hasil Uji Coba Perhitungan Cosine Similarity Dengan Dataset Scraping ... 55 Tabel 4.4 Hasil Uji Coba Perhitungan Precision, Recall, dan F1-Score Dengan Dataset Scraping ... 55
DAFTAR RUMUS
Rumus 2.1 Term Frequency ... 9
Rumus 2.2 Inverse Document Frequency ... 10
Rumus 2.3 Term Frequency – Inverse Document Frequency ... 10
Rumus 2.4 Singular Value Decomposition ... 10
Rumus 2.5 Length ... 11
Rumus 2.6 Cosine Similarity... 14
Rumus 2.7 Precision ... 15
Rumus 2.8 Recall ... 15
Rumus 2.9 F1 - Score ... 15