• Tidak ada hasil yang ditemukan

PERBANDINGAN ALGORITMA K-MEANS DAN GAUSSIAN MIXTURE MODEL UNTUK PENGELOMPOKAN BERITA PADA KOMPAS.COM SKRIPSI

N/A
N/A
Protected

Academic year: 2021

Membagikan "PERBANDINGAN ALGORITMA K-MEANS DAN GAUSSIAN MIXTURE MODEL UNTUK PENGELOMPOKAN BERITA PADA KOMPAS.COM SKRIPSI"

Copied!
15
0
0

Teks penuh

(1)

PERBANDINGAN ALGORITMA K-MEANS DAN GAUSSIAN

MIXTURE MODEL UNTUK PENGELOMPOKAN

BERITA PADA KOMPAS.COM

SKRIPSI

Diajukan sebagai salah satu syarat memperoleh gelar Sarjana Komputer (S.Kom.)

Sidharta Anuggrah Prabawa

00000009195

PROGRAM STUDI INFORMATIKA

FAKULTAS TEKNIK DAN INFORMATIKA

UNIVERSITAS MULTIMEDIA NUSANTARA

TANGERANG

2021

(2)

ii

LEMBAR PENGESAHAN SKRIPSI

PERBANDINGAN ALGORITMA K-MEANS DAN GAUSSIAN

MIXTURE MODEL UNTUK PENGELOMPOKAN

BERITA PADA KOMPAS.COM

Oleh

Nama : Sidharta Anuggrah Prabawa

NIM : 00000009195

Program Studi : Informatika

Fakultas : Teknik dan Informatika

Tangerang, 7 April 2021 Ketua Sidang

Marlinda Vasty Overbeek, S.Kom., M.Kom

Dosen Penguji

Adhi Kusnadi, S.T, M.Si.

Dosen Pembimbing I

Julio Christian Young, S.Kom., M. Kom.

Dosen Pembimbing II

Alethea Suryadibrata, S.Kom., M.Eng.

Mengetahui,

Ketua Program Studi Informatika

Marlinda Vasty Overbeek, S.Kom., M.Kom Digitally signed by Marlinda Vasty Overbeek Date: 2021.04.19 17:00:47 +07'00' Digitally signed by Marlinda Vasty Overbeek Date: 2021.04.19 17:01:05 +07'00'

(3)

iii

PERNYATAAN TIDAK MELAKUKAN PLAGIAT

Dengan ini saya:

Nama : Sidharta Anuggrah Prabawa

NIM : 00000009195

Program Studi : Informatika

Fakultas : Teknik dan Informatika

Menyatakan bahwa Skripsi yang berjudul “Perbandingan Algoritma K-Means Dan Gaussian Mixture Model untuk Pengelompokan Berita pada Kompas.com” ini adalah karya ilmiah saya sendiri, bukan plagiat dari karya ilmiah yang ditulis oleh orang lain atau lembaga lain, dan semua karya ilmiah orang lain atau lembaga lain yang dirujuk dalam Skripsi ini telah disebutkan sumber kutipannya serta dicantumkan di Daftar Pustaka.

Jika di kemudian hari terbukti ditemukan kecurangan/peyimpangan, baik dalam pelaksanaan Skripsi maupun dalam penulisan laporan Skripsi, saya bersedia menerima kosekuensi dinyatakan TIDAK LULUS untuk mata kuliah Skripsi yang telah saya tempuh.

Tangerang, 25 Maret 2021

(4)

iv

PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH

UNTUK KEPENTINGAN AKADEMIS

Sebagai sivitas akademik Universitas Multimedia Nusantara, saya yang bertanda tangan di bawah ini:

Nama : Sidharta Anuggrah Prabawa

NIM : 00000009195

Program Studi : Informatika

Fakultas : Teknik dan Informatika Jenis Karya : Skripsi

Demi pengembangan ilmu pengetahuan, menyetujui dan memberikan izin kepada Universitas Multimedia Nusantara hak Bebas Royalti Non-eksklusif

(Non-exclusive Royalty-Free Right) atas karya ilmiah saya yang berjudul:

Perbandingan Algoritma K-Means Dan Gaussian Mixture Model untuk Pengelompokan Berita pada Kompas.com

beserta perangkat yang diperlukan.

Dengan Hak Bebas Royalti Non-ekslusif ini, pihak Universitas Multimedia Nusantara berhak menyimpan, mengalihmedia atau format-kan, mengelola dalam bentuk pangkalan data (database), merawat, dan mendistribusi dan menampilkan atau mempublikasikan karya ilmiah saya di internet atau media lain untuk kepentingan akademis, tanpa perlu minta izin dari saya maupun memberikan royalti kepada saya, selama tetap mencantumkan nama saya sebagai penulis karya ilmiah tersebut.

Demikian pernyataan ini saya buat dengan sebenarnya untuk dipergunakan sebagaimana mestinya.

Tangerang, 25 Maret 2021

(5)

v

HALAMAN PERSEMBAHAN / MOTO

Yesterday i was clever, so i wanted to change the world, Today i am wise, so i am changing myself. — Rumi

(6)

vi

KATA PENGANTAR

Puji syukur saya hanturkan kepada Tuhan Yang Maha Esa atas rahmat dan kuasa yang diberikan sehingga laporan skripsi berjudul “Perbandingan Algoritma K-Means Dan Gaussian Mixture Model untuk Automasi Pengelompokan Berita pada Situs Kompas.com” ini dapat diselesaikan tepat waktu.

Terselesaikannya skripsi ini tidak lepas dari peran beberapa pihak yang sudah membantu dan memberikan motivasi selama pembuatan laporan magang ini. Oleh karena itu, ucapan terimakasih juga disampaikan kepada:

1. Marlinda Vasty Overbeek, S.Kom, M.Kom., Ketua Program Studi Teknik Informatika Universitas Multimedia Nusantara, yang menerima skripsi penulis.

2. Alethea Suryadibrata, S.Kom., M.Eng., dan Julio Christian Young, S.Kom., M. Kom., selaku dosen pembimbing yang memberi dukungan selama penulis merancang skripsi hingga pelaksanaannya.

3. Kemal Attar, Richard Laurence, Ronald William Marbun, Regina Gani, Ananda Dharma dan Erry Julio yang telah memberikan dukungan dan semangat dalam pengerjaan laporan.

4. Seluruh teman-teman prodi Informatika Universitas Multimedia Nusantara, khususnya kelas A, yang telah menjadi teman seperjalanan dari awal kuliah dan memberikan dukungan dan hiburan hingga laporan ini selesai.

5. Pihak lain yang secara langsung maupun tidak langsung membantu selama proses magang maupun penyusunan laporan magang yang tidak dapat disebutkan namanya satu per satu.

(7)

vii

Semoga penyusunan laporan ini dapat berguna, membangun manfaat bagi pembaca dan menjadi dasar penyusunan laporan skripsi berikutnya, terutama bagi mahasiswa/mahasiswa Universitas Multimedia Nusantara. Mohon maaf apabila dalam penyusunan laporan terdapat kesalahan dalam pengerjaan, pengetikan maupun informasi yang kurang lengkap.

Tangerang, 25 Maret 2021

(8)

viii

PERBANDINGAN ALGORITMA K-MEANS DAN GAUSSIAN

MIXTURE MODEL UNTUK PENGELOMPOKAN

BERITA PADA KOMPAS.COM

ABSTRAK

Kedudukan media massa dalam perkembangan masyarakat sangatlah penting. Media massa menyajikan berbagai informasi yang dibutuhkan secara massal, sehingga informasi menjadi lebih luas jangkauannya serta dapat merubah suatu pola kehidupan masyarakat luas. Situs Kompas.com merupakan salah satu media berita online nasional yang memiliki beragam informasi dan terpercaya. Pemberitaan dalam media masa tertulis (online dan offline) sering dikategorikan sesuai dengan tema dari isi berita untuk memudahkan pencarian dan pemahaman konteks. Penelitian dilaksanakan berdasarkan penelitian internal dosen prodi informatika, sistem informasi dan jurnalistik terkait masalah pada sistem kategori berita harian kompas. Salah satu teknik yang dapat digunakan adalah clustering. Teknik clustering dapat membantu dalam menentukan jumlah kategori yang optimal dengan mengelompokkan berita yang berkesesuaian menjadi satu kategori yang sama. Pada penelitian ini, algoritma clustering K-Means dan Gaussian Mixture Model akan diimplementasikan untuk mengelompokkan kategori berita dengan sumber berita kompas. Pengujian dilakukan dengan menggunakan 4 dataset yang berbeda dengan masing-masing dataset berjumlah 10 ribu berita. Adapun hyperparameter yang diujikan adalah random_state dengan nilai 52 pada algoritma K-Means, random_state dengan nilai 42 dan covariance_type dengan nilai tied. Hasil penelitian menunjukan bahwa algoritma Gaussian Mixture Model lebih unggul dibandingkan algoritma K-Means dengan nilai akurasi 0.7994 dan kecepatan 2.3722 detik untuk 4 Cluster, 0.7614 dan kecepatan 2.4163 detik untuk 5 Cluster, 0.7428 dan kecepatan 2.9533 detik untuk 6 Cluster, 0.7249 dan kecepatan 2.5499 untuk 7 Cluster, 0.7267 dan kecepatan 3.2291 detik untuk 8 Cluster, 0.7114 dan kecepatan 3.3909 detik untuk 9 Cluster, 0.6726 dan kecepatan 3.3541 untuk 10

Cluster.

Kata Kunci: media massa, kompas, clustering, K-Means, Gaussian Mixture Model,

(9)

ix

K-MEANS AND GAUSSIAN MIXTURE MODEL

ALGORITHM COMPARISON FOR NEWS

GROUPING ON KOMPAS.COM

ABSTRACT

The position of the mass media in the development of society is very important. The mass media presents various mass-needed information, so that information becomes wider in reach and can change a pattern of life for the wider community. Kompas.com site is one of the national online news media which has a variety of reliable and information. News coverage in written mass media (online and offline) is often categorized according to the theme of the news content to facilitate search and understanding of the context. The research was carried out based on the internal research of informatics study program lecturers, information systems and journalism related to problems in the Kompas daily news category system. One technique that can be used is clustering. The clustering technique can help in determining the optimal number of categories by grouping the corresponding news into one and the same category. In this research, the K-Means clustering algorithm and the Gaussian Mixture Model will be implemented to classify news categories by compass news sources. Tests were carried out using 4 different datasets with each dataset totaling 10 thousand news. The hyperparameters tested are random_state with a value of 52 in the K-Means algorithm, random_state with a value of 42 and covariance_type with a tied value. The results showed that the Gaussian Mixture Model algorithm was superior to the K-Means algorithm with an accuracy value of 0.7994 and a speed of 2.3722 seconds for 4 clusters, 0.7614 and a speed of 2.4163 seconds for 5 clusters, 0.7428 and a speed of 2.9533 seconds for 6 clusters, 0.7249 and a speed of 2.5499 for 7 clusters, 0.7267 and a speed of 3.2291 seconds for 8 clusters, 0.7114 and a speed of 3.3909 seconds for 9 clusters, 0.6726 and a speed of 3.3541 for 10 clusters.

Kata Kunci: media massa, kompas, clustering, K-Means, Gaussian Mixture Model,

(10)

x

DAFTAR ISI

LEMBAR PENGESAHAN SKRIPSI ... ii

PERNYATAAN TIDAK MELAKUKAN PLAGIAT ... iii

PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS ... iv

HALAMAN PERSEMBAHAN / MOTO ... v

KATA PENGANTAR ... vi

ABSTRAK ... viii

ABSTRACT ... ix

DAFTAR ISI ... x

DAFTAR GAMBAR ... xii

DAFTAR LAMPIRAN ... xiv

DAFTAR RUMUS ... xv

BAB I ... 1

PENDAHULUAN ... 1

1.1 Latar Belakang Masalah ... 1

1.2. Rumusan Masalah ... 5 1.3 Batasan Masalah ... 5 1.4 Tujuan Penelitian ... 6 1.5 Manfaat Penelitian ... 6 1.6 Sistem Penulisan ... 6 BAB II ... 8 LANDASAN TEORI ... 8 2.1 Berita ... 8 2.2 Media Massa ... 9 2.3 Information Retrieval ... 10 2.4 Text Preprocessing ... 11

2.4.1 Lower Case, Remove Number, and Remove Punctuation (Case Folding) 12 2.4.2 Tokenization and Stopword Removal (Filtering) ... 12

2.4.3 Stemming ... 12

2.4.4 Term Weighting (Term Frequency – Inverse Document Frequency) 13 2.5 K- Means... 15

2.6 Gaussian Mixture Model (GMM) ... 16

2.7 Principal Component Analysis (PCA) ... 17

(11)

xi

BAB III ... 22

METODOLOGI PENELITIAN DAN PERANCANGAN SISTEM ... 22

3.1 Metodologi Penelitian ... 22

3.2 Perancangan ... 24

3.2.1 Flowchart ... 24

BAB IV ... 45

IMPLEMENTASI DAN UJI COBA ... 45

4.1 Spesifikasi Perangkat ... 45

4.2 Deskripsi Dataset ... 46

4.3 Implementasi ... 47

4.3.1 Implementasi Web Scrapping ... 47

4.3.2 Implementasi Preprocessing ... 50

4.3.3 Implementasi Merge Column ... 53

4.3.4 Implementasi Filter words ... 54

4.3.5 Implementasi Stopwords Removal ... 55

4.3.6 Implementasi Stemming... 56

4.3.7 Implementasi Only Alpha ... 57

4.3.8 Implementasi Word Length ... 58

4.3.9 Implementasi One Space ... 58

4.3.10 Implementasi Term Weighting ... 59

4.3.11 Implementasi Standardization ... 60

4.3.12 Implementasi Dimensional Reduction ... 61

4.3.13 Implementasi Clustering ... 61

4.3.14 Implementasi Visualization ... 62

4.4 Uji Coba ... 63

4.4.1 Skenario Pengujian... 63

4.4.2 Evaluasi Hasil... 70

BAB V SIMPULAN DAN SARAN ... 71

5.1 Simpulan ... 71

5.2 Saran ... 72

DAFTAR PUSTAKA ... 73

(12)

xii

DAFTAR GAMBAR

Gambar 2.1 Dimensional Reduction (PCA)... 18

Gambar 3.1 Flowchart Utama ... 25

Gambar 3.2 Flowchart Web Scrapping ... 27

Gambar 3.3 Flowchart Preprocessing ... 29

Gambar 3.4 Flowchart Merge Column ... 30

Gambar 3.5 Flowchart Filter words ... 33

Gambar 3.6 Flowchart Stopwords Removal ... 34

Gambar 3.7 Flowchart Stemming ... 35

Gambar 3.8 Flowchart OnlyAlpha ... 36

Gambar 3.9 Flowchart WordLength ... 37

Gambar 3.10 Flowchart OneSpace ... 38

Gambar 3.11 Flowchart Term Weighting ... 39

Gambar 3.12 Flowchart Standardization ... 40

Gambar 3.13 Flowchart Dimensional Reduction ... 41

Gambar 3.14 Flowchart Clustering ... 43

Gambar 3.15 Flowchart Data Visualization ... 44

Gambar 4.1 Contoh Raw Data Berita ... 46

Gambar 4.2 Inisialiasi variabel array ... 47

Gambar 4.3 Implementasi Web Scrapping ... 49

Gambar 4.4 Implementasi Export CSV ... 50

Gambar 4.5 Implementasi Import Stopwordlist dan Dataset ... 51

Gambar 4.6 Inisialisasi Variabel dan Data Preparation ... 52

Gambar 4.7 Implementasi Preprocessing ... 53

Gambar 4.8 Implementasi Merge Column ... 54

Gambar 4.9 Implementasi Filter Words ... 55

Gambar 4.10 Implementasi Stopwords Removal... 56

Gambar 4.11 Implementasi Stemming ... 57

Gambar 4.12 Implementasi Only Alpha ... 57

Gambar 4.13 Implementasi Word Length ... 58

Gambar 4.14 Implementasi One Space ... 59

Gambar 4.15 Implementasi Term Weighting... 60

Gambar 4.16 Implementasi Standardization ... 60

Gambar 4.17 Implementasi Dimensional Reduction ... 61

Gambar 4.18 Implementasi GMM Clustering ... 62

Gambar 4.19 Implementasi K-Means Clustering... 62

(13)

xiii

DAFTAR TABEL

Tabel 2.1 List Kominasi Stemming ... 13

Tabel 4.1 Hasil Ujicoba Dataset 1... 66

Tabel 4.2 Hasil Ujicoba Dataset 2... 67

Tabel 4.3 Hasil Ujicoba Dataset 3... 68

(14)

xiv

DAFTAR LAMPIRAN

1. Lampiran 1 – L1. Form Bimbingan Skripsi 2. Lampiran 2 – L2. Riwayat Hidup.

(15)

xv

DAFTAR RUMUS

2.1 Term Frequency (TF) ... 14

2.2 Inverse Document Frequency (IDF) ... 15

2.3 Perhitungan TF-IDF ... 15

2.4 Perhitungan Euclidian Distance ... 15

2.5 Gaussian Mixture Model Step 1 ... 17

2.6 Gaussian Mixture Model Step 2 ... 17

2.7 Gaussian Mixture Model Step 3 ... 17

2.8 Gaussian Mixture Model Step 4 ... 17

2.9 Gaussian Mixture Model Step 5 ... 17

2.10 Gaussian Mixture Model Step 6 ... 17

2.11 Principal Component Analysis Step 1 ... 18

2.12 Principal Component Analysis Step 2 ... 18

2.13 Principal Component Analysis Step 3 ... 19

2.14 Principal Component Analysis Step 4 ... 19

2.15 Principal Component Analysis Step 5 ... 19

2.16 Silhouette Coefficient Step 1 ... 20

2.17 Silhouette Coefficient Step 2 ... 20

Referensi

Dokumen terkait

supervisi (unsupervised learning) dan merupakan salah satu algoritma yang melakukan pengelompokan data dengan sistem partisi. Metode K-Means berusaha mengelompokkan data

Pada penelitian sebelumnya yang berjudul “Klasifikasi Kendaraan Menggunakan Gaussian Mixture Model (GMM) dan Fuzzy Cluster Means (FCM) ” oleh Fitroh Amaluddin, dkk

Sistem informasi pengelompokan data tilang ini menerapkan pengelompokan dengan menggunakan Algoritma K-Means dengan metode clustering, clustering merupakan proses yang

Abstrak - Pengelompokan citra batik dilakukan untuk mengelompokkan batik yang memiliki kemiripan dengan batik lainnya kedalam satu cluster dengan menggunakan algoritma k-means

Algoritma ini dikenal simpel, sederhana dan dapat melakukan klasterisasi text dokumen besar.Varian klastering K-Means dipilih menjadi metode penelitian genre cerpen KOMPAS

Berdasarkan pengujian yang telah dilakukan, penerapan deteksi gerak dengan algoritma gaussian mixture model pada kamera keamanan mulai dari proses deteksi gerak,

Laporan Grafik Pengelompokan cluster Metode perancangan yang digunakan dalam Penerapan Algoritma K-Means untuk pengelompokan siswa baru berdasarkan Nilai ujian nasional adalah metode

Hasil perbandingan antara metode K-Means dan Hierarchical Clustering memperlihatkan bahwa K- Means menghasilkan pengelompokan klaster yang lebih baik ditinjau dari nilai Silhouette