SENTIMEN ANALISIS PENGGUNA TWITTER TERHADAP KEBIJAKAN MERDEKA BELAJAR MENGGUNAKAN ALGORITMA NAÏVE BAYES SKRIPSI HALAMAN SAMPUL HERLAMBANG DWI PRASETYO

(1)

SENTIMEN ANALISIS PENGGUNA TWITTER TERHADAP

KEBIJAKAN MERDEKA BELAJAR MENGGUNAKAN

ALGORITMA NAÏVE BAYES

SKRIPSI

HALAMAN SAMPUL

HERLAMBANG DWI PRASETYO

1710512026

UNIVERSITAS PEMBANGUNAN NASIONAL VETERAN JAKARTA

FAKULTAS ILMU KOMPUTER

PROGRAM STUDI S-1 SISTEM INFORMASI

2021

(2)

ii

SENTIMEN ANALISIS PENGGUNA TWITTER TERHADAP

KEBIJAKAN MERDEKA BELAJAR MENGGUNAKAN

ALGORITMA NAÏVE BAYES

SKRIPSI

Diajukan Sebagai Salah Satu Syarat Untuk Memperoleh

Gelar Sarjana Komputer

HALAMAN JUDUL

HERLAMBANG DWI PRASETYO

1710512026

UNIVERSITAS PEMBANGUNAN NASIONAL VETERAN JAKARTA

FAKULTAS ILMU KOMPUTER

PROGRAM STUDI S-1 SISTEM INFORMASI

2021

(3)

iii

PERNYATAAN ORISINALITAS

Skripsi ini adalah hasil karya sendiri, dan semua sumber yang dikutip maupun yang dirujuk telah saya nyatakan dengan benar.

Nama : Herlambang Dwi Prasetyo

NIM : 1710512026

Tanggal : 26 Januari 2021

Bilamana dikemudian hari ditemukan ketidaksesuaian dengan pernyataan saya ini, maka saya bersedia dituntut dan diproses sesuai dengan ketentuan yang berlaku.

Jakarta, 26 Januari 2021 Yang menyatakan,

(4)

iv

PERNYATAAN PERSETUJUAN PUBLIKASI SKRIPSI

UNTUK KEPENTINGAN AKADEMIS

Sebagai civitas akademik Universitas Pembangunan Nasional Veteran Jakarta, saya yang bertanda tangan di bawah ini:

NRP : 1710512026

Fakultas : Ilmu Komputer

Program Studi : S-1 Sistem Informasi

PERNYATAAN PERSETUJUAN PUBLIKASI

Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Pembangunan Nasional Veteran Jakarta Hak Bebas Royalti Non Ekskusif (Non-exclusive Royalti Free Right) atas karya ilmiah saya yang berjudul: SENTIMEN ANALISIS PENGGUNA TWITTER TERHADAP KEBIJAKAN MERDEKA BELAJAR MENGGUNAKAN ALGORITMA NAÏVE BAYES Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti ini Universitas Pembangunan Nasional Veteran Jakarta berhak menyimpan, mengalih media/formatkan, mengelola dalam bentuk pangkalan data (database), merawat, dan mempublikasikan Skripsi saya selama tetap menyantumkan nama saya sebagai penulis/pencipta dan sebagai pemilik Hak Cipta.

Demikian pernyataan ini saya buat dengan sebenarya.

Dibuat di : Jakarta

Pada tanggal : 26 Januari 2021 Yang menyatakan,

(5)

v

PENGESAHAN

Skripsi diajukan oleh:

NIM : 1710512026

Program Studi : S-1 Sistem Informasi

Judul Skripsi : Sentimen Analisis Pengguna Twitter Terhadap Kebijakan Merdeka Belajar Menggunakan Algoritma Naive Bayes

Telah berhasil dipertahankan di hadapan Tim Penguji dan diterima sebagai bagian persyaratan yang diperlukan untuk memperoleh gelar Sarjana Komputer pada Program Studi S-1 Sistem Informasi, Fakultas Ilmu Komputer, Universitas Pembangunan Nasional Veteran Jakarta.

Kraugusteeliana, S.Kom., M.Kom, MM. Ruth Mariana B. Wadu, S.Kom., MMSI.

Penguji I Penguji II

Dr. Titin Pramiyati, S.Kom., M.Si. Ika Nurlaili Isnainiyah, S.Kom., MSc.

Pembimbing I Pembimbing II

Dr. Ermatita, M.Kom Ati Zaidiah, S.Kom., MTI.

Dekan Ketua Program Studi

Ditetapkan di : Jakarta

(6)

vi

SENTIMEN ANALISIS PENGGUNA TWITTER TERHADAP

KEBIJAKAN MERDEKA BELAJAR MENGGUNAKAN

ALGORITMA NAÏVE BAYES

ABSTRAK

Herlambang Dwi Prasetyo Abstrak

Twitter adalah salah satu situs microblogging yang memungkinkan penggunanya untuk menulis tentang berbagai topik dan membahas isu-isu yang terjadi pada saat ini. Hal tersebut dapat digunakan sebagai sumber data untuk menilai sentimen pada twitter. Pada awal tahun 2020 Kementerian Pendidikan dan Kebudayaan Republik Indonesia memperkenalkan sebuah program baru bernama Merdeka Belajar, program ini memiliki empat pokok kebijakan diantaranya Ujian Sekolah Berstandar Nasional (USBN), Ujian Nasional (UN), Rencana Pelaksanaan Pembelajaran (RPP), dan Peraturan Penerimaan Peserta Didik Baru (PPDB) Zonasi. Program Merdeka Belajar tidak lepas dari dukungan maupun penolakan dari masyarakat, berbagai pernyataan maupun opini baik dukungan maupun penolakan diekspresikan masyarakat melalui berbagai media, baik media cetak maupun media sosial seperti twitter, dalam rangka menganalisis sentimen pada kebijakan Merdeka Belajar berdasarkan opini publik pada twitter, penulis menerapkan proses text mining menggunakan algoritma Naive Bayes Classifier untuk mengklasifikasi sentimen secara otomatis. Penulis menggunakan 180 data tweet dengan sentimen terhadap program tersebut. Data tersebut diklasifikasi secara manual menjadi sentimen positif dan negatif. Kemudian data tersebut dibagi menjadi data training dan data testing. Akurasi yang paling baik didapatkan sebesar 80.55%, dengan nilai f1 – score sebesar 89% serta nilai precision dan recall masing-masing sebesar 81% dan 100% dengan data latih sebesar 80% dan data uji sebesar 20%, serta mayoritas sentimen terhadap kebijakan tersebut adalah positif.

(7)

vii

TWITTER USER SENTIMENT ANALYSIS OF MERDEKA

BELAJAR POLICY USING NAÏVE BAYES ALGORITHM

ABSTRACT

Herlambang Dwi Prasetyo Abstract

Twitter is a microblogging site, allows its users to write about various topics and discuss current issues. This can be used as a source of data to assess public sentiment. At the beginning of 2020, the Ministry of Education and Culture of the Republic of Indonesia introduced a new program called Merdeka Belajar. This program has four main policies including the National Standard School Examination (USBN), National Examination (UN), Learning Implementation Plan (RPP), and Admission Regulations (PPDB) based on zoning. Merdeka Belajar program still possibly receives support as well as resistance from the society. Various statements and opinions, either for or against this program, are expressed by the society through various media, both printed and social media such as twitter. In order to analyze the sentiment of Merdeka Belajar policy based on public opinion on twitter, the author implements the text mining process using Naive bayes algorithm to automatically classify sentiments. The author uses 180 tweet data about sentiment to Merdeka Belajar program. The data is labelled manually into positive and negative sentiments. Then, the data is converted into training data and testing data. The best accuracy is obtained at 80.55%, f-1 score result is 89%, recall score is 100%, and the precision score result is 81%, with 80% of training data and 20% of testing data. Overall, the majority of sentiment towards the policy is classified as positive.

(8)

viii

KATA PENGANTAR

Alhamdulillahirabbil’alamin, segala puji bagi Allah SWT yang telah memberikan rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan tugas akhir ini dengan judul “Sentimen Analisis Pengguna Twitter Terhadap Kebijakan Merdeka Belajar Menggunakan Algoritma Naive Bayes” tepat pada waktunya. Penyelesaian tugas akhir ini pula tidak lepas dari bimbingan dan dorongan dari berbagai pihak. Dalam kesempatan ini, penulis ingin menyampaikan ucapan terima kasih kepada:

a. Ibu Dr. Ermatita, M. Kom., selaku dekan Fakultas Ilmu Komputer Universitas Pembangunan Nasional Veteran Jakarta.

b. Ibu Ati Zaidiah, S. Kom., M. TI selaku Kepala Program Studi S1 Sistem Informasi Ilmu Komputer Universitas Pembangunan Nasional Veteran Jakarta.

c. Ibu Dr. Titin Pramiyati, S.Kom., M.Si. selaku dosen pembimbing 1 d. Ibu Ika Nurlaili Isnainiyah, S.Kom., MSc selaku dosen pembimbing 2 e. Ayah dan Ibu tercinta, selaku orang tua yang selalu mendidik, mengajar,

membimbing, merawat, dan membesarkan penulis dengan penuh kasih serta tanpa henti mendoakan keberhasilan penulis di dunia dan akhirat. Serta kakak yang tiada henti memberikan dukungan agar penulisan skripsi ini dapat terselesaikan dengan baik.

f. Seluruh dosen Fakultas Ilmu Komputer Universitas Pembangunan Nasional Veteran Jakarta yang telah membagikan ilmunya kepada penulis.

g. Semua pihak yang telah memberikan bantuan dan dukungan serta kerja sama yang baik sehingga laporan tugas akhir ini dapat diselesaikan dengan baik.

Jakarta, 26 Januari 2021

Penulis

(9)

ix

DAFTAR

ISI

HALAMAN SAMPUL ... i

HALAMAN JUDUL ... ii

PERNYATAAN ORISINALITAS ... iii

PERNYATAAN PERSETUJUAN PUBLIKASI ... iv

PENGESAHAN ... v

ABSTRAK ... vi

ABSTRACT ... vii

KATA PENGANTAR ... viii

DAFTAR ISI ... ix

DAFTAR TABEL ... xiii

DAFTAR GAMBAR ... xiv

DAFTAR RUMUS... xvi

DAFTAR LAMPIRAN ... xvii

BAB I PENDAHULUAN ... 1

I.1 Latar Belakang ... 1

I.2 Rumusan Masalah ... 3

I.3 Tujuan Penelitian ... 3

I.4 Manfaat Penelitian ... 4

I.5 Ruang Lingkup ... 4

I.6 Luaran yang Diharapkan... 4

I.7 Sistematika Penulisan ... 5

BAB II TINJAUAN PUSTAKA ... 7

II.1 Analisis Sentimen ... 7

II.2 Opini ... 8

II.3 Kebijakan Merdeka Belajar ... 8

II.4 Twitter ... 9

II.5 Python ... 11

II.6 RapidMiner ... 12

(10)

x

II.8 Data Mining ... 14

II.9 Text Mining ... 15

II.9.1 Text Preprocessing ... 16

II.9.1.1 Case Folding ... 16

II.9.1.2 Tokenizing ... 17

II.9.2 Text Transformation ... 17

II.9.2.1 Filtering (Stopwords Removal) ... 18

II.9.2.2 Stemming ... 18

II.10 Term Frequency Inverse Document Frequency (TF-IDF) ... 19

II.11 Algoritma Naïve Bayes Classifier ... 21

II.12 Evaluation Model ... 22

II.13 Penelitian yang Relevan ... 25

BAB III METODOLOGI PENELITIAN... 28

III.1 Tahapan Penelitian... 28

III.1.1 Pengumpulan Data ... 29

III.1.2 Proses Persiapan Dataset ... 29

III.1.3 Proses Klasifikasi Sentimen pada Tweet ... 30

III.1.4 Text Preprocessing Phase One (Remove Impurities in Text) ... 31

III.1.5 Text Preprocessing Phase Two (Extraction and Transformation) ... 32

III.1.6 Term Weighting ... 33

III.1.7 Proses Klasifikasi Menggunakan Algoritma Naïve Bayes ... 34

III.1.8 Analisis dan Evaluasi Algoritma Naïve Bayes ... 35

III.1.9 Analisis Hasil Klasifikasi dan Visualisasi ... 36

III.2 Alat Bantu Penelitian ... 36

III.3 Jadwal Rencana Penelitian ... 37

BAB IV HASIL DAN PEMBAHASAN ... 39

IV.1 Pengumpulan Data ... 39

IV.2 Proses Persiapan Dataset ... 41

IV.2.1 Seleksi Fitur ... 41

IV.2.2 Proses Menghilangkan Duplikasi ... 43

IV.2.3 Seleksi Tweet ... 45

(11)

xi

IV.4 Text Preprocessing Phase One (Remove Impurities in Text) ... 48

IV.4.1 Menghilangkan Link yang Tersemat pada Tweet ... 48

IV.4.2 Menghilangkan Nama Pengguna ... 50

IV.4.3 Konversi Emoticon ... 51

IV.4.4 Menghilangkan Tanda Baca ... 52

IV.4.5 Menghilangkan Kata yang Tidak Memiliki Makna ... 53

IV.4.6 Menghilangkan Kata Kunci Pencarian ... 54

IV.5 Text Preprocessing Phase Two (Extraction and Transformation) ... 55

IV.5.1 Case Folding ... 55

IV.5.2 Tokenization ... 56

IV.5.3 Stemming ... 58

IV.5.4 Stopwords Removal ... 59

IV.6 Term Weighting ... 61

IV.7 Proses Klasifikasi Menggunakan Algoritma Naïve Bayes ... 61

IV.7.1 Pembentukan Data Training dan Data Testing ... 62

IV.7.2 Pembentukan Model menggunakan Algoritma Naïve Bayes ... 62

IV.8 Analisis dan Evaluasi Algoritma Naïve Bayes ... 63

IV.8.1 Analisis dan Evaluasi menggunakan Data Latih 70% dan Data Uji 30% ... 63

IV.9 Analisis Hasil Klasifikasi dan Visualisasi ... 71

IV.9.1 Analisis Persebaran Klasifikasi ... 71

IV.9.2 Analisis Word Cloud ... 73

IV.9.3 Analisis Word Cloud Gabungan Kelas Positif dan Negatif ... 73

IV.9.3.1 Analisis Word Cloud Kelas Positif ... 74

IV.9.3.2 Analisis Word Cloud Kelas Negatif ... 75

BAB V PENUTUP ... 77

V.1 Kesimpulan ... 77

V.2 Saran ... 77

(12)

xii RIWAYAT HIDUP ... 82 LAMPIRAN ... 84

(13)

xiii

DAFTAR TABEL

Tabel 1 Confusion Matrix untuk Dua Kelas ... 22

Tabel 2 Hasil Klasifikasi Sentimen ... 30

Tabel 3 Persentase Pembagian Dataset ... 34

Tabel 4 Rencana Penelitian ... 37

Tabel 5 Hasil Output dari Twitter Scraping ... 39

Tabel 6 Contoh Dataset Sebelum Proses Penghilangan Duplikasi ... 43

Tabel 7 Hasil Penghilangan Duplikasi Pada Dataset ... 45

Tabel 8 Pemilihan Tweet ... 45

Tabel 9 Hasil Klasifikasi Sentimen Manual... 47

Tabel 10 Contoh Hasil Tweet setelah Proses Menghilangan Link ... 49

Tabel 11 Contoh Hasil Tweet setelah Proses Menghilangkan Username ... 51

Tabel 12 Tabel Konversi Emoticon... 51

Tabel 13 Contoh Hasil Tweet setelah Proses Menghilangkan Tanda Baca ... 53

Tabel 14 Contoh Hasil Tweet setelah Proses Penghilangan Kata yang Tidak Memiliki Makna ... 54

Tabel 15 Contoh Hasil Tweet setelah Proses Menghilangkan Kata Kunci Pencarian ... 55

Tabel 16 Contoh Hasil Tweet setelah Proses Case Folding ... 56

Tabel 17 Contoh Hasil Tweet setelah Proses Tokenisasi ... 57

Tabel 18 Contoh Hasil Tweet setelah Proses Stemming ... 59

Tabel 19 Contoh Hasil Tweet setelah Proses Removal Stopword ... 60

Tabel 20 Persentase Pembagian Dataset untuk Pemodelan ... 62

Tabel 21 Hasil Confusion Matrix Data Latih 70% dan Data Uji 30% ... 63

Tabel 22 Hasil Performansi Data Latih 70% dan Data Uji 30%... 64

Tabel 24 Hasil Performansi Data Latih 80% dan Data Uji 20%... 67

(14)

xiv

DAFTAR GAMBAR

Gambar 1 Proses Umum Text Mining ... 16

Gambar 2 Ilustrasi Proses Case Folding ... 17

Gambar 3 Ilustrasi Proses Filtering ... 18

Gambar 4 Ilustrasi Proses Stemming ... 19

Gambar 5 Keseluruhan Tahap Penelitian ... 28

Gambar 6 Proses Persiapan Dataset ... 29

Gambar 7 Proses Keseluruhan Text Preprocessing Phase One ... 31

Gambar 8 Proses Keseluruhan Text Preprocessing Phase Two... 33

Gambar 9 Tahapan Proses Term Weighting ... 34

Gambar 10 Tahapan Proses Klasifikasi Algoritma Naïve Bayes ... 35

Gambar 11 Tahapan Analisis dan Evaluasi Algoritma Naïve Bayes ... 35

Gambar 12 Tahapan Analisis Hasil Klasifikasi dan Visualisasi ... 36

Gambar 13 Proses Read Dataset ... 41

Gambar 14 Operator ‘Select Attributes’ dan Parameternya ... 42

Gambar 15 Hasil Seleksi Attributes ... 43

Gambar 16 Penggunaan Operator ‘Remove Duplicates’ dan Parameternya ... 44

Gambar 17 Hasil Dataset Setelah Pemberian Klasifikasi ... 48

Gambar 18 Penggunaan Operator ‘Edit Expression’ untuk Remove Link ... 49

Gambar 19 Penggunaan Operator ‘Replace Emoticon’ dan Parameternya ... 52

Gambar 20 Penggunaan Operator ‘Transform Cases’ dan Parameternya ... 56

Gambar 21 Penggunaan Parameter ‘Tokenize’ dan Parameternya ... 57

Gambar 22 Hasil Proses Tokenize pada Dataset ... 57

Gambar 23 Penggunaan Operator ‘Stem’ dan Parameternya ... 58

Gambar 24 Penggunaan Operator ‘Removal Stopwords’ dan Parameternya ... 60

Gambar 25 Grafik ROC Data Latih 70% dan Data Uji 30% ... 65

Gambar 28 Perbandingan Jumlah Sentimen Positif dan Negatif ... 71

Gambar 29 Hasil Perbandingan Sentimen pada Bulan Januari dan Februari ... 72

Gambar 30 Word Cloud Kelas Positif dan Negatif ... 73

(15)

xv Gambar 32 Word Cloud Kelas Negatif ... 75

(16)

xvi

DAFTAR RUMUS

Rumus 1 Perumusan TF ... 20

Rumus 2 Perumusan IDF ... 20

Rumus 3 Perumusan TF-IDF ... 20

Rumus 4 Perumusan Naïve Bayes ... 21

Rumus 5 Perumusan Akurasi ... 23

Rumus 6 Perumusan Precision ... 24

Rumus 7 Perumusan Recall ... 24

(17)

xvii

DAFTAR LAMPIRAN

Lampiran 1 Daftar Stopwords ... 84 Lampiran 2 Hasil Uji Turnitin... 94