ANALISIS SENTIMEN CYBERBULLYING MENGGUNAKAN WORD2VEC DAN ONE-AGAINST-ALL SUPPORT VECTOR MACHINE SKRIPSI

(1)

ANALISIS SENTIMEN CYBERBULLYING MENGGUNAKAN WORD2VEC DAN ONE-AGAINST-ALL SUPPORT VECTOR MACHINE

SKRIPSI

Diajukan sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer (S.Kom.)

Lionel Reinhart Halim 00000013234

PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK DAN INFORMATIKA UNIVERSITAS MULTIMEDIA NUSANTARA

TANGERANG

2020

(2)

ANALISIS SENTIMEN CYBERBULLYING MENGGUNAKAN WORD2VEC DAN ONE-AGAINST-ALL SUPPORT VECTOR MACHINE

SKRIPSI

Diajukan sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer (S.Kom.)

Lionel Reinhart Halim 00000013234

PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK DAN INFORMATIKA UNIVERSITAS MULTIMEDIA NUSANTARA

TANGERANG

2020

(3)

LEMBAR PENGESAHAN

ANALISIS SENTIMEN CYBERBULLYING MENGGUNAKAN WORD2VEC DAN ONE-AGAINST-ALL SUPPORT VECTOR MACHINE

Oleh

Nama : Lionel Reinhart Halim

NIM : 00000013234

Program Studi : Informatika

Fakultas : Teknik dan Informatika

Tangerang, 25 Mei 2020 Ketua Sidang

Nunik Afriliana, S.Kom., M.M.S.I.

Dosen Penguji

Ni Made Satvika Iswari, S.T., M.T.

Dosen Pembimbing I

Alethea Suryadibrata, S.Kom., M.Eng.

Mengetahui,

Ketua Program Studi Informatika

Nunik Afriliana, S.Kom., M.M.S.I.

(4)

iii

PERNYATAAN TIDAK MELAKUKAN PLAGIAT

Dengan ini saya:

Nama : Lionel Reinhart Halim

NIM : 00000013234

Program Studi : Informatika

Fakultas : Teknik dan Informatika

menyatakan bahwa Skripsi yang berjudul “Analisis Sentimen Cyberbullying Menggunakan Word2Vec dan One-Against-All Support Vector Machine” ini adalah karya ilmiah saya sendiri, bukan plagiat dari karya ilmiah yang ditulis oleh orang lain atau lembaga lain, dan semua karya ilmiah orang lain atau lembaga lain yang dirujuk dalam Skripsi ini telah disebutkan sumber kutipannya serta dicantumkan di Daftar Pustaka.

Jika di kemudian hari terbukti ditemukan kecurangan/ penyimpangan, baik dalam pelaksanaan Skripsi maupun dalam penulisan laporan Skripsi, saya bersedia menerima konsekuensi dinyatakan TIDAK LULUS untuk mata kuliah Skripsi yang telah saya tempuh.

Tangerang, 4 Mei 2020

Lionel Reinhart Halim

(5)

PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS

Sebagai sivitas akademik Universitas Multimedia Nusantara, saya yang bertanda tangan di bawah ini:

Nama : Lionel Reinhart Halim

NIM : 00000013234

Program Studi : Informatika

Fakultas : Teknik dan Informatika Jenis Karya : Skripsi

Demi pengembangan ilmu pengetahuan, menyetujui dan memberikan izin kepada Universitas Multimedia Nusantara hak Bebas Royalti Non-eksklusif (Non- exclusive Royalty-Free Right) atas karya ilmiah saya yang berjudul:

Analisis Sentimen Cyberbullying Menggunakan Word2Vec dan One- Against-All Support Vector Machine

beserta perangkat yang diperlukan.

Dengan Hak Bebas Royalti Non-eksklusif ini, pihak Universitas Multimedia Nusantara berhak menyimpan, mengalihmedia atau format-kan, mengelola dalam bentuk pangkalan data (database), merawat, dan mendistribusi dan menampilkan atau mempublikasikan karya ilmiah saya di internet atau media lain untuk kepentingan akademis, tanpa perlu meminta izin dari saya maupun memberikan royalti kepada saya, selama tetap mencantumkan nama saya sebagai penulis karya ilmiah tersebut.

Demikian pernyataan ini saya buat dengan sebenarnya untuk dipergunakan

sebagaimana mestinya.

(6)

v Tangerang, 4 Mei 2020

Lionel Reinhart Halim

(7)

HALAMAN PERSEMBAHAN / MOTO

“a Goal Without a Plan is Just a Wish”

Antoine de Saint-Exupéry

(8)

vii

KATA PENGANTAR

Puji syukur kepada Tuhan Yang Maha Esa atas rahmat dan penyertaan-Nya sehingga penulis dapat menyelesaikan pembuatan Skripsi dengan baik.

Penulis juga mengucapkan terima kasih kepada:

1. Dr. Ninok Leksono, Rektor Universitas Multimedia Nusantara, yang memberi inspirasi bagi penulis untuk berprestasi,

2. Dr. Eng. Niki Prastomo, S.T., M.Sc., Dekan Fakultas Teknik dan Informatika Universitas Multimedia Nusantara,

3. Ibu Nunik Afriliana, S.Kom., M.M.S.I., Ketua Program Studi Informatika Universitas Multimedia Nusantara, yang menerima penulis dengan baik untuk berkonsultasi,

4. Alethea Suryadibrata, S.Kom., M.Eng., yang membimbing pembuatan Skripsi dan mengajar penulis tata cara menulis karya ilmiah dengan benar,

5. Orang tua penulis atas segala dukungan dan bantuan yang diberikan dari awal pembelajaran sampai dengan penulis mengerjakan Skripsi, dan

6. Para sahabat penulis yang telah memberikan pengalaman berharga.

Semoga Skripsi ini dapat bermanfaat, baik sebagai sumber informasi maupun sumber inspirasi, bagi para pembaca.

Tangerang, 4 Mei 2020

Lionel Reinhart Halim

(9)

ANALISIS SENTIMEN CYBERBULLYING MENGGUNAKAN WORD2VEC DAN ONE-AGAINST-ALL SUPPORT VECTOR

MACHINE

ABSTRAK

Depresi dan kecemasan sosial merupakan dua dampak negatif utama dari perundungan siber dalam kesehatan mental. Sayangnya, jajak pendapak yang dilakukan oleh UNICEF pada 3 September 2019 menunjukkan bahwa 1 dari 3 orang muda di 30 negara pernah menjadi korban perundungan siber. Penelitian analisis sentimen akan dilakukan untuk mendeteksi suatu komentar yang mengandung perundungan siber. Kumpulan data perundungan siber didapat dari laman Kaggle, yaitu Toxic Comment Classification Challenge. Proses pra- pemrosesan terdiri dari 4 tahap, yaitu generalisasi komentar (mengubah teks menjadi huruf kecil dan menghapus tanda baca), tokenisasi, penghapusan stopwords, dan pengubahan kata ke bentuk dasar (lemmatization). Metode Word Embedding akan digunakan untuk melakukan analisis sentimen dengan mengimplementasikan Word2Vec. Lalu, metode One-Against-All dengan model (OAA) Support Vector Machine (SVM) akan digunakan untuk melakukan prediksi dalam bentuk banyak label. Model SVM akan melalui proses hyperparameter tuning menggunakan fungsi Randomized Search CV. Kemudian, evaluasi prediksi akan dilakukan dengan menggunakan Micro Averaged F1 Score untuk mengetahui keakuratan prediksi dan menggunakan Hamming Loss untuk mengetahui banyaknya pasangan sampel – label salah diklasifikasikan. Hasil implementasi dari model Word2Vec dan OAA SVM memberikan hasil terbaik terhadap data yang melalui proses pra-pemrosesan generalisasi komentar, tokenisasi, penghapusan stopwords, dan lemmatization dan disimpan sebanyak 100 fitur pada model Word2Vec. Persentase Micro Averaged F1 Score yang dihasilkan sebesar 83.40%

dan persentase Hamming Lossyang dihasilkan sebesar 15.13%.

Kata kunci: Analisis Sentimen, Word Embedding, Word2Vec, One-Against-All,

Support Vector Machine, Toxic Comment Classification Challenge, Multi

Labelling

(10)

ix

CYBERBULLYING SENTIMENT ANALYSIS WITH WORD2VEC AND ONE-AGAINST-ALL SUPPORT VECTOR

MACHINE

ABSTRACT

Depression and social anxiety are the two main negative impacts from cyberbullying. Unfortunately, a survey conducted by UNICEF on 3

^rd

September 2019 showed that 1 in 3 young people in 30 countries had been victims of cyberbullying. Sentiment analysis research will be conducted in order to detect a comment that contains cyberbullying. Dataset of cyberbullying is obtained from the Kaggle website, Toxic Comment Classification Challenge. Pre-processing process consists of 4 stages, comment generalization (convert text into lowercase and removing punctuation), tokenization, stopwords removal, and lemmatization. Word Embedding will be used to conduct sentiment analysis by implementing Word2Vec. After that, One-Against-All (OAA) method with Support Vector Machine (SVM) model will be used to make predictions in form of multi labelling.

SVM model will go through a hyperparameter tuning process using Randomized Search CV. Then, prediction evaluation will be carried out using Micro Averaged F1 Score to assess the prediction accuracy and using Hamming Loss to assess the number of pairs of sample – label incorrectly classified. Implementation result of Word2Vec and OAA SVM models provide the best results for the data undergoing process of pre-processing using comment generalization, tokenization, stopwords removal, and lemmatization which is stored into 100 features in Word2Vec model.

Micro Averaged F1 and Hamming Loss percentage that is produced by the tuned model is 83.40% and 15.13% respectively.

Keywords: Sentiment Analysis, Word Embedding, Word2Vec, One-Against-All,

Support Vector Machine, Toxic Comment Classification Challenge, Multi

Labelling

(11)

DAFTAR ISI

LEMBAR PENGESAHAN ... ii

PERNYATAAN TIDAK MELAKUKAN PLAGIAT ... iii

PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH ... iv

HALAMAN PERSEMBAHAN / MOTO ... vi

KATA PENGANTAR ... vii

ABSTRAK ... viii

ABSTRACT ... ix

DAFTAR ISI ... x

DAFTAR GAMBAR ... xi

DAFTAR TABEL ... xiii

BAB I PENDAHULUAN ... 1

1.1 Latar Belakang Masalah ... 1

1.2 Rumusan Masalah ... 3

1.3 Batasan Masalah... 3

1.4 Tujuan Penelitian ... 4

1.5 Manfaat Penelitian ... 4

BAB II LANDASAN TEORI ... 5

2.1 Preprocessing ... 5

2.2 Word Embedding ... 5

2.3 Word2Vec ... 6

2.4 Support Vector Machine ... 9

2.5 One-Against-All (OAA)... 12

2.6 Micro Averaged F1 score ... 12

2.7 Hamming Loss ... 14

2.8 Toxic Comment Classification Challenge ... 15

BAB III METODOLOGI PENELITIAN DAN PERANCANGAN SISTEM ... 16

3.1 Metodologi Penelitian ... 16

3.2 Perancangan Sistem ... 17

BAB IV IMPLEMENTASI DAN ANALISIS ... 30

4.1 Spesifikasi Perangkat ... 30

4.2 Implementasi Algoritma... 30

4.3 Uji Coba ... 46

4.4 Analisis Hasil Pengujian ... 54

BAB V KESIMPULAN DAN SARAN ... 61

5.1 Simpulan ... 61

5.2 Saran ... 61

DAFTAR PUSTAKA ... 62

DAFTAR LAMPIRAN ... 65

(12)

xi

DAFTAR GAMBAR

Gambar 2.1 Model Continuous Bag-of-words (Xin, 2014) ... 7

Gambar 2.2 Hyperplane optimal pada SVM dalam ruang 2 dimensi (Gareth, Witten, Hastie, & Robert, 2013) ... 10

Gambar 2.3 Ilustrasi Kernel Linear (kiri), Polynomial (tengah), dan RBF (kanan) ... 11

Gambar 2.4 Ilustrasi perbedaan degree 1 (kiri), degree 2 (tengah), dan degree 5 (kanan)... 11

Gambar 2.5 Ilustrasi perbedaan gamma 0.1 (kiri), gamma 1 (tengah), dan gamma 10 (kanan)... 12

Gambar 3.1 Flowchart Utama ... 18

Gambar 3.2 Flowchart Pre-processing Data ... 19

Gambar 3.3 Flowchart Model Word2Vec ... 20

Gambar 3.4 Flowchart Training Model Word2Vec ... 20

Gambar 3.5 Flowchart Inisialisasi Model Word2Vec... 21

Gambar 3.6 Flowchart Feed Forward Model Word2Vec ... 22

Gambar 3.7 Flowchart Backpropagate Word2Vec ... 23

Gambar 3.8 Flowchart Menyamaratakan Distribusi Data ... 24

Gambar 3.9 Flowchart Menyiapkan Data untuk SVM ... 25

Gambar 3.10 Flowchart Average Word2Vec Vector ... 26

Gambar 3.11 Flowchart Transform Target ... 26

Gambar 3.12 Flowchart Tuning SVM ... 27

Gambar 3.13 Flowchart Prediksi ... 28

Gambar 3.14 Flowchart Evaluasi Hasil Prediksi ... 29

Gambar 4.1 Pengambilan data dari file csv ... 30

Gambar 4.2 Isi lima data pertama ... 31

Gambar 4.3 Distribusi label ... 31

Gambar 4.4 Persebaran jumlah label tiap komentar ... 32

Gambar 4.5 Pre-processing berupa generalisasi Komentar ... 32

Gambar 4.6 Pre-processing berupa penghapusan stopwords dan pembuatan kumpulan kata ... 33

Gambar 4.7 Pre-processing berupa lemmatize terhadap kumpulan kata ... 33

Gambar 4.8 Parameter pada model Word2Vec... 34

Gambar 4.9 Training Word2Vec untuk kumpulan kata dengan stopwords ... 35

Gambar 4.10 Training Word2Vec untuk kumpulan kata tanpa stopwords ... 35

Gambar 4.11 Training Word2Vec untuk kumpulan kata yang di-lemmatize dan dengan stopwords ... 36

Gambar 4.12 Training Word2Vec untuk kumpulan kata yang di-lemmatize dan tanpa stopwords ... 36

Gambar 4.13 Pemisahan data yang mempunyai label dan tidak mempunyai label ... 37

Gambar 4.14 Mengambil 500 sampel terhadap data yang tidak mempunyai label ... 37

Gambar 4.15 Pengambilan index pada data dengan label toxic ... 37

(13)

Gambar 4.16 Pengambilan index pada data dengan kombinasi label obscene dan

insult ... 38

Gambar 4.17 Pengambilan index pada data dengan kombinasi label toxic dan obscene ... 38

Gambar 4.18 Pengambilan index pada data dengan kombinasi label toxic dan insult ... 39

Gambar 4.19 Pengambilan index pada data dengan label obscene ... 39

Gambar 4.20 Pengambilan index pada data dengan label insult ... 39

Gambar 4.21 Pengambilan index pada data dengan kombinasi label insult dan obscene ... 40

Gambar 4.22 Pengambilan index pada data dengan kombinasi label toxic, severe toxic, obscene, dan insult ... 40

Gambar 4.23 Pengambilan index pada data dengan kombinasi label toxic, identity hate, obscene, dan insult... 41

Gambar 4.24 Pengambilan index pada data dengan kombinasi label toxic, identity hate, obscene, insult, dan severe toxic ... 41

Gambar 4.25 Pemisahan data menjadi data latih dan data uji... 41

Gambar 4.26 Rata-rata vektor pada kumpulan kata ... 42

Gambar 4.27 Persiapan data untuk melakukan proses transformasi target ... 42

Gambar 4.28 Transformasi Target ... 43

Gambar 4.29 Konversi dari matriks menjadi array ... 43

Gambar 4.30 Mendapatkan parameter terbaik ... 45

Gambar 4.31 Melakukan Prediksi ... 45

Gambar 4.32 Evaluasi hasil prediksi ... 46

Gambar 4.33 Data sebelum Pre-Processing ... 47

Gambar 4.34 Data setelah generalisasi ... 47

Gambar 4.35 Kumpulan kata dengan stopwords ... 47

Gambar 4.36 Kumpulan kata tanpa stopwords ... 47

Gambar 4.37 Kumpulan kata di-lemmatize dan dengan stopwords ... 48

Gambar 4.38 Kumpulan kata di-lemmatize dan tanpa stopwords ... 48

Gambar 4.39 Hasil model Word2Vec dalam menentukan kata yang tidak sama . 49 Gambar 4.40 Hasil model Word2Vec dalam menentukan tingkat kesamaan dengan kata lainnya ... 49

Gambar 4.41 Distribusi label setelah generalisasi ... 50

Gambar 4.42 Persebaran jumlah label tiap komentar setelah generalisasi ... 51

Gambar 4.43 Data latih ... 51

Gambar 4.44 Data uji ... 52

Gambar 4.45 Target latih asli ... 53

Gambar 4.46 Target latih biner ... 53

(14)

xiii

DAFTAR TABEL

Tabel 2.1 Investigasi Jarak Terdekat dari Kata France ... 6

Tabel 2.2 Confusion Matrix untuk banyak kelas ... 13

Tabel 4.1 Hasil Hyperparameter Tuning ... 54

Tabel 4.2 Performa pada model ada stopwords dengan 50 fitur ... 55

Tabel 4.3 Performa pada model ada stopwords dengan 100 fitur ... 56

Tabel 4.4 Performa pada model tanpa stopwords dengan 50 fitur ... 56

Tabel 4.5 Performa pada model tanpa stopwords dengan 100 fitur ... 57

Tabel 4.6 Performa pada model lemmatize dan ada stopwords dengan 50 fitur ... 57

Tabel 4.7 Performa pada model lemmatize dan ada stopwords dengan 100 fitur . 58 Tabel 4.8 Performa pada model lemmatize dan tanpa stopwords dengan 50 fitur 58 Tabel 4.9 Performa pada model lemmatize dan tanpa stopwords dengan 100 fitur ... 59

Tabel 4.10 Perbandingan performa masing-masing model ... 60

Tabel 4.11 Hasil Prediksi Sentimen ... 60