KLASIFIKASI OPINI MASYARAKAT TERHADAP METAVERSE MENGGUNAKAN METODE WORD2VEC-SVM (SUPPORT VECTOR MACHINE) DAN TF IDF-SVM (SUPPORT VECTOR MACHINE) - Teknokrat Repository

(1)

(2)

(3)

iii

LEMBAR PERNYATAAN Yang bertanda tangan dibawah ini :

Nama : Prima Andhika

NPM : 18311316

Program Studi : Sistem Informasi Dengan ini menyatakan bahwa laporan skripsi :

Judul : Klasifikasi Opini Masyarakat Terhadap Metaverse Menggunakan Metode WORD2VEC-SVM

(Support vector machine) dan TF IDF-SVM (Support vector machine)

Pembimbing : Styawati, S.T., M.Cs.

Belum pernah diajukan untuk diuji sebagai persyaratan untuk menghasilkan gelar akademik pada berbagai tingkat di Universitas/Perguruan Tinggi manapun. Tidak ada bagian dalam skripsi ini yang pernah dipublikasikan oleh pihak lain, kecuali bagian yang digunakan sebagai referensi, berdasarkan kaidah penulisan ilmiah yang benar.

Apabila dikemudian hari ternyata laporan tugas akhir yang saya tulis terbukti hasil saduran/plagiat, maka saya akan bersedia menanggung segala resiko yang akan saya terima.

Demikian pernyataan ini dibuat dengan sebenar-benarnya.

Bandar Lampung, 20 Juni 2023 Yang menyatakan,

Prima Andhika 18311316

(4)

iv

HALAMAN PERNYATAAN PERSETUJUAN PUBLIKASI SKRIPSI UNTUK KEPENTINGAN AKADEMIS

Sebagai sivitas akademik Program Studi Informasi Fakultas Teknik dan Ilmu Komputer, Universitas Teknokrat Indonesia, saya yang bertandatangan di bawah ini :

Nama : Prima Andhika

NPM : 18311316

Program Studi : Sistem Informasi Jenis Karya : Skripsi

Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Program Studi Sistem Informasi Fakultas Teknik dan Ilmu Komputer Universitas Teknokrat Indonesia Hak Bebas Royalti Noneklusif (Non-exclusive Royalti- Free Right) atas karya ilmiah saya yang berjudul :

Klasifikasi Opini Masyarakat Terhadap Metaverse Menggunakan Metode WORD2VEC-SVM (Support vector machine) dan TF IDF-SVM

Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Noneklusif ini Program Studi Sistem Informasi Fakultas Teknik dan Ilmu Komputer Universitas Teknokrat Indonesia berhak menyimpan, mengalih media/formatkan, mengelola dalam bentuk pangkalan data (database), merawat, dan mempublikasi tugas akhir saya selama tetap mencantumkan nama saya sebagai penulis/pencipta dan sebagai pemilik Hak Cipta.

Demikian pernyataan ini saya buat dengan sebenarnya.

Dibuat di : Bandar Lampung Pada tanggal : 20 Juni 2023 Yang menyatakan,

Prima Andhika NPM. 18311316

(5)

v

KATA PENGANTAR

Puji syukur penulis panjatkan kepada Allah SWT, karena atas berkat dan rahmat- Nya, penulis dapat menyelesaikan skripsi ini. Penulis skripsi ini dilakukan dalam rangka memenuhi salah satu syarat untuk mencapai gelar sarjana pada Program Studi Sistem Informasi Fakultas Teknik dan Ilmu Komputer Universitas Teknokrat Indonesia. Penulis menyadari bahwa, tanpa bantuan dan bimbingan dari berbagai pihak, dari masa perkuliahan sampai ada penyusunan skripsi ini, sangatlah sulit bagi penulis untuk menyelesaikan laporan ini. Oleh karena itu, penulis mengucapkan terima kasih kepada :

1. Dr. H.M. Nasrullah Yusuf, S.E., M.B.A., selaku Rektor Universitas Teknokrat Indonesia.

2. Dr. H. Mahathir Muhammad, S.E., M.M., selaku Dekan Fakultas Teknik dan Ilmu Komputer, Universitas Teknokrat Indonesia.

3. Ibu Damayanti, S.Kom., M.Kom., selaku Ketua Program Studi Sistem Informasi, Fakultas Teknik dan Ilmu Komputer, Universitas Teknokrat Indonesia.

4. Ibu Styawati, S.T., M.Cs. selaku dosen pembimbing yang telah membimbing saya pada skripsi ini.

5. Ibu Nirwana Hendrastuty, S.Kom., M.Cs. selaku dosen penguji yang telah memberikan masukan pada skripsi ini.

Akhir kata penulis berharap semoga Allah SWT berkenan membalas segala kebaikan semua pihak yang telah membantu dan semoga skripsi ini membawa manfaat bagi pengembangan ilmu.

Bandar Lampung, 20 Juni 2023 Penulis

(6)

vi

DAFTAR ISI

hal

HALAMAN PENGESAHAN SKRIPSI ... ii

LEMBAR PERNYATAAN ... iii

HALAMAN PERNYATAAN ... iv

KATA PENGANTAR ... v

DAFTAR ISI ... vi

DAFTAR TABEL ... ix

DAFTAR GAMBAR ... xi

INTISARI ... xix

ABSTRACT ... xx

BAB I PENDAHULUAN ... 1

1.1 Latar Belakang ... 1

1.2 Rumusan Masalah ... 2

1.3 Batasan Masalah ... 3

1.4 Tujuan Penelitian ... 3

1.5 Manfaat Masalah ... 3

BAB II LANDASAN TEORI ... 4

2.1 Tinjauan Pustaka ... 4

2.2 YouTube ... 8

2.3 Metaverse ... 9

2.4 Pengumpulan Data ... 9

2.5 Text Mining ... 9

2.6 Text Preprocessing ... 10

2.6.1 Case Folding ... 10

2.6.2 Stemming ... 10

2.6.3 Tokenizing ... 11

2.6.4 Filtering ... 11

2.7 Analisis Sentimen ... 11

2.8 Klasifikasi ... 12

2.9 TF-IDF ... 12

2.10 Fitur Extraksi ... 13

2.11 Word2Vec ... 14

2.12 Support vector machine ... 16

2.13 Kernel SVM ... 19

BAB III METODELOGI PENELITIAN ... 22

3.1 Rancangan Penelitian ... 22

BAB IV HASIL DAN PEMBAHASAN ... 34

4.1 Pengumpulan Data ... 34

(7)

vii

4.2 Pelabelan Data ... 36

4.3 Code Cleansing ... 36

4.4 Code Case Folding ... 37

4.5 Code Tokenizing ... 37

4.6 Code Filtering ... 38

4.7 Code Stemming ... 38

4.8 Pembuatan Model Word2Vec ... 39

4.9 Pembobotan TF-IDF ... 40

4.10 SMOTE (Synthetic Minority Over-sampling Technique) ... 40

4.11 Undersampling ... 40

4.12 Pembagian Data Testing Dan Training ... 41

4.13 Pemodelan Pemodelan Menggunakan Cross Validation 10-Fold ... 41

4.14 Skenario Pada Penelitian ... 42

4.15 Skenario Pengujian Menggunakan SVM-TFIDF Tanpa SMOTE ... 42

4.15.1 SVM Pada Kernel Linear ... 42

4.15.2 SVM Pada Kernel RBF ... 48

4.15.3 SVM Pada Kernel Polynomial ... 52

4.15.4 SVM Pada Kernel Sigmoid ... 57

4.15.5 Hasil Skenario Pertama Pengujian SVM-TFIDF Tanpa SMOTE .... 62

4.16 Skenario Pengujian SVM-TFIDF Menggunakan SMOTE ... 63

4.16.1 SVM Kernel Linear ... 63

4.16.2 SVM Kernel RBF ... 67

4.16.3 SVM Kernel Polynomial ... 70

4.16.4 SVM Kernel Sigmoid ... 73

4.16.5 Hasil Skenario Kedua Pengujian SVM-TFIDF Dengan SMOTE .... 76

4.17 Skenario Pengujian Menggunakan SVM-WORD2VEC Tanpa SMOTE . 77 4.17.1 SVM-WORD2VEC Kernel Linear ... 77

4.17.2 SVM-WORD2VEC Kernel RBF ... 80

4.17.3 SVM-WORD2VEC Kernel Polynomial ... 83

4.17.4 SVM-WORD2VEC Kernel Sigmoid... 86

4.17.5 Hasil Skenario Ketiga Pengujian SVM-WORD2VEC Tanpa SMOTE 90 4.18 Skenario Pengujian Dengan SVM-WORD2VEC Menggunakan SMOTE 91 4.18.1 SVM-WORD2VEC Kernel Linear ... 91

(8)

viii

4.18.5 Hasil Skenario Keempat Pengujian SVM-WORD2VEC Dengan SMOTE 107 4.19 Skenario Pengujian SVM-WORD2VEC Dengan Undersampling ... 108

4.19.1 SVM-WORD2VEC Kernel Linear ... 108

4.19.5 Hasil Skenario Kelima Pengujian SVM-WORD2VEC Dengan Undersampling... 122

4.20 Skenario Pengujian SVM-TFIDF Menggunakan Undersampling ... 123

4.20.1 SVM Kernel Linear ... 123

4.20.2 SVM Kernel RBF ... 127

4.20.3 SVM Kernel Polynomial ... 131

4.20.4 SVM Kernel Sigmoid ... 135

4.20.5 Hasil Skenario Keenam Pengujian SVM-TFIDF Dengan Undersampling... 139

4.21 Visualisasi Wordcloud ... 140

BAB V KESIMPULAN DAN SARAN ... 142

5.1 Kesimpulan ... 142

5.2 Saran ... 142

DAFTAR PUSTAKA ... 143

LAMPIRAN ... 146

(9)

ix

DAFTAR TABEL

hal

Tabel 2. 1 Tinjauan Pustaka ... 4

Tabel 3. 1 Data Yang Sudah Di Case Folding ... 25

Tabel 3. 2 Data Yang Sudah Di Tokenizing ... 26

Tabel 3. 3 Data Yang Sudah Di Filtering ... 27

Tabel 3. 4 Contoh Data Yang Sudah Stemming ... 28

Tabel 4. 1 10-Fold Kernel Linear ... 44

Tabel 4. 2 Confussion Matrix Kernel Linear 80% Data Latih Dan 20% Uji ... 45

Tabel 4. 3Confussion Matrix Kernel Linear 75% Data Latih Dan 25% Uji ... 45

Tabel 4. 4Confussion Matrix Kernel Linear 70% Data Latih Dan 30% Uji ... 46

Tabel 4. 510-Fold Pada Kernel RBF ... 49

Tabel 4. 6 Confussion Matrix Kernel RBF 80% Data Latih Dan 20% Uji ... 50

Tabel 4. 910-Fold Pada Kernel Polynomial ... 54

Tabel 4. 10 Confussion Matrix Kernel Polynomial 70% Data Latih Dan 30% Uji ... 55

Tabel 4. 13 10-Fold Pada Kernel Sigmoid ... 58

Tabel 4. 14 Confussion Matrix Kernel Sigmoid 80% Data Latih Dan 20% Uji ... 59

Tabel 4. 17 Nilai Accuracy, Precision, Recall, Dan F1-Score Pada Skenario Pertama ... 62

Tabel 4. 18 10-Fold Cross Validation Pada Kernel Linear Skenario Ke 2 ... 65

Tabel 4. 19 10-Fold Cross Validation Pada Kernel RBF Sekenario Ke 2 ... 69

Tabel 4. 2010-Fold Cross Validation Pada Kernel Polynomial Sekenario Ke 2 ... 72

Tabel 4. 21 10-Fold Cross Validation Pada Kernel Sigmoid Sekenario Ke 2 ... 75

Tabel 4. 22 Nilai Accuracy, Precision, Recall, Dan F1-score Pada Skenario Kedua ... 76

Tabel 4. 23 Nilai Accuracy, Precision, Recall, Dan F1-Score Pada Skenario Ketiga ... 90

Tabel 4. 24 10-Fold Cross Validation Pada Kernel Linear Sekenario Ke 4... 94

Tabel 4. 26 10-Fold Cross Validation Pada Kernel Polynomial Sekenario Ke 4 ... 102

Tabel 4. 27 10-Fold Cross Validation Pada Kernel Sigmoid Sekenario Ke 4 .... 106

Tabel 4. 28 Nilai Accuracy, Precision, Recall, Dan F1-Score Pada Skenario Keempat ... 107

Tabel 4. 29 10-Fold Cross Validation Pada Kernel Linear Sekenario Ke 5... 111

(10)

x

Tabel 4. 31 10-Fold Cross Validation Pada Kernel Polynomial Sekenario Ke 5 ... 118 Tabel 4. 32 10-Fold Cross Validation Pada Kernel Sigmoid Sekenario Ke 5 .... 121 Tabel 4. 33 Nilai Accuracy, Precision, Recall, Dan F1-Score Pada Skenario

Kelima ... 122 Tabel 4. 34 10-Fold Cross Validation Pada Kernel Linear Skenario Ke 6 ... 126 Tabel 4. 35 10-Fold Cross Validation Pada Kernel RBF Sekenario Ke 6 ... 130 Tabel 4. 36 10-Fold Cross Validation Pada Kernel Polynomial Sekenario

Ke 6 ... 134 Tabel 4. 37 10-Fold Cross Validation Pada Kernel Sigmoid Sekenario Ke 6 .... 138 Tabel 4. 38 Nilai Accuracy, Precision, Recall, Dan F1-Score Pada Skenario

Keenam... 139

(11)

xi

DAFTAR GAMBAR

hal

Gambar 2. 1 Proses CBOW Dan Skrip-Gram (Steven 2020). ... 14

Gambar 2. 2 SVM Hyperplane Berupaya Untuk Memisahkan Kedua Class Terbaik ... 17

Gambar 2. 3 Kernel SVM Untuk Memisahkan Data Secara Linear ... 19

Gambar 3. 1 Rancangan Penelitian ... 22

Gambar 3. 2 Data Mentah ... 23

Gambar 3. 3 Data Yang Sudah Di Beri Label ... 24

Gambar 3. 4 Alur Preprocessing ... 24

Gambar 4. 1 Pengumpulan Data Tanpa Replay ... 34

Gambar 4. 2 Copy Id Youtube ... 34

Gambar 4. 3 Peroses Pengambilan Data Menggunakan Apps Script ... 34

Gambar 4. 4 Peroses Menambahkan Layanan Youtubeanalytics API ... 35

Gambar 4. 5 Hasil Pengumpulan Data Mentah ... 35

Gambar 4. 6 Hasil Pelabelan Data ... 36

Gambar 4. 7 Code Cleansing ... 36

Gambar 4. 8 Code Case Folding ... 37

Gambar 4. 9 Code Tokenizing ... 37

Gambar 4. 10 Code Filtering ... 38

Gambar 4. 11 Code Stemming ... 38

Gambar 4. 12 Hasil Pemodelan Word2Vec ... 39

Gambar 4. 13 Code Word2Vec... 39

Gambar 4. 14 Code Pembobotan TF-IDF ... 40

Gambar 4. 15 Code SMOTE ... 40

Gambar 4. 16 Code Undersampling... 41

Gambar 4. 17 Pembagian Data... 41

Gambar 4. 18 Code SVM Linear ... 43

Gambar 4. 19 Code Cross Validation Kernel Linear ... 43

Gambar 4. 20 Code Confussion matrix Kernel Linear ... 44

Gambar 4. 21 Classification Report Linear 80% Data Latih Dan 20% Uji ... 46

Gambar 4. 24 Code SVM Kernel RBF ... 48

Gambar 4. 25 Code Cross Validation Kernel RBF ... 48

Gambar 4. 26 Code Confussion Matrix Kernel RBF ... 49

Gambar 4. 27 Classification Report RBF 70% Data Latih Dan 30% Uji ... 51

Gambar 4. 30 Code SVM Kernel Polynomial ... 52

Gambar 4. 31 Code Cross Validation Kernel Polynomial ... 53

Gambar 4. 32 Code Confussion Matrix Kernel Polynomial ... 54 Gambar 4. 33 Classification Report Polynomial 75% Data Latih Dan 25% Uji 56 Gambar 4. 34 Classification Report Polynomial 70% Data Latih Dan 30% Uji 57

(12)

xii

Gambar 4. 35 Classification Report Polynomial 80% Data Latih Dan 20% Uji . 57

Gambar 4. 36 Code SVM Kernel Sigmoid ... 57

Gambar 4. 37 Code Cross Validation Kernel Sigmoid ... 58

Gambar 4. 38 Code Confussion Matrix Kernel Sigmoid ... 59

Gambar 4. 39 Classification Report Sigmoid 80% Data Latih Dan 20% Uji ... 61

Gambar 4. 42 Akurasi Tiap Kernel Skenario Pertama ... 62

Gambar 4. 43 Code SVM Kernel Linear Skenario Kedua ... 63

Gambar 4. 44 Confussion Matrix Kernel Linear Sekenario Ke 2 Dengan 75% Data Latih Dan 25% Uji ... 63

Gambar 4. 47 Code Cross Validation Kernel Linear Skenario Kedua ... 65

Gambar 4. 51 Confussion Matrix Kernel RBF Sekenario Ke 2 Dengan 80% Data Latih Dan 20% Uji ... 67

Gambar 4. 54 Classification Report RBF Sekenario Ke 2 Dengan 70% Data Latih Dan 30% Uji... 68

Gambar 4. 57 Confussion Matrix Kernel Polynomial Sekenario Ke 2 Dengan 75% Data Latih Dan 25% Uji ... 70

Gambar 4. 60 Classification Report Polynomial Sekenario Ke 2 Dengan 75% Data Latih Dan 25% Uji ... 71

(13)

xiii

Gambar 4. 63 Confussion Matrix Kernel Sigmoid Sekenario Ke 2 Dengan 80%

Data Latih Dan 20% Uji ... 73 Gambar 4. 64 Confussion Matrix Kernel Sigmoid Sekenario Ke 2 Dengan 70%

Data Latih Dan 25% Uji ... 74 Gambar 4. 66 Classification Report Sigmoid Sekenario Ke 2 Dengan 70%

Data Latih Dan 25% Uji ... 75 Gambar 4. 69 Akurasi Tiap Kernel Skenario Kedua ... 76 Gambar 4. 70 Code SVM-WORD2VEC Kernel Linear Skenario Ketiga ... 77 Gambar 4. 71 Confussion Matrix Kernel Linear Sekenario Ke 3 Dengan 80%

Data Latih Dan 20% Uji ... 78 Gambar 4. 72 Confussion Matrix Kernel Linear Sekenario Ke 3 Dengan 70%

Data Latih Dan 25% Uji ... 79 Gambar 4. 74 Classification Report Linear Sekenario Ke 3 Dengan 75% Data

Latih Dan 25% Uji... 79 Gambar 4. 75 Classification Report Linear Sekenario Ke 3 Dengan 70% Data

Latih Dan 30% Uji... 80 Gambar 4. 76 Classification Report Linear Sekenario Ke 3 Dengan 80% Data

Latih Dan 20% Uji... 80 Gambar 4. 77 Code SVM-WORD2VEC Kernel RBF Skenario Ketiga ... 80 Gambar 4. 78 Confussion Matrix Kernel RBF Sekenario Ke 3 Dengan 75%

Data Latih Dan 25% Uji ... 81 Gambar 4. 79 Confussion Matrix Kernel RBF Sekenario Ke 3 Dengan 70%

Data Latih Dan 20% Uji ... 82 Gambar 4. 81 Classification Report RBF Sekenario Ke 3 Dengan 80% Data

Latih Dan 20% Uji... 82 Gambar 4. 82 Classification Report RBF Sekenario Ke 3 Dengan 70% Data

Latih Dan 30% Uji... 83 Gambar 4. 83 Classification Report RBF Sekenario Ke 3 Dengan 75% Data

Latih Dan 25% Uji... 83 Gambar 4. 84 Code SVM-WORD2VEC Kernel Polynomial Skenario Ketiga ... 83 Gambar 4. 85 Confussion Matrix Kernel Polynomial Sekenario Ke 3 Dengan

80% Data Latih Dan 20% Uji ... 84 Gambar 4. 86 Confussion Matrix Kernel Polynomial Sekenario Ke 3 Dengan

70% Data Latih Dan 30% Uji ... 84

(14)

xiv

Gambar 4. 87 Confussion Matrix Kernel Polynomial Sekenario Ke 3 Dengan 75% Data Latih Dan 25% Uji ... 85 Gambar 4. 88 Classification Report Polynomial Sekenario Ke 3 Dengan 75%

Data Latih Dan 25% Uji ... 85 Gambar 4. 89 Classification Report Polynomial Sekenario Ke 3 Dengan 70%

Data Latih Dan 30% Uji ... 86 Gambar 4. 90 Classification Report Polynomial Sekenario Ke 3 Dengan 80%

Data Latih Dan 20% Uji ... 86 Gambar 4. 91 Code SVM-WORD2VEC Kernel Sigmoid Skenario Ketiga ... 86 Gambar 4. 92 Confussion Matrix Kernel Sigmoid Sekenario Ke 3 Dengan 80%

Data Latih Dan 25% Uji ... 89 Gambar 4. 98 Akurasi Tiap Kernel Skenario Ketiga ... 90 Gambar 4. 99 Code SVM-WORD2VEC Kernel Linear Skenario Keempat ... 91 Gambar 4. 100 Confussion Matrix Kernel Linear Sekenario Ke 4 Dengan 75%

Data Latih Dan 30% Uji ... 92 Gambar 4. 103 Classification Report Linear Sekenario Ke 4 Dengan 75%

Data Latih Dan 20% Uji ... 93 Gambar 4. 106 Code SVM-WORD2VEC Kernel RBF Skenario Keempat ... 94 Gambar 4. 107 Confussion Matrix Kernel RBF Sekenario Ke 4 Dengan 70%

Latih Dan 20% Uji ... 96

(15)

xv

Gambar 4. 111 Classification Report RBF Sekenario Ke 4 Dengan 70% Data Latih Dan 30% Uji ... 97 Gambar 4. 112 Classification Report RBF Sekenario Ke 4 Dengan 75% Data

Latih Dan 25% Uji ... 97 Gambar 4. 113 Code SVM-WORD2VEC Kernel Polynomial Skenario Keempat 98 Gambar 4. 114 Confussion Matrix Kernel Polynomial Sekenario Ke 4 Dengan

75% Data Latih Dan 25% Uji ... 100 Gambar 4. 117 Classification Report Polynomial Sekenario Ke 4 Dengan

80% Data Latih Dan 20% Uji ... 101 Gambar 4. 120 Code SVM-WORD2VEC Kernel Sigmoid Skenario Keempat .... 102 Gambar 4. 121 Confussion Matrix Kernel Sigmoid Sekenario Ke 4 Dengan

80% Data Latih Dan 20% Uji ... 103 Gambar 4. 122 Confussion Matrix Kernel Sigmoid Sekenario Ke 4 Dengan

75% Data Latih Dan 25% Uji ... 104 Gambar 4. 124 Classification Report Sigmoid Sekenario Ke 4 Dengan 80%

Data Latih Dan 25% Uji ... 105 Gambar 4. 127 Akurasi Tiap Kernel Skenario Keempat ... 107 Gambar 4. 128Code SVM-WORD2VEC Kernel Linear Skenario Kelima ... 108 Gambar 4. 129 Confussion Matrix Kernel Linear Sekenario Ke 5 Dengan

75% Data Latih Dan 25% Uji ... 108 Gambar 4. 130 Confussion Matrix Kernel Linear Sekenario Ke 5 Dengan

80% Data Latih Dan 20% Uji ... 109 Gambar 4. 131 Confussion Matrix Kernel Linear Sekenario Ke 5 Dengan

70% Data Latih Dan 30% Uji ... 109 Gambar 4. 132 Classification Report Linear Sekenario Ke 5 Dengan 75%

Data Latih Dan 20% Uji ... 110

(16)

xvi

Gambar 4. 135 Code SVM-WORD2VEC Kernel RBF Skenario Kelima ... 111 Gambar 4. 136 Confussion Matrix Kernel RBF Sekenario Ke 5 Dengan 70%

Latih Dan 20% Uji ... 113 Gambar 4. 140 Classification Report RBF Sekenario Ke 5 Dengan 70% Data

Latih Dan 30% Uji ... 113 Gambar 4. 141Classification Report RBF Sekenario Ke 5 Dengan 75% Data

Latih Dan 25% Uji ... 114 Gambar 4. 142 Code SVM-WORD2VEC Kernel Polynomial Skenario Kelima . 115 Gambar 4. 143 Confussion Matrix Kernel Polynomial Sekenario Ke 5 Dengan

80% Data Latih Dan 20% Uji ... 117 Gambar 4. 149 Code SVM-WORD2VEC Kernel Sigmoid Skenario Kelima ... 118 Gambar 4. 150 Confussion Matrix Kernel Sigmoid Sekenario Ke 5 Dengan

Data Latih Dan 25% Uji ... 121 Gambar 4. 156 Akurasi Tiap Kernel Skenario Kelima ... 122 Gambar 4. 157 Code SVM Kernel Linear Skenario Keenam... 123 Gambar 4. 158 Confussion Matrix Kernel Linear Sekenario Ke 6 Dengan

75% Data Latih Dan 25% Uji ... 123

(17)

xvii

Gambar 4. 159 Confussion Matrix Kernel Linear Sekenario Ke 6 Dengan 70% Data Latih Dan 30% Uji ... 124 Gambar 4. 160 Confussion Matrix Kernel Linear Sekenario Ke 6 Dengan

80% Data Latih Dan 20% Uji ... 124 Gambar 4. 161 Classification Report Linear Sekenario Ke 6 70% Data Latih

Dan 30% Uji ... 125 Gambar 4. 162 Classification Report Linear Sekenario Ke 6 80% Data Latih

Dan 20% Uji ... 125 Gambar 4. 163 Classification Report Linear Sekenario Ke 6 75% Data Latih

Dan 25% Uji ... 126 Gambar 4. 164 Code Cross Validation Kernel Linear Skenario Keenam ... 126 Gambar 4. 165 Confussion Matrix Kernel RBF Sekenario Ke 6 Dengan 80%

Latih Dan 25% Uji ... 129 Gambar 4. 171 Confussion Matrix Kernel Polynomial Sekenario Ke 6 Dengan

(18)

xviii

Gambar 4. 181 Classification Report Sigmoid Sekenario Ke 6 Dengan 80%

Gambar 4. 182 Classification Report Sigmoid Sekenario Ke 6 Dengan 75% Data Latih Dan 25% Uji ... 137

Gambar 4. 183 Akurasi Tiap Kernel Skenario Keenam ... 139

Gambar 4. 184 Code Wordcloud Negatif ... 140

Gambar 4. 185 Hasil Wordcloud Negatif ... 140

Gambar 4. 186 Code Wordcloud Positif ... 141

Gambar 4. 187 Hasil Wordcloud Positif ... 141

(19)

xix

INTISARI

Penelitian ini melakukan perbandingan metode Word2Vec-SVM dan TF- IDF-SVM, untuk melakukan klasifikasi. Penelitian ini dibagi menjadi 5 tahap yaitu pengumpulan data, labeling, preprocessing, testing dan hasil. Penelitian ini menggunakan (app script) untuk scraping data yang didapat dari opini masyarakat di Channel youtube tentang metaverse. Channel youtube yang di gunakan adalah Deddy Corbuzier, Dr. Indrawan Nugroho, Sandiuno TV, dan Raymond Chin dengan kata kunci ―metaverse‖. Data yang dikumpulkan mulai dari bulan Januari 2021 hingga September 2022. Data yang digunakan sebanyak 5000 data dengan label positif atau negatif.

Hasil pengujian SVM-TFIDF dengan Undersampling menunjukan bahwa nilai akurasi tertinggi di hasilkan dari kernel RBF dengan 74% accuracy, 74%

precision, 73% recall, dan 73% f1-score pada pembagian data 75% data latih dan 25% data uji. Sedangkan dari hasil pengujian SVM-WORD2VEC tanpa SMOTE menghasilkan akurasi tertinggi pada kernel polynomial 61% accuracy, 60%

precision, 63% recall, dan 61% f1-score pada pembagian data 75% data latih dan 25% data uji. Berdasarkan hasil pengujian yang dilakukan, dapat disimpulkan bahwa SVM-TFIDF memiliki performa yang lebih baik daripada SVM- WORD2VEC dalam proses klasifikasi data.

Kata Kunci: Klasifikasi Opini Masyarakat, Metaverse, Word2Vec-SVM, TF-IDF-SVM, Smote, Undersampling.

(20)

xx

ABSTRACT

This research conducted a comparison between Word2Vec-SVM and TF- IDF-SVM methods for classification purposes. The study was divided into five stages, namely data collection, labeling, preprocessing, testing, and analysis of results. The research utilized data scraping using an app script from public opinions on the YouTube channels discussing the metaverse. The YouTube channels used in the study were Deddy Corbuzier, Dr. Indrawan Nugroho, Sandiuno TV, and Raymond Chin, with the keyword "metaverse". The data collection period spanned from January 2021 to September 2022. A total of 5000 data points were collected with positive or negative labels.

The testing results of SVM-TFIDF with Undersampling indicated that the highest accuracy was achieved using the RBF kernel with 74% accuracy, 74%

precision, 73% recall, and 73% f1-score when the data was divided into 75%

training data and 25% testing data. On the other hand, the testing results of SVM- WORD2VEC without SMOTE showed the highest accuracy with the polynomial kernel, achieving 61% accuracy, 60% precision, 63% recall, and 61% f1-score when the data was divided into 75% training data and 25% testing data. Based on the conducted testing, it can be concluded that SVM-TFIDF outperforms SVM- WORD2VEC in the data classification process.

Keywords:Classification of Community Opinion, Metaverse, Word2Vec-SVM, TF-IDF-SVM, Smote, Undersampling.

(21)

1.1 Latar Belakang

Konsep Metaverse pertama kali diperkenalkan dalam novel fiksi ilmiah Snow Crash karya Neal Stephenson pada tahun 1992, menggambarkan manusia dengan avatar interaktif dalam lingkungan 3D. Metaverse adalah realitas digital yang menggabungkan media sosial, game online, dan teknologi untuk pengalaman virtual (Sopiandi and Susanti 2022). Di dalamnya, kita dapat berinteraksi dengan teman virtual, keluarga, bekerja, belajar, bermain, dan berbelanja (Wang et al. 2022). Teleportasi hologram instan memungkinkan bekerja dari jarak jauh, menghadiri konser, dan aktivitas lainnya tanpa tiket (Sopiandi and Susanti 2022). Perusahaan seperti Facebook, Microsoft, Google, Epic Games, Tencent, dan Roblox juga berperan dalam pertumbuhan Metaverse (Sopiandi and Susanti 2022). Metaverse dianggap sebagai paradigma internet berikutnya dengan pengalaman imersif, termasuk melalui (Istifani and Sholiq 2018). VR awalnya ditujukan untuk pengalaman pengguna tunggal, tetapi berkembang menjadi ruang interaksi di mana pengguna dapat berinteraksi satu sama lain. Selain itu, VR juga dapat terhubung dengan proses otak manusia tanpa perangkat keras, mengaktifkan realitas alternatif melalui imajinasi dan pikiran (Girvan 2018).

YouTube platform berbagi video yang didirikan pada tahun 2005, menjadi yang paling populer (Schwemmer and Ziewiecki 2018). Di Indonesia, pada tahun 2021, sebanyak 93,8% pengguna internet usia 15-64 tahun menggunakan YouTube, dengan jumlah sekitar 190 juta orang (Saputra, Subhi, and Winatama 2019).. Pada tahun yang sama, YouTube juga menjadi platform media sosial dengan pengguna terbanyak, mencapai 107 juta pengguna (HootSuite Indonesia).

Kolom komentar di YouTube menjadi wadah bagi pengguna untuk menyampaikan opini, reaksi, dan asumsi terhadap konten video (Schwemmer and Ziewiecki 2018). Komentar tersebut penting untuk analisis sentimen terkait Metaverse, di mana terdapat pendapat yang mendukung dan skeptis terhadap perkembangan teknologi ini (Bach et al. 2019). Penelitian ini menggunakan text mining untuk

(22)

menganalisis respon masyarakat Indonesia terhadap Metaverse, dengan sumber data dari video YouTube. Tujuannya adalah menyediakan analisis informasi mengenai sentimen masyarakat. Metode analisis sentimen digunakan untuk mengkategorikan teks menjadi positif, negatif, atau netral (Rusli et al. 2020).

Dalam penelitian ini, digunakan alat ekstraksi fitur Word2Vec untuk mengubah kata-kata dalam teks menjadi vektor (Wu et al. 2018). Word2Vec membantu dalam mendapatkan representasi kata yang berkualitas dengan melatih model menggunakan banyak data (Wu et al. 2018).

Berdasarkan penelitian yang dilakukan oleh Istifani dan Sholiq (Istifani and Sholiq 2018). Support vector machine melakukan proses klasifikasi dengan nilai akurasi yang sangat besar, menghasilkan akurasi sebesar 98,79 persen.

Namun, menurut penelitian Arsi (Arsi and Waluyo 2021), SVM mencapai akurasi 96,68 persen dalam pengujian yang dilakukan pada tweet sentimen pemindahan ibu kota dari media sosial Twitter, dengan total 1.236 tweet (404 positif dan 832 negatif). Menurut penelitian (Hendrastuty et al. 2021), kernel linear memberikan akurasi 98,67 persen, presisi 98 persen, recall 99 persen, dan 98 persen F1-score, sedangkan kernel RBF menghasilkan akurasi 98,34 persen, presisi 97 persen, recall 98 persen , dan 98 persen F1-score. Akibatnya, kernel linear mengungguli RBF dalam hal akurasi.

Sehingga berdasarkan fenomena di atas, penulis tertarik meneliti dan akan mengangkat judul penelitian ―Klasifikasi opini masyarakat terhadap metaverse menggunakan metode Word2Vec-svm (Support vector machine) dan tf idf-svm (Support vector machine)‖

1.2 Rumusan Masalah

Berdasarkan latar belakang yang telah diuraikan diatas maka rumusan masalah yang muncul adalah bagaimana performa Support vector machine (SVM)- TFIDF dan Word2Vect dalam mengklasifikasikan data opini masyarakat pada kolom komentar YouTube.

(23)

1.3 Batasan Masalah

Agar pembahasan usulan penelitian dapat dilakukan secara terarah dan sesuai ruang lingkup penelitiaan yang akan dilakukan, maka penulis perlu menetapkan Batasan masalah yaitu :

1. Data yang digunakan dalam penelitian ini diperoleh dari Channel Video Content Creator Deddy Corbuzier, Dr. Indrawan Nugroho, Sandiuno TV, Dan Raymond Chin.

2. Dataset diperoleh mulai dari bulan Januari 2021 hingga September 2022.

3. Data yang diteliti sebanyak 5000 data.

4. Analisa sentimen memiliki dua lebel kelas yaitu positif dan negatif.

5. Data yang Diperoleh merupakan sentimen masyarakat Indonesia (Berbahasa Indonesia).

6. Menggunakan algoritma SVM-TFIDF, SVM-WORD2VEC dan bahasa pemrograman python.

7. Crawling data menggunakan Google spreadsheet dan ekstensi apps script.

1.4 Tujuan Penelitian

Berdasarkan rumusan masalah yang telah diuraikan diatas maka tujuan penelitian adalah menguji performa metode Word2Vec dan SVM-TFIDF dalam melakukan proses klasifikasi data pada opini masyarakat.

1.5 Manfaat Masalah

Adapun dalam penelitian ini diharapkan memberikan manfaat, antara lain:

1. Penelitian ini berguna untuk memberikan informasi mengenai sentimen masyarakat Indonesia terhadap Metaverse.

2. Penelitian ini bermanfaat memberikan informasi kepada pembaca supaya menjadi sumber pembelajaran pada penelitian tentang analisis sentimen terhadap opini masyarakat terhadap metaverse di Indonesia.

3. Penelitian ini menguji akurasi algoritma SVM-WORD2VEC dan SVM- TFIDF pada komentar masyarakat di Media Sosial YouTube terkait opini metaverse.

(24)

LANDASAN TEORI

2.1 Tinjauan Pustaka

Berdasarkan hasil kajian literatur terhadap penelitian yang dilakukan terdahulu. Hingga penulis merujuk kepada sebagian literatur. Berikut ini tabel kajian literatur pustaka yang jadi rujukan dapat dilihat pada Tabel 2. 1.

Tabel 2. 1 Tinjauan Pustaka No Detail Refrensi Keterangan

1 Judul Klasifikasi Data Twitter Pelanggan Berdasarkan Kategori myTelkomsel Menggunakan Metode Support vector machine (SVM)

Tahun 2018

Metode Support vector machine (SVM)

Hasil Hasil perhitungan akurasi pada data tweet awal jika menggunakan parameter default maka kernel yang terbaik ialah kernel linear pada percobaan 3 dengan nilai cost 1 menghasilkan akurasi sebesar 98.79%. Percobaan 1 yakni klasifikasi dengan kernel linear menghasilkan akurasi 98.76% dan percobaan 2 yakni klasifiksi kernel linear dengan special stopword menghasilkan akurasi 98.66% (Istifani and Sholiq 2018).

2 Judul Sentimen Analisis Masyarakat Indonesia di Twitter Terkait Metaverse dengan Algoritma Support vector machine

Tahun 2022

Metode Support vector machine

Hasil Hasil survei penelitian ini tentang sikap orang Indonesia terhadap teknologi metaverse mengungkapkan 66%

netral, 17% negatif, dan 16% positif. Pengujian dengan algoritme SVM menghasilkan hasil kinerja 87% dengan

(25)

kernel linear, yang secara signifikan lebih baik daripada kinerja algoritme pohon sebesar 71% (A. Ahmad and Gata 2022).

3 Judul Algoritma Support vector machine (SVM) Untuk Identifikasi Komponen Abstrak Pada Jurnal Ilmiah Berbasis Teknik Klasifikasi

Tahun 2021

Hasil Dengan menggunakan tiga metode pertukaran data yang berbeda, hasil pengujian x. Data pertama 70% data latih dan 30% data uji, kedua 80% data latih dan 20% data yuji, dan ketiga 90% data latih dan 10% data uji, menghasilkan persentase akurasi 67%, 72 %, dan 73,9%, masing-masing (Puspitawati et al. 2021).

4 Judul Perbandingan Akurasi, Recall, dan Presisi Klasifikasi pada Algoritma C4.5, Random Forest, SVM dan Naive Bayes.

Tahun 2021

Metode SVM, C4.5, Random Forest dan Naive Bayes

Hasil Penelitian ini membandingkan efektivitas algoritma klasifikasi C4.5, Random Forest, SVM, dan Naive Bayes.

Ada 200 data peserta JISC secara keseluruhan yang menjadi data penelitian. Ada 140 data latih (70%) dan 60 data uji (30%). memanfaatkan rapidminer, program data mining, untuk mensimulasikan klasifikasi. Hasil mendukung itu. Akurasi yang dicapai oleh algoritma C4.5 adalah 86,67%. Keakuratan metode Random Forest adalah 83,33%. Tingkat akurasi 95% dicapai dengan algoritma SVM. Keakuratan metode Naive Bayes adalah 86,67%. Metode SVM memiliki akurasi terbaik, dan teknik Random Forest memiliki akurasi terendah.(Azhari, Situmorang, and Rosnelly 2021)

(26)

5 Judul Ekstraksi Fitur Menggunakan Model Word2Vec Pada Sentiment Analysis Kolom Komentar Kuisioner Evaluasi Dosen Oleh Mahasiswa

Tahun 2020

Metode Support vector machine (Svm)

Hasil Penerapan ekstraksi fitur Average base Word2Vec pada data komentar penilaian dosen menciptakan akurasi sebesar 84, 8%. Setelah itu mengenakan ekstraksi fitur Bag of Centroid base Word2Vec memakai Hirarki Clustering menciptakan akurasi terbaik sebesar 81, 6%

dengan jumlah 75 fitur. Hasil penggabungan kedua ekstraksi fitur menciptakan akurasi sebesar 85, 3% (Rusli et al. 2020).

6 Judul Analisis Sentimen IMBd Film Review Dataset Menggunakan Support vector machine (SVM) dan Seleksi Feature Importance

Tahun 2022

Hasil Dengan menerapkan teknik basic data split dan K-Fold cross validation untuk menilai akurasi data validasi, yang menghasilkan nilai akurasi masing-masing sebesar 91,942% dan 87,699%. Keakuratan prediksi model kemudian diukur menggunakan matriks konfusi dengan pengaturan fitur maksimum 10.000; hasil penelitian menunjukkan bahwa model memiliki akurasi sebesar 88,033%. Dalam hal ini, dapat ditunjukkan bahwa akurasi klasifikasi model dianggap cukup baik.(Nuraliza, Pratiwi, and Hamami 2022)

7 Judul Sentimen Analisis Kegiatan Trading Pada Aplikasi Twitter dengan Algoritma SVM, KNN Dan Random Forrest

Tahun 2022

(27)

Metode SVM, KNN Dan Random Forrest

Hasil Hasil penelitian yang meliputi tiga faktor menunjukkan bahwa sentimen positif memiliki nilai sebesar 29%, sentimen negatif memiliki nilai sebesar 10%, dan sentimen netral memiliki nilai sebesar 62%. Penulis menggunakan tiga algoritma klasifikasi untuk menilai data sentimen dari Twitter dan mencapai score akurasi 0,999 untuk KNN, Random Forest, dan Naive SVM (Komputer et al. 2022).

8 Judul Analisis Sentimen Wacana Pemindahan Ibu Kota Indonesia Menggunakan Algoritma Support vector machine (Svm)

Tahun 2021

Hasil Menurut hasil pengujian yang dicoba terhadap tweets sentimen pemindahan ibu kota dari media sosial Twitter sebanyak 1. 236 tweets (404 positif dan 832 negatif) memakai SVM diperoleh akurasi=96, 68%, precision=95.

82%, recall=94. 04% serta AUC= 0, 979 (Arsi and Waluyo 2021).

9 Judul Sentiment Analysis On YouTube Comments Using Word2Vec and Random Forest

Tahun 2021

Metode Random Forest

Hasil Menurut penelitian ini percobaan dengan parameter 1, 5, serta 20 epoch dan ukuran window 3, 5, serta 10, didapat rata rata akurasi model antara 90, 1% hingga 91%.

Namun pengujian model menciptakan akurasi antara 88, 77% hingga dengan 89, 05% (Khomsah 2021).

10 Judul Analisis Sentimen Pemindahan Ibu Kota Pada Twitter Dengan Metode Support vector machine

Tahun 2021

(28)

Hasil Hasil penelitian ini menggunakan metode Support Vector Machine adalah True Positive 1 data, True Negative 770 data, False Positive 1 data serta False Negative 220 data sebaliknya dengan memakai Support vector machine dengan Term Frequency– Inverse Document Frequency Yakni True Positive 13 data, True Negative 764 informasi, False Positive 7 data serta False Negative 208 data. Berikutnya guna penerapan Term Frequency– Inverse Document Frequency untuk meningkatkan akurasi menghasilkan nilai 0, 61%

(Hidayat, Garno, and Ridha 2021) .

Berdasarkan penjabaran literatur diatas menunjukkan bahwa Svm (Support vector machine) dapat mempermudah penelitian dalam melihat akurasi yang tinggi dan bekerja dengan baik. Dengan demikian penelitian ini berfokus pada Klasifikasi Sentimen yaitu :

1. Mengukur nilai sentimen masyarakat berupa negatif atau positif.

2. Mengelola data teks menjadi data yang bernilai.

3. Berdasarkan hasil penelitian (Ningrum 2018) nilai akurasi yang didapatkan bahwa model dengan menggunakan fungsi kernel linear lebih tepat digunakan untuk mengklasifikasikan data .

2.2 YouTube

Dengan lebih dari 2 miliar pengguna dan miliaran tampilan harian, YouTube adalah salah satu penyedia konten online paling populer dalam bentuk video (Li et al. 2020). Jika dibandingkan dengan platform media sosial lainnya, keunggulan YouTube adalah penggunaan komunikasi audio dan visual yang masuk akal, membuatnya mudah diakses oleh orang-orang dari semua lapisan masyarakat. Meskipun YouTube adalah alat pendidikan hebat yang dapat digunakan oleh Pembuat Konten untuk mendistribusikan pengetahuan dan memengaruhi perilaku publik, YouTube juga dapat menjadi sumber informasi

(29)

palsu yang bertentangan dengan upaya tersebut jika digunakan secara tidak benar.

YouTube diketahui sebagai media sosial yang menunjukkan bermacam-macam video mulai dari permainan, berita, tutorial bahkan kehidupan sehari-hari tentang konten kreator yang bermanfaat untuk masyarakat. Dengan media YouTube yang sangat besar, pastinya menjadi peluang besar untuk mendapatkan data yang sangat luas.

2.3 Metaverse

Metaverse adalah alam semesta pasca-realitas yang menggabungkan realitas fisik dengan virtualitas digital dalam lingkungan multipengguna yang berkelanjutan (Huang et al. 2018). Ini mencakup teknologi seperti virtual reality (VR) dan augmented reality (AR) untuk interaksi multimodal dengan lingkungan virtual, item digital, dan orang-orang. Metaverse adalah platform multi-pengguna yang permanen dengan komunikasi pengguna yang lancar dan real-time. Versi saat ini termasuk platform VR sosial, video game online multipemain, dan lingkungan kolaborasi AR (Huang et al. 2018). Metaverse juga mengatasi batasan teknologi VR saat ini dengan pengalaman visual yang lebih realistis menggunakan teknologi 3D (Indarta et al. 2022). Perbedaan utama dengan AR dan VR adalah bahwa Metaverse adalah alam semesta pasca-realitas yang memiliki tiga faktor kunci yang membedakannya (Park, S.M., & Kim, Y.G., 2022).

2.4 Pengumpulan Data

Dalam penelitian ini, data berasal dari media sosial yang menjadi tempat rujukan masyarakat percakapan dan khususnya pada komentar YouTube yang membahas tentang Metaverse. Data berasal dari komentar masyarakat di konten creator yang sudah di tentukan yang menggunakan media sosial bernama YouTube. Crawling data menggunakan Google Sheets, YouTube API, dan Javascript

2.5 Text Mining

Penambangan Text (Text mining) adalah penambangan dari data yang berbentuk bacaan/teks serta data ini berbeda dengan Data mining (Bach et al.

(30)

2019), disebabkan data tipe ini bersifat tidak terstruktur. Tepatnya untuk permasalahan pada penelitian ini yakni data teks yang dikumpulkan untuk tujuan analisis sentimen pada komentar YouTube yang masih bersifaf random/acak.

Penambangan teks dan penambangan data sering dibandingkan karena diyakini bahwa penambangan teks dapat mengambil manfaat dari pendekatan penambangan data. Keduanya, bagaimanapun, berbeda. Penambangan teks membutuhkan ekstraksi karakteristik teks tertentu, sedangkan penambangan data berisi data terstruktur, yang memerlukan pemrosesan awal (Cahyani and Arif 2022). Preprocessing, pembuatan atribut, pemilihan atribut, identifikasi pola, dan interpretasi merupakan langkah standar dari text mining.

2.6 Text Preprocessing

Text preprocessing merupakan suatu proses guna menyeleksi data text supaya jadi lebih terstruktur lagi dengan melalui serangkaian prosedur tahapan yang ada (Styawati and Mustofa 2019). Karena data yang dikumpulkan dari pemikiran pemirsa YouTube tidak terstruktur dan masih mengandung banyak kata-kata yang tidak memiliki arti, tidak mungkin untuk melakukan analisis langsung. Pada tahap text preprocessing, akan dibagi menjadi 4 tahap, yaitu:

2.6.1 Case Folding

Pada tahap Case Folding akan dilakukan pengkorversian teks ke dalam bentuk standar yaitu mengubah semua huruf dokumen menjadi huruf kecil.

Sebagai contoh pada penelitian ini, pengguna yang ingin mendapatkan informasi

―METAVERSE‖ dan mengetik ―METAverse‖, ―MetaVerse‖, ―metaVerse‖, tetap diberikan hasil yang sama yaitu ―metaverse‖.

2.6.2 Stemming

Pada tahap Stemming akan dilakukan pengelompokan kata-kata yang lain yang memiliki kata dasar dan arti yang serupa namun memilik bentuk atau form yang berbeda karena mendapatkan imbuhan yang berbeda.

(31)

2.6.3 Tokenizing

Pada tahap Tokenizing akan dilakukan pemotongan string input berdasarkan tiap kata yang menyusunnya. Sebagai contoh pada penelitian ini adalah ada kalimat dengan kata-kata ―metaverse ruang realitas virtual dimana pengguna dapat berinteraksi dengan lingkungan yang dihasilkan komputer‖.

Setelah dilakukan Tokenizing, akan menjadi ―metaverse‖ ―ruang‖ ―realitas‖

―virtual‖ ―dimana‖ ―pengguna‖ ―dapat‖ ―berinteraksi‖ ―dengan‖ ―lingkungan‖

―yang‖ ―dihasilkan‖ ―komputer‖.

2.6.4 Filtering

Pada tahap Filtering akan dilakukan penghapusan kata-kata umum seperti

―yang‖, ―dan‖, ―di‖, ―dari‖. Sebagai contoh pada penelitian ini adalah ada kalimat dengan kata-kata ―Metaverse adalah sebuah konsep baru di dunia digital‖. Setelah dilakukan Filtering akan menjadi ―metaverse‖ ―konsep‖ ―baru‖ ―dunia‖ ―digital‖.

2.7 Analisis Sentimen

Analisis sentimen merupakan salah satu cara dalam mengekstrak informasi berupa pandangan seorang terhadap sesuatu isu ataupun peristiwa (Buslim et al.

2018). Analisis sentimen bisa digunakan untuk menguak opini publik terhadap sesuatu isu, feedback, kepuasan pelayanan, kebijakan ataupun cara yang digunakan buat mengenali bagaimana suatu sentimen diekspresikan memanfaatkan teks dan bagaimana sentimen tersebut dapat dikategorikan menjadi sentimen positif ataupun sentimen negatif. Analisa sentimen bisa dimaksud sebagai klasifikasi sentimen dari data maupun teks yang mayoritas tidak terstruktur memakai gabungan dari NLP (Natural Language Processing) serta metode komputasional. Analisis Sentimen adalah bidang penelitian Text mining yang bermanfaat untuk mengkategorikan konten teks dalam bentuk opini berbasis sentimen. Tujuan utama dari analisis sentimen adalah untuk mengkategorikan beberapa teks dari dokumen, atau karakteristik, ke dalam pernyataan positif, negatif, atau netral. (Rusli et al. 2020).

(32)

2.8 Klasifikasi

(Amril Mutoi Siregar & Adam Puspabhuana, 2017) Proses pembentukan model atau fungsi yang mencirikan dan memisahkan kelas data atau ide untuk meramalkan kelas untuk data yang kelasnya tidak diketahui dikenal sebagai klasifikasi. Model yang dihasilkan didasarkan pada analisis data pelatihan (yaitu objek data yang memiliki label kelas yang diketahui). Model yang dihasilkan dapat diekspresikan dalam berbagai cara, termasuk klasifikasi if-then, decision tree, dan SVM, yang semuanya akan digunakan dalam penelitian ini. Pendekatan klasifikasi mengelompokkan data berdasarkan data latih dan nilai atribut klasifikasi. Data baru akan diklasifikasikan ke dalam kategori yang sudah ada dengan menggunakan kriteria pengelompokan. Istilah "klasifikasi" mengacu pada proses pengkategorian item berdasarkan kualitas bersama mereka. Klasifikasi dapat dilakukan dengan berbagai metode selama proses berlangsung, baik secara manual maupun menggunakan teknologi (Aji Prasetya Wibawa, Muhammad Guntur Aji Purnama, Muhammad Fathony Akbar 2018).

2.9 TF-IDF

Prosedur Term Frequency-Inverse Document Frequency (TF-IDF) mengubah data teks menjadi data numerik untuk pembobotan kata. Alat statistik untuk menilai pentingnya kata dalam sebuah naskah adalah TF-IDF. DF adalah ukuran frekuensi penggunaan kata yang didasarkan pada seberapa sering kata itu muncul dalam dokumen. IDF merupakan kebalikan dari nilai DF (Septian, 2019).

TF-IDF (Term Frequency-Inverse Document Frequency) adalah metode yang digunakan untuk mengukur kepentingan relatif suatu kata dalam dokumen dalam korpus teks. Rumus TF-IDF menggabungkan dua faktor: frekuensi kata dalam dokumen (TF) dan invers frekuensi kata dalam korpus (IDF). Berikut adalah rumus TF-IDF:

TF(t, d) = (Jumlah kemunculan kata t dalam dokumen d) / (Jumlah kata dalam dokumen d)

(33)

IDF(t, D) = log(N / n_t)

TF-IDF(t, d, D) = TF(t, d) * IDF(t, D) Di mana:

1. t adalah kata yang sedang dievaluasi.

2. d adalah dokumen yang sedang dievaluasi.

3. D adalah keseluruhan korpus teks atau koleksi dokumen.

4. N adalah jumlah total dokumen dalam korpus.

5. n_t adalah jumlah dokumen yang mengandung kata t.

Rumus tersebut menjelaskan langkah-langkah untuk menghitung TF-IDF secara manual:

1. Hitung frekuensi kata (TF) dalam dokumen:

a. Jumlahkan kemunculan kata t dalam dokumen d.

b. Bagi hasilnya dengan jumlah kata dalam dokumen d.

2. Hitung invers frekuensi kata (IDF) dalam korpus:

a. Tentukan jumlah total dokumen dalam korpus (N).

b. Tentukan jumlah dokumen yang mengandung kata t (n_t).

c. Hitung logaritma basis 10 dari N dibagi n_t.

3. Hitung score TF-IDF:

Kalikan nilai TF dengan nilai IDF.

Langkah-langkah ini perlu diulang untuk setiap kata dalam dokumen atau korpus yang sedang dievaluasi. Penggunaan rumus TF-IDF membantu mengidentifikasi kata-kata yang memiliki bobot tinggi dalam suatu dokumen dan jarang muncul dalam dokumen lain dalam korpus. Ini dapat digunakan untuk berbagai tujuan seperti pemrosesan bahasa alami, informasi retrieval, klasifikasi teks, dan lain- lain.

2.10 Fitur Extraksi

Extraksi Fitur ialah proses mengubah data teks yang tidak terstruktur menjadi lebih terstruktur, sehingga data tersebut bisa diklasifikasi.

(34)

2.11 Word2Vec

Word2Vec adalah teknik penyisipan teks yang mengubah setiap kata menjadi vektor. Mikolov dkk. mengembangkan metode Word2Vec pada tahun 2013. Pada saat kemunculannya, model word embedding ini banyak digunakan dalam penelitian NLP. (Nurdin et al. 2020) Pendekatan Word2Vec adalah implementasi jaringan saraf yang menciptakan representasi bermakna dari representasi kata yang tersebar tanpa perlu label (Djaballah, Boukhalfa, and Boussaid 2019). Word2Vec pada dasarnya ialah jaringan syaraf tiruan dengan 2 lapisan (1 lapisan input serta 1 lapisan tersembunyi).

Model ini mempunyai 2 algoritma belajar yakni yang pertama merupakan Continuous Bag of Words (CBOW) dan continuous skip- gram.

a. CBOW memprediksi kata target berdasarkan konteksnya. CBOW membutuhkan lebih sedikit waktu untuk melatih dan agak lebih akurat untuk istilah yang sering muncul dalam teks.

b. Skip-Gram adverbial adverbial a Model ini memprediksi situasi yang diinginkan dengan menggunakan sebuah kata. Skip-Gram dapat mewakili kata-kata yang dianggap langka dan bekerja dengan baik dengan sejumlah kecil data pelatihan.

Gambar 2. 1 Proses CBOW Dan Skrip-Gram (Steven 2020).

CBOW merupakan metode untuk memprediksi suatu kata berdasarkan informasi berupa kelompok kata. Skip-Gram, di sisi lain, memprediksi kata-kata yang terhubung dengan satu input. Jumlah kata yang dipindai dibatasi oleh parameter (Ii and Teori 2019).

Sebuah dokumen dapat direpresentasikan menggunakan D={w1,w2,w3,...,wT} jika sebuah dokumen dilambangkan dengan D dan setiap kata dalam dokumen dilambangkan dengan wi, di mana i adalah indeks kata

(35)

dokumen dan T adalah jumlah kata-kata dalam dokumen. Jika proses pelatihan Jaringan Syaraf Tiruan model Skip-Gram diberi nilai nilai window c = 3, maka untuk setiap wi, Jaringan Syaraf Tiruan akan memanfaatkannya sebagai masukan untuk mengestimasi kumpulan kata dari wc-i,...,wc+i, yaitu wi-3,...,wi+3.

∑ ∑ ( )

(2.1)

Dimana c adalah fungsi dari pusat kata wt dan mengukur konteks (window) data pelatihan (training). Semakin besar nilai c, semakin banyak hasil pelatihan dan karenanya semakin tinggi akurasinya, tetapi dengan biaya waktu yang lebih lama.

( ) ( )

∑ ( ) (2.2)

Variabel vw dan v’w mewakili input dan output dari kata w sebagai representasi vektor. Jumlah kata unik dalam daftar kosakata diwakili oleh variabel m. Kata representasi input dan output ke dalam vektor disebut one-hot encoding. Model yang muncul dari pelatihan Neural Network adalah matriks Memb m x d.

Banyaknya dimensi vektor kata Word2Vec diwakili oleh variabel d. Vektor satu- panas vw dari sebuah kata w dikalikan dengan matriks Memb untuk menghasilkan vektor kata-kata. Variabel embedding adalah fungsi dari persamaan (2.3).

(2.3)

Persamaan untuk mendapatkan vektor dokumen dituliskan melalui (2.4) ^∑ (2.4)

Nilai vektor dokumen untuk dimensi ke- i. disimpan dalam variabel embi. Jumlah kata dalam dokumen diwakili oleh variabel n. vij adalah elemen ke- i dari konten representasi vektor kata ke- j. Sebagai model representasi dari setiap dokumen jawaban dan kunci jawaban, diperoleh dokumen vektor vdoc = [emb1, emb2, emb3, …, embd] dari (2.4). (Rahutomo dkk., 2019).

Prinsip kerja model Word2Vec yaitu memprediksi arti dari sebuah kata berlandaskan peluang kemunculannya pada bacaan (Ii and Teori 2019). Word2Vec

(36)

pula sanggup menerapkan asosiasi untuk melihat hubungan satu kata dengan kata lain menurut persamaan kemunculannya (Nurdin et al. 2020). Tujuan dan keuntungan Word2Vec adalah mengelompokkan vektor dari kata-kata yang sebanding dalam ruang vektor. Word2Vec adalah program yang menghasilkan representasi numerik vektor dari karakteristik kata. Data Word2Vec secara andal memprediksi arti kata berdasarkan riwayat kemunculannya saat tersedia cukup data. Prediksi ini dapat digunakan untuk mengidentifikasi hubungan kata dengan istilah lain yang serupa. Laki-laki, misalnya, terkait dengan maskulin, sedangkan wanita terkait dengan feminim.

Model Skip-Gram digunakan dalam penelitian ini. Skip-Gram dapat mewakili kata-kata yang dianggap tidak biasa dan berkinerja baik dengan jumlah data pelatihan yang minimal. Menurut temuan studi (Nurdin et al. 2020), model Skip-Gram bekerja dengan baik dengan jumlah data pelatihan yang sedikit dan dapat mewakili kata-kata yang dianggap jarang.

2.12 Support vector machine

SVM merupakan metode data mining yang masuk dalam kelas supervised learning. Tujuan dari metode ini adalah untuk mencari hyperplane terbaik dari beberapa hyperplane yang ada (Styawati et al. 2021). Support vector machine termasuk model mesin learning yang cukup umum diterapkan pada klasifikasi.

Pengklasifikasian memakai Support vector machine ialah tehnik machine learning yang lumayan terkenal pada pengklasifikaisan teks dan mempunyai performa yang baik pada banyak dokoumen dan sanggup mengidentifikasikan hyperplane secara terpisah diantara 2 class yang berbeda sehingga hasilnya bisa mengoptimalkan jarak antara data yang sangat dekat dengan hyperplane (Arsi and Waluyo 2021).

Klasifikasi dengan mencari hyperplane ataupun garis pembatas (decision boundary) yang memisahkan kelas dengan kelas lain, Support vector machine menerapkan pencarian nilai hyperplane dengan memakai support vector dan nilai margin. Support vector machine ialah salah satu algoritma supervised machine learning yang banyak digunakan untuk polaritas teks (M. Ahmad, Aftab, and Ali 2017).

(37)

Dengan mengukur margin hyperplane dan menemukan titik maksimum, hyperplane pemisah yang optimal antara dua kelas dapat ditemukan. Margin adalah jarak antara hyperplane dan pola terdekat kelas (Styawati et al. 2021).

Vektor pendukung adalah pola terdekat. Hyperplane optimal, ditunjukkan sebagai garis padat pada Gambar 2.2, diposisikan tepat di tengah-tengah dua kelas, sedangkan titik merah dan kuning pada lingkaran hitam mewakili vektor pendukung. Teknik pembelajaran Support vector machine berkisar pada menemukan lokasi hyperplane ini.

Gambar 2. 2 SVM Hyperplane Berupaya Untuk Memisahkan Kedua Class Terbaik -1 dan +1 (Dharmawan, Rachmad (2021)

konsep SVM dapat diringkas sebagai upaya untuk menemukan hyperplane optimal yang berfungsi sebagai pemisah antara dua kelas di ruang input. Gambar 2.2 menggambarkan dua pola yang termasuk dalam kelas yang sama: +1 dan -1.

Merah (kotak) mewakili pola di kelas -1, sedangkan kuning mewakili pola di kelas +1. (lingkaran). Tantangan klasifikasi dapat ditangani dengan menempatkan hyperplane yang membagi dua kelompok. Gambar 2.2 menggambarkan banyak garis pemisah yang berbeda (batas diskriminasi). Menurut Vapnik dan Cortes (1995), klasifikasi linear hyperplane SVM menghasilkan persamaan:

[( ) ] [( ) ]

dengan,

x

i = kumpulan data latih, i = 1,2,...n dan y_i = label kelas dari x_i Untuk menemukan hyperplane terbaik, cari hyperplane yang berada di tengah-tengah