• Tidak ada hasil yang ditemukan

BAB IV HASIL DAN PEMBAHASAN

4.9 Implementasi

4.9.2 Praktis

a. Pengumpulan dan preprocessing data

Data yang di dapat dari kaggle mencakup tweet-tweet yang mengandung sentimen atau opini pengguna terkait layanan GoFood. Kemudian, dilakukan preprocessing pada data seperti membersihkan teks dari karakter yang tidak relevan yaitu menghilangkan simbol, emoji, hastag (#), username, white space, dan URL, mengubah teks menjadi huruf kecil, melakukan tokenisasi untuk memecah teks menjadi kata – kata, menghapus kata yang tidak memiliki makna penting, dan menghapus kata imbuhan ke bentuk kata dasar. Penelitian ini melakukan perbandingan pada preprocessing dengan stemming dan tanpa stemming.

b. Labelling dan oversampling

Dari data yang sudah dilakukan preprocessing, selanjutnya pemberian label secara otomatis menggunakan model RoBERTa yang telah dilatih sebelumnya dan menghasilkan akurasi yang baik. Pada penelitian ini melakukan perbandingan labelling multiclass dan binaryclass. Setelah didapat jumlah setiap labelnya, ternyata terjadi imbalaced dimana

jumlah tweet dalam setiap label dalam dataset tidak seimbang secara proporsional. Maka perlu dilakukan tahap oversampling, oversampling adalah penambahan data dari kelas minoritas ke dalam data training secara acak. Proses penambahan ini diulang sampai jumlah data kelas minoritas sama dengan jumlah mayoritas.

c. Pembagian data

Selanjutnya, pembagian data menjadi dua yaitu data training 80% dan data testing 20% dari dataset secara acak. Data training untuk melatih model CNN dan data testing untuk menguji kinerja model yang terlatih.

Pembagian ini dilakukan menggunakan K-fold Cross Validation sebanyak 5 kali. K-fold cross validation dapat mengatasi ternjadinya overfitting, overfitting adalah suatu keadaan dimana data yang digunakan pada data training memiliki prediksi yang terlalu baik namun prediksinya buruk pada data testing.

d. Representasi teks

Selanjutnya, dilakukan representasi teks menggunakan metode Word2Vec untuk mengubah teks menjadi representasi vektor numerik yang dapat di proses oleh model CNN.

e. Model Convolutional Neural Network (CNN)

Mulailah dengan merancang arsitektur model CNN. Model CNN terdiri dari beberapa layer yaitu layer embedding, convolutional layer, pooling layer, dan fully connected layer. Layer embedding digunakan untuk mengubah kata menjadi vektor, convolutional layer digunakan untuk mengekstraksi fitur – fitur penting dari teks. Pada penelitian ini

menggunakan convolutional layer dengan 128 filters dan 64 filters dengan 5 kernel size, dan fungsi aktivasi ReLU. ReLU digunakan untuk mengenalkan nonlinieritas dan meningkatkan representasi dari model.

Selanjutnya pooling layer digunakan untuk mengurangi dimensi data bertujuan mengambil nilai terbaik menggunakan GlobalMaxPooling.

Kemudian fully connected layer digunakan untuk menghubungkan hasil ekstraksi fitur dengan layer output untuk klasifikasi sentimen.

Menggunakan hidden layer sebanyak 64 menggunakan fungsi aktivasi ReLU, selanjutnya hidden layer sebanyak 3 sesuai dengan jumlah label dengan menggunakan fungsi aktivasi softmax. Softmax digunakan untuk mendapatkan hasil klasifikasi.

f. Pengujian model

Model yang sudah dibangun, selanjutnya dilakukan pengujian dimana parameter yang digunakan yaitu drop out. Pada penelitian ini menggunakan parameter drop out 50% dan tanpa drop out, dengan mengubah nilai epoch yaitu epoch 10, epoch 20, dan epoch 30 menggunakan optimizer = ‘adam’ dengan nilai learning rate 0,001.

Pengujian model ini akan dilakukan pada multiclass dan binaryclass dengan stemming dan tanpa stemming. Setelah dilakukan pengujian model dengan parameter drop out, ternyata drop out mencegah terjadinya overfitting dan mempengaruhi tingkat akurasi dan loss.

g. Evaluasi model

Setelah dilakukannya pengujian, maka didapatlah akurasi data train dan akurasi data test.pada penelitian ini mengambil akurasi data test yang

tertinggi pada multiclass dan binaryclass dengan stemming dan tanpa stemming. Masuklah ke tahap evaluasi kinerja model CNN menggunakan metode confusion matrix meliputi precision, recall, f1- score, dan accurary.

1. Pada multiclass dengan semming

Gambar 4.11 Hasil Akurasi CNN pada Multiclass dengan Stemming

Berdasarkan gambar 4.11 menunjukkan akurasi menggunakan CNN pada multiclass dengan stemming sebesar 51%. Selanjutnya nilai precision dan recall di setiap kelas klasifikasi yang berbeda – beda.

Precision pada kelas negatif sebesar 59%, kelas netral sebesar 45%, dan kelas positif sebesar 61%. Nilai precision menunjukkan proporsi label yang diprediksi benar dari total prediksi cukup besar untuk kelas positif. Sedangkan recall pada kelas negatif sebesar 48%, kelas netral sebesar 79%, dan kelas positif sebesar 27%. Ini menunjukkan kemampuan sistem dalam menemukan kembali informasi yang bernilai netral dalam dokumen tinggi dibanding informasi kembali bernilai positif dan negatif.

2. Pada multiclass tanpa stemming

Gambar 4.12 Hasil akurasi CNN pada Multiclass Tanpa Stemming Berdasarkan gambar 4.12 menunjukkan akurasi menggunakan CNN pada multiclass dengan stemming sebesar 49%.

3. Pada binaryclass dengan stemming

Pada gambar 4.13 menunjukkan bahwa model confusion matrix ini berupa matrix dengan ukuran 2 x 2 yang menyatakan setiap kelas klasifikasi positif dan negatif. Model confusion matrix menunjukkan bahwa secara benar sebanyak 3.342 data sebagai positif dan 2.300 sebagai data negatif. Selain itu model salah dalam memprediksi 582 data ke dalam kelas positif yang seharusnya negatif (False Negative), serta model menyatakan 1.624 data yang salah dalam kelas negatif yang seharusnya positif (False Positive).

Gambar 4.13 Confuion Matrix

Gambar 4.14 Hasil Akurasi CNN pada Binaryclass dengan Stemming

Berdasarkan gambar 4.14 menunjukkan akurasi menggunakan CNN pada multiclass dengan stemming sebesar 72%. Selanjutnya nilai precision dan recall di setiap kelas klasifikasi yang berbeda – beda.

Precision pada kelas negatif sebesar 80%, dan kelas positif sebesar 67%. Nilai precision menunjukkan proporsi label yang diprediksi benar dari total prediksi cukup besar untuk kelas negatif. Sedangkan recall pada kelas negatif sebesar 59%, dan kelas positif sebesar 85%.

Ini menunjukkan kemampuan sistem dalam menemukan kembali informasi yang bernilai positif dalam dokumen tinggi dibanding informasi kembali bernilai negatif.

4. Pada binaryclass tanpa stemming

Gambar 4.15 Hasil Akurasi CNN pada Binaryclass Tanpa Stemming

Berdasarkan gambar 4.15 menunjukkan akurasi menggunakan CNN pada binaryclass dengan stemming sebesar 70%.

Evaluasi dari model CNN dengan stemming dan tanpa stemming dapat disimpulkan bahwa dengan stemming akurasi lebih baik dibanding tanpa stemming. Dengan tahap stemming kata – kata yang dinormalisasi model CNN dapat lebih fokus pada arti kata dasar dan mempelajari pola – pola sentimen yang lebih konsisten, dapat mengurangi dimensi data yang diperlukan dan kompleksitas model, membantu meningkatkan representasi kata dalam dataset.

BAB V

KESIMPULAN DAN SARAN 5.1 Kesimpulan

Penelitian ini telah dilakukan perhitungan dan pembangunan model menggunakan algoritma Convolutional Neural Network mengenai sentimen masyarakat tentang layanan GoFood pada media sosial Twitter. Berdasarkan hasil dari penelitian dan pembahasan yang telah dilakukan maka dapat diambil kesimpulan sebagai berikut:

1. Algoritma Convolutional Neural Network merupakan pengklasifikasi yang bekerja dengan mengambil keuntungan dari pola konvolusi untuk memproses data dan mampu mengekstraksi fitur – fitur yang relevan secara otomatis. CNN terdapat proses embedding, konvolusi, global max pooling, fully connected. Pada eksperimen yang dilakukan, pada multiclass menunjukkan bahwa kelas netral 40,74%, kelas positif 38,07%, dan kelas negatif 21,19%. Artinya tanggapan netral masyarakat lebih besar dari tanggapan positif, dan tanggapan positif lebih besar daripada tanggapan negatif. Sedangkan pada binaryclass menunjukkan bahwa kelas positif 68,29% dan kelas negatif 31,71%. Ini menunjukkan bahwa tanggapan positif masyarakat lebih besar dari pada tanggapan negatif.

2. Pada pengujian terdapat perbedaan antara akurasi yang dihasilkan dari multiclass dan binaryclass dengan stemming dan tanpa stemming menggunakan algoritma Convolutional Neural Network. dimana pada multiclass dengan stemming menghasilkan akurasi sebesar 51%, dan

tanpa stemming memberikan akurasi sebesar 49%. Sedangkan pada binaryclass dengan stemming menghasilkan akurasi sebesar 72%, dan tanpa stemming memberikan akurasi sebesar 70%. Ada beberapa faktor yang mempengaruhi tingkat akurasi dalam penelitian ini diantaranya adalah penggunaan bahasa yang tidak baku, dan penggunaan bahasa yang singkat.

5.2 Saran

Berdasarkan penelitian yang telah dilakukan, ada beberapa saran yang dapat dipertimbangkan dalam pengembangan selanjutnya:

1. Memperbanyak jumlah dataset yang digunakan agar sistem dapat belajar lebih baik.

2. Diperlukan pengecekan prepocessing pada Stemming, dan stopword removal agar data yang dihasilkan baik serta saat proses pengujian tidak ada data yang tidak dikenali oleh sistem yang dapat berpengaruh terhadap hasil prediksi.

3. Sebaiknya dilakukan pengecekan secara berkala secara manual terhadap dataset yang akan digunakan pada saat pengujian data training dan data testing sehingga data tersebut bersih dari noise.

4. Menggunakan standar bahasa indonesia dalam menentukan sebuah teks adalah sebuah opini bernilai positif, negatif, dan netral.

5. Eksperimen untuk memperbaiki bagian data di preprocessing.

DAFTAR PUSTAKA

Agsar Dwi Anggoro, R. et al. (2021) Analisis Sentimen Terkait Layanan GoFood dan Grabfood pada Media Sosial Twitter Menggunakan Algoritma Support Vector Machine (SVM), Seminar Nasional Mahasiswa Ilmu Komputer dan Aplikasinya (SENAMIKA) Jakarta-Indonesia.

Arrofiqoh, E.N. and Harintaka, H. (2018) ‘IMPLEMENTASI METODE CONVOLUTIONAL NEURAL NETWORK UNTUK KLASIFIKASI TANAMAN PADA CITRA RESOLUSI TINGGI’, GEOMATIKA, 24(2), p.

61. Available at: https://doi.org/10.24895/jig.2018.24-2.810.

Ganganwar, V. (2012) An overview of classification algorithms for imbalanced datasets, International Journal of Emerging Technology and Advanced Engineering Website: www.ijetae.com. Available at: www.ijetae.com.

Hasan Badjrie, S., Pratiwi, O.N. and Anggana, H.D. (2021) ANALISIS SENTIMEN REVIEW CUSTOMER TERHADAP PRODUK INDIHOME DAN FIRST MEDIA MENGGUNAKAN ALGORITMA CONVOLUTIONAL NEURAL NETWORK REVIEW ANALYSIS SENTIMENT CUSTOMER PRODUCT INDIHOME AND FIRST MEDIA USING CONVOLUTIONAL NEURAL NETWORK ALGORITHM.

Hidayat, E.Y., Hardiansyah, R.W. and Affandy, A. (2021) ‘Analisis Sentimen Twitter untuk Menilai Opini Terhadap Perusahaan Publik Menggunakan Algoritma Deep Neural Network’, Jurnal Nasional Teknologi dan Sistem Informasi, 7(2), pp. 108–118. Available at:

https://doi.org/10.25077/teknosi.v7i2.2021.108-118.

Hidayatul Qudsi, D. et al. (2019) ‘ANALISIS SENTIMEN PADA DATA SARAN MAHASISWA TERHADAP KINERJA DEPARTEMEN DI PERGURUAN TINGGI MENGGUNAKAN CONVOLUTIONAL NEURAL NETWORK’, Jurnal teknologi Informasi dan Ilmu Komputer (JTIIK), 8(5), pp. 1067–1076.

Available at: https://doi.org/10.25126/jtiik.202184842.

Irawan, F.A. and Rochmah, D.A. (2022) ‘Penerapan Algoritma CNN Untuk Mengetahui Sentimen Masyarakat Terhadap Kebijakan Vaksin Covid-19’,

JURNAL INFORMATIKA, 9(2). Available at:

http://ejournal.bsi.ac.id/ejurnal/index.php/ji.

Irawan, F.R., Jazuli, A. and Khotimah, T. (2022) ‘ANALISIS SENTIMEN

TERHADAP PENGGUNA GOJEK MENGGUNAKAN METODE K-

NEARSET NEIGHBORS’, Jurnal Informatika dan Komputer) Akreditasi KEMENRISTEKDIKTI, 5(1). Available at: https://doi.org/10.33387/jiko.

Juwiantho, H. et al. (2020) ‘SENTIMENT ANALYSIS TWITTER BAHASA INDONESIA BERBASIS WORD2VEC MENGGUNAKAN DEEP CONVOLUTIONAL NEURAL NETWORK’, Teknologi Informasi dan Ilmu Komputer, 7(1), pp. 181–188. Available at:

https://doi.org/10.25126/jtiik.202071758.

Khatami, F.A. et al. (2020) ANALISIS SENTIMEN TERHADAP REVIEW APLIKASI LAYANAN E-COMMERCE MENGGUNAKAN METODE CONVOLUTIONAL NEURAL NETWORK SENTIMENT ANALYSIS OF E- COMMERCE APPLICATION REVIEWS USING THE CONVOLUTIONAL NEURAL NETWORK METHOD.

LeCun, Y., Bengio, Y. and Hinton, G. (2015) ‘Deep Learning’, Nature, 521(7553), pp. 436–444. Available at: https://doi.org/10.1038/nature14539.

Listyarini, S.N. and Anggoro, D.A. (2021) ‘Analisis Sentimen Pilkada di Tengah Pandemi Covid-19 Menggunakan Convolution Neural Network (CNN)’, Jurnal Pendidikan dan Teknologi Indonesia, 1(7), pp. 261–268. Available at:

https://doi.org/10.52436/1.jpti.60.

Liu, Y. et al. (2019) ‘RoBERTa: A Robustly Optimized BERT Pretraining Approach’. Available at: http://arxiv.org/abs/1907.11692.

Mikolov, T., Yih, W.-T. and Zweig, G. (2013) Linguistic Regularities in Continuous Space Word Representations. Association for Computational Linguistics. Available at: http://research.microsoft.com/en-.

Parameswari, P.L. and Prihandoko (2022) ‘PENGGUNAAN CONVOLUTIONAL NEURAL NETWORK UNTUK ANALISIS SENTIMEN OPINI LINGKUNGAN HIDUP KOTA DEPOK DI TWITTER’, Jurnal Ilmiah Teknologi dan Rekayasa, 27(1), pp. 29–42. Available at:

https://doi.org/10.35760/tr.2022.v27i1.4671.

Petiwi, M.I., Triayudi, A. and Sholihati, I.D. (2022) ‘Analisis Sentimen GoFood Berdasarkan Twitter Menggunakan Metode Naïve Bayes dan Support Vector Machine’, JURNAL MEDIA INFORMATIKA BUDIDARMA, 6(1), p. 542.

Available at: https://doi.org/10.30865/mib.v6i1.3530.

Rizki, A. and Sibaroni, Y. (2021) ANALISIS SENTIMEN UNTUK PENGUKURAN TINGKAT DEPRESI PENGGUNA TWITTER MENGGUNAKAN DEEP LEARNING.

Sonak, A. and Patankar, R.A. (2015) International Journal of Computer Science and Mobile Computing A Survey on Methods to Handle Imbalance Dataset, International Journal of Computer Science and Mobile Computing. Available at: www.ijcsmc.com.

Tri Hermanto, D., Setyanto, A. and Luthfi, E.T. (2021) ‘Algoritma LSTM-CNN untuk Sentimen Klasifikasi dengan Word2Vec pada Media Online LSTM- CNN Algorithm for Sentiment Clasification with Word2Vec On Online Media’, Citec journal, 8(1), pp. 2354–5771.

Vaswani, A. et al. (2017) ‘Attention Is All You Need’. Available at:

http://arxiv.org/abs/1706.03762.

Wolf, T. et al. (no date) Transformers: State-of-the-Art Natural Language Processing. Available at: https://github.com/huggingface/.

Xia, W. et al. (2019) ‘High-resolution remote sensing imagery classification of imbalanced data using multistage sampling method and Deep Neural Networks’, Remote Sensing, 11(21). Available at:

https://doi.org/10.3390/rs11212523.

LAMPIRAN

Lampiran 1 Arsitektur Model CNN

Arsitektur CNN Parameter Tanpa Drop Out

Arsitektur CNN Parameter dengan Drop Out

Lampiran 2 Evaluasi pada Multiclass dengan Stemming

Epoch 10 Tanpa Drop Out Epoch 20 Tanpa Drop Out Epoch 30 Tanpa Drop Out

Epoch 10 dengan Drop Out Epoch 20 dengan Drop Out Epoch 30 dengan Drop Out

Lampiran 3 Accuracy dan Loss pada Multiclass dengan Stemming #1

Epoch 10 dan Tanpa Drop Out Epoch 20 dan Tanpa Drop Out Epoch 30 dan Tanpa Drop Out

Lampiran 4 Accuracy dan Loss pada Multiclass dengan Stemming #2

Epoch 10 dan dengan Drop Out Epoch 20 dan dengan Drop Out Epoch 30 dan dengan Drop Out

Lampiran 5 Evaluasi pada Multiclass Tanpa Stemming

Epoch 10 Tanpa Drop Out Epoch 20 Tanpa Drop Out Epoch 30 Tanpa Drop Out

Epoch 10 dengan Drop Out Epoch 20 dengan Drop Out Epoch 30 dengan Drop Out

Lampiran 6 Accuracy dan Loss pada Multiclass Tanpa Stemming #1

Epoch 10 dan Tanpa Drop Out Epoch 20 dan Tanpa Drop Out Epoch 30 dan Tanpa Drop Out

Lampiran 7 Accuracy dan Loss pada Multiclass Tanpa Stemming #2

Epoch 10 dan dengan Drop Out Epoch 20 dan dengan Drop Out Epoch 30 dan dengan Drop Out

Lampiran 8 Evaluasi pada Binaryclass dengan Stemming

Epoch 10 Tanpa Drop Out Epoch 20 Tanpa Drop Out Epoch 30 Tanpa Drop Out

Epoch 10 dengan Drop Out Epoch 20 dengan Drop Out Epoch 30 dengan Drop Out

Lampiran 9 Accuracy dan Loss pada Binaryclass dengan Stemming #1

Epoch 10 Dan Tanpa Drop Out Epoch 20 Dan Tanpa Drop Out Epoch 30 Dan Tanpa Drop Out

Lampiran 10 Accuracy dan Loss pada Binaryclass dengan Stemming #2

Epoch 10 dan dengan Drop Out Epoch 20 dan dengan Drop Out Epoch 30 dan dengan Drop Out

Lampiran 11 Evaluasi pada Binaryclass Tanpa Stemming

Epoch 10 Tanpa Drop Out Epoch 20 Tanpa Drop Out Epoch 30 Tanpa Drop Out

Epoch 10 dengan Drop Out Epoch 20 dengan Drop Out Epoch 30 dengan Drop Out

Lampiran 12 Accuracy dan Loss pada Binaryclass Tanpa Stemming #1

Epoch 10 dan Tanpa Drop Out Epoch 20 dan Tanpa Drop Out Epoch 30 dan Tanpa Drop Out

Dokumen terkait