• Tidak ada hasil yang ditemukan

Analisis Sentimen terhadap Peluang Kerja di Indonesia selama Masa Pandemi COVID-19 dengan Metode Klasifikasi Naive Bayes

N/A
N/A
Protected

Academic year: 2023

Membagikan "Analisis Sentimen terhadap Peluang Kerja di Indonesia selama Masa Pandemi COVID-19 dengan Metode Klasifikasi Naive Bayes"

Copied!
4
0
0

Teks penuh

(1)

JURNAL MEDIA INFORMATIKA BUDIDARMA

Volume 6, Nomor 2, April 2022, Page 1234-1237

ISSN 2614-5278 (media cetak), ISSN 2548-8368 (media online)

Available Online at https://ejurnal.stmik-budidarma.ac.id/index.php/mib DOI: 10.30865/mib.v6i2.3972

Mohammad Aldinugroho Abdullah, Copyright © 2022, MIB, Page 1234 Submitted: 30/03/2022; Accepted: 24/04/2022; Published: 25/04/2022

Analisis Sentimen terhadap Peluang Kerja di Indonesia selama Masa Pandemi COVID-19 dengan Metode Klasifikasi Naive Bayes

Mohammad Aldinugroho Abdullah*, Deni Mahdiana

Fakultas Teknologi Informasi, Magister Ilmu Komputer, Universitas Budi Luhur, Jakarta, Indonesia Email: 1,*[email protected], 2[email protected]

Email Penulis Korespondensi: [email protected]

Abstrak−Dampak dari adanya pandemi COVID-19 sangatlah luas, salah satunya dalam sektor bisnis. Hal tersebut mengakibatkan adanya dampak pada peluang kerja selama masa pandemi COVID-19 ini di Indonesia. Penelitian ini bertujuan untuk melakukan pembelajaran mendalam terkait peluang kerja di Indonesia selama masa pandemi COVID-19 dengan model Naive Bayes. Sumber data yang digunakan berasal dari Twitter. Hasil pada penelitian ini menunjukkan skor AUC terbesar jatuh kepada model Random Forest (79.40%), namun untuk presisi yang lebih akurat jatuh kepada model Naive Bayes (87.88%).

Selain itu, terdapat confusion matrix menunjukkan bahwa uji coba model Naive Bayes yang dilakukan berjalan dengan baik.

Kata Kunci: COVID-19; Peluang Kerja; Analisis Sentimen; Naive Bayes; Twitter

Abstract−The impact of the COVID-19 pandemic is very broad, one of which is in the business sector. This has resulted in an impact on job opportunities during the COVID-19 pandemic in Indonesia. This study aims to conduct in-depth learning related to job opportunities in Indonesia during the COVID-19 pandemic using the Naive Bayes model. The data source used comes from Twitter. The results of this study indicate that the largest AUC score falls to the Random Forest model (79.40%), but for more accurate precision falls to the Naive Bayes model (87.88%). In addition, there is a confusion matrix which shows that the Naive Bayes model trial is running well.

Keywords: COVID-19; Job Opportunities; Sentiment Analysis; Naïve Bayes; Twitter

1. PENDAHULUAN

Pandemi COVID-19 memiliki dampak yang cukup besar pada sektor bisnis di Indonesia. Selain itu, terdapat juga yang masih menerapkan kerja di tempat (on-site) namun dengan ketentuan pembatasan pada skala tertentu [1].

Sehingga, dengan adanya fenomena ini, perusahaan di Indonesia banyak yang telah melakukan inovasi terhadap bisnisnya. Dampak yang lebih signifikan pada suatu perusahaan selama masa pandemi COVID-19 ini terjadi pada sisi pegawai perusahaan. Dengan adanya penurunan pendapatan suatu perusahaan, maka suatu perusahaan akan melakukan pemangkasan terhadap biaya yang dikeluarkan untuk menjalankan bisnisnya. Salah satu cara yang dilakukan adalah dengan melakukan pembatasan terhadap penambahan jumlah pegawai [2] Hal tersebut tentunya sangat berdampak luas, terutama pada golongan masyarakat, sehingga tingkat peluang kerja pada masa sulit ini dipertanyakan. Maka dari itu, diperlukan sebuah peneltian yang mengangkat permasalahan ini. Saat ini, masyarakat menjadikan media sosial sebagai wadah bagi mereka untuk mengekspresikan pendapat terkait pandemi COVID- 19, salah satunya adalah Twitter [3]. Twitter merupakan media sosial yang cukup lengkap, karena pada Twitter terdapat opini yang variatif dan sesuai dengan bidangnya masing-masing, seperti berita harian, politik, pendidikan, dan bahkan bisnis. Pada penelitian ini, akan melakukan pembelajaran mendalam terkait peluang kerja di Indonesia selama masa pandemi COVID-19. Penelitian ini dilakukan dengan menggunakan teknik analisis sentimen. Data yang digunakan pada penelitian ini bersumber dari Twitter. Model yang digunakan adalah metode klasifikasi Naive Bayes. Selain itu, dilakukan perbandingan model lainnya, yaitu Random Forest dan Decision Tree. Berdasarkan latar belakang masalah, penelitian ini memiliki tiga acuan yang bersumber pada penelitian sebelumnya. Yang pertama adalah penelitian yang dilakukan oleh Sukma, Hidayanto, Pandesenda, Yahya, Widharto, dan Rahardja pada tahun 2020. Penelitian ini berfokus pada kebijakan pemerintah mengenai Omnibus Law (UU Cipta Kerja).

Penelitian ini menggunakan model Support Vector Machine (SVM). Penelitian ini mengklasifikasikan ulasan pada kebijakan dalam omnibus law, yaitu terkait meningkatkan UKM, administrasi, pengadaan lahan, ketenagakerjaan, perizinan dan investasi, inovasi, dan perpajakan. Hasil penelitian menunjukkan bahwa topik yang berkaitan dengan ketenagakerjaan adalah topik yang paling banyak menerima ulasan dan negatif dari publik, sementara penelitian dan inovasi topik yang paling sedikit diulas oleh publik [4]. Untuk acuan yang kedua adalah penelitian yang dilakukan oleh Nurdeni, Budi, dan Santoso pada tahun 2021. Penelitian ini bertujuan untuk melakukan analisis sentimen terhadap jenis vaksin Sinovac dan Pfizer di platform Twitter. Dataset pada penelitian ini dibagi menjadi dua jenis: Sinovac dan kumpulan data Pfizer. Kedua set data diberi label secara manual menjadi tiga kelas, yaitu positif, negatif, dan netral. Hasil penelitian menunjukkan bahwa 77% Tweet menunjukkan segmen positif, sementara 19% mewakili negatif, dan 4% netral untuk Sinovac. Dari sudut pandang Pfizer, hasilnya adalah 81%, 17%, dan 3% untuk positif, negatif, dan netral. Akurasi rata-rata tertinggi dalam dataset Sinovac adalah Support Vector Machine dengan akurasi 85%. Untuk Support Vector Machine memiliki nilai akurasi yang unggul sebesar 78% [5]. Untuk acuan yang ketiga adalah penelitian yang dilakukan oleh Nurmawiya dan Harvian pada tahun 2021. Penelitian ini berfokus pada opini masyarakat mengenai pembelajaran tatap muka selama masa pandemi.

Penelitian ini bertujuan untuk menganalisis sentimen publik dengan memanfaatkan data Twitter. Latent Dirichlet Allocation (LDA) juga dilakukan dalam penelitian ini untuk mengklasifikasikan opini publik. Hasil pada penelitian

(2)

JURNAL MEDIA INFORMATIKA BUDIDARMA

Volume 6, Nomor 2, April 2022, Page 1234-1237

ISSN 2614-5278 (media cetak), ISSN 2548-8368 (media online)

Available Online at https://ejurnal.stmik-budidarma.ac.id/index.php/mib DOI: 10.30865/mib.v6i2.3972

Mohammad Aldinugroho Abdullah, Copyright © 2022, MIB, Page 1235 Submitted: 30/03/2022; Accepted: 24/04/2022; Published: 25/04/2022 ini menunjukkan bahwa pembelajaran tatap muka menjadi sorotan percakapan publik dan didominasi oleh sentimen negatif, diikuti oleh sentimen netral dan positif. Sedangkan model LDA menghasilkan topik tentang vaksinasi, preferensi publik, pembukaan kembali sekolah, sentimen publik, kerinduan siswa terhadap pembelajaran tatap muka dan rencana pembelajaran tatap muka [6].

2. METODOLOGI PENELITIAN

Pada penelitian ini terdapat sejumlah alur kerja yang akan dilakukan dengan menggunakan teknik analisis sentimen. Alur kerja yang digunakan merupakan framework yang pada umumnya digunakan pada teknik analisis sentimen. Pada Gambar 1 merupakan alur kerja terkait penelitian yang akan dilakukan dengan melakukan pengumpulan data pada twitter.

Gambar 1. Alur Kerja Penelitian

Tahap pengumpulan data dalam penelitian ini menggunakan teknik crawling. Teknik ini memanfaatkan API pada Twitter, sehingga akan didapatkan data tweet berdasarkan kata kunci tertentu. Data yang dikumpulkan adalah data tweet sepanjang tahun 2021. Pada dasarnya teknik ini memiliki alur yang sama dengan fitur pencarian pada website Twitter di browser [7]. Hasil yang diperoleh pada tahap ini adalah file tweet dengan 3000 data tweet.

Khusus untuk tahap pre-processing, merupakan tahap yang cukup sulit untuk dilakukan. Tidak hanya pada penelitian ini, sebagian besar penelitian sejenis menggunakan banyak waktu untuk tahap ini. Ada beberapa tahapan yang dilakukan dalam pre-processing, antara lain tokenizing, stop word removal, dan bag of words [8]. Pada tahap Tokenizing, tanda baca dan URL dihapus. Selain itu, pemisahan kata dilakukan sehingga menjadi kata tersendiri (satu kata). Untuk Stop Word Removal berfungsi untuk menghilangkan kata-kata yang tidak terlalu penting [9].

Dan untuk tahap Bag of Words dilakukan perubahan dokumen ke dalam bentuk vektor, yang memiliki nilai referensi dari 0 sampai 1. Dapat dikatakan bahwa pada tahap ini terdapat proses mining untuk setiap kata dalam setiap tweet [10]. Setelah dilakukan beberapa tahap pre-processing, data tersebut dibagi menjadi dua, dengan bobot 70% untuk data train, dan 30% untuk data test [11]. Untuk tahap selanjutnya merupakan tahap klasifikasi dengan menggunakan Naive Bayes [12]. Yang dilanjutkan dengan melakukan perbandingan model, yaitu dengan model Random Forest dan Decision Tree. Tahap akhir tersebut terdapat di bagian hasil dan pembahasan.

3. HASIL DAN PEMBAHASAN

Dilakukan evaluasi terhadap model Naive Bayes beserta perbandingannya, Decision Tree dan Random Forest.

Evaluasi yang dilakukan menggunakan model Hold Out. Pada model Hold Out, terdapat skor akurasi, presisi, recall, F1, dan AUC [13]. Pada Tabel 1 terdapat hasil yang telah didapatkan pada pengujian model.

Tabel 1. Perbandingan Evaluasi Model

Model Acc Prec Recall F1 AUC

Naïve Bayes 74.00% 87.88% 71.70% 78.97% 75.03%

Decision Tree 82.00% 85.03% 83.02% 89.90% 78.33%

Random Forest 87.66% 84.00% 99.66% 93.83% 79.40%

Berdasarkan tabel perbandingan, model Random Forest memiliki skor AUC yang terbaik, yaitu sebesar 79.40%. Untuk urutan selanjutnya yaitu Decision Tree, dengan skor AUC sebesar 74.15%. Dan skor AUC yang terkecil merupakan Naive Bayes, yaitu sebesar 75.03%. Namun untuk skor presisi (precision) Naive Bayes memiliki skor yang terbesar. Hal tersebut berlaku karenakan pada Naive Bayes pada dasarnya memiliki keunggulan

Pengumpulan Data Twitter

Label Dataset

Pre-Processing

Bagi dataset menjadi data test dan data train

Data di klasifikasi menggunakan Naive Bayes

(3)

JURNAL MEDIA INFORMATIKA BUDIDARMA

Volume 6, Nomor 2, April 2022, Page 1234-1237

ISSN 2614-5278 (media cetak), ISSN 2548-8368 (media online)

Available Online at https://ejurnal.stmik-budidarma.ac.id/index.php/mib DOI: 10.30865/mib.v6i2.3972

Mohammad Aldinugroho Abdullah, Copyright © 2022, MIB, Page 1236 Submitted: 30/03/2022; Accepted: 24/04/2022; Published: 25/04/2022 yang baik untuk melakukan klasifikasi [14]. Pada Gambar 2 terdapat grafik pada jumlah tweet dengan sentimennya masing-masing, yaitu positive dan negative. Untuk positif berjumlah 2248, dan untuk negatif berjumlah 751.

Gambar 2. Grafik Sentimen pada Dataset

Pada penelitian ini, disajikan hasil terakit topik yang paling banyak dibahas oleh publik di Twitter.

Tentunya, topik tersebut merupakan peluang kerja di Indonesia selama masa pandemi COVID-19. Pada Gambar 3, disajikan grafik untuk lima topik terbanyak yang ada pada hasil penelitian ini.

Gambar 3. Hasil Topik Teratas

Perhitungan topik yang berasal dari kata didapatkan melalui tahap Stop Word Removal [15]. Untuk topik yang paling banyak disebutkan pada dataset, merupakan kata ‘kuliah’ dengan jumlah 3285 kata. Untuk urutan kedua, yaitu kata ‘lulus’ dengan jumlah 3031 kata. Selanjutnya diikuti oleh kata ‘orang’ dengan jumlah 617 kata,

‘kerja’ dengan jumlah 609 kata, dan ‘sedih’ dengan jumlah ‘529’ kata. Pada tahap uji coba model dengan Naive Bayes, terdapat hasil yang disajikan dalam bentuk confusion matrix [16] pada Tabel 2.

Tabel 2. Hasil Uji Coba Model Naive Bayes Model Positive Negative Positive 612 (TP) 57 (FP) Negative 105 (FN) 126 (TN)

Untuk true positive (TP) memiliki jumlah terbanyak, yaitu sebesar 612, serta true negative (TN) sebesar 126. Jumlah tersebut lebih banyak daripada false poositive (FP) dan false negative (FN), sehingga dapat dikatakan bahwa model Naive Bayes yang telah diuji pada penelitian ini berjalan dengan baik.

4. KESIMPULAN

Penelitian ini membahas terkait analisis sentimen terhadap peluang kerja di Indonesia selama masa pandemi COVID-19. Latar belakang dari adanya penelitian ini adalah terdapatnya perubahan pada proses dan manajemen bisnis perusahaan-perusahaan di Indonesia. Selain itu, kondisi perusahaan saat ini sedang mengalami masa-masa sulit, sehingga dapat memengaruhi peluang kerja di Indonesia. Terkait hal tersebut, maka dilakukan penelitian dengan topik yang terkait menggunakan analisis sentimen dengan model Naive Bayes. Data yang digunakan pada penelitian ini bersumber dari media sosial Twitter, yang mana Twitter merupakan media sosial yang paling banyak diminati untuk melakukan analisis sentimen dengan target masyarakat luas. Dengan adanya opini yang beragam, Twitter sangat baik untuk digunakan dalam melakukan analisis tersebut. Tahapan yang ada pada penelitian ini

Sedih Kerja Orang Lulus Kuliah

2000 4000

(4)

JURNAL MEDIA INFORMATIKA BUDIDARMA

Volume 6, Nomor 2, April 2022, Page 1234-1237

ISSN 2614-5278 (media cetak), ISSN 2548-8368 (media online)

Available Online at https://ejurnal.stmik-budidarma.ac.id/index.php/mib DOI: 10.30865/mib.v6i2.3972

Mohammad Aldinugroho Abdullah, Copyright © 2022, MIB, Page 1237 Submitted: 30/03/2022; Accepted: 24/04/2022; Published: 25/04/2022 antara lain crawling data, pemberian label, pre-processing, pembagian dataset, dan uji coba model serta perbandingannya dengan model lain, yakni Decision Tree dan Random Forest. Dengan adanya perbandingan tersebut, maka kita akan lebih mudah mengukur masing-masing kinerja suatu model. Crawling data dilakukan dengan memanfaatkan API Twitter. API tersebut berfungsi untuk melakukan penarikan tweet dengan parameter tertentu. Untuk pemberian label, dilakukan dengan cara melakukan klasifikasi tweet positif dan negatif. Untuk pre-processing, terdapat sejumlah tahap, yaitu tokenizing, stop word removal, dan bag of words. Setelah itu, dilakukan uji coba terhadap model Naive Bayes beserta dua model lainnya. Untuk perbandingannya, dilakukan dengan model evaluasi Hold Out. Hasil pada penelitian ini menunjukkan bahwa model Random Forest memiliki kinerja rata- rata yang terbaik jika dibandingkan dengan dua model lainnya. Namun, untuk skor presisi model Naive Bayes menempati urutan yang terbaik, yaitu sebesar 87.88%. Selain itu, dilakukan perhitungan terhadap jumlah sentimen masing-masing yang ada pada dataset. Untuk positive berjumlah 2248, dan untuk negative berjumlah 751.

Untuk topik yang paling banyak pada dataset, diambil lima yang terbanyak. Untuk kata ‘kuliah’ berjumlah 3285 kata. Untuk kata ‘lulus’ berjumlah 3031 kata. Selanjutnya diikuti oleh kata ‘orang’ bejumlah 617 kata, ‘kerja’

berjumlah 609 kata, dan ‘sedih’ berjumlah ‘529’ kata. Hasil yang terdapat pada confusion matrix menunjukkan bahwa uji coba model Naive Bayes berjalan dengan baik, dengan TP sebesar 612, dan TN sebesar 126. Jumlah tersebut jauh lebih banyak jika dibandingkan dengan FP (57) dan FN (105).

REFERENCES

[1] R. Mulaudzi and R. Ajoodha, "An Exploration of Machine Learning Models to Forecast the Unemployment Rate of South Africa: A Univariate Approach," 2020 2nd International Multidisciplinary Information Technology and Engineering Conference (IMITEC), 2020, pp. 1-7, doi: 10.1109/IMITEC50163.2020.9334090.

[2] J. Vijayan, D. A. Siby and G. P. V. Sabeen, "Impact of Covid-19 Pandemic on Recruitment Process and its Sentiment Analysis," 2021 2nd International Conference on Advances in Computing, Communication, Embedded and Secure Systems (ACCESS), 2021, pp. 270-273, doi: 10.1109/ACCESS51619.2021.9563327.

[3] Z. Tariq Soomro, S. H. Waseem Ilyas and U. Yaqub, "Sentiment, Count and Cases: Analysis of Twitter discussions during COVID-19 Pandemic," 2020 7th International Conference on Behavioural and Social Computing (BESC), 2020, pp. 1-4.

[4] E. A. Sukma, A. N. Hidayanto, A. I. Pandesenda, A. N. Yahya, P. Widharto and U. Rahardja, "Sentiment Analysis of the New Indonesian Government Policy (Omnibus Law) on Social Media Twitter," 2020 International Conference on Informatics, Multimedia, Cyber and Information System (ICIMCIS), 2020, pp. 153-158, doi:

10.1109/ICIMCIS51567.2020.9354287.

[5] D. A. Nurdeni, I. Budi and A. B. Santoso, "Sentiment Analysis on Covid19 Vaccines in Indonesia: From The Perspective of Sinovac and Pfizer," 2021 3rd East Indonesia Conference on Computer and Information Technology (EIConCIT), 2021, pp. 122-127, doi: 10.1109/EIConCIT50028.2021.9431852.

[6] Nurmawiya, & Harvian, K. A., “Public sentiment towards face-to-face activities during the COVID-19 pandemic in Indonesia”. 2021, Procedia Computer Science, 197(2021), 529–537. https://doi.org/10.1016/j.procs.2021.12.170 [7] R. Mulaudzi and R. Ajoodha, “An Exploration of Machine Learning Models to Forecast the Unemployment Rate of South

Africa: A Univariate Approach,” 2020 2nd Int. Multidiscip. Inf. Technol. Eng. Conf. IMITEC 2020, 2020

[8] S. H. Lee, Y. W. Cho, E. T. Im, and G. Y. Gim, “A Study on Customer Satisfaction Analysis of Public Institutions using Social Textmining,” Proc. - 20th IEEE/ACIS Int. Conf. Softw. Eng. Artif. Intell. Netw. Parallel/Distributed Comput.

SNPD 2019, pp. 385–394, 2019, doi: 10.1109/SNPD.2019.8935791

[9] N. Tabassum and M. I. Khan, “Design an Empirical Framework for Sentiment Analysis from Bangla Text using Machine Learning,” 2nd Int. Conf. Electr. Comput. Commun. Eng. ECCE 2019, pp. 1–5, 2019, doi:

10.1109/ECACE.2019.8679347.

[10] H. Parveen and S. Pandey, “Sentiment analysis on Twitter Data-set using Naive Bayes algorithm,” Proc. 2016 2nd Int.

Conf. Appl. Theor. Comput. Commun. Technol. iCATccT 2016, pp. 416–419, 2017, doi:

10.1109/ICATCCT.2016.7912034.

[11] R. Sermsai and S. Laohakiat, "Analysis and Prediction of Temporal Twitter Popularity Using Dynamic Time Warping,"

2019 16th International Joint Conference on Computer Science and Software Engineering (JCSSE), 2019, pp. 176-180.

[12] Guo, "Text Classification Based on Naive Bayes with Adjusted Weights via Frequency Ratio of Feature Words," 2021 International Conference on Computer Technology and Media Convergence Design (CTMCD), 2021, pp. 263- 267.

[13] Bustami, “Penerapan Algoritma Naive Bayes untuk Mengklasifikasi Data Nasabah Asuransi”, TECHSI, Jurnal Penelitian Teknik Informatika Vol. 3, pp. 127-146, 2013

[14] Han Jiawei, Michelline Kamber, and Jian Pei, “Data Mining Concepts and Techniques”, Elsevier, United States of America, pp 84-117, 2012

[15] Nasukawa, and Yi, “Classification of Local News Using the Naïve Bayes Method with the N-Gram Feature. ASIA Scientific Journal of Technology and Information (JITIKA) Vol. 10, No. 1, Februari, 2003

[16] Cvijikj, and Michahelles, “Combining Classification and Clustering for Tweet Sentiment Analysis”, Journal of Computational Linguistics and Chinese Language Processing, December, 2011

[17] Mesran, Suginam, and Dito, “Implementation of AHP and WASPAS (Weighted Aggregated Sum Product Assessment) Methods in Ranking Teacher Performance,” IJISTECH (International J. Inf. Syst. Technol., vol. 3, no. 2, pp. 173–182, 2020.

Referensi

Dokumen terkait

Peran Orang Tua Terhadap Pendidikan Anak Usia Dini Selama Belajar di Rumah Seperti yang telah dibahas dalam hasil penelitian bahwa selama masa pandemi Covid-19, metode pembelajaran