Pelita Teknologi: Jurnal Ilmiah Informatika
Pelita Teknologi: Jurnal Ilmiah Informatika,
Arsitektur dan Lingkungan
Journal homepage: jurnal.pelitabangsa.ac.id
1
ANALISIS SENTIMEN LARANGAN MUDIK DI MASA PANDEMI
COVID-19 MENGGUNAKAN METODE NAÏVE BAYES
teguh imam santoso
Program Studi Teknik Informatika, Universitas Pelita Bangsa
Jl. Inspeksi Kalimalang Tegal Danas Arah Deltamas Telp. Telp. 021 2851 8181,82,83,84. Email. [email protected].
Abstrak
Informasi Artikel
The ban on going home issued by thegovernment in the midst of the corona virus (covid-19) pandemic is currently a topic that is often discussed by the public, one of which is on social media twitter. Twitter is a social media that is often used to convey messages in the form of public opinion or opinion. Sentiment analysis is the computational study of people's opinions. Sentiment analysis will classify the text in a sentence to find out the opinions reflected in the sentence or document. This study tries to analyze public opinion regarding the prohibition against going home by classifying opinions into 2 sentiments, namely positive and negative. Classification is done using the Naive Bayes method. The Naive Bayes method is a text
classification method based on keyword probabilities in comparing training documents and test documents. The test results on the RStudio tools show that the accuracy with the TF-IDF and 10-Fold Cross Validation features gives good accuracy results. The Naive Bayes method can produce a high accuracy value of 83,06%. Overall, the use of the Naive Bayes method has a fairly good performance for classifying tweets.
Diterima: 30 juli 2021
Direvisi: 4 Agustus 2021
Dipublikasikan: 21 Maret 2019
Keywords
Sentiment Analysis, Prohibition of Homecoming, Twitter, Naive Bayes
2
I.Pendahuluan
Data komentar dari twitter ini memiliki karakteristik yang tidak terstruktur dan banyak memuat noise sehingga dibutuhkan text mining yang memiliki peran penting dalam bidang text mining. Kondisi ini dapat mengakibatkan terlewatnya informasi mengenai opini larangan mudik Lebaran 2021 di masa pandemi Covid-19 yang berguna dari sekumpulan dokumen teks tersebut. Mengetahui sentimen dari pengguna twitter secara manual dapat merugikan waktu dan tenaga. Oleh sebab itu perlu dilakukan penelitian menggunakan analisis text mining.
.
II.Metode penelitian
3.1. Objek Penelitian
Pada penelitian ini, objek penelitian yang digunakan adalah data tweet
berbahasa Indonesia yang terdapat pada media sosial Twitter. Tweet yang digunkan ialah tweet-tweet yang mengandung sentimen positif dan sentimen negatif yang diperoleh dari tanggal 6 Mei 2021 sampai 8 Mei 2021. Dari masing-masing sentimen tersebut, diambil 2000 data per sentimen sehingga total tweet yang digunakan sebagai data berjumlah 4000.
Pencarian data dilakukan dengan menggunakan dengan keyword “mudik”, kemudian pelabelan dilakukan secara otomatis yaitu menggunakan kamus
lexicon berbahasa Indonesia, tweet yang
telah dipilih kemudian disimpan ke file teks dengan format csv. Kemudian file teks tersebut digunakan sebagai input untuk diolah lebih lanjut.
Berkut contoh tweet dengan sentimen positif:
@Polres_Bwoso Sayangi keluarga kita dengan tidak mudik, masih bisa silahturahmi meskipun lewat media online. #2021SilaturahmiOnlineSaja
Berkut contoh tweet dengan sentimen negatif:
Doni: mudik secara tak langsung bunuh orang tua di kampung.
Saya: WNA masuk Indonesia secara tak langsung bunuh seluruh rakyat
Indonesia.
Goblok jangan nanggung boss!!
3.2. Tahapan Penelitian
Berikut ini flowchart yang
menunjukkan tahapan penelitian mulai dari pengumpulan data hingga diperoleh kesimpulan.
3 Gambar 3.1. Flowchart Tahapan Penelitian
Gambar 3.2. Flowchart Tahapan Penelitian (Lanjutan)
Tahapan dimulai dengan mengumpulkan data, data dikumpulkan melalui media sosial twitter dengan menggunakan keyword “mudik”,
kemudian data tersebut disimpan. Setelah itu, dilakukan preprocessing dimana tahapan-tahapan preprocessing tersebut meliputi case folding, tokenizing,
stpopword removing, dan stemming. Data
yang telah melalui tahapan preprocessing akan diberi pelabelan data secara otomatis dengan menggunakan kamus lexicon. Pelabelan data dibagi dalam tiga kelas kategori yaitu tanggapan positif,
tanggapan negatif dan tanggapan netral. Data hasil pelabelan tersebut disimpan dan dilakukan analisis untuk mengetahui persentase tanggapan positif, tanggapan negatif dan tanggapan netral dari seluruh data yang diperoleh.
Kemudian data dibagi ke dalam data latih (data training) dan data uji (data
Mulai Pengumpulan Data Data Tanggapan Pembelajaran Daring Case Folding Tokenizing Stopword Removing Stemming Pelabelan Data Tanggapan Pembelajaran Daring Data Tanggapan dengan Label Positif
dan Negatif Analisis Deskriptif A P re p ro c e s s in g Data Tanggapan Mudik Mulai A Data Training dan
Data Testing Word Cloud
Klasifikasi Naive Bayes dengan Data Training
Model Klasifikasi
Klasifikasi dengan Data Testing
Akurasi Data Testing
Implementasi
4 testing), data training digunakan untuk
melatih machine learning agar dapat bekerja dengan baik dan data testing digunakan untuk menguji kinerja machine
learning. Selain itu, data yang telah melalui
tahapan preprocessing dan pelabelan juga divisualisasikan ke dalam sebuah word
cloud.
Setelah data dibagi menjadi dua bagian yaitu data latih (data training) dan data uji (data testing), maka dilakukan klasifikasi menggunakan algoritma Naive
Bayes. Proses klasifikasi dimulai dengan
menggunakan data training sehingga diperoleh model klasifikasi, selanjutnya model klasifikasi yang telah diperoleh digunakan untuk melakukan klasifikasi pada data testing sehingga diperoleh nilai akurasi dari hasil klasifikasi.
Berdasarkan data yang telah divisualisasikan ke dalam word cloud akan diketahui kata dominan yang sering sering dibahas oleh pengguna Twitter. Setelah semua tahapan telah terlewati, maka dilakukan interpretasi terhadap hasil yang diperoleh.
3.3. Pengumpulan Data
Dalam melakukan pengambilan data dari twitter dengan metode scrapping menggunakan Twitter API dalam kurun waktu dari tanggal 6 Mei 2021 sampai 8 Mei 2021 dengan menggunakan kata kunci “mudik". Pada penelitian ini,
menggunakan metode dengan teknik web
scrapping dan alat yang digunakan untuk crawling data adalah R/RStudio.
Untuk melakukan crawling data pada twitter dibutuhkan sebuah kode yang didapat dari twitter API untuk mengakses data twitter tersebut. Twitter API
merupakan aplikasi yang diciptakan oleh pihak twitter dengan tujuan agar
mempermudah pihak developer untuk mengakses informasi web twitter. Pendaftaran API digunakan untuk
mengonfirmasi kepada pihak twitter agar memberikan izin menjelajahi lebih luas terkait dengan data yang berkaitan dengan
twitter.
Gambar 3.3. Pendaftaran Konfigurasi
Twitter API
Setelah registrasi dan bergabung dengan twitter API didapatkan beberapa kode berupa consumer key, consumer secret, access token dan acces key dari twitter. Kode API tersebut adalah sebagai jembatan antara twitter dengan aplikasi lainnya, dalam penelitian ini kode tersebut dapat digunakan untuk proses integrasi antara twitter API dengan R.
5
3.4. Preprocessing
Setelah data yang didapatkan sudah dalam bentuk csv kemudian dilakukan tahap preprocessing, tahap ini bertujuan untuk membersihkan data-data dari noise dan pembenahan bahasa seperti
menghilangkan singkatan, bahasa gaul, serta menghapus kata yang tidak diperlukan, karena data awal yang didapatkan berupa data yang tidak terstruktur maka dilakukan tahap
preprocessing agar data tersebut dapat di
analisis.
Tabel 3.1. Contoh Data untuk
Preprocessing Data Sebelum Preprocessing
@restulungagung Tekan angka penularan Covid-19 dan lindungi keluargamu dengan jangan mudik dulu karena pandemi masih
membelenggu.\n\n#SilaturahmiTanpaM udik\nJangan Abaikan Pandemi
https://t.co/VxOcsynDNa
Hasil dari crawling merupakan data mentah atau data yang diperoleh masih terdapat unsur simbol, URL dan
sebagainya yang tidak mempunyai arti pada kalimat tersebut. Hal ini dapat menyulitkan para pembaca untuk menemukan topik atau pembahasan informasi terkait. Dari permasalahan tersebut maka diperlukan proses cleaning guna membersihkan data sehingga pembaca dapat mengetahui informasi dengan mudah. Proses cleaning data adalah proses untuk merapihkan dan membersihkan kalimat dari kata-kata yang tidak memiliki arti sehingga lebih mudah dan cepat dalam mendapatkan informasi dari data yang didapat.
Pada proses cleaning didapatkan hasil pada tabel berikut:
Setelah melakukan tahapan cleaning yang telah disebutkan sebelumnya, ada beberapa tahapan lainnya dalam proses cleaning untuk data teks tweet pada twitter. Tahapan cleaning lainnya yang dilakukan seperti penghapusan URL, angka dan lain sebagainya seperti pada tabel merupakan contoh cleaning URL, kata yang bewarna kuning merupakan kata yang dihapus pada proses cleaning.
3.4.1. Case Folding
Pada tahap case folding merupakan tahap pengubahan huruf kapital menjadi huruf non kapital atau semuanya menjadi huruf kecil. Pada Tabel dibawah ini terdapat huruf kapital yang bewarna kuning, dimana huruf tersebut yang dirubah pada proses case folding.
Sebelum Cleaning Sesudah Cleaning @restulungagu ng Tekan angka penularan Covid-19 dan lindungi keluargamu dengan jangan mudik dulu karena pandemi masih membelenggu. \n\n#Silaturah miTanpaMudik \nJangan Abaikan Pandemi https://t.co/Vx OcsynDNa
restulungagung Tekan angka penularan Covid dan lindungi keluargamu dengan jangan mudik dulu karena pandemi masih membelenggu SilaturahmiTanpaMudik Jangan Abaikan Pandemi
6 Tabel 3.2. Proses Case Folding
Sebelum Case Folding Sesudah Case Folding restulungagung Tekan angka penularan Covid dan lindungi keluargamu dengan jangan mudik dulu karena pandemi masih membelenggu SilaturahmiTanpa Mudik Jangan Abaikan Pandemi restulungagung tekan angka penularan covid dan lindungi keluargamu dengan jangan mudik dulu karena pandemi masih membelenggu silaturahmitanpa mudik jangan abaikan pandemi
3.4.2. Tokenizing
Tahapan tokenizing adalah proses untuk memisahkan kata di dalam dokumen menjadi potongan kata yang tidak saling berpengaruh yang disebut token untuk kemudian dapat diidentifikasi. Pada tabel berikut merupakan contoh dari proses tokenizing.
Tabel 3.3. Proses Tokenizing Sebelum Tokenizing Sesudah Tokenizing restulungagung tekan angka penularan covid dan lindungi keluargamu dengan jangan mudik dulu karena pandemi masih membelenggu silaturahmitanpa mudik jangan abaikan pandemi “restulungagung”, “tekan”, “angka”, “penularan”, “covid”, “dan”, “lindungi”, “keluargamu”, “dengan”, “jangan”, “mudik”, “dulu”, “karena”, “pandemi”, “masih”, “membelenggu”, “silaturahmitanpam udik”, “jangan”, “abaikan”, “pandemi”
3.4.3. Stopword Removing
Tahap Stopword Removing yaitu tahapan untuk mengambil kata-kata yang penting. Proses Stopword Removing dapat menggunakan fungsi stopword
(menghapus kata tidak penting). Contoh
stopword yaitu “yang”, “dan”, “ke”, “dari”,
“di” dan lainnya. Kata-kata tersebut merupakan kata yang berfrekuensi tinggi dan dapat ditemukan di hampir setiap kalimat. Stopword atau menghapus kata dapat mengurangi ukuran indeks dan waktu pemrosesan serta dapat mengurangi noise.
Tabel 3. 4. Proses Stopword Removing Sebelum Stopword Removing Sesudah Stopword Removing “restulungagung”, “tekan”, “angka”, “penularan”, “covid”, “dan”, “lindungi”, “keluargamu”, “dengan”, “jangan”, “mudik”, “dulu”, “karena”, “pandemi”, “masih”, “membelenggu”, “silaturahmitanpa mudik”, “jangan”, “abaikan”, “pandemic” “tekan”, “angka”, “penularan”, “covid”, “lindungi”, “keluargamu”, “jangan”, “mudik”, “pandemi”, “masih”, “membelenggu”, “silaturahmitanpa mudik”, “jangan”, “abaikan”, “pandemi”
3.4.4. Stemming
Stemming merupakan perubahan
7 kata dasar, baik imbuhan deduktif maupun
imbuhan induktif. Pada tabel berikut merupakan contoh dari proses Stemming.
Tabel 3.5. Proses Stemming Sebelum Stemming Sesudah Stemming “tekan”, “angka”, “penularan”, “covid”, “lindungi”, “keluargamu”, “jangan”, “mudik”, “pandemi”, “masih”, “membelenggu”, “silaturahmitanpa mudik”, “jangan”, “abaikan”, “pandemi” “tekan”, “angka”, “tular”, “covid”, “lindung”, “keluarga”, “jangan”, “mudik”, “pandemi”, “masih”, “belenggu”, “silaturahmitanpa mudik”, “jangan”, “abai”, “pandemi”
Pada proses ini dilakukan proses
stemming agar kata yang terbentuk
memiliki representasi yang sama dengan kata yang tidak mengandung imbuhan, kata yang bewarna kuning merupakan kata yang diubah menjadi bentuk kata dasar pada proses stemming.
3.5. Pembagian Data
Data set dalam penelitian ini adalah tanggapan mengenai pelarangan mudik dimasa pandemi covid-19 dengan keyword “mudik” pada media sosial twitter dari tanggal 6 Mei 2021 sampai 8 Mei 2021. Data tanggapan yang diperoleh sebanyak 7991 tanggapan. Penentuan jumlah data training dan testing dengan perbandingan rasio untuk masing-masing data positif dan negatif sebanyak 2000 data tanggapan positif dan 2000 data tanggapan negatif,
sehingga total data tanggapan yang digunakan sebesar 4000 data tanggapan sedangkan untuk data netral tidak digunakan karena tidak memberikan informasi yang penting. Pada penelitian ini untuk seluruh data dibagi ke dalam 5 kombinasi perbandingan rasio data
training dan data testing seperti pada
tabel dibawah ini.
Tabel 3.6. Rasio data training dan data testing N o. Jumlah Data Rasio Data Train ing : Testi ng (%) Data Train ing Data Testing 1 4000 20:8 0 800 3200 2 40:6 0 1600 2400 3 60:4 0 2400 1600 4 80:2 0 3200 800 5 90:1 0 3600 400
3.6. Simulasi Perhitungan
3.6.1. Simulasi TF-IDF
Misalkan terdapat empat buah dokumen yang diambil dari data sebagai berikut.
8 Dokumen
1:
@humaskedirires
@tonaytoni Tunda Mudik, Demi kesehatan dan keselamatan keluarga dikampung halaman. Dokumen 2: @humaskedirires @BANGSAygSUJUD Sayangi keluarga dengan tidak Mudik
Dokumen 3:
Pribumi dilarang mudik krn covid19,WNA china berdatangan tanpa
hambatan karena covid19 , sama sama krn covid19 kok perlakuan beda??!! Tanya nih prof @mohmahfudmd. https://t.co/Fs2a4EFQpV Dokumen
4:
@democrazymedia China bisa teruuuuss indonesia
Keempat dokumen tersebut dilakukan perhitungan pembobotan kata/query menggunakan metode TF-IDF. Misal kata/query yang digunakan adalah “mudik”, “larang” dan “china”. Keempat dokumen tersebut dilakukan proses
preprocessing maka akan mengalami
perubahan kata seperti berikut. Dokumen
1:
tunda mudik sehat selamat keluarga kampung
halaman Dokumen
2:
sayang keluarga tidak mudik
Dokumen 3:
pribumi larang mudik covid wna china datang tanpa hambat covid covid laku beda tanya prof Dokumen
4:
china Indonesia
Berdasarkan keempat dokumen tersebut diperoleh beberapa document
term sebagai berikut.
a. kam pung b. co vi d c. l a k u
Nilai bobot term kata “mudik” atau
W(mudik) dalam dokumen 1 dapat dihitung dengan mengetahui:
1. Jumlah kata mudik dalam dokumen 1 yaitu 1, maka TF(mudik) = 1
2. Jumlah seluruh dokumen yaitu 4, maka D = 4
3. Jumlah dokumen yang memuat kata mudik yaitu 4 dokumen, maka df(mudik) = 4
Oleh karena itu, dengan
menggunakan rumus pada persamaan 1 dan Persamaan 2 diperoleh nilai bobot term untuk kata “mudik” pada dokumen 1 sebagai berikut.
𝑊 𝑚𝑢𝑑𝑖𝑘 = 1 × (𝑙𝑜𝑔4 4+ 1) 𝑊 𝑚𝑢𝑑𝑖𝑘 = 1,125
Bobot term kata dalam masing-masing dokumen ditunjukkan pada tabel berikut.
Tabel 3.7. Hasil Perhitungan Bobot Masing-masing Dokumen Qu ery Dokume n D d f( A ) W 1 2 3 4 1 2 3 4 tun da 1 0 0 0 4 1 1, 6 0 2 0, 0 0 0 0, 0 0 0 0, 0 0 0
9 Qu ery Dokume n D d f( A ) W 1 2 3 4 1 2 3 4 mu dik 1 1 1 0 3 1, 1 2 5 1, 1 2 5 1, 1 2 5 0, 0 0 0 se hat 1 0 0 0 1 1, 6 0 2 0, 0 0 0 0, 0 0 0 0, 0 0 0 sel am at 1 0 0 0 1 1, 6 0 2 0, 0 0 0 0, 0 0 0 0, 0 0 0 kel uar ga 1 1 0 0 2 1, 3 0 1 1, 3 0 1 0, 0 0 0 0, 0 0 0 ka mp un g 1 0 0 0 1 1, 6 0 2 0, 0 0 0 0, 0 0 0 0, 0 0 0 hal am an 1 0 0 0 1 1, 6 0 2 0, 0 0 0 0, 0 0 0 0, 0 0 0 say an g 0 1 0 0 1 0, 0 0 0 1, 6 0 2 0, 0 0 0 0, 0 0 0 tid ak 0 1 0 0 1 0, 0 0 0 1, 6 0 2 0, 0 0 0 0, 0 0 0 pri bu mi 0 0 1 0 1 0, 0 0 0 0, 0 0 0 1, 6 0 2 0, 0 0 0 lar an g 0 0 1 0 1 0, 0 0 0 0, 0 0 0 1, 6 0 2 0, 0 0 0 cov id 0 0 3 0 3 0, 0 0, 0 3, 3 0, 0 Qu ery Dokume n D d f( A ) W 1 2 3 4 1 2 3 4 0 0 0 0 7 5 0 0 wn a 0 0 1 0 1 0, 0 0 0 0, 0 0 0 1, 6 0 2 0, 0 0 0 chi na 0 0 1 1 2 0, 0 0 0 0, 0 0 0 1, 3 0 1 1, 3 0 1 dat an g 0 0 1 0 1 0, 0 0 0 0, 0 0 0 1, 6 0 2 0, 0 0 0 tan pa 0 0 1 0 1 0, 0 0 0 0, 0 0 0 1, 6 0 2 0, 0 0 0 ha mb at 0 0 1 0 1 0, 0 0 0 0, 0 0 0 1, 6 0 2 0, 0 0 0 lak u 0 0 1 0 1 0, 0 0 0 0, 0 0 0 1, 6 0 2 0, 0 0 0 be da 0 0 1 0 1 0, 0 0 0 0, 0 0 0 1, 6 0 2 0, 0 0 0 tan ya 0 0 1 0 1 0, 0 0 0 0, 0 0 0 1, 6 0 2 0, 0 0 0 pro f 0 0 1 0 1 0, 0 0 0 0, 0 0 0 1, 6 0 2 0, 0 0 0 ind on esi a 0 0 0 1 1 0, 0 0 0 0, 0 0 0 0, 0 0 0 1, 6 0 2
10 Qu ery Dokume n D d f( A ) W 1 2 3 4 1 2 3 4 Nilai bobot setap
dokumen (∑W(di)) 1 0, 4 3 6 5, 6 3 0 2 1, 8 2 1 2, 9 0 3
Nilai bobot pada dokumen
menunjukkan tinggi rendahnya kesesuaian antara dokumen dengan query.
Berdasarkan table diatas diketahui bahwa dokumen yang memiliki tingkat simliaritas paling tinggi terhadap query “mudik”, “larang” dan “china” adalah dokumen 3, setelah itu dokumen 1, dokumen 2 dan dokumen 3 yang memiliki similiaritas terendah terhadap keempat query.
3.6.2. Simulasi Naïve Bayes
Misalkan terdapat empat buah dokumen yang telah melalui tahapan
preprocessing, dua dokumen diambil dari
kelas positif dan dua dokumen diambil dari kelas negatif. Dokumen tersebut adalah sebagi berikut.
Dokumen 1:
tunda mudik sehat selamat keluarga kampung
halaman Dokumen
2:
sayang keluarga tidak mudik
Dokumen 3:
pribumi larang mudik covid wna china datang tanpa hambat covid covid laku beda tanya prof
Dokumen 4:
china Indonesia
Tabel 3.8. Frekuensi Kemunculan Kata
N o. Query Dokumen 1 2 3 4 1 tunda 1 0 0 0 2 mudik 1 1 1 0 3 sehat 1 0 0 0 4 selam at 1 0 0 0 5 keluar ga 1 1 0 0 6 kampu ng 1 0 0 0 7 halam an 1 0 0 0 8 sayan g 0 1 0 0 9 tidak 0 1 0 0 1 0 pribu mi 0 0 1 0 1 1 larang 0 0 1 0 1 2 covid 0 0 3 0 1 3 wna 0 0 1 0 1 4 china 0 0 1 1 1 5 datan g 0 0 1 0 1 6 tanpa 0 0 1 0 1 7 hamb at 0 0 1 0 1 8 laku 0 0 1 0 1 9 beda 0 0 1 0 2 0 tanya 0 0 1 0 2 1 prof 0 0 1 0 2 2 indon esia 0 0 0 1 Kelas Posi tif Posi tif Nega tif Nega tif
11 Berdasarkan tabel diatas diketahui
bahwa kelas positif terdiri dari 2 dokumen dengan jumlah kata sebanyak 11 kata dari 22 kosakata yang ada, sedangkan 2 dokumen kelas negatif terdiri dari 17 kata dari 22 kosakata yang ada. Berdasarkan jumlah kata tersebut, dapat dihitung nilai probabilitas untuk setiap kelasnya dengan menggunakan persamaan berikut.
1. Probabilitas kata kelas positif Contoh perhitungan probabilitas untuk kata “mudik” yang terdapat dalam kelas positif. 𝑃 𝑎𝑖 𝑣𝑗= 𝑛𝑖+ 1 𝑛 + 𝑘𝑜𝑠𝑎𝑘𝑎𝑡𝑎 𝑃 𝑚𝑢𝑑𝑖𝑘 𝑝𝑜𝑠𝑖𝑡𝑖𝑓 = 2 + 1 11 + 22= 0,09091 dimana,
ni : jumlah kata “mudik” dalam dokumen kelas positif
n : jumlah seluruh kata pada dokumen kelas positif
kosakata : jumlah kata dalam fase
training
Nilai probabilitas untuk kata yang lain, dengan menggunakan cara
perhitungan yang sama ditunjukkan oleh tabel berikut ini.
Tabel 3.9. Probabilitas Kata Kelas Positif Query n i n Kosaka ta Probabilit as tunda 1 1 1 22 0,06061 mudik 2 1 1 22 0,09091 sehat 1 1 1 22 0,06061 selamat 1 1 1 22 0,06061 keluarga 2 1 1 22 0,09091 kampun g 1 1 1 22 0,06061 halaman 1 1 1 22 0,06061 sayang 1 1 1 22 0,06061 tidak 1 1 1 22 0,06061 pribumi 0 1 1 22 0,03030 larang 0 1 1 22 0,03030 covid 0 1 1 22 0,03030 wna 0 1 1 22 0,03030 china 0 1 1 22 0,03030 datang 0 1 1 22 0,03030 tanpa 0 1 1 22 0,03030 hambat 0 1 1 22 0,03030 laku 0 1 1 22 0,03030 beda 0 1 1 22 0,03030 tanya 0 1 1 22 0,03030 prof 0 1 1 22 0,03030 indonesi a 0 1 1 22 0,03030
2. Probabilitas kata kelas negatif
Contoh perhitungan probabilitas kata “mudik” negatif.
𝑃 𝑎𝑖 𝑣𝑗=
𝑛𝑖+ 1 𝑛 + 𝑘𝑜𝑠𝑎𝑘𝑎𝑡𝑎
12 𝑃 𝑚𝑢𝑑𝑖𝑘 𝑛𝑒𝑔𝑎𝑡𝑖𝑓 = 1 + 1
17 + 22 = 0,05128 dimana,
ni : jumlah kata “mudik” dalam dokumen kelas negatif
n : jumlah seluruh kata pada dokumen kelas negatif
kosakata : jumlah kata dalam fase
training
Nilai probabilitas untuk kata yang lain dalam kelas negatif ditunjukkan oleh tabel dibawah ini.
Tabel 3.10. Probabilitas Kata Kelas Negatif
Query ni n Kosakata Probabilitas
tunda 0 17 22 0,02564 mudik 1 17 22 0,05128 sehat 0 17 22 0,02564 selamat 0 17 22 0,02564 keluarga 0 17 22 0,02564 kampung 0 17 22 0,02564 halaman 0 17 22 0,02564 sayang 0 17 22 0,02564 tidak 0 17 22 0,02564 pribumi 1 17 22 0,05128 larang 1 17 22 0,05128 covid 3 17 22 0,10256 wna 1 17 22 0,05128 china 2 17 22 0,07692 datang 1 17 22 0,05128 tanpa 1 17 22 0,05128 hambat 1 17 22 0,05128 laku 1 17 22 0,05128 beda 1 17 22 0,05128 tanya 1 17 22 0,05128 prof 1 17 22 0,05128 indonesia 1 17 22 0,05128
Nilai probabilitas kata pada masing-masing kelas tersebut, kemudian disimpan pada database yang nantinya akan digunakan untuk menguji data baru. Misal ingin diketahui kelas data dari tanggapan baru “mudik larang china”. Langkah pertama yang dilakukan untuk melakukan klasifikasi adalah memecah kalimat dalam tanggapan tersebut menjadi kata per kata, selanjutnya menghitung nilai probabilitas dari kata pada masing-masing kelas dengan menggunakan tabel
probabilitas kata yang telah diperoleh sebelumnya, sedangkan probabilitas masing-masing kelas ditentukan dengan menggunakan persamaan berikut.
Tabel 3.11. Nilai Probabilitas Tanggapan Baru Kela s mudi k laran g china Nilai Probabil itas Posit if (P = 0,5) 0,090 91 0,030 30 0,030 30 0,00004 Nega tif (P = 0,5) 0,051 28 0,051 28 0,076 92 0,00010
13 Hasil klasifikasi dari kelas tanggapan
baru tersebut adalah kelas atau kategori yang memiliki probabilitas tertinggi. Berdasarkan tabel diatas diketahui bahwa nilai probabilitas tertinggi adalah
probabilitas kelas negatif, maka tanggapan baru “mudik larang china” masuk ke dalam kelas negatif.
3.6.3. Simulasi Perhitungan Kinerja
Machine Learning
Untuk menggambarkan seberapa baik kinerja machine learning dalam mengklasifikasikan data, salah satu metode yang digunakan sebagai pengukuran kinerja klasifikasi yaitu
confusion matrix. Confusion matrix
mengandung nilai true positif, true negatif,
false positif, dan false negatif. Nilai dari true positif dan true negatif memberikan
informsai bahwa ketika clasifier dalam melakukan klasifikasi data yang bernilai benar, dan sedangkan false negatif dan
false positif memberikan informasi bahwa
ketika clasifier salah dalam melakukan pengklasifikasian data.
Pengukuran efektif dapat dilakukan dengan perhitungan nilaia akurasi, nilai
precision, dan nilai recall. Misalkan
diperoleh confusion matrix hasil perhitungan klasifikasi menggunakan algoritma Naïve Bayes sebagai berikut.
Tabel 3.12. Confusion Matrix Perhitungnan Naïve Bayes
Prediksi aktual positif negatif positif 903 (TP) 697 (FN) negatif 118 (FP) 1482 (TN)
Berdasarkan tabel diatas diperoleh nilai TP sebesar 903, FN sebesar 697, FP sebesar 118 dan TN sebesar 1482. Sehingga untuk menghitung nilai akurasi,
precision dan recall tersebut adalah
sebagai berikut. 𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = (𝑇𝑃 + 𝑇𝑁) (𝑇𝑃 + 𝐹𝑃 + 𝑇𝑁 + 𝐹𝑁) 𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = (903 + 1482) 903 + 118 + 1482 + 697) 𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =2385 3200 𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 0,7453125 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑇𝑃 (𝑇𝑃 + 𝐹𝑃) 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 903 (903 + 118) 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 903 1021 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 0,884427 𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑃 (𝑇𝑃 + 𝐹𝑁) 𝑅𝑒𝑐𝑎𝑙𝑙 = 903 (903 + 697) 𝑅𝑒𝑐𝑎𝑙𝑙 = 903 1600 𝑅𝑒𝑐𝑎𝑙𝑙 = 0,564375
14
3.7. Kebutuhan Perangkat Lunak
(Software)
Perangkat lunak, versi dan fungsi dapat dilihat pada tabel dibawah ini.
Tabel 3.13. Tabel Perangkat Lunak Software Versi Fungsi
Microsoft Windows 10 Sebagai sistem operasi penelitian ini Microsoft Office Word 2016 Digunakan untuk mengolah laporan ini Microsoft Office Excel 2016 Digunakan sebagai media penulisan dan pengolahan data set R 3.6.0 Digunakan untuk mengolah data set dan untuk melihat uji performance dari kinerja machine learning serta visualisasi data. RStudio 1.3.959 Digunakan untuk IDE (Integrated Development Environtment) dalam menuliskan code R script.
3.8. Kebutuhan Perangkat Keras
(Hardware)
Selain perangkat lunak (software) dibutuhkan pula perankat keras
(hardware) sebagai pendukung penelitian data mining, yaitu laptop. Adapun
spesifikasi laptop dijelaskan pada tabel dibawah ini.
Spesifikasi Hardware
Keterangan
Processor Intel(R) Core(TM) i5-4300M CPU @ 2.60GHz (4CPUs), ~2.6GHz RAM (Random Accsess Memory) 8192 MB
Operating System Windows 10 Pro 64-bit (10.0, Build 19041)
3.9. Waktu Penelitian
Penelitian ini direncanakan mengikuti jadwal penelitian pada bulan April sampai juni
HASIL DAN PEMBAHASAN
4.1.1. Analisis Data
Analisis data tanggapan digunakan untuk mengetahui gambaran umum mengenai data tanggapan tentang mudik ditengah pendemi covid-19 setelah melalui
text preprocessing dan pelabelan secara
otomatis oleh kamus lexicon. Data tanggapan yang diperoleh pada tanggal 6 Mei 2021 sampai 8 Mei 2021 ini
dikategorikan ke dalam tiga kelas kategori yaitu tanggapan positif, tanggapan negatif dan tanggapan netral. Secara keseluruhan, gambaran mengenai tanggapan yang diperoleh berdasarkan masing-masing kategori ditunjukkan oleh grafik berikut ini.
15 Gambar 4.1. Grafik Jumlah Dan
Persentase Data Tanggapan
Berdasarkan grafik diatas, diketahui bahwa dari total tanggapan yang diperoleh dari twitter yaitu 7991 tanggapan,
sebanyak 2274 (28%) tanggapan merupakan tanggapan positif yaitu tanggapan yang mendukung atau
menyukai mudik ditengah pandemi covid-19 sedangkan 3237 (41%) tanggapan merupakan tanggapan negatif yaitu tanggapan yang kurang menyukai suatu hal yang berhubungan dengan mudik ditengah pandemi covid-19 dan untuk tanggapan netral sebanyak 2480 (31%) tanggapan.
Dilihat dari jumlah persentase data tanggapan mengenai mudik di masa pandemi covid-19 ini, tanggapan negatif lebih besar dibandingkan tanggapan positf dengan selisih 963 (13%) tanggapan.
4.1.2. Pembagian Data Training Dan
Data Testing
Dalam penelitian ini klasifikasi dilakukan dengan menggunakan algoritma
Naive Bayes. Klasifikasi dilakukan untuk
mengetahui hasil kinerja machine learning dalam melakukan klasifikasi terhadap data tanggapan. Total data tanggapan yang telah diperoleh dibagi ke dalam 5 kombinasi data dengan menggunakan perbandingan rasio, untuk selanjutnya dilakukan klasifikasi dengan algoritma yang telah ditentukan. Hasil klasifikasi tersebut disajikan dalam bentuk tabel.
4.1.3. Kinerja Naïve Bayes
Berikut ini hasil average accuracy,
macro average precision, dan macro average recall dengan menggunakan
algoritma Naive Bayes pada 5 perbedaan rasio data yang telah ditentukan mengenai larangan mudik ditengah pandemi covid-19. Metode nilai average accuracy, macro
average precision, dan macro average recall digunakan untuk mengetahui kinerja machine learning secara keseluruhan dari
seluruh data set yang ada Analisis Hasil Pengujian
Pengujian kinerja machine learning difokuskan pada perbandingan rasio yang memiliki kinerja terbaik didasarkan pada tingkat akurasi yang tinggi. Perbandingan akurasi berdasarkan jumlah data uji pada algoritma Naive Bayes pada masing-masing rasio berdasarkan hasil evaluasi menggunakan 10-fold cross validation ditunjukkan oleh tabel dibawah ini.
Tabel 4.1. Perbandingan Accuracy pada rasio data berbeda
menggunakan 10-fold cross validation
Positif 2274 28% Negatif 3237 41% Netral 2480 31%
JUMLAH DAN PERSENTASE DATA TANGGAPAN
16 N o. Rasio Perbandingan (%) Accuracy Naive Bayes 1 20:80 (800:3200) 81,7175 2 40:60 (1600:2400) 82,41667 3 60:40 (2400:1600) 83,0625 4 80:20 (3200:800) 81 5 90:10 (3600:400) 81,71875 Rata-rata 81,983334
Berdasarkan Tabel diatas diketahui bahwa algoritma Naïve Bayes dalam mengklasifikasikan data tanggapan
mengenai larangan mudik pada masa pandemi covid-19 ini memiliki tingkat akurasi tertinggi yaitu sebesar 83,06% pada perbandingan rasio 60:40 atau dengan perbandingan data sebesar 2400 untuk data training dan 1600 untuk data testing.
Faktor yang menyebabkan naik turunnya akurasi dari masing-masing algoritma adalah adanya dokumen uji yang semua term-nya tidak terdapat di
dokumen latih, dengan kata lain machine
learning tidak pernah mengenal term ini
sebelumnya. Apabila ada term baru dari dokumen uji, perhitungan tidak dapat dilanjutkan karena term tersebut tidak memiliki nilai untuk dimasukan ke persamaan dalam machine learning.
4.2.1. Visualisasi
Visualisasi dilakukan terhadap masing-masing klasifikasi kelas sentimen, adapun tujuan visualisasi adalah untuk mengekstraksi informasi berupa topik yang
paling sering di bicarakan / diulas oleh pengguna Twitter, sehingga dari sekian banyak tanggapan yang ada, dapat diambil informasi yang dianggap penting
berdasarkan kata yang paling sering muncul. Berikut penjelasan hasil visualisasi kata dari setiap klasifikasi kelas sentimen.
Pada hasil klasifikasi tanggapan positif tentang pelarangan mudik dimasa pandemi covid-19, dari jumlah ulasan positif sebanyak 2274 ulasan, diperoleh 10 kata yang paling banyak muncul
diantaranya adalah kata ”keluarga” dengan frekuensi sebanyak 703 kali, “kampung” sebanyak 642 kali,
“patuhtidakmudik” sebanyak 593 kali, “libur” sebanyak 560 kali, “kerumun” sebanyak 536 kali, “halaman” sebanyak 496 kali, “sehat” sebanyak 437 kali, “lebaran” sebanyak 431 kali, “polisijatim” sebanyak 401 kali, dan “selamat”
sebanyak 400 kali. Kata-kata yang muncul pada gambar di atas merupakan 10 kata yang dimiliki sentiment positif dan
merupakan topik pembicaraan yang paling banyak diulas oleh pengguna Twitter mengenai pelarangan mudik.
17 Visualisasi word cloud pada gambar di atas
memberikan gambaran yang lebih jelas tentang topik dan kata-kata positif yang sering digunakan pengguna twitter dalam memberikan ulasan. Semakin besar ukuran kata pada word cloud menggambarkan semakin tinggi pula frekuensi kata
tersebut, artinya semakin sering pengguna menggunakan kata tersebut sebagai topik pembicaraan atau penilaian positif dalam ulasan. Word cloud pada. Beberapa topik atau kata yang sering di bahas pengguna
twitter mengenai pelarangan mudik
diantaranya adalah kata “keluarga”, “kampung”, “patuhtidakmudik”, “libur”, “kerumun”, “halaman”, “sehat”,
“lebaran”, “polisijatim” dan “selamat
Pada hasil klasifikasi ulasan negatif pengguna twitter terhadap pelarangan mudik diperoleh beberapa kata yang paling banyak muncul dengan topik yang dianggap relevan sebagai sentimen negatif diantaranya adalah kata “pandemi” dengan frekuensi sebanyak 785 kali, “larang” sebanyak 683 kali,
“silaturahmitanpamudik” sebanyak 434
kali, “keluarga” sebanyak 423 kali,
“lebaran” sebanyak 278, “virus” sebanyak 245 kali, “lawan” sebanyak 228 kali, “orang” sebanyak 228 kali, “polisijatim” sebanyak 225 kali dan “selamat” sebanyak 224 kali. Kata-kata yang muncul pada gambar di atas merupakan kata yang dimiliki sentiment negatif dan merupakan kata atau topik pembicaraan yang paling banyak diulas oleh pengguna twitter terhadap larangan mudik di masa pandemi covid-19 di Indonesia.
Visualisasi word cloud pada gambar di atas memberikan gambaran yang lebih jelas tentang topik dan kata-kata negatif yang sering digunakan pengguna twitter dalam memberikan tanggapan terhadap larangan mudik. Beberapa topik yang sering di bahas pengguna twitter diantaranya adalah kata “pandemi”.
KESIMPULAN
1. Hasil deskripsi tanggapan mengenai larangan mudik pada saat pandemi covid-19 di Indonesia dengan jumlah 7991 tweet dari tanggal 6 Mei sampai 8 Mei 2021. Dalam tweet tersebut terdapat 2274 yang mengandung tanggapan positif sedangkan 3237
tweet mengandung tanggapan negatif
2. Hasil algoritma Naïve Bayes dalam mengklasifikasikan data tanggapan mengenai larangan mudik pada masa pandemi covid-19 ini memiliki tingkat
18 akurasi tertinggi yaitu sebesar 83,06%
pada perbandingan rasio 60:40 atau dengan perbandingan data sebesar 2400 untuk data training dan 1600 untuk data testing.
SARAN
1. Data yang digunakan pada penelitian ini hanya satu periode, yaitu pada bulan 6 Mei 2021 sampai 8 Mei 2021, sehingga perlu diperbanyak periode waktu pengumpulan data agar informasi yang diperoleh lebih mendalam
2. Perlu adanya sebuah optimasi dalam model sehingga dapat di dapatkan lebih sempurna dan di dapatkan
REFERENSI
[1] “Larangan Mudik Lebaran 2021 Berlaku Mulai Besok 6 Mei, Ini Rincian Aturan dan yang Boleh Bepergian - Halaman all - Tribunnews.” .
[2] N. M. A. J. Astari, Dewa Gede Hendra Divayana, and Gede Indrawan, “Analisis Sentimen Dokumen Twitter Mengenai
Dampak Virus Corona
Menggunakan Metode Naive Bayes Classifier,” J. Sist. dan Inform., Vol. 15,
[3] Samsir, Ambiyar, U. Verawardina, F. Edi, and R.
Watrianthos, “Analisis Sentimen Pembelajaran Daring Pada Twitter di Masa Pandemi COVID-19 Menggunakan Metode Naïve Bayes,” J. Media Inform. Budidarma, Vol. 5, pp. 157–163,
2021, doi:
10.30865/mib.v5i1.2604.
[4] D. A. Muthia, “Komparasi Algoritma Klasifikasi Text Mining Untuk Analisis Sentimen Pada Review Restoran,” J. PILAR Nusa
Mandiri, Vol. 14, no. 1, pp. 69–74,
2018.
[5] A. Fauzi, M. F. Akbar, and Y. F. A. Asmawan, “Sentimen Analisis Berinternet Pada Media Sosial dengan Menggunakan Algoritma Bayes,” J. Inform., vol. 6, no. 1, pp.
77–83, 2019, doi:
10.31311/ji.v6i1.5437.
[6] Setiati, S., Azwar, M.K, “COVID-19 and indonesia”. Acta Media Indonesia. Vol. 52, 84-89, 2020
[7] A. Sari, F. V., & Wibowo, “Analisis Sentimen Pelanggan Toko Online Jd. Id Menggunakan Metode Naïve Bayes Classifier Berbasis Konversi Ikon Emosi,”
Simetris J. Tek. Mesin, Elektro dan Ilmu Komput., vol. 2, no. 2, pp.
19 681–686, 2019.
[8] Kementrian Kesehatan RI, “pedoman Pencegahan dan pengendalian Corona Virus deases (COVID-19), “ Kementrian Kesehatan., vol. 5, p. 178, 2020. [Online]. Avaliable : https://covid19.go.id/storage/app /media/Protokol/REV- 05_Pedoman_P2_COVID-19_13_Juli_2020.pdf.
[9] Andaka and Dian, “Dampak Pelarangan Mudik Akibat Pandemi Covid19 Terhadap Bisnis Angkutan Udara Di Indonesia,” J. Civ. Eng.
Plan., vol. 1, no. 2, pp. 116–129,
2020.
[10] B. M. Pintoko and K. M. L., “Analisis Sentimen Jasa Transportasi Online pada Twitter Menggunakan Metode Naive Bayes Classifier,”
e-Proceeding Eng., vol. 5, no. 3, pp.
8121–8130, 2018.
[11] M. A. Ramdhani and O. N. Rahim, “Analisis sentimen untuk mengukur popularitas tokoh publik berdasar data pada media sosial twitter menggunakan algoritma data mining dengan teknik klasifikasi,” Informasi, vol. VI, no. 2, pp. 1–15, 2014.
[12] F. Sodik and I. Kharisudin, “Analisis
Sentimen dengan SVM , NAIVE BAYES dan KNN untuk Studi Tanggapan Masyarakat Indonesia Terhadap Pandemi Covid-19 pada Media Sosial Twitter,” Prisma, vol. 4, pp. 628–634, 2021.
[13] Wiyanto, W. Prianta, and J. S. Hidayat, “IMPLEMENTASI TERM FREQUENCY -INVERSE DOCUMENT FREQUENCY (TF- IDF) DAN VECTOR SPACE MODEL (VSM) UNTUK PENCARIAN BERITA BAHASA Pelita Teknologi: Jurnal Ilmiah Informatika, Arsitektur dan Lingkungan,” J. Ilm. Inform. Arsit.
dan Lingkung., vol. 14, no. 2, pp.
119–133, 2019.
[14] E. Prasetyowati and N. Ramadhani, “Sistem Evaluasi Dan Klasifikasi Kinerja Akademik Mahasiswa Universitas Madura Menggunakan Naive Bayes Dengan Dirichlet Smoothing,” JUTI J. Ilm. Teknol. Inf., vol. 16, no. 2, p. 192, 2018, doi: 10.12962/j24068535.v16i2.a688. [15] H. Azis, P. Purnawansyah, F. Fattah,
and I. P. Putri, “Performa Klasifikasi K-NN dan Cross Validation Pada Data Pasien Pengidap Penyakit Jantung,” Ilk. J. Ilm., vol. 12, no. 2, pp. 81–86, 2020, doi: 10.33096/ilkom.v12i2.507.81-86.
20 [16] M. F. Rahman, D. Alamsah, M. I.
Darmawidjadja, and I. Nurma, “Klasifikasi Untuk Diagnosa Diabetes Menggunakan Metode Bayesian Regularization Neural Network (RBNN),” J. Inform., vol. 11, no. 1, p. 36, 2017, doi: 10.26555/jifo.v11i1.a5452
[17] Andreyestha, “Analisis Sentimen Masyarakat Terhadap Fenomena Teroris Melalui Twitter Di Indonesia,” J. Kaji. Ilm., vol. 19, no. 3, pp. 239–247, 2016.
[18] R. E. Sihombing, D. Rachmatin, and J. A. Dahlan, “Program Aplikasi Bahasa R Untuk Pengelompokan Objek Menggunakan Metode K-Medoids Clustering,” Progr. Apl.
Bhs. R Untuk Pengelompokan Objek Menggunakan Metod. K-Medoids Clust., vol. 7, no. 1, pp.
58–79, 2019.
[19] J. Agribisnis and F. Pertanian, “khazanah informatika Penerapan Reproducible Research pada RStudio dengan Bahasa R dan Paket Knitr,” pp. 1–5.
[20] F. Ratnawati, “Implementasi Algoritma Naive Bayes Terhadap Analisis Sentimen Opini Film Pada Twitter,” INOVTEK Polbeng - Seri
Inform., vol. 3, no. 1, p. 50, 2018,
doi: 10.35314/isi.v3i1.335.
[21] Y. Cahyono, “Analisis Sentiment pada Sosial Media Twitter Menggunakan Naїve Bayes Classifier dengan Feature Selection Particle Swarm Optimization dan Term Frequency,” J. Inform. Univ.
Pamulang, vol. 2, no. 1, p. 14, 2017,
doi:
10.32493/informatika.v2i1.1500. [22] S. -, A. Fadlil, and S. -, “Analisis
Sentimen Menggunakan Metode Naïve Bayes Classifier Pada Angket Mahasiswa,” Saintekbu, vol. 10, no. 2, pp. 1–9, 2018, doi: 10.32764/saintekbu.v10i2.190.