ANALISIS SENTIMEN LARANGAN MUDIK DI MASA PANDEMI COVID-19 MENGGUNAKAN METODE NAÏVE BAYES

(1)

Pelita Teknologi: Jurnal Ilmiah Informatika

Pelita Teknologi: Jurnal Ilmiah Informatika,

Arsitektur dan Lingkungan

Journal homepage: jurnal.pelitabangsa.ac.id

1

ANALISIS SENTIMEN LARANGAN MUDIK DI MASA PANDEMI

COVID-19 MENGGUNAKAN METODE NAÏVE BAYES

teguh imam santoso

Program Studi Teknik Informatika, Universitas Pelita Bangsa

Jl. Inspeksi Kalimalang Tegal Danas Arah Deltamas Telp. Telp. 021 2851 8181,82,83,84. Email. [email protected].

Abstrak

Informasi Artikel

The ban on going home issued by the

government in the midst of the corona virus (covid-19) pandemic is currently a topic that is often discussed by the public, one of which is on social media twitter. Twitter is a social media that is often used to convey messages in the form of public opinion or opinion. Sentiment analysis is the computational study of people's opinions. Sentiment analysis will classify the text in a sentence to find out the opinions reflected in the sentence or document. This study tries to analyze public opinion regarding the prohibition against going home by classifying opinions into 2 sentiments, namely positive and negative. Classification is done using the Naive Bayes method. The Naive Bayes method is a text

classification method based on keyword probabilities in comparing training documents and test documents. The test results on the RStudio tools show that the accuracy with the TF-IDF and 10-Fold Cross Validation features gives good accuracy results. The Naive Bayes method can produce a high accuracy value of 83,06%. Overall, the use of the Naive Bayes method has a fairly good performance for classifying tweets.

Diterima: 30 juli 2021

Direvisi: 4 Agustus 2021

Dipublikasikan: 21 Maret 2019

Keywords

Sentiment Analysis, Prohibition of Homecoming, Twitter, Naive Bayes

(2)

2

I.Pendahuluan

Data komentar dari twitter ini memiliki karakteristik yang tidak terstruktur dan banyak memuat noise sehingga dibutuhkan text mining yang memiliki peran penting dalam bidang text mining. Kondisi ini dapat mengakibatkan terlewatnya informasi mengenai opini larangan mudik Lebaran 2021 di masa pandemi Covid-19 yang berguna dari sekumpulan dokumen teks tersebut. Mengetahui sentimen dari pengguna twitter secara manual dapat merugikan waktu dan tenaga. Oleh sebab itu perlu dilakukan penelitian menggunakan analisis text mining.

.

II.Metode penelitian

3.1. Objek Penelitian

Pada penelitian ini, objek penelitian yang digunakan adalah data tweet

berbahasa Indonesia yang terdapat pada media sosial Twitter. Tweet yang digunkan ialah tweet-tweet yang mengandung sentimen positif dan sentimen negatif yang diperoleh dari tanggal 6 Mei 2021 sampai 8 Mei 2021. Dari masing-masing sentimen tersebut, diambil 2000 data per sentimen sehingga total tweet yang digunakan sebagai data berjumlah 4000.

Pencarian data dilakukan dengan menggunakan dengan keyword “mudik”, kemudian pelabelan dilakukan secara otomatis yaitu menggunakan kamus

lexicon berbahasa Indonesia, tweet yang

telah dipilih kemudian disimpan ke file teks dengan format csv. Kemudian file teks tersebut digunakan sebagai input untuk diolah lebih lanjut.

Berkut contoh tweet dengan sentimen positif:

@Polres_Bwoso Sayangi keluarga kita dengan tidak mudik, masih bisa silahturahmi meskipun lewat media online. #2021SilaturahmiOnlineSaja

Berkut contoh tweet dengan sentimen negatif:

Doni: mudik secara tak langsung bunuh orang tua di kampung.

Saya: WNA masuk Indonesia secara tak langsung bunuh seluruh rakyat

Indonesia.

Goblok jangan nanggung boss!!

3.2. Tahapan Penelitian

Berikut ini flowchart yang

menunjukkan tahapan penelitian mulai dari pengumpulan data hingga diperoleh kesimpulan.

(3)

3 Gambar 3.1. Flowchart Tahapan Penelitian

Gambar 3.2. Flowchart Tahapan Penelitian (Lanjutan)

Tahapan dimulai dengan mengumpulkan data, data dikumpulkan melalui media sosial twitter dengan menggunakan keyword “mudik”,

kemudian data tersebut disimpan. Setelah itu, dilakukan preprocessing dimana tahapan-tahapan preprocessing tersebut meliputi case folding, tokenizing,

stpopword removing, dan stemming. Data

yang telah melalui tahapan preprocessing akan diberi pelabelan data secara otomatis dengan menggunakan kamus lexicon. Pelabelan data dibagi dalam tiga kelas kategori yaitu tanggapan positif,

tanggapan negatif dan tanggapan netral. Data hasil pelabelan tersebut disimpan dan dilakukan analisis untuk mengetahui persentase tanggapan positif, tanggapan negatif dan tanggapan netral dari seluruh data yang diperoleh.

Kemudian data dibagi ke dalam data latih (data training) dan data uji (data

Mulai Pengumpulan Data Data Tanggapan Pembelajaran Daring Case Folding Tokenizing Stopword Removing Stemming Pelabelan Data Tanggapan Pembelajaran Daring Data Tanggapan dengan Label Positif

dan Negatif Analisis Deskriptif A P re p ro c e s s in g Data Tanggapan Mudik Mulai A Data Training dan

Data Testing Word Cloud

Klasifikasi Naive Bayes dengan Data Training

Model Klasifikasi

Klasifikasi dengan Data Testing

Akurasi Data Testing

Implementasi

(4)

4 testing), data training digunakan untuk

melatih machine learning agar dapat bekerja dengan baik dan data testing digunakan untuk menguji kinerja machine

learning. Selain itu, data yang telah melalui

tahapan preprocessing dan pelabelan juga divisualisasikan ke dalam sebuah word

cloud.

Setelah data dibagi menjadi dua bagian yaitu data latih (data training) dan data uji (data testing), maka dilakukan klasifikasi menggunakan algoritma Naive

Bayes. Proses klasifikasi dimulai dengan

menggunakan data training sehingga diperoleh model klasifikasi, selanjutnya model klasifikasi yang telah diperoleh digunakan untuk melakukan klasifikasi pada data testing sehingga diperoleh nilai akurasi dari hasil klasifikasi.

Berdasarkan data yang telah divisualisasikan ke dalam word cloud akan diketahui kata dominan yang sering sering dibahas oleh pengguna Twitter. Setelah semua tahapan telah terlewati, maka dilakukan interpretasi terhadap hasil yang diperoleh.

3.3. Pengumpulan Data

Dalam melakukan pengambilan data dari twitter dengan metode scrapping menggunakan Twitter API dalam kurun waktu dari tanggal 6 Mei 2021 sampai 8 Mei 2021 dengan menggunakan kata kunci “mudik". Pada penelitian ini,

menggunakan metode dengan teknik web

scrapping dan alat yang digunakan untuk crawling data adalah R/RStudio.

Untuk melakukan crawling data pada twitter dibutuhkan sebuah kode yang didapat dari twitter API untuk mengakses data twitter tersebut. Twitter API

merupakan aplikasi yang diciptakan oleh pihak twitter dengan tujuan agar

mempermudah pihak developer untuk mengakses informasi web twitter. Pendaftaran API digunakan untuk

mengonfirmasi kepada pihak twitter agar memberikan izin menjelajahi lebih luas terkait dengan data yang berkaitan dengan

twitter.

Gambar 3.3. Pendaftaran Konfigurasi

Twitter API

Setelah registrasi dan bergabung dengan twitter API didapatkan beberapa kode berupa consumer key, consumer secret, access token dan acces key dari twitter. Kode API tersebut adalah sebagai jembatan antara twitter dengan aplikasi lainnya, dalam penelitian ini kode tersebut dapat digunakan untuk proses integrasi antara twitter API dengan R.

(5)

5

3.4. Preprocessing

Setelah data yang didapatkan sudah dalam bentuk csv kemudian dilakukan tahap preprocessing, tahap ini bertujuan untuk membersihkan data-data dari noise dan pembenahan bahasa seperti

menghilangkan singkatan, bahasa gaul, serta menghapus kata yang tidak diperlukan, karena data awal yang didapatkan berupa data yang tidak terstruktur maka dilakukan tahap

preprocessing agar data tersebut dapat di

analisis.

Tabel 3.1. Contoh Data untuk

Preprocessing Data Sebelum Preprocessing

@restulungagung Tekan angka penularan Covid-19 dan lindungi keluargamu dengan jangan mudik dulu karena pandemi masih

membelenggu.\n\n#SilaturahmiTanpaM udik\nJangan Abaikan Pandemi

https://t.co/VxOcsynDNa

Hasil dari crawling merupakan data mentah atau data yang diperoleh masih terdapat unsur simbol, URL dan

sebagainya yang tidak mempunyai arti pada kalimat tersebut. Hal ini dapat menyulitkan para pembaca untuk menemukan topik atau pembahasan informasi terkait. Dari permasalahan tersebut maka diperlukan proses cleaning guna membersihkan data sehingga pembaca dapat mengetahui informasi dengan mudah. Proses cleaning data adalah proses untuk merapihkan dan membersihkan kalimat dari kata-kata yang tidak memiliki arti sehingga lebih mudah dan cepat dalam mendapatkan informasi dari data yang didapat.

Pada proses cleaning didapatkan hasil pada tabel berikut:

Setelah melakukan tahapan cleaning yang telah disebutkan sebelumnya, ada beberapa tahapan lainnya dalam proses cleaning untuk data teks tweet pada twitter. Tahapan cleaning lainnya yang dilakukan seperti penghapusan URL, angka dan lain sebagainya seperti pada tabel merupakan contoh cleaning URL, kata yang bewarna kuning merupakan kata yang dihapus pada proses cleaning.

3.4.1. Case Folding

Pada tahap case folding merupakan tahap pengubahan huruf kapital menjadi huruf non kapital atau semuanya menjadi huruf kecil. Pada Tabel dibawah ini terdapat huruf kapital yang bewarna kuning, dimana huruf tersebut yang dirubah pada proses case folding.

Sebelum Cleaning Sesudah Cleaning @restulungagu ng Tekan angka penularan Covid-19 dan lindungi keluargamu dengan jangan mudik dulu karena pandemi masih membelenggu. \n\n#Silaturah miTanpaMudik \nJangan Abaikan Pandemi https://t.co/Vx OcsynDNa

restulungagung Tekan angka penularan Covid dan lindungi keluargamu dengan jangan mudik dulu karena pandemi masih membelenggu SilaturahmiTanpaMudik Jangan Abaikan Pandemi

(6)

6 Tabel 3.2. Proses Case Folding

Sebelum Case Folding Sesudah Case Folding restulungagung Tekan angka penularan Covid dan lindungi keluargamu dengan jangan mudik dulu karena pandemi masih membelenggu SilaturahmiTanpa Mudik Jangan Abaikan Pandemi restulungagung tekan angka penularan covid dan lindungi keluargamu dengan jangan mudik dulu karena pandemi masih membelenggu silaturahmitanpa mudik jangan abaikan pandemi

3.4.2. Tokenizing

Tahapan tokenizing adalah proses untuk memisahkan kata di dalam dokumen menjadi potongan kata yang tidak saling berpengaruh yang disebut token untuk kemudian dapat diidentifikasi. Pada tabel berikut merupakan contoh dari proses tokenizing.

Tabel 3.3. Proses Tokenizing Sebelum Tokenizing Sesudah Tokenizing restulungagung tekan angka penularan covid dan lindungi keluargamu dengan jangan mudik dulu karena pandemi masih membelenggu silaturahmitanpa mudik jangan abaikan pandemi “restulungagung”, “tekan”, “angka”, “penularan”, “covid”, “dan”, “lindungi”, “keluargamu”, “dengan”, “jangan”, “mudik”, “dulu”, “karena”, “pandemi”, “masih”, “membelenggu”, “silaturahmitanpam udik”, “jangan”, “abaikan”, “pandemi”

3.4.3. Stopword Removing

Tahap Stopword Removing yaitu tahapan untuk mengambil kata-kata yang penting. Proses Stopword Removing dapat menggunakan fungsi stopword

(menghapus kata tidak penting). Contoh

stopword yaitu “yang”, “dan”, “ke”, “dari”,

“di” dan lainnya. Kata-kata tersebut merupakan kata yang berfrekuensi tinggi dan dapat ditemukan di hampir setiap kalimat. Stopword atau menghapus kata dapat mengurangi ukuran indeks dan waktu pemrosesan serta dapat mengurangi noise.

Tabel 3. 4. Proses Stopword Removing Sebelum Stopword Removing Sesudah Stopword Removing “restulungagung”, “tekan”, “angka”, “penularan”, “covid”, “dan”, “lindungi”, “keluargamu”, “dengan”, “jangan”, “mudik”, “dulu”, “karena”, “pandemi”, “masih”, “membelenggu”, “silaturahmitanpa mudik”, “jangan”, “abaikan”, “pandemic” “tekan”, “angka”, “penularan”, “covid”, “lindungi”, “keluargamu”, “jangan”, “mudik”, “pandemi”, “masih”, “membelenggu”, “silaturahmitanpa mudik”, “jangan”, “abaikan”, “pandemi”

3.4.4. Stemming

Stemming merupakan perubahan

(7)

7 kata dasar, baik imbuhan deduktif maupun

imbuhan induktif. Pada tabel berikut merupakan contoh dari proses Stemming.

Tabel 3.5. Proses Stemming Sebelum Stemming Sesudah Stemming “tekan”, “angka”, “penularan”, “covid”, “lindungi”, “keluargamu”, “jangan”, “mudik”, “pandemi”, “masih”, “membelenggu”, “silaturahmitanpa mudik”, “jangan”, “abaikan”, “pandemi” “tekan”, “angka”, “tular”, “covid”, “lindung”, “keluarga”, “jangan”, “mudik”, “pandemi”, “masih”, “belenggu”, “silaturahmitanpa mudik”, “jangan”, “abai”, “pandemi”

Pada proses ini dilakukan proses

stemming agar kata yang terbentuk

memiliki representasi yang sama dengan kata yang tidak mengandung imbuhan, kata yang bewarna kuning merupakan kata yang diubah menjadi bentuk kata dasar pada proses stemming.

3.5. Pembagian Data

Data set dalam penelitian ini adalah tanggapan mengenai pelarangan mudik dimasa pandemi covid-19 dengan keyword “mudik” pada media sosial twitter dari tanggal 6 Mei 2021 sampai 8 Mei 2021. Data tanggapan yang diperoleh sebanyak 7991 tanggapan. Penentuan jumlah data training dan testing dengan perbandingan rasio untuk masing-masing data positif dan negatif sebanyak 2000 data tanggapan positif dan 2000 data tanggapan negatif,

sehingga total data tanggapan yang digunakan sebesar 4000 data tanggapan sedangkan untuk data netral tidak digunakan karena tidak memberikan informasi yang penting. Pada penelitian ini untuk seluruh data dibagi ke dalam 5 kombinasi perbandingan rasio data

training dan data testing seperti pada

tabel dibawah ini.

Tabel 3.6. Rasio data training dan data testing N o. Jumlah Data Rasio Data Train ing : Testi ng (%) Data Train ing Data Testing 1 4000 20:8 0 800 3200 2 40:6 0 1600 2400 3 60:4 0 2400 1600 4 80:2 0 3200 800 5 90:1 0 3600 400

3.6. Simulasi Perhitungan

3.6.1. Simulasi TF-IDF

Misalkan terdapat empat buah dokumen yang diambil dari data sebagai berikut.

(8)

8 Dokumen

1:

@humaskedirires

@tonaytoni Tunda Mudik, Demi kesehatan dan keselamatan keluarga dikampung halaman. Dokumen 2: @humaskedirires @BANGSAygSUJUD Sayangi keluarga dengan tidak Mudik

Dokumen 3:

Pribumi dilarang mudik krn covid19,WNA china berdatangan tanpa

hambatan karena covid19 , sama sama krn covid19 kok perlakuan beda??!! Tanya nih prof @mohmahfudmd. https://t.co/Fs2a4EFQpV Dokumen

4:

@democrazymedia China bisa teruuuuss indonesia

Keempat dokumen tersebut dilakukan perhitungan pembobotan kata/query menggunakan metode TF-IDF. Misal kata/query yang digunakan adalah “mudik”, “larang” dan “china”. Keempat dokumen tersebut dilakukan proses

preprocessing maka akan mengalami

perubahan kata seperti berikut. Dokumen

1:

tunda mudik sehat selamat keluarga kampung

halaman Dokumen

2:

sayang keluarga tidak mudik

Dokumen 3:

pribumi larang mudik covid wna china datang tanpa hambat covid covid laku beda tanya prof Dokumen

4:

china Indonesia

Berdasarkan keempat dokumen tersebut diperoleh beberapa document

term sebagai berikut.

a. kam pung b. co vi d c. l a k u

Nilai bobot term kata “mudik” atau

W(mudik) dalam dokumen 1 dapat dihitung dengan mengetahui:

1. Jumlah kata mudik dalam dokumen 1 yaitu 1, maka TF(mudik) = 1

2. Jumlah seluruh dokumen yaitu 4, maka D = 4

3. Jumlah dokumen yang memuat kata mudik yaitu 4 dokumen, maka df(mudik) = 4

Oleh karena itu, dengan

menggunakan rumus pada persamaan 1 dan Persamaan 2 diperoleh nilai bobot term untuk kata “mudik” pada dokumen 1 sebagai berikut.

𝑊 𝑚𝑢𝑑𝑖𝑘 = 1 × (𝑙𝑜𝑔4 4+ 1) 𝑊 𝑚𝑢𝑑𝑖𝑘 = 1,125

Bobot term kata dalam masing-masing dokumen ditunjukkan pada tabel berikut.

Tabel 3.7. Hasil Perhitungan Bobot Masing-masing Dokumen Qu ery Dokume n D d f( A ) W 1 2 3 4 1 2 3 4 tun da 1 0 0 0 4 1 1, 6 0 2 0, 0 0 0 0, 0 0 0 0, 0 0 0

(9)

9 Qu ery Dokume n D d f( A ) W 1 2 3 4 1 2 3 4 mu dik 1 1 1 0 3 1, 1 2 5 1, 1 2 5 1, 1 2 5 0, 0 0 0 se hat 1 0 0 0 1 1, 6 0 2 0, 0 0 0 0, 0 0 0 0, 0 0 0 sel am at 1 0 0 0 1 1, 6 0 2 0, 0 0 0 0, 0 0 0 0, 0 0 0 kel uar ga 1 1 0 0 2 1, 3 0 1 1, 3 0 1 0, 0 0 0 0, 0 0 0 ka mp un g 1 0 0 0 1 1, 6 0 2 0, 0 0 0 0, 0 0 0 0, 0 0 0 hal am an 1 0 0 0 1 1, 6 0 2 0, 0 0 0 0, 0 0 0 0, 0 0 0 say an g 0 1 0 0 1 0, 0 0 0 1, 6 0 2 0, 0 0 0 0, 0 0 0 tid ak 0 1 0 0 1 0, 0 0 0 1, 6 0 2 0, 0 0 0 0, 0 0 0 pri bu mi 0 0 1 0 1 0, 0 0 0 0, 0 0 0 1, 6 0 2 0, 0 0 0 lar an g 0 0 1 0 1 0, 0 0 0 0, 0 0 0 1, 6 0 2 0, 0 0 0 cov id 0 0 3 0 3 0, 0 0, 0 3, 3 0, 0 Qu ery Dokume n D d f( A ) W 1 2 3 4 1 2 3 4 0 0 0 0 7 5 0 0 wn a 0 0 1 0 1 0, 0 0 0 0, 0 0 0 1, 6 0 2 0, 0 0 0 chi na 0 0 1 1 2 0, 0 0 0 0, 0 0 0 1, 3 0 1 1, 3 0 1 dat an g 0 0 1 0 1 0, 0 0 0 0, 0 0 0 1, 6 0 2 0, 0 0 0 tan pa 0 0 1 0 1 0, 0 0 0 0, 0 0 0 1, 6 0 2 0, 0 0 0 ha mb at 0 0 1 0 1 0, 0 0 0 0, 0 0 0 1, 6 0 2 0, 0 0 0 lak u 0 0 1 0 1 0, 0 0 0 0, 0 0 0 1, 6 0 2 0, 0 0 0 be da 0 0 1 0 1 0, 0 0 0 0, 0 0 0 1, 6 0 2 0, 0 0 0 tan ya 0 0 1 0 1 0, 0 0 0 0, 0 0 0 1, 6 0 2 0, 0 0 0 pro f 0 0 1 0 1 0, 0 0 0 0, 0 0 0 1, 6 0 2 0, 0 0 0 ind on esi a 0 0 0 1 1 0, 0 0 0 0, 0 0 0 0, 0 0 0 1, 6 0 2

(10)

10 Qu ery Dokume n D d f( A ) W 1 2 3 4 1 2 3 4 Nilai bobot setap

dokumen (∑W(di)) 1 0, 4 3 6 5, 6 3 0 2 1, 8 2 1 2, 9 0 3

Nilai bobot pada dokumen

menunjukkan tinggi rendahnya kesesuaian antara dokumen dengan query.

Berdasarkan table diatas diketahui bahwa dokumen yang memiliki tingkat simliaritas paling tinggi terhadap query “mudik”, “larang” dan “china” adalah dokumen 3, setelah itu dokumen 1, dokumen 2 dan dokumen 3 yang memiliki similiaritas terendah terhadap keempat query.

3.6.2. Simulasi Naïve Bayes

Misalkan terdapat empat buah dokumen yang telah melalui tahapan

preprocessing, dua dokumen diambil dari

kelas positif dan dua dokumen diambil dari kelas negatif. Dokumen tersebut adalah sebagi berikut.

Dokumen 1:

tunda mudik sehat selamat keluarga kampung

halaman Dokumen

2:

sayang keluarga tidak mudik

Dokumen 3:

pribumi larang mudik covid wna china datang tanpa hambat covid covid laku beda tanya prof

Dokumen 4:

china Indonesia

Tabel 3.8. Frekuensi Kemunculan Kata

N o. Query Dokumen 1 2 3 4 1 tunda 1 0 0 0 2 mudik 1 1 1 0 3 sehat 1 0 0 0 4 selam at 1 0 0 0 5 keluar ga 1 1 0 0 6 kampu ng 1 0 0 0 7 halam an 1 0 0 0 8 sayan g 0 1 0 0 9 tidak 0 1 0 0 1 0 pribu mi 0 0 1 0 1 1 larang 0 0 1 0 1 2 covid 0 0 3 0 1 3 wna 0 0 1 0 1 4 china 0 0 1 1 1 5 datan g 0 0 1 0 1 6 tanpa 0 0 1 0 1 7 hamb at 0 0 1 0 1 8 laku 0 0 1 0 1 9 beda 0 0 1 0 2 0 tanya 0 0 1 0 2 1 prof 0 0 1 0 2 2 indon esia 0 0 0 1 Kelas Posi tif Posi tif Nega tif Nega tif

(11)

11 Berdasarkan tabel diatas diketahui

bahwa kelas positif terdiri dari 2 dokumen dengan jumlah kata sebanyak 11 kata dari 22 kosakata yang ada, sedangkan 2 dokumen kelas negatif terdiri dari 17 kata dari 22 kosakata yang ada. Berdasarkan jumlah kata tersebut, dapat dihitung nilai probabilitas untuk setiap kelasnya dengan menggunakan persamaan berikut.

1. Probabilitas kata kelas positif Contoh perhitungan probabilitas untuk kata “mudik” yang terdapat dalam kelas positif. 𝑃 𝑎𝑖 𝑣𝑗= 𝑛𝑖+ 1 𝑛 + 𝑘𝑜𝑠𝑎𝑘𝑎𝑡𝑎 𝑃 𝑚𝑢𝑑𝑖𝑘 𝑝𝑜𝑠𝑖𝑡𝑖𝑓 = 2 + 1 11 + 22= 0,09091 dimana,

ni : jumlah kata “mudik” dalam dokumen kelas positif

n : jumlah seluruh kata pada dokumen kelas positif

kosakata : jumlah kata dalam fase

training

Nilai probabilitas untuk kata yang lain, dengan menggunakan cara

perhitungan yang sama ditunjukkan oleh tabel berikut ini.

Tabel 3.9. Probabilitas Kata Kelas Positif Query n i n Kosaka ta Probabilit as tunda 1 1 1 22 0,06061 mudik 2 1 1 22 0,09091 sehat 1 1 1 22 0,06061 selamat 1 1 1 22 0,06061 keluarga 2 1 1 22 0,09091 kampun g 1 1 1 22 0,06061 halaman 1 1 1 22 0,06061 sayang 1 1 1 22 0,06061 tidak 1 1 1 22 0,06061 pribumi 0 1 1 22 0,03030 larang 0 1 1 22 0,03030 covid 0 1 1 22 0,03030 wna 0 1 1 22 0,03030 china 0 1 1 22 0,03030 datang 0 1 1 22 0,03030 tanpa 0 1 1 22 0,03030 hambat 0 1 1 22 0,03030 laku 0 1 1 22 0,03030 beda 0 1 1 22 0,03030 tanya 0 1 1 22 0,03030 prof 0 1 1 22 0,03030 indonesi a 0 1 1 22 0,03030

2. Probabilitas kata kelas negatif

Contoh perhitungan probabilitas kata “mudik” negatif.

𝑃 𝑎𝑖 𝑣𝑗=

𝑛𝑖+ 1 𝑛 + 𝑘𝑜𝑠𝑎𝑘𝑎𝑡𝑎

(12)

12 𝑃 𝑚𝑢𝑑𝑖𝑘 𝑛𝑒𝑔𝑎𝑡𝑖𝑓 = 1 + 1

17 + 22 = 0,05128 dimana,

ni : jumlah kata “mudik” dalam dokumen kelas negatif

n : jumlah seluruh kata pada dokumen kelas negatif

kosakata : jumlah kata dalam fase

training

Nilai probabilitas untuk kata yang lain dalam kelas negatif ditunjukkan oleh tabel dibawah ini.

Tabel 3.10. Probabilitas Kata Kelas Negatif

Query ni n Kosakata Probabilitas

tunda 0 17 22 0,02564 mudik 1 17 22 0,05128 sehat 0 17 22 0,02564 selamat 0 17 22 0,02564 keluarga 0 17 22 0,02564 kampung 0 17 22 0,02564 halaman 0 17 22 0,02564 sayang 0 17 22 0,02564 tidak 0 17 22 0,02564 pribumi 1 17 22 0,05128 larang 1 17 22 0,05128 covid 3 17 22 0,10256 wna 1 17 22 0,05128 china 2 17 22 0,07692 datang 1 17 22 0,05128 tanpa 1 17 22 0,05128 hambat 1 17 22 0,05128 laku 1 17 22 0,05128 beda 1 17 22 0,05128 tanya 1 17 22 0,05128 prof 1 17 22 0,05128 indonesia 1 17 22 0,05128

Nilai probabilitas kata pada masing-masing kelas tersebut, kemudian disimpan pada database yang nantinya akan digunakan untuk menguji data baru. Misal ingin diketahui kelas data dari tanggapan baru “mudik larang china”. Langkah pertama yang dilakukan untuk melakukan klasifikasi adalah memecah kalimat dalam tanggapan tersebut menjadi kata per kata, selanjutnya menghitung nilai probabilitas dari kata pada masing-masing kelas dengan menggunakan tabel

probabilitas kata yang telah diperoleh sebelumnya, sedangkan probabilitas masing-masing kelas ditentukan dengan menggunakan persamaan berikut.

Tabel 3.11. Nilai Probabilitas Tanggapan Baru Kela s mudi k laran g china Nilai Probabil itas Posit if (P = 0,5) 0,090 91 0,030 30 0,030 30 0,00004 Nega tif (P = 0,5) 0,051 28 0,051 28 0,076 92 0,00010

(13)

13 Hasil klasifikasi dari kelas tanggapan

baru tersebut adalah kelas atau kategori yang memiliki probabilitas tertinggi. Berdasarkan tabel diatas diketahui bahwa nilai probabilitas tertinggi adalah

probabilitas kelas negatif, maka tanggapan baru “mudik larang china” masuk ke dalam kelas negatif.

3.6.3. Simulasi Perhitungan Kinerja

Machine Learning

Untuk menggambarkan seberapa baik kinerja machine learning dalam mengklasifikasikan data, salah satu metode yang digunakan sebagai pengukuran kinerja klasifikasi yaitu

confusion matrix. Confusion matrix

mengandung nilai true positif, true negatif,

false positif, dan false negatif. Nilai dari true positif dan true negatif memberikan

informsai bahwa ketika clasifier dalam melakukan klasifikasi data yang bernilai benar, dan sedangkan false negatif dan

false positif memberikan informasi bahwa

ketika clasifier salah dalam melakukan pengklasifikasian data.

Pengukuran efektif dapat dilakukan dengan perhitungan nilaia akurasi, nilai

precision, dan nilai recall. Misalkan

diperoleh confusion matrix hasil perhitungan klasifikasi menggunakan algoritma Naïve Bayes sebagai berikut.

Tabel 3.12. Confusion Matrix Perhitungnan Naïve Bayes

Prediksi aktual positif negatif positif 903 (TP) 697 (FN) negatif 118 (FP) 1482 (TN)

Berdasarkan tabel diatas diperoleh nilai TP sebesar 903, FN sebesar 697, FP sebesar 118 dan TN sebesar 1482. Sehingga untuk menghitung nilai akurasi,

precision dan recall tersebut adalah

sebagai berikut. 𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = (𝑇𝑃 + 𝑇𝑁) (𝑇𝑃 + 𝐹𝑃 + 𝑇𝑁 + 𝐹𝑁) 𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = (903 + 1482) 903 + 118 + 1482 + 697) 𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =2385 3200 𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 0,7453125 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑇𝑃 (𝑇𝑃 + 𝐹𝑃) 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 903 (903 + 118) 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 903 1021 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 0,884427 𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑃 (𝑇𝑃 + 𝐹𝑁) 𝑅𝑒𝑐𝑎𝑙𝑙 = 903 (903 + 697) 𝑅𝑒𝑐𝑎𝑙𝑙 = 903 1600 𝑅𝑒𝑐𝑎𝑙𝑙 = 0,564375

(14)

14

3.7. Kebutuhan Perangkat Lunak

(Software)

Perangkat lunak, versi dan fungsi dapat dilihat pada tabel dibawah ini.

Tabel 3.13. Tabel Perangkat Lunak Software Versi Fungsi

Microsoft Windows 10 Sebagai sistem operasi penelitian ini Microsoft Office Word 2016 Digunakan untuk mengolah laporan ini Microsoft Office Excel 2016 Digunakan sebagai media penulisan dan pengolahan data set R 3.6.0 Digunakan untuk mengolah data set dan untuk melihat uji performance dari kinerja machine learning serta visualisasi data. RStudio 1.3.959 Digunakan untuk IDE (Integrated Development Environtment) dalam menuliskan code R script.

3.8. Kebutuhan Perangkat Keras

(Hardware)

Selain perangkat lunak (software) dibutuhkan pula perankat keras

(hardware) sebagai pendukung penelitian data mining, yaitu laptop. Adapun

spesifikasi laptop dijelaskan pada tabel dibawah ini.

Spesifikasi Hardware

Keterangan

Processor Intel(R) Core(TM) i5-4300M CPU @ 2.60GHz (4CPUs), ~2.6GHz RAM (Random Accsess Memory) 8192 MB

Operating System Windows 10 Pro 64-bit (10.0, Build 19041)

3.9. Waktu Penelitian

Penelitian ini direncanakan mengikuti jadwal penelitian pada bulan April sampai juni

HASIL DAN PEMBAHASAN

4.1.1. Analisis Data

Analisis data tanggapan digunakan untuk mengetahui gambaran umum mengenai data tanggapan tentang mudik ditengah pendemi covid-19 setelah melalui

text preprocessing dan pelabelan secara

otomatis oleh kamus lexicon. Data tanggapan yang diperoleh pada tanggal 6 Mei 2021 sampai 8 Mei 2021 ini

dikategorikan ke dalam tiga kelas kategori yaitu tanggapan positif, tanggapan negatif dan tanggapan netral. Secara keseluruhan, gambaran mengenai tanggapan yang diperoleh berdasarkan masing-masing kategori ditunjukkan oleh grafik berikut ini.

(15)

15 Gambar 4.1. Grafik Jumlah Dan

Persentase Data Tanggapan

Berdasarkan grafik diatas, diketahui bahwa dari total tanggapan yang diperoleh dari twitter yaitu 7991 tanggapan,

sebanyak 2274 (28%) tanggapan merupakan tanggapan positif yaitu tanggapan yang mendukung atau

menyukai mudik ditengah pandemi covid-19 sedangkan 3237 (41%) tanggapan merupakan tanggapan negatif yaitu tanggapan yang kurang menyukai suatu hal yang berhubungan dengan mudik ditengah pandemi covid-19 dan untuk tanggapan netral sebanyak 2480 (31%) tanggapan.

Dilihat dari jumlah persentase data tanggapan mengenai mudik di masa pandemi covid-19 ini, tanggapan negatif lebih besar dibandingkan tanggapan positf dengan selisih 963 (13%) tanggapan.

4.1.2. Pembagian Data Training Dan

Data Testing

Dalam penelitian ini klasifikasi dilakukan dengan menggunakan algoritma

Naive Bayes. Klasifikasi dilakukan untuk

mengetahui hasil kinerja machine learning dalam melakukan klasifikasi terhadap data tanggapan. Total data tanggapan yang telah diperoleh dibagi ke dalam 5 kombinasi data dengan menggunakan perbandingan rasio, untuk selanjutnya dilakukan klasifikasi dengan algoritma yang telah ditentukan. Hasil klasifikasi tersebut disajikan dalam bentuk tabel.

4.1.3. Kinerja Naïve Bayes

Berikut ini hasil average accuracy,

macro average precision, dan macro average recall dengan menggunakan

algoritma Naive Bayes pada 5 perbedaan rasio data yang telah ditentukan mengenai larangan mudik ditengah pandemi covid-19. Metode nilai average accuracy, macro

average precision, dan macro average recall digunakan untuk mengetahui kinerja machine learning secara keseluruhan dari

seluruh data set yang ada Analisis Hasil Pengujian

Pengujian kinerja machine learning difokuskan pada perbandingan rasio yang memiliki kinerja terbaik didasarkan pada tingkat akurasi yang tinggi. Perbandingan akurasi berdasarkan jumlah data uji pada algoritma Naive Bayes pada masing-masing rasio berdasarkan hasil evaluasi menggunakan 10-fold cross validation ditunjukkan oleh tabel dibawah ini.

Tabel 4.1. Perbandingan Accuracy pada rasio data berbeda

menggunakan 10-fold cross validation

Positif 2274 28% Negatif 3237 41% Netral 2480 31%

JUMLAH DAN PERSENTASE DATA TANGGAPAN

(16)

16 N o. Rasio Perbandingan (%) Accuracy Naive Bayes 1 20:80 (800:3200) 81,7175 2 40:60 (1600:2400) 82,41667 3 60:40 (2400:1600) 83,0625 4 80:20 (3200:800) 81 5 90:10 (3600:400) 81,71875 Rata-rata 81,983334

Berdasarkan Tabel diatas diketahui bahwa algoritma Naïve Bayes dalam mengklasifikasikan data tanggapan

mengenai larangan mudik pada masa pandemi covid-19 ini memiliki tingkat akurasi tertinggi yaitu sebesar 83,06% pada perbandingan rasio 60:40 atau dengan perbandingan data sebesar 2400 untuk data training dan 1600 untuk data testing.

Faktor yang menyebabkan naik turunnya akurasi dari masing-masing algoritma adalah adanya dokumen uji yang semua term-nya tidak terdapat di

dokumen latih, dengan kata lain machine

learning tidak pernah mengenal term ini

sebelumnya. Apabila ada term baru dari dokumen uji, perhitungan tidak dapat dilanjutkan karena term tersebut tidak memiliki nilai untuk dimasukan ke persamaan dalam machine learning.

4.2.1. Visualisasi

Visualisasi dilakukan terhadap masing-masing klasifikasi kelas sentimen, adapun tujuan visualisasi adalah untuk mengekstraksi informasi berupa topik yang

paling sering di bicarakan / diulas oleh pengguna Twitter, sehingga dari sekian banyak tanggapan yang ada, dapat diambil informasi yang dianggap penting

berdasarkan kata yang paling sering muncul. Berikut penjelasan hasil visualisasi kata dari setiap klasifikasi kelas sentimen.

Pada hasil klasifikasi tanggapan positif tentang pelarangan mudik dimasa pandemi covid-19, dari jumlah ulasan positif sebanyak 2274 ulasan, diperoleh 10 kata yang paling banyak muncul

diantaranya adalah kata ”keluarga” dengan frekuensi sebanyak 703 kali, “kampung” sebanyak 642 kali,

“patuhtidakmudik” sebanyak 593 kali, “libur” sebanyak 560 kali, “kerumun” sebanyak 536 kali, “halaman” sebanyak 496 kali, “sehat” sebanyak 437 kali, “lebaran” sebanyak 431 kali, “polisijatim” sebanyak 401 kali, dan “selamat”

sebanyak 400 kali. Kata-kata yang muncul pada gambar di atas merupakan 10 kata yang dimiliki sentiment positif dan

merupakan topik pembicaraan yang paling banyak diulas oleh pengguna Twitter mengenai pelarangan mudik.

(17)

17 Visualisasi word cloud pada gambar di atas

memberikan gambaran yang lebih jelas tentang topik dan kata-kata positif yang sering digunakan pengguna twitter dalam memberikan ulasan. Semakin besar ukuran kata pada word cloud menggambarkan semakin tinggi pula frekuensi kata

tersebut, artinya semakin sering pengguna menggunakan kata tersebut sebagai topik pembicaraan atau penilaian positif dalam ulasan. Word cloud pada. Beberapa topik atau kata yang sering di bahas pengguna

twitter mengenai pelarangan mudik

diantaranya adalah kata “keluarga”, “kampung”, “patuhtidakmudik”, “libur”, “kerumun”, “halaman”, “sehat”,

“lebaran”, “polisijatim” dan “selamat

Pada hasil klasifikasi ulasan negatif pengguna twitter terhadap pelarangan mudik diperoleh beberapa kata yang paling banyak muncul dengan topik yang dianggap relevan sebagai sentimen negatif diantaranya adalah kata “pandemi” dengan frekuensi sebanyak 785 kali, “larang” sebanyak 683 kali,

“silaturahmitanpamudik” sebanyak 434

kali, “keluarga” sebanyak 423 kali,

“lebaran” sebanyak 278, “virus” sebanyak 245 kali, “lawan” sebanyak 228 kali, “orang” sebanyak 228 kali, “polisijatim” sebanyak 225 kali dan “selamat” sebanyak 224 kali. Kata-kata yang muncul pada gambar di atas merupakan kata yang dimiliki sentiment negatif dan merupakan kata atau topik pembicaraan yang paling banyak diulas oleh pengguna twitter terhadap larangan mudik di masa pandemi covid-19 di Indonesia.

Visualisasi word cloud pada gambar di atas memberikan gambaran yang lebih jelas tentang topik dan kata-kata negatif yang sering digunakan pengguna twitter dalam memberikan tanggapan terhadap larangan mudik. Beberapa topik yang sering di bahas pengguna twitter diantaranya adalah kata “pandemi”.

KESIMPULAN

1. Hasil deskripsi tanggapan mengenai larangan mudik pada saat pandemi covid-19 di Indonesia dengan jumlah 7991 tweet dari tanggal 6 Mei sampai 8 Mei 2021. Dalam tweet tersebut terdapat 2274 yang mengandung tanggapan positif sedangkan 3237

tweet mengandung tanggapan negatif

2. Hasil algoritma Naïve Bayes dalam mengklasifikasikan data tanggapan mengenai larangan mudik pada masa pandemi covid-19 ini memiliki tingkat

(18)

18 akurasi tertinggi yaitu sebesar 83,06%

pada perbandingan rasio 60:40 atau dengan perbandingan data sebesar 2400 untuk data training dan 1600 untuk data testing.

SARAN

1. Data yang digunakan pada penelitian ini hanya satu periode, yaitu pada bulan 6 Mei 2021 sampai 8 Mei 2021, sehingga perlu diperbanyak periode waktu pengumpulan data agar informasi yang diperoleh lebih mendalam

2. Perlu adanya sebuah optimasi dalam model sehingga dapat di dapatkan lebih sempurna dan di dapatkan

REFERENSI

[1] “Larangan Mudik Lebaran 2021 Berlaku Mulai Besok 6 Mei, Ini Rincian Aturan dan yang Boleh Bepergian - Halaman all - Tribunnews.” .

[2] N. M. A. J. Astari, Dewa Gede Hendra Divayana, and Gede Indrawan, “Analisis Sentimen Dokumen Twitter Mengenai

Dampak Virus Corona

Menggunakan Metode Naive Bayes Classifier,” J. Sist. dan Inform., Vol. 15,

[3] Samsir, Ambiyar, U. Verawardina, F. Edi, and R.

Watrianthos, “Analisis Sentimen Pembelajaran Daring Pada Twitter di Masa Pandemi COVID-19 Menggunakan Metode Naïve Bayes,” J. Media Inform. Budidarma, Vol. 5, pp. 157–163,

2021, doi:

10.30865/mib.v5i1.2604.

[4] D. A. Muthia, “Komparasi Algoritma Klasifikasi Text Mining Untuk Analisis Sentimen Pada Review Restoran,” J. PILAR Nusa

Mandiri, Vol. 14, no. 1, pp. 69–74,

2018.

[5] A. Fauzi, M. F. Akbar, and Y. F. A. Asmawan, “Sentimen Analisis Berinternet Pada Media Sosial dengan Menggunakan Algoritma Bayes,” J. Inform., vol. 6, no. 1, pp.

77–83, 2019, doi:

10.31311/ji.v6i1.5437.

[6] Setiati, S., Azwar, M.K, “COVID-19 and indonesia”. Acta Media Indonesia. Vol. 52, 84-89, 2020

[7] A. Sari, F. V., & Wibowo, “Analisis Sentimen Pelanggan Toko Online Jd. Id Menggunakan Metode Naïve Bayes Classifier Berbasis Konversi Ikon Emosi,”

Simetris J. Tek. Mesin, Elektro dan Ilmu Komput., vol. 2, no. 2, pp.

(19)

19 681–686, 2019.

[8] Kementrian Kesehatan RI, “pedoman Pencegahan dan pengendalian Corona Virus deases (COVID-19), “ Kementrian Kesehatan., vol. 5, p. 178, 2020. [Online]. Avaliable : https://covid19.go.id/storage/app /media/Protokol/REV- 05_Pedoman_P2_COVID-19_13_Juli_2020.pdf.

[9] Andaka and Dian, “Dampak Pelarangan Mudik Akibat Pandemi Covid19 Terhadap Bisnis Angkutan Udara Di Indonesia,” J. Civ. Eng.

Plan., vol. 1, no. 2, pp. 116–129,

2020.

[10] B. M. Pintoko and K. M. L., “Analisis Sentimen Jasa Transportasi Online pada Twitter Menggunakan Metode Naive Bayes Classifier,”

e-Proceeding Eng., vol. 5, no. 3, pp.

8121–8130, 2018.

[11] M. A. Ramdhani and O. N. Rahim, “Analisis sentimen untuk mengukur popularitas tokoh publik berdasar data pada media sosial twitter menggunakan algoritma data mining dengan teknik klasifikasi,” Informasi, vol. VI, no. 2, pp. 1–15, 2014.

[12] F. Sodik and I. Kharisudin, “Analisis

Sentimen dengan SVM , NAIVE BAYES dan KNN untuk Studi Tanggapan Masyarakat Indonesia Terhadap Pandemi Covid-19 pada Media Sosial Twitter,” Prisma, vol. 4, pp. 628–634, 2021.

[13] Wiyanto, W. Prianta, and J. S. Hidayat, “IMPLEMENTASI TERM FREQUENCY -INVERSE DOCUMENT FREQUENCY (TF- IDF) DAN VECTOR SPACE MODEL (VSM) UNTUK PENCARIAN BERITA BAHASA Pelita Teknologi: Jurnal Ilmiah Informatika, Arsitektur dan Lingkungan,” J. Ilm. Inform. Arsit.

dan Lingkung., vol. 14, no. 2, pp.

119–133, 2019.

[14] E. Prasetyowati and N. Ramadhani, “Sistem Evaluasi Dan Klasifikasi Kinerja Akademik Mahasiswa Universitas Madura Menggunakan Naive Bayes Dengan Dirichlet Smoothing,” JUTI J. Ilm. Teknol. Inf., vol. 16, no. 2, p. 192, 2018, doi: 10.12962/j24068535.v16i2.a688. [15] H. Azis, P. Purnawansyah, F. Fattah,

and I. P. Putri, “Performa Klasifikasi K-NN dan Cross Validation Pada Data Pasien Pengidap Penyakit Jantung,” Ilk. J. Ilm., vol. 12, no. 2, pp. 81–86, 2020, doi: 10.33096/ilkom.v12i2.507.81-86.

(20)

20 [16] M. F. Rahman, D. Alamsah, M. I.

Darmawidjadja, and I. Nurma, “Klasifikasi Untuk Diagnosa Diabetes Menggunakan Metode Bayesian Regularization Neural Network (RBNN),” J. Inform., vol. 11, no. 1, p. 36, 2017, doi: 10.26555/jifo.v11i1.a5452

[17] Andreyestha, “Analisis Sentimen Masyarakat Terhadap Fenomena Teroris Melalui Twitter Di Indonesia,” J. Kaji. Ilm., vol. 19, no. 3, pp. 239–247, 2016.

[18] R. E. Sihombing, D. Rachmatin, and J. A. Dahlan, “Program Aplikasi Bahasa R Untuk Pengelompokan Objek Menggunakan Metode K-Medoids Clustering,” Progr. Apl.

Bhs. R Untuk Pengelompokan Objek Menggunakan Metod. K-Medoids Clust., vol. 7, no. 1, pp.

58–79, 2019.

[19] J. Agribisnis and F. Pertanian, “khazanah informatika Penerapan Reproducible Research pada RStudio dengan Bahasa R dan Paket Knitr,” pp. 1–5.

[20] F. Ratnawati, “Implementasi Algoritma Naive Bayes Terhadap Analisis Sentimen Opini Film Pada Twitter,” INOVTEK Polbeng - Seri

Inform., vol. 3, no. 1, p. 50, 2018,

doi: 10.35314/isi.v3i1.335.

[21] Y. Cahyono, “Analisis Sentiment pada Sosial Media Twitter Menggunakan Naїve Bayes Classifier dengan Feature Selection Particle Swarm Optimization dan Term Frequency,” J. Inform. Univ.

Pamulang, vol. 2, no. 1, p. 14, 2017,

doi:

10.32493/informatika.v2i1.1500. [22] S. -, A. Fadlil, and S. -, “Analisis

Sentimen Menggunakan Metode Naïve Bayes Classifier Pada Angket Mahasiswa,” Saintekbu, vol. 10, no. 2, pp. 1–9, 2018, doi: 10.32764/saintekbu.v10i2.190.