BAB II
LANDASAN TEORI
2.1 Covid – 19
Pada tahun 2020, masyarakat global menyaksikan kemunculan virus corona jenis baru penyebab penyakit virus corona, atau yang sekarang dikenal dengan COVID 19. Virus ini pertama kali muncul di Wuhan, Provinsi Hubei, China pada akhir tahun 2019 dan menyebar dengan cepat dari satu kota ke seluruh China hanya dalam waktu 30 hari1. Saat ini, hampir semua negara terkena dampak merebaknya infeksi COVID19. Ini merupakan beban tersendiri bagi pelayanan medis dan kesehatan masyarakat. Tantangan dalam perang melawan COVID-19 termasuk tingkat penyebaran COVID-19 dan penyebarannya, tetapi sedikit yang diketahui tentang pengobatan penyakit ini dan vaksin masih dalam pengembanga.[1]
Wabah COVID-19 di Indonesia secara resmi dikonfirmasi oleh Presiden Indonesia pada 2 Maret 2020. Sejak itu, jumlah kasus yang dikonfirmasi per hari telah dilaporkan secara luas. Pada pertengahan Maret 2020, Presiden menghimbau kepada seluruh lapisan masyarakat untuk melakukan social distancing. Ibukota DKI Indonesia, Provinsi Jakarta, memimpin inisiatif dengan menutup sekolah dan pekerjaan serta membatasi acara publik pada 16 Maret 2020. Dengan peningkatan tajam dalam kasus yang dikonfirmasi, yang telah meningkat secara signifikan, pihak berwenang telah mengambil beberapa langkah. Pemerintah, termasuk penutupan transportasi umum, larangan perjalanan internal, dan penutupan perbatasan[13]
2.2 PeduliLindungi
Dalam situasi pandemi saat seperti ini, Pendekatan komunikasi dapat memanfaatkan media komunikasi digital yang saat ini digunakan oleh masyarakat luas. Untuk itu, KOMINFO bekerja sama dengan Kementerian Kesehatan dan Kementerian Badan Usaha Milik Negara (BUMN) mengembangkan aplikasi
pemerintah Indonesia untuk melacak dan menghentikan penyebaran virus Covid- 19 di wilayah Negara Kesatuan Republik Indonesia. Aplikasi PeduliLindungi diharapkan dapat melindungi masyarakat Indonesia dengan mengandalkan partisipasi masyarakat untuk berbagi data lokasi selama perjalanan dan melacak riwayat kontak dengan pasien Covid-19.[5]
Pemerintah Indonesia telah meluncurkan aplikasi pelacakan COVID-19.
PeduliLindung adalah aplikasi yang dikembangkan oleh anak-anak Indonesia.
Permohonan ini diajukan langsung oleh Kementerian Informasi dan Komunikasi.
Aplikasi ini dibuat dalam upaya untuk mengurangi virus Covid-19. Aplikasi ini bergantung pada keterlibatan komunitas.[5]
2.3 Text mining
Text mining adalah proses penggalian data berupa teks, yang bertujuan untuk mengambil sumber data dari suatu dokumen dan menganalisis hubungan antar dokumen dengan mencari kata-kata yang menggambarkan isi dari dokumen tersebut. Tujuan dari text mining adalah untuk mengekstrak informasi yang berguna dari sumber data. Dengan demikian, sumber data yang digunakan dalam text mining adalah kumpulan dokumen yang tidak terstruktur dengan mengidentifikasi dan mengeksplorasi pola-pola yang menarik.
Penambangan teks mencoba memecahkan masalah kelebihan informasi dengan menggunakan metode dari disiplin ilmu terkait. Penambangan teks dapat dianggap sebagai perpanjangan dari penambangan data atau penemuan pengetahuan dalam basis data (KDD), yang bertujuan untuk menemukan pola menarik dalam basis data besar.[14]
2.4 Text processing
Penambangan teks memiliki langkah-langkah pra-pemrosesan untuk memodifikasi data sesuai dengan data yang dibutuhkannya. Proses ini dilakukan untuk mempelajari, mengolah, dan mengorganisasikan informasi untuk menganalisis hubungan tekstual dalam data terstruktur dan tidak terstruktur. Ada beberapa tahapan dalam preprocessing, yang dibagi menjadi beberapa bagian [15]
- Case Folding
Case Folding adalah fase yang bertujuan untuk membuat semua kata menjadi bentuk yang sama. Setiap kata diubah menjadi huruf kecil tanpa huruf besar. [16]
- Data Cleansing Data
Pembersihan data adalah langkah menghilangkan koma, titik, dan pembatas tanda baca lainnya serta menghapus emotikon, sebutan, atau tautan yang tidak boleh mengganggu pembersihan data. Tujuan dari langkah ini adalah untuk mengurangi jumlah komponen yang tidak dibutuhkan. [17]
- Normalisasi Bahasa / Normalisasi Bahasa Word Replacer adalah langkah menuju normalisasi bahasa dalam bahasa non-standar. Tujuan dari langkah ini adalah untuk mengembalikan ejaan kata ke bentuk kata yang setara. [18]
- Stopword Removal Penghapusan stopword adalah daftar kata-kata umum yang tidak penting dan tidak digunakan. Proses ini mengurangi jumlah kata yang disimpan sistem. [18]
- Tokenisasi Tokenisasi merupakan tahapan untuk memotong dokumen yang dapat berupa paragraf atau kalimat menjadi beberapa pecahan kecil yang kata. [18]
2.5 Analisis sentiment
Analisis sentimen adalah proses mengidentifikasi emosi dalam dokumen atau kalimat dan mengklasifikasikan polaritas teks untuk mengklasifikasikan kategori positif, negatif, dan netral. Para peneliti sekarang banyak menggunakan analisis sentimen sebagai cabang dari informatika. Media sosial seperti Twitter biasanya digunakan untuk menganalisis sentimen dan membentuk opini publik.
Analisis sentimen juga dapat dibandingkan dengan ekstraksi opini karena berfokus pada opini seperti.[19]
Menyatakan positif atau negatif. Dalam analisis sentimen, penambangan data dilakukan untuk menganalisis, memproses, dan mengekstrak data tekstual dalam suatu entitas, seperti layanan, produk, individu, fenomena atau topik tertentu.
Proses analisis dapat mencakup teks ulasan, forum, tweet, atau blog, dengan data
preprocessing mencakup proses tokenization, stopword, penghapusan, stemming, identifikasi sentimen, dan klasifikasi sentiment. [19]
2.6 Twitter
Gambar 2. 1 Twitter
Twitter adalah alat komunikasi yang dapat digunakan orang untuk mengekspresikan diri, dan lebih diminati di komunitas global. Twitter memiliki istilah tweet yang artinya pengguna Twitter dapat memberikan berita, suara, aspirasi, dan opini terbaru yang ditulis oleh pengguna Twitter lainnya, terutama topik atau opini yang sedang menjadi topik utama pembicaraan saat ini. Hal ini menjadikan Twitter sebagai tempat untuk menempatkan sumber data teks. Dengan cara ini, peneliti dapat memanfaatkan Rapidminer untuk melakukan penggalian data sekaligus mengekstraksi data untuk digunakan dalam penelitian ini.[20]
2.7 Naïve bayes
Naïve Bayes merupakan algoritma klasifikasi yang sederhana dan paling sering untuk digunakan. Sebuah model klasifikasi NB mampu untuk menghitung probabilitas posterior kelas berdasarkan distribusi kata dalam dokumen. Ini didasarkan pada representasi kata atau bags of words yang sangat sederhana dari dokumen. Model bekerja dengan mengekstraksi fitur kumpulan kata yang mengabaikan posisi kata dalam dokumen. Naïve Bayes digunakan untuk memprediksi kemungkinan bahwa sekumpulan fitur tertentu akan menjadi milik label tertentu. Untuk analisis sentimen Twitter, Naive Bayes menggunakan biggram
data Twitter sebagai fungsi. Proses ini dibagi lagi menjadi label Negativr, Positive dan Neutral. [11]
Naïve Bayes adalah pembelajaran mesin menggunakan komputasi probabilistik menggunakan konsep pendekatan Bayesian. Kegunaan teorema bayes pada algoritma Naive Bayes adalah dengan menggabungkan probabilitas prior dan conditional menjadi suatu rumus yang dapat digunakan untuk menghitung probabilitas dari setiap kemungkinan klasifikasi.[16]
Rumus 2. 1 NVB
Dimana, (𝑡𝑖|𝑐𝑘)
merupakan probabilitas bersyarat dari kata 𝑡𝑖yang terjadi di dalam dokumen dari kelas
𝑐𝑘; (𝑐𝑘) merupakan probabilitas sebelumnya dari dokumen yang terjadi didalam kelas 𝑐𝑘. 𝑃(𝑡𝑖|𝑐𝑘) , dan 𝑃(𝑐𝑘) diperkirakan dari data training [16]
2.8 Svm
Support Vector Machine (SVM) adalah suatu teknik untuk melakukan suatu prediksi, baik dalam kasus klasifikasi atau regresi. Metode SVM memiliki prinsip dasar linier classifier yaitu kasus klasifikasi yang dapat dipisahkan seara linier, namun SVM yang dikembangkan dapat bekerja dengan problem nonlinier dengan memasukkan konsep kernel pada ruang berdimensi tinggi. Pada ruang berdimensi tinggi, hyperplane yang akan dapat memaksimalkan jarak (margin) antara kelas data [21]
Gambar 2. 2 hyperplane
Konsep SVM adalah pencarian hyperplane teraik yang erfungsi seagai pemisah data dari dua kelas di ruang input. Hyperplane pemisah teraik adalah hyperplane yang terletak di tengah antara dua set ojek dari dua kelas. Hyperplane teraik dapat ditemukan dengan memaksimalkan margin atau jarak dua set ojek dari dua kelas yang ereda. Kita dapat erasumsi ahwa kedua kelas dapat sepenuhnya dipisahkan oleh hyperplane (linear separale). Namun secara umum dua kelas dalam ruang input tidak dapat sepenuhnya dipisahkan (nonlinier separale). Untuk mengatasi masalah ini SVM diformat ulang dengan memperkenalkan metode margin[21]
2.9 K-NN
Algoritma KNN merupakan salah satu algoritma yang paling banyak digunakan. KNN ini termasuk dalam grup pembelajaran berbasis instan. Metode KNN merupakan metode pembelajaran lazy learning. Metode ini digunakan untuk mengklasifikasikan data yang berjarak sempit. Disebutkan pula bahwa algoritma KNN merupakan algoritma pembelajaran yang banyak digunakan dalam Cyber Physical Social Systems (CPSS) untuk analisis dan pengumpulan data.
Algoritma K-Nearest Neighbor merupakan salah satu metode klasifikasi pengambilan keputusan berdasarkan jarak terdekat pada nilai data[5] dengan persamaan yang digunakan matriks satuan jarak atau biasanya menggunakan Eucliden :
Dx
Rumus 2. 2 K-NN
Keterangan : D : jarak terdekat
X1 : Sampel data atau Data Training X2 : Data uji atau Data Testing n : Jumlah atribut setiap kasus i : Atribut individu dari 1 sampai n [22]
Perhitungan klasifikasi nasabah yang melakukan pengajuan kartu kredit dapat dihitung dengan menggunakan metode K-Nearest Neighbor dengan langkah- langkah sebagai berikut :
- Menghitung jarak eucliden pada data training.
- Mengurutkan hasil dari jarak eucliden secara asceding (berurutan dari kecil ke besar).
- Menentukan parameter k (jumlah tetangga terdekat). Penentuan parameter k (jumlah tetangga terdekat) pada penelitian ini menggunakan k=5. Nilai k yang digunakan dalam penelitian ini seluruhnya menggunakan nilai ganjil karena label/hasil akhir klasifikasi mempunyai 4 kemungkinan yaitu classic, gold, platinum dan tidak diterima, sehingga k=5 merupakan parameter terdekat dari hasil akhir.
- Menentukan variabel Y atau pada kategori kartu kredit berdasarkan pada nilai k.
- Menentukan probabilitas tertinggi. [22]
2.10 Confusion Matrix
Confusion Matrix adalah suatu metode untuk mengevaluasi suatu metode klasifikasi dalam hal keakuratan hasil klasifikasi. Keakuratan klasifikasi mempengaruhi efisiensi. Analisis dapat dilakukan dengan menggunakan matriks konfusi. Matriks klasifikasi adalah metode evaluasi metode klasifikasi untuk keakuratan hasil klasifikasi. Keakuratan klasifikasi mempengaruhi efisiensinya.
Analisis dapat dilakukan dengan menggunakan matriks konfusi, yaitu matriks prediksi yang akan dibandingkan dengan kelas data masukan asli. Blend Matrix adalah alat yang berguna untuk menganalisis seberapa baik pengklasifikasi mengenali tupel dari kelas yang berbeda. TP dan TN memberikan informasi ketika pengklasifikasi salah. Berikut adalah gambar matriks konfusi..[23]
.
Gambar 2. 3 Confusion Matrix
Gambar 2.3 diatas dapat diartikan sebagai berikut:
1. True Positive (TP) merupakan prediksi positif dan benar.
2. True Negative (TN) merupakan prediksi negatif dan benar.
3. False Positive (FP) merupakan prediksi positif dan salah.
4. False Negative (FN) merupakan prediksi negatif dan salah.
Perhitungan akurasi, presisi, dan recall yang dilakukan dengan Confusion Matrix sebagai berikut pada tabel 2.1:
Table 2. 1 Confusion Matrix
Akurasi (TP + TN) / (TP + FP + FN + TN)
Presisi TP / (TP + FP)
Recall TP / (TP + FN)
Akurasi menggambarkan seberapa kuat model dalam mengklasifikasikan dengan benar, akurasi menggambarkan akurasi antara data dan prediksi yang dibuat oleh model klasifikasi, dan recall menggambarkan keberhasilan model dalam memprediksi atau menemukan informasi.
Confusion Matrix memiliki beberapa manfaat yaitu:
1. Menunjukkan bagaimana model ketika membuat. prediksi
2. Tidak hanya memberi informasi tentang kesalahan yang dibuat oleh
model tetapi juga jenis kesalahan yang dibuat.
3. Setiap kolom dari Confusion Matrix mempresentasikan instance dari
kelas prediksi.
4. Setiap baris dari Confusion Matrix mewakili instance dari kelas
aktual.
2.11 Rapid Miner
Gambar 2. 4 Rapidminer
Rapidminer adalah software pengolah data. Menggunakan prinsip dan algoritme penambangan data, Rapidminer menggabungkan teknik statistik, kecerdasan buatan, dan basis data untuk mengekstrak pola dari kumpulan data besar. Rapidminer memudahkan penghitungan data dalam jumlah besar menggunakan operator yang ada didalamnya. Operator ini digunakan untuk mengubah data. Data terhubung ke simpul operator, dan untuk melihat hasilnya, cukup sambungkan ke simpul hasil. Hasil yang ditampilkan oleh Rapidminer juga dapat ditampilkan secara visual sebagai grafik. Ini menggunakan teknologi penambangan data untuk menjadikan Rapidminer salah satu software pilihan untuk data mining.[24]
2.12 Penelitian terdahulu
Table 2. 2 Penelitian terdahulu
No Judul
/volume/tahun
Judul penelitian Penulis Hasil Kesimpulan
1 2020 5th International Conference on Informatics and Computing, ICIC 2020
Analysis of user reviews for the
PeduliLindungi application on google play using the Support Vector Machine and Naive Bayes
Mustopa, Ali Hermanto Anna Pratama, Eri Bayu Hendini, Ade
Risdiansyah, Deni
Algoritma svm+PS0) menghasilkan tingkat akurasi 93,00% dan algoritma naïve bayes+PSO memberikan hasil
Penggunaan dari svm+pso menunjukan bahwa hasil akurasi dari klasifikasi tersebut lebih tinggi dibandingkan
algorithm based on particle swarm optimization
klasifikasi 69.00%
dengan algoritma naïve bayes+PSO
2 SISMATIK (Seminar Nasional Sistem Informasi dan Manajemen Informatika) Universitas Nusa Putra, 7 Agustus 2021
Analisis sentiment masyarakat terhadap layanan konsultasi dokter menggunakan algoritma Naïve bayes
Neng Resti Wardani , Adhitia Erfina
Implemenntasi Algoritma Naive Bayes aplikasi Alodokter pada penelitian ini menghasilkan nilai
accuracy 62,86%.
Implemenntasi Algoritma Naive Bayes aplikasi Halodoc pada penelitian ini menghasilkan nilai
accuracy 82,86%
Implemenntasi Algoritma Naive Bayes aplikasi Klik Dokter pada penelitian ini menghasilkan nilai
accuracy 98,57%.
kesimpulan yang dapat diambil adalah hasil dari implementasi algoritma Naive Bayes pada penelitian ini menunjukan bahwa tingkat keakurasian untuk aplikasi terbaik pertama yaitu Klik Dokter 98,57%, kedua Halodoc 82,86%, ketiga Alodokter 62,86%, Penulis berasumsi bahwa aplikasi Alodokter memiliki nilai akurasi paling bawah karna ketidak amanan dalam penyimpanan data, sehingga banyak pengguna yang memberikan komentar negatif.
3 Jurnal Komtika
Analisis Sentimen Opini
Frizka Fitriana , Ema Utami
Penggunaan algoritma svm
Berdasarkan hasil yang telah
dan
Informatika), Vol. 5 No. 1|
Mei 2021
Vaksin Covid- 19 pada Media Sosial
Twitter Menggunakan Support Vector Machine dan Naive Bayes
, Hanif Al Fatta
bayes dalam penelitian menghasilkan akurasi, presisi, nilai recal dan waktu yang dibutuhkan.
Untuk SVM menghasilkan 90,47%
akurasi, 90,23% presisi dan 90,78%
nilai recall.
Naïve bayes memeiliki nilai 88,64 akurasi , 87,32 presisi , dan 88,13 nilai recal
dinyatakan bahwa SVM mempunyai performa yang lebih bagus dibandingkan Naïve Bayes.
Namun dalam segi waktu, algoritma Naïve Bayes
memerlukan waktu yang lebih sedikit
dibandingkan SVM. Opini vaksin Covid – 19 di media Twitter memberikan opini positif yang artinya bahwa penerimaan vaksin Covid – 19 lebih besar dibanding penolakannya.
4 Faktor exacta ,Vol. 14, No.
2, June 2021
Implementasi Algoritma Naive Bayes, Support Vector Machine, dan K-Nearest Neighbors Untuk Analisa Sentimen Aplikasi Halodoc
Elly Indrayuni, Acmad Nurhadi, Dinar Ajeng
Kristiyanti
Perbandingan Pengujian Algoritma Naive Bayes, Support Vector Machine, dan KNN.
Accuracy:
Naïve bayes 92.50%, SVM 93.00%, K-
didalam penelitian tersebut jika dibandingkan secara
keseluruhan dari ketiga algoritma tersebut, K- Nearest
Neighbors (KNN) memiliki
performa yang paling baik dan
95.00%
AUC:
Naïve bayes 0.533, SVM 0.983, K-NN 0.985
klasifikasi sentimen
berbahasa Inggris pada aplikasi Halodoc karena menghasilkan nilai akurasi tertinggi dan nilai AUC terbesar yaitu sebesar 0.985 4 Inti Nusa
Mandiri,VOL.
15. NO. 1 AGUSTUS 2020
ANALISIS SENTIMEN OPINI PUBLIK TERHADAP EFEK PSBB PADA TWITTER DENGAN ALGORITMA DECISION TREE-KNN- NAÏVE BAYES
Muhammad Syarifuddin
Hasil dari penelitian tersebut menghasilkan algoritma decision tree lebih baik dibandingkan dengan algoritma lainnya dengan menampilkan hasil akurasi 83.00%
Dalm penelitian dataset psbb digunakan uantuk melakukan analisa sentiment
masyarakatdi Indonesia, penggunaan ke tiga algoritma DT,NB, dan SVM menunjukan hasil algoritma DT lebih akurat dalam
memprediksi hasil klasifikasi dataset PSBB yang terjadi di Indonesia dan hasil analisa sentiment ini lebih dominan ke dalam negative
Pada tabel 2.2 penelitian terdahulu yang telah dilakukan terdapat beberapa
Analysis of user reviews for the PeduliLindungi application on google play using the Support Vector Machine and Naive Bayes algorithm based on particle swarm optimization” penggunaan data komentar yang di ambil dari google play dengan mengolahnya menggunakan Rapidminer dan menggunakan dua algoritma SVM dan Naïve bayes dengan menggunakan PSO (Particle swarm Optimization) dalam mencari hasil sentiment yang ada dalam komentar. Pada penelitian tersebut hasil algoritma SVM dengan PSO menghasilkan hasil akurasi sebesar 93,00% dan AUC 0,977.
Penelitian yang berikutnya yang berjudul “Analisis sentimen masyarakat terhadap layanan konsultasi dokter menggunakan algoritma Naïve bayes”
penelitian ini bertujuan untuk melihat aplikasi mana yang memiliki citra atau sentimen paling baik dimata masyarakat berdasarkan cuitan masyarakat indonesia di Twitter. Dari hasil penelitian ini penggunaan algoritma naïve bayes dalam menganalisa sentiment beberapa aplikasi kesehatan yang ada di Indonesia, algoritma naïve bayes mampu melakukan klasifikasi dengan baik, dengan hasil akurasi aplikasi Alodokter pada penelitian ini menghasilkan nilai akurasi 62,86%.
Implemenntasi Algoritma Naive Bayes aplikasi Halodoc pada penelitian ini menghasilkan nilai akurasi 82,86% Implemenntasi Algoritma Naive Bayes aplikasi Klik Dokter pada penelitian ini menghasilkan nilai akurasi 98,57%.
Penelitian berikutnya yang berjudul “Analisis Sentimen Opini Terhadap Vaksin Covid-19 pada Media Sosial Twitter Menggunakan Support Vector Machine dan Naive Bayes” Perbandingan algoritma Naive Bayes dan SVM untuk analisis sentimen komentar vaksin Covid-19 di Twitter. Berdasarkan hasil yang diperoleh, kita dapat mengatakan bahwa SVM mengungguli Naïve Bayes. Namun, dalam hal waktu, Naive Bayes membutuhkan waktu lebih sedikit daripada SVM.
Penelitian terakhir yang berjudul “Implementasi Algoritma Naive Bayes, Support Vector Machine, dan K-Nearest Neighbors Untuk Analisa Sentimen Aplikasi Halodoc” didalam penelitian tersebut jika dibandingkan secara keseluruhan dari ketiga algoritma tersebut, K-Nearest Neighbors (KNN) memiliki performa yang paling baik dan akurat dalam klasifikasi sentimen berbahasa Inggris
pada aplikasi Halodoc karena menghasilkan nilai akurasi tertinggi dan nilai AUC terbesar yaitu sebesar 0.985. Dari bebrapa penelitian penelitian terdahulu algoritma Naïve bayes, SVM dan K-NN menjadi algoritma yang sering digunakan dalam penelitian sentiment analisis.
Dari penelitian terdahulu terssebut, penelitian ini menggunakan beberapa referensi yang ada didalam penelitian terdahulu sebelemnya diantaranya data yang digunakan dalam penelitian ini adalah data twitter, penggunaan algoritma algoritma yang ada dalam penelitian terdahulu.
Penelitian ini melakukan penggalian data menggunakan Rapidminer dengan hasil data 7.587 dimulai tanggal 22 November 2021 hingga 27 Desember 2021, jangka waktu tersebut digunakan karena pemerintah sedang memaksimalkan penggunaan aplikasi pedulilndungi baik dari masyarakat dan pelaku bisnis dan di cabutnya Pemberlakuan Pembatasan Kegiatan Masyarakat tingkat 3. Pada penelitian ini menggunakan tiga algoritma dalam pembanding, algoritma yang digunakan adalah Algoritma yang terbaik dari masing masing penelitian terdahulu yaitu Support Vector Machines (SVM) , Naïve Bayes dan K-NN.