Syifa Khairunnisa, Copyright ©2021, MIB, Page 406
Pengaruh Text Preprocessing terhadap Analisis Sentimen Komentar Masyarakat pada Media Sosial Twitter (Studi Kasus Pandemi
COVID-19)
Syifa Khairunnisa*, Adiwijaya, Said Al Faraby Fakultas Informatika, Universitas Telkom, Bandung, Indonesia
Email: 1,*[email protected], 2[email protected],
Email Penulis Korespondensi: [email protected]
Abstrak−COVID-19 merupakan pandemi yang meresahkan banyak masyarakat. Hal ini memunculkan banyak komentar masyarakat di sosial media Twitter. Komentar tersebut digunakan untuk analisis sentimen sehingga diketahui polaritas sentimen yang muncul, apakah positif, negatif, atau netral. Permasalahan ketika menggunakan data twitter ialah, data tweet masih mengandung banyak kata yang tidak baku seperti penulisan yang disingkat karena keterbatasan maksimal karakter yang dapat digunakan dalam sekali membagikan tweet. Preprocessing merupakan tahapan awal yang paling penting dalam analisis sentimen saat menggunakan data twitter, karena berpengaruh terhadap hasil performansi klasifikasi. Penelitian ini membahas secara khusus mengenai teknik preproceesing dengan melakukan beberapa skenario pengujian kombinasi teknik preprocessing untuk mengetahui teknik preprocessing yang menghasilkan akurasi paling optimal serta pengaruhnya terhadap analisis sentimen. Ekstraksi fitur menggunakan N-Gram dan pembobotan kata menggunakan TF-IDF. Mutual Information sebagai metode seleksi fitur. Metode klasifikasi yang digunakan adalah SVM karena mampu mengklasifikasikan data berdimensi tinggi sesuai dengan data yang digunakan pada penelitian ini yaitu berupa data teks. Hasil penelitian ini menunjukkan bahwa kinerja terbaik diperoleh dengan menggunakan kombinasi cleaning dan stemming; dan normalisasi kata, cleaning, dan stemming dengan akurasi yang sama sebesar 77.77%. penggunaan unigram menghasilkan akurasi yang lebih tinggi dibandingkan dengan bigram. Mutual Information mampu mengurangi masalah overfitting dengan berkurangnya fitur yang tidak relevan sehingga akurasi train dan test cukup stabil.
Kata Kunci: COVID-19; Twitter; Analisis Sentimen; Preprocessing; Support Vector Machine
Abstract−COVID-19 is a pandemic that is troubling many people. This has led to a lot of public comments on Twitter social media. The comments are used for sentiment analysis so that we know the polarity of the sentiment that appears, whether it is positive, negative, or neutral. The problem when using twitter data is that the tweet data still contains many non-standard words such as abbreviated writing due to the maximum limitation of characters that can be used in one tweet. Preprocessing is the most important initial stage in sentiment analysis when using Twitter data, because it affects the classification performance results. This study specifically discusses the preproceesing technique by performing several test scenarios for the combination of preprocessing techniques to determine which preprocessing technique produces the most optimal accuracy and its effect on sentiment analysis. Feature extraction using N-Gram and word weighting using TF-IDF. Mutual Information as a feature selection method. The classification method used is SVM because it is able to classify high-dimensional data according to the data used in this study, namely text data. The results of this study indicate that the best performance is obtained by using a combination of cleaning and stemming; and normalization of words, cleaning, and stemming with the same accuracy of 77.77%. the use of unigram results in higher accuracy compared to bigram. Mutual Information is able to reduce overfitting problems by reducing irrelevant features so that train and test accuracy is quite stable.
Keywords: COVID-19; Twitter; Sentiment Analysis; Preprocessing; Support Vector Machine
1. PENDAHULUAN
COVID-19 (Corona Virus Disease) adalah penyakit menular yang disebabkan oleh virus Corona yang paling baru ditemukan. Virus baru ini tidak diketahui sebelum wabah dimulai di Wuhan, Cina, pada bulan Desember 2019 [1].
Penyebaran COVID-19 yang terjadi di Indonesia sangatlah cepat, hingga tanggal 17 Juni 2020 tercatat jumlah kasus terkonfirmasi sebanyak 41.431 dan kasus meninggal sebanyak 2.276 [2]. Hal tersebut membuat masyarakat menjadi resah dan menimbulkan berbagai komentar mengenai COVID-19. Banyak masyarakat Indonesia yang mengutarakan komentar mereka mengenai COVID-19 melalui sosial media Twitter. Komentar tersebut dapat dimanfaatkan untuk melakukan analisis sentimen guna mengetahui kecenderungan komentar masyarakat terhadap peristiwa pandemi COVID-19, apakah cenderung berkomentar positif, netral, ataupun negatif. Analisis sentimen merupakan penambangan opini yang digunakan untuk mengenali konten di website. Analisis sentimen bertujuan untuk menghasilkan ungkapan yang sebenarnya dari seseorang mengenai suatu produk, layanan, fim, berita, masalah tertentu dan sebagainya [3].
Dalam melakukan analisis sentimen menggunakan data Twitter, terdapat permasalahan yang akan dihadapi.
Umumnya data tweet masih mengandung banyak kata yang tidak baku seperti penulisan kata yang disingkat dan pengggunaan bahasa gaul. Hal tersebut disebabkan karena Twitter memiliki batasan dalam penulisan dengan maksimal 140 karakter untuk sekali unggah tweet. Oleh karena itu, perlu dilakukan preprocessing terhadap data tweet sebagai tahapan awal dalam analisis sentimen sehingga menghasilkan bentuk data yang lebih baik yang dapat digunakan pada proses lainnya. Preprocessing berfungsi untuk menanggulangi kesalahan dalam mengambil ciri atau atribut dan dapat menurunkan performa analisis sentimen secara signifikan [4].
Penelitian mengenai text preprocessing pernah dilakukan oleh beberapa peneliti. Pada penelitian [5]
meneliti pengaruh preprocessing terhadap performa analisis sentimen. Hasil penelitian menunjukkan bahwa akurasi klasifikasi mengalami peningkatan sebesar 20.4% dengan menggunakan stopword removal, stemming, dan feature selection. Kemudian penelitian [6] melakukan pengujian teknik preprocessing dalam klasifikasi. Hasil pengujian menunjukkan bahwa penggunaan teknik preprocessing cleaning, case folding, dan stemming tanpa menggunakan stopword removal mampu meningkatkan akurasi sistem, dengan perolehan akurasi sebesar 94.24%.
Pada penelitian [7] melakukan pengujian teknik preprocessing tokenization, stopword removal, dan stemming pada tiga dataset yang berbeda. Hasil penelitian menunjukkan setelah menggunakan pemilihan fitur dan representasi yang tepat akurasi analisis sentimen dapat ditingkatkan. Menurut penelitian ini, preprocessing menjadi langkah yang penting dalam analisis sentimen, karena pemilihan teknik preprocessing yang tepat dapat meningkatkan kinerja klasifikasi.
Berdasarkan hasil penelitian [5, 6, 7], menunjukkan bahwa preprocessing memiliki pengaruh yang cukup baik dalam meningkatkan kinerja sistem. Namun, dari penelitian sebelumnya tidak membahas mengenai pengaruh dari berbagai teknik preprocessing yang digunakan dan juga belum diketahui kombinasi preprocessing seperti apa yang menghasilkan kinerja analisis sentimen yang optimal. Maka dari itu, penelitian ini akan berfokus pada penerapan berbagai teknik preprocessing, sehingga dapat diketahui pengaruh preprocessing terhadap kinerja analisis sentimen. Dan dapat diketahui kombinasi teknik peprocessing mana yang akan menghasilkan kinerja analisis sentimen komentar Twitter terbaik. Teknik preprocessing yang digunakan pada penelitian ini berdasarkan dari penelitian sebelumnya yaitu case folding, cleaning, stopword removal, stemming dan menambahkan teknik normalisasi kata untuk mengatasi adanya penggunaan kata-kata yang tidak baku yang sering muncul ketika menggunakan data Twitter.
Pada penelitian ini akan berfokus untuk mencari tahu pengaruh dari penerapan berbagai kombinasi teknik preprocessing, seleksi fitur, dan ekstraksi fitur yang digunakan pada penelitian ini. Pada proses preprocessing akan dilakukan perbandingan penggunaan normalisasi kata, cleanning, stopword removal, dan stemming. Mutual Information (MI) sebagai seleksi fitur karena dengan menerapkan seleksi fitur dapat meminimalkan overfitting yang dapat menghilangkan data redundan dan noise [8]. MI dipilih karena memiliki titik fokus terdahap hubungan term kata dengan suatu kelas, sehingga fitur yang dihasilkan mampu meningkatkan akurasi klasifikasi [6].
Ekstraksi fitur menggunakan N-Gram karena berdasarkan [9], menerapkan N-Gram dapat meningkatkan akurasi klasifikasi data tweet. Penelitian ini bertujuan untuk mengetahui pengaruh penggunaan preprocessing terhadap kinerja analisis sentimen. Penelitian ini juga bertujuan menganalisis pengaruh penggunaan seleksi fitur Mutual Information dalam mengurangi terjadinya overfitting. Dan penelitian ini juga bertujuan untuk menganalisis penggunaan fitur unigram dan bigram terhadap akurasi analisis sentimen.
2. METODOLOGI PENELITIAN
2.1 Rancangan Sistem
Pada penelitian ini akan membangun suatu sistem yang dapat menganalisis sentimen komentar di Twitter mengenai COVID-19. Data tweet diklasifikasikan kedalam 3 kelas, yaitu positif, negatif, dan netral. Secara garis besar, sistem ini terdiri dari lima tahap, yaitu preprocessing, pembobotan fitur, ekstraksi fitur, seleksi fitur, klasifikasi, dan evaluasi sebagai tolak ukur kinerja dari analisis sentimen komentar di Twitter. Sebelum proses preprocessing, dataset akan dibagi menjadi tiga bagian, yaitu data train, data test, dan data validasi. Dalam proses training, model akan dilatih menggunakan data train dan di evaluasi menggunakan data validasi untuk menentukan model terbaik yang akan digunakan pada data test. Rancangan sistem ini ditunjukkan pada gambar 1.
Gambar 1. Gambaran Sistem
Syifa Khairunnisa, Copyright ©2021, MIB, Page 408 2.2 Dataset
Pada penelitian ini menggunakan data sebanyak 1080 tweet yang diperoleh dengan cara crawling menggunakan tools twitterscrapper dalam rentang bulan Maret-April 2020. Data yang diambil adalah tweet yang berkaitan dengan dengan COVID-19 dengan menggunakan keyword seperti covid-19, #corona19indonesia, dan
#coronaindonesia. Dari data hasil crawling dilakukan pelabelan secara manual yang dilakukan oleh 2 orang. Label yang akan digunakan pada data penelitian ini berdasarkan hasil terbanyak label yang digunakan dari setiap tweetnya. Sebagai contoh data tweet komentar pertama oleh pelabel pertama diberi label -1 dan pelabel kedua memberikan label -1 juga, maka hasil label yang akan digunakan ialah -1. Sedangkan jika hasil pelabelan dari kedua orang pelabel berbeda, maka akan dilakukan diskusi lebih lanjut mengenai label yang tepat untuk digunakan pada data tersebut. Label 1 dipakai untuk tweet yang mengandung komentar positif dengan jumlah 342 (42%) tweet, -1 untuk tweet yang mengandung komentar negatif dengan jumlah 453 (26%) tweet, dan 0 untuk tweet yang mengandung komentar netral dengan jumlah 285 (32 %) tweet. Berikut adalah contoh dataset yang telah diberi label.
Tabel 1. Contoh Dataset yang Telah diberi Label
Tweet Label
Pak Jokowi dan pemerintah pusat justru berhasil menangani covid 19 ini. Kami rakyat Indonesia puas dengan kinerja beliau sebagai presiden RI. Tidak banyak omong dan konpers langsung bertindak nyata. Bravo pak Jokowi.
1
kesal di saat corona masih aja ada maling mencari keuntungan -1
Apakah Dunia Sudah Siap Berada dalam New Normal? 0
2.3 Preperocessing
Preprocessing menjadi tahap awal dalam klasifikasi teks untuk mempersiapkan data teks sebelum digunakan pada proses lainnya. Pada tahap ini akan mengubah data teks menjadi bentuk yang lebih baik sehingga menghasilkan informasi teks dengan kualitas yang baik dan siap digunakan pada proses selanjutnya. Pada penelitian ini teknik preprocessing yang digunakan meliputi case folding, normalisasi kata, cleaning, stopword removal, dan stemming [6]. Case folding akan mengubah kata yang ada pada kalimat menjadi huruf kecil. Lalu normalisasi akan mengubah kata yang tidak baku menjadi baku dan mengubah singkatan menjadi kata asalnya [10]. Cleaning merupakan proses untuk menghilangkan tanda baca, angka, simbol, link URL, dan username di dalam teks. Stopword removal akan menghilangkan kata-kata yang diangap tidak penting di dalam teks. Pada penelitian ini akan dihapus beberapa kata dari daftar stopword seperti kata ‘bisa’, ‘tegas’, ‘mampu’, dan ‘tidak’. Kemudian menambahkan sebanyak 149 kata yang tidak mengandung arti seperti kata ‘ah’, ‘aaa’, ‘yah’, ‘yee’, dan lainnya. Selanjutnya dilakukan stemming menggunakan stemming Sastrawi untuk mengubah kata menjadi bentuk kata dasarnya.
Pada penelitian ini akan membandingkan penggunaan teknik preprocessing normalisasi kata, cleaning, stopword removal, dan stemming. Dari semua teknik preprocessing ini akan dilakukan pengujian dengan menggunakan 15 skenario pengkombinasian, yaitu hanya normalisasi kata; hanya cleaning; hanya stopword removal; hanya stemming; normalisasi kata dan cleaning; normalisasi kata dan stopword removal; normalisasi kata dan stemming;
cleaning dan stopword removal; cleaning dan stemming; stopword removal dan stemming; normalisasi kata, cleaning, dan stopword removal; normalisasi kata, cleaning, dan stemming; normalisasi kata, stopword removal, dan stemming; cleaning, stopword removal, dan stemming; normalisasi kata, cleaning, stopword removal, dan stemming.
Tabel 2. Proses Preprocessing
Proses Hasil Preprocessing
Data Bagus, distop dulu. Jadi nanti jumlah kasus ga tambah banyak. Yg artinya pemerintah berhasil menangani Covid.
Case folding bagus, distop dulu. jadi nanti jumlah kasus ga tambah banyak. yg artinya pemerintah berhasil menangani covid.
Normalisasi Kata
bagus, distop dulu. jadi nanti jumlah kasus tidak tambah banyak. yang artinya pemerintah berhasil menangani covid.
Cleaning bagus distop dulu jadi nanti jumlah kasus tidak tambah banyak yang artinya pemerintah berhasil menangani covid
Stopword bagus distop tidak tambah pemerintah berhasil menangani covid Stemming bagus stop tidak tambah perintah hasil tangan covid
2.4 Ekstraksi Fitur N-Gram
Pada tahap ini dilakukan ekstraksi fitur menggunakan N-Gram. Ekstraksi fitur merupakan proses pengambilan fitur yang dapat menggambarkan informasi yang dibutuhkan, sedangkan N-Gram merupakan potongan N-karakter yang diambil dari suatu string [11] N-Gram akan memisahkan kata berdasarkan urutan kata dalam suatu kalimat.
Model N-Gram yang digunakan pada penelitian ini adalah unigram yang misahkan setiap satu kata dan bigram yang mimisahkan setiap dua kata.
2.5 Pembobotan Term Frequency-Inverse Document Frequency (TF-IDF)
Pada tahap ini akan dilakukan pemberian bobot pada setiap kata yang ada pada data dengan menggunakan metode TF-IDF. TF-IDF merupakan suatu metode pembobotan kata yang dikenal baik dalam mengevaluasi pentingnya sebuah kata yang ada dalam dokumen [12]. Pemberian bobot pada setiap kata bertujuan untuk mengetahui seberapa sering suatu kata muncul didalam dokumen. Term Frequency (TF) adalah frekuensi kemunculan sebuah kata dalam suatu dokumen, sedangkan Inverse Document Frequency (IDF) adalah perhitungan bagaimana suatu kata didistribusikan pada koleksi dokumen. Hasil dari proses ini berbentuk matriks terdiri dari data sebagai baris, fitur sebagai kolomnya [6]. Berikut adalah proses perhitungan pembobotan kata dengan TF-IDF [6]:
𝑤 = 𝑡𝑓𝑡,𝑑× 𝑖𝑑𝑓 = 𝑡𝑓𝑡,𝑑 × log𝑁 𝑑𝑓
Pada persamaan (1), w merupakan bobot kata t terhadap dokumen d, 𝑡𝑓𝑡,𝑑 merupakan jumlah kemunculan kata terhadap dokumen, N merupakan jumlah dokumen, dan 𝑑𝑓 adalah jumlah dokumen yang mengandung kata t.
2.5 Seleksi Fitur Mutual Information
Setelah setiap kata telah diberikan bobot, proses selanjutnya ialah melakukan seleksi fitur. Seleksi fitur digunakan untuk melakukan seleksi atribut yang akan dimasukkan untuk proses klasifikasi agar lebih informatif dan efektif [13]. Pada tahap ini, fitur-fitur akan diseleksi dan dipilih untuk diambil fitur kata yang paling relevan terhadap masing-masing kelas, untuk digunakan pada proses selanjutnya, sedangkan fitur kata yang tidak relevan akan dibuang [6]. Semakin besar nilai MI, maka semakin besar suatu atribut tersebut mempengaruhi suatu kelas [13].
Untuk menghitung nilai MI dapat menggunakan persamaan berikut ini
I(U, C) = ∑ ∑ 𝑃(𝑈 = 𝑒𝑡, 𝐶 = 𝑒𝑐) log2 𝑃(𝑈 = 𝑒𝑡, 𝐶 = 𝑒𝑐) 𝑃(𝑈 = 𝑒𝑡)𝑃(𝐶 = 𝑒𝑐)
𝑒𝑐∈{1,0}
𝑒𝑡∈{1,0}
Pada persamaan 2, U merupakan variabel acak dengan nilai 𝑒𝑡 = 1 (dokumen yang mengandung term t) dan 𝑒𝑡 = 0 (dokumen yang tidak mengandung term t). C merupakan variabel acak dengan nilai 𝑒𝑐 = 1 (dokumen yang berada di kelas c) dan 𝑒𝑐 = 0 (dokumen yang tidak berada di kelas c). Variabel U menggambarkan fitur, sedangkan variabel C menggambarkan kelas.
Setelah semua fitur dihitung nilainya pada satu kelas, selanjutnya akan dihitung nilai MI fitur tersebut pada kelas lainnya. Semua hasil nilai MI fitur pada setiap kelas akan dibandingkan, dan akan disimpan nilai MI terbesar dari fitur tersebut yang akan digunakan pada proses klasifikasi.
2.6 Klasifikasi dengan Support Vector Machine (SVM)
Hasil dari proses perhitungan MI akan menjadi inputan proses klasifikasi. Metode klasifikasi yang digunakan pada penelitian ini adalah Support Vector Machine (SVM) dengan menggunakan kernel linear, karena berdasarkan [14]
penggunaan kernel linear menghasilkan F1-score paling tinggi dibandingkan dengan kernel RBF dan kernel polynomial. SVM merupakan algoritma yang memberikan keuntungan dalam menyelesaikan masalah data dengan dimensi tinggi [15]. SVM dapat digunakan untuk mengklasifikasikan kedalam dua buah kelas pada masukan space dengan menentukan nilai hyperplane yang terbaik [16].
Pada gambar 2 menunjukan struktur dari SVM yang terdiri dari dua kelas yaitu +1 dan -1. Kedua kelas tersebut dipisahkan oleh hyperplane. Data yang terdekat dengan garis hyperplane dibatasi oleh margin. Garis putus-putus biru mewakili margin yang merupakan jarak antara hyperplane dengan support vector (titik yang terdekat dengan hyperplane). Garis merah menunjukan hyperplane terbaik, yaitu terletak tepat di tengah-tengah kedua kelas.
Dalam mendapatkan nilai hyperplane terbaik perlu memaksimalkan nilai margin terlebih dahulu dengan rumus berikut ini [16]:
1 2∥ 𝑤 ∥2
(1)
(2)
Gambar 2. Struktur SVM [16]
(3)
Syifa Khairunnisa, Copyright ©2021, MIB, Page 410 Dengan syarat:
w· 𝑥𝑖 + b = 0
Dimana w menyatakan nilai parameter hyperplane yang dicari untuk mendapatkan garis yang tegak lurus antara garis hyperplane dan titik support vector, 𝑥𝑖 menyatakan atribut ke-i pada data, dan b sebagai garis bias. Kemudian data diprediksi dengan memenuhi persamaan hyperplane (5) untuk kelas +1 dan memenuhi persamaan hyperplane (6) untuk kelas -1.
w · 𝑥𝑖 + b ≥ 1 w · 𝑥𝑖 + b ≤ -1
Dikarenakan SVM hanya dapat memproses dua kelas saja yaitu kelas +1 dan -1. Maka penelitian ini akan menggunakan multiclass klasifikasi dengan metode one againts all (one versus rest) untuk mengklasifikasikan komentar tweet kedalam tiga kelas. Metode ini akan membangun k (jumlah kelas) buah model SVM biner. Setiap model SVM biner yang dibangun terdiri dari sebuah classifier yang memisahkan salah satu sample kelas sebagai kelas positif dan sample lainnya sebagai kelas negatif. Setiap model klasifikasi ke-i dilatih dengan menggunakan keseluruhan data untuk mencari solusi permasalahannya [17]. Hasil dari proses pelatihan ini akan dijadikan sebagai acuan untuk melakukan proses klasifikasi pada data test. Tabel 7 adalah contoh hasil dari proses klasifikasi.
pada dokumen pertama memiliki nilai 1 pada kelas 1 dan nilai -1 pada kelas lainnya. Ini berarti dokumen 1 termasuk kedalam kelas -1 (negatif).
2.7 Klasifikasi dengan Support Vector Machine (SVM)
Tahapan akhir dalam melakukan klasifikasi adalah proses evaluasi sistem. Tahap evaluasi ini menggunakan akurasi sebagai tolak ukut untuk mengevaluasi kinerja pada sistem analisis sentimen. Perhitungan nilai akurasi diperoleh dengan membandingkan hasil prediksi yang ada dengan data kelas yang sebenarnya. perhitungan nilai akurasi didapatkan dengan menggunakan rumus berikut.
𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 𝑇𝑜𝑡𝑎𝑙 𝐵𝑒𝑛𝑎𝑟
𝑁 × 100%
Pada persamaan 7 merupakan perbandingan antara jumlah dokumen yang berhasil diprediksi dengan benar dan jumlah dokumen secara keseluruhan.
3. HASIL DAN PEMBAHASAN
Pada penelitian ini akan dilakukan beberapa skenario penguajian yang akan berfokus pada tahap preprocessing, seleksi fitur, dan ekstraksi fitur. Pengujian analisis sentimen ini menggunakan data tweet komentar COVID-19 sebanyak 1080 tweet yang dibagi menjadi 60% data train, 20% data validasi dan 20% data test. Data validasi digunakan untuk menentukan model terbaik yang digunakan untuk data test. Pembagian dataset menjadi 691 data train, 216 data test, dan 173 data validasi. Pada proses klasifikasi pada penelitian ini menggunakan algoritma Support Vector Machine (SVM). Dari hasil klasifikasi akan dilakukan evaluasi kinerja analisis sentimen dengan menggunakan Confusion Matrix untuk mengetahui akurasi dari sistem yang dibangun.
3.1 Pengujian Pengaruh Preprocessing
Pada skenario pertama dilakukan pengujian dengan menerapkan teknik preprocessing yang berbeda-beda. Pada tahap ini dilakukan 16 kali pengujian dengan menerapkan berbagai macam kombinsai teknik preprocessing, yaitu tanpa menggunakan teknik preprocessing, menggunakan teknik hanya normalisasi kata saja; hanya cleaning;
hanya stopword removal; hanya stemming; normalisasi kata dan cleaning (tanpa stopword dan stemming);
normalisasi kata dan stopword removal (tanpa cleaning dan stemming); normalisasi kata dan stemming (tanpa cleaning dan stopword removal); cleaning dan stopword removal (tanpa normalisasi kata dan stemming); cleaning dan stemming (tanpa normalisasi kata dan stopword removal); stopword dan stemming (tanpa normalisasi kata dan cleaning); normalisasi kata, cleaning, dan stopword removal (tanpa stemming); normalisasi kata, stopword removal, dan stemming (tanpa cleaning); cleaning, stopword removal, dan stemming (tanpa normalisasi kata);
normalisasi kata, cleaning, dan stemming (tanpa stopword removal); dan kombinasi semua teknik preprocessing normalisasi, cleaning, stopword removal, dan stemming (full Preprocessing). Tabel 3 merupakan hasil akurasi klasifikasi dengan menggunakan fitur unigram yang telah diurutkan dari yang tertinggi hingga terendah.
Tabel 3. Akurasi Test Fitur Unigram yang Diurutkan Secara Descending
Preprocessing Akurasi (%)
Tanpa Normalisasi Kata & Stopword Removal 77.77
Tanpa Stopword Removal 77.77
Hanya Normalisasi Kata 77.31
Tanpa Cleaning & Stopword Removal 76.85
(4)
(6) (5)
(7)
Preprocessing Akurasi (%) Tanpa Stopword removal & Stemming 76.38
Tanpa Preprocessing 75.92
Tanpa Stemming 75.46
Hanya Stopword Removal 75.00
Hanya Cleaning 74.07
Hanya Stemming 74.07
Tanpa Cleaning & Stemming 74.07
Tanpa Normalisasi Kata & Cleaning 73.61
Tanpa Cleaning 72.68
Full Preprocessing 72.68
Tanpa Normalisasi Kata & Stemming 71.29
Tanpa Normalisasi Kata 68.51
Berdasarkan tabel 3, kinerja sistem terbaik diperoleh ketika menggunakan teknik preprocessing cleaning dan stemming (tanpa normalisasi kata dan stopword removal); dan kombinasi normalisasi kata, cleaning, dan stemming (tanpa tanpa stopword removal) yang menghasilkan akurasi yang sama yaitu sebesar 77.77%. Dapat dilihat pada tabel 3, lima pengujian preprocessing dengan perolehan akurasi teratas, yaitu pengujian dengan menggunakan cleaning dan stemming (tanpa normalisasi kata dan stopword); normalisasi kata, cleaning, dan stemming (tanpa stopword); hanya normalisasi kata saja; normalisasi kata dan stemming (tanpa cleaning dan stopword); dan pengujian dengan normalisasi kata dengan stemming (tanpa stopword dan stemming) menghasilkan kinerja yang lebih baik jika dibandingkan dengan pengujian tanpa dilakukan preprocessing yang hanya memperoleh akurasi sebesar 75.92%. Dari pengujian tersebut, empat diantaranya sama-sama menerapkan teknik normalisasi kata dan menghasilkan akurasi yang tinggi. Besar kemungkinan perolahan nilai akurasi yang tinggi tersebut disesababkan karena penggunaan normalisasi kata yang pada saat pengujian tunggal normalisasi kata saja sudah mengasilkan akurasi yang tinggi sebesar 77.31%. Pada proses normalisai kata, kata yang tidak baku dalam data i ini, seperti ‘km’, ‘gue’, ‘gk’, ‘yg’, ‘dri’, dan lainnya akan diubah menjadi kata yang lebih umum digunakan, sehingga dapat mengurangi fitur yang berbeda dalam penulisan kata namun sebenarnya memiliki arti yang sama.
Sebagai contoh dari salah satu tweet yang digunakan pada penelitian ini, kalimat ‘Deuhh gini nih jangan dlu keluar, tau gk dokter" yg ngurusin corona pada pengen mogok. Dri pda kita nyusahin mereka,mening kita bantu dgn cara.
#dirumahsaja’, kata ‘dlu’, ‘gk’, ‘yg’, dan ‘dri’ pada kalimat tersebut akan dinormalisasikan sehingga menjadi kata
‘dulu’, ‘tidak’, ‘yang’, dan ‘dari’. Akibatnya tweet tersebut benar diklasifikasikan oleh sistem, sedangkan ketika proses normalisasi kata dihilangkan pada kalimat tersebut menyebabkan tweet salah diklasifikasikan oleh sistem.
Penggunaan teknik preprocessing hanya stopword removal saja, hanya cleaning saja, dan hanya stemming saja mengasilkan akurasi yang kurang baik dalam penelitian ini, karena hasil akurasi yang diperoleh cukup rendah dibandingkan dengan hasil pengujian tanpa dilakukan proses preprocessing yang menghasilkan akurasi sebesar 75.92 %. Teknik cleaning dan stemming memiliki akurasi yang sama yaitu 74.07%, sedangkan stopword removal memiliki akurasi yang lebih baik yaitu 75%. Walaupun dalam pengujian tunggal stopword removal mampu mencapai akurasi 75%, namun ketika dilakukan pengkombinasian preprocessing dengan menggunakan stopword removal dan normalisasi kata menghasilkan akurasi yang lebih kecil yaitu sebesar 74.07%. Dan ketika menggunakan kombinasi normalisasi kata, cleaning, stopword removal, dan stemming (full Preprocessing), akurasi sistem semakin menurun menjadi 72.68%. Berdasarkan lima akurasi terendah pada tabel 8, semua pengujian tersebut melibatkan teknik stopword removal dan menghasilkan akurasi yang rendah. Rendahnya akurasi tersebut bisa disebabkan karena pengaruh stopword removal yang dinilai kurang efektif karena dapat mengurangi informasi dari suatu kalimat. Seperti hilangnya kata ‘kurang’, ‘jangan’ dan ‘bukan’ pada kalimat tweet komentar dapat menyebabkan kalimat tersebut kehilangan makna sebenarnya (kehilangan sentimennya). Contoh data yang salah diklasifikasikan dapat dilihat pada tabel 4.
Peneliti melakukan pengujian ulang untuk membuktikan bahwa ketika dilakukan stopword removal terdapat kata-kata di dalam daftar stopword yang jika dihilangkan dapat mengurangi informasi dari kalimat tersebut. Peneliti melakukan klasifikasi dengan menggunakan stopword removal yang telah diperbarui kemudian diterapkan pada data dengan kombinasi preprocessing normalisasi kata, cleaning, stopword removal, dan stemming (full preprocessing). Peneliti melakukan pembaruan dengan menghapus beberapa kata, seperti kata penghubung ‘jika’ dan kata depan ‘dari’ dari daftar stopword. Hasil pengujian tersebut menunjukkan bahwa klasifikasi dengan menggunakan stopword removal yang telah diperbarui menghasilkan akurasi yang lebih tinggi sebesar 73.15% dibandingkan dengan hasil akurasi yang menggunakan stopword removal tanpa pembaruan daftar stopword yang hanya menghasilkan akurasi sebesar 72.68%. Hal tersebut bisa disebabkan karena yang pada awalnya kata-kata tersebut dianggap sebagai stopword namun ternyata berguna dalam menentukan sentimen, sehingga cukup sulit bagi manusia untuk menentukan daftar kata stopword yang tepat.
Syifa Khairunnisa, Copyright ©2021, MIB, Page 412 Tabel 4. Contoh Tweet yang Salah diklasifikasikan
Tweet Sebenarnya Tweet Hasil Preprocessing
Label Sebenarnya
Prediksi
Label Keterangan Menurutku tindakan
pemerintah kurang tepat.
Oke mungkin bisa terdongkrak tapi kemudian corona makin meluas dan akhirnya tidak ada ekonomi yg bisa diselamatkan.
menurutku tindakan pemerintah tepat. oke bisa terdongkrak corona meluas tidak ekonomi yg bisa diselamatkan.
Negatif Positif
Ketika menerapkan stopword removal, kata
‘kurang’ menghilang karena terdapat pada daftar stopword, akibatnya sistem gagal dalam memahami maksud dari tweet.
Pemerintah Provinsi Jawa Timur membuka ratusan lowongan tenaga kesehatan untuk membantu menangani pasien COVID-19 di wilayah setempat.
perintah provinsi jawa timur buka ratus lowong tenaga sehat bantu tangan pasien corona wilayah tempat
Positif Negatif
Sistem gagal dalam memahami maksud dari tweet, sehingga tweet diklasifikasikan ke dalam kelas negatif.
Berdasarkan hasil pengujian yang telah dilakukan, dapat disimpulkan bahwa pengujian yang melibatkan teknik preprocessing normalisasi kata, cleaning, atau stemming memberikan pengaruh yang cukup baik dalam meningkatkan kinerja sistem kalsifikasi jika dibandingkan dengan hasil pengujian yang tanpa melibatkan proses preprocessing yang memperoleh akurasi hanya 75.92%. Walaupun cleaning dan stemming menghasilkan akurasi yang rendah pada pengujian tunggal teknik preprocessing, namun ketika dilakukan pengkombinasian kedua teknik tersebut mampu menghasilkan akurasi yang paling optimal. Cleaning mampu membersihkan data tweet dengan menghilangkan simbol, angka, serta link URL yang tidak memiliki makna dalam klasifikasi, sehingga fitur-fitur yang digunakan hanya fitur yang memiliki relevansi dengan kelasnya. Stemming akan mengubah kata yang ada pada data tweet menjadi bentuk dasarnya sehingga dapat mengurangi variasi fitur-fitur yang memiliki makna yang sama namun karena terdapat imbuhan pada kata tersebut menyebabkan adanya perbedaan makna kata. Dan normalisasi kata mampu mengubah kata yang tidak baku menjadi kata yang lebih umum digunakan, sehingga berkurangnya fitur yang berbeda dalam penulisan kata namun sebenarnya memiliki arti yang sama. Sedangkan penggunaan teknik stopword removal memberikan pengaruh yang kurang baik meskipun hasil akurasi pada pengujian tunggal stopword removal menghasilkan akurasi yang cukup tinggi. Hampir di semua pengujian yang melibatkan stopword removal menghasilkan akurasi yang cukup rendah. Hal ini dikarenakan ketika menggunakan stopword removal terdapat kata-kata yang jika dihilangkan dapat mengurangi informasi dari kalimat, sehingga fitur-fitur yang digunakan belum mampu menggambarkan kelasnya. Penggunaan teknik preprocessing dengan jumlah yang banyak tidak menjamin akan menghasilkan akurasi kinerja sistem yang lebih baik.
3.2 Pengujian Pengaruh Mutual Information
Pada skenario kedua dilakukan pengujian dengan menggunakan seleksi fitur Mutual Information (MI) untuk mengetahui pengaruhnya terhadap akurasi analisis sentimen. Pada pengujian ini menggunakan teknik preprocessing normalisasi kata, cleaning, dan stemming (tanpa stopword removal) yang merupakan salah satu hasil terbaik pada pengujian skenario preprocessing sebelumnya. Berdasarkan hasil akurasi pada gambar 3, terlihat bahwa model yang dibangun ketika tanpa menggunakan seleksi fitur mengalami overfitting. Terlihat dari hasil pengujian dengan menggunakan data validasi memiliki selisih nilai akurasi train yang jauh lebih besar daripada nilai akurasi validasi. Hal tersebut kemungkinan disebabkan karena jumlah data yang digunakan terlalu sedikit dan fitur yang digunakan pada data validasi dan data test cukup berbeda dengan fitur pada data train, sehingga ada kemungkinan terdapat fitur-fitur yang muncul pada data validasi dan data test namun tidak muncul pada data train yang mengakibatkan sulitnya proses klasifikasi. Overfitting ini menandakan bahwa model yang dibangun hanya fokus terhadap data train saja sehingga tidak dapat memprediksi dengan baik pada data validasi dan data test.
Oleh karena itu, penelitian ini menggunakan seleksi fitur Mutual Information untuk mengurangi fitur yang kurang relevan sehingga akurasi train dapat menurun mendekati akurasi validasi dan test. Proses seleksi fitur pada data validasi dilakukan sembilan kali pengujian dengan menggunakan fitur dengan nilai MI terbesar yaitu 90% fitur, 80% fitur, 70% fitur, 60% fitur, 50% fitur, 40% fitur, 30% fitur, 20% fitur, dan 10% fitur. Hasil akurasi terbaik pada data validasi yang akan dijadikan sebagai model untuk mengevaluasi data test. Setelah menerapkan MI, performa validasi terbaik diperolah ketika menggunakan 60% fitur dengan nilai MI terbesar. Oleh karena itu, model dengan 60% fitur dengan nilai MI terbesar yang digunakan sebagai model untuk mengevaluasi pada data test.
Gambar 3. Perbandingan Akurasi Tanpa Menggunakan MI dan dengan Menggunakan MI
Gambar 3 merupakan hasil pengujian dengan menggunakan 60% fitur dengan nilai MI terbesar. Dengan menggunakan MI memberikan pengaruh yang baik dalam mengurangi masalah overfitting, terlihat dengan adanya penurunan akurasi train yang mampu mendekati akurasi test. Ketika menggunakan MI akurasi yang diperoleh yaitu sebesar 77.77% dengan jumlah fitur sebanyak 1587. Sedangkan tanpa menggunakan MI, akurasi yang diperoleh sebesar 75.46% dengan jumlah fitur sebanyak 2646. Akurasi yang diperoleh meningkat sebesar 2.31%
daripada tanpa menggunakan MI. Hal ini membuktikan bahwa fitur yang digunakan setelah menggunakan MI sudah cukup baik mewakili keseluruhan fitur yang ada dalam merepresentasikan terhadap kelas tertentu. Saat menerapkan MI, fitur yang digunakan akan berkurang dibandingkan tanpa menggunakan MI, sehingga sistem hanya akan memilih fitur-fitur yang memiliki relevansi yang tinggi terhadap kelasnya berdasarkan perolehan nilai MI. Maka dari itu, dapat disimpulkan bahwa dengan menggunakan seleksi fitur dapat mengurangi masalah overfitting dan juga dapat meningkatkan kinerja dari analisis sentimen.
3.3 Pengujian Perbandingan Unigram dan Bigram
Skenario ketiga dilakukan pengujian dengan menerapkan ekstraksi fitur unigram dan bigram dengan menggunakan data hasil terbaik pengujian preprocessing yaitu dengan kombinasi normalisasi kata, cleaning, dan stemming (tanpa stopword removal) yang telah melalui proses seleksi fitur dengan menggunakan Mutual Information. Hasil dari perbandingan akurasi antara unigram dan bigram dapat dilihat pada tabel 5.
Tabel 5. Akurasi Perbandingan Unigram dan Bigram
Preprocessing Akurasi Test (%)
Unigram Bigram
Tanpa Stopword Removal (Normalisasi kata, cleaning,
dan stemming) 77.77 62.50
Berdasarkan hasil pengujian pada tabel 5, penggunaan unigram memiliki akurasi yang lebih baik dibandingkan dengan bigram. Hal tersebut bisa disebabkan karena fitur yang digunakan pada unigram memiliki fitur tunggal yang lebih mudah untuk ditemui pada data train karena lebih banyak dipakai dalam suatu kalimat.
Sedangkan pada bigram fitur yang dibentuk berasal dari penggabungan dua kata, sehingga lebih sedikit kemungkinan munculnya urutan kata yang sama tersebut pada data train. Dan pada bigram menghasilkan jumlah fitur yang lebih banyak daripada unigram.
Baik unigram maupun bigram sama-sama memiliki kekurangan yaitu terdapat banyak kata Out Of Vocabulary (OOV) yang menyebabkan kinerja sistem menurun. Berdasarkan analisis pada pengujian dengan menggunakan kombinasi preprocessing normalisasi kata, cleaning, dan stemming (tanpa stopword removal), pada bigram terdapat 81 tweet yang salah diklasifikasikan, 73 (90.12%) tweet diantaranya salah diklasifikasikan karena adanya OOV dan 8 (9.88%) tweet lainnya salah diklasifikasikan karena sistem yang dibangun gagal dalam memahami arti dari tweet tersebut. Sedangkan pada Unigram dari 48 tweet yang salah diklasifikasikan, 47 (97.92%) tweet diantaranya salah diklasifikasikan karena adanya OOV dan 1 (2.08%) tweet lainnya salah diklasifikasikan karena sistem yang dibangun gagal dalam memahami arti dari tweet tersebut. Walaupun 97.92%
kesalahan pada unigram disebabkan karena OOV, namun jumlah tweet yang salah diklasifikasikan karena OOV pada unigram lebih sedikit dibandingkan dengan bigram. Sehingga dapat disimpulkan bahwa rendahnya akurasi pada bigram disebabkan karena sebagian besar kesalahan yang terjadi pada bigram karena adanya kata OOV dan ditambah dengan sedikit kesalahan klasifikasi akibat sistem gagal dalam memahami arti tweet.
4. KESIMPULAN
Berdasarkan hasil beberapa skenario pengujian yang telah dilakukan untuk analisis sentimen pada tweet komentar COVID-19, dapat disimpulkan bahwa kinerja sistem terbaik dihasilkan ketika menggunakan kombinasi preprocessing cleaning, stemming (tanpa normalisasi kata dan stopword removal); dan kombinasi normalisasi kata, cleaning, dan stemming (tanpa stopword removal) yang menghasilkan akurasi yang sama yaitu sebesar
Syifa Khairunnisa, Copyright ©2021, MIB, Page 414 77.77%. Pengujian yang melibatkan teknik normalisasi kata, cleaning, ataupun stemming memberikan pengaruh yang cukup baik dalam meningkatkan kinerja analisis sentimen. Walaupun cleanning dan stemming memiliki nilai akurasi yang lebih rendah daripada hasil akurasi tanpa dilakukan preprocessing, namun kedua teknik tersebut mampu meningkatkan kinerja sistem analisis sentimen terbukti dengan penggunaan kombinasi kedua teknik tersebut menghasilkan akurasi yang paling optimal dari semua pengujian yang telah dilakukan. Teknik stopword removal memberikan pengaruh yang kurang baik, karena stopword removal dapat mengurangi informasi dari suatu kalimat akibat hilangnya kata-kata yang cukup berpengaruh dalam analisis sentimen, sehingga menyebabkan penurunan kinerja dari sistem. Mutual Information membantu dalam menyeleksi fitur yang akan digunakan sehingga fitur-fitur yang tidak relevan terhadap suatu kelas akan dihilangkan, akibatnya akurasi sistem meningkat dan masalah overfitting dapat berkurang. Selain itu, pengujian dengan menerapkan ekstraksi fitur unigram menghasilkan akurasi yang lebih baik dibandingkan dengan bigram, karena pada bigram menghasilkan fitur dari penggabungan dua kata sehingga sangat sedikit kemungkinan untuk munculnya urutan kata yang sama pada data train. Saran yang dapat diterapkan untuk penelitian selanjutnya adalah perlu menambahkan jumlah dataset yang dilabeli oleh para ahli. Dan menerapkan ekstraksi fitur dengan penggabungan n-gram sehingga menghasilkan informasi yang lebih banyak agar dapat meminimalisir kesalahan klasifikasi seperti yang terjadi pada pengujian bigram.
REFERENCES
[1] WHO. What is COVID-19?. who.int. https://www.who.int/news-room/q-a-detail/q-a-coronaviruses (accessed March, 28, 2020)
[2] Situasi Terkini Perkembangan Coronavirus Disease (COVID-19) 18 Juni 2020. infeksiemerging.kemkes.go.id.
kemkes.go.id. https://infeksiemerging.kemkes.go.id/situasi-infeksi-emerging/situasi-terkini-perkembangan-coronavirus- disease-covid-19-18-juni-2020 (accessed , June 18, 2020).
[3] Rana, S, & Singh. A, Comparative Analysis of Sentiment Orientation Using SVM and Naïve Bayes techniques, 2016 2nd International Conference on Next Generation Computing Technologies, pp. 106-111, Oct. 2016.
[4] Agastya, I. M. A. Pengaruh Stemmer Bahasa Indonesia terhadap Performa Analisis Sentimen Terjemahan Ulasan Film.
Jurnal TEKNOKOMPAK, vol. 12, no. 1, pp. 18-23, Feb. 2018.
[5] Nhlabano, V. V. & Lutu, P. E. N. (2018). Impact of Text Pre-processing on the Performance of Sentiment Analysis Models for Social Media Data. 2018 International Conference on Advances in Big Data, Computing and Data Communication Systems (icABCD), 2018, doi: 10.1109/ICABCD.2018.8465135.
[6] L. G. Irham, A., Adiwijaya, and U. N. Wisesty, “Klasifikasi Berita Bahasa Indonesia Menggunakan Mutual Information dan Support Vector Machine,” J. Media Inform. Budidarma, vol. 3, no. 4, pp. 284–292, 2019.
[7] Krouska. A, Troussas. C, and Virvou. M, “The effect of preprocessing techniques on Twitter Sentiment Analysis,” in 2016 7th International Conference on Information, Intelligence, Systems & Applications (IISA), 2016.
[8] Junita, V. & Bachtiar, F. A. Klasifikasi Aktivitas Manusia menggunakan Algoritme Decision Tree C4.5 dan Information Gain untuk Seleksi Fitur. Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, vol. 3, no. 10, pp. 9426-9433, Oct. 2019.
[9] Nugroho, A. Analisis Sentimen Pada Media Sosial Twitter Menggunakan Naive Bayes Classifier Dengan Ekstrasi Fitur N-Gram. Jurnal Sains Komputer & Informatika (J-SAKTI), vol. 2, no. 2, pp. 200-209, Sep. 2018.
[10] Putra. M. F, Anisa. H, & Diyas. P, Analisis Pengaruh Normalisasi, TF-IDF, Pemilihan Feature-set Terhadap Klasifikasi Sentimen Menggunakan Maximum Entropy (Studi Kasus : Grab dan Gojek), e-Proceeding of Engineering, vol. 6, no.2, pp. 8520-8529, Aug. 2019.
[11] Hamzah. A. Deteksi Bahasa untuk Dokumen Teks Berbahasa Indonesia. Seminar Nasional Informatika (semnasIF 2010), pp. A5-A13, Mei. 2010.
[12] Ahuja, R. et al. (2019). The Impact of Features Extraction on the Sentiment Analysis. International Conference on Pervasive Computing Advances and Applications, Procedia Computer Science, 2019, pp. 341-348.
[13] Nurfikri, F. S., MS Mubarok. & adiwijaya. News Topic Classification Using Mutual Information and Bayesian Network.
In 2018 6th International Conference on Information and Communication Technology (ICoICT), pp. 162-166. IEEE, 2018.
[14] I. Mathilda Yulietha and S. Al Faraby. Klasifikasi Sentimen Review Film Menggunakan Algoritma Support Vector Machine,” e-Proceeding Eng., vol. 4, no. 3, pp. 4740–4750, 2017.
[15] Adiwijaya, U. N. Wisesty, E. Lisnawati, A. Aditsania, D. S. Kusumo, "Dimensionality Reduction using Principal Component Analysis for Cancer Detection based on Microarray Data Classification", Journal of Computer Science vol.14, no.11, pp.1521-1530, Nov. 2018.
[16] Cahyanti, F. E., Adiwijaya, & S. Al Faraby. On The Feature Extraction For Sentiment Analysis of Movie Reviews Based on SVM. 8th International Conference on Information and Communication Technology (ICoICT) ), Yogyakarta, Indonesia, Jun. 2020.
[17] Said Al Farabym Eliza Riviera R. J, Andina Kusumaningrum dan Adiwijaya, “Classification of hadith into positive suggestion, negative suggestion, and information, IOP, 2018.