• Tidak ada hasil yang ditemukan

Perbandingan Metode K-NN Dan Metode Random Forest Untuk Analisis Sentimen pada Tweet Isu Minyak Goreng di Indonesia

N/A
N/A
Nguyễn Gia Hào

Academic year: 2023

Membagikan "Perbandingan Metode K-NN Dan Metode Random Forest Untuk Analisis Sentimen pada Tweet Isu Minyak Goreng di Indonesia"

Copied!
10
0
0

Teks penuh

(1)

Perbandingan Metode K-NN Dan Metode Random Forest Untuk Analisis Sentimen pada Tweet Isu Minyak Goreng di Indonesia

Christina Purnama Yanti*, Ni Wayan Eva Agustini, Ni Luh Wiwik Sri Rahayu Ginantra, Dewa Ayu Putri Wulandari

Fakultas Teknologi dan Informatika, Prodi Teknik Informatika, Institut Bisnis dan Teknologi Indonesia, Bali, Indonesia Email: 1,*christinapy@instiki.ac.id, 2wayaneva7@gmail.com, 3wiwik@instiki.ac.id, 4putri.wulandari@instiki.ac.id

Email Penulis Korespondensi: christinapy@instiki.ac.id

Abstrak−Seiring berkembangnya kemajuan teknologi banyak sekali media sosial yang digunakan oleh manusia salah satunya adalah media sosial twitter, pada media sosial twitter kita bisa banyak menemukan data teks, opini serta pendapat masyarakat seperti sekarang sedang hangat isu minyak goreng di Indonesia. Penelitian ini menggunakan metode K-NN dan Random Forest dan tujuan dari penelitian ini untuk mengetahui perbandingan dari kedua metode tersebut dalam analisis sentimen isu minyak goreng. Hasil akurasi dari dua metode ini tidak terpaut terlalu jauh. Dari dua metode yang digunakan masing-masing akan dibagi menjadi tiga skenario penelitian, yang pertama skenario 1 berjumlah 500 data, skenario 2 berjumlah 800 data, dan skenario 3 berjumlah 1.000 data, dimana untuk rasio data latih dan data uji yaitu 80:20. Untuk hasil pengujian metode K-NN pada skenario 2 lebih unggul dengan presentase akurasi sebesar 74,58%, presisi 56,75% dan recall 44,57% dan hasil yang paling rendah yaitu metode K-NN skenario 1 dengan presentase akurasi sebesar 71,50%, presisi 47,83% dan recall 37,45%.

Untuk rata-rata hasil pengujian dari metode K-NN yaitu akurasi 72,86%, presisi 52,26% dan recall 41,04%. Sedangkan rata- rata hasil pada metode random forest yaitu akurasi 73,37%, presisi 52,26% dan recall 34,28%.

Kata Kunci: Sentimen; Minyak Goreng; Twitter; K-NN, Random Forest

Abstract−Along with the development of technological advances, a lot of social media is used by humans, one of which is Twitter social media. On Twitter social media, we can find a lot of text data, opinions and public opinion, as the issue of cooking oil is currently hot in Indonesia. In this study, the K-NN and Random Forest methods were used, and the purpose of this study was to compare the two methods in sentiment analysis on the issue of cooking oil. The results of the accuracy of these two methods are not too far apart. Each of the two methods used will be divided into three research scenarios, the first is scenario 1, a collection of 500 data, scenario 2, a collection of 800 data, and scenario 3, a collection of 1,000 data, where the ratio of training data and test data is 80:20. The test results for the K-NN method in scenario 2 are superior with an accuracy presentation of 74.58%, 56.75% precision and 44.57% recall and the lowest result is the K-NN method scenario 1 with an accuracy presentation of 71. 50%, 47.83% precision and 37.45% recall. The average test results for the K-NN method are 72.86% accuracy, 52.26% precision and 41.04% recall. While the average results of the random forest method are 73.37%

accuracy, 52.26% precision and 34.28% recall

Keywords: Sentiment; Cooking Oil; Twitter; K-NN; Random Forest

1. PENDAHULUAN

Seiring dengan kemajuan teknologi, maka banyaknya media yang dapat digunakan manusia untuk dijadikan alat dalam berkomunikasi, demikian pula dengan media sosial yang dapat dengan mudah diakses melalui jaringan internet. Pada umumnya fungsi dari media sosial antara lain untuk berbagi pesan dengan banyak pengguna media sosial itu sendiri, yaitu berupa berita, gambar dan juga tautan video [1]. Media sosial tidak hanya dapat di akses di perangkat komputer, tetapi dengan adanya aplikasi di smartphone atau telepon pintar, maka semakin memudahkan masyarakat untuk mengakses media sosial secara mobile sehingga dapat diakses kapanpun dan di manapun[2].

Media jejaring sosial seperti Tiktok, Twitter, Instagram Facebook dan Youtube merupakan beberapa media perangkat komunikasi terpopuler di masyarakat saat ini. Media sosial telah menjadi trend dari kehidupan masyarakat luas dan menjadi identitas mereka dalam bersosialisasi, tidak hanya bagi kalangan sendiri, tetapi juga bagi masyarakat luas. Informasi yang terdapat didalam Twitter mayoritas adalah berupa data teks, opini serta pendapat tertulis dalam kalimat-kalimat yang berupa teks dan tidak terstruktur [3]. Untuk melihat respon masyarakat terhadap insiden kelangkaan minyak goreng dapat dilihat dari berbagai sarana dan media salah satunya yaitu melalui media sosial Twitter. Alasan penulis tertarik menganalisis sentiment masyarakat pada isu kelangkaan minyak goreng karena pembahasan mengenai minyak goreng tengah menjadi trending topic di Twitter. Melihat bahwa negara Indonesia sebagai pusat produksi sawit terbesar di dunia mencapai 43,3 juta ton pertahun, namun minyak goreng langka, itulah yang menjadi kesenjangan[4]. Banyak masyarakat yang ikut serta dalam mengunggah, membahas dan memberikan opini mengenai minyak goreng ini, dimana opini yang diberikan masyarakat tersebut justru membuat yang mengkonsumsi informasi tersebut menjadi bimbang akan kejelasan dan kurang jelas opini tersebut mengarah ke suatu unggahan positif, negatif, netral [5]. Adapun cara yang dapat digunakan untuk mendapatkan suatu informasi atau unggahan tersebut bersifat positif, negatif atau netral dengan cara melakukan Analisis Sentimen Twitter, dimana cara ini digunakan untuk mengeksplorasi apakah konten yang dikumpulkan dari opini masyarakat dalam keadaan positif, negatif atau netral [6]. Analisis sentimen Twitter ini dilakukan untuk memberikan suatu hasil analisa. Berkaitan dengan judul penelitian yang akan diteliti mengenai perbandingan algoritma K-NN dan Random Forest, terdapat beberapa referensi terkait, diantaranya pada penelitian [7] tentang Analisis Sentimen Terhadap Tayangan Televisi Berdasarkan Opini Masyarakat pada Media Sosial

(2)

Twitter menggunakan Metode K-Nearest Neighbor dan Pembobotan Jumlah Retweet. Hasil penelitian ini nilai k optimal untuk melakukan proses klasifikasi KNN adalah k=3, dengan tingkat akurasi mencapai 80,83%. Pada penelitian [8] tentang Perbandingan Metode KNN, Decision Tree, dan Naïve Bayes Terhadap Analisis Sentimen Pengguna Layanan BPJS dengan hasil analisis sentimen terhadap data Twitter mengenai layanan BPJS mencapai tingkat akurasi 96.01%. Dimana class precision untuk pred. negative adalah 52.17%, pred positive adalah 0.00%, dan pred. neutral adalah 97.27% dalam metode KNN. Pada penelitian [9] dengan hasil pengujian terbaik pada skenario pengujian jumlah tree yaitu nilai accuracy 90%. Hasil tersebut diperoleh yaitu skenario 3 dengan jumlah tree terbesar dibanding skenario lainnya. Hal tersebut dapat disimpulkan bahwa semakin besar jumlah tree maka semakin baik hasil prediksi yang didapatkan. Berdasarkan penelitian sebelumnya, penulis mengambil beberapa hal dari penelitian sebelumnya untuk diterapkan pada penelitian sekarang sehingga menjadikan penelitian sekarang berbeda dari penelitian sebelumnya. Peneliti akan mengbandingkan dua metode yaitu metode K-NN dan metode Random Forest untuk menganalisis tweet isu minyak goreng di Indonesia. Algoritma K-NN memiliki kelebihan dalam menerjemahkan hasil, waktu perhitungan dan akurasi dari perhitungan dibandingkan dengan metode logistic, CART, dan SVM [10]. Pada algoritma Random Forest menunjukkan beberapa kelebihan diantaranya mampu menghasilkan error yang relatif rendah, performa yang baik dalam klasifikasi, dapat mengatasi data pelatihan dalam jumlah besar secara efisien, serta metode yang efektif untuk mengestimasi missing data [11].

Adapun alasan membandingkan kedua metode adalah untuk mengetahui apakah kedua metode dapat melakukan klasifikasi terkait kasus tweet isu minyak goreng serta ingin mengetahui metode mana yang memiliki tingkat akurasi yang lebih baik dalam melakukan klasifikasi data tweet tentang isu minyak goreng di Indonesia.

2. METODOLOGI PENELITIAN

2.1 Tahapan Penelitian

Dalam proses meneliti pada penelitian ini dilakukan beberapa langkah atau proses sedemikian rupa untuk mendapatkan hasil kesimpulan dari penelitian yang dilakukan penulis. Adapun alur penelitian yang dilakukan adalah terlihat pada gambar 1.

Gambar 1. Alur Penelitian 2.1.1 Pengumpulan Data

Pada tahap pengumpulan data dilakukan dengan menggunakan satu metode pengumpulan data yaitu pengumpulan data sekunder. Dan dua tahap lagi yaitu menggunakan tahap crawling dan labeling. Pengumpulan data ini dilakukan untuk memenuhi kebutuhan objek yang digunakan selama proses penelitian. Dalam pengumpulan data sekunder, pengumpulan data yang dilakukan dengan cara melakukan wawancara langsung dengan Bapak Gatot Supriatin selaku Sub Koordinator unit substansi pengendalian barang pokok dan barang penting. Sedangkan pengumpulan data yang dilakukan dengan dua tahap yaitu crawling dan labelling. Crawling dilakukan dengan mengambil komentar Twitter menggunakan aplikasi rapid miner, data yang dikumpulkan terdiri dari 1000 komentar. Komentar yang diambil adalah berdasarkan isu yang viral Kemudian tahap labelling dilakukan untuk memberi label/kelas pada data, label yang diberikan adalah positif negatif netral.

2.1.2 Preprocessing Data

Prepocessing data dapat membantu mengubah data agar mudah digunakan sebelum tugas analisa sentimen dapat dilakukan. Untuk bisa mengolah dokumen teks supaya bisa menghasilkan luaran yang diinginkan maka harus

(3)

dilakukan pengolahan teks terlebih dahulu, tahapan preprocessing teks meliputi menghapus angka, tanda baca, stopword dan mengubah teks menjadi huruf kecil [12].

2.1.3 Pelabelan Data

Data tweet yang telah mengalami pemrosesan pada tahapan preprocessing kemudian akan dilakukan pelabelan atau penentuan kelas atribut-nya, penentuan kelas atribut dibuatkannya kamus lexicon kata positif dan negatif bahasa Indonesia dengan format .txt, agar bisa melakukan pelabelan kalimat yang mengandung kata positif , negatif atau netral yang sesuai terdapat pada kamus tersebut. Pembagian kelas atribut pada penelitian ini dibagi menjadi positif, negatif dan netral [13].

2.1.4 Pembagian Data Data

Setelah data selesai diterapkan dalam preprocessing dan diberikan label kelas sentimen, data komentar tersebut dibagi menjadi dua jenis yaitu data latih dan data uji. Data latih digunakan oleh algoritma klasifikasi untuk membentuk sebuah model classifier, model ini merupakan representasi pengetahuan yang akan digunakan untuk prediksi kelas data baru yang belum pernah ada, semakin besar data latih yang digunakan, maka akan semakin baik machine dalam memahami pola data. Sedangkan data uji digunakan untuk mengukur sejauh mana classifier berhasil melakukan klasifikasi dengan benar. Berdasarkan Pareto Principle, rasio umum yang digunakan adalah 80:20, dengan data latih 80% dari setiap kategori dan data uji 20% dari setiap kategori.

2.1.5 Implementasi Metode K-NN

Algoritma pertama yang digunakan yaitu algoritma K-NN adalah algoritma klasifikasi supervised learning atau biasa dikenal dengan metode berbasis jarak [14]. Metode ini bekerja dengan hanya menghafal semua contoh pelatihan yang tersedia selama fase pelatihan. Selanjutnya pada fase pengujian, dokumen yang akan diklasifikasi dibandingkan dengan contoh-contoh berdasarkan ukuran jarak yang ditentukan sebelumnya.

Dokumen yang paling mirip disebut "tetangga terdekat" untuk jumlah tetangga terdekat dapat ditentukan dari berapa jumlah nilai k. K-NN ini merupakan metode yang sederhana untuk pengklasifikasian tanpa harus melakukan perhitungan secara kompleks [15]. Dalam proses implementasi metode K-NN, tahapan yang harus dilakukan dapat dilihat pada gambar 2.

Gambar 2. Implementasi Metode K-NN 2.1.5 Implementasi Metode Random Forest

Algoritma kedua yang dipakai dalam penelitian ini yaitu random forest. Random forest merupakan metode klasifikasi yang supervised. Hanya diperlukan sedikit preprocessing, dan data yang digunakan tidak perlu dilakukan transformasi [16]. Metode ini dapat menangani data yang imbalance, serta training yang cepat. Random forest dibuat dengan teknik dasar data mining yaitu pohon keputusan. Semakin banyak tree yang terbentuk, maka akurasi yang diperoleh akan semakin besar. Pohon yang dihasilkan oleh Random Forest tidak dapat diketahui secara pasti, bisa mencapai ratusan bahkan ribuan [17]. Dibawah ini merupakan proses penerapan metode Random Forest pada gambar 3.

Gambar 3. Implementasi Metode Random Forest

(4)

2.1.6 Skenario Pengujian

Sebuah metode yang melakukan klasifikasi tentunya diharapkan bisa memprediksi dengan benar. Namun pada penerapannya metode tidak akan bisa 100% benar. Hal ini yang mengharuskan pengukuran kinerja dari metode tersebut untuk mengetahui berbagai aspek pengujiannya. Pada penelitian ini untuk menguji tingkat akurasi dari algoritma K-NN dan Random Forest penulis menggunakan confucion matrix. Confusion matrix merupakan salah satu metode yang dapat digunakan untuk mengukur kinerja suatu metode klasifikasi. Confusion matrix dapat digunakan untuk mengukur performa dalam permasalahan klasifikasi biner maupun permasalahan klasifikasi multiclass [18]. Dalam penelitian ini penulis menggunakan 3 skenario pengujian yaitu skenario 1 berjumlah 500 data, skenario 2 berjumlah 800 data, dan skenario 3 berjumlah 1000 data

.

3. HASIL DAN PEMBAHASAN

3.1 Hasil Crawling Data

Crawling merupakan tahapan yang penting untuk dilakukan saat akan melakukan analalisis data, pada teknik pengumpulan data ini melakukan proses pengumpulan data Twitter dengan memanfaatkan Application Programming Interface (API) yang disediakan oleh Twitter yang menghasilkan kumpulan data sampel berupa teks yang telah diunggah oleh pengguna Twitter[19]. Pada penelitian analisis sentimen minyak goreng menggunakan metode Random Forest dan K-NN ini, terdapat sekitar 8.000 data komentar yang terkumpul dari twitter. Kemudian data tersebut menyusut menjadi 1.000 data. Penyusutan terjadi karena seluruh data telah melewati proses cleaning, yang mana proses tersebut dilakukan untuk menghilangkan komentar kosong ataupun komentar yang berisi emoticon saja. Data tersebut dihapus atau dibersihkan karena tidak digunakan dalam penelitian ini. Seluruh data yang terkumpul akan diberikan label sentimen menggunakan aplikasi orange berdasarkan kamus lexicon bahasa Indonesia. Dari 1.000 data tersebut akan dibagi menjadi 3 skenario yaitu skenario 1 berjumlah 500 data, skenario 2 berjumlah 800 data, dan skenario 3 berjumlah 1.000 data. Hasil dari crawling data dapat dilihat pada gambar 4.

Gambar 4. Hasil Crawling Data 3.2 Implementasi

Berdasarkan tabel dataset ulasan atau sentimen di atas, untuk melakukan pengujian analisa sentimen dari masing- masing metode K-NN dan metode Random Forest maka akan diimplementasikan ke dalam skema RapidMiner dengan tampilan pemodelan pada gambar 5.

Gambar 5. Skema Pemodelan Analisis Sentimen

Pada gambar merupakan skema analisis sentimen pada rapid miner, operator read excel berfungsi untuk membaca data yang telah di crawling sebelumnya, Set Role berfungsi untuk membedakan baris penamaan atribut

(5)

koordinat dan prediksi posisi yang akan di masukan kedalam kategori 'label'. Agar pada saat pengkategorian data 'label' tidak ikut serta terhitung dan merubah hasil.Nominal to Text berfungsi untuk mengubah jenis atribut nominal yang dipilih menjadi teks. Process Documents berfungsi untuk memproses dokumen atau biasa disebut preprocessing, dimana di dalam process document terdapat beberapa sub-sub. Operator cross validation adalah operator yang bersarang yang memiliki dua subproses: subproses training yang digunakan untuk melatih model dan subproses testing untuk pengujian sekaligus mengukur kinerja model. Operator aply model digunakan untuk menerapkan model yang telah dilatih sebelumnya.

Gambar 6. Sampel Hasil Pelabelan 3.3 Hasil Prediksi Sentimen Metode K-NN

3.3.1 Hasil K-NN Skenario 1

Performance dengan confusion matrix yang diperoleh pada metode K-NN dengan total 500 kasus yaitu sebagai berikut , diketahui bahwa proporsi kasus positif yang sebenarnya di prediksi positif secara benar adalah sebanyak 0 kasus dari 28 kasus positif ( class recall positif 0.00%) . Proporsi kasus netral yang sebenarnya di prediksi netral secara benar adalah sebanyak 16 kasus dari 78 kasus netral (class recall netral 20.52%) Diketahui bahwa proporsi kasus negatif yang sebenarnya di prediksi negatif adalah sebanyak 270 kasus dari 294 kasus yang sebenarnya negatif (class recall negatif 91.84%). Proporsi kasus prediksi negatif yang memprediksi kasus yang sebenarnya netral dan positif sebanyak 60 dan 20 kasus dari 78 kasus netral dan 28 kasus positif (class presisi negatif 77.14%).

Proporsi kasus prediksi netral yang memprediksi kasus yang sebenarnya negatif dan positif sebanyak 20 dan 8 dari 294 kasus negatif dan 28 kasus positif (class presisi netral 36.36%). Proporsi kasus prediksi positif yang memprediksi kasus yang sebenarnya negatif dan netral sebanyak 4 dan 2 dari 294 kasus negatif dan 78 kasus netral (class presisi netral 00.00%. Jumlah kasus yang tepat prediksi sejumlah 286 kasus , yang terdiri dari 270 kasus negatif, 16 kasus netral dan 0 kasus positif ( akurasi 71.50%). Hasil prediksi metode K-NN skenario 1 dapat dilihat pada gambar 7.

Gambar 7. Prediksi Metode K-NN Skenario 1 3.3.2 Hasil K-NN Skenario 2

Performance Performance dengan confusion matrix yang diperoleh pada metode K-NN dengan total 800 kasus yaitu sebagai berikut , diketahui bahwa proporsi kasus positif yang sebenarnya di prediksi positif secara benar adalah sebanyak 6 kasus dari 47 kasus positif ( class recall positif 12.77%) . Proporsi kasus netral yang sebenarnya di prediksi netral secara benar adalah sebanyak 35 kasus dari 125 kasus netral (class recall netral 28.00%) Diketahui bahwa proporsi kasus negatif yang sebenarnya di prediksi negatif adalah sebanyak 435 kasus dari 468

(6)

kasus yang sebenarnya negatif (class recall negatif 92.95%). Proporsi kasus prediksi negatif yang memprediksi kasus yang sebenarnya netral dan positif sebanyak 83 dan 31 kasus dari 125 kasus netral dan 47 kasus positif (class presisi negatif 79.23%). Proporsi kasus prediksi netral yang memprediksi kasus yang sebenarnya negatif dan positif sebanyak 33 dan 10 dari 467 kasus negatif dan 47 kasus positif (class presisi netral 44.87%). Proporsi kasus prediksi positif yang memprediksi kasus yang sebenarnya negatif dan netral sebanyak 0 dan 7 dari 468 kasus negatif dan 125 kasus netral (class presisi netral 46.15%. Jumlah kasus yang tepat prediksi sejumlah 476 kasus , yang terdiri dari 435 kasus negatif, 35 kasus netral dan 6 kasus positif ( akurasi 74.38%). Hasil prediksi metode K-NN skenario 2 dapat dilihat pada gambar 8.

Gambar 8. Prediksi Metode K-NN Skenario 2 3.3.3 Hasil K-NN Skenario 3

Performance dengan confusion matrix yang diperoleh pada metode K-NN ketiga yaitu, metode K-NN dengan total 1000 kasus yaitu sebagai berikut , diketahui bahwa proporsi kasus positif yang sebenarnya di prediksi positif secara benar adalah sebanyak 6 kasus dari 60 kasus positif ( class recall positif 10.00%) . Proporsi kasus netral yang sebenarnya di prediksi netral secara benar adalah sebanyak 37 kasus dari 159 kasus netral (class recall netral 23.27%). Diketahui bahwa proporsi kasus negatif yang sebenarnya di prediksi negatif adalah sebanyak 537 kasus dari 581 kasus yang sebenarnya negatif (class recall negatif 92.43%). Proporsi kasus prediksi negatif yang memprediksi kasus yang sebenarnya netral dan positif sebanyak 119 dan 42 kasus dari 159 kasus netral dan 60 kasus positif (class presisi negatif 76.93%). Proporsi kasus prediksi netral yang memprediksi kasus yang sebenarnya negatif dan positif sebanyak 44 dan 12 dari 581 kasus negatif dan 60 kasus positif (class presisi netral 39.78%). Proporsi kasus prediksi positif yang memprediksi kasus yang sebenarnya negatif dan netral sebanyak 0 dan 3 dari 581 kasus negatif dan 159 kasus netral (class presisi netral 66.67%. Jumlah kasus yang tepat prediksi sejumlah 580 kasus , yang terdiri dari 537 kasus negatif, 37 kasus netral dan 6 kasus positif ( akurasi 72.50%).

Hasil prediksi metode K-NN skenario 3 dapat dilihat pada gambar 9.

Gambar 9. Prediksi Metode K-NN Skenario 3 3.3.4 Rangkuman Hasil K-NN

Perbandingan dari 3 skenario yang di gunakan untuk pengujian metode K-NN menunjukkan bahwa akurasi pada skenario skenario 2 lebih unggul diantara ketiga skenario dengan persentase 74,58%, selanjutnya disusul oleh skenario 3 dengan persentase 72,50% dan yang paling rendah yaitu skenario 1 dengan presentase 71,50%. Hasil presisi dari 3 skenario yaitu rata rata menunjukkan presentase 56,44%, dan hasil dari nilai recall yaitu rata rata sebesar 44,91%. Hasil rangkuman metode K-NN dapat dilihat pada gambar 10.

Gambar 10. Rangkuman Hasil Metode K-NN

(7)

3.4 Hasil Prediksi Sentimen Metode Random Forest 3.4.1 Hasil Random Forest Skenario 1

Performance dengan confusion matrix yang diperoleh pada metode Random Forest dengan total 500 kasus yaitu sebagai berikut , diketahui bahwa proporsi kasus positif yang sebenarnya di prediksi positif secara benar adalah sebanyak 0 kasus dari 28 kasus positif ( class recall positif 0.00%) . Proporsi kasus netral yang sebenarnya di prediksi netral secara benar adalah sebanyak 2 kasus dari 78 kasus netral (class recall netral 2.56%) Diketahui bahwa proporsi kasus negatif yang sebenarnya di prediksi negatif adalah sebanyak 294 kasus dari 294 kasus yang sebenarnya negatif (class recall negatif 100.00%). Proporsi kasus prediksi negatif yang memprediksi kasus yang sebenarnya netral dan positif sebanyak 75 dan 28 kasus dari 78 kasus netral dan 28 kasus positif (class presisi negatif 74.06%). Proporsi kasus prediksi netral yang memprediksi kasus yang sebenarnya negatif dan positif sebanyak 0 dan 0 dari 294 kasus negatif dan 28 kasus positif (class presisi netral 100.00%). Proporsi kasus prediksi positif yang memprediksi kasus yang sebenarnya negatif dan netral sebanyak 0 dan 1 dari 294 kasus negatif dan 78 kasus netral (class presisi netral 00.00%. Jumlah kasus yang tepat prediksi sejumlah 296 kasus , yang terdiri dari 294 kasus negatif, 2 kasus netral dan 0 kasus positif ( akurasi 74.00%). Hasil prediksi metode Random Forest skenario 1 dapat dilihat pada gambar 11.

Gambar 11. Prediksi Metode Random Forest Skenario 1 3.4.2 Hasil Random Forest Skenario 2

Performance dengan confusion matrix yang diperoleh pada metode Random Forest dengan total 800 kasus yaitu sebagai berikut , diketahui bahwa proporsi kasus positif yang sebenarnya di prediksi positif secara benar adalah sebanyak 0 kasus dari 47 kasus positif ( class recall positif 0.00%) . Proporsi kasus netral yang sebenarnya di prediksi netral secara benar adalah sebanyak 0 kasus dari 125 kasus netral (class recall netral 0.00%) Diketahui bahwa proporsi kasus negatif yang sebenarnya di prediksi negatif adalah sebanyak 468 kasus dari 468 kasus yang sebenarnya negatif (class recall negatif 100.00%). Proporsi kasus prediksi negatif yang memprediksi kasus yang sebenarnya netral dan positif sebanyak 123 dan 47 kasus dari 125 kasus netral dan 47 kasus positif (class presisi negatif 73.35%). Proporsi kasus prediksi netral yang memprediksi kasus yang sebenarnya negatif dan positif sebanyak 0 dan 0 dari 468 kasus negatif dan 47 kasus positif (class presisi netral 00.00%). Proporsi kasus prediksi positif yang memprediksi kasus yang sebenarnya negatif dan netral sebanyak 0 dan 0 dari 468 kasus negatif dan 125 kasus netral (class presisi positif 00.00%. Jumlah kasus yang tepat prediksi sejumlah 468 kasus , yang terdiri dari 468 kasus negatif, 0 kasus netral dan 0 kasus positif ( akurasi 73.12%). Hasil prediksi metode Random Forest skenario 2 dapat dilihat pada gambar 12.

Gambar 12. Prediksi Metode Random Forest Skenario 2 3.4.3 Hasil Random Forest Skenario 3

Performance dengan confusion matrix yang diperoleh pada metode Random Forest dengan total 1000 kasus yaitu sebagai berikut , diketahui bahwa proporsi kasus positif yang sebenarnya di prediksi positif secara benar adalah sebanyak 3 kasus dari 60 kasus positif ( class recall positif 5.00%) . Proporsi kasus netral yang sebenarnya di prediksi netral secara benar adalah sebanyak 1 kasus dari 159 kasus netral (class recall netral 0.63%) Diketahui bahwa proporsi kasus negatif yang sebenarnya di prediksi negatif adalah sebanyak 580 kasus dari 581 kasus yang sebenarnya negatif (class recall negatif 99.83%). Proporsi kasus prediksi negatif yang memprediksi kasus yang sebenarnya netral dan positif sebanyak 158 dan 57 kasus dari 159 kasus netral dan 60 kasus positif (class presisi negatif 72.96%). Proporsi kasus prediksi netral yang memprediksi kasus yang sebenarnya negatif dan positif

(8)

sebanyak 1 dan 0 dari 581 kasus negatif dan 60 kasus positif (class presisi netral 50.00%). Proporsi kasus prediksi positif yang memprediksi kasus yang sebenarnya negatif dan netral sebanyak 0 dan 0 dari 581 kasus negatif dan 159 kasus netral (class presisi positif 100.00%. Jumlah kasus yang tepat prediksi sejumlah 584 kasus , yang terdiri dari 580 kasus negatif, 1 kasus netral dan 3 kasus positif ( akurasi 73.00%). Hasil prediksi metode Random Forest skenario 3 dapat dilihat pada gambar 13.

Gambar 13. Prediksi Metode Random Forest Skenario 3 3.4.4 Rangkuman Hasil Random Forest

Pada gambar 13 menunjukkan rangkuman hasil dari pengujian pada metode Random Forest. Perbandingan dari 3 skenario yang di gunakan untuk pengujian metode Random Forest menunjukkan bahwa akurasi pada skenario skenario 1 lebih unggul diantara ketiga skenario dengan persentase 74.00%, selanjutnya disusul oleh skenario 2 dengan persentase 73,12% dan yang paling rendah yaitu skenario 1 dengan presentase 73.00%. Hasil rangkuman metode Random Forest terlihat pada gambar 14.

Gambar 14. Rangkuman Hasil Metode Random Forest 3.5 Hasil Perbandingan Metode

Hasil yang di peroleh dari pengujian metode K-NN yaitu skenario 1 mendapatkan akurasi sebesar 71,50%, presisi 47,83% dan recall 37,45%, pada skenario 2 mendapatkan hasil akurasi sebesar 74,58%, presisi 56,75% dan recall 44,57%, dan pada skenario 3 mendapatkan hasil akurasi sebesar 72,50%, presisi 61,12% dan recall 41,09%. Dari penjelasan tersebut dapat diketahui bahwa pengujian metode K-NN pada skenario 2 hasil akurasi lebih unggul dibandingkan skenario yang lainnya. Sedangkan hasil yang diperoleh dari pengujian metode Random Forest yaitu pada skenario 1 memperoleh akurasi sebesar 74,00%, presisi 58,02% dan recall 34,18%. Pada skenario 2 memperoleh hasil akurasi sebesar 73,12%, presisi 24,45% dan recall 33,33%. Dan pada skenario 3 mendapatkan hasil akurasi 73,00%, presisi 74,32% dan recall 35,33%. Dari penjelasan tersebut dapat diketahui bahwa pengujian metode Random Forest pada skenario 1 hasil akurasi lebih unggul dibandingkan skenario yang lainnya. Rata-rata akurasi dari metode K-NN yaitu sebesar 72,86%, presisi 52,26% dan recall 41,04%. Sedangkan pada metode Random Forest rata-rata akurasi sebesar 73,37%, presisi 52,26% dan recall 34,28%. Dari kedua metode yang digunakan untuk analisis tweet isu minyak goreng, diperoleh bahwa metode K-NN lebih baik dari segi akurasi dan optimal dibandingkan metode Random Forest. Berikut hasil rata-rata perbandingan kedua metode pada dilihat pada Tabel 1.

Tabel 1. Hasil Rata – Rata Perbandingan Kedua Metode Metode Akurasi Recall Presisi

K-NN 72,86% 52,25% 41,04%

Random Forest 73,37% 52,26% 34,28%

(9)

4. KESIMPULAN

Dari penelitian ini, metode k-NN dan metode Random Forest mampu digunakan dalam menganalisis klasifikasi pada kasus tweet isu minyak goreng di Indonesia. Pada penelitian sebelumnya, sudah ada yang membandingkan analisis sentimen menggunakan metode K-NN dan Random Forest namun belum ada yang membahas tentang tweet isu minyak goreng. Penelitian ini menggunakan tiga skenario dengan jumlah data yang berbeda – beda sehingga dapat disimpulkan bahwa jumlah data juga merupakan salah satu faktor yang menentukan hasil akurasi metode. Dari penelitian ini komentar negatif lebih banyak dibandingkan komentar positif dari masyarakat, dalam penelitian ini menggunakan 3 skenario yaitu skenario 1 berjumlah 500 data, skenario 2 berjumlah 800 data dan skenario 3 berjumlah 1000 data tweet yang didapat melalui proses crawling data twitter. Penentuan kelas atribut dibuatkannya kamus lexicon kata positif dan negatif bahasa Indonesia dengan format .txt, agar bisa melakukan pelabelan kalimat yang mengandung kata positif , negatif atau netral yang sesuai terdapat pada kamus tersebut.

Dari hasil penelitian tersebut dapat diketahui bahwa hasil pengujian menggunakan confusion matrix didapat pengujian metode K-NN pada skenario 2 hasil akurasi lebih unggul dibandingkan skenario yang lainnya.

Sedangkan hasil pengujian dengan metode Random Forest pada skenario 1 hasil akurasi lebih unggul dibandingkan skenario yang lainnya. Rata-rata akurasi dari metode K-NN yaitu sebesar 72,86%, presisi 52,26% dan recall 41,04%. Sedangkan pada metode Random Forest rata-rata akurasi sebesar 73,37%, presisi 52,26% dan recall 34,28%. Dari kedua metode yang digunakan untuk analisis tweet isu minyak goreng, diperoleh bahwa metode Random Forest lebih baik dari segi akurasi dan optimal dibandingkan metode K-NN untuk data tweet isu minyak goreng.

REFERENCES

[1] F. Syadid, “Analisis Sentimen Komentar Netizen Terhadap Calon Presiden Indonesia 2019 Dari Twitter Menggunakan Algoritma Term Frequency-Invers Document Frequency (Tf- Idf) Dan Metode Multi Layer Perceptron (Mlp) Neural Network,” 2019.

[2] Susilowati, “Pemanfaatan Aplikasi Tiktok Sebagai Personal Branding Di Instagram,” Jurnal Komunikasi, vol. 9, no. 2, pp. 176–185, 2018.

[3] T. Hendrawati and C. P. Yanti, “Analysis of Twitter Users Sentiment against the Covid-19 Outbreak Using the Backpropagation Method with Adam Optimization,” Journal of Electrical, Electronics and Informatics, vol. 5, no. 1, 2021.

[4] C. Siahaan, A. Febri Herawati, and D. Adrian, “Pemberitaan Kelangkaan Minyak Goreng Di Media Online Dan Kepanikan Masyarakat,” vol. 4, no. 2, 2022.

[5] H. S. Utama, D. Rosiyadi, D. Aridarma, and B. S. Prakoso, “Sentimen Analisis Kebijakan Ganjil Genap Di Tol Bekasi Menggunakan Algoritma Naive Bayes Dengan Optimalisasi Information Gain,” Jurnal Pilar Nusa Mandiri, vol. 15, no. 2, pp. 247–254, Sep. 2019, doi: 10.33480/pilar.v15i2.705.

[6] B. Andrianto and S. Adinugroho, “Analisis Sentimen Konten Radikal Melalui Dokumen Twitter Menggunakan Metode Backpropagation,” vol. 2, no. 12, pp. 7380–7385, 2018.

[7] W. E. Nurjanah, R. S. Perdana, and M. A. Fauzi, “Analisis Sentimen Terhadap Tayangan Televisi Berdasarkan Opini Masyarakat pada Media Sosial Twitter menggunakan Metode K-Nearest Neighbor dan Pembobotan Jumlah Retweet,”

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer (J-PTIIK) Universitas Brawijaya, vol. 1, no. 12, pp. 1750–

1757, 2019.

[8] R. Puspita and A. Widodo, “Perbandingan Metode KNN, Decision Tree, dan Naïve Bayes Terhadap Analisis Sentimen Pengguna Layanan BPJS,” Jurnal Informatika Universitas Pamulang, vol. 5, no. 4, p. 646, 2021, doi:

10.32493/informatika.v5i4.7622.

[9] H. C. Morama, D. E. Ratnawati, and I. Arwani, “Analisis Sentimen berbasis Aspek terhadap Ulasan Hotel Tentrem Yogyakarta menggunakan Algoritma Random Forest Classifier,” vol. 6, no. 4, pp. 1702–1708, 2022.

[10] M. Jabal Tursina, “Sentimen Analisis Sistem Zonasi Sekolah Pada Media Sosial Youtube Menggunakan Metode K- Nearest Neighbor Dengan Algoritma Levenshtein Distance,” Universitas Islam Negeri Syarif Hidayatullah Jakarta, 2019.

[11] Yoga Religia, Agung Nugroho, and Wahyu Hadikristanto, “Klasifikasi Analisis Perbandingan Algoritma Optimasi pada Random Forest untuk Klasifikasi Data Bank Marketing,” Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi), vol.

5, no. 1, pp. 187–192, 2021, doi: 10.29207/resti.v5i1.2813.

[12] Andreyestha, A. D. Suriyanto, and W. E. Pangesti, “Analisa sentimen terhadap tagar# dirumahaja melalui twitter di Indonesia,” Intelektiva : Jurnal Ekonomi, Sosial dan Humaniora, vol. 2, no. 09, pp. 9–17, 2021.

[13] O. Somantri and Dairoh, “Analisis Sentimen Penilaian Tempat Tujuan Wisata Kota Tegal Berbasis Text Mining,” Jurnal Edukasi dan Penelitian Informatika, vol. 5, no. 2, 2019, [Online]. Available: www.google.com/maps

[14] P. Studi, T. Informatika, and S. S. Indonesia, “Prediksi Kelulusan Mahasiswa Stmik Stikom Indonesia Pasca Covid-19 Dengan Metode K-Nearest Neighbor,” 2020.

[15] R. Siringoringo, “Klasifikasi Data Tidak Seimbang Menggunakan Algoritma Smote Dan K-Nearest Neighbor,” 2018.

[16] H. Chyntia Morama, D. E. Ratnawati, and I. Arwani, “Analisis Sentimen berbasis Aspek terhadap Ulasan Hotel Tentrem Yogyakarta menggunakan Algoritma Random Forest Classifier,” 2022. [Online]. Available: http://j-ptiik.ub.ac.id [17] R. M. Awangga and N. H. Khonsa’, “Analisis Performa Algoritma Random Forest dan Naive Bayes Multinomial pada

Dataset Ulasan Obat dan Ulasan Film,” InComTech : Jurnal Telekomunikasi dan Komputer, vol. 12, no. 1, p. 60, Apr.

2022, doi: 10.22441/incomtech.v12i1.14770.

[18] N. L. W. S. R. Ginantra, C. P. Yanti, G. D. Prasetya, I. B. G. Sarasvananda, and I. K. A. G. Wiguna, “Analisis Sentimen Ulasan Villa di Ubud Menggunakan Metode Naive Bayes, Decision Tree, dan K-NN,” Jurnal Nasional Pendidikan Teknik Informatika (JANAPATI), vol. 11, no. 3, pp. 205–215, Dec. 2022, doi: 10.23887/janapati.v11i3.49450.

(10)

[19] A. Wandani, F. Fauziah, and A. Andrianingsih, “Sentimen Analisis Pengguna Twitter pada Event Flash Sale Menggunakan Algoritma K-NN, Random Forest, dan Naive Bayes,” J-SAKTI (Jurnal Sains Komputer dan Informatika), vol. 5, no. 2, pp. 651–665, 2021.

Referensi

Dokumen terkait

Dalam penelitian ini dilakukan pengklasifikasian teks mining dan pengujian model dengan membandingkan metode algoritma Naïve Bayes, SVM, Random Forest dan

Kepala sekolah juga menghendaki agar kurikulum yang digunakan disusun dengan baik dan lengkap sesuai dengan ketentuan Standar Nasional Pendidikan (SNP). Untuk ini, peneliti