• Tidak ada hasil yang ditemukan

Dari berbagai referensi penelitian yang ditemukan, Metode Support Vector Machine merupakan pilihan metode yang baik dibandingkan metode klasifikasi lainnya

N/A
N/A
Protected

Academic year: 2023

Membagikan "Dari berbagai referensi penelitian yang ditemukan, Metode Support Vector Machine merupakan pilihan metode yang baik dibandingkan metode klasifikasi lainnya"

Copied!
19
0
0

Teks penuh

(1)

BAB II

LANDASAN TEORI Tinjau Pustaka

2.1

Tinjauan Pustakan Merupakan kumpulan- kumpulan peneletian terdahulu yang dapat digunakan untuk mendukung penelitian yang sedang dilakukan.

Berikut adalah tinjauan literatur yang ditampilkan dalam tabel dibawah ini.

Table 2.1. Tinjauan Literatur

No Peneliti Judul Metode Hasil

1 Dedi Darwis, Eka Shintya Pratiwi, A.

Ferico

Octaviansyah Pasaribu (2020)

Penerapan Algoritma SVM Untuk Analisis Sentimen Pada Data Twitter Komisi Pemberantasan Korupsi Republik Indonesia

Support Vector Machine (SVM)

Hasil dari klasifikasi menggunakan metode SVM dibagi menjadi tiga kelas, yaitu kelas positif sebanyak 8%, kelas negatif sebanyak 77%, dan kelas netral

sebanyak 15%.

Pengujian dari penelitian ini menggunakan

Confusion Matrix, Akurasi dari hasil penelitiannya

kecondongan sentimen negatif sebesar 77%

dengan keakuratan hasil pengujian akurasi sebesar 82% dan pengujian precision sebesar 90%, serta recall sebesar 88% dan f1-score sebesar 89%.

2 Tineges, Triayudi, dan Sholihati 2020

Analisis Sentimen Terhadap Layanan Indihome

Berdasarkan Twitter Dengan Metode Klasifikasi Support Vector Machine (SVM)

Support Vector Machine

(SVM)

Dengan menerapkan metode SVM

didapatkan hasil akurasi evaluasi menggunakan Confussion Matrix, didapat akurasi sebesar 87% dengan ketepatan antara hasil prediksi

(2)

dengan data sebenarnya (precision) sebesar

86%, tingkat

keberhasilan sistem dalam memprediksi sebuah data (recall) sebesar 95%, tingkat kesalahan semua data yang diprediksi (error rate) sebesar 13%, sedangkan untuk nilai perbandingan rata-rata precision dan recall (f1- score) adalah sebesar 90%.

3 Arsya Monica Pravina, Imam Cholissodin 2019

Analisis Sentimen Tentang Opini Maskapai

Penerbangan pada Dokumen Twitter Menggunakan Algoritma Support Vector Machine (SVM)

Support Vector Machine

(SVM)

Metode klasifikasi Support Vector

Machine yang

diterapkan pada penelitian ini menggunakan

Confusion Matrix sebagai evaluasi klasifikasinya dan tingkat akurasi paling baik sebesar 40%, precision sebesar 40%, recall sebesar 100%, dan f-measure sebesar 57,14%. Tingkat akurasi tersebut didapatkan dengan jumlah iterasi maksimum sebanyak 50 kali.

Dari berbagai referensi penelitian yang ditemukan, Metode Support Vector Machine merupakan pilihan metode yang baik dibandingkan metode klasifikasi lainnya.

4 Styawati dan Mustofa

2019

A Support Vector Machine-Firefly

Algorithm for Movie

Support Vector Machine-

Firefly

Dengan metode SVM

dan FA-SVM

menghasilkan akurasi tertinggi yang sama

(3)

Opinion Data Classification

yaitu 87.84% dengan waktu eksekusi lebih singkat yaitu 2330 detik.

5 Isnain et al.

2021

Sentimen Analisis Publik Terhadap

Kebijakan Lockdown Pemerintah Jakarta

Menggunakan Algoritma SVM

Support Vector Machine

(SVM)

Pada penelitian ini pengujian dilakukan menggunakan metode Confusion Matrix.

Dengan metode

Support Vector Machine tingkat nilai Accuracy sebesar 74%, Precision sebesar 75%, Recall sebesar 92% dan F1-Score sebesar 83%.

Yang artinya cukup baik.

6 Colas dan Brazdil 2006

Comparison of SVM and Some Older Classification

Algorithms in Text Classification Tasks

k Nearest Neighbors, Support

Vector Machines,

naive Bayes

Dalam penelitian ini menunjukkan hasil

bahwa SVM

menghasilkan

performansi yang lebih

baik dalam

menyelesaikan

klasifikasi teks multi kelas dibandingkan metode NBC.

7 Rennie dan Rifkin 2001

Improving Multiclass Text Classification with the Support Vector

Machine

SVM Multiclass

Dalam penelitian ini menunjukkan bahwa SVM unggul dalam klasifikasi multiclass

Pembobotan Data 2.2

Pembobotan TF-IDF (Term Frequency-Inverse Document Frequency) merupakan proses untuk melakukan transformasi data dari data tekstual ke dalam data numerik untuk dilakukan pembobotan pada tiap kata. TF-IDF merupakan sebuah ukuran statistic yang digunakan untuk mengevaluasi seberapa penting sebuah kata pada dokumen yang diberikian menunjukan seberpa penting kata itu dalam tiap dokumen tersebut. DF merupakan frekuensi dokumen yang

(4)

mengandung kata tersebut menunjukan seberapa umum kata tersebut. IDF merupakan inverse dari nilai DF (Septian 2019).

Hasil dari pembobotan kata menggunakan TF-IDF ini adalah hasil perkalian dari TF dikalikan dengan IDF. Bobot kata semakin besar kata sering muncul pada suatu dokumen dan semakin kecil jika muncul dalam banyak dokumen. Tujuan dari pembobotan adalah untuk mendapatkan label/sentimen dari setiap kata/term yang ada pada dokumen (Ni’mah dan Arifin 2020).

Analisis Sentimen 2.3

Menurut Hend G. Hassan & Hitham M. Abo Bakr (2018), sentimen analisis atau Opinion mining adalah bentuk proses komputasi untuk melakukan klasisfikasi pada document, pargraf, atau kalimat menjadi dua kelas atau lebih.

Selain itu Menurut Liu (2008), sentiment analysis (analisis sentimen) atau sering disebut juga dengan opinion mining (penambangan opini) adalah studi komputasi untuk mengenali dan mengekspresikan opini, sentimen, evaluasi, sikap, emosi, subjektifitas, penilaian atau pandangan yang terdapat dalam suatu teks.

Sentiment analisis juga memliki manfaat antara lain Menurut Chaovalit, Pimwadee and Lina Zhou (2005) dalam penelitiannya mengatakan . Analisis Sentimen atau Opinion Mining berguna untuk menemukan informasi berharga yang dibutuhkan orang lain dari data yang tidak terstruktur.

Tugas utama dalam analisis sentiment dengan mengelompokkan teks yang ada didalam sebuah kalimat atau dokumen dengan memastikan pendapat yang dikemukaan di dalam kalimat atau dokumen tersebut, apakah bersifat positif, negatif atau netral ( Pudjajana dan Manongga 2018). Sentimen analisis juga dapat mengungkapkan perasaan emosional sedih, bahagia atau marah (Rusdiaman dan

(5)

Rosiyadi 2019). Berdasarkan penelitian yang telah dilakukan sebelumnya, pada klasifikasi sentimen terdapat 2 bentuk jenis kelas, pertama 2 kelas yaitu positif dan negatif dan 3 kelas yaitu positif, negatif dan netral. Namun jenis kelas tersebut dapat berubah sesuai dengan kebutuhan analisis.

Opini mining dapat dianggap sebagai gabungan antara teks mining dengan natural language processing. Salah satu metode teks mining yang dapat menyelesaikan masalah opini mining adalah Support Vector Machine (SVM).

Metode ini dapat digunakan untuk mengklasifikasikan pendapat kedalam opini positif atau negatif, karena metode tersebut sangat efektif dan cepat untuk menyelesaikan masalah-masalah data teks (Rusdiaman dan Rosiyadi 2019).

Pernyataan atau sentiment mengacu pada inti topik tertentu, pernyataan pada satu topik mungkin akan berbeda arti dengan pernyataan yang sama pada subjek yang berbeda.

Data Mining 2.4

Data mining adalah kegitan mengekstrak informasi atau pengetahuan (knowledge) penting dari suatu set data berukuran besar dengan menggunakan teknik tertentu. Informasi knowledge yang dihasilkan dari data mining ini biasa dipakai untuk memperbaiki pengambilan keputusan (Budi Santosa 2018).

Terdapat beberapa tugas-tugas biasa dilakukan pada data mining antara lain:

1. Klastering

Klastering adalah mengelompokkan obyek ke dalam beberapa kelompok berdasarkan kemripan antar obyek, di mana dalam satu klister harus berisi obyek yang saling mirip dan antar klaster obyek salin tidak mirip.

(6)

2. Klasifikasi

Melakukan pengelompokkan obyek berdasarkan kelompok yang sudah ada.

3. Regresi/Estimasi

Regresi mirip dengan klasifikasi, yaitu memerlukan data pelatihan yang sudah diberi label. Perbedaanya, output klasifikasi adalah nilai diskrit, sedangkan output dari regresi adalah nilai kontinyu.

4. Asosiasi

Melakukan asosiasi antar obyek dalam suatu set data, biasanya data transaksional.

Secara umum urutan langkah-langkah proses data mining sebagai berikut dapat dilihat pada gambar 2.4.

Gambar 2.4 Data Mining

Text Mining 2.5

Text mining adalah suatu proses penambangan data berbentuk teks yang dilakukan oleh seperangkat alat komputer yang dapat memberikan informasi- informasi untuk dilakukan analisa keterhubungan antar data yang lain (Pudjajana dan Manongga 2018). Proses utama dalam text mining yaitu dengan menemukan

(7)

kalimat yang dapat mewakili isi dari dokumen yang kemudian akan dianalisis keterkaitan antar dokumen menggunakan metode statistik seperti analisis kelompok (clustering), klasifikasi (classification) dan informasi retrival (Rusdiaman dan Rosiyadi 2019).

Tujuan dari text mining adalah untuk memperoleh informasi yang bermanfaat dari sekumpulan dokumen. Jadi, sumber data yang digunakan dalam text mining adalah sekumpulan teks dengan memiliki format yang belum terstruktur atau minimal semi terstruktur. Adapun tugas umum dari text mining yaitu pengelompokkan teks. Text mining dapat memberikan penyelesaian dari suatu permasalahan seperti pemrosesan, pengorganisasian atau pengelompokkan dan menganalisa unstructured data dalam yang jumlah besar, data yang akan digunakan adalah data yang didapat dari sosial media Twitter (Rusdiaman dan Rosiyadi 2019; Yunita 2016, vol. V, 104–112).

Twitter 2.6

Twitter didirikan oleh Jack Dorsey pada bulan Maret 2016 dengan situs jejaring sosialnya diluncurkan pada bulan Juli yang dioperasikan oleh Twitter, Inc. Twitter adalah layanan sosial media atau mikrobloging gratis yang penggunanya dapat mengirim dan membaca pesan singkat yang disebut tweet (Ii 2012). Mikroblogging adalah media komunikasi online yang penggunanya dapat melakukan pengaturan privasi, untuk mengontrol siapa saja yang dapat membaca status mereka dengan batasan teks singkat yang kurang dari 200 karakter. Tweet adalah teks yang terdiri dari 140 karakter yang tampil pada halaman utama pengguna.

(8)

Tweet dapat dilihat secara publik, namun penggunanya dapat menentukan pengiriman pesan kesiapa saja dan pengguna dapat melihat tweet pengguna lainnya yang biasa dikenal sebagai pengikut (followers). Pengguna twitter juga dapat menulis pesan berdasarkan topik dengan menggunakan simbol # (hastag).

Sedangkan untuk menyebutkan nama atau membalas pesan dari pengguna lain dapat menggunakan simbol @ (Twitter, 2013 dan Ii 2012).

Twitter memerlukan layanan bit.ly untuk memperpendek url yang dikirim- tampil. Fitur yang terdapat didalam Twitter (Twitter, 2013 dan Ii 2012), antara lain:

1. Laman Utama (Home)

Pada halaman utama pengguna dapat mengetahui tweet yang dikirimkan oleh pengguna lain yang telah menjadi teman kita atau following. Halaman utama biasa disebut sebagai timeline. Timeline ini menampilkan sebuah aliran tweet yang telah tersusun sesuai dengan waktu tweet dikirim.

2. Profil (Profile)

Halaman ini yang akan dilihat oleh semua pengguna Twitter mengenai profil atau data diri serta tweet yang telah sempat dibuat.

3. Pengikut (Followers)

Pengikut adalah pengguna lain yang ingin menjadikan kita sebagai temannya. Ketika pengguna lain sudah menjadi pengikut akun

(9)

seseorang, maka tweet seseorang yang telah diikuti tersebut akan muncul pada halaman utama.

4. Mengikuti (Following)

Mengikuti kebalikan dari pengikut, mengikuti adalah akun seseorang yang sudah mengikuti akun pengguna lain agar tweet yang dikirim oleh pengguna yang diikuti tersebut dapat muncul pada halaman utama.

5. Mentions

Biasanya konten ini merupakan balasan dari percakapan agar sesame pengguna bisa langsung menandai orang yang akan diajak bicara.

6. Favorite

Favorite yaitu cara untuk menyimpan sebuah tweet yang dianggap menarik dengan memandainya sehingga tweet tersebut dapat dibaca lagi suatu saat dan tidak hilang oleh halaman sebelumnya.

7. Pesan Langsung (Direct Message)

Pesan langsung sering dikenal dengan sebutan DM. DM sejenis inbox pada twitter yang langsung tertuju ke pembuat tweet itu sendiri.

8. Tagar (Hashtag)

Hashtag “#” adalah simbol yang ditulis sebelum topik tertentu, yang digunakan agar pengguna lain dapat mencari topik yang serupa yang ditulis oleh pengguna lain juga.

9. List Pengguna

(10)

Twitter dapat mengelompokkan satu kelompok sehingga mempermudah untuk dapat melihat secara keseluruhan para daftar nama pengguna (username) yang mereka ikuti (follow).

10. Topik Hangat (Trending Topic)

Topik yang sedang banyak dibicarakan oleh pengguna Twitter dalam waktu yang bersamaan. Topik ini dapat membantu penggunanya untuk dapat mengerti apa yang sedang terjadi pada dunia.

11. Replay

Replay sebuah balasan atas suatu tweet yang mengarah langsung pada si pembuat tweet itu.

Corona virus 2.7

Corona virus merupakan zoonosis, sehingga terdapat kemungkinan virus berasal dari hewan dan ditularkan ke manusia. Corona virus belum diketahui pasti bagaimana proses penularan dari hewan ke manusia, namun berdasarkan data filogenetik menunjukan penularan antar manusia (human to human), yaitu diprediksi melalui droplet dan kontak dengan virus yang dikeluarkan dalam droplet (Davies 2002). Gejalanya yaitu seperti flu demam dengan suhu ≥380C, batuk kering dan sesak napas. Cara penularannya melalui tetesan kecil (droplet) yang dikeluarkan pada saat seseorang sedang batuk atau bersin (Yayasan Sayangi Tunas Cilik (YSTC), 2020).

Masa inkubasi Corona virus (waktu dari paparan terhadap perkembangan gejala) dari virus diperkirakan antara 2 sampai 14 hari berdasarkan sumber berikut (Worldometer, 2020):

(11)

1. Organisasi Kesehatan Dunia (WHO) melaporkan masa inkubasi untuk Coronavirus antara 2 sampai 10 hari.

2. Komisi Kesehatan Nasional Cina (NHC) awalnya memperkirakan periode inkubasi dari 10 sampai 14 hari.

3. Amerika Serikat CDC memperkirakan periode inkubasi untuk Coronavirus menjadi antara 2 sampai 14 hari.

4. DXY.cn, komunitas online Cina terkemuka untuk dokter dan profesional perawatan kesehatan, adalah melaporkan masa inkubasi dari "3 sampai 7 hari, hingga 14 hari ".

Waktu perkiraan kemungkinan besar akan menyempit karena lebih banyak data tersedia. Pada tanggal 30 Januari 2020, Organisasi Kesehatan Dunia (World Health Organization) mendeklarasikan wabah virus Covid19 sebagai status darurat kesehatan masyarakat global (Global Public Health Emergency). Pada 23 Januari 2020 sejak terkonfirmasi kasus terbaru, pemerintah Cina menutup semua akses jaringan transportasi untuk memutus rantai penularan Coronavirus di Wuhan (Worldometer, 2020). Pemerintah kota Wuhan memberlakukan penutupan wilayah yang disebut dengan Lockdown saat wabah merajalela.

Tanggal 08 April 2021 terdapat 221 negara yang terjangkit Coronavirus dengan total kasus terkonfirmasi 133.733.485 kasus di dunia. Sedangkan Indonesia menduduki peringkat ke 20 dunia dan peringkat ke 4 se Asia dengan jumlah kasus pada gambar dibawah ini (Worldometer, 2020).

(12)

Program kartu PraKerja merupakan trobosan dari upaya pemerintah dalam mengatasi lonjakan besar yang terjadi terhadap angka pekerja yang dirumahkan atau terkena PHK. Masyarakat lain yang juga terdampak akibat pandemi, memancing animo terhadap kartu Prakerja menjadi tinggi (Handayani dan Rachman 2020). Pada tanggal 26 Februari 2020, Presiden telah menerbitkan peraturan Presiden Indonesia Nomor 36 Tahun 2020 tentang pengembangan kompetensi kerja melalui kartu Prakerja untuk pencari kerja, pekerja/buruh yang terkena pemutusan hubungan kerja, dan/atau pekerja pekerja/buruh yang membutuhkan peningkatan kompetensi yang dimaksud adalah warganegara Indonesia yang berusia serendah-rendahnya 18 tahun dan tidak mengikuti pendidikan formal (Kemenaker, 2020).

Gambar 2.7. Pertumbuhan Kasus Covid19 di Indonesia 08 April 2021 Sumber:(Worldometer 2020)

(13)

Dalam situasi pandemi, program ini diharapkan menjadi instrumen untuk penyaluran bantuan sosial. Program ini memiliki anggaran sebesar Rp20Triliun dengan target peserta sebesar 5,6 juta orang, dimana komposisi nilai insentif pasca pelatihan lebih besar dari nilai bantuan pelatihan. Adapun rincian total insentif pasca pelatihan sebesar Rp2.400.000/orang, insentif survey kebekerjaan sebesar Rp150.000/orang, dan bantuan pelatihan sebesar Rp1.000.000/orang (Wahyuni 2020). Antusias masyarakat dalam merespon program kartu Prakerja merupakan langkah yang strategis dari pemerintah Indonesia yang dilatarbelakangi atas dasar keperdulian tinggi terhadap masyarakat yang terdampak.

Support Vector Machine 2.8

Support Vector Machine (SVM) adalah suatu teknik untuk melakukan prediksi pada kasus klasifikasi maupun regresi. Dalam teknik Support Vector Machine bertujuan untuk menemukan fungsi pemisah (klasifier) terbaik di antara fungsi tidak terbatas jumlahnya untuk memisahkan dua macam obyek (Budi Santosa 2018). Pada awalnya Support Vector Machine digunakan untuk klasifikasi data dalam dua kelas. Pada perkembangannya, Support Vector

Gambar 2.7.2 Pemegang Kartu Prakerja Sumber: (finansialku/insentif kartu prakerja)

(14)

Machine dapat diperluas untuk klasifikasi multi kelas. Jika dalam dua dimensi pemisah tersebut berupa garis, dalam tiga dimensi berupa plane, dan dalam dimensi lebih dari tiga disebut dengan hyperplane.

Pada SVM dua dimensi terdapat sumbu dan . Secara teori, jarak antara dua garis dengan garis dapat dihitung dengan:

jarak antara dua garis =

(2.1)

Gambar 2.8 SVM Dua Kelas dengan Hyperplane Terbaik Sumber:( Budi Santosa & Ardian Umam , 2018)

Untuk menghitung margin dapat dengan menhghitung jarak antara hyperline dengan hyperline . Hyperline ini dapat di bawa

kebentuk dan dimana di sini adalah perkalian matriks yang setara dengan + jika dalam dua dimensi. Dengan menggunakan persamaan (2.1), margin dapat dihitung dengan :

( ) ( )

(2.2)

(15)

Sehingga proses optimasi SVM yang mana ingin memaksimalkan nilai margin dapat dilakukan dengan meminimalkan pembaginya, yaitu | | atau dapat kita tulis format sebagai berikut:

| | (2.3)

( )

Dengan adalah input, adalah output, dan adalah parameter yang ingin di cari nilainya.

Dalam penelitian oleh Jason D. M. Rennie & Ryan Rifkin yang berjudul Improving Multiclass Text Classification with the Support Vector Machine menunjukkan hasil bahwa SVM menghasilkan performansi yang lebih baik dalam menyelesaikan klasifikasi teks multi kelas dibandingkan metode NBC. Hal ini sesuai dengan pernyataan Fabrice Colas & Pavel Brazdil bahwa SVM unggul dalam klasifikasi multiclass (Wayan dan Saraswati 2013). Dari berbagai referensi penelitian yang ditemukan, Metode Support Vector Machine merupakan pilihan metode yang baik dibandingkan metode klasifikasi lainnya pernyataan ini dikemukakan oleh (Arsya Monica Pravina, Imam Cholissodin 2019).

Support Vector Machine Multiclass (SVM) 2.8.1

Pada jumlah kelas yang lebih dari dua maka diperlukan pendekatan yang berbeda dengan kasus dua kelas. Ada beberapa metode SVM Multi Kelas yaitu salah satunya metode SVM Muti Kelas One Against One (Suyanto, 2018).

Dalam metode One Against One perlu menemukan ( ) fungsi pemisah, di mana setiap fungsi ditrain dengan data dari dua kelas. Misalkan kita punya persoalan 3 kelas, maka kita harus menemukan 3 fungsi pemisah :

(16)

Ketika mentraining semua data dari kelas 1 diberi label +1

dan semua data dari kelas 2 diberi label -1. Pendekatan yang sama dipakai untuk mentraining .

Menurut Budi Santosa dan Ardian Umam, 2018 Pada training data dari kelas ke- dan ke- , maka penyelesaian persoalan klasifikasi dua-kelas sebagai berikut:

( ) (2.4)

Di mana menunjukkan indeks dari data setiap kelas. Setelah semua fungsi pemisah ( ) ditemukan, ada beberapa metode untuk melakukan testing untuk data baru. Salah satu strategi adalah Berdasarkan pada strategi ini, pemisah jika prediksi dari suatu data poin adalah di kelas kemudian untuk kelas ke ditambah satu. Sebaliknya, untuk kelas ke ditambah satu jika prediksinya adalah di kelas Ulang langkah-langkah untuk semua angka pemisah. Kemudian, prediksi berada pada kelas mana, berdasarkan pada nilai yang paling tinggi. Dalam kasus di mana ada du akelas dengan nilai yang sama, maka dipilih indeksnya yang lebih kecil.

Metode Kernel 2.9

Banyak teknik data mining atau machine learning yang dikembangkan dengan asusmsi keliniearan. Sehingga algoritma yang dihasilkan terbatas untuk

(17)

kasus-kasus yang linier. Umumnya kasus-kasus yang terjadi di dunia nyata bukanlah kasus yang tidak linier. Untuk mengatasi sifat yang tidak linier tersebut dapat menggunakan metode kernel (Scholkopf and Smole, 2002). Dengan metode kernel suatu data input space di mapping ke feature space dengan dimensi yang lebih tinggi melalui map sebagai berikut ( ). Karena itu data di input space menjadi ( ) di feature space. Gambar 2.9 menunjukan suatu contoh feature mapping dari ruang dua dimensi ke feature space dua dimensi.

Dalam input space, data tidak bisa dipisahkan secara linier, tetapi dapat dipisahkan di feature space.

Gambar 2.9 Kernel Map Mengubah Persoalan Yang Tidak Linear Menjadi Linear Dalam Space Yang Baru

Sumber:( Suyanto, 2018)

Adapun fungsi kernel yang biasanya digunakan dalam SVM (Haykin, 1999):

Kernel linear :

,

(2.5)

Kernel polynomial: ( )

(2.6)

Kernel Radial baris function (RBF): ( 2

),

(2.7)

Kernel tangent hyperbolic : tanh ( ) (2.8)

(18)

Confusion Matrix 2.10

Confusion Matrix adalah teknik yang digunakan dalam melakukan evaluasi klasifikasi model berdasrkan objek yang diperkirakan dengan benar atau salah. Sebuah matriks dari prediksi akan dibandingkan dengan kelas asli yang berisi informasi aktual dan prediksi nilai klasifikasi. Setelah sistem berhasil melakukan klasifikasi tweet, dibutuhkan ukuran untuk menentukan seberapa valid atau tepat klasifikasi yang telah dibuat oleh sistem. Tabel 2.10 ini akan menunjukan confusion matrix yang digunakan untuk membantu dalam perhitungan system evaluasi (Arsya Monica Pravina, Imam Cholissodin 2019).

Pengujian akurasi ini dilakukan menggunakan confusion matrix dengan melibatkan empat kondisi sebagai berikut:

Table 2.10 Confussion Matrix

Data Aktual

Data Prediksi

Negatif Netral Positif

Negatif TNg NgN FN

Netral NNg TN NP

Positif FP PN TP

Multi Class Confusin Matrix memiliki elemen-elemen sebagai berikut : 1. TP : Kelas kata terprediksi benar bernilai positif

2. FN : Kelas positif terprediksi netral 3. FP : Kelas positif terprediksi negatif

4. NP : Kelas netral terprediksi sebagai kelas kata positif 5. TN : Kelas terprediksi netral

6. NNg : Kelas netral terprediksi negatif

(19)

7. FN : Kelas negatif terprediksi positif 8. NgN : Kelas negatif terprediksi netral 9. TNg : Kelas negatif terprediksi negatif

Hasil dari pengujian Confusion Matrix dapat menghasilkan nilai akurasi, recall, precision. Akurasi merupakan nilai dari kemiripan antar nilai prediksi dan nilai sebenarnya. Precision merupakan tingkat dari kebenaran antar informasi yang diminta oleh pengguna dan informasi yang disediakan oleh sistem. Recall merupakan tingkat keberhasilan dalam menemukan kembali informasi.

F-measure merupakan bentuk parameter gabungan dari recall dan presisi untuk ukuran keberhasilan retrival. Dengan menggunakan tabel multiclass confusion matrix 3x3, maka untuk menghitung tingkat akurasi, presisi dan recall di gunakan rumus :

(2.9)

(2.10)

(2.11)

(2.12)

Referensi

Dokumen terkait

mengimplementasikan algoritma SVM dalam melakukan analisis sentimen pada data tweet pengguna Twitter mengenai topik vaksin Covid-19 dan menerapkan grid search yang