2.1 Tinjauan Pustaka
Berdasarkan hasil kajian literatur terhadap penelitian yang dilakukan terdahulu. Hingga penulis merujuk kepada sebagian literatur. Berikut ini tabel kajian literatur pustaka yang jadi rujukan dapat dilihat pada Tabel 2. 1.
Tabel 2. 1 Tinjauan Pustaka No Detail Refrensi Keterangan
1 Judul Klasifikasi Data Twitter Pelanggan Berdasarkan Kategori myTelkomsel Menggunakan Metode Support vector machine (SVM)
Tahun 2018
Metode Support vector machine (SVM)
Hasil Hasil perhitungan akurasi pada data tweet awal jika menggunakan parameter default maka kernel yang terbaik ialah kernel linear pada percobaan 3 dengan nilai cost 1 menghasilkan akurasi sebesar 98.79%. Percobaan 1 yakni klasifikasi dengan kernel linear menghasilkan akurasi 98.76% dan percobaan 2 yakni klasifiksi kernel linear dengan special stopword menghasilkan akurasi 98.66% (Istifani and Sholiq 2018).
2 Judul Sentimen Analisis Masyarakat Indonesia di Twitter Terkait Metaverse dengan Algoritma Support vector machine
Tahun 2022
Metode Support vector machine
Hasil Hasil survei penelitian ini tentang sikap orang Indonesia terhadap teknologi metaverse mengungkapkan 66%
netral, 17% negatif, dan 16% positif. Pengujian dengan algoritme SVM menghasilkan hasil kinerja 87% dengan
kernel linear, yang secara signifikan lebih baik daripada kinerja algoritme pohon sebesar 71% (A. Ahmad and Gata 2022).
3 Judul Algoritma Support vector machine (SVM) Untuk Identifikasi Komponen Abstrak Pada Jurnal Ilmiah Berbasis Teknik Klasifikasi
Tahun 2021
Metode Support vector machine (SVM)
Hasil Dengan menggunakan tiga metode pertukaran data yang berbeda, hasil pengujian x. Data pertama 70% data latih dan 30% data uji, kedua 80% data latih dan 20% data yuji, dan ketiga 90% data latih dan 10% data uji, menghasilkan persentase akurasi 67%, 72 %, dan 73,9%, masing-masing (Puspitawati et al. 2021).
4 Judul Perbandingan Akurasi, Recall, dan Presisi Klasifikasi pada Algoritma C4.5, Random Forest, SVM dan Naive Bayes.
Tahun 2021
Metode SVM, C4.5, Random Forest dan Naive Bayes
Hasil Penelitian ini membandingkan efektivitas algoritma klasifikasi C4.5, Random Forest, SVM, dan Naive Bayes.
Ada 200 data peserta JISC secara keseluruhan yang menjadi data penelitian. Ada 140 data latih (70%) dan 60 data uji (30%). memanfaatkan rapidminer, program data mining, untuk mensimulasikan klasifikasi. Hasil mendukung itu. Akurasi yang dicapai oleh algoritma C4.5 adalah 86,67%. Keakuratan metode Random Forest adalah 83,33%. Tingkat akurasi 95% dicapai dengan algoritma SVM. Keakuratan metode Naive Bayes adalah 86,67%. Metode SVM memiliki akurasi terbaik, dan teknik Random Forest memiliki akurasi terendah.(Azhari, Situmorang, and Rosnelly 2021)
5 Judul Ekstraksi Fitur Menggunakan Model Word2Vec Pada Sentiment Analysis Kolom Komentar Kuisioner Evaluasi Dosen Oleh Mahasiswa
Tahun 2020
Metode Support vector machine (Svm)
Hasil Penerapan ekstraksi fitur Average base Word2Vec pada data komentar penilaian dosen menciptakan akurasi sebesar 84, 8%. Setelah itu mengenakan ekstraksi fitur Bag of Centroid base Word2Vec memakai Hirarki Clustering menciptakan akurasi terbaik sebesar 81, 6%
dengan jumlah 75 fitur. Hasil penggabungan kedua ekstraksi fitur menciptakan akurasi sebesar 85, 3% (Rusli et al. 2020).
6 Judul Analisis Sentimen IMBd Film Review Dataset Menggunakan Support vector machine (SVM) dan Seleksi Feature Importance
Tahun 2022
Metode Support vector machine (SVM)
Hasil Dengan menerapkan teknik basic data split dan K-Fold cross validation untuk menilai akurasi data validasi, yang menghasilkan nilai akurasi masing-masing sebesar 91,942% dan 87,699%. Keakuratan prediksi model kemudian diukur menggunakan matriks konfusi dengan pengaturan fitur maksimum 10.000; hasil penelitian menunjukkan bahwa model memiliki akurasi sebesar 88,033%. Dalam hal ini, dapat ditunjukkan bahwa akurasi klasifikasi model dianggap cukup baik.(Nuraliza, Pratiwi, and Hamami 2022)
7 Judul Sentimen Analisis Kegiatan Trading Pada Aplikasi Twitter dengan Algoritma SVM, KNN Dan Random Forrest
Tahun 2022
Metode SVM, KNN Dan Random Forrest
Hasil Hasil penelitian yang meliputi tiga faktor menunjukkan bahwa sentimen positif memiliki nilai sebesar 29%, sentimen negatif memiliki nilai sebesar 10%, dan sentimen netral memiliki nilai sebesar 62%. Penulis menggunakan tiga algoritma klasifikasi untuk menilai data sentimen dari Twitter dan mencapai score akurasi 0,999 untuk KNN, Random Forest, dan Naive SVM (Komputer et al. 2022).
8 Judul Analisis Sentimen Wacana Pemindahan Ibu Kota Indonesia Menggunakan Algoritma Support vector machine (Svm)
Tahun 2021
Metode Support vector machine (Svm)
Hasil Menurut hasil pengujian yang dicoba terhadap tweets sentimen pemindahan ibu kota dari media sosial Twitter sebanyak 1. 236 tweets (404 positif dan 832 negatif) memakai SVM diperoleh akurasi=96, 68%, precision=95.
82%, recall=94. 04% serta AUC= 0, 979 (Arsi and Waluyo 2021).
9 Judul Sentiment Analysis On YouTube Comments Using Word2Vec and Random Forest
Tahun 2021
Metode Random Forest
Hasil Menurut penelitian ini percobaan dengan parameter 1, 5, serta 20 epoch dan ukuran window 3, 5, serta 10, didapat rata rata akurasi model antara 90, 1% hingga 91%.
Namun pengujian model menciptakan akurasi antara 88, 77% hingga dengan 89, 05% (Khomsah 2021).
10 Judul Analisis Sentimen Pemindahan Ibu Kota Pada Twitter Dengan Metode Support vector machine
Tahun 2021
Metode Support vector machine (Svm)
Hasil Hasil penelitian ini menggunakan metode Support Vector Machine adalah True Positive 1 data, True Negative 770 data, False Positive 1 data serta False Negative 220 data sebaliknya dengan memakai Support vector machine dengan Term Frequency– Inverse Document Frequency Yakni True Positive 13 data, True Negative 764 informasi, False Positive 7 data serta False Negative 208 data. Berikutnya guna penerapan Term Frequency– Inverse Document Frequency untuk meningkatkan akurasi menghasilkan nilai 0, 61%
(Hidayat, Garno, and Ridha 2021) .
Berdasarkan penjabaran literatur diatas menunjukkan bahwa Svm (Support vector machine) dapat mempermudah penelitian dalam melihat akurasi yang tinggi dan bekerja dengan baik. Dengan demikian penelitian ini berfokus pada Klasifikasi Sentimen yaitu :
1. Mengukur nilai sentimen masyarakat berupa negatif atau positif.
2. Mengelola data teks menjadi data yang bernilai.
3. Berdasarkan hasil penelitian (Ningrum 2018) nilai akurasi yang didapatkan bahwa model dengan menggunakan fungsi kernel linear lebih tepat digunakan untuk mengklasifikasikan data .
2.2 YouTube
Dengan lebih dari 2 miliar pengguna dan miliaran tampilan harian, YouTube adalah salah satu penyedia konten online paling populer dalam bentuk video (Li et al. 2020). Jika dibandingkan dengan platform media sosial lainnya, keunggulan YouTube adalah penggunaan komunikasi audio dan visual yang masuk akal, membuatnya mudah diakses oleh orang-orang dari semua lapisan masyarakat. Meskipun YouTube adalah alat pendidikan hebat yang dapat digunakan oleh Pembuat Konten untuk mendistribusikan pengetahuan dan memengaruhi perilaku publik, YouTube juga dapat menjadi sumber informasi
palsu yang bertentangan dengan upaya tersebut jika digunakan secara tidak benar.
YouTube diketahui sebagai media sosial yang menunjukkan bermacam-macam video mulai dari permainan, berita, tutorial bahkan kehidupan sehari-hari tentang konten kreator yang bermanfaat untuk masyarakat. Dengan media YouTube yang sangat besar, pastinya menjadi peluang besar untuk mendapatkan data yang sangat luas.
2.3 Metaverse
Metaverse adalah alam semesta pasca-realitas yang menggabungkan realitas fisik dengan virtualitas digital dalam lingkungan multipengguna yang berkelanjutan (Huang et al. 2018). Ini mencakup teknologi seperti virtual reality (VR) dan augmented reality (AR) untuk interaksi multimodal dengan lingkungan virtual, item digital, dan orang-orang. Metaverse adalah platform multi-pengguna yang permanen dengan komunikasi pengguna yang lancar dan real-time. Versi saat ini termasuk platform VR sosial, video game online multipemain, dan lingkungan kolaborasi AR (Huang et al. 2018). Metaverse juga mengatasi batasan teknologi VR saat ini dengan pengalaman visual yang lebih realistis menggunakan teknologi 3D (Indarta et al. 2022). Perbedaan utama dengan AR dan VR adalah bahwa Metaverse adalah alam semesta pasca-realitas yang memiliki tiga faktor kunci yang membedakannya (Park, S.M., & Kim, Y.G., 2022).
2.4 Pengumpulan Data
Dalam penelitian ini, data berasal dari media sosial yang menjadi tempat rujukan masyarakat percakapan dan khususnya pada komentar YouTube yang membahas tentang Metaverse. Data berasal dari komentar masyarakat di konten creator yang sudah di tentukan yang menggunakan media sosial bernama YouTube. Crawling data menggunakan Google Sheets, YouTube API, dan Javascript
2.5 Text Mining
Penambangan Text (Text mining) adalah penambangan dari data yang berbentuk bacaan/teks serta data ini berbeda dengan Data mining (Bach et al.
2019), disebabkan data tipe ini bersifat tidak terstruktur. Tepatnya untuk permasalahan pada penelitian ini yakni data teks yang dikumpulkan untuk tujuan analisis sentimen pada komentar YouTube yang masih bersifaf random/acak.
Penambangan teks dan penambangan data sering dibandingkan karena diyakini bahwa penambangan teks dapat mengambil manfaat dari pendekatan penambangan data. Keduanya, bagaimanapun, berbeda. Penambangan teks membutuhkan ekstraksi karakteristik teks tertentu, sedangkan penambangan data berisi data terstruktur, yang memerlukan pemrosesan awal (Cahyani and Arif 2022). Preprocessing, pembuatan atribut, pemilihan atribut, identifikasi pola, dan interpretasi merupakan langkah standar dari text mining.
2.6 Text Preprocessing
Text preprocessing merupakan suatu proses guna menyeleksi data text supaya jadi lebih terstruktur lagi dengan melalui serangkaian prosedur tahapan yang ada (Styawati and Mustofa 2019). Karena data yang dikumpulkan dari pemikiran pemirsa YouTube tidak terstruktur dan masih mengandung banyak kata-kata yang tidak memiliki arti, tidak mungkin untuk melakukan analisis langsung. Pada tahap text preprocessing, akan dibagi menjadi 4 tahap, yaitu:
2.6.1 Case Folding
Pada tahap Case Folding akan dilakukan pengkorversian teks ke dalam bentuk standar yaitu mengubah semua huruf dokumen menjadi huruf kecil.
Sebagai contoh pada penelitian ini, pengguna yang ingin mendapatkan informasi
―METAVERSE‖ dan mengetik ―METAverse‖, ―MetaVerse‖, ―metaVerse‖, tetap diberikan hasil yang sama yaitu ―metaverse‖.
2.6.2 Stemming
Pada tahap Stemming akan dilakukan pengelompokan kata-kata yang lain yang memiliki kata dasar dan arti yang serupa namun memilik bentuk atau form yang berbeda karena mendapatkan imbuhan yang berbeda.
2.6.3 Tokenizing
Pada tahap Tokenizing akan dilakukan pemotongan string input berdasarkan tiap kata yang menyusunnya. Sebagai contoh pada penelitian ini adalah ada kalimat dengan kata-kata ―metaverse ruang realitas virtual dimana pengguna dapat berinteraksi dengan lingkungan yang dihasilkan komputer‖.
Setelah dilakukan Tokenizing, akan menjadi ―metaverse‖ ―ruang‖ ―realitas‖
―virtual‖ ―dimana‖ ―pengguna‖ ―dapat‖ ―berinteraksi‖ ―dengan‖ ―lingkungan‖
―yang‖ ―dihasilkan‖ ―komputer‖.
2.6.4 Filtering
Pada tahap Filtering akan dilakukan penghapusan kata-kata umum seperti
―yang‖, ―dan‖, ―di‖, ―dari‖. Sebagai contoh pada penelitian ini adalah ada kalimat dengan kata-kata ―Metaverse adalah sebuah konsep baru di dunia digital‖. Setelah dilakukan Filtering akan menjadi ―metaverse‖ ―konsep‖ ―baru‖ ―dunia‖ ―digital‖.
2.7 Analisis Sentimen
Analisis sentimen merupakan salah satu cara dalam mengekstrak informasi berupa pandangan seorang terhadap sesuatu isu ataupun peristiwa (Buslim et al.
2018). Analisis sentimen bisa digunakan untuk menguak opini publik terhadap sesuatu isu, feedback, kepuasan pelayanan, kebijakan ataupun cara yang digunakan buat mengenali bagaimana suatu sentimen diekspresikan memanfaatkan teks dan bagaimana sentimen tersebut dapat dikategorikan menjadi sentimen positif ataupun sentimen negatif. Analisa sentimen bisa dimaksud sebagai klasifikasi sentimen dari data maupun teks yang mayoritas tidak terstruktur memakai gabungan dari NLP (Natural Language Processing) serta metode komputasional. Analisis Sentimen adalah bidang penelitian Text mining yang bermanfaat untuk mengkategorikan konten teks dalam bentuk opini berbasis sentimen. Tujuan utama dari analisis sentimen adalah untuk mengkategorikan beberapa teks dari dokumen, atau karakteristik, ke dalam pernyataan positif, negatif, atau netral. (Rusli et al. 2020).
2.8 Klasifikasi
(Amril Mutoi Siregar & Adam Puspabhuana, 2017) Proses pembentukan model atau fungsi yang mencirikan dan memisahkan kelas data atau ide untuk meramalkan kelas untuk data yang kelasnya tidak diketahui dikenal sebagai klasifikasi. Model yang dihasilkan didasarkan pada analisis data pelatihan (yaitu objek data yang memiliki label kelas yang diketahui). Model yang dihasilkan dapat diekspresikan dalam berbagai cara, termasuk klasifikasi if-then, decision tree, dan SVM, yang semuanya akan digunakan dalam penelitian ini. Pendekatan klasifikasi mengelompokkan data berdasarkan data latih dan nilai atribut klasifikasi. Data baru akan diklasifikasikan ke dalam kategori yang sudah ada dengan menggunakan kriteria pengelompokan. Istilah "klasifikasi" mengacu pada proses pengkategorian item berdasarkan kualitas bersama mereka. Klasifikasi dapat dilakukan dengan berbagai metode selama proses berlangsung, baik secara manual maupun menggunakan teknologi (Aji Prasetya Wibawa, Muhammad Guntur Aji Purnama, Muhammad Fathony Akbar 2018).
2.9 TF-IDF
Prosedur Term Frequency-Inverse Document Frequency (TF-IDF) mengubah data teks menjadi data numerik untuk pembobotan kata. Alat statistik untuk menilai pentingnya kata dalam sebuah naskah adalah TF-IDF. DF adalah ukuran frekuensi penggunaan kata yang didasarkan pada seberapa sering kata itu muncul dalam dokumen. IDF merupakan kebalikan dari nilai DF (Septian, 2019).
TF-IDF (Term Frequency-Inverse Document Frequency) adalah metode yang digunakan untuk mengukur kepentingan relatif suatu kata dalam dokumen dalam korpus teks. Rumus TF-IDF menggabungkan dua faktor: frekuensi kata dalam dokumen (TF) dan invers frekuensi kata dalam korpus (IDF). Berikut adalah rumus TF-IDF:
TF(t, d) = (Jumlah kemunculan kata t dalam dokumen d) / (Jumlah kata dalam dokumen d)
IDF(t, D) = log(N / n_t)
TF-IDF(t, d, D) = TF(t, d) * IDF(t, D) Di mana:
1. t adalah kata yang sedang dievaluasi.
2. d adalah dokumen yang sedang dievaluasi.
3. D adalah keseluruhan korpus teks atau koleksi dokumen.
4. N adalah jumlah total dokumen dalam korpus.
5. n_t adalah jumlah dokumen yang mengandung kata t.
Rumus tersebut menjelaskan langkah-langkah untuk menghitung TF-IDF secara manual:
1. Hitung frekuensi kata (TF) dalam dokumen:
a. Jumlahkan kemunculan kata t dalam dokumen d.
b. Bagi hasilnya dengan jumlah kata dalam dokumen d.
2. Hitung invers frekuensi kata (IDF) dalam korpus:
a. Tentukan jumlah total dokumen dalam korpus (N).
b. Tentukan jumlah dokumen yang mengandung kata t (n_t).
c. Hitung logaritma basis 10 dari N dibagi n_t.
3. Hitung score TF-IDF:
Kalikan nilai TF dengan nilai IDF.
Langkah-langkah ini perlu diulang untuk setiap kata dalam dokumen atau korpus yang sedang dievaluasi. Penggunaan rumus TF-IDF membantu mengidentifikasi kata-kata yang memiliki bobot tinggi dalam suatu dokumen dan jarang muncul dalam dokumen lain dalam korpus. Ini dapat digunakan untuk berbagai tujuan seperti pemrosesan bahasa alami, informasi retrieval, klasifikasi teks, dan lain- lain.
2.10 Fitur Extraksi
Extraksi Fitur ialah proses mengubah data teks yang tidak terstruktur menjadi lebih terstruktur, sehingga data tersebut bisa diklasifikasi.
2.11 Word2Vec
Word2Vec adalah teknik penyisipan teks yang mengubah setiap kata menjadi vektor. Mikolov dkk. mengembangkan metode Word2Vec pada tahun 2013. Pada saat kemunculannya, model word embedding ini banyak digunakan dalam penelitian NLP. (Nurdin et al. 2020) Pendekatan Word2Vec adalah implementasi jaringan saraf yang menciptakan representasi bermakna dari representasi kata yang tersebar tanpa perlu label (Djaballah, Boukhalfa, and Boussaid 2019). Word2Vec pada dasarnya ialah jaringan syaraf tiruan dengan 2 lapisan (1 lapisan input serta 1 lapisan tersembunyi).
Model ini mempunyai 2 algoritma belajar yakni yang pertama merupakan Continuous Bag of Words (CBOW) dan continuous skip- gram.
a. CBOW memprediksi kata target berdasarkan konteksnya. CBOW membutuhkan lebih sedikit waktu untuk melatih dan agak lebih akurat untuk istilah yang sering muncul dalam teks.
b. Skip-Gram adverbial adverbial a Model ini memprediksi situasi yang diinginkan dengan menggunakan sebuah kata. Skip-Gram dapat mewakili kata-kata yang dianggap langka dan bekerja dengan baik dengan sejumlah kecil data pelatihan.
Gambar 2. 1 Proses CBOW Dan Skrip-Gram (Steven 2020).
CBOW merupakan metode untuk memprediksi suatu kata berdasarkan informasi berupa kelompok kata. Skip-Gram, di sisi lain, memprediksi kata-kata yang terhubung dengan satu input. Jumlah kata yang dipindai dibatasi oleh parameter (Ii and Teori 2019).
Sebuah dokumen dapat direpresentasikan menggunakan D={w1,w2,w3,...,wT} jika sebuah dokumen dilambangkan dengan D dan setiap kata dalam dokumen dilambangkan dengan wi, di mana i adalah indeks kata
dokumen dan T adalah jumlah kata-kata dalam dokumen. Jika proses pelatihan Jaringan Syaraf Tiruan model Skip-Gram diberi nilai nilai window c = 3, maka untuk setiap wi, Jaringan Syaraf Tiruan akan memanfaatkannya sebagai masukan untuk mengestimasi kumpulan kata dari wc-i,...,wc+i, yaitu wi-3,...,wi+3.
∑ ∑ ( )
(2.1)
Dimana c adalah fungsi dari pusat kata wt dan mengukur konteks (window) data pelatihan (training). Semakin besar nilai c, semakin banyak hasil pelatihan dan karenanya semakin tinggi akurasinya, tetapi dengan biaya waktu yang lebih lama.
( ) ( )
∑ ( ) (2.2)
Variabel vw dan v’w mewakili input dan output dari kata w sebagai representasi vektor. Jumlah kata unik dalam daftar kosakata diwakili oleh variabel m. Kata representasi input dan output ke dalam vektor disebut one-hot encoding. Model yang muncul dari pelatihan Neural Network adalah matriks Memb m x d.
Banyaknya dimensi vektor kata Word2Vec diwakili oleh variabel d. Vektor satu- panas vw dari sebuah kata w dikalikan dengan matriks Memb untuk menghasilkan vektor kata-kata. Variabel embedding adalah fungsi dari persamaan (2.3).
(2.3)
Persamaan untuk mendapatkan vektor dokumen dituliskan melalui (2.4) ∑ (2.4)
Nilai vektor dokumen untuk dimensi ke- i. disimpan dalam variabel embi. Jumlah kata dalam dokumen diwakili oleh variabel n. vij adalah elemen ke- i dari konten representasi vektor kata ke- j. Sebagai model representasi dari setiap dokumen jawaban dan kunci jawaban, diperoleh dokumen vektor vdoc = [emb1, emb2, emb3, …, embd] dari (2.4). (Rahutomo dkk., 2019).
Prinsip kerja model Word2Vec yaitu memprediksi arti dari sebuah kata berlandaskan peluang kemunculannya pada bacaan (Ii and Teori 2019). Word2Vec
pula sanggup menerapkan asosiasi untuk melihat hubungan satu kata dengan kata lain menurut persamaan kemunculannya (Nurdin et al. 2020). Tujuan dan keuntungan Word2Vec adalah mengelompokkan vektor dari kata-kata yang sebanding dalam ruang vektor. Word2Vec adalah program yang menghasilkan representasi numerik vektor dari karakteristik kata. Data Word2Vec secara andal memprediksi arti kata berdasarkan riwayat kemunculannya saat tersedia cukup data. Prediksi ini dapat digunakan untuk mengidentifikasi hubungan kata dengan istilah lain yang serupa. Laki-laki, misalnya, terkait dengan maskulin, sedangkan wanita terkait dengan feminim.
Model Skip-Gram digunakan dalam penelitian ini. Skip-Gram dapat mewakili kata-kata yang dianggap tidak biasa dan berkinerja baik dengan jumlah data pelatihan yang minimal. Menurut temuan studi (Nurdin et al. 2020), model Skip-Gram bekerja dengan baik dengan jumlah data pelatihan yang sedikit dan dapat mewakili kata-kata yang dianggap jarang.
2.12 Support vector machine
SVM merupakan metode data mining yang masuk dalam kelas supervised learning. Tujuan dari metode ini adalah untuk mencari hyperplane terbaik dari beberapa hyperplane yang ada (Styawati et al. 2021). Support vector machine termasuk model mesin learning yang cukup umum diterapkan pada klasifikasi.
Pengklasifikasian memakai Support vector machine ialah tehnik machine learning yang lumayan terkenal pada pengklasifikaisan teks dan mempunyai performa yang baik pada banyak dokoumen dan sanggup mengidentifikasikan hyperplane secara terpisah diantara 2 class yang berbeda sehingga hasilnya bisa mengoptimalkan jarak antara data yang sangat dekat dengan hyperplane (Arsi and Waluyo 2021).
Klasifikasi dengan mencari hyperplane ataupun garis pembatas (decision boundary) yang memisahkan kelas dengan kelas lain, Support vector machine menerapkan pencarian nilai hyperplane dengan memakai support vector dan nilai margin. Support vector machine ialah salah satu algoritma supervised machine learning yang banyak digunakan untuk polaritas teks (M. Ahmad, Aftab, and Ali 2017).
Dengan mengukur margin hyperplane dan menemukan titik maksimum, hyperplane pemisah yang optimal antara dua kelas dapat ditemukan. Margin adalah jarak antara hyperplane dan pola terdekat kelas (Styawati et al. 2021).
Vektor pendukung adalah pola terdekat. Hyperplane optimal, ditunjukkan sebagai garis padat pada Gambar 2.2, diposisikan tepat di tengah-tengah dua kelas, sedangkan titik merah dan kuning pada lingkaran hitam mewakili vektor pendukung. Teknik pembelajaran Support vector machine berkisar pada menemukan lokasi hyperplane ini.
Gambar 2. 2 SVM Hyperplane Berupaya Untuk Memisahkan Kedua Class Terbaik -1 dan +1 (Dharmawan, Rachmad (2021)
konsep SVM dapat diringkas sebagai upaya untuk menemukan hyperplane optimal yang berfungsi sebagai pemisah antara dua kelas di ruang input. Gambar 2.2 menggambarkan dua pola yang termasuk dalam kelas yang sama: +1 dan -1.
Merah (kotak) mewakili pola di kelas -1, sedangkan kuning mewakili pola di kelas +1. (lingkaran). Tantangan klasifikasi dapat ditangani dengan menempatkan hyperplane yang membagi dua kelompok. Gambar 2.2 menggambarkan banyak garis pemisah yang berbeda (batas diskriminasi). Menurut Vapnik dan Cortes (1995), klasifikasi linear hyperplane SVM menghasilkan persamaan:
[( ) ] [( ) ]
dengan,
x
i = kumpulan data latih, i = 1,2,...n dan yi = label kelas dari xi Untuk menemukan hyperplane terbaik, cari hyperplane yang berada di tengah-tengahdua bidang pembatas kelas, dan untuk mendapatkan hyperplane terbaik, memaksimalkan margin atau jarak antara dua kelompok objek dari kelas yang berbeda. Pendekatan SVM didasarkan pada pencarian penempatan hyperplane terbaik. Diasumsikan terdapat titik data learning xi (i=1,2,...,m) dengan dua kelas yi = 1, yaitu kelas positif (+1) dan kelas negatif (-1) sehingga akan diperoleh decision function berikut.
( ) ( ) (2.5) Dimana (.) merupakan skalar sehingga w.x ≡ w T x
Berdasarkan pada decision function diatas, dapat terlihat bahwa data akan terklasifikasi secara tepat jika ( ) karena ketika ( ) harus bernilai positif saat yi = +1, dan bernilai negatif ketika yi = -1. Decision function menjadi invarian ketika akan dilakukan pembuatan skala positif baru dari argumen dalam persamaan3 fungsi sehingga akan mengakibatkan ambiguitas dalam mendefinisikan konsep jarak atau margin. Maka dari itu didefinisikan skala untuk (w,b) dengan menetapkan untuk titik terdekat pada satu sisi dan4 untuk titik terdekat pada sisi lainnya. Hyperplane yang melewati5 disebut sebagai hyperplane kanonik dan wilayah antar hyperplane disebut sebagai margin band.
Margin maksimum dapat diperoleh dengan cara memaksimalkan nilai jarak antara hyperplane dan titik terdekatnya yaitu Hal tersebut dirumuskan sebagai Quadratic Programming (QP) Problem dengan mencari titik minimal seperti pada persamaan berikut.
( ) ‖ ‖ (2.6)
Sedangkan subjek constrain/kendala persamaannya adalah sebagai berikut.
( ) (2.7)
Persamaan diatas merupakan permasalahan optimisasi kendala dimana kita meminimalkan fungsi objek pada persamaan (2.6) dengan kendala pada persamaan (2.7). Permasalahan diatas dapat direduksi dengan menggunakan fungsi Lagrange yang terdiri dari jumlahan fungsi objektif dan m kendala dikalikan dengan pengganda Lagrange seperti berikut .
( ) ( ) ∑ ( ( ) ) (2.8)
Dimana merupakan Lagrange Multipliers, dan nilai . Pada saat minimum, akan dilakukan penurunan dari b dan w dan mengaturnya menjadi nol seperti berikut.
∑ (2.9)
∑ (2.10)
Substitusi nilai w dari persamaan (2.10) kedalam bentuk L(w,b) sehingga akan diperoleh rumus ganda atau biasa disebut sebagai wolfe dual
( ) ∑ ∑ ( ). (2.11)
Dimana nilai terhadap kendala adalah sebagai berikut.
∑ (2.12)
2.13 Kernel SVM
Margin SVM tidak dapat menemukan hyperplane pemisah yang kuat yang meminimalkan kesalahan klasifikasi titik data dan menggeneralisasi dengan baik ketika ada masalah dengan data yang tidak dipisahkan secara linear di ruang input. Akibatnya, kernel dapat digunakan untuk mengubah data menjadi ruang kernel, ruang berdimensi lebih tinggi yang memisahkan data secara linear (Ningrum 2018).
Gambar 2. 3 Kernel SVM Untuk Memisahkan Data Secara Linear ( Sumber : (Ningrum 2018) )
Data disimpan sebagai kernel, yang menentukan seberapa mirip atau berbedanya item data. Kernel dapat dibangun untuk berbagai objek data, termasuk data kontinu dan diskrit, urutan data, dan grafik. Substitusi kernel adalah gagasan
yang dapat digunakan untuk berbagai teknik analisis data. Namun, SVM adalah yang paling terkenal dari pendekatan berbasis kernel, yang mencakup berbagai kelas yang menggunakan kernel untuk mewakili data (Ningrum 2018).
Berdasarkan pada fungsi kernel diatas, dapat dilakukan perhitungan untuk melakukan prediksi dari beberapa data dalam feature space seperti pada persamaan berikut:
( ( )) ( ( ) )
( ( )) (∑
( ) ) b : nilai bias
m : jumlah support vector K(x,z) : fungsi kernel
Berikut ini adalah beberapa fungsi kernel yang paling populer dan sering digunakan:
1. Linear Kernel SVM
Fungsi kernel yang paling sederhana adalah kernel linear. Ketika data yang dipelajari dipisahkan secara linear, kernel linear digunakan. Ketika ada banyak fitur, kernel linear adalah yang terbaik karena, tidak seperti klasifikasi teks, berpindah ke ruang dimensi yang lebih tinggi tidak meningkatkan kinerja secara
signifikan. Kernel SVM linear ditunjukkan di bawah ini.
( ) (2.13)
Pemetaan fungsi merupakan identitas/tidak ada pemetaan
2. Polynomial Kernel
Ketika data tidak dipisahkan secara linear, Polynomial kernel digunakan sebagai fungsi kernel. Polynomial kernel ideal untuk situasi yang melibatkan kumpulan data pelatihan yang dinormalisasi.
( ) ( ) ( ) (2.14)
3. Radial Basis Function (RBF) Kernel
Kernel RBF adalah fungsi kernel yang sering digunakan dalam analisis data ketika data tidak dibagi secara linear. Gamma dan Biaya adalah dua parameter kernel RBF. Parameter Biaya, sering dikenal sebagai C, adalah parameter pengoptimalan SVM yang mencegah kesalahan klasifikasi di setiap sampel dalam set data pelatihan. Parameter Gamma mengontrol seberapa jauh efek sampel set data pelatihan meluas, dengan nilai rendah menunjukkan "jauh" dan nilai besar menunjukkan "dekat". Kernel RBF memiliki persamaan berikut.
( ) [ ‖ ‖ ] (2.15)