• Tidak ada hasil yang ditemukan

IDF = log

N/A
N/A
Protected

Academic year: 2023

Membagikan "IDF = log"

Copied!
144
0
0

Teks penuh

Judul : Optimalisasi Algoritma Support Vector Machine (SVM) Berbasis Partial Swarm Optimization pada Fenomena Analisis Sentimen #PPKM Tag Pembimbing : Auliya Rahman Isnain, S.Kom., M.Cs. Dengan hak bebas royalti noneksklusif ini, Program Studi Sarjana Informatika Fakultas Teknik dan Ilmu Komputer Universitas Teknokrat Indonesia berhak menyimpan, mentransfer media/format, mengelola dalam bentuk basis data (database), memelihara dan publikasikan tugas akhir saya, dengan mencantumkan nama saya sebagai author./creator dan sebagai pemilih hak cipta. Puji syukur penulis panjatkan kehadirat Allah SWT, karena atas berkat dan rahmat-Nya penulis dapat menyelesaikan laporan skripsi ini.

Nyonya. Dyah Ayu Megawati, S.Kom., M.Kom., selaku ketua program studi Sarjana Teknik Sistem Informasi dan Ilmu Komputer Universitas Teknokrat Indonesia Lampung sekaligus menjadi penguji saya. Tn. Auliya Rahman Isnain, S.Kom., M.Cs., selaku pembimbing saya yang telah menyediakan waktu untuk mengarahkan disertasi saya hingga selesainya sidang disertasi. Salah satu jejaring sosial yang paling populer di kalangan pengguna internet saat ini adalah Twitter (Nurhuda et al., 2014).

Rumusan Masalah

Pada penelitian ini algoritma Particle Swarm Optimization digunakan sebagai seleksi fitur tweet/komentar di media sosial khususnya Twitter dengan menggunakan tagar #PPKM. Topiknya kemungkinan besar berupa review, analisis sentimen digunakan untuk mengotomatisasi proses pengidentifikasian opini apakah itu pandangan positif atau negatif (Aryanti et al., 2019). Berdasarkan pemaparan di atas, maka penulis merumuskan judul penelitian yaitu, Algoritma Support Vector Machine Optimization Berbasis Partial Swarm Optimization pada Analisis Sensitivitas Fenomena Label PPKM.

Bagaimana algoritma PSO digunakan untuk meningkatkan akurasi dari dua algoritma yang digunakan yaitu Support Vector Machine (SVM).

Batasan Masalah

Tujuan Penelitian

Manfaat Penelitian

Keaslian Penelitian

Dedi Darwis, dkk., (2020) dalam pembahasannya yang berjudul Penerapan Algoritma SVM untuk Analisis Sentimen pada Data Twitter Komisi Pemberantasan Korupsi Republik Indonesia menggunakan strategi Support Vector Machine. Styawati, dkk., (2021) dalam penelitiannya berjudul Analisis Sentimen Masyarakat Terhadap Program Kartu Prakerja di Twitter Menggunakan Metode Support Vector Machine. 2020), meneliti analisis sentimen trafik online di media sosial Twitter dengan menggunakan algoritma Support Vector Machine (SVM) berbasis Particle Swarm Optimization (PSO), hasil penelitian ini menghasilkan analisis sentimen positif dengan SVM sebesar 62% dan sentimen negatif sebesar 38%, sedangkan opini positif terhadap SVM-PSO sebesar 53% dan negatif sebesar 47%.

Penelitian Lilyani, et al (2017), menginvestigasi analisis sentimen opini publik terhadap kebakaran hutan media sosial melalui perbandingan algoritma Support Vector Machine dan k-Nearest Neighbor berbasis Particle Swarm Optimization. Penelitian Elly Indrayuni, dkk (2016) meneliti Analisis Sentimen Review Hotel dengan menggunakan algoritma Support Vector Machine berbasis Particle Swarm Optimization, yang hasilnya menunjukkan peningkatan nilai akurasi sebesar 5,61% untuk algoritma Support Vector. Perbandingan metode Naive Bayes dan Support Vector Machine menggunakan Particle Swarm Optimization untuk Analisis Sentimen Mobil Esemka.

Natural Lengguage Processing

Alih-alih memasukkan kata kunci ke dalam browser pencarian, dengan QAS, pengguna dapat mengajukan pertanyaan langsung dalam bahasa alami yang mereka gunakan, baik itu bahasa Inggris, Mandarin, atau Indonesia. Dengan menggunakan aplikasi ini, pengguna dapat dibantu untuk mengubah dokumen teks berukuran besar menjadi slide presentasi. Machine translation Produk yang dihasilkan berupa aplikasi yang dapat memahami bahasa manusia dan menerjemahkannya ke dalam bahasa lain.

Banyak yang telah dilakukan dalam proses membangun model untuk digunakan oleh telepon/komputer untuk mengenali bahasa lisan. Pekerjaan yang dilakukan aplikasi ini adalah menentukan di mana tempat terbaik untuk dokumen yang baru saja diunggah.

Text Mining

Transformasi teks merupakan proses yang dilakukan dengan mengekstraksi fitur dari sebuah teks menggunakan pendekatan bag of words, vector space, source dan stop word yang bertujuan untuk menentukan fitur terbaik dalam mengkarakterisasi sebuah dokumen. Seleksi fitur adalah proses pengurangan fitur yang berlebihan atau tidak relevan dalam teks untuk mengekstraksi bagian yang paling penting. Penambangan pola adalah proses penggalian data teks menggunakan teknik penambangan seperti klasifikasi, pengelompokan, dan pohon keputusan untuk menemukan pola atau pengetahuan dari teks.

Sentiment Analisis

Jika sekumpulan dokumen teks diberikan opini tentang suatu objek, maka opinion mining bertujuan untuk mengekstraksi atribut dan komponen objek yang telah dikomentari pada setiap dokumen dan menentukan apakah komentar tersebut positif atau negatif. Analisis sentimen dapat dibedakan berdasarkan sumber data, level yang berbeda yang biasa digunakan dalam penelitian analisis sentimen, level dokumen, dan level kalimat Analisis sentimen. Menurut Mejova (2009), analisis sentimen dapat dipahami pada level yang berbeda yaitu pada level dokumen, paragraf, kalimat atau klausa.

Secara garis besar, fokus utama analisis sentimen jenis ini adalah menganggap keseluruhan isi dokumen sebagai sentimen positif atau negatif.

Feature Extraction

Term Frequency Inverse Document Frequency (TF-IDF)

Algoritma TFIDF digunakan untuk memboboti kata kunci di setiap dokumen dan menghitung seberapa banyak kata kunci tersebut muncul di setiap dokumen Feldman et al., (2009).

Algoritma Support Vector Machine (SVM)

Hard – Margin SVM / Linear SVM

Teknik SVM merupakan classifier yang menemukan hyperlevel dalam hal data yang digunakan adalah data dengan dua kelas yang sudah terpisah secara linier seperti terlihat pada gambar berikut. Berdasarkan Gambar 2.2 di atas terlihat bahwa kelas positif dan kelas negatif terpisah sama sekali yang terlihat dari lingkaran abu-abu yang berada di dekat garis x2 sedangkan lingkaran hitam terletak di dekat garis x1 (Awad & Khanna, 2015). . Berdasarkan Gambar 3.2 terlihat bahwa beberapa pola merupakan anggota dari dua kelas, yaitu positif (+1) dan negatif (-1).

Gambar 3-2 di sebelah kanan menunjukkan hyperplane terbaik, yang terletak di garis putus-putus tepat di tengah antara hyperplane positif dan negatif. Diasumsikan terdapat data pembelajaran dengan titik data xi (i=1,2,...,m) dengan dua kelas yi = ±1 yaitu kelas positif (+1) dan kelas negatif (-1) sehingga fungsi keputusan berikut akan diperoleh. Fungsi keputusan menjadi invarian saat skala positif baru dibuat berdasarkan argumen dalam persamaan fungsi, menciptakan ambiguitas saat mendefinisikan konsep jarak atau margin.

Soft Margin

Berdasarkan Gambar 3.3 di atas dapat dilihat bahwa data pada kedua kelas tidak sepenuhnya terpisah, terlihat dari beberapa lingkaran berwarna abu-abu yang distribusinya berada di sekitar area lingkaran hitam, dan sebaliknya terdapat beberapa lingkaran hitam yang distribusinya berada di sekitar area lingkaran hitam. mengelilingi lingkaran abu-abu. Persamaan soft edge hampir sama dengan persamaan hard edge, hanya terdapat sedikit perubahan dengan variabel slack pada persamaan sebelumnya (3.3) sebagai berikut.

Kernel SVM

Berdasarkan fungsi kernel di atas, dapat dilakukan perhitungan untuk membuat prediksi dari beberapa data dalam ruang fitur, seperti yang ditunjukkan pada persamaan berikut (Cambell & Ying, 2011). Kernel RBF adalah fungsi kernel yang biasa digunakan dalam analisis ketika data tidak dapat dipisahkan secara linear. Parameter Cost atau biasa disebut dengan C merupakan parameter yang berperan sebagai optimasi dari SVM untuk menghindari kesalahan klasifikasi pada setiap sampel pada dataset training.

Parameter gamma menentukan seberapa besar pengaruh satu set data pelatihan sampel, dengan nilai rendah berarti "jauh" dan nilai tinggi berarti. Dengan gamma rendah, masuk akal untuk mempertimbangkan poin yang jauh dari garis pemisah saat menghitung garis pemisah. Ketika gamma tinggi, itu berarti titik-titik tersebut berada di sekitar garis, yang masuk akal untuk dipertimbangkan dalam perhitungan (Patel, 2017).

Optimal

Algoritma Optimasi

Klasifikasi Algoritma Optimasi

Berdasarkan akurasi dan kecepatan

Seperti namanya, optimalisasi ini ditujukan untuk masalah yang membutuhkan solusi cepat, dan biasanya masalah tersebut terjadi berulang kali. Jenis pengoptimalan ini ditujukan untuk masalah yang tidak memerlukan perbaikan cepat, dan biasanya masalah tersebut terjadi dalam jangka waktu yang lebih lama. Pengguna mungkin memiliki waktu yang lama, hingga berhari-hari, untuk menunggu proses optimasi memberikan solusi yang optimal.

Untuk masalah seperti itu dan ruang masalahnya tidak terlalu besar, algoritma optimisasi deterministik biasanya menghasilkan solusi yang lebih baik daripada optimisasi probabilistik.

Berdasarkan Analog dan Nama

Algoritma Particle Swarm Optimization (PSO)

Dengan menginisialisasi pBest dan gBest pada iterasi ke-0, pBest akan sama dengan nilai posisi awal partikel. Perbarui pBest dan gBest: Perbandingan dibuat antara pBest pada iterasi sebelumnya dengan hasil dari pembaruan posisi.

Twitter

Application Programming Interface (API) adalah fungsi/perintah untuk mengganti bahasa yang digunakan pada system call dengan bahasa yang lebih terstruktur dan mudah dipahami oleh programmer. Fungsi yang dibuat menggunakan API kemudian akan memanggil panggilan sistem berdasarkan sistem operasi. Twitter API adalah opsi pengembang yang disediakan oleh Twitter, Twitter memiliki API dasar (Application Programming Interface) dimana setiap pengguna dapat mengembangkan program yang dapat diintegrasikan dengan layanan Twitter, Twitter API memungkinkan pengguna untuk mengakses data Gragg & Sellers, (2010).

Summize kemudian diakuisisi dan diganti namanya menjadi TwitterSearch sehingga API pencarian terpisah sebagai entitasnya sendiri. Pengguna dapat menggunakannya untuk mencari tweet berdasarkan kata kunci tertentu atau mencari tweet yang lebih spesifik berdasarkan nama pengguna Twitter. REST API memungkinkan pengembang mengakses inti Twitter, seperti garis waktu, pembaruan status, dan informasi pengguna.

REST API digunakan untuk membangun aplikasi Twitter kompleks yang membutuhkan inti dari Twitter. Streaming API digunakan oleh developer untuk kebutuhan yang lebih intensif seperti melakukan riset dan analisis data.

K-Fold Cross Validation

Pada iterasi i, partisi 𝐷i disajikan sebagai data uji dan sisa partisi secara bersamaan dan berurutan digunakan sebagai data pelatihan. Tingkat akurasi dihitung untuk setiap iterasi (iterasi ke-1, iterasi ke-2, iterasi ke-3, iterasi ke-4), kemudian dihitung rata-rata tingkat akurasi dari semua iterasi untuk mendapatkan tingkat akurasi data secara keseluruhan.

Bahasa Pemograman Python

Perancangan sistem yang akan diusulkan pada penelitian ini menggunakan metode Support Vector Machine (SVM) yang dapat dilihat pada Gambar 3.1 mengilustrasikan proses yang akan dilakukan untuk melakukan analisis sentimen publik terhadap tagar ppkm.

Pengumpulan Data (Crawling data)

Pre – Processing

Pada tahap ini akan dilakukan penyusunan dan pengujian model bobot informasi menggunakan TF-IDF, dimana kontribusi tipe corpus diperoleh dari dataset twitter.com.

Pembobotan Kata Dengan TF IDF

Support Vector Machine

Proses klasifikasi menggunakan algoritma SVM untuk membuat model dari kumpulan data pelatihan yang digunakan untuk memprediksi kelas data baru. Ketika setiap titik di kelas terhubung ke titik lain, garis muncul yang memisahkan kelas. Kemudian w dapat dengan mudah diekspresikan dalam beberapa contoh data pelatihan, yang dikenal sebagai vektor pendukung, menurut Persamaan.

Jika dihitung +1, maka termasuk kelas positif, dan jika dihitung -1, maka termasuk kelas negatif.

Particle Swarm Optimization

Dalam implementasi algoritma PSO digunakan untuk menyelesaikan masalah pemilihan fitur, sehingga dapat digunakan digit biner untuk menunjukkan fitur.

Validasi Dokumen

Implementasi Sistem

Pengujian

Jadwal Penelitian

Preprocessing Data

  • Cleaning
  • Case Folding
  • Tokenizing
  • Filtering atau Stopwords
  • Stemming

Pelabelan Data

Implementasi Pembobotan Data

Pembagian Data

Klasifikasi Menggunakan Support Vector Machine

Referensi

Dokumen terkait

Untuk akurasi yang lebih baik, penelitian ini memprediksi stroke dengan menggunakan dua algoritma, yaitu support vector machine (SVM) dan logistic regression (LR).. Pada