Klasifikasi Emosi Pada Lirik Lagu Menggunakan Algoritma Multiclass SVM dengan Tuning Hyperparameter PSO

(1)

Klasifikasi Emosi Pada Lirik Lagu Menggunakan Algoritma Multiclass SVM dengan Tuning Hyperparameter PSO

Helen Sastypratiwi^*, Hafiz Muhardi, Mega Noveanto

Fakultas Teknik, Program Studi Informatika, Universitas Tanjungpura, Pontianak, Indonesia

Email: ¹^,*[email protected],²[email protected], ³[email protected] Email Penulis Korespondensi: [email protected]

Abstrak−Saat ini semakin sulit untuk menentukan emosi pada lagu karena jumlah lagu yang terus bertambah banyak, karena permasalahan tersebut maka peneliti membuat suatu model klasifikasi menggunakan text classification. Atas dasar permasalahan tersebut, maka penelitian ini menggunakan metode Multi Class Support Vector Machine (SVM) dengan Particle Swarm Optimization (PSO) sebagai tuning hyperparameter dan membandingkan pengaruh dari 3 dataset (perbaris, perbait dan keseluruhan lagu) pada kasus pengklasifikasian emosi lirik lagu. Pada kasus ini terdapat 5 emosi dasar manusia antara lain cinta (love), senang (happy), marah (anger), takut (fear), dan sedih (sadness). Berdasarkan hasil pengujian pada setiap model, skenario 2 (SVM-PSO Perbaris) memang memberikan performa model paling baik dengan nilai accuracy sebesar 92,13%.

Namun jika melihat perubahan nilai performa dari evaluasi data training terhadap evaluasi data testing yang disajikan pada tabel 4.3, maka perubahan paling signifikan justru terjadi pada dataset perbait dan dataset keseluruhan lagu. Hal ini dapat terjadi karena isi atau value dari dataset perbait dan keseluruhan lagu jumlah kalimatnya lebih banyak daripada dataset perbaris.

Sehingga secara kualitas akan lebih baik jika menggunakan dataset perbait atau keseluruhan lagu. Penelitian ini juga berhasil melakukan klasifikasi emosi, sehingga dapat mengklasifikasikan kelas emosi dari teks lirik lagu berbahasa Indonesia.

Kata Kunci: Klasifikasi Emosi; Lirik Lagu; Tuning Hyperparameter; Multi Class Support Vector Machine; Particle Swarm Optimization

Abstract−Currently, it is increasingly difficult to determine the emotion in a song because the numbers of the songs continue to increase, based on this problem, the researcher makes a classification model using text classification. Based on these problems, this study uses the Multi Class Support Vector Machine (SVM) method with Particle Swarm Optimization (PSO) as a tuning hyperparameter and comparing the effect of 3 datasets (lines, verses, and whole songs) in the case of classifying th e emotions of song lyrics. In this case, there are five basic human emotions, in-between love, happiness, anger, fear, and sad.

Based on the test results on each model, scenario 2 (SVM-PSO Perbaris) does provide the best model performance with an accuracy value of 92.13%. However, if we look at the performance value, it changes from the evaluation of the training data to the testing data presented in table 4.3, the most significant changes occur in the verses dataset and the whole song dataset. This can happen because the content or value of the per-bait dataset and the whole song has more sentences than the per-line dataset.

So that the quality will be better if you use the verses dataset or the whole song. This research has also succeeded in make the classification of emotions so that it can classify the class of emotions from the text of Indonesian song lyrics.

Keywords: Emotion Classification; Song Lyrics; Hyperparameter Tuning; Multi-Class Support Vector Machine; Particle Swarm Optimization

1. PENDAHULUAN

Musik memiliki pengaruh yang besar untuk mengugah emosi manusia, baik disampaikan melalui alur cerita, sifat maupun sebagai sarana untuk mengekspresikan diri. Karena itu, musik tidak dapat dipisahkan dari emosi manusia [1]. Selain pengaruh musik, lirik lagu juga adalah bagian esensial pada lagu, karena pada lirik dapat menjelaskan makna emosi dari lagu tersebut [2]. Lirik lagu juga termasuk dalam jenis puisi dalam karya sastra, lirik lagu adalah karya sastra yang berupa curahan perasaan pribadi oleh penulis lirik [3].

Puisi mempunyai 2 konsep, yaitu puisi lama dan baru, pada puisi lama masih terikat dengan aturan-aturan, namun pada puisi baru lebih bebas, dalam artian tidak terikat aturan-aturan seperti pada puisi lama, puisi baru lebih bebas dalam menggunakan rima, baris tiap baitnya, kata tiap barisnya dan sebagainya. Puisi baru juga lebih lepas membangun imajinasi atau ide-ide kreatif yang ingin disampaikan oleh si penulis puisi namun tetap memperhatikan etika dan estetika dari sastra puisi itu sendiri [4]. Jika melihat dari definisi dan strukturnya maka lirik lagu merupakan salah satu bentuk dari puisi baru.

Saat ini semakin sulit untuk menentukan emosi pada lagu karena jumlah lagu yang terus bertambah banyak, karena permasalahan tersebut maka peneliti membuat suatu model klasifikasi menggunakan text classification.

Berdasarkan permasalahan tersebut maka peneliti menggunakan metode Multi Class Support Vector Machine (SVM) dengan Particle Swarm Optimization (PSO) sebagai tuning hyperparameter pada kasus pengklasifikasian emosi beradasarkan lirik lagu. Selain sebagai salah satu metode pengklasifikasian, Multi Class Support Vector Machine (SVM) merupakan metode yang baik untuk kasus klasifikasi dengan kelas lebih dari dua. Pada kasus ini emosi dasar manusia yang menjadi kelasnya, adapun menurut [5] terdapat 5 emosi dasar manusia antara lain cinta (love), senang (happy), marah (anger), takut (fear), dan sedih (sadness). Bedasarkan penelitian tersebut, maka proses klasifikasi pada penelitian ini dilakukan dengan menggunakan 5 kelas emosi tersebut.

Untuk penelitian klasifikasi emosi menggunakan lirik lagu menggunakan Support Vector Machine sudah ada yang melakukannya, seperti penelitian oleh Abirawa [6], dengan kelas emosi (senang, tenang, marah, sedih, dll.) yang memiliki nilai akurasi yang terbaik berada di nilai akurasi 62.50%. Sebelumnya juga sudah terdapat

(2)

penelitian serupa oleh Salekhah [7], dengan judul “Implementasi Metode Multi Class Support Vector Machine untuk Klasifikasi Emosi pada Lirik Lagu Bahasa Indonesia” yang menghasilkan nilai akurasi sebesar 36,67%

untuk 200 data latih, dan 20% untuk 1000 data latih, dengan data latih yang digunakan adalah bahasa Inggris, sehingga dapat disimpulkan bahwa semakin besar data latih, nilai akurasi akan semakin menurun.

Hal ini dapat terjadi karena pada penelitian sebelumnya data latih yang digunakan dalam bahasa Inggris sehingga saat diterjemahkan kedalam bahasa Indonesia terjadi kesalahan makna kosakata, hal ini mengakibatkan kesalahan makna yang disampaikan, sehingga terjadi penurunan akurasi. Melanjutkan penelitian diatas, pada penelitian oleh Azizah & Rainarli [8], masalah yang ditemukan pada penelitian sebelumnya adalah data latih yang digunakan berbahasa Inggris, yang mengakibatkan pada saat diterjemahkan ke bahasa Indonesia terjadi kesalahan makna kata. Solusi yang ditambahkan adalah mengganti data latih dengan lirik lagu berbahasa Indonesia dan menambahkan seleksi fitur Information Gain.

Hasil pengujian penelitian ini membuktikan bahwa penggunaan Support Vector Machine dan seleksi fitur Information Gain dengan data uji sebanyak 20 lagu menunjukkan nilai akurasi sebesar 70%, dibandingkan dengan penggunaan Support Vector Machine tanpa seleksi fitur yang menunjukkan nilai akurasi hanya sebesar 55%. Pada penelitian yang dilakukan oleh Chayati [9] metode SVM digunakan pada klasifikasi data tweet terhadap 8 jenis emosi. Pada penelitian ini penggunaan metode SVM kurang tepat digunakan dalam klasifikasi emosi Robert Plutchik dengan menggunakan 8 kelas jenis emosi. hasil akurasi klasifikasi sebesar 70,56% dalam mengklasifikasi tweet emosi dengan pembagian data 90% data latih dan 10% data uji.

Pada penelitian yang lain guna meningkatkan akurasi, mengacu penelitian oleh Que dkk. [10] penelitian ini menggunakan metode Support Vector Machine (SVM) dan penggunaan Particle Swarm Optimization (PSO) untuk mengatur parameter SVM agar lebih optimal. Penelitian ini membandingkan metode SVM dan SVM-PSO tujuannya adalah untuk membandingkan hasil akurasi sentimen positif dan negatif. Data yang digunakan adalah 1.852 tweet, yang dibagi menjadi 1.130 data training, dan 722 data testing yang menghasilkan akurasi sebesar 95,46% untuk metode SVM dan sebesar 96,04% untuk metode SVM-PSO, menunjukkan peningkatan sebesar 0,58% untuk metode SVM-PSO.

Awalnya metode SVM dibangun untuk permasalahan klasifikasi dua kelas, yang kemudian dikembangkan lagi untuk klasifikasi multi kelas atau banyak kelas. Dalam kasus klasifikasi multi kelas, hyperplane yang dibentuk akan menjadi lebih dari satu. Salah satu metode pendekatan yang digunakan yaitu One Versus All. Sesuai dengan nama metode pendekatannya, satu lawan semua, metode ini membandingkan antara satu kelas dengan semua kelas lainnya. Dalam penelitian ini, pada multi class SVM menggunakan pendekatan One Versus All, karena memiliki nilai akurasi atau performa yang lebih baik dibandingkan dengan pendekatan lainnya. Untuk fungsi kernel yang digunakan adalah fungsi kernel RBF, karena memiliki performansi yang paling baik dibandingkan kernel linier pada beberapa parameter maupun kernel polinomial.

Penelitian ini juga menggunakan PSO sebagai tuning hyperparameter. Particle Swarm Optimization (PSO) dimulai dengan populasi yang terdiri dari sejumlah partikel (menghasilkan calon-calon solusi) yang dihasilkan secara acak. Selanjutnya dilakukan update posisi dan kecepatan terbang dari setiap partikel secara iteratif untuk menghasilkan calon-calon solusi baru yang lebih baik. Particle Swarm Optimization (PSO) akan berhenti ketika solusi terbaik sudah ditemukan atau kondisi tertentu telah tercapai. Parameter w, c1, dan c2 yang digunakan masing-masing bernilai 0.9, 0.5, dan 0.3 berdasarkan Lester James V. Miranda [11]. Kemudian menurut Piotrowski dkk. [12] jumlah partikel yang optimal bernilai 100, dengan iterasi sebanyak 2 kali sebagai kondisi tercapainya algoritma PSO oleh peneliti.

Akan tetapi, performa metode ini menurun jika dataset yang digunakan mengalami imbalance data. Salah satu teknik yang dapat digunakan untuk mengatasi permasalahan imbalance data adalah SMOTE. Teknik ini berjalan dengan membangkitkan replikasi dari data minoritas. Replikasi tersebut dikenal dengan data sintetis (syntetic data). Berdasarkan latar belakang yang telah dipaparkan maka peneliti akan menggunakan metode Multi Class Support Vector Machine (SVM) dengan Particle Swarm Optimization (PSO) sebagai tuning hyperparameter, kemudian melakukan balancing data menggunakan teknik SMOTE dan hasil akhirnya adalah membandingkan pengaruh akurasi dari 3 dataset (perbaris, perbait dan keseluruhan lagu), pada kasus pengklasifikasian emosi beradasarkan lirik lagu.

2. METODOLOGI PENELITIAN

Pada metode penelitian ini terdapat sembilan tahapan yang ditampilkan pada Gambar 1.

a. Pengumpulan Data

Untuk membuat suatu model machine learning diperlukan data sebagai bahan pembelajaran. Pada penelitian ini peneliti menggunakan data teks lirik lagu yang diambil dari website https://lirik.kapanlagi.com/. Dataset yang dikumpulkan terdiri dari 3 bentuk, yaitu dataset perbaris, perbait dan keseluruhan lagu.

b. Pelabelan Data

Pada penelitian ini pelabelan data dilakukan secara manual dengan 3 sudut pandang, pelabelan dilakukan oleh 3 orang. Pelabelan berdasarkan 5 kelas emosi yaitu happy (senang), anger (marah), fear (takut), sadness (sedih) dan love (cinta).

(3)

c. Preprocessing

Pada penelitian ini terdapat tujuh tahapan preprocessing antara lain :

1. Cleaning :Data cleaning merupakan proses membersihkan data teks dari angka, url dan karakter-karakter yang tidak memiliki hubungan dengan informasi pada dokumen, seperti (0-9,!@#$%&*_+-={}[]:;”’/?<>.) [13].

2. Case Folding : Case folding merupakan bagian dari preprocessing, tujuannya untuk mengubah seluruh huruf yang ada pada dokumen menjadi huruf kecil (lowercase) [14].

3. Normalisasi : Normalisasi merupakan proses mengubah kata-kata yang tidak baku menjadi baku sesuai dengan aturan penulisan Kamus Besar Bahasa Indonesia (KBBI) [13].

4. Tokenisasi : Pada tahap tokenisasi sebuah kalimat akan dipisahkan menjadi kata-kata (token) [13].

5. Stopword Removal : : Stopword adalah salah satu metode yang paling sering digunakan untuk menghapus kata yang dianggap tidak terlalu penting untuk dijadikan kata kunci pada saat melakukan klasifikasi emosi.

Pada penelitian ini menggunakan stopword bahasa Indonesia yang didapatkan dari library nltk untuk filtering terhadap dataframe. Setiap kata yang terdapat pada stopword_list akan dihapus dari dataframe [15].

6. Stemming : Dalam stemming bahasa Indonesia umumnya adalah menghilangkan kata awalan dan kata imbuhan, sehingga menjadi suatu kata dasar (root). Jika kata tersebut mengandung awalan dan imbuhan (be-, di-, ke-, -ku, -mu, atau -nya) maka imbuhan dan awalan tersebut akan dihilangkan dan akan dikembalikan sesuai kata dasarnya [16].

7. Rejoin : Rejoin, yaitu teks hasil stemming yang masih dalam bentuk token-token digabungkan kembali menjadi kalimat utuh [17].

d. Pembobotan TF-IDF

Frequency – inverse document frequency (TF-IDF). TF-IDF adalah salah satu metode pembobotan suatu kata dengan dokumen (term). Term merupakan hasil dari proses preprocessing. TF berfungsi untuk menyatakan jumlah keberadaan term dalam satu dokumen, sedangkan DF melakukan perhitungan berapa banyak term yang muncul pada satu dokumen dan IDF bertujuan untuk mengurangi bobot dari term tersebut jika kemunculannya banyak tersebar di seluruh dokumen [18].

e. SMOTE

Teknik SMOTE digunakan pada dataset lirik lagu untuk membuat data sintetis dari kelas minoritas, sehingga jumlah data minoritas akan menjadi seimbang dengan data mayoritas [19]. Sebagai contoh, total dataset perbaris sebelum SMOTE adalah 5.500 data, dengan sebaran data yang ditampilkan pada Gambar 2.

Gambar 1. Dataset Perbaris Sebelum SMOTE

Setelah proses SMOTE dilakukan dan hasilnya sebaran data setelah SMOTE menjadi berjumlah 12.330 data, dapat dilihat pada Gambar 3.

Gambar 2. Dataset Perbaris Setelah SMOTE

(4)

f. Membagi Dataset

Dataset akan dibagi menjadi dua bagian, yaitu training data dan testing data. Training data digunakan untuk melatih sistem agar dapat mengenali pola yang sedang dicari, sedangkan testing data adalah data yang digunakan untuk menguji hasil pelatihan yang sudah dilakukan. Pada penelitian ini pembagian dataset dilakukan dengan perbandingan training dan test data 9 : 1 dengan alasan semakin besar data training yang digunakan maka akan semakin baik nilai akurasi yg didapat.

g. Tuning Hyperparameter PSO

Tuning Hyperparameter digunakan untuk mencari kombinasi parameter yang optimal untuk mesin yang akan dibangun. Tuning hyperparameter pada penelitian ini menggunakan PSO. PSO akan mengkombinasikan hyperparamater-hyperparameter yang dimasukkan dan mencari kombinasi hyperparameter dengan nilai akurasi yang paling tinggi.

Gambar 4. Particle Swarm Optimization

Pada Gambar 4 ditampilkan flowchart PSO yang dibangun berdasarkan [10] dengan skema seperti dibawah ini :

1. Inisialisasi kecepatan dan posisi partikel.

2. Inisialisasi nilai fitness Pbest (Personal) dan Gbest (Global).

3. Menghitung nilai fitness partikel (Candidate)

4. Membandingkan nilai fitness candidate dengan nilai Pbest.

5. Jika nilai Pbest lebih kecil, maka nilai fitness candidate akan menjadi nilai Pbest yang baru.

6. Membandingkan nilai Pbest dan Gbest. Jika nilai Gbest lebih kecil, maka nilai Pbest akan menjadi nilai Gbest yang baru.

7. Update kecepatan dan posisi partikel untuk iterasi selanjutnya.

8. Mulai kembali dari langkah ke-2 hingga mencapai iterasi maksimum.

h. Pemodelan

SVM merupakan metode klasifikasi untuk data linear dan nonlinear. Teknik ini termasuk dalam metode klasifikasi jenis terpandu (supervised) karena mesin harus memperlajari data terlebih dahulu. Klasifikasi dilakukan dengan mencari hyperplane atau garis pembatas (decision boundary) yang memisahkan antara satu kelas dengan kelas lainnya. Dalam konsep ini, SVM akan berusaha untuk mencari hyperplane terbaik diantara fungsi yang tidak terbatas jumlahnya. Fungsi yang tidak terbatas dalam pencarian hyperplane di metode

(5)

Support Vector Machine merupakan sebuah keuntungan, dimana pemrosesan pasti akan selalu bisa dilakukan bagaimanapun data yang dimilikinya. Dalam penelitian ini, multi class SVM akan menggunakan pendekatan One Versus All. Untuk fungsi kernel yang digunakan adalah fungsi kernel RBF dengan hyperparameter gamma dan C. Pemodelan SVM pada penelitian ini akan menggunakan fungsi dari library sklearn [20].

i. Evaluasi

Pada penelitian ini 10-Fold Cross validation digunakan untuk melakukan evaluasi pada training dataset pada model yang dibangun. Pada 10-Fold Cross Validation, 1 bagian data akan menjadi data uji dan 9 bagian data lainnya akan menjadi data latih. Contohnya jika pada dataset terdapat 1000 data, akan dibagi ke dalam 10-fold.

Fold ke-1 akan menjadi data uji sedangkan sisanya menjadi data latih. Setelah training tahap pertama selesai, selanjutnya training dilakukan dengan menjadikan fold ke-2 sebagai data uji dan 9 data bagian lainnya menjadi data latih, seperti itu selanjutnya hingga fold ke -10 [21]. Sedangkan testing dataset dievaluasi menggunakan Confusion Matrix. Confusion matrix pada penelitian ini digunakan sebagai alat ukur dari performa metode klasifikasi yang digunakan, dengan mengukur nilai accuracy [22].

Gambar 1. Metode Penelitian

Ukuran yang digunakan untuk mengevaluasi model klasifikasi adalah accuracy. Accuracy menyatakan persentase dari jumlah tuple dalam data uji yang diklasifikasikan dengan benar oleh classifier.

𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = ^{𝑇𝑃+𝑇𝑁}

𝑃+𝑁 (1)

Pada penelitian ini terdapat 6 Skenario yang dapat dilihat pada Tabel 1.

Tabel 1. Skenario

Skenario Model Dataset

1 SVM Perbaris

2 SVM-PSO Perbaris

3 SVM Perbait

4 SVM-PSO Perbait

5 SVM Keseluruhan Lagu

6 SVM-PSO Keseluruhan Lagu

(6)

3. HASIL DAN PEMBAHASAN

3.1 Hasil Pelabelan Data

Pada penelitian ini pelabelan data dilakukan secara manual dengan 3 sudut pandang, pelabelan dilakukan oleh 3 orang. Pelabelan berdasarkan 5 kelas emosi yaitu happy (senang), anger (marah), fear (takut), sadness (sedih) dan love (cinta).

3.2 Hasil Preprocessing

Hasil seluruh proses preprocessing pada dataset ditampilkan dalam bentuk tabel yang dapat dilihat pada Tabel 2.

Berikut merupakan sampel kalimat yang diambil dari dataset.

Tabel 2. Hasil preprocessing Tahap Preprocessing Teks Lirik

Tanpa Preprocessing Senyumanmu slalu menghiasi mimpiku...

Data Cleaning Senyumanmu slalu menghiasi mimpiku Case Folding senyumanmu slalu menghiasi mimpiku Normalisasi senyumanmu selalu menghiasi mimpiku Tokenisasi [’senyumanmu’,’selalu’,’menghiasi’,’mimpiku’]

Stopword Removal [’senyumanmu’,’menghiasi’,’mimpiku’]

Stemming [’senyum’,’hias’,’mimpi’]

Rejoin Senyum hias mimpi

3.3 Hasil Pembobotan TF-IDF

Pada penelitian ini menggunakan pembobotan TF-IDF untuk melakukan vektorisasi. Vektorisasi adalah proses mengubah data teks menjadi data numerik, dimana nilainya berupa angka kemunculan kata dalam dokumen.

Pembobotan ini diperlukan karena komputer hanya mengerti dan memproses data numerik.

3.4 Hasil SMOTE

Dataset yang sudah dikumpulkan, memiliki jumlah data yang tidak seimbang antar kelasnya seperti yang ditampilkan pada Gambar 5, pada dataset perbaris kelas happy sangat mendominasi dibandingkan kelas lainnya.

Kemudian pada dataset perbait, kelas happy dan love sangat mendominasi dibandingkan kelas lainnya. Terakhir pada dataset keseluruhan lagu, kelas sadness dan love sangat mendominasi dibandingkan kelas lainnya.

Gambar 5. Dataset sebelum SMOTE

SMOTE akan membuat data sintetis yang dibangkitkan dengan mencari k-nearest neighbour (yaitu ketetanggaan terdekat data sebanyak k) untuk setiap data di kelas minoritas. Sehingga jumlah data kelas minoritas akan mengimbangi kelas mayoritas. Kondisi dataset yang jumlah data antar kelasnya sudah berimbang ditampilkan pada Gambar 6.

Gambar 6. Dataset setelah SMOTE

(7)

3.5 Hasil Tuning Hyperparameter

Model dari setiap bentuk dataset (perbaris, perbait dan keseluruhan lagu) menghasilkan nilai dari tuning hyperparameter yang berbeda. Tabel 3 menunjukkan hasil tuning hyperparameter PSO pada multi class SVM berbasis One versus All dengan menggunakan kernel RBF pada skenario berdasarkan dataset perbaris, perbait dan keseluruhan lagu. Gamma berupa nilai dari indeks 0 pada posisi partikel dan C berupa nilai indeks 1 pada posisi partikel.

Tabel 3. Hasil tuning hyperparameter Dataset Tuning Hyperparameter PSO

gamma C

Perbaris 2.5916517 3.16802062 Perbait 1.29886922 7.84779504 Keseluruhan Lagu 0.74795474 4.52582129 3.6 Evaluasi

Pada penelitian ini terdapat 6 Skenario yang hasil akurasinya dapat dilihat pada Tabel 4.

Tabel 4. Evaluasi Tolak Ukur Skenario Hasil Evaluasi

Perubahan Train Test

Accuracy

1 88,53 % 88,81 % + 0,28 %

2 91,70 % 92,13 % + 0,43 %

3 83,97 % 89,19 % + 5,22 %

4 85,35 % 91,35 % + 6 %

5 78,21 % 84,00 % + 5,79 %

6 80,00 % 82,67 % + 2,67 %

Hasil evaluasi data training dan testing dari skenario 1 - 6 ditampilkan dalam Tabel 4 diatas, yang mana evaluasi data training didapatkan dari 10-fold cross validation dan evaluasi data testing didapatkan dari confusion matrix. Terdapat pula tabel perubahan yang menampilkan jarak atau gap perbedaan dari nilai training terhadap nilai testing. Jika performa training lebih tinggi dibandingkan performa testing, maka akan diberi tanda negatif (-).

Sebaliknya jika nilai testing lebih tinggi dibandingkan nilai training maka akan diberi tanda positif (+). Pada skenario 4 (SVM-PSO Perbait) dan 5 (SVM Keseluruhan lagu) merupakan model yang memiliki perubahan paling signifikan dengan nilai masing-masing +6% untuk skenario 4, dan + 5,79% untuk skenario 5. Performa model saat diujikan terhadap data testing meningkat signifikan, dibandingkan performa model saat diujikan terhadap data training. Disisi lain, skenario 1 hingga 4 (dataset perbaris dan perbait) saat diujikan terhadap data testing menunjukkan kenaikan nilai accuracy, setelah menerapkan tuning hyperparameter PSO, sedangkan pada skenario 5 dan 6 (dataset keseluruhan lagu) setelah menerapkan tuning hyperparameter PSO mengalami penurunan accuracy dengan gap penurunan sebesar -1,33%. Hasil ini menunjukkan penerapan tuning hyperparameter PSO akan lebih efektif jika digunakan pada dataset perbaris dan perbait sedangkan kurang efektif jika digunakan pada dataset keseluruhan lagu.

4. KESIMPULAN

Penelitian yang telah dilakukan menunjukkan bahwa penelitian ini berhasil melakukan klasifikasi emosi, sehingga dapat mengklasifikasikan kelas emosi dari teks lirik lagu berbahasa Indonesia dalam bentuk perbaris, perbait dan keseluruhan lagu. Penggunaan tuning hyperparameter PSO dapat disimpulkan lebih berpengaruh jika digunakan pada dataset perbaris (skenario 2), dengan melihat nilai accuracy yang meningkat sebesar + 3,32% setelah dilakukan tuning hyperparameter. Sedangkan pada dataset perbait nilai accuracy hanya meningkat sebesar + 2,16%. Terakhir, pada dataset keseluruhan lagu menerapkan tuning hyperparameter justru menurunkan nilai accuracy sebesar – 1,33%. Penurunan performa setelah dilakukan tuning hyperparameter (skenario 6) dapat terjadi karena jumlah partikel dan iterasi pada PSO yang ditetapkan terlalu sedikit (penelitian ini menggunakan 100 partikel dengan 2 iterasi), sehingga ketika tuning hyperparameter sedang dijalankan, justru dipaksa berhenti karena kondisi partikel dan iterasi yang sudah terpenuhi, tanpa memperdulikan apakah kombinasi hyperparameter yang paling optimal sudah ditemukan atau belum. Hal inilah yang mengakibatkan penurunan performa ketika ditambahkan PSO pada penelitian ini. Berdasarkan hasil pengujian pada setiap model, skenario 2 (SVM-PSO Perbaris) memang memberikan performa model paling baik dengan nilai accuracy sebesar 92,13%. Namun jika melihat perubahan nilai performa dari evaluasi data training terhadap evaluasi data testing yang disajikan pada tabel 4.3, maka perubahan paling signifikan justru terjadi pada dataset perbait dan dataset keseluruhan lagu. Hal ini dapat terjadi karena isi atau value dari dataset perbait dan keseluruhan lagu jumlah kalimatnya lebih banyak

(8)

daripada dataset perbaris. Sehingga secara kualitas akan lebih baik jika menggunakan dataset perbait atau keseluruhan lagu.

REFERENCES

[1] Lailatul Izzah, “Pengaruh Mendengarkan MusikTerhadap Mood Belajar Pada Mahasiswa Manajemen Dakwah UIN Suska Riau,” Nathiqiyyah, vol. 03, no. 01, 2020.

[2] F. S. Sinaga, Indriati, and B. Rahayudi, “Klasifikasi Emosi Lirik Lagu menggunakan Improved K-Nearest Neighbor dengan Seleksi Fitur dan BM25,” J. Pengemb. Teknol. Inf. dan Ilmu Komput., vol. 8, no. 3, pp. 5697–5702, 2019.

[3] Z. Pentury, “Nilai Motivasi Dalam Lirik Lagu Pop Indonesia (Kajian Semantik),” Arbitrer, J. Pendidik. Bhs. dan Sastra Indones., vol. 2, no. 3, pp. 381–394, 2020.

[4] Sulkifli and Marwati, “Kemampuan Menulis Puisi Siswa Kelas Viii Smp Negeri Satu Atap 3 Langgikima Kabupaten Konawe Utara,” J. Bastra, vol. 1, no. 1, pp. 1–22, 2016.

[5] P. R. Shaver, U. Murdaya, and R. C. Fraley, “Structure of the Indonesian emotion lexicon,” pp. 201–224, 2001.

[6] I. D. Abirawa, A. B. Osmond, and C. Setianingsih, “Klasifikasi Emosi Pada Lirik Lagu Menggunakan Metode Support Vector Machine,” E-proceeding Eng., vol. 5, no. 3, pp. 6203–6209, 2018.

[7] C. I. Salekhah, “Implementasi Metode Multi Class Support Vector Machine Untuk Klasifikasi Emosi Pada Lirik Lagu Bahasa Indonesia,” 2016.

[8] E. N. Azizah and E. Rainarli, “Support Vector Machine Dan Information Gain Untuk Klasifikasi Emosi Pada Lirik Lagu,”

2019.

[9] F. S. Chayati, “Klasifikasi Emosi Pada Tweet Menggunakan Metode Support Vector Machine,” Universitas Islam Negeri Sultan Syarif Kasim Riau, 2020.

[10] V. K. S. Que, A. Iriani, and H. D. Purnomo, “Analisis Sentimen Transportasi Online Menggunakan Support Vector Machine Berbasis Particle Swarm Optimization,” J. Nas. Tek. Elektro dan Teknol. Inf., vol. 9, no. 2, pp. 162–170, 2020, doi: 10.22146/jnteti.v9i2.102.

[11] Lester James V. Miranda, “PySwarms Documentation,” 2017.

https://pyswarms.readthedocs.io/en/latest/api/pyswarms.single.html (accessed Mar. 11, 2022).

[12] A. P. Piotrowski, J. J. Napiorkowski, and A. E. Piotrowska, “Population size in Particle Swarm Optimization,” Swarm Evol. Comput., vol. 58, p. 100718, 2020, doi: 10.1016/j.swevo.2020.100718.

[13] W. A. Luqyana, “Instagram Dengan Metode Klasifikasi Support Vector Machine,” Universitas Brawijaya, 2018.

[14] H. Benbrahim and M. Bramer, “Text and hypertext categorization,” in Lecture Notes in Computer Science, vol. 5640, 2009, pp. 11–38.

[15] E. Lopes, E. Klein, and S. Bird, “Natural Language Toolkit (NLTK).” pp. 1–11, 2019, [Online]. Available:

http://www.nltk.org/book/ch00.html.

[16] F. Z. Tala, A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia. 2003.

[17] C. Lorento, “Berdasarkan Tweet Terkait Kebijakan Kemendikbud Di Masa Pandemi Covid-19,” Universitas Tajungpura, 2022.

[18] A. Auliaguntary Arif Putra, “Implementasi Text Summarization Menggunakan Metode Vector Space Model Pada Artikel Berita Berbahasa Indonesia,” 2016.

[19] R. Siringoringo, “Klasifikasi Data Tidak Seimbang Menggunakan Algoritma SMOTE dan k-Nearest Neighbor,” J. ISD, vol. 3, no. 1, pp. 44–49, 2018.

[20] Hermanto, A. Mustopa, and A. Y. Kuntoro, “Algoritma Klasifikasi Naive Bayes Dan Support Vector Machine Dalam Layanan Komplain Mahasiswa,” JITK (Jurnal Ilmu Pengetah. dan Teknol. Komputer), vol. 5, no. 2, pp. 211–220, 2020, doi: 10.33480/jitk.v5i2.1181.

[21] M. Rangga, A. Nasution, and M. Hayaty, “Perbandingan Akurasi dan Waktu Proses Algoritma K-NN dan SVM dalam Analisis Sentimen Twitter,” vol. 6, no. 2, pp. 226–235, 2019.

[22] D. Alita, Y. Fernando, and H. Sulistiani, “Implementasi Algoritma Multiclass Svm Pada Opini Publik Berbahasa Indonesia Di Twitter,” J. Tekno Kompak, vol. 14, no. 2, p. 86, 2020, doi: 10.33365/jtk.v14i2.792.