ANALISA SENTIMEN MASYARAKAT TERHADAP ISU LESBIAN, GAY, BISEX, DAN TRANSGENDER MENGGUNAKAN ALGORITMA SUPPORT VECTOR MACHINE

(1)

ANALISA SENTIMEN MASYARAKAT TERHADAP ISU LESBIAN, GAY, BISEX, DAN TRANSGENDER MENGGUNAKAN ALGORITMA SUPPORT

VECTOR MACHINE

Abduh Maghfuri Nasution, Al aminuddin

Mahasiswa Program Studi S1 Sistem Informasi Jurusan Ilmu Komputer

Fakultas Matematika dan Ilmu Pengetahuan Alam Kampus Bina Widya Pekanbaru, 28293, Indonesia

abduh.maghfuri3122 @student.unri.ac.id, [email protected] ABSTRACT

Sentiment analysis is the process of analyzing data that will be classified according to the class of sentiment in an argument. The rise of Lesbian, Gay, Bisexual, and Transgender(LGBT) talk on the Twitter application has caused people to give positive and negative sentiments. So that the sexual culture becomes very sensitive among Indonesian people. The author uses a method for classifying with several stages, namely data collection, preprocessing, labeling, Term Frequency (TF) – Inverse Document Frequency (IDF) weighting, Support Vector Machine (SVM) classification with the Cross Validation method. Based on the stages of the method that has been carried out, a Machine Learning score is obtained with an average value of 0.776. The results of Machine Learning found 220 positive sentiments and 780 negative sentiments.

Keywords: LGBT, Twitter, Sentiment, Term Frequency (TF) – Inverse Document Frequency (IDF), Support Vector Machine.

ABSTRAK

Analisa sentimen adalah proses melakukan analisa terhadap data yang akan dilakukan klasifikasi sesuai kelas sentimen pada sebuah argumen. Maraknya pembicaraan Lesbian, Gay, Bisexual, dan Transgender(LGBT) di aplikasi Twitter menyebabkan masyarakat memberikan sentimen positif dan negatif. Sehingga budaya seksual tersebut menjadi sangat sensitif dikalangan masyarakat Indonesia. Penulis melakukan metode untuk melakukan klasifikasi dengan beberapa tahapan, yaitu pengumpulan data, preprocessing, labeling, pembobotan Term Frequency (TF) – Inverse Document Frequency (IDF), klasifikasi Support Vector Machine (SVM) dengam metode Cross Validation.

Berdasarkan tahapan metode yang telah dilakukan diperoleh score Machine Learning dengan nilai rata-rata 0,776. Hasil dari Machine Learning ditemukan sentimen positif sebanyak 220 dan sentimen negatif sebanyak 780.

Kata Kunci : LGBT, Twitter, Sentimen, Term Frequency (TF) – Inverse Document Frequency (IDF), Support Vector Machine.

(2)

PENDAHULUAN

Perkembangan informasi dengan cara yang cepat menggunakan teknologi tidak dapat dibendung lagi saat ini. Hal ini menjadikan informasi semakin banyak dan mudah diakses dengan internet dan platform media sosial. Banyaknya informasi dalam berbagai isu mendorong masyarakat untuk memberikan komentar dalam berbagai media sosial.

Salah satu platform media sosial yang memudahkan masyarakat dalam memberikan komentar terhadap sebuah isu adalah Twitter.

Twitter menjadi platform media sosial pilihan masyarakat untuk membahas sebuah isu dengan memberikan tweet terhadap sebuah isu. Masyarakat memberikan tanggapannya mulai dari sentiman positif hingga sentimen negatif. Pada Twitter penggunanya diizinkan memberikan cuitan dengan menggunakan hastag(#) dan panjang karakter tweet yang dibatasi. Tweet tersebut dapat diproses untuk dilakukan analisa sentimen dengan pengelompokan polaritas dari teks yang berisi opini positif dan negatif.

Orientasi seksual baru yang ditemukan di kalangan masyarakat yang sering disebut LGBT (Lesbian, Gay, Bisexual, dan Transgender) menjadi topik yang sangat banyak diperbincangkan di platform Twitter. Orientasi seksual ini memiliki kelompok yang semakin besar sehingga menjadi keresahan terhadap masyarakat, karena LGBT dari budaya barat yang masih asing dengan budaya di Indonesia. Sedangkan indonesia yang kental dengan budaya timur sangat bertentangan dengan orientasi seksual tersebut, sehingga menjadi kontroversi dan ramai diperbincangkan di media sosial.

Kelompok pendukung dan penentang LGBT mulai menyuarakan pendapat mereka melalui cuitan Twitter secara massive dan random, sehingga menghasilkan data dalam bentuk Natural Languange yang banyak. Data yang banyak dan tidak terstruktur tersebut sulit untuk dilakukan analisa secara manual. Maka Penelitian ini menerapkan metode Machine Learning yakni Support Vector Machine (SVM) untuk melakukan analisa sentimen terhadap data tersebut, sehingga analisa dapat dilakukan dengan efisien dan tepat.

Model Machine Learning akan dibangun untuk melakukan analisa sentimen dengan algoritma Support Vector Machine (SVM) mengklasifikasikan data dengan mencari hyperplane yang memisahkan dua set data dari dua kelas yang berbeda. SVM menawarkan manfaat seperti memperkirakan jarak menggunakan vektor dukungan, yang mempercepat proses komputasi. Metode tersebut diharapkan dapat melakukan klasifikasi dua kelas berupa positif dan negatif.

Akrivi Krouska dalam(Santoso et al., 2021), melakukan perbandingan algoritma untuk mengevaluasi analisis sentimen pada Social Networking Services (Twitter), dengan tujuan memberikan pedoman untuk memilih algoritma untuk menganalisis sentimen, menggunakan lima algoritma pengklasifikasi pembelajaran mesin, yaitu Naive Bayes, Support Vector Machine, K-Nearest Neighbor, Regresi Logistik, dan C4.5, dengan hasil yang menunjukkan bahwa Naive Bayes dan Support Vector Machine memiliki keunggulan lebih dari yang lainnya. Berdasarkan uraian di atas maka peneliti mengangkat penelitian yang berjudul “Analisa Sentimen Masyarakat Terhadap Isu Lesbian, Gay, Bisexual, dan Transgender Menggunakan Algoritma Support Vector Machine”.

(3)

METODE PENELITIAN

a. Peralatan Yang Digunakan

Penelitian ini menggunakan beberapa perangkat pendukung yang berupa perangkat keras pada Tabel 1 dan perangkat lunak pada Tabel 2.

Tabel 1 Perangkat keras yang digunakan

No Nama Alat dan Bahan Fungsi Keterangan

1 Laptop Pengolahan data ROG GL503

2 Printer Mencetak laporan Cannon Brother DCP-T310 Tabel 2 Perangkat lunak yang digunakan

No. Nama Alat dan Bahan Fungsi Keterangan

1 Microsoft Office Word Membuat Laporan Versi 2016 2 Microsoft Office Excel Mengolah Data Versi 2016

3 Python Bahasa

Pemrograman -

4 Google Collab Membuat Script - b. Teknik Pengambilan Data

Pengambilan data dilakukan dengan menggunakan Library Snscrape. Data yang akan diambil merupakan tweet Twitter dengan kata kunci LGBT.

c. Analisa sentimen

Analisis sentimen adalah proses menilai keadaan mental seseorang menggunakan bahasa biasa. Setelah mengidentifikasi suasana hati, polaritas positif atau negatif ditetapkan. Penulisan reguler menggunakan berbagai metode untuk menganalisis sikap, termasuk derivasi atribut, penelitian emoji, tokenisasi, dan sebagainya. Ketika analisis sentimen dilakukan, kata-kata positif dan negatif biasanya diekstraksi dari teks dan diberi hasil dari kosakata istilah. Hasil penyelidikan ini dilihat melalui lensa dua kamus. Ini digunakan setelah tweet diproses sebelumnya dan diberi token.

d. Pembobotan Term Frequency (TF) - Inverse Document Frequency (IDF) Term Frequency (TF) adalah pemberian nilai denga frekuensi berdasarkan kemunculan sebuah kata dalam dokumen yang berhubungan. Inverse Document Frequency (IDF) merupakan pembobot yang dilakukan dengan menghitung bagaimana term didistribusikan pada dokumen (Yulian, 2018). Pembobotan TF-IDF untuk menghitung bobot setiap kata yang paling umum digunakan. Pembobotan TF-IDF ini juga terkenal efisien, mudah dan memiliki hasil yang akurat. Pembobotan TF-IDF ini akan menghitung nilai Term Frequency (TF) dan Inverse Document Frequency (IDF) pada setiap token (kata) di setiap dokumen dalam korpus. Smooth IDF adalah salah satu metode yang dapat digunakan untuk menghitung bobot IDF (inverse document frequency) pada suatu dokumen teks. Smooth IDF merupakan versi dari IDF yang telah diberi penyamaran untuk menghindari kasus di mana nilai IDF untuk suatu kata adalah 0. Penyamaran ini

(4)

biasanya dilakukan dengan menambahkan 1 ke jumlah dokumen yang mengandung kata tersebut sebelum menghitung IDF. Dengan menggunakan smooth IDF, nilai IDF yang dihasilkan akan lebih stabil dan dapat memberikan hasil yang lebih baik dalam klasifikasi teks.

Langkah-langkah dalam melakukan pembobotan TF-IDF adalah sebagai berikut : 1. Temukan nilai term frecuency(TF) dengan persamaan berikut :

𝑇𝐹_𝑑𝑡= ^𝑛^𝑑,𝑡

∑_𝑘 𝑛_𝑑,𝑡 ... (1) nd,t merupakan nilai seluruh term dalam dokumen.

2. Selanjutnya hitung nilai df dengan menghitung jumlah dokumen yang mengandung kata yang dicari.

3. Tentukan nilai idf dengan persamaan berikut : 𝐼𝐷𝐹_𝑡 = In (^𝐷

𝑑𝑓) + 1 ... (2)

IDFt adalah Inversed Document Frequency kata dalam koleksi dokumen term dan D merupakan jumlah seluruh dokumen.

4. Setelah ditemukan nilai TF dan IDF maka dicari nilai bobot TF-IDF dengan rumus berikut :

𝑊_{𝑑𝑡 =}𝑡𝑓_𝑑𝑡× 𝐼𝐷𝐹_𝑡 ... (3) Wdt adalah bobot dari dokumen term.

Setelah ditemukan nilai bobot dari setiap dokumen makan diurutkan term yang memiliki kemunculan paling banyak dan diurutkan, diambil 1000 term yang mimiliki kemunculan tertinggi. Hasil tersebut dilakukan vectorize.

e. Metode Support Vector Machine (SVM)

Seorang professor dari Colombia, Amerika Serikat pada tahun 1992 yang bernama Vladimir N Vapnik memperkenalkan algoritma pelatiahan yang bertujuan untuk mengambil hasil maksimal dari pola training dan decision limit. Support Vector Machine (SVM) merupakan teknik yang dapat memisahkan dua kumpulan data dari dua kelas yang berbeda (hyperplane). Kemampuan metode ini untuk mengategorikan dan mengalahkan regresi linier dan non-linier adalah salah satu manfaatnya. SVM memiliki akurasi klasifikasi yang lebih tinggi dibandingkan dengan teknik klasifikasi lainnya (Dasmasela et al., 2021). Secara visualisasi, contoh dari SVM dapat dilihat pada Gambar 1

Gambar 1 Contoh SVM (Tim Dicoding Academy, 2020).

Dari gambar diatas terdapat dua elemen yang terpisa oleh hyperlane. Gambar bagian kiri belum memberikan hyperlane paling optimal. Hyperlane sebelah kanan merupakan hyperlane yang memeliki margin sebagai pembatas dan setiap elemen tidak

(5)

ada diantara margin dan hyperlane. Fungsi deskriptif dari SVM dijabarkan pada persamaan berikut (Yani et al., 2021).

Langkah-langkah proses support vector machine adalah sebagai berikut:

1. Tentukan data training dan data testing.

2. Lakukan inisialisasi untuk nilai α=0,5, C=1, λ=0,5, gamma=0.5, dan epsilon=0,001.

3. Cari nilai fungsi kernel dengan rumus berikut (Angellina et al., 2023) : k(x, xi) = sum(x ∗ xi) ... (4)

Simbol x sebagai fitur vector.

4. Menentukan nilai matriks dengan rumus berikut :

D_ij= y_iy_j(K(x⃗ _i+ x⃗ _j) + λ² ... (5)

Simbol y diartikan sebagai label ke i, λ sebagai lambda, dan Dij sebagai elemen matriks data ke-ij

5. Lakungan perhitungan nilai eror dengan rumus berikut :

E_i = ∑_j=1ⁿ α_iD_i.j ... (6) 6. Lakukan perhitung nilai delta alpha dengan menggunakan rumus berikut : δα_i = min{max[γ(1 − E_i), −α_i], C − α_i} ... (7)

Simbol γ diartikan sebagai gamma.

7. Menentukan nilai alpha baru dengan menggunakan persamaan berikut : α_i = α_i+ δα_i ... (8)

8. Tentukan nilai W, dimana W x X⁺sebagai dot product positif dan W x W^- sebagai dot product dengan persamaan berikut :

W x X⁺ = ∑(α_i x y_i x D_ij) ... (9) W x X⁻ = ∑(α_i x y_i x D_ij) ... (10) 9. Menentukan nilai bias dengan rumus berikut :

b = −¹

2[W. X⁺+ W. X⁻] ... (11) 10. Tentukan data uji yang akan dilakukan pengujian dengan SVM.

11. Temukan dot product dari data uji dengan mengalikan data uji dengan semua data traning yang kemudian dimasukkan ke funsgsi kernel.

12. Lakukan perhitungan keputusan denga menggunakan rumus berikut : h(X) = W. X + b ... (12)

Hasil keputusan menjadi nilai label dari data uji, apabila nilai keputusan diatas 0 maka data uji dilabel positif dan jika nilai keputusan dibawah nilai 0 maka data uji dilabel negatif.

HASIL DAN PEMBAHASAN

a. Pengumpulan Data

Pengumpulan data yang dilakukan menggunakan Library Snscrapting. Library Snscrapting memberikan akses untuk melakukan teknik pengumpulan data berupa scrapting. Data yang telah dikumpulkan diseleksi agar tweet yang tidak relevan tidak masuk kedalam Machine Learning. Data yang ditemukan 2398 tweet, sehingga dilakukan teknik sampling terhadap pemilihan datanya. Maka data yang digunakan sebanyak 1000 tweet dari total 2398 tweet. Data yang digunakan berbentuk file CSV yang beriskan tiga atribut kolom, yaitu Date, User, dan Tweet.

(6)

b. Preprocessing Data

Data yang akan digunakan dilakukan Preprocessing data untuk digunakan dalam model Machine Learning. Preprocessing data ini merupakan proses pembersihan data dari tanda baca, hastag, karakter angka yang tidak dibutuhkan. Karakter yang digunakan hanya berupa karakter alfabet. Langkah-langkah yang dilakukan adalah sebagai berikut : a. Cleaning

Kalimat dalam kolom ‘Tweet’ dibersihkan dari karakter punctuation, menghapus stock market stickers seperti $GE, mengganti kata yang berulang-ulang ('oooooo' menjadi 'oo'), mengganti dots(.) menjadi space, menghapus emoji, menghapus angka, dan menghapus url (Uniform Resource Locator).

b. Case Folding

Tahapan selanjutnya yaitu Case Folding, dimana memperbaharui huruf dari huruf besar ke huruf kecil mulai dari huruf “A-Z”.

c. Tokenization

Tahap Tokenisasi dilakukan dari tweet yang telah diperbaharui menjadi huruf kecil di kolom atribut Case Folding. Kalimat tweet yang ditokenisasi ditampilkan di kolom atribut Tokenizing.

d. Stemming

Kemudian tweet akan dilakukan proses stemming dimana kata akan direduksi menjadi akar kata dari kata tersebut. Hasil dari stemming akan ditampilkan dalam kolom dengan atribut stemming.

e. Retokenizing

Tahap Retokenizing dilakukan dari tweet yang telah diperbaharui menjadi kata baku di kolom atribut Stemming. Kalimat tweet yang ditokenisasi kembali ditampilkan di kolom atribut Retokenizing.

c. Labeling

Data yang telah melalalui tahapan Preprocessing data akan dilakukan labeling secara manual oleh responden dan diseleski oleh penulis. Labeling dilakukan secara dua tahap, tahap pertama data akan dilabel oleh tiga responden dan tahap kedua akan dilakukann labeling oleh penulis dengan keputusan sesuai dari responden. Data yang telah dilabeling oleh penulis akan menjadi data valid yang akan diuji dalam model machine learning.

(7)

d. Pembobotan TF-IDF (Term Frequency – Inverse Document Frequency)

Pembobotan TF-IDF (Term Frequency – Inverse Document Frequency) dilakukan untuk memberikan nilai kepada data. Sebagai contoh digunakan pada dokumen 223.

Langkah-langkah dalam pembobotan ini adalah sebagai berikut:

1. Pertama akan mencari nilai Term Frequency (TF), nilai TF dicari berdasarkan kemunculan dari suatu kata “argumen” dalam dokumen. Digunakan persamaan (1).

TF_dt = 1 TF_dt = 0,1 10

2. Setelah ditemukan nilai TF, selanjutnya peneliti mencari nilai Document Frequency (df). Nilai df dapat ditemukan dengan jumlah dokumen yang mengandung kata yang dicari, seperti kata “argumen” pada dokumen 223 terdapat 6 kata “argumen”

dalam seluruh dokumen.

3. Lalu dilakukan perhitungan Nilai IDF, dimana nilai IDF dapat ditentukan menggunakan persamaan (2), kita gunakan kata “argumen” pada dokumen 223.

IDF_t= In (D df) + 1 IDF_t = In (1000

5 ) + 1 IDF_t = 6,298317

4. Nilai IDF yang telah ditemukan maka dilakukan perhitungan nilai bobot (W) dari kata “argumen” pada dokumen. Perhitungan nilai bobot kata “argumen” pada dokumen 223 dijadikan sebagai contoh berikut menggunakan persamaan (3).

W_{dt =}tf_dt× IDF_t W_{dt =}0,1 × 6,298317

W_{dt =}0,6298317

Berikut merupakan hasil perhitungan pembobotan TF-IDF pada dokumen 223 yang terdapat pada data tabel 6 dapat dilihat pada Tabel 10.

Tabel 10 Hasil Perhitungan Pembobotan TF-IDF Pada Dokumen 223

Term Tf Df Idf TF-IDF

Abis 0,1 6 6,115996 0,611600

Argumen 0,1 5 6,298317 0,629832

Baca 0,1 23 4,772261 0,477226

Bener 0,1 18 5,017384 0,501738

Betul 0,1 13 5,342806 0,534281

LGBT 0,1 1000 1,000000 0,100000

Ngeri 0,1 13 5,342806 0,534281

Sampe 0,1 29 4,540459 0,454046

Yang 0,2 242 2,418818 0,483764

(8)

Data hasil TF-IDF akan dilakukan vectorize agar suatu dokumen dapat diolah dalam tahap klasifikasi. Hasil vectorize pada data dapat dilihat pada Tabel 11.

Tabel 11 Data Yang Di Vectorize

Term

TF-IDF

X1 X2 … X1000 Label

D1 0 0 … 0 Negatif

. . .

D1000 0 0 … 0,2379 Negatif

e. Klasifikasi SVM

Data yang telah dibobot dilakukan validasi dengan Teknik Cross Validation.

Teknik validasi ini akan melakukan split ratio kepada data dengan perbandingan 90%

data training dan 10% data testing. Pemilihan data training dan data testing akan dilakukan secara bergantian keseluruh data. Sehingga seluruh data akan pernah menjadi data traning dan data testing. Data training akan menjadi pembelajaran bagi sistem sebagai data acuan bagi sistem. Data training tersebut dapat dihitung sistem menggunakan SVM. Data testing dijadikan sebagai data yang akan ditentukan label melalui pembelajaran dengan data training. Proses klasifikasi dilakukan sebanyak sepuluh kali, dimana proses training dan testing dilakukan secara bergantian.

Langkah-langkah dalam melakukan SVM adalah sebagai berikut:

1. Tentukan data latih dan data testing dalam klasifikasi, disini kita ambil dokumen 143, 223, 287 sebagai data latih dan dokumen 791 sebagai data testing dari tabel 11 sebagai contoh perhitungan, data training dapat dilihat pada tabel 13.

2.

Tabel 13 Vectorize Data Training

Term

TF-IDF

X1 X2 … X100 Label

D143 0,5559 0 … 0 Negatif

D223 0,6116 0 … 0 Negatif

D287 0,5096 0 … 0 Positif

3. Lakukan inisialisasi untuk nilai α=0,5, C=1, λ=0,5, dan epsilon=0,001.

4. Kita tentukan fungsi kernel dengan cara membandingkan data dengan data itu sendiri dan data lainnya sebagai contoh pada Table 14.

Tabel 14 Tabel Fungsi Kernel

(9)

D143 D223 D287 D143 K(D143, D143) K(D143, D223) K(D143, D287) D223 K(D223, D143) K(D223, D223) K(D223, D287) D287 K(D287, D143) K(D287, D223) K(D287, D287) Contoh perhitungan pada K(D143, D143):

K(D143, D143) = ((0,5559x0,5559)+(0x0)+(0x0)+…+(0x0)= 2,2309 Contoh hasil fungsi kernel dapat dilihat pada Tabel 15.

Tabel 15 Hasil Fungsi Kernel

D143 D223 D287

D143 2,2309 0,3491 0,5304

D223 0,3491 2,2713 0,32005

D287 0,5304 0,32005 2,4641

5. Menentukan nilai matriks dengan rumus (5), sebagai contoh pada perhitungan berikut.

D11 = (-1)(-1)(2,2309) + 0.5² = 2.4809

Hasil dari persamaan untuk menemukan matriks dapat dilihat pada tabel 16.

Tabel 16 Tabel Matriks

D143 D223 D287

D143 2,4809 0,5991 -2,2141

D223 0,5991 2,5213 -0,07

D287 -0,2804 -0,07005 2,7141

6. Lakungan perhitungan nilai eror dengan rumus (6), sebagai contoh pada perhitungan berikut.

Ei = (0,5x2,4809)+( 0,5x0,5991)+(0,5x-2,2141)= 1,3997 Hasil nilai eror dapat dilihat pada Tabel 17.

Tabel 17 Nilai Error

D143 1,3997

D223 1,5252

D287 1,1817

7. Lakukan perhitung nilai delta alpha dengan menggunakan rumus (7), sebagai contoh pada perhitungan berikut.

δαi = min{max[γ(1-Ei),-α],C-α}

δα1 = min{max[0,5(1-1,3997),-0.5],1-0.5}

δα1 = -0,1998

Hasil Deltha Alpha dapat dilihat pada Tabel 18.

(10)

Tabel 18 Nilai Delta Alpha

D223 -0,1998

D143 -0,2626

D287 -0,0908

8. Menentukan nilai alpha baru dengan menggunakan persamaan (8), sebagai contoh pada perhitungan berikut.

αi = α + δαi

α1 = 0.5 + -0,1998 α1 = 0,3001

Hasil perhitungan nilai Alpha baru dapat dilihat pada table 19.

Tabel 19 Nilai Alpha Baru

D223 0,3001

D143 0,2373

D287 0,4091

9. Tentukan nilai W, dimana W x X⁺sebagai dot product positif dan W x W^- sebagai dot product dengan persamaan (2.9) dan (2.10).

W * X^- = (0,3001 x -1 x 2,2309) + (0,2373 x -1 x 0,3491) + (0,4091 x 1 x 0,5304) = - 0,5353

W * X⁺= (0,3001 x -1 x 0,5304) + (0,2373 x -1 x 0,32005) + (0,4091 x 1 x 0,32005) = -0,1187

10. Menentukan nilai bias dengan rumus (2.11).

b = -1/2(W * X^- + W * X⁺) = -1/2(-0,5353 + (-0,11718)) = -0,1187643

11. Kita ambil dokumen 791 dari tabel 9 sebagai contoh data testing dapat dilihat pada Tabel 20.

Tabel 20 Contoh Data Testing

Term

TF-IDF

X1 X2 … X100 Label

D791 0,470461 0 … 0 ?

12. Temukan dot product dari data uji dengan mengalikan data uji dengan data traning yang dimasukkan ke fungsi kernel seperti contoh berikut.

K(Xi,X) = (0,470461 x 0,5559)+(0x0)+(0x0)+…+(0x0)= 0,2685 Hasil dari dot product dapat kita lihat pada Tabel 21.

Tabel 21 Hasil Dot Product Data Uji Dengan Data Traning

D223 0,2685

D143 0,2954

D287 0,2839

13. Lakukan perhitungan keputusan denga menggunakan rumus (12).

(11)

h(x) = sign((0,3001 x -1 x 0,2685) - 0,1780 + (0,2373 x -1 x 0,2954) - 0,1780 + (0,4091 x 1 x 0,2839) - 0,1780) = sign(-0,3908) = -1

Berdasarkan perhitungan tersebut keputusan fungsi terhadap sampel uji adalah kelas negatif.

f. Evaluasi Model

Tahap terakhir dalam Machine Learning pada model yang dilakukan yaitu evaluasi model menggunakan library sklearn. Evaluasi ini dilakukan pada model dari keseluruhan hasil Machine Learning Cross Validation. Pada evaluasi ini ditampilkan hasil dari model dengan perhitungan precision, recall, dan F1-score. Perhitungan dari setiap evaluasi dapat dihitung dengan rumus masing-masing. Perhitungan setiap evaluasi dilakukan dengan tabel Confusion Matrix. Hasil dari setiap validasi yang dilakukan dalam sepuluh kali uji model didapatkan hasil Best Score : 0.81 pada indeks ke-9, score terendah : 0,73 pada indeks ke-4 dan ke-5, dan rata-rata score adalah 0,776. Seluruh hasil dari klasifikasi SVM dapat dilihat pada Tabel 22.

Tabel 22 Hasil Score akurasi pada model Cross Validation

Indeks ke- Score

0 0,79

1 0,80

2 0,79

3 0,74

4 0,73

5 0,73

6 0,80

7 0,78

8 0,79

9 0,81

Rata-rata 0,776

Confusion Matrix yang digunakan dalam perhitungan evaluasi dapat dilihat pada Gambar berikut :

(12)

Gambar 4 Confusion Matrix

Dari Confusion Matrix kita dapat menghitung precision dan recall. Perhitungan dari setiap evaluasi dapat dilihat dengan persamaan berikut:

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = TP TP + FP 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 25

25 + 29 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 0.46 𝑅𝑒𝑐𝑎𝑙𝑙 = TP

TP + FN 𝑅𝑒𝑐𝑎𝑙𝑙 = 25

25 + 195 𝑅𝑒𝑐𝑎𝑙𝑙 = 0.11

𝐹1 − 𝑠𝑐𝑜𝑟𝑒 = 𝑃𝑟𝑒𝑐𝑖𝑠𝑠𝑖𝑜𝑛 x 𝑅𝑒𝑐𝑎𝑙𝑙 𝑃𝑟𝑒𝑐𝑖𝑠𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙 𝐹1 − 𝑆𝑐𝑜𝑟𝑒 = 0.46 x 0.11

0.46 + 0.11 𝐹1 − 𝑆𝑐𝑜𝑟𝑒 = 0.09

KESIMPULAN

Berdasarkan penelitian yang telah dilakukan, dapat disimpulkan beberapa hal sebagai berikut :

1. Hasil dari labeling data oleh responden sebanyak tiga orang ditemukan hasil validasi persepsi masyarakat Indonesia terhadap LGBT (Lesbian, Gay, Bisex, Transgender) yaitu 780 tweet berlabel negatif dan 220 yang berlabel positif.

Artinya sebanyak 780 tweet tidak mendukung LGBT dan 220 tweet yang mendukung LGBT.

2. Berdasarkan penelitian bahwa hasil akurasi dengan menggunakan metode algoritma Support Vector Machine dalam analisa sentimen masyarakat terhadap LGBT (Lesbian, Gay, Bisex, Transgender) yaitu pada indeks 0 hasilnya 0.79, indeks 1 hasilnya 0.80, indeks 2 hasil 0.79, indeks 3 hasilnya 0.74, indeks 4 hasilnya

(13)

0.73, indeks 5 hasil 0.73, indeks 6 hasilnya 0.80, indeks 7 hasilnya 0.78, indeks 8 hasil 0.79, indeks 9 hasilnya 0.81. Akurasi tertinggi dipengaruhi dari beberapa kata testing tidak ada pada data training, sehingga membuat model Machine Learning tidak bisa memaksimalkan pembelajarannya terhadap data, seperti kata “fetishizer”

pada inedex ke-4 tidak ada di data training. Kemungkinan yang membuat score indeks ke-9 tinggi adalah data pada data testing cocok dengan data training yang telah dipelajari Machine Learning.

Saran

Berdasarkan kesimpulan yang telah disebutkan, maka saran dari penelitian ini adalah sebagai berikut :

1. Penelitian ini hanya meneliti sebanyak 1000 tweet pada bulan Agustus 2022 saja, untuk penelitian selanjutnya diharapkan bisa dilanjutkan bulan-buan berikutnya.

2. Penelitian ini juga dapat dikembangkan dengan metode klasifikasi yang lain seperti Naïve Bayes.

UCAPAN TERIMA KASIH

Penulis mengucapkan terima kasih kepada bapak Al Aminuddin, S.T., M.Sc. yang telah membimbing, memotivasi serta membantu penelitian dan penulisan karya ilmiah ini.

DAFTAR PUSTAKA

Angellina, Herwindiati, D. E., & Hendryli, J. (2023). Performa Support Vector Machine Pada Klasifikasi Lahan dan Air Tanah. Jurnal Media Informatika Budidarma, 7, 231–241. https://doi.org/10.30865/mib.v7i1.5279

Dasmasela, R., Tomasouw, B. P., & Leleury, Z. A. (2021). Application Of Support Vector Machine (Svm) Method To Detect Drug Abuse. Parameter Jurnal Matematika,

Statistika, Dan Penerapannya, 1(02), 93–101.

https://ojs3.unpatti.ac.id/index.php/parameter

Santoso, A. K., Noviriandini, A., Kurniasih, A., Wicaksono, B. D., & Nuryanto, A.

(2021). Klasifikasi Persepsi Pengguna Twitter Terhadap Kasus Covid-19 Menggunakan Metode Logistic Regression. JIK (Jurnal Informatika Dan Komputer), 5(2), 234–241.

Tim Dicoding Academy. (2020). Belajar Machine Learning untuk Pemula - Dicoding Indonesia. https://www.dicoding.com/academies/184

Yani, D., Tanjung, H., Lestari, S., Teknik, F., Utama, U. P., Km, K. L. Y. S., Tj, N., &

Medan, M. (2021). Analisis Sentiment Data Twitter Menggunakan Algoritma Support Vector Machine Dan Naive Bayes Terhadap Pemberitaan Perkembangan Pandemik Corona. IT Journal, 9(2252-746X), 111–120.

Yulian, E. (2018). Text Mining dengan K-Means Clustering pada Tema LGBT dalam Arsip Tweet Masyarakat Kota Bandung. 04(01), 53–58.

Angellina, Herwindiati, D. E., & Hendryli, J. (2023). Performa Support Vector Machine Pada Klasifikasi Lahan dan Air Tanah. Jurnal Media Informatika Budidarma, 7, 231–241. https://doi.org/10.30865/mib.v7i1.5279

Dasmasela, R., Tomasouw, B. P., & Leleury, Z. A. (2021). Application Of Support Vector

(14)

Machine (Svm) Method To Detect Drug Abuse. Parameter Jurnal Matematika,

Statistika, Dan Penerapannya, 1(02), 93–101.

https://ojs3.unpatti.ac.id/index.php/parameter

Santoso, A. K., Noviriandini, A., Kurniasih, A., Wicaksono, B. D., & Nuryanto, A.

(2021). Klasifikasi Persepsi Pengguna Twitter Terhadap Kasus Covid-19 Menggunakan Metode Logistic Regression. JIK (Jurnal Informatika Dan Komputer), 5(2), 234–241.

Tim Dicoding Academy. (2020). Belajar Machine Learning untuk Pemula - Dicoding Indonesia. https://www.dicoding.com/academies/184

Yani, D., Tanjung, H., Lestari, S., Teknik, F., Utama, U. P., Km, K. L. Y. S., Tj, N., &

Medan, M. (2021). Analisis Sentiment Data Twitter Menggunakan Algoritma Support Vector Machine Dan Naive Bayes Terhadap Pemberitaan Perkembangan Pandemik Corona. IT Journal, 9(2252-746X), 111–120.

Yulian, E. (2018). Text Mining dengan K-Means Clustering pada Tema LGBT dalam Arsip Tweet Masyarakat Kota Bandung. 04(01), 53–58.