Analisis Sentimen Tentang Opini Performa Klub Sepak Bola Pada Dokumen Twitter Menggunakan Support Vector Machine Dengan Perbaikan Kata Tidak Baku

(1)

Fakultas Ilmu Komputer

Universitas Brawijaya 7259

Analisis Sentimen Tentang Opini Performa Klub Sepak Bola Pada Dokumen Twitter Menggunakan Support Vector Machine Dengan

Perbaikan Kata Tidak Baku

Swandy Raja Manaek Pakpahan¹, Indriati², Marji³

Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya Email: ¹[email protected], ²[email protected], ³[email protected]

Abstrak

Sepak bola merupakan salah satu olahraga paling diminati masyarakat dunia, termasuk Indonesia.

Sebuah klub sepak bola sangat bergantung pada pendukungnya sehingga kepuasan pendukung sebuah klub sepak bola harus dapat dijaga. Pendukung klub sepak bola sendiri cukup sering memberikan argumen terhadap sebuah klub sepak bola melalui media Twitter. Oleh karena itu, penulis mengusulkan penelitian untuk membangun sistem analisis sentimen terhadap opini performa klub sepak bola pada dokumen Twitter. Penelitian ini menggunakan metode Support Vector Machine dan perbaikan kata Levenshtein Distance. Tahapan yang dilakukan dimulai dengan melakukan preprocessing pada data, kemudian melakukan perbaikan kata dengan Levenshtein Distance, pembobotan Term Frequency- Inverse Document Frequency, dilanjutkan dengan klasifikasi menggunakan Support Vector Machine.

Hasil pengujian dengan nilai tertinggi didapatkan sebesar 83,25% dengan parameter learning rate = 0,0001, complexity = 0,001, lambda = 0,1, epsilon = 0,0001 dan nilai iterasi maksimal = 50.

Kata kunci: sepak bola, twitter, analisis sentiment, support vector machine, perbaikan kata, levenshtein distance Abstract

Football is one of the most popular sports in the world, including in Indonesia. A football club is very dependent on its supporters so that the satisfaction of supporters of a football club must be maintained.

Supporters of football clubs themselves often provide arguments to a football club via Twitter media.

Therefore, the authors propose research to build a sentiment analysis system for football club performance opinions on Twitter documents. This research uses the Support Vector Machine method and Levenshtein Distance for non-standard word correction. The process starts with preprocessing the data, then do word correction with Levenshtein Distance, weighting using Term Frequency-Inverse Document Frequency, followed by classification using Support Vector Machine. The test results with the highest accuracy were obtained at 83.25% with learning rate = 0,0001, complexity = 0,001, lambda

= 0,1, epsilon = 0,0001 and maximum iteration = 50.

Keywords: football, twitter, sentiment analysis, support vector machine, word correction, levenshtein distance

1. PENDAHULUAN

Salah satu olahraga yang paling diminati masyarakat dunia adalah olahraga sepak bola.

Indonesia sendiri termasuk negara penggemar sepak bola paling banyak di dunia. Indonesia menempati urutan kedua sebagai negara penggemar sepakbola di dunia dengan 77%

penduduk Indonesia memiliki ketertarikan dengan olahraga sepak bola(Smith, 2014).

Indonesia dalam bidang lain yaitu penggunaan media sosial merupakan negara dengan pengguna yang cukup aktif. Salah satu

media sosial yang populer diantara pengguna Indonesia adalah media sosial Twitter. Indonesia merupakan negara kelima pengguna Twitter paling besar didunia dimana terdapat 4,1 milyar tulisan Twitter yang dibuat oleh pengguna dari Indonesia pada tahun 2016(Herman, 2017).

Dalam bidang olahraga sepak bola analisis sentimen dapat digunakan untuk melakukan analisis argumen pendukung suatu klub sepak bola terhadap performa klub tersebut.

Pendukung klub sepak bola cukup sering memberikan argumen terhadap klub melalui media Twitter. Pada tahun 2018 tujuh dari

(2)

sepuluh akun olahraga Indonesia paling sering dibicarakan di media sosial Twitter adalah akun mengenai sepakbola. Persija Jakarta sebagai salah satu klub profesional Indonesia termasuk menjadi klub yang paling dibicarakan di Twitter(Yunus, 2018). Analisis argumen pendukung klub sepakbola diperlukan karena tingkat kepuasan pendukung terhadap performa klub memiliki pengaruh tersendiri terhadap klub sepak bola seperti pemasukan klub tersebut.

Pemasukan klub sepakbola, seperti sponsor, penjualan merchandise dan penjulan tiket dipengaruhi oleh pendukung klub sepak bola tersebut(Ismunanto, 2017). Dari hasil analisis ini juga nantinya mungkin dapat dijadikan acuan untuk peningkatan kualitas performa klub.

Analisis sentimen merupakan serangkaian cara, teknik dan alat yang bertujuan untuk melakukan deteksi dan mengekstrak informasi yang subjektif seperti opini dari suatu tulisan (Mantyla, et al., 2018). Analisis sentimen digunakan untuk memperoleh informasi dari sebuah tulisan dan mengklasifikasikan tulisan tersebut ke bentuk sentimen positif atau negatif.

Pada penelitian yang pernah dilaksanakan oleh Kharde, et al. (2016) tentang penerapan analisis sentimen dengan dokumen teks Twitter membuktikan metode Support Vector Machine memberikan akurasi yang cukup besar dan unggul dibanding dengan metode lain. Penelitian lainnya yang dilakukan oleh Vidya, et al. (2015) mengenai analisis sentimen terhadap dokumen Twitter menunjukkan jika Support Vector Machine mempunyai akurasi paling besar dibandingkan dengan metode Naïve Bayes dan metode Decision Tree.

Kemudian penelitian yang dilaksanakan Antinasari, et al. (2017) mengenai analisis sentimen pada opini terhadap film di Twitter sudah dibuktikan bahwa perbaikan kata tidak baku memberikan pengaruh akurasi yang lebih baik terhadap hasil klasifikasi. Dalam penelitian ini sendiri akan membandingkan hasil akurasi antara metode yang menerapkan perbaikan terhadap kata tidak baku dengan yang tidak.

Perbaikan kata tidak baku dalam penerapannya memiliki banyak algoritme.

Algoritme Levensthein Distance merupakan algoritme yang sering digunakan karena memiliki akurasi dengan nilai cenderung tinggi.

Akurasi yang tinggi serta waktu operasi yang cenderung cepat menunjukan bahwa metode Levenshtein Distance dapat diterapkan pada sistem pengoreksian ejaan kata berbahasa Indonesia(Braddley, et al., 2018).

Berdasarkan hasil dari sejumlah penelitian terdahulu maka dalam penelitian yang dilaksanakan ini nantinya metode yang akan digunakan adalah metode Support Vector Machine didampingi dengan perbaikan terhadap kata tidak baku menggunakan metode Levenshtein Distance. Dengan diadakannya penelitian ini, diharap dapat membantu persoalan dalam menganalisis dan menilai pandangan seseorang tentang sebuah klub sepak bola, sehingga dapat digunakan untuk memperbaiki performa klub.

2. DASAR TEORI 2.1. Twitter

Twitter merupakan sebuah situs media sosial yang sangat besar. Twitter dapat diakses oleh pengguna yang tidak terdaftar, tidak seperti kebanyakan media sosial saat ini. Informasi yang disediakan oleh Twitter seperti pesan tweet, informasi profil pengguna, jumlah pengikut dan yang diikuti mempunyai peran yang cukup signifikan dalam data analisis(Anber et al., 2016).

2.2. Text Mining

Text mining adalah sebuah cara untuk mendapatkan pola yang signifikan dan menarik dengan tujuan mendapatkan pengetahuan dari sebuah sumber data berupa teks. Text mining mengolah data berupa teks yang tersimpan dalam bentuk semi terstruktur maupun tidak terstruktur. Dalam text mining terdapat beberapa teknik yang biasa dilakukan seperti summarization, classification dan clustering yang bisa diterapkan untuk mengekstrak pengetahuan.

Secara umum proses yang dilakukan untuk mengekstrak pengetahuan dalam text mining dijelaskan berikut ini:

1. Mengumpulkan data yang tidak terstruktur dari berbagai sumber yang tersedia.

2. Melakukan tahapan preprocessing terhadap data yang didapat. Tahap preprocessing ini berfungsi membersihkan data untuk membuang yang tidak diperlukan dan menjaga data yang penting saja.

3. Memproses data dan mencari atau mengenali pola dari data tersebut.

4. Mengekstrak pengetahuan yang relevan dari data.

(3)

2.3. Preprocessing

Preprocessing merupakan tahapan yang sangat penting untuk dilakukan dalam menerapkan text mining. Tahap preprocessing berfungsi mempersiapkan suatu data untuk selanjutnya akan diproses. Preprocessing dalam text mining dilakukan untuk mendapatkan informasi yang menarik dari data yang tidak terstruktur dan membuang kata yang dianggap tidak berguna pada sebuah dokumen teks.

Tahapan ini juga akan berguna untuk mengurangi besar ukuran dari dokumen teks yang diolah(Gurusamy dan Kannan, 2014).

Dalam penelitian ini ditambahkan tahap perbaikan kata awal pada preprocessing.

2.4. Perbaikan Kata

Perbaikan kata merupakan sebuah tahapan yang bertujuan untuk melakukan perbaikan kata pada kata tidak baku untuk dijadikan kata baku.

Bahasa yang tidak baku akan mempengaruhi hasil dari akurasi sistem. Bahasa tidak baku biasanya memiliki banyak penulisan untuk istilah yang sama, sehingga kata tidak baku tersebut akan terhitung menjadi token yang berbeda mengakibatkan tidak relevannya token tersebut.

Perbaikan kata diperlukan untuk memperbaiki beberapa penulisan tidak baku yang sering dilakukan, seperti penulisan dengan bahasa modern, penulisan dengan kata singkat, penulisan salah eja dan penulisan huruf dengan angka. Perbaikan dilakukan dengan membandingkan setiap token pada kamus yang sudah dibentuk. Jika diperoleh kata dengan penulisan tidak baku maka kata tersebut diubah ke dalam bentuk kata baku yang sesuai dengan kamus yang ada(Antinasari, et al., 2017)

2.5. Pembobotan TF-IDF

Pembobotan TF-IDF merupakan suatu teknik yang berguna untuk memberikan bobot terhadap suatu kata yang sudah diekstrak. TF- IDF ini merupakan suatu metode yang sering digunakan dalam melakukan pembobotan (Luqyana, et al., 2018).

Tahapan pembobotan kata dengan TF-IDF yaitu:

1. Menghitung weighting term frequency dengan persamaan (1).

𝑊_𝑡𝑓_𝑡,𝑑 = {1 + 𝑙𝑜𝑔₁₀𝑡𝑓_𝑡,𝑑 , 𝑖𝑓 𝑡𝑓_𝑡,𝑑> 0

0, 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 (1)

2. Menghitung IDF dengan persamaan (2).

𝑖𝑑𝑓_𝑡= 𝑙𝑜𝑔₁₀(^𝑁

𝑑𝑓𝑡) (2)

3. Menghitung TF-IDF dengan persamaan (3).

𝑊_𝑡,𝑑= 𝑊_𝑡𝑓_𝑡,𝑑 × 𝑖𝑑𝑓_𝑡 (3) Keterangan:

𝑊_𝑡𝑓_𝑡,𝑑 :bobot frekuensi term 𝑡𝑓_𝑡,𝑑 : frekuensi term

𝑖𝑑𝑓_𝑡 : nilai inverse document frequency 𝑁 : banyak dokumen

𝑑𝑓_𝑡 : banyak dokumen yang mengandung suatu term

𝑊_𝑡,𝑑 : nilai bobot TF-IDF 2.6. Analisis Sentimen

Analisis sentimen dapat diartikan sebagai sebuah proses otomasi dalam menggali sikap, opini, pandangan dan emosi yang terkandung dalam dokumen teks. Analisis sentimen mengklasifikasikan suatu opini dalam teks ke dalam kategori positif atau negatif. Analisis sentimen juga kadang disebut sebagai subjectivity analysis dan opinion mining(Kharde, et al., 2016).

Analisis sentimen dapat dibedakan dalam dua pendekatan(Kolchyna, et al., 2015) yaitu:

1. Pendekatan machine learning dalam analisis sentimen dilakukan dengan cara memproses dan menganalisa data yang sebelumnya sudah dilabeli positif atau negatif. Proses ini disebut proses training yang bertujuan untuk mencari pola pada setiap kelas yang selanjutnya berguna untuk proses uji.

2. Pendekatan lexicon-based dalam melakukan analisis sentimen dilakukan dengan cara memberikan nilai sentimen suatu kata berdasarkan dengan dictionary atau kamus lexicon.

2.7. Support Vector Machine

Support Vector Machine merupakan sebuah teknik yang dapat digunakan dalam melakukan sebuah prediksi baik berupa klasifikasi atau regresi. Support Vector Machine dalam penerapannya terdapat tahapan pelatihan kemudian dilanjutkan tahapan pengujian.

Metode ini dalam melakukan klasifikasi menggunakan konsep untuk mencari hyperlane terbaik yang berguna untuk memisahkan dua

(4)

kelas data. Metode ini juga dapat dapat menggunakan kernel trik agar bisa bekerja pada data yang berdimensi tinggi(Rofiqoh, et al., 2017).

Support Vector Machine memiliki persamaan (4) atau persamaan (5).

𝑓(𝑥) = 𝑤. 𝑥 + 𝑏 (4)

atau

𝑓(𝑥) = ∑^𝑛_𝑖=0𝑎_𝑖𝑦_𝑖𝐾(𝑥, 𝑥_𝑖) + 𝑏 (5)

Keterangan :

𝑤 : parameter hyperplane yang dicari 𝑥 : titik data masukan

𝑎 : nilai bobot setiap titik data 𝐾(𝑥, 𝑥_𝑖): fungsi kernel

𝑏 : nilai bias yang dicari

Pada umumnya kasus dalam dunia nyata adalah kasus yang tidak linier. Suatu cara yang digunakan untuk mengatasi ketidaklinieran adalah metode kernel. Dengan metode kernel, suatu data dipetakan untuk dapat direpresentasikan pada ruang vector baru(Haryanto, et al., 2018).

Penelitian ini akan menggunakan kernel polynomial berderajat dua. Kernel polynomial berderajat dua digunakan berdesarkan penelitian yang pernah dilakukan oleh Hussain, et al.

(2011) bahwa kernel polynomial lebih unggul dari kernel lain dalam metode SVM. Penelitian tersebut melakukan suatu perbandingan antara nilai akurasi beberapa kernel dalam SVM.

Kemudian pada penelitian yang dilaksanakan oleh Luqyana, et al. (2018) nilai derajat dua memiliki akurasi lebih tinggi pada kernel polynomial. Penelitian ini juga menggunakan metode sequential SVM yang dikembangkan oleh Vijayakumar dan Wu (1999).

Persamaan kernel polynomial (6).

𝐾(𝑥_𝑖. 𝑥_𝑗) = (𝑥_𝑖. 𝑥_𝑗+ 𝑐)^𝑑 (6) Keterangan:

𝐾(𝑥_𝑖. 𝑥_𝑗) : nilai kernel 𝑥_𝑖 : fitur data 1 𝑥_𝑗 : fitur data 2

𝑐 : nilai konstanta

𝑑 : nilai derajat

2.8. Levenshtein Distance

Levenshtein Distance merupakan sebuah metode yang biasa digunakan untuk melakukan perbaikan pada sebuah kata. Levenshtein Distance bekerja dengan cara melakukan perhitungan untuk mengetahui perbedaan antara dua kata. Perhitungan jarak antara dua kata dilakukan dengan menggunakan operasi string.

Operasi string terdiri dari operasi pengubahan, penambahan dan penghapusan. Operasi ini akan menghasilkan jarak antara dua buah kata, jarak yang digunakan merupakan jarak paling kecil atau paling dekat, semakin kecil jarak dua kata maka dua kata tersebut dikatakan cocok (Bradley et al., 2018).

2.9. Evaluasi

Dalam proses evaluasi nantinya akan dilakukan pembandingan nilai keluaran yang dihasilkan dengan nilai yang sesungguhnya.

Evaluasi dilakukan bertujuan untuk mendapatkan nilai hasil akurasi dari metode yang sudah diterapkan. Dalam menghitung nilai akurasi tersebut digunakan persamaan (7).

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 𝐽𝑢𝑚𝑙𝑎ℎ 𝑑𝑎𝑡𝑎 𝑢𝑗𝑖 𝑦𝑎𝑛𝑔 𝑏𝑒𝑛𝑎𝑟

𝐽𝑢𝑚𝑙𝑎ℎ 𝑘𝑒𝑠𝑒𝑙𝑢𝑟𝑢ℎ𝑎𝑛 𝑑𝑎𝑡𝑎 𝑢𝑗𝑖× 100% (7) 3. METODOLOGI PENELITIAN

3.1. Data Penelitian

Pada penelitian ini data yang digunakan merupakan postingan pengguna media sosial Twitter. Data yang akan digunakan memiliki jumlah 400 data yang terbagi menjadi 360 data latih dan 40 data uji. Data yang dibutuhkan berupa dokumen tweet yang berhubungan dengan argumen pengguna terhadap sebuah klub sepakbola.

Teknik pengumpulan data dilakukan dengan cara streaming terhadap postingan pengguna. Hasil dari streaming data postingan pengguna tersebut akan dipilih yang berhubungan dengan opini terhadap suatu klub sepak bola.

3.2. Deskripsi Umum Sistem

Penelitian ini memiliki tujuan untuk memberikan penyelesaian terhadap permasalahan analisis sentimen mengenai opini performa klub sepak bola pada dokumen Twitter menggunakan SVM dan perbaikan kata tidak baku. Dalam sistem ini proses dimulai dengan memberikan masukan data latih beserta data uji

(5)

dan dilakukan preprocessing. Selanjutnya data hasil preprocessing dilakukan perbaikan kata dengan Levenshtein Distance lalu dilakukan pembobotan. Kemudian Support Vector Machine akan menentukan hasil klasifikasi data tersebut. Sistem digambarkan pada Gambar 1.

Gambar 1. Diagram Alir Sistem 4. HASIL DAN PEMBAHASAN

Pengujian akan dilakukan dengan metode k- fold cross validation dengan jumlah fold yang digunakan yaitu 10 fold. Dokumen akan dikelompokkan ke dalam bentuk 10 fold.

Dokumen akan diacak terlebih dahulu kemudian dikelompokkan secara manual oleh penulis. Dari hasil pengelompokkan data setiap fold akan dijadikan data uji dan fold sisanya dijadikan data latih. Dalam satu pengujian nilai akurasi akan diambil dari rata-rata keseluruhan pengujian dari setiap fold.

4.1. Pengujian Learning Rate

Pada parameter ini dilakukan pengujian dengan tujuan menentukan nilai akurasi terbaik untuk dapat digunakan pada pengujian berikutnya.

Gambar 2. Hasil Learning Rate

Pada Gambar 2 terlihat bahwa pengujian ini menghasilkan akurasi terbaik pada nilai 0,0001 dimana akurasi yang dihasilkan sebesar 79,25%.

Pada saat nilai learning rate coba dinaikkan terjadi penurunan nilai akurasi. Penurunan nilai akurasi kembali berlanjut jika nilai learning rate terus dinaikkan. Pengujian ini menunjukkan bahwa peningkatan nilai learning rate tidak juga meningkatkan nilai akurasi dan nilai learning rate yang semakin rendah cenderung memiliki akurasi yang tinggi.

Parameter learning rate dalam support vector machine berfungsi untuk menentukan nilai dari delta alpha(δα). Nilai δα berfungsi untuk menentukan kondisi konvergen dalam sistem. Kondisi konvergen didapatkan ketika nilai tertinggi dari δα lebih kecil dari nilai epsilon.

Pada pengujian yang sudah dilakukan ketika nilai learning rate di naikkan terbukti berbanding terbalik dengan nilai delta alpha yang akan mengalami penurunan. Ketika nilai delta alpha ikut mengalami penurunan maka akan besar kemungkinan untuk sistem mengalami kondisi konvergen lebih cepat

4.2. Pengujian Lambda

Menguji parameter lambda bertujuan untuk menghasilkan nilai akurasi terbaik dengan tujuan agar digunakan pada pengujian lanjutannya.

0 20 40 60 80 100

0,0001 0,001 0,01 0,1 1

Akurasi

Learning Rate

Mulai

Data Latih Data Uji Preprocessing

Perbaikan Kata Levenshtein Distance

Pembobotan data Klasifikasi dengan SVM

Hasil Klasifikasi

Selesai

(6)

Gambar 3. Hasil Lambda

Pengujian parameter lambda pada Gambar 3 memberikan nilai akurasi yang sama untuk setiap nilai lambda yang diujikan. Berdasarkan pengujian ini parameter lambda tidak mempengaruhi nilai akurasi dari sistem yang dibuat. Parameter lambda merupakan parameter yang digunakan untuk membentuk matriks hessian.

Matriks hessian berfungsi untuk membentuk nilai error dimana nilai error ini akan berpengaruh juga terhadap nilai delta alpha. Namun perubahan nilai pada matriks hessian yang disebabkan oleh nilai lambda tidak berpengaruh besar terhadap nilai akurasi nantinya.

Perubahan nilai oleh lambda juga mempengaruhi nilai delta alpha. Akan tetapi nilai yang berubah tidak terlalu besar untuk dapat mempengaruhi perubahan kondisi konvergen maupun untuk pembentukan nilai alpha nantinya.

4.3. Pengujian Complexity

Menguji parameter complexity bertujuan untuk menghasilkan nilai akurasi terbaik dengan tujuan agar digunakan pada pengujian lanjutannya.

Gambar 4. Hasil Complexity

Akurasi terbaik pada pengujian parameter complexity pada Gambar 4 didapatkan pada nilai 0,001 dengan akurasi sebesar 83,25%. Pada pengujian ini saat nilai parameter complexity ditingkatkan nilai akurasi ikut membaik. Namun saat nilai complexity kembali dinaikkan nilai akurasi mulai mengalami penurunan. Menaikkan nilai parameter complexity secara menerus tidak selalu dapat memperbaiki nilai akurasi yang didapat. Nilai complexity mempengaruhi perubahan nilai pada delta alpha sehingga akan mempengaruhi kondisi konvergen pada sistem.

4.4. Pengujian Epsilon

Menguji parameter epsilon bertujuan untuk menghasilkan nilai akurasi terbaik dengan tujuan agar digunakan pada pengujian lanjutannya.

Gambar 5. Hasil Epsilon

Pengujian parameter epsilon pada Gambar 5 mendapatkan nilai akurasi terbesar pada nilai parameter 0,0001 dengan nilai akurasi sebesar 83,25%. Nilai akurasi kemudian mengalami penurunan ketika nilai epsilon yang diberikan bernilai 0,001 sampai dengan 0,1. Nilai epsilon

0 20 40 60 80 100

0,1 0,3 0,5 0,7 1

Akurasi

Lambda

0 20 40 60 80 100

0,0001 0,001 0,01 0,1 1

Akurasi

Complexity

0 20 40 60 80 100

0,00001 0,0001 0,001 0,01 0,1

Akurasi

Epsilon

(7)

merupakan nilai yang berfungsi untuk menentukan kondisi konvergen. Ketika nilai delta alpha lebih kecil dari nilai epsilon maka akan terjadi kondisi konvergen. Pada saat nilai epsilon yang diberikan cukup besar maka kondisi konvergen akan lebih cepat terjadi.

Pada pengujian parameter epsilon ini ketika nilai epsilon yang diberikan sebesar 0,001 sampai dengan 0,1 akan terjadi kondisi konvergen yang cepat. Kondisi konvergen akan terjadi pada iterasi kedua dikarenakan nilai delta alpha sudah lebih kecil dari nilai epsilon. Akibat dari kondisi ini adalah nilai akurasi yang didapat akan selalu tetap dan tidak akan meningkat lagi

4.5. Pengujian Iterasi Maksimal

Menguji parameter ini bertujuan untuk menghasilkan nilai akurasi terbaik dengan tujuan agar digunakan pada pengujian lanjutannya.

Gambar 6. Hasil Iterasi Maksimal

Dalam pengujian iterasi maksimal pada Gambar 6 dengan menggunakan beberapa nilai parameter memberikan hasil yang tidak mempengaruhi akurasi. Hal ini dipengaruhi oleh nilai parameter epsilon yang didapatkan sebelumnya. Parameter epsilon menyebabkan pencapaian nilai konvergen sebelum iterasi selesai. Kondisi konvergen yang disbabkan oleh nilai epsilon ini berakibat kepada jumlah iterasi maksimal. Ketika nilai iterasi maksimal ditingkatkan nilai akurasi tidak akan mengalami perubahan karena sistem akan tetap berhenti pada saat situasi konvergen terpenuhi.

4.6. Pengujian Pengaruh Metode

Berdasarkan hasil yang didapatkan penggunaan perbaikan kata dengan metode Levenshtein Distance mengakibatkan peningkatan nilai akurasi yang didapat. Dari pengujian yang dilakukan penggunaan

Levenshtein Distance menghasilkan nilai akurasi sebesar 83,25% sedangkan tanpa penggunaan Levensthein Distance memberikan nilai akurasi sebesar 82,75%. Peningkat nilai akurasi yang didapatkan adalah sebesar 0,5%. Perbaikan kata Levenshtein Distance memberikan perbaikan yang lebih akurat dengan cara membandingkan kata dengan kamus.

5. KESIMPULAN DAN SARAN 5.1. Kesimpulan

Berdasarkan hasil dari pengujian dan analisis yang sudah dilakukan pada penelitian ini, diberikan kesimpulan antara lain:

1. Metode klasifikasi Support Vector Machine dengan perbaikan kata tidak baku dapat diterapkan pada analisis sentimen tentang opini terhadap klub sepak bola dengan menggunakan dokumen Twitter. Tahap awal akan dilakukan dengan preprocessing pada data latih dan data uji, yang mana pada proses preprocessing terdapat tambahan perbaikan kata tidak baku menggunakan wordlist. Dilanjutkan perbaikan pada kata yang tidak baku menggunakan algoritme Levenshtein Distance yang dilakukan setelah proses preprocessing. Kemudian dilakukan pembobotan data menggunakan Term Frequency-Invers Document Frequency. Setelah itu melakukan klasifikasi menggunakan Support Vector Machine.

2. Akurasi yang diperoleh dengan menggunakan metode Support Vector Machine dan Levenshtein Distance sebesar 83,25% sedangkan tanpa menggunakan Levenshtein Distance adalah sebesar 82,75%. Perbaikan kata tidak baku menggunakan Levenshtein Distance terbukti meningkatkan akurasi dari klasifikasi analisis sentimen. Akurasi ini diperoleh ketika parameter nilai learning rate sebesar 0,0001, nilai complexity sebesar 0,001, nilai lambda sebesar 0,1, nilai epsilon sebesar 0,0001 dan iterasi maksimal sebesar 50.

5.2. Saran

Berdasarkan penelitian analisis sentimen yang dilakukan ini berikut merupakan saran untuk penelitian yang akan datang:

1. Metode yang digunakan belum melakukan pembobotan emoji. Pada penelitian

0 20 40 60 80 100

50 75 100 200 300

Akurasi

Iterasi Maksimal

(8)

selanjutnya memungkinkan untuk menggunakan pembobotan emoji untuk meningkatkan nilai akurasi.

2. Waktu komputasi pada saat perbaikan kata Levenshtein Distance yang cukup lama.

Penelitian selanjutnya diharapkan untuk menggunakan metode yang dapat mempersingkat waktu komputasi Levenshtein Distance seperti penggunaan struktur data trie.

6. DAFTAR PUSTAKA

Anber, H., Salah, A., & El-Aziz, A.A.A., 2016.

A Literature Review on Twitter Data Analysis. International Journal of Computer and Electrical Engineering, [e- journal] 8(3) Tersedia melalui:

<http://www.ijcee.org/vol8/931-

IT015.pdf> [Diakses 12 September 2018]

Antinasari, P., Perdana, R., & Fauzi, M., 2017.

Analisis Sentimen Tentang Opini Film Pada Dokumen Twitter Berbahasa Indonesia Menggunakan Naive Bayes Dengan Perbaikan Kata Tidak Baku.

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, [e-journal]

1(12) Tersedia melalui: <http://j- ptiik.ub.ac.id/index.php/j-

ptiik/article/view/629> [Diakses 28 Agustus 2018]

Braddley, M.O., Fachrurrozi, M., & Yusliani, N., 2018. Pengoreksian Ejaan Kata Berbahasa Indonesia Menggunakan Algoritma Levensthein Distance. Annual Research Seminar, [e-journal] 3(1)

Tersedia melalui:

<http://seminar.ilkom.unsri.ac.id/index.ph p/ars/article/view/1704> [Diakses 19 September 2018]

Gurusamy, V. & Kannan, S., 2014.

Preprocessing Techniques for Text Mining. Conference Paper, [online]

Tersedia di:

<https://www.researchgate.net/publication /273127322_Preprocessing_Techniques_f or_Text_Mining> [Diakses 24 Oktober 2018]

Haryanto, D., Muflikhah, L., & Fauzi, M., 2018.

Analisis Sentimen Review Barang Berbahasa Indonesia Dengan Metode Support Vector Machine Dan Query Expansion. Jurnal Pengembangan

[e-journal] 2(9) Tersedia melalui: <http://j- ptiik.ub.ac.id/index.php/j-

ptiik/article/view/2464>. [Diakses 31 Agustus 2018]

Herman, 2017. Indonesia Fifth-Largest Country in Terms of Twitter Users. [online]

Tersedia di:

<https://jakartaglobe.id/context/indonesia- fifth-largest-country-in-terms-of-twitter- users> [Diakses 20 Oktober 2018]

Hussain, M., Wajid, S.K., Elzaart, A., & Berbar, M., A Comparison of SVM Kernel Functions for Breast Cancer Detection, 2011 Eighth International Conference Computer Graphics, Imaging and Visualization, [Online] Tersedia di:

<https://ieeexplore.ieee.org/document/605 4104> [Diakses 2 Desember 2018]

Ismunanto, 2017. Empat Sumber Pemasukan Klub Sepak Bola. [online] Tersedia di:

<https://www.jawapos.com/sepakbola/sepak-bola-

indonesia/09/04/2017/empat-sumber- pemasukan-klub-sepak-bola> [Diakses 20 September 2018]

Kharde, V.A. & Sonawane, S., 2016. Sentiment Analysis of Twitter Data: A Survey of Techniques. International Journal of Computer Applications [e-journal]

139(11) Tersedia melalui:

<https://arxiv.org/abs/1601.06971>

[Diakses 28 Agustus 2018]

Luqyana, W., Cholissodin, I., & Perdana, R., 2018. Analisis Sentimen Cyberbullying pada Komentar Instagram dengan Metode Klasifikasi Support Vector Machine.

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, [e-journal]

2(11) Tersedia melalui: <http://j- ptiik.ub.ac.id/index.php/j-

ptiik/article/view/3051>. [Diakses 18 Januari 2019]

Mantyla, M.V., Graziotin, D., Kuutila, M., 2018.

The evolution of sentiment analysis—A review of research topics, venues, and top cited papers. Computer Science Review.

[e-journal] 27 Tersedia melalui:

<http://www.sciencedirect.com/science/ar ticle/pii/S1574013717300606> [Diakses 2 September 2018]

Rofiqoh, U., Perdana, R., & Fauzi, M. Analisis

(9)

Penyedia Layanan Telekomunikasi Seluler Indonesia Pada Twitter Dengan Metode Support Vector Machine dan Lexicon Based Features. Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, [e-journal] 1(12) Tersedia melalui:

<http://j-ptiik.ub.ac.id/index.php/j-

ptiik/article/view/628> [Diakses 18 September 2018]

Smith, P., 2014. World Football, [online]

Tersedia di: <

https://issuu.com/repucom.net/docs/repuc om_world-football> [Diakses 2 September 2018]

Vidya, N.A., Fanany, M.I., & Budi, I., 2015.

Twitter Sentiment to Analyze Net Brand Reputation of Mobile Phone Providers.

Procedia Computer Science, [e-journal] 72

Tersedia melalui:

<http://www.sciencedirect.com/science/ar ticle/pii/S1877050915036200> [Diakses 12 September 2018]

Vijayakumar, S & Wu, S 1999, Sequential support vector classifiers and regression.

Proc. International Conference on Soft Computing (SOCO'99), [online] Tersedia

di: <

https://www.research.ed.ac.uk/portal/files/

15248652/vijayakumar_SOCO1999.pdf>

[Diakses 25 Oktober 2018]

Yunus, 2018. 10 Akun Olahraga Indonesia Paling Dibicarakan di Sosial Media Tahun 2018. [online] Tersedia di:

<https://www.bolasport.com/read/311428 547/10-akun-olahraga-indonesia-paling- dibicarakan-di-sosial-media-tahun-2018>

[Diakses 20 Januari 2019]