Sentiment Analysis Pada Teks Bahasa Indonesia Menggunakan Support Vector Machine (SVM) Dan K-Nearest Neighbor (K-NN)

(1)

BAB 1

PENDAHULUAN

1.1. Latar Belakang

Analisis Sentimen adalah proses menganalisis, memahami pendapat, evaluasi, penilaian,

sikap, dan emosi terhadap suatu entitas seperti produk, jasa, organisasi, individu, peristiwa,

topik, secara otomatis untuk mendapatkan informasi (Liu, 2010). Besarnya pengaruh dan

manfaat dari Sentiment Analysis, menyebabkan penelitian ataupun aplikasi mengenai

Sentiment Analysis berkembang pesat, bahkan di Amerika ada kurang lebih 20-30 perusahaan

menggunakan Sentiment Analysis untuk mendapatkan informasi tentang sentimen masyarakat

terhadap pelayanan perusahaan (Sumartini, 2011). Pada dasarnya Sentiment Analysis

merupakan klasifikasi, tetapi kenyataannya tidak semudah proses klasifikasi biasa karena

terkait penggunaan bahasa. Terdapat ambigu dalam penggunaan kata, tidak adanya intonasi

dalam sebuah teks, dan perkembangan dari bahasa itu sendiri (Bo & Lilian, 2008).

Adapun penelitian-penelitian terdahulu yang terkait dengan Sentiment Analysis, antara

lain adalah penelitian (Abbasi et al, 2008) mendeteksi situs website palsu atau asli dengan

klasifikasi artikel berita pada website. Penelitian (Han et al, 2013) menganalisis sentimen

pada teks twitter, dengan menggunakan karakter bahasa n-gram model dan SVM untuk

mengatasi variasi leksikal tinggi dalam teks Twitter. Penelitian (Vinodhini &

Chandrasekaran, 2012) mengembangkan sistem yang dapat mengidentifikasi dan

mengklasifikasikan sentimen masyarakat untuk memprediksi produk yang menarik dalam

pemasaran.

Penelitian ini menggunakan teks Bahasa Indonesia yang terdapat di website berupa

artikel berita, kemudian akan dibagi ke dalam tiga kelas, yaitu kelas sentimen positif, negatif

dan netral. Pada sentiment analysis, metode K-Nearest Neighbor akan menganalisis secara

langsung pada data pembelajaran agar dapat menentukan model yang akan dibentuk. Metode

Support Vector Machine kemudian digunakan untuk menentukan kategori dari data baru yang

ingin ditentukan secara tekstual, yaitu kelas sentimen positif, negatif dan netral. Support

Vector Machine digunakan pada penelitian ini karena memiliki teknik yang berakar pada

teori pembelajaran statistik dan telah menunjukkan hasil yang baik dalam berbagai aplikasi

praktis dari pengenalan digit tulisan tangan sampai kategorisasi teks dan juga bekerja sangat

(2)

baik pada data dengan banyak dimensi dan menghindari kesulitan dari permasalahan

dimensionalitas (Tan & Kumar, 2006). Dipilih k-nearest neighbor karena implementasi yang

sangat sederhana, baik untuk ruang pencarian karena kelas tidak harus dipisahkan linear (Li,

2006). K-NN tangguh terhadap training data yang noise dan efektif apabila training data-nya

besar (Darujati, 2010).

Support Vector Machine (SVM) dan K-Nearest Neighbor (K-NN) dapat melakukan

menganalisis dengan cara belajar dari sekumpulan contoh dokumen yang telah diklasifikasi

sebelumnya. Keuntungan dari metode ini adalah dapat menghemat waktu kerja dan

memperoleh hasil yang lebih baik, tetapi pada Support Vector Machine untuk ekstraksi

informasi dari dokumen teks tidak terstruktur karena jumlah fitur jauh lebih besar daripada

jumlah sampel, metode ini memiliki performansi yang kurang baik, terhadap domain tertentu,

oleh karena itu perlunya K-Nearest Neighbor untuk meminimalkan jumlah fitur yang akan

digunakan untuk analisis sehingga lebih akurat. Kemudian SVM tidak memperhatikan

distribusi data, karena hanya berdasarkan kelas yang memiliki pola berbeda dan dipisahkan

oleh fungsi pemisah, sehingga analisis yang dihasilkan kemungkinan salah, sehingga K-NN

akan mendistribusikan data tersebut dengan berdasarkan jarak data ke beberapa data terdekat,

sehingga analisis yang dihasilkan lebih akurat. Penelitian ini diharapkan dapat mempercepat

upaya mendapatkan informasi yang akurat tentang sentimen pemberitaan media massa pada

suatu hal.

1.2. Rumusan Masalah

Informasi terus bertambah setiap waktu dengan adanya arus informasi yang cepat, yang

dibutuhkan oleh masyarakat. Diantaranya kebutuhan untuk mendapatkan informasi yang

tersedia di Internet berupa informasi dalam bentuk teks. Semakin banyak informasi yang

ingin diketahui, maka dibutuhkan waktu yang cukup lama untuk mendapatkan informasi

tersebut, sehingga analisis sentimen sangat diperlukan, untuk mempercepat proses untuk

mendapatkan informasi.

1.3. Batasan Masalah

Dalam menganalisis sentimen menggunakan algoritma Support Vector Machine (SVM) dan

K-Nearest Neighbor (K-NN) dilakukan beberapa batasan sebagai berikut :

(3)

1. Dataset yang digunakan adalah artikel berita berbahasa Indonesia yang didapatkan

dari web menggunakan crawler

2. Fitur yang digunakan berupa Unigram yaitu token yang terdiri dari satu kata. 3. Dataset hanya berupa teks, tidak menggunakan simbol, angka, tanda baca dan icon

emoticon, untuk menganalisis sentimen.

1.4. Tujuan Penelitian

Tujuan penelitian ini adalah untuk menganalisis sentimen pada artikel berita berbahasa

Indonesia, sehingga mempercepat proses mendapatkan informasi yang diinginkan.

1.5. Manfaat Penelitian

Manfaat dari penelitian ini adalah diharapkan dengan adanya aplikasi dari metode Support

Vector Machine (SVM) dan K-Nearest Neighbor (K-NN) dapat berguna untuk menganalisis

sentimen pada artikel berita berupa teks berbahasa Indonesia, sehingga mempercepat proses

dalam hal mendapatkan informasi yang diinginkan.

(4)