Sentiment Analysis Pada Teks Bahasa Indonesia Menggunakan Support Vector Machine (SVM) Dan K-Nearest Neighbor (K-NN)

(1)

SENTIMENT ANALYSIS

PADA TEKS BAHASA INDONESIA

MENGGUNAKAN

SUPPORT VECTOR MACHINE

(SVM)

DAN

K-NEAREST NEIGHBOR

(K-NN)

TESIS

SYAHFITRI KARTIKA LIDYA

127038007

PROGRAM STUDI MAGISTER (S-2) TEKNIK INFORMATIKA

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA

MEDAN

(2)

SENTIMENT ANALYSIS

MENGGUNAKAN

(SVM)

DAN

(K-NN)

TESIS

Diajukan sebagai salah satu syarat untuk memperoleh ijazah

Magister (S-2) Teknik Informatika

Syahfitri Kartika Lidya

127038007

PROGRAM STUDI MAGISTER (S-2) TEKNIK INFORMATIKA

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA

MEDAN

(3)

PERSETUJUAN

Judul Tesis : SENTIMENT ANALYSIS PADA TEKS BAHASA

INDONESIA MENGGUNAKAN SUPPORT

VECTOR MACHINE (SVM) DAN K-NEAREST

NEIGHBOR (K-NN)

Kategori : TESIS

Nama Mahasiswa : SYAHFITRI KARTIKA LIDYA

Nomor Induk Mahasiswa : 127038007

Program Studi : MAGISTER (S-2) TEKNIK INFORMATIKA

Fakultas : ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

(FASILKOM-TI) UNIVERSITAS SUMATERA UTARA

Komisi Pembimbing :

Pembimbing 2, Pembimbing 1,

Dr. Syahril Efendi, S.Si M.IT Prof. Dr. Opim Salim Sitompul, M.Sc NIP. 19671110 199602 1 001 NIP. 19610817 198701 1 001

Diketahui/Disetujui Oleh,

Program Studi Magister (S-2) Teknik Informatika, Ketua,

(4)

PERNYATAAN

SENTIMENT ANALYSIS

MENGGUNAKAN

(SVM)

DAN

(K-NN)

TESIS

Saya mengakui bahwa tesis ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan

ringkasan yang masing-masing telah disebutkan sumbernya.

Medan, 21 Agustus 2014

(5)

PERNYATAAN PERSETUJUAN PUBLIKASI

KARYA ILMIAH UNTUK KEPENTINGAN

AKADEMIS

Sebagai sivitas akademika Universitas Sumatera Utara, Saya yang bertanda tangan di bawah

ini :

Nama : Syahfitri Kartika Lidya

NIM : 127038007

Program Studi : Magister (S-2) Teknik Informatika

Jenis Karya Ilmiah : Tesis

Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas

Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalty Free Right) atas

Tesis Saya yang berjudul.

SENTIMENT ANALYSIS PADA TEKS BAHASA INDONESIA

MENGGUNAKAN SUPPORT VECTOR MACHINE (SVM)

DAN K-NEAREST NEIGHBOR (K-NN)

Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non-Eksklusif ini,

Universitas Sumatera Utara berhak menyimpan, mengalih media, menformat, mengelola,

dalam bentuk database, merawat, dan mempublikasikan Tesis Saya tanpa meminta izin dari

Saya selama tetap mencantumkan nama Saya sebagai penulis dan sebagai pemegang dan atau

sebagai pemilik hak cipta.

Demikian Pernyataan ini dibuat dengan sebenarnya.

(6)

Telah diuji pada

Tanggal : 21 Agustus 2014

PANITIA PENGUJI TESIS

Ketua : Prof. Dr. Opim Salim Sitompul, M.Sc Anggota : 1. Dr. Syahril Efendi, S.Si M.IT

2. Prof. Dr. Muhammad Zarlis

3. Dr. Erna Budhiarti Nababan, M.IT

(7)

RIWAYAT HIDUP

DATA PRIBADI

Nama lengkap berikut gelar : Syahfitri Kartika Lidya, S.TI

Tempat dan Tanggal Lahir : Medan, 21 April 1991

Alamat Rumah : Jl. Denai, Jermal IV No. 15

Telepon / HP : 082167512054

Email : [email protected]

DATA PENDIDIKAN

SD : SD Negeri No.091644 Bah Lias Tamat : 2000

SMP : SMP Negeri 1 Bandar Tamat : 2006

SMA : SMA Negeri 3 Medan Tamat : 2008

Strata-1 : Teknologi Informasi USU Tamat : 2012

(8)

UCAPAN TERIMA KASIH

Puji syukur saya panjatkan kehadirat Allah SWT, yang telah memberikan rahmat dan hidayah-Nya serta segala sesuatunya dalam hidup, sehingga saya dapat menyelesaikan penyusunan Tesis ini, sebagai syarat untuk memperoleh ijazah Magister Teknik Informatika, Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara. Dalam pengerjaan Tesis ini penulis banyak sekali mendapatkan dukungan, saran, dan nasehat dari berbagai pihak.

Dalam kesempatan ini penulis mengucapkan terima kasih kepada: Bapak Prof. Dr. Opim Salim Sitompul, M.Sc, selaku Dosen Pembimbing I, yang telah bersedia meluangkan waktu dan pikirannya dalam membimbing, memotivasi untuk menyelesaikan Tesis ini. Bapak Dr. Syahril Efendi, S.Si M.IT, selaku Dosen Pembimbing II, yang telah bersedia meluangkan waktu dan pikirannya dalam menyelesaikan Tesis ini, Ucapan terima kasih juga ditujukan kepada Dosen Pembanding Bapak Prof. Dr. Muhammad Zarlis, Ibu Dr. Erna Budhiarti Nababan M.IT, dan Bapak Dr. Benny Benyamin Nasution Dipl. Ing., M. Eng, kemudian ucapan terima kasih untuk Ketua Program Studi Magister Teknik Informatika Bapak Prof. Dr. Muhammad Zarlis dan Sekretaris Program Studi Magister Teknik Informatika Bapak M. Andri Budiman, ST, McompSc, MEM. Serta kepada dosen-dosen Program Studi Magister Teknik Informatika dan pegawai di Program Studi Magister Teknik Informatika, khususnya kak Widya, kak Ines, kak Maya dan bang Ewin yang telah membantu kelancaran proses administrasi.

Segala hormat dan terima kasih secara khusus penulis ucapkan kepada ayahanda Yonnes Hasan dan Ibunda Nova Mustika atas motivasi, kasih sayang, dan dukungan baik

secara materi maupun do‟a yang tak pernah putus yang diberikan kepada penulis, tak lupa

kepada adik-adik tersayang Vayon Rachmat Ramadhan dan Sabilla Afiya, serta tante dan Om tersayang Julia Reveny, Imsyah Satari, Julia Maulina, Imsyahrial yang telah memberi motivasi dan nasehat serta nenek Syahiar tersayang yang selalu mendoakan. Tidak lupa kepada seluruh sahabat penulis Stambuk 2012 Kom A yang selalu berusaha menjadi sahabat terbaik khususnya kak Ananda, bg Johanes, bg bambang, kak Mawadda dan seluruh Stambuk 2012, kemudian orang terdekat yang selalu disayang, yang selalu memberi motivasi dan nasehat khususnya Karina Ayesha, Alfarisi, Karina Andi, Bowo, Ishri, Cahya, Dika, Mauza, Khalil.

Penulis berharap bahwa Tesis ini bermanfaat terutama kepada penulis maupun para pembaca. Saya menyadari bahwa Tesis ini perlu saran dan kritik yang bersifat membangun demi kesempurnaan Tesis ini sehingga dapat bermanfaat bagi kita semua. Sekali lagi saya ucapkan terima kasih atas segalanya. Semoga segala kebaikan diberikan balasan yang setimpal oleh Allah SWT.

(9)

ABSTRAK

Analisis Sentimen adalah proses menganalisis, memahami, dan mengklasifikasi pendapat,

evaluasi, penilaian, sikap, dan emosi terhadap suatu entitas seperti produk, jasa, organisasi,

individu, peristiwa, topik, secara otomatis untuk mendapatkan informasi. Penelitian ini

menggunakan teks Bahasa Indonesia yang terdapat di website berupa artikel berita, kemudian

metode K-Nearest Neighbor akan mengklasifikasi secara langsung pada data pembelajaran

agar dapat menentukan model yang akan dibentuk oleh metode Support Vector Machine

untuk menentukan kategori dari data baru yang ingin ditentukan kategori tekstual, yaitu kelas

sentimen positif, negatif dan netral. Berdasarkan seluruh hasil pengujian, bahwa pengaruh

nilai k pada k-fold cross validation yang terlalu kecil menghasilkan akurasi yang rendah,

sedangkan nilai k yang terlalu besar menghasilkan nilai akurasi yang besar, kemudian

Pengaruh nilai k pada K-NN terhadap akurasi, jika n memiliki akurasi rendah pada saat nilai

k kecil. Hal ini dikarenakan, data yang masuk pada k tetangga terdekat terlalu sedikit dan

belum bisa merepresentasikan kelas pada data uji.

(10)

SENTIMENT ANALYSIS USING SUPPORT VECTOR MACHINE

(SVM) AND K-NEAREST NEIGHBOR (K-NN) ON INDONESIAN TEXT

ABSTRACT

Sentiment analysis is the process of analyzing, understanding, and classifying opinions, evaluation, assessment, attitudes, and emotions to an entity such as products, services, organizations, individuals, events, topics, automatically to obtain the information. This study uses Indonesian text contained in the website in the form of news articles, then the K-Nearest Neighbor method will classify directly to the learning data in order to determine the model that will be established by the Support Vector Machine method for determining the category of the new data to be determined categories of textual, the class of sentiment is positive, negative and neutral. Based on the test results, that influence the value of k in the k-fold cross validation is too small resulting in low accuracy, while too large values of k produce great accuracy value, then the value of k on the Influence of K-NN to accuracy, if n has an accuracy low when the value of k is small. This is because, the incoming data on the k nearest

neighbor too little and can not represent a class on test data.

(11)

DAFTAR ISI

Halaman

HALAMAN JUDUL i

PERSETUJUAN ii

PERNYATAAN ORISINALITAS iii

PERSETUJUAN PUBLIKASI iv

PANITIA PENGUJI v

RIWAYAT HIDUP vi

UCAPAN TERIMA KASIH vii

ABSTRAK viii

ABSTRACT ix

DAFTAR ISI x

DAFTAR TABEL xii

DAFTAR GAMBAR xiii

BAB 1 PENDAHULUAN 1

1.1. Latar Belakang 1

1.2. Rumusan Masalah 2

1.3. Batasan Masalah 2

1.4. Tujuan Penelitian 3

1.5. Manfaat Penelitian 3

BAB 2 LANDASAN TEORI 4

2.1. Text Mining 4

2.2. Sentiment Analysis 6

2.3. Support Vector Machine (SVM) 11

2.3.1. Konsep Support Vector Machine (SVM) 11

2.3.2. Klasifikasi Data Linear Separable 13

2.3.3. Klasifikasi Data Linear Non-Separable 14

2.3.4. Klasifikasi Data Non-Linear 14

2.3.5. Metode Kernel 15

2.3.6. Algoritma SVM untuk Menganalisis Dokumen Web 17

2.3.7. Karakterisitik Support Vector Machine (SVM) 18 2.3.8. Kelebihan Support Vector Machine (SVM) 19

2.3.9. Kelemahan Support Vector Machine (SVM) 19

2.4. K-Nearest Neighbor (K-NN) 20

2.4.1. Konsep K-Nearest Neighbor (K-NN) 20 2.4.2. Algoritma K-NN untuk Menganalisis Dokumen Web 23

2.4.3. Kelebihan K-Nea rest Neighbor (K-NN) 23

2.4.4. Kelemahan K-Nearest Neighbor (K-NN) 23

2.5. K-Fold Cross Validation 23

2.6. Riset Terkait 25

2.7. Perbedaan dengan Riset yang lain 26

(12)

BAB 3 METODOLOGI PENELITIAN 27

3.1. Identifikasi Masalah 27

3.2. Proses Analisis Sentimen pada Dokumen 27

3.3. Pengumpulan Data 28

3.4. Pre-Processing 29

3.4.1. Cleaning 29

3.4.2. Case Folding 30

3.5. Ekstraksi Fitur 30

3.5.1. Tokenization 30

3.5.2. Stopwords Removing 31

3.5.3. Stemming 32

3.6. Pembobotan Term 33

3.7. Pembelajaran dan Analisis 36

3.7.1. Rancangan Analisis Dokumen dengan K-NN 36 3.7.2. Rancangan Analisis Dokumen dengan SVM 41 3.8. Validasi dengan K-Fold Cross Validation 45

BAB 4 HASIL DAN PEMBAHASAN 47

4.1. Tentang Penelitian 47

4.2. Implementasi Metode K-NN dan Support Vector Machine 48

4.2.1. Persiapan Data 48

4.2.2. Proses Analisis 48

4.2.3. Antar Muka Sistem 49

4.3. Hasil dan Pembahasan Percobaan 52

4.3.1. Hasil dan Pembahasan Percobaan dengan Metode K-NN dan SVM

untuk data Berbahasa Indonesia 52

4.3.2 Pengaruh Pemilihan Nilai K pada K-NN 65

4.3.3 Akurasi K-Fold Cross Validation 66

BAB 5 KESIMPULAN DAN SARAN 69

5.1. Kesimpulan 69

5.2. Saran 70

DAFTAR PUSTAKA 71

LAMPIRAN 74

(13)

DAFTAR TABEL

Halaman

Tabel 2.1. Daftar Prefiks yang Meluluh 9

Tabel 2.2. Daftar Kemungkinan Perubahan Prefiks 9

Tabel 2.3. Daftar Kombinasi Prefiks dan Sufiks yang Tidak Diperbolehkan 10 Tabel 2.4. Rangkuman Penelitian Sentiment Analysis Sebelumnya 25

Tabel 3.1. Jumlah Frekuensi tiap Term 35

Tabel 3.2. Bobot Term 35

Tabel 3.3. Hitung Perkalian Skalar 39

Tabel 3.3. Hitung Panjang Vektor 40

Tabel 4.1. Spesifikasi Perangkat Keras 47

Tabel 4.2. Kata Positif pada Dokumen Positif 53

Tabel 4.3. Kata Negatif pada Dokumen Positif 54

Tabel 4.4. Kata Positif pada Dokumen Negatif 56

Tabel 4.5. Kata Negatif pada Dokumen Negatif 56

Tabel 4.6. Kata Positif pada Dokumen Netral 59

Tabel 4.7. Kata Negatif pada Dokumen Netral 59

Tabel 4.8. Persentase (%) Analisis Sentimen K-NN 61

Tabel 4.9. Jumlah Dokumen Hasil Analisis Sentimen K-NN 61

Tabel 4.10. Akurasi dan Waktu Proses K-NN dalam Menganalisis Sentimen 61

Tabel 4.11. Persentase (%) Analisis Sentimen SVM 62

Tabel 4.12. Jumlah Dokumen Hasil Analisis Sentimen K-NN 62

Tabel 4.13. Akurasi dan Waktu Proses SVM dalam Menganalisis Sentimen 63 Tabel 4.14. Hasil Rata-rata Semua Fold Cross Validation pada SVM dan K-NN

(14)

DAFTAR GAMBAR

Halaman

Gambar 2.1. Hyperplane (Bidang Pemisah) 14

Gambar 2.2. Transformasi dari vektor input ke feature space 15 Gambar 2.3. Suatu Kernel map mengubah problem yang tidak linier menjadi

Linier dalam space baru 16

Gambar 2.4. Ilustrasi Data dipisahkan dalam kasus XOR 18 Gambar 2.5. Delapan titik dalam satu dimensi dan estimasi densitas

K-NN dengan k=3 dan k=5 22 Gambar 2.6. K-NN mengestimasi densitas dua dimensi dengan k=5 22 Gambar 3.1. Proses Analisis Sentimen 27

Gambar 3.2. Pseudocode Cra wling 28

Gambar 3.3. Pseudocode Cleaning 29

Gambar 3.4. Pseudocode Case Folding 30

Gambar 3.5. Pseudocode Tokenization 30

Gambar 3.6. Pseudocode Stopwords Removing 31

Gambar 3.7. Pseudocode Stemming 32

Gambar 3.8. Term Documents Matrix 33

Gambar 3.9. Pseudocode Pembobotan Term 34

Gambar 3.10. Diagram Alir K-NN 37

Gambar 3.11. Pseudocode Analisis Menggunakan K-NN 38

Gambar 3.12. Diagram Alir SVM 42

Gambar 3.13. Pseudocode Analisis Menggunakan SVM 44

Gambar 3.14. Fungsi Pemisah antara Dokumen Relevan dan Tidak Relevan 45

Gambar 3.15. Pseudocode K-Fold Cross Validation 46

Gambar 4.1. Tampilan Beranda 49

Gambar 4.2. Tampilan Sub Menu “Kelola Data” 50

Gambar 4.3. Tampilan Menu “Tambah” 50

Gambar 4.4. Tampilan Sub Menu “Analisis Sentimen” 51

Gambar 4.5. Dokumen Positif 53

Gambar 4.6. Dokumen Negatif 54

Gambar 4.7. Dokumen Netral 55

Gambar 4.8. Jumlah Dokumen Positif, Negatif dan Netral Hasil Analisis

Sentimen 59

Gambar 4.9. Akurasi Rata-Rata K-NN dan SVM dalam Menganalisis Sentimen 59

Gambar 4.10. Waktu Rata-Rata K-NN dan SVM Menganalisis Sentimen 60

Gambar 4.11. Pengaruh Nilai k pada K-NN terhadap Akurasi 61

Gambar 4.12. Hasil Pengujian Konfigurasi Niilai k pada K-Fold Cross Validation

(15)

(16)