• Tidak ada hasil yang ditemukan

ANALISIS SENTIMEN REVIEW

N/A
N/A
Protected

Academic year: 2022

Membagikan "ANALISIS SENTIMEN REVIEW"

Copied!
65
0
0

Teks penuh

(1)

ANALISIS SENTIMEN REVIEW KOSMETIK PADA WEBSITE FEMALEDAILY MENGGUNAKAN METODE NAIVE BAYES

DAN SUPPORT VECTOR MACHINE BERBASIS PARTICLE SWARM OPTIMIZATION

TESIS

Diajukan sebagai salah satu syarat untuk memperoleh gelar Ilmu Komputer (S2) (M.Kom)

ZULIA IMAMI ALFIANTI 14002144

PROGRAM PASCASARJANA MAGISTER ILMU KOMPUTER SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER

NUSA MANDIRI JAKARTA

2019

(2)

iii

(3)

iv

(4)

v

Puji syukur alhamdulillah, penulis panjatkan kehadirat Allah SWT, yang telah melimpahkan rahmat dan karuinia-Nya, sehingga pada akhirnya penulis dapat menyelesaikan tesis ini tepat pada waktunya. Tesis ini penulis sajikan dalam bentuk buku yang sederhana. Adapun judul tesis, yang penulis ambil sebagai berikut

“Analisis Sentimen Review Kosmetik pada Website Femaledaily Menggunakan Metode Naive Bayes dan Support Vector Machine berbasis Particle Swarm Optimization”.

Tujuan penulisan tesis ini dibuat sebagai salah satu syarat untuk mendapatkan gelar Ilmu Komputer (S2) (M.Kom) pada Program Studi Ilmu Komputer (S2) Sekolah Tinggi Manajemen Informatika dan Komputer Nusa Mandiri.

Tesis ini diambil berdasarkan hasil penelitian mengenai analisis sentimen review kosmetik pada website femaledaily menggunakan metode Naive bayes dan Support Vector Machine berbasis Particle Swarm Optimization. Penulis juga mencari dan menganalisa berbagai macam sumber referensi, baik dalam bentuk jurnal ilmiah, buku-buku leteratur, internet dll yang terkait dengan pembahasan pada tesis ini.

Penulis menyadari bahwa tanpa bimbingan dan dukungan dari semua pihak dalam pembuatan tesis ini, maka penulis tidak dapat menyelesaikan tesis ini tepat pada waktunya. Untuk itu ijinlakanlah penulis dalam kesempatan ini untuk mengucapkan terima kasih yang sebesar-besarnya kepada :

1. Ibu Dr. Dwiza Riana, S.Si, MM, M.Kom selaku Ketua STMIK Nusa Mandiri.

2. Bapak Dr. Yan Riyanto, M.Eng selaku Dosen Pembimbing Tesis.

3. Kedua Orang tua tercinta yang selalu memberikan dukungan moral dan material kepada penulis.

4. Eka Pramudita Julianto yang selalu memberikan semangat dan dukungan dalam pembuatan Tesis ini.

5. Teman-teman seperjuangan Ginabila, Elva Mardiyani dan Risca Lusiana yang selalu mendukung dalam pengerjaan tesis ini.

(5)

vi

6. Seluruh staf pengajar (Dosen) program studi Ilmu Komputer STMIK Nusa Mandiri yang telah memberikan pelajaran yang berarti bagi penulis selama menempuh studi.

7. Seluruh staf dan karyawan Universitas Bina Sarana Informatika.

Serta semua pihak yang tidak dapat penulis sebutkan satu-persatu sehingga terwujudnya penulisan tesis ini. Penulis menyadari bahwa penulisan tesis ini.

Penulis menyadari bahwa penulisan tesis ini masih jauh dari sempurna, untuk itu penulis mohon kritik dan saran yang bersifat membangun demi kesempurnaan penulisan karya ilmiah yang penulis hasilkan untuk yang akan datang.

akhir kata semoga tesis ini dapat bermanfaat bagi penulis khususnya bagi para pembaca yang berminat pada umumnya.

Jakarta, 23 Agustus 2019

Zulia Imami Alfianti Penulis

(6)

vii

(7)

viii

ABSTRAK

Nama : Zulia Imami Alfianti

NIM : 14002144

Program Studi : Ilmu Komputer (S2) Jenjang : Strata Dua (S2)

Konsentrasi : Software Engineering (SE)

Judul Tesis :“Analisis Sentimen Review Kosmetik pada Website Femaledialy Menggunakan Metode Naive Bayes dan Support Vector Machine Berbasis Particle Swarm Optimization”

Analisis sentimen adalah sebuah bidang pendekatan yang pemecahan masalahnya dengan menggunakan tinjauan dari berbagai sudut pandang ilmu serumpun secara relevan dan terpadu.Membaca review sebelum membeli produk merupakan hal yang sangat penting untuk mengetahui kekurangan dan kelebihan produk yang akan kita gunakan, selain iu membaca review kosmetik dapat mengetahui kualitas brand kosmetik tersebut layak atau tidak untuk digunakan. Sebelum konsumen memutuskan untuk membeli kosmetik sebaiknya konsumen mengetahui dengan detail produk yang akan dibeli, hal ini dapat dipelajari dari testimoni dan opini atau hasil review dari konsumen yang sudah membeli dan menggunakan produk sebelumnya.

Penerapan optimasi PSO dapat meningkatkan akurasi algorima SVM dan Naive Bayes dapat meningkatkan akurasi dan memberikan solusi terhadap permasalahan klasifikasi review agar lebih akurat dan optimal.

Perbandingan akurasi yang dihasilkan dari pengujian data ini yaitu: Algoritma Support Vector Machine sebesar 89.20% dan AUC sebesar 0.973, kemudian dibandingkan dengan Support Vector Machine berbasis Particle Swarm Optimization dengan akurasi 94.60% dan AUC sebesar 0.985. Hasil pengujian data untuk algoritma Naive Bayes akurasinya adalah 88.50% dan AUC yaitu 0.536, kemudian dibandingkan akurasinya dengan Naive Bayes berbasis Particle Swarm Optimization sebesar 91.10% dan AUC sebesar 0.692.

Kata Kunci : Analisis Sentimen, Naive Bayes, SVM, Particle Swarm Optimization

(8)

ix Name : Zulia Imami Alfianti

NIM : 14002144

Study of Program : Ilmu Komputer (S2) Levels : Strata Dua (S2)

Concentration : Software Engineering (SE)

Title :“Analisis Sentimen Review Kosmetik pada Website Femaledialy Menggunakan Metode Naive Bayes dan Support Vector Machine Berbasis Particle Swarm Optimization”

Sentiment analysis is an area of approach that solves the problem by using a review from various standpoints of allied science in a relevant and integrated way. Reading a review before buying a product is very important to know the advantages and disadvantages of the products we will use, in addition to reading a cosmetic review can know the quality of the cosmetic brand is feasible or not to be used. Before consumers decide to buy cosmetics, consumers should know in detail the products to be purchased, this can be learned from the testimonials and opinions or the results of reviews from consumers who have bought and before used the product.

The application of PSO optimization can improve the accuracy of the SVM algorithm and Naive Bayes can improve accuracy and provide solutions to the problem of review classification to be more accurate and optimal.

Comparison of accuracy resulting from testing this data are: Support Vector Machine Algorithm of 89.20% and AUC of 0.973, then compared with Support Vector Machine based on Particle Swarm Optimization with an accuracy of 94.60%

and AUC of 0.985. The test results for the Naive Bayes algorithm are 88.50%

accuracy and AUC is 0.536, then its accuracy is compared with Naive Bayes based on Particle Swarm Optimization by 91.10% and AUC by 0.692.

Keywords : Sentiment Analisys, Naive Bayes, SVM, Particle Swarm Optimization

(9)

x

DAFTAR ISI

Halaman

HALAMAN SAMPUL ... i

HALAMAN JUDUL ... ii

HALAMAN PERNYATAAN ORISINALITAS ... iii

HALAMAN PENGESAHAN ... iv

KATA PENGANTAR ... v

HALAMAN PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS ... vii

ABTRAK... ... vii

ABSTRACT ... ... ix

DAFTAR ISI ... ... x

DAFTAR TABEL ... ... xiii

DAFTAR GAMBAR .... ... xiv

DAFTAR LAMPIRAN ... ... xv

BAB 1. PENDAHULUAN ... 1

1.1. Latar Belakang Penulisan ... 1

1.2. Permasalahan Penelitian ... 1

1.2.1. Identifikasi Masalah ... 2

1.2.2. Batasan Masalah ... 2

1.2.3. Rumusan Masalah ... 2

1.3. Manfaat Tujuan Penulisan ... 3

1.4. Ruang Lingkup Penelitian ... 3

1.5. Sistematika Penulisan ... ... 4

BAB 2.1 LANDASAN TEORI ... 5

2.1. Tinjauan Pustaka ... ... 5

2.1.1 Text Mining ... 6

2.1.2. Analisis Sentimen ... 8

2.1.3. Rapid Miner ... 8

(10)

xi

2.1.5.1. Naive Bayes ... 9

2.1.5.2. Support Vector Machine ... 10

2.1.6. Particle Swarm Optimization ... 13

2.1.7. Validasi dan Evaluasi Algoritma ... 14

2.2. Tinjauan Studi dan Penelitian Terdahulu ... 14

2.3. Tinjauan Objek Penelitian ... 20

2.3.1. Review / Ulasan Mengenai Kosmetik ... 20

2.4. Kerangka Pemikiran ... 21

BAB 3 METODE PENELITIAN... 23

3.1. Perancangan Penelitian ... 23

3.2. Pengolahan Data ... 24

3.3. Pengolahan Data Awal ... 25

3.4. Metode yang Diusulkan ... 27

3.5. Eksperimen dan Hasil Pengujian ... 27

3.6. Evaluasi dan Validasi Hasil ... 27

BAB 4 HASIL PENELITIAN DAN PEMBAHASAN ... 28

4.1. Hasil Penelitian ... 28

4.1.1. Klasifikasi Text Menggunakan Algoritma Naive Bayes dan Support Vector Machine ... 32

4.2. Analisis Evaluasi Hasil dan Validasi Model ... 32

4.2.1. Hasil Pengujian Metode Support Vector Machine ... 34

4.2.2. Hasil Pengujian Metode Support Vector Machine Berbasis Particle Swarm Optimization ... 34

4.2.3. Hasil Pengujian Model Metode Naive Bayes ... 40

4.2.4. Hasil Pengujian Model Metode Naive Bayes berbasis Particle Swarm Optimization ... 42

4.3. Pembahasan ... 44

BAB 5 KESIMPULAN ... 48

5.1. Kesimpulan ... 48

5.2. Saran ... ... 48

(11)

xii

DAFTAR REFERENSI ... 49

(12)

Program Studi Ilmu Komputer STMIK Nusa Mandiri

xv

DAFTAR LAMPIRAN

Halaman 1. Lampiran A.1 Daftar Riwayat Hidup ... 50 2. Lampiran A.2 Lembar Bimbingan ... 51 3. Lampiran A.3 Dataser ... 52

(13)

xiii

DAFTAR TABEL

Halaman

Tabel 2.1. Perbandingan Hasil Klasifikasi ... 15

Tabel 2.2 Pengujian 10 Fold Cross Validation ... 16

Tabel 2.3. Model Confusion Matrix UntukMetode Naïve Bayes Classifier Berbasis Particle Swarm Optimization ... 16

Tabel 2.4. Perbandingan Hasil Klasifikasi ... 18

Tabel 2.5. Pengujian Algoritma SVM dan SVM berbasis PSO ... 19

Tabel 2.6. Rangkuman Penelitian Terkait ... 19

Tabel 4.1. Proses Stopword Removal ... 29

Tabel 4.2. Proses Stemming ... 30

Tabel 4.3. Proses Tokenizing ... 30

Tabel 4.4. Proses Filter Tokens (By Length) ... 31

Tabel 4.5. Confusion Matrix Support Vector Machine ... 36

Tabel 4.6. Confusion Matrix Support Vector Machine Particle Swarm Optimization ... 38

Tabel 4.7. Confusion Matrix dengan Model Naive Bayes ... 41

Tabel 4.8 Confusion Matrix Naive Bayes Particle Swarm Optimization ... 44

Tabel 4.9. Komparasi Accuracy dan AUC Algoritma Klasifikasi ... 45

(14)

xiv

Halaman

Gambar 3.1. Contoh komentar positif ... 24

Gambar 3.2. Contoh komentar negatif ... 25

Gambar 4.1. Website femaledaily.com ... 29

Gambar 4.2. Desain model (preprocessing) menggunakan RapidMiner ... 32

Gambar 4.3. Desain Model Support Vector Machine PSO ... 33

Gambar 4.4. Desain Model Naive Bayes PSO ... 33

Gambar 4.5. Model Pengujian Support Vector Machine ... 34

Gambar 4.6. Kurva ROC Support Vector Machine ... 35

Gambar 4.7. Model Pengujian Support Vector Machine berbasis Particle SwarmOptimization ... 37

Gambar 4.8. Kurva ROC Support Vector Machine berbasis Particle Swarm Optimization ... ... Gambar 4.9. Model Pengujian Naive Bayes ... 40

Gambar 4.10. Kurva ROC Naive Bayes ... 41

Gambar 4.11. Model Pengujian Naive Bayes berbasis Particle Swarm Optimization ... 43

Gambar 4.12. Kurva ROC Naive Bayes berbasis PSO ... 43

Gambar 4.13. Komparasi Accuracy Algoritma Klasifikasi ... 45

Gambar 4.14. Komparasi AUC Algoritma Klasifikasi ... 46

(15)

Program Studi Ilmu Komputer STMIK Nusa Mandiri

1

BAB I

PENDAHULUAN

1.1. Latar belakang

Penggunaan internet saat ini semakin pesat, ditambah dengan perilaku individu yang sangat bergantung terhadap internet mendorong semua aspek memiliki inovasi dalam berbagai kepentingan. Saat ini banyak sekali konsumen yang menuangkan opini dalam media online. Membaca review sebelum membeli produk merupakan hal yang sangat penting untuk mengetahui kekurangan dan kelebihan produk yang akan kita gunakan, selain iu membaca review kosmetik dapat mengetahui kualitas brand kosmetik tersebut layak atau tidak untuk digunakan. Sebelum konsumen memutuskan untuk membeli kosmetik sebaiknya konsumen mengetahui dengan detail produk yang akan dibeli, hal ini dapat dipelajari dari testimoni dan opini atau hasil review dari konsumen yang sudah membeli dan menggunakan produk sebelumnya.

Analisis sentimen adalah bidang indisipliner, sebuah bidang pendekatan pemecahan masalahnya dengan menggunakan tinjauan dari berbagai sudut pandang ilmu serumpun secara relevan dan terpadu. Analisis sentimen terdiri dari pemrosesan bahasa alami, analisis teks dan komputasi linguistik untuk mengidentifikasi sentimen dari suatu dokumen (Vinodhini, 2015). Teknik klasifikasi yang biasa digunakan untuk analisis sentimen review diantaranya Naïve Bayes, Support Vector Machine (SVM) dan K-Nearest Neighbor (KNN). Terdapat beberapa penelitian yang sudah dilakukan dalam melakukan klasifikasi sentimen terhadap review yang tersedia secara online diantaranya Text Mining Untuk Analisis Sentimen Review Film Menggunakan Algoritma K-Means, Analisis Sentimen Pada Review Konsumen Menggunakan Metode Naive Bayes Dengan Seleksi Fitur Chi Square Untuk Rekomendasi Lokasi Makanan Tradisional.

(16)

Program Studi Ilmu Komputer STMIK Nusa Mandiri

1.2. Permasalahan Penelitian

Permasalahan penelitian yang ada pada klasifikasi Support Vector Machine dan Naive Bayes terbagi menjadi tiga bagian yaitu :

1.2.1. Identifikasi Masalah

Identifikasi masalah dalam penelitian yang akan dilakukan menggunakan metode Naive Bayes dan Support Vector Machine berbasis Particle Swarm Optimization antara lain :

1. Banyak review tentang produk baik review positif maupun review negatif sehingga perlu diuji kebenarannya.

2. Teknik algoritma yang digunakan untuk klasifikasi dalam sentimen review diantaranya Naive Bayes dan Support Vector Machine kemudian digunakan penerapan fitur Particle Swarm Optimization untuk memperoleh hasil yang lebih tinggi.

3. Naive Bayes classifier merupakan algoritma yang digunakan untuk mencari nilaiprobabilitas tertinggi untuk mengklasifikasi data uji pada kategori yang paling tepat.

4. Support Vector Machine dapat menyelesaikan masalah klasifikasi, tetapi Support Vector Machine memiliki kelemahan pada sulitnya pemilihan fitur yang sesuai dan optimal pada bobot atribut yang digunakan sehingga menyebabkan tingkat akurasi klasifikasi menjadi rendah. SVM memiliki kelebihan yaitu mampu mengidentifikasi hyperplane terpisah yang memaksimalkan margin antara dua kelas yang berbeda

1.2.2. Batasan Masalah

Pembahasan masalah pada penelitian ini yaitu pemilihan seleksi fitur untuk mendapatkan nilai akurasi Naive Bayes dan Support Vector Machine menggunakan fitur Particle Swarm Optimization serta membandingkan akurasi yang paling tinggi utnuk analisis sentimen review kosmetik di website femaledialy.com dengan mengambil tiga merk kosmetik yang paling sering digunakan pada saat ini dan memiliki review atau ulasan terbanyak

1.2.3. Rumusan Masalah

(17)

3

Program Studi Ilmu Komputer STMIK Nusa Mandiri

Rumusan masalah yang terdapat pada penelitian ini adalah sebagai berikut : 1. Bagaimana perbandingan akurasi yang akan dihasilkan diantara Support

Vector Machine berbasis Particle Swarm Optimization dan Naive Bayes berbasis Particle Swarm Optimization.

2. Penelitian ini mencoba menganalisis ulasan dari masyarakat mengenai kosmetik melalui analisis sentimen dan diklasifikasikan menjadi dua kelas yaitu positif dan negatif.

1.3. Manfaat dan Tujuan Penelitian

Ulasan atau dokumen Word of Mouth mengenai kosmetik di website femaledialy.com jumlahnya sangat banyak di internet, karenasemua orang bebas untuk menuliskan pendapat mereka. Maka dari itu dipilihlah website sfemaledialy.com sebagai sumber data dalampenelitian ini karena femaledaily.com adalah website yang menyediakan berbagai informasi mengenai berbagai jenis kosmetik dari berbagai merk. Dengan demikian penelitian ini mencoba menganalisis ulasan dari masyarakat mengenai kosmetik melalui analisis sentimen dan diklasifikasikan menjadi dua kelas yaitu positif dan negatif.

Tujuan dari penelitian ini adalah untuk memperoleh dan mendeteksi besarnya efek penerapan metode pemilihan fitur Particle Swarm Optimization dalam menganalisa sentimen pada website atau opini publik tentang kosmetik dengan menggunakan Support Vector Machine dan Naive Bayes sehingga dapat dihasilkanakurasi tertinggi serta memilih akurasi yang terbaik dari kedua model yangdiusulkan.

1.4. Ruang Lingkup Penelitian

Ruang lingkup penelitian ini dibatasi pada penerapan algoritma Support vector machine dan Naive Bayes berbasis Particle Swarm Optimization dengan penjelasan sebagai berikut:

1. Data yang digunakan yaitu komentar dari review kosmetik di website femaledialy.com tentang empat pruduk kosmetik yang sangat populer yaitu wardah, emina, dan maybelline yang memiliki ulasan atau review terbanyak.

(18)

Program Studi Ilmu Komputer STMIK Nusa Mandiri 2. Metode algoritma Support Vector Machine dan Naive Bayes berbasis Particle

Swarm Optimization akan digunakan sebagaibaseline pada penelitian ini.

1.5. Sistematika Penulisan

Sistematika penulisan yang digunakan dalam penulisan tesis ini adalah sebagai berikut :

BAB I PENDAHULUAN

Membahas mengenai latar belakang penulisan, permasalahan penelitian, manfaat dan tujuan penelitian.

BAB II LANDASAN TEORI

Bab ini membahas tentang landasan teori yang melandasi penelitian yangmencakup tinjauan studi dan tinjauan pustaka serta teori-teori lainnya yangmendukung dalam proses penelitian ini.

BAB III METODOLOGI PENELITIAN

Bab ini berisi tentang metode penelitian yang membahas tentang perancangan metode penelitian serta konsep dari penelitian yang nantinyaakan digunakan sebagai solusi dalam penyelesaian masalah yang diangkatdalam penelitian ini.

BAB IV HASIL DAN PEMBAHASAN

Menampilkan hasil dari eksperimen, baik sebelum maupun sesudah model diterapkan. Membandingkan hasil dari kedua model untuk melihat tingkatakurasi yang paling tinggi.

BAB V PENUTUP

Membahas kesimpulan dan kekurangan penelitian, serta kelebihan dari model yang digunakan.

(19)

Program Studi Ilmu Komputer STMIK Nusa Mandiri

5

BAB II

LANDASAN TEORI

2.1. Tinjauan Pustaka 2.1.1. Text Mining

Menurut Chandra, (2016, p.12) Text mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks. Proses penganalisisan teks ini berguna untuk mencari informasi yang bermanfaat untuk tujuan tertentu. Pada dasarnya, text mining merupakan bidanginterdisiplin yang mengacu pada perolehan informasi (information retrieval), data mining, pembelajaran mesin (machine learning), statistik, dan komputasilinguistic.

Penambangan teks (bahasa inggris: text mining) adalah proses ekstraksi pola berupa informasi dan pengetahuan yang berguna dari sejumlah besar sumber data teks, seperti dokumen Word, PDF, kutipanteks, dll. Jenis masukan untuk penambangan teks ini disebut data tidak terstruktur dan merupakan pembeda utama dengan penambangan data yang menggunakan data terstruktur atau basis data sebagai masukan. Penambangan teks dapat dianggap sebagai proses dua tahap yang diawali dengan penerapan struktur terhadap sumber data teks dan dilanjutkan dengan ekstraksi informasi dan pengetahuan yang relevansi data teks terstruktur ini dengan menggunakan teknik dan alat yang sama dengan penambangan data. Proses yang umum dilakukan oleh penambangan teks diantaranya adalah perangkuman otomatis, kategorisasi dokumen, penggugusan teks, dan lain-lain. Text mining adalah salah satu bidang khusus dari data mining. Text mining dapat didefinisikan sebagai suatu proses menggali informasi dimana seorang pengguna berinteraksi dengan sekumpulan dokumen menggunakan tools analisis, yang merupakan komponen-komponen dalam data mining salah satunya adalah klasifikasi. Dari pendapat ahli diatas, maka dapat disimpulkan bahwa text mining adalah informasi terstruktur yang digunakan untuk menganalisis atau mengelompokkan dokumen atau teks dari sejumlah besar dokumen atau teks.

Beberapa tahun terakhir, penggunaan dan penelitian mengenai text mining

(20)

Program Studi Ilmu Komputer STMIK Nusa Mandiri

telah banyak mendapat perhatian dan aktif dilakukan seiring dengan semakin banyaknya data teks yang diperoleh dari berbagai jaringan sosial, web, dan aplikasi lainnya. Sebagian besar informasi teks yang disimpan tersebut seperti artikel berita, makalah, buku, perpustakaan digital, pesan email, blog, status di sosial media dan halaman web.

2.1.2. Analisa Sentimen

Analisis sentimen adalah bidang indisipliner, sebuah bidang dimana pendekatan pemecahan masalahnya dengan menggunakan tinjauan dari berbagai sudut pandang ilmu serumpun secara relevan dan terpadu. Analisis sentimen terdiri dari pemrosesan bahasa alami, analisis teks dan komputasi linguistik untuk mengidentifikasi sentimen dari suatu dokumen (Vinodhini, 2015).

Dalam beberapa tahun terakhir kita telah menyaksikan Analisa Sentimen dan Opini Pertambangan menjadi topik semakin populer di information retrieval dan analisis data web. Analisis sentimen atau pertambangan opini terdiri dari berbagai bidang seperti pengolahan bahasa alami, pertambangan teks, pengambilan keputusan dan linguistik. Analisis sentimen adalah jenis analisis teks yang mengklasifikasikan teks dan membuat keputusan dengan mengekstraksi dan menganalisis teks. Pendapat dapat dikategorikan sebagai positif dan negatif dan mengukur tingkat positif atau negatif yang terkait dengan acara (orang, organisasi, isu-isu sosial).

Analisa sentimen atau opinion mining adalah studi komputasi mengenai pendapat, perilaku dan emosi seseorang terhadap entitas. Entitas tersebut dapat menggambarkan individu, kejadian atau topik. Topik tersebut kemungkinan besar dapat berupa review (Medhat, dkk. 2014). Tugas dasar dalam analisis sentimen adalah mengelompokkan polaritas dari teks yang ada dalam dokumen, kalimat, atau pendapar.

Polaritas mempunyai arti apakah teks yang ada dalam dokumen, kalimat, atau pendapat memiliki aspek positif atau negatif.

Dari lima pendapat ahli diatas, maka dapat disimpulkan bahwa analisa sentimen atau sentiment analysis adalah jenis analisis teks yang mengklasifikasikan

(21)

7

Program Studi Ilmu Komputer STMIK Nusa Mandiri

teks dengan mengkategorikan teks sebagai positif atau negatif dan mengukur tingkat positif atau negatif yang terkait dengan suatu kejadian.

Langkah-langkah yang umumnya ditemukan pada kalsifikasi tekx analisa sentimen adalah :

1. Definisikan domain dataset

Pengumpulan dataset yang melingkupi suatu domain, misalnya dataset review film, dataset eview produk, dan lain sebagainya.

2. Preprocessing

Preprocessing bertujuan untuk mempersiapkan teks menjadi data yang akan mengalami pengolahan pada tahap berikutnya. Tahap pemrosesan awal yang umumnya dilakukan dengan proses Tokenization , stopwords removal, dan stemming.

3. Transfromation

Pada tahap ini hasil yang diperoleh dari tahap text preprocessing akan melalui proses transformasi. Proses representasi angka yang dihitung dari data tekstual. Binary representation yang umumnya digunakan dan hanya menghitung kehadiran dan ketidakhadiran sebuah kata di dalam dokumen. Berapa kali sebuah kata muncul di dalam suatu dokumen juga digunakan skema pembobotan dari data tekstual. Proses yang umumnya digunakan yaitu TF-IDF, Binary transformation, dan Frequency transformation.

4. Feature Selection

Pemilihan fitur (feature selection) bisa membuat pengklasifikasi lebih efisien/efektif dengan mengurangi jumlah data untuk dianalisa dengan mengidentifikasi fitur yang relevan yang selanjutnya akan diproses. Metode pemilihan fitur yang biasanya digunakan adalah Expert Knowledge, Minimum Frequency, Information gain, Chi-Square, dan lain sebagainya.

5. Classification

Classification adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data dengan tujuan untuk memperkirakan kelas yang tidak diketahui dari suatu objek. Proses klasifikasi umumnya menggunakan pengklasifikasi seperti Naïve Bayes, Support Vector Machine, dan lain sebagainya.

(22)

Program Studi Ilmu Komputer STMIK Nusa Mandiri

6. Interpretation/Evaluation

Tahap evaluasi biasanya menghitung akurasi, recall, precision, dan F-1.

2.1.3. RapidMiner

RapidMiner merupakan perangakat lunak yang bersifat terbuka (open source). RapidMiner adalahsebuah solusi untuk melakukan analisis terhadap data mining, text mining dan analisis prediksi. RapidMiner menggunakan berbagai teknik deskriptif dan prediksi dalam memberikan wawasan kepada pengguna sehingga dapat membuat keputusan yang paling baik.RapidMiner memiliki kurang lebih 500 operator data mining, termasuk operator untuk input, output, data preprocessing dan visualisasi. RapidMiner merupakansoftware yang berdiri sendiri untuk analisis data dan sebagai mesin data mining yang dapat diintegrasikan pada produknya sendiri. RapidMiner ditulis dengan munggunakan bahasa java sehingga dapat bekerja disemua sistem operasi ( Aprilla, C et al. 2013).

RapidMiner menyediakan GUI (Graphic User Interface) untuk merancang sebuah pipeline analitis.GUI ini akan menghasilkan file XML )Extensible Markup Language) yang mendefenisikan proses analitis keingginan pengguna untuk diterpkan ke data. File inikemudian dibaca oleh RapidMiner untuk menjalankan analis secara otomatis.

2.1.4. Pemilihan Fitur (Feature Selection)

Dalam penerapan text mining terhadap sekumpulan dokumen, kita mengenal istilah feature selection. Menurut Kristiyanti dan Wahyudi (2017, p.2) Seleksi Fitur adalah proses optimasi mengurangi jumlah data yang begitu besar untuk dikelompokan ke dalam beberapa bagian yang lebih kecil agar dapat meningkatkan klasifikasi akurasi secara signifikan, cepat dan efektif. Tahapan ini merupakan tahapan penting dalam text mining. Salah satu fungsi penting yang disediakan oleh proses ini adalah untuk dapat memilih term atau kata apa saja yang dapat disajikan sebagai wakil penting untuk kumpulan dokumen yang akan kita analisis.

(23)

9

Program Studi Ilmu Komputer STMIK Nusa Mandiri

2.1.5. Algoritma Klasifikasi (Classification Algorithm)

Klasifikasi merupakan salah satu peran utama dari text mining. Klasifikasi termasuk ke dalam supervised learning karena dalam proses klasifikasi terdapat proses pembelajaran dengan data lampau. Proses ini digunakan algoritma untuk mengenali pola dari data yang nantinya dapat diterapkan kepada data baru yang belum diketahui kelompoknya.

2.1.5.1. Naive Bayes

Menurut Chandra (2016, p. 13) Naive bayes classifier merupakan sebuah metode klasifikasi yang berakar pada teorema bayes. Metode pengklasifikasian dengan menggunakan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan inggris Thomas Bayes, yaitu memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya sehingga dikenal sebagai Teorema Bayes. Ciri utama dari naive bayes classifier ini adalah asumsi yang sangat kuat (naif) akan independensi dari masing-masing kondisi atau kejadian.

Misalnya, suatu objek dapat diklasifikasikan berdasarkan atributnya seperti bentuk, warna, dan berat. Klasifikasi yang masuk akal untuk sebuah benda yang bulat, kuning, dan kurang dari 60 gram beratnya mungkin bola tenis. Bahkan jika fitur-fitur ini bergantung satu sama lain atau pada keberadaan fitur-fitur lainnya, pengelompokan Naïve Bayes yang menganggap semua properti ini berkontribusi secara independen terhadap probabilitas bahwa objek tersebut adalah bola tenis.

Variabel input umumnya kategoris, tetapi variasi dari algoritma dapat menerima continuous variables. Ada juga cara untuk mengubah continuous variables menjadi categorical variable. Proses ini sering disebut sebagai diskretisasi continuous variables.

Dengan dua penyederhanaan, teorema Bayes dapat diperluas menjadi Naïve Bayes Classifier Penyederhanaan pertama adalah menggunakan asumsi

(24)

Program Studi Ilmu Komputer STMIK Nusa Mandiri

independensi bersyarat. Artinya, setiap atribut secara kondisional independen dari setiap atribut lain yang diberi label kelas ci.

Membangun Naïve Bayes Classifier membutuhkan pengetahuan statistik tertentu, semua dihitung dari set pelatihan. Persyaratan pertama adalah untuk mengumpulkan probabilitas dari semua label kelas. Hal kedua yang perlu diketahui oleh Naïve Bayes Classifier adalah probabilitas kondisional masing-masing atribut aj diberikan setiap label kelas.

2.5.1.2. Support Vector Machine

SVM merupakan metode supervised learning yang menganalisa data dan mengenali pola-pola yang digunakan untuk klasifikasi (Basari, 2013). Support Vector Machine (SVM) adalah kasus khusus dari keluarga algoritma yang disebut sebagai regularized metode klasifikasi linier dan metode yang kuat untuk meminimalisasi resiko (Weist, dkk. 2010). SVM memiliki kelebihan yaitu mampu mengidentifikasi hyperplane terpisah yang memaksimalkan margin antara dua kelas yang berbeda (Dehkharghani, 2014). Namun, Support Vector Machine memiliki kekurangan terhadap masalah pemilihan parameter atau fitur yang sesuai (Basari, 2013) . Pemilihan fitur sekaligus penyetingan parameter di SVM secara signifikan mempengaruhi hasil akurasi klasifikasi. Dalam masalah aplikasi tertentu, tidak semua fitur ini sama pentingnya. Kinerja yang lebih baik dapat dicapai dengan membuang beberapa fitur. Dengan demikian, dapat dihilangkannya data yang noise, data yang tidak relevan dan berlebihan.

SVM pada awalnya digunakan untuk klasifikasi data numerik, tetapi ternyata SVM juga sangat efektif dan cepat untuk menyelesaikan masalah masalah data teks. Data teks cocok untuk dilakukan klasifikasi dengan algoritma SVM karena sifat dasar teks yang cenderung mempunyai dimensi yang tinggi, dimana terdapat beberapa fitur yang tidak relevan, tetapi akan cenderung berkolerasi satu sama lain dan umumnya akan disusun dalam kategori yang terpisah secara linear.

(25)

11

Program Studi Ilmu Komputer STMIK Nusa Mandiri

SVM memiliki kelebihan yaitu mampu mengidentifikasi hyperplane terpisah yang memaksimalkan margin antara dua kelas yang berbeda. Namun SVM memiliki kekurangan terhadap masalah pemilihan parameteratau fitur yang sesuai (Basari et al. 2013). Pemilihan fitur sekaligus penyetinganparameter di SVM secara signifikan mempengaruhi hasil akurasi klasifikasi.

Gambar 2.1. SVM berusaha menemukan hyperplane terbaik yang memisahkan kedua class -1 dan +1

Konsep SVM dapat dijelaskan secara sederhana sebagai usaha mencari hyperplane terbaik yang berfungsi sebagai pemisah dua buah class pada input space. Gambar II.1 diatas memperlihatkan beberapa pattern yang merupakan anggota dari dua buah class : +1 dan -1. Pattern yang tergabung pada class -1 disimbolkan dengan warna merah (kotak), sedangkan pattern pada class +1, disimbolkan dengan warna kuning (lingkaran).

Problem klasifikasi dapat diterjemahkan dengan usaha menemukan garis (hyperplane) yang memisahkan antara kedua kelompok tersebut. Berbagai alternatif garis pemisah (discrimination boundaries) ditunjukkan pada gambar 2.1.

Hyperplane pemisah terbaik antara kedua class dapat ditemukan dengan mengukur margin hyperplane tersebut. Dan mencari titik maksimalnya. Margin adalah jarak antara hyperplane tersebut dengan pattern terdekat dari masingmasing class. Pattern yang paling dekat ini disebut sebagai support vector. Garis solid pada gambar sebelah kanan menunjukkan hyperplane yang terbaik, yaitu yang terletak tepat pada tengah-tengah kedua class, sedangkan titik merah dan kuning yang berada dalam lingkaran hitam adalah support vector. Usaha untuk

(26)

Program Studi Ilmu Komputer STMIK Nusa Mandiri

mencari lokasi hyperplane ini merupakan inti dari proses pembelajaran pada SVM.

Tujuan dari SVM adalah untuk memisahkan data kelas dengan cara maksimal margin hyperplane. Dengan demikian, SVM menjamin untuk memaksimalkan jarak antara data yang paling dekat dengan hyperplane. Jika input data dapat dipisahkan secara linear, pemisahan hyperplane dapat diberikan dalam persamaan:

f(X) = wTx + b (3) (2.1)

dimana w adalah n-dimensi bobot vektor dan b adalah pengali skalar atau nilai bias. Persamaan ini menemukan maksimum margin untuk memisahkan kelas dari kelas positif dari kelas negatif. Fungsi keputusan ditunjukkan dalam persamaan.

Contoh untuk data linear terpisah ditunjukkan pada Gambar 2.4:

yi (w x1 + b ) ≥ 1 i = 1... k (2.2)

Metode Support Vector Machine memiliki beberapa keuntungan yaitu : 1. Generalisasi

Generalisasi didefinisikan sebagai kemampuan suatu metode untuk mengklasifikasi suatu pattern atau pola, yang tidak termasuk data yang digunakan dalam fase pembelajaran metode itu.

2. Curse of dimensionaly

Curse of dimensionaly didefinisikan sebagai masalah yang dihadapi suatu metode pattern recognation dalam mengestimasikan parameter dikarenakan jumlah sampel data yang relatif lebihs edikit dibandingkan dengan dimensional ruang vektor tersebut.

3. Feasibility

Support Vector Machine dapat diimplementasikan relatif lebih mudah, karena proses penentuan Support Vector Machine dapat dirumuskan dalam Quadratic Programing (QP) problem.

(27)

13

Program Studi Ilmu Komputer STMIK Nusa Mandiri

2.1.6. Particle Swarm Optimization (PSO)

Particle Swarm Optimization (PSO) banyak digunakan untuk memecahkan masalah optimasi serta sebagai masalah seleksi fitur. Dalam teknik Particle Swarm Optimization (PSO) terdapat beberapa cara untuk melakukan pengoptimasian diantaranya meningkatkan bobot atribut (attribute weight) terhadap semua atribut atau variabel yang dipakai, menyeleksi atribut (attribute selection) dan feature selection. Particle Swarm Optimization (PSO) adalah suatu teknik optimasi yang sangat sederhana untuk menerapkan dan memodifikasi beberapa parameter [6].

Salah satu metode wrapper yang bisa digunakan dalam pemilihan fitur adalah Genetic algorithm (GA). Genetic algorithm mudah disejajarkan dan telah digunakan untuk klasifikasi seperti masalah optimasi lainnya. Dalam data mining, algoritma genetika dapat digunakan untuk mengevaluasi fitness algoritma lainnya.

2.1.7. Validasi dan Evaluasi Algoritma

Ada banyak metode yang digunakan untuk memvalidasi suatu model berdasarkan data yang ada, seperti holdout, random sub-sampling, crossvalidation, stratified sampling, bootstrap dan lain sebagainya. Diperlukan carayang sistematis untuk mengevaluasi kinerja dari suatu metode. Evaluasi klasifikasi didasarkan pengujian pada objek yang benar dan salah. Adapunvalidasi dan evaluasi algoritma yang digunakan dalam pengujian ini adalah:

1. Confusion matrix adalah alat yang sangat berguna untuk menganalisa seberapa baik pengklasifikasi bias mengenali tuple dari class yang berbeda.

Dalam confusion matrix dikenal beberapa istilah seperti True positive yang merujuk pada tuple positif yang secara benar dilabeli oleh pengklasifikasi, sementara True negative adalah tuple negatif yang secara benar dilabeli oleh pengklasifikasi.Confusion Matrix berisi informasi mengenai hasil klasifikasi.

(28)

Program Studi Ilmu Komputer STMIK Nusa Mandiri

Performa dari sistem tersebut biasanya dievaluasi menggunakan data dalam sebuah matrix.

2. Kurva ROC akan digunakan untuk mengukur Area Under Curve (AUC).

Kurva ROC membagi hasil positif dalam sumbu y dan hasil negative dalam sumbu x sehingga semakin besar area yang berada di bawah kurva, semakin baik pula hasil prediksi. Kurva Receiver Operasi Karakteristik (ROC) digunakan untuk mengevaluasi akurasi classifier dan untuk membandingkan klasifikasi yang berbeda model, sehingga semakin besar area yang berada di bawah kurva, semakin baik pula hasil prediksi.

2.2. Tinjauan Studi Penelitian Terdahulu yang Terkait 1. Model Penelitian Buntoro (2017)

Penelitian (Buntoro,2017) dengan judul Analisis Sentimen Calon Gubernur DKI Jakarta 2017 Di Twitter. Dari penelitian yang telah dilakukan, maka dapat ditarik kesimpulan bahwa Analisis Sentimen dapat digunakan untuk mengetahui sentimen masyarakat khususnya netizen Twitter terhadap calon Gubernur DKI Jakarta 2017.

Tujuannya membantu masyarakat menentukan sentimen yang terdapat pada twit opini Bahasa Indonesia yang ada di Twitter. Setelah dilakukan analisis sentimen, terlihat berapa banyak sentimen kepada calon Gubernur DKI Jakarta 2017. Nilai akurasi tertinggi didapat saat menggunakan metode klasifikasi Naïve Bayes Classifier (NBC) untuk klasifikasi data AHY, dengan nilai rata-rata akurasi mencapai 95%, nilai presisi 95%, nilai recall 95% nilai TP rate 96,8% dan nilai TN rate 84,6%. Dalam penelitian ini juga dapat diketahui metode klasifikasi Naïve Bayes Classifier (NBC) lebih tinggi akurasinya untuk klasifikasi sentimen Tweet Bahasa Indonesia dibandingkan dengan metode klasifikasi Support Vector Machine (SVM).

(29)

15

Program Studi Ilmu Komputer STMIK Nusa Mandiri

Tabel 2.1. Perbandingan Hasil Klasifikasi

2. Model Penelitian Rustiana, dkk (2017)

Rustiana, dkk (2017) dalam penelitiannya yang berjudul analisa sentimen otomotif mobil. Pada penelitian ini menganalisis data dari twitter dengan pencarian merk mobil yang terlaris berdasarkan data dari GAIKINDO (Gabungan Industri Kendaraan Bermotor Indonesia). Penelitian tersebut menggunakan metode naive bayes dan menghasilkan nilai akurasi 93%, serta persisi sentimen positif 90%, persisi sentimen negative 90%, dan persisi sentimen netral sebesar 100%. Proses klasifikasi semakin akurat jika data latih yang digunakan dalam pembelajaran berjumlah banyak, akan tetapi dapat juga mengurangi keakuratan jika kata-kata yang terdapat pada Tweet tersebut mengalami bias atau bermakna ganda.

3. Model Penelitian Nurhadi (2016)

Implementasi Algoritma Naïve Bayes Classifier Berbasis Particle Swarm Optimization (PSO) Untuk Klasifikasi Konten Berita Digital Bahasa Indonesia.

Dalam penelitian ini akan digunakan penggabungan metode pemilihan fitur, yaitu Particle Swarm Optimization berbasis Naïve Bayes Classifier untuk melihat akurasi pada metode tersebut. Penelitian ini menghasilkan klasifikasi teks dalam bentuk kategori gosip, kuliner, dan travel dari konten berita digital. Pengukuran

(30)

Program Studi Ilmu Komputer STMIK Nusa Mandiri

berdasarkan akurasi Naïve Bayes Classifier sebelum dan sesudah penambahan metode pemilihan fitur. Evaluasi dilakukan menggunakan 10 fold cross validation.

Sedangkan pengukuran akurasi diukur dengan confusion matrix. Hasil penelitian ini didapat akurasi dengan menggunakan metode algoritma Naïve Bayes Classifier sebesar 94.17%.

Tabel 2.2 Pengujian 10 Fold Cross Validation Cross Validation Naive Bayes PSO

Accuracy

2 90.42%

3 91.25%

4 92.50%

5 94.17%

6 92.92%

7 91.70%

8 92.50%

9 94.16%

10 92.50%

Tabel 2.3. Model Confusion Matrix UntukMetode Naïve Bayes Classifier Berbasis Particle Swarm Optimization

True travel True gosip True kuliner Class precision

Pred travel 75 1 3 94.94%

Pred gosip 2 74 0 97.37%

Pred kuliner 3 5 77 90.59%

Class recall 93.75% 92.50% 96.25%

Dalam penelitian ini dilakukan pengujian model dengan menggunakan Naïve Bayes Classifier berbasis Particle Swarm Optimization dengan menggunakan data konten berita dengan keseluruhan 240 data konten berita dan 15 kata yang berhubungan dengan konten berita tersebut, yaitu gosip, selebriti, selingkuh, artis, skandal wisata,

(31)

17

Program Studi Ilmu Komputer STMIK Nusa Mandiri

pantai, travel, trip, gunung makan, minum, restoran, lezat, kuliner. Model yang dihasilkan diuji untuk mendapatkan nilai accuracy, precision, dan recall dari setiap algoritma sehingga didapatkan pengujian dengan menggunakan Naïve Bayes Classifier berbasis Particle Swarm Optimization (PSO) didapatkan nilai accuracy 94.17%. Maka dapat disimpulkan pengujian data konten berita digital menggunakan Naïve Bayes Classifier berbasis Particle Swarm Optimization (PSO) sangat baik digunakan dalam klasifikasi konten berita bahasa Indonesia. Dengan demikian hasil dari pengujian model di atas dapat disimpulkan bahwa Naïve Bayes Classifier berbasis Particle Swarm Optimization (PSO) memberikan pemecahan untuk permasalahan klasifikasi konten berita digital lebih akurat.

4. Metode Penelitian Buntoro (2016)

Pada penelitian yang berjudul analisis sentimen hatespeech pada twitter dengan metode naïve bayes classifier dan support vector machine. Penelitian ini menganalisis tagar #HateSpeech, benarkah semua yang diberi tagar itu sentimennya kebencian. Proses klasifikasi pada penelitian ini menggunakan metode klasifikasi Naïve Bayes Classifier (NBC) dan Support Vector Machine (SVM) dengan preprocessing data menggunakan tokenisasi, cleansing dan filtering. Data yang digunakan adalah tweet dalam bahasa Indonesia dengan tagar HateSpeech (#HateSpeech), dengan jumlah dataset sebanyak 522 tweet yang didistribusikan secara merata menjadi dua sentimen HateSpeech dan GoodSpeech. Hasil akurasi tertinggi didapatkan saat menggunakan metode klasifikasi Support Vector Machine (SVM) dengan tokenisasi unigram, stopword list Bahasa Indonesia dan emoticons, dengan nilai rata-rata akurasi mencapai 66,6%, nilai presisi 67,1%, nilai recall 66,7% nilai TP rate 66,7% dan nilai TN rate 75,8%.

(32)

Program Studi Ilmu Komputer STMIK Nusa Mandiri

Tabel 2.4. Perbandingan Hasil Klasifikasi

Dalam penelitian ini juga dapat diketahui metode klasifikasi Support Vector Machine (SVM) lebih tinggi akurasinya untuk klasifikasi sentiment tweet HateSpeech Bahasa Indonesia dibandingkan metode klasifikasi Naïve Bayes Classifier (NBC). Untuk penelitian selanjutnya perlu dikembangkan stopword list dan stemmer Bahasa Indonesia yang mampu meningkatkan akurasi dalam analisis sentiment.

5. Metode Penelitian Kristiyanti (2015)

Dalam penelitian ini dilakukan pengujian model dengan menggunakan Support Vector Machine dan Support Vector Machine berbasis Particle SwarmOptimization dengan menggunakan data review produk kosmetik yang positif maupun negatif dengan keseluruhan 200 data review. Model yang dihasilkan diuji untuk mendapatkan nilai accuracy, precision, recall dan AUC dari setiap algoritma sehingga didapatkan pengujian dengan menggunakan Support Vector

(33)

19

Program Studi Ilmu Komputer STMIK Nusa Mandiri

Machine didapatkan nilai accuracy adalah 89.00%. Kemudian pengujian dengan menggunakan Support Vector Machine berbasis Particle Swarm Optimization (PSO) didapatkan nilai accuracy 97.00%. Sedangkan pengujian dengan menggunakan Support Vector Machine berbasis Genetic Algorithm (GA) didapatkan nilai accuracy 94.00%. Maka dapat disimpulkan pengujian data review produk kosmetik menggunakan Support Vector Machine berbasis Particle Swarm Optimization (PSO) lebih baik dari pada Support Vector Machine berbasis Genetic Algorithm (GA) dan Support Vector Machine itu sendiri. Dengan demikian hasil dari pengujian model di atas dapat disimpulkan bahwa Support Vector Machine berbasis Particle Swarm Optimizationmemberikan pemecahan untuk permasalahan klasifikasi review produk kosmetik menjadi lebih akurat.

Tabel 2.5. Pengujian Algoritma SVM dan SVM berbasis PSO

Accuracy AUC

SVM 89.00% 0.988

SVM berbasis PSO 97.00% 0.988 SVM berbasis GA 94.00% 0.984

Tabel 2.6. Rangkuman Penelitian Terkait

Peneliti Text Processing Kalsifikasi dan seleksi fitur

Hasil Penelitian

Ghulam Asrofi Buntoro

 Seleksi Fitur

 Cleansing

 Parsing

 Normalisasi

 Huruf berulang

 Anotation Removal

NB Classifier dan SVM

Naïve Bayes Classifier (NBC) untuk klasifikasi data AHY, dengan

nilai rata-rata akurasi mencapai

95%

(34)

Program Studi Ilmu Komputer STMIK Nusa Mandiri

Deden Rustiana,

Nina Rahayu

 Case Folding

 Convert Emoticon

 Cleaning

 Stopword Removal

 Convert Negation

 Tokenisasi

 Stemming

Naive Bayes Convert Negation

Implementasi naïve bayes pada penelitian ini menghasilkan nilai akurasi 93%

Acmad Nurhadi

 Tokenisasi

 Transform Cases

NB+ PSO TF-IDF

Particle Swarm Optimization (PSO) didapatkan

nilai accuracy 94.17%.

Ghulam Asrofi Buntoro

 Tokenisasi

 Cleansing

 Filtering

NB + SVM Unigram, TF-IDF

Akurasi mencapai 66,6%

Dinar Ajeng Kristiyanti

 Tokenization

 Generate N- Grams

 Stemming

SVM, SVM + PSO SVM : 89.00% , SVM berbasis (GA) : 94.00%

SVM berbasis PSO : 97.00%

2.3. Tinjauan Objek Penelitian

2.3.1. Review / Ulasan Mengenai Kosmetik

Peneliti mengambil dataset dari ulasan /review kosmetik pada website femaledialy.com secara manual. Data yang digunakan merupakan ulasan yang diambil dari tiga merk kosmetik yang paling banyak digunakan kemudian dari tiga merk tesebut diambil produk yang memiliki komentar/ulasan paling banyak. Data

(35)

21

Program Studi Ilmu Komputer STMIK Nusa Mandiri

yang dikumpulkan sebanyak 1000 data yang terdiri dari 500 review positif dan 500 review negatif.

2.4. Kerangka Pemikiran

Berdasarkan pada latar belakang, maka penelitian ini akan melakukan komparasi terhadap metode Naive Bayes dan Supportt Vector Machine dalam pengklasifikasian. Dari klasifikasi tersebut akan dioptimasi kembali oleh fitur seleksi Particle Swarm Optimization (PSO) agar nilai akurasi yang didapat menjadi lebih optimal dan baik. Peneliti mengambil data dari review/ulasan dari website kosmetik yaitu femaledaily.com. yang banyak membahas tentang kegunaan kosmetik hingga kelebihan dan kekurangan dari suatu kosmetik dengan tujuan memberikan informasi kepada para pengguna kosmetik. Peneliti pengambil data sebanyak 1000 dataset yang terdiri dari 500 review positif dan 500 review negatif.

Sebelum data diklasifikasi, terlebih dahulu dilakukan preprocessing antara lain : Tokenization, filter Tokens (By Length), Stopwords Removal, Transform Cases, N- Grams(bigram) dan Stemming. dan pemilihan seleksi fitur menggunakan Particle Swarm Optimization (PSO).

Sedangkan kalsifikasi yang digunakan adalah Support Vector Machine (SVM) dan Naive Bayes (NB). Pengujian Cross Validation akan dilakukan, akurasi algoritma diukur dengan Confusion Matrix dan hasil olahan akan ditampilkan dalam bentuk kurva ROC dan accuracy. Software yang digunakan untuk mengolah data klasifikasi adalah RapidMiner Studio Versi 9.1 sebagai alat bantu dalam mengukur akurasi data dan eksperimen. RapidMiner sangat terkemuka di dunia dan tidak perlu dipertanyakan lagi sebagai sistem sumber terbuka untuk data mining.

RapidMiner pada umumnya dikenal dengan YALE (Yes Another Learning Environtment) adalah perangkat lunak open source untuk knowledge discovery dan data mining merupakan mesin pembelajaran algoritma yang dikembangkan oleh University of Dortmund, Germany pada tahun 2001.

(36)

Program Studi Ilmu Komputer STMIK Nusa Mandiri

Dataset yang diambil dari website femaledaily.com

Preprocessing Tokenization

Filter Tokens

Stopwords Removal Stemming Transform

cases N-Grams

Feature Selection

Particle Swarm Optimization

Naive Bayes

Support Vector Machine

Model Accuracy

Confusion Matriks

ROC Curve

Gambar 2.2. Kerangka Pemikiran

Purpose Method Objective Measurements

(37)

Program Studi Ilmu Komputer STMIK Nusa Mandiri

23

BAB III

METODOLOGI PENELITIAN

3.1. Perancangan Penelitian

Penelitian merupakan suatu investigasi yang terorganisir yang umumnya dilakukan dalam upaya menyajikan infromasi dan memecahkan suatu masalah.

Metode penelitian yang digunakan penulis menggunakan metode penelitian eksperimen. Adapun metode penelitian yang penulis gunakan melalui tahapan sebagai berikut :

1. Pengumpulan Data

Data yang digunakan untuk melakukan eksperimen dikumpulkan melalui website femaledaily.com berdasarkan merek yang dicari kemudian penulis mengambil sample empat produk dari masing-masing merk. Kemudian dataset tersebut diseleksi kemudian disimpan ke dalam file microsoft excel untuk diolah dalam pengujian data selanjutnya.

2. Pengolahan Data Awal

Tahap pengilahan data awal (preprocessing) dilakukan sebelum metode atau algorima yang dipilih diterapkan. Proses pengolahan data awal yang digunakan yaitu stopword removal, stemming, tokenize, filter by leght, transform case, dan n-grams. Kemudian memilih metode yang akan digunakan pada saat pengujian data. Metode yang dipilih berdasarkan penelitian terdahulu. Penulis menggunakan Metode algoritma Naive Bayes dan Support Vector Machine.

3. Metode yang diusulkan

Metode yang diusulkan penulis diantaranya Support Vector Machine dan metode Naive Bayes berbasis Particle Swarm Optimization

4. Eksperimen dan Pengujian Metode

Eksperimen yang dilakukan peneliti menggunakan Framework Rapidminer Stodio versi 9.1 untuk mengeolah data sehingga menghasilkan nilai akurasi yang akurat.

(38)

Program Studi Ilmu Komputer STMIK Nusa Mandiri

5. Evaluasi dan Validasi Hasil Evaluasi

Evaluasi berfungsi untuk mengetahui akurasi dari model algoritma yang diusulkan. Validasi digunakan untuk melihat perbandnga hasil akurasi dari model yang diguanakan dengan hasil yang telah ada sebelumnya. Teknik validasi yang digunakan adalah Cross Validation. Akurasi algoritma akan diukur menggunakan Confusion Matrix dan hasil perhitungan akan ditampilakn dalam bentuk Curve ROC (Receiver operating Characteristic).

3.2. Pengolahan Data

Data yang diteliti menggunakan data yang diperoleh dari website femaledaily.com data tersebut diambil dari review kosmetik dari empat merek ternama yaitu maybelline, emina, dan wardah. Sehingga digunakan penulis untuk menghasilkan dataset yang dikelompokan menjadi positif dan negatif

Data review yang digunakan dalam suatu pengolahan text mining sebanyak 1000 data yang diambil dari masing-masing produk berdasarkan kosmetik yang diambil. Dari 1000 dataset terdapat 500 komentar positif dan 500 komentar negatif.

Selain itu perlu ketelitian dalam memisahkan kata yang mengandung bahasa asing dan makna ambigu sehingga komentar itu tidak diambil oleh penulis. Komentar positif berdasarkan keterangan pengguna yang akan memeli lagi produk tersebut selain itu dari kata-kata bermakna positif diantaranya, bagus, cocok, terjangkau, baik dan sebagainya. Komentar negatif berisi keterangan bahwa pengguna tidak akan membeli lagi produk tersebut. Komentar bermakna netral yaitu komentar yang memberikan kererangan bahwa pengguna mungkin akan membeli lagi produk tersebut.

Berikut contoh komentar positif dan negatif dalam website femaledaily.com

Gambar 3.1. Contoh komentar positif

(39)

25

Program Studi Ilmu Komputer STMIK Nusa Mandiri

Gambar 3.2. Contoh komentar negatif

3.3. Pengolahan Data Awal

Text mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks. Proses penganalisisan teks ini berguna untuk mencari informasi yang bermanfaat untuk tujuan tertentu. Pada dasarnya, text mining merupakan bidang interdisiplin yang mengacu pada perolehan informasi (information retrieval), data mining, pembelajaran mesin (machine learning), statistik, dan komputasilinguistic (Chandra, 2016).

Dalam menganalisa sebagian atau keseluruhan, text mining mencoba untuk mengasosiasikan satu bagian teks dengan yang lainnya berdasarkan aturan-aturan tertentu. Text yang belum diolah biasanya memiliki karakteristik dimensi yang tinggi, terdpat noise pada data dan terdapat struktur teks yang tidak baik. Untuk itu, dalam pengolahan data awal, text mining harus melalui beberapa tahapan yang disebut dengan preprocessing. Text reprocessing merupakan tahapan sangat penting dalam melakukan proses klasifikasi data text. Tujuan dilakukannya text preprocessing yaitu untuk menghilangkan noise, menyeragamkan bentuk kata dan mengurangi volume kata. Tahapan-tahapa preprocessing yang dapat dilakukan dalam teks Bahasa Indonesia antara lain :

1. Stopwords Removal

Filter stopwords removal adalah proses menghilangkan kata-kata yang sering muncul namun tidak memiliki pengaruh apapun dalam ekstraksi sentimen suatu review. Kata yang termasuk seperti kata petunjuk waktu, dan kata tanya.

2. Stemming

Proses stemming digunakan untuk mengganti bentuk dari suatu kata menjadi kata dasar dari kata tersebut yang sesuai dengan struktur morfologi Bahasa

(40)

Program Studi Ilmu Komputer STMIK Nusa Mandiri

Indonesia yang baik dan benar kata yang memiliki imbuhan awal dan akhiran seperti me, mem, meny, meng, di, per, her, an, kan, i, nya dll. Akan diubah menjadi kata dasar dengan menghilangkan kata imbuh tersebut.

3. Tokenize

Tokenize merupakan proses untuk memisah-misahkan kata. Potongan kata tersebut disebut dengan token atau term. Proses memotong setiap kata dalam teks dan mengubah huruf dalam dokumen menjadi huruf kecil. Hanya huruf yang diterima, sedangkan karakter khusus atau tanda baca akan dihilangkan.

Jadi hasil dari proses tokenize adalah kata-kata yang merupakan penyusun kalian atau string yang dimasukan tanpa ada tanda baca.

4. Filter Token (By Length)

Filter Token (By Length) merupakan proses mengambil kata-kata penting dari hasil token. Dalam proses ini, kata-kata yang memiliki panjang tertentu akan dihapus.

5. Transform Cases

Transform Cases akan mengubah seluruh huruf menjadi huruf kecil atau kapital.

6. Generate n-Grams (bigram)

Proses n-Grams digunakan untuk menyelesaikan permasalahan klasifikasi dokumen ke dalam sentiment positif atau negatif. Kesalahan klasifikasi sentiment biasanya disebabkan oleh fitur term tunggal. Misalnya kata “buruk”

merupakan kata yang termasuk sentiment negatif, akan tetapi kata “tidak buruk

“ masuk ke dalam sentimen posiif apabila berdampingan dengan kata negasi.selain itu, pada contoh kata “bagus” yang termasuk sentimen positif, kata “tidak bagus”menjadi kelas sentimen negatif apabila nerdampingan dengan kata negatif.

3.4. Metode yang Diusulkan

Metode yang diusulkan penulis menggunakan dua algoritma yaitu Support Vector Machine dan Naive Bayes demngan masing-masing menggunakan seleksi fitur Particle Swarm Optimization (PSO). Penggunaan Particle Swarm Optimization (PSO) akan menghasilkan tingkat akurasi yang lebih tinggi.

(41)

27

Program Studi Ilmu Komputer STMIK Nusa Mandiri

Algoritma Support Vector Mechine merupakan metode yang bekerja dengan baik pada set data dengan dimensi yang tinggi, namun SVM juga memiliki masalah pada penentuan parameter. Pengklasifikasian menggunakan metode Naive Bayes menghasilkan akurasi yang cukup baik, tapi model yang dibangun masih melakukan sedikit kesalahan pada saat proses klasifikasi data yang pembagian sentimennya tidak seimbang.

Karena dengan menggunakan data yang tidak seimbang akan menyebabkan data minority class yang salah diklasifikasi sebagai data majority class. Pada akhirnya menjadikan selisih nilai menjadi besar. Hal ini dapat dilakukan dengan melakukan uji coba terhadap nilai parameter dan memilih nilai yang menghasilkan akurasi terbaik. Untuk itu penulis melakukan analisis sentimen menggunakan kedua metode diatas yaitu Support Vector Machine dan Naive Bayes berbaiss Particle Swarm Optomization.

3.5. Eksperimen dan Hasil Pengujian

Eksperimen terhadap hasil pengujian data dilakukan dengan menggunakan RapidMiner Studio versi 9.1. dataset yang digunakan untuk prngujian model diperoleh dari review kosmetik di femaledaily.com yang mengambil 3 merk kosmetik yang banyak digunakan yaitu, wardah, maybelline dan emina. Kemudian di klasifikasikan ke dalam opini positif dan negatif.

3.6. Evaluasi dan Validasi Hasil

Penulis mengusulkan model dalam analisis sentimen review kosmetik dengan menerapkan metode Support Vector Machine, dan Support Vector Machine berbasis Particle Swarm Optimization, Naive Bayes dan Naive Bayes berbasis Particle Swarm Optimization. Algoritma Support Vector Machine dan Naive Bayes pada saat pengujian data menghasilakn akurasi cukup baik, namun penulis mencoba meningkatkan akurasi pada hasil perhitungannya dengan menggunakan optimasi Particle Swarm Optimization.

(42)

Program Studi Ilmu Komputer STMIK Nusa Mandiri

28 4.1. Hasil Penelitian

Data training yang digunakan pada saat pengujian data diambil dari website mengenai kosmetik yaitu femaledialy.com menggunakan Rapidminer Studio 9.1.

Pengambilan data dibatasi berdasarkan produk yang memiliki komentar terbanyak dari tiga brand yang memiliki rating tertinggi di femaledialy.com. Dataset yang didapatkan melalui pengambilan secara manual tidak semuanya dikategorikan sebagai kelas positif dan negatif. Oleh sebab itu perlu dikakukan klasifikasi secara manual atau dinamakan dengan proses labeling untuk memberikan label positif atau negatif. Dari keseluruhan data yang berjumlah 1000 ulasan diperoleh data sebanyak 500 data positif dan 500 data negatif. Data sudah melalui tahap preprocessing kemudian dilakukan testing dan training dataset sehingga didapatkan nilai accuracy dan AUC (Area Under Curve) dari masing-masing algoritma yang digunakan. Berikut akan dijelaskan lebih rinci mengenai hasil penelitian yang diperoleh.

4.1.1. Klasifikasi Text Menggunakan Algoritma Naive Bayes dan Support Vector Machine

Berikut merupakan tahapan-tahapan yang dilakukan penulis dalam melakukan pengolahan data secara rinci sebagai berikut :

1. Pengolahan Data

Pengambilan data yang berasal dari website kosmetik yaitu femaledaily.com dibatasi berdasarkan produk dari merek yang memiliki ulasan terbanyak dalam website femaledialy.com menggunakan cara manual. Kemudian data tersebut disimpan ke dalam Microsoft Excel untuk selanjutnya dilakukan proses labeling yaitu mengklasifikasikan review atau ulasan tersebut kedalam kelas negatif atau positif secara manual.

(43)

29

Program Studi Ilmu Komputer STMIK Nusa Mandiri

Gambar 4.1. Website femaledaily.com 2. Pengolahan Data Awal (Preprocessing)

Adapun tahapan-tahapan yang dilakukan dalam proses pengolahan data awal (preprocessing) yaitu sebagai berikut:

a. Stopwords Removal

Proses Stopword Removal dilakukan menggunakan RapidMiner. Dalam proses ini, kata-kata sambung atau kata-kata yang tidak relevan akan dihapus, seperti kata tetapi, untuk, dengan, yang,pada dan kata sambung lainnya. Kata-kata tersebut merupakan kata-kata yang tidak mempunyai makna tersendiri jika dipisahkan dengan kata yang lain dan tidak terkait dengan kata sifat yang berhubungan dengansentiment.

Tabel 4.1. Proses Stopword Removal

Sebelum di saya ini malah membuat

beruntusan. awalnya senang sekali sama ini produk, tetapi kok malah membuat beruntusan d seluruh wajah. mungkin tidak cocok sama formulanya. selanjutnya cobain yang biore atau innisfree

Sesudah beruntusan. senang produk,

beruntusan wajah. Cocok

formulanya. cobain biore innisfree

b. Stemming

Proses Stemming digunakan untuk mengganti bentuk dari suatu kata menjadi kata dasar dari kata tersebut yang sesuai dengan struktur morfologi Bahasa Indonesia yang baik dan benar. Kata yang memiliki imbuhan awal dan akhiran seperti me, mem, meny, meng, di, per, ber, an, kan, i, nya dll., akan diubah menjadi kata dasar dengan menghilangkan kata imbuhan tersebut.

(44)

Program Studi Ilmu Komputer STMIK Nusa Mandiri

Tabel 4.2. Proses Stemming

Sebelum beruntusan. senang produk,

beruntusan wajah. cocok formulanya. cobain biore innisfree

Sesudah beruntusan. senang produk,

beruntus wajah. cocok formulanya.

cobain biore innisfree

c. Tokenize

Dalam proses tokenize ini, semua kata yang ada di dalam tiap dokumen dikumpulkan dan dihilangkan tanda bacanya, serta dihilangkan jika terdapat simbol, karakter khusus atau apapun yang bukan huruf.

Tabel 4.3. Proses Tokenizing

Sebelum saya pakai ini langsung beruntusan

parah terus akhirnya saya pakai untuk tangan sama kaki. terus wanginya saya tidak suka, terlalu manis dan tidak suka seperti aroma roti gitu, jadi kadang kalau pakai jadi mual. terus juga krim nya tebal sekali

Sesudah saya pakai ini langsung beruntusan

parah terus akhirnya saya pakai untuk tangan sama kaki terus wanginya saya tidak suka terlalu manis dan tidak suka seperti aroma roti gitu jadi kadang kalau pakai jadi mual terus juga krim nya tebal sekali

(45)

31

Program Studi Ilmu Komputer STMIK Nusa Mandiri

d. Filter Tokens (By Length)

Dalam proses ini, kata-kata yang memiliki panjang kurang dari 4 dan lebih dari 25 akan dihapus, seperti kata yg, tdk, jd, ga, ane, gan yang merupakan kata-kata yang tidak mempunyai makna tersendiri jika dipisahkan dengan kata yang lain dan tidak terkait dengan kata sifat yang berhubungandengan sentiment.

Tabel 4.4. Proses Filter Tokens (By Length)

Sebelum saya pakai ini langsung beruntusan

parah terus akhirnya saya pakai untuk tangan sama kaki. terus wanginya saya tidak suka, terlalu manis dan tidak suka seperti aroma roti gitu, jadi kadang kalau pakai jadi mual. terus juga krim nya tebal sekali

Sesudah saya pakai langsung beruntusan

parah terus akhirnya saya pakai untuk tangan sama kaki terus wanginya saya tidak suka terlalu manis tidak suka seperti aroma roti gitu jadi kadang terus juga krim tebal sekali

e. Transform Cases

Dalam proses ini, kata-kata yang tidak relevan akan diubah, seperti kata yang mengandung huruf besar yang diubah menjadi huruf kecil sehingga dapat saling berhubungan dengan sentiment.

f. Generate n-Grams (bigram)

Proses n-Grams digunakan untuk menyelesaikan permasalahan klasifikasi dokumen ke dalam sentiment positif atau negatif. Kesalahan klasifikasi sentiment biasanya disebabkan oleh fitur term tunggal. Misalnya kata

Gambar

Gambar 2.1. SVM berusaha menemukan hyperplane terbaik yang memisahkan kedua class -1 dan +1
Tabel 2.1. Perbandingan Hasil Klasifikasi
Tabel 2.2 Pengujian 10 Fold Cross Validation  Cross Validation  Naive Bayes PSO
Tabel 2.4. Perbandingan Hasil Klasifikasi
+7

Referensi

Dokumen terkait

Tujuan dari penelitian ini adalah untuk mengetahui sejauh mana akurasi algoritma Naive Bayes mampu ditingkatkan dengan seleksi fitur Particle Swarm Optimization

Hasil dari penelitian ini membuktikan bahwa klasifikasi Naïve Bayes dengan seleksi fitur Particle Swarm Optimization mendapatkan nilai model evaluasi pada akurasi

Pada penelitian ini menggunakan metode Support Vector Machine dan Naïve Bayes dengan penambahan Particle Swarm Optimization (PSO) untuk menghasilkan akurasi terbaik dalam

Mengklasifikasikan teks analisa sentimen pada review suatu film dengan menggunakan pengklasifikasi Naïve Bayes yang menerapkan metode pemilihan fitur Information gain

Model yang diusulkan meliputi penerapan seleksi fitur menggunakan particle swarm optimization (PSO), Algoritma pendekatan level data Random Over-Sampling (ROS), Dan

Dalam penelitian ini dilakukan pengujian model dengan menggunakan Support Vector Machine dan Support Vector Machine berbasis Particle Swarm Optimization dengan menggunakan

Metode atau model yang diusulkan pada penelitian ini adalah metode Support Vector Machine dengan seleksi fitur Particle Swarm Optimization untuk mendapatkan

Metode yang diusulkan pada penelitian ini adalah dengan menerapkan fitur seleksi Particle Swarm Optimization PSO terhadap algoritma Naive Bayes untuk meningkatkan akurasi pada proses