• Tidak ada hasil yang ditemukan

penerapan metode algoritma genetika untuk

N/A
N/A
Protected

Academic year: 2024

Membagikan "penerapan metode algoritma genetika untuk"

Copied!
109
0
0

Teks penuh

(1)

PERUSAHAAN PENJUALAN ONLINE MENGGUNAKAN ALGORITMA

NAÏVE BAYES

TESIS

SITI ERNAWATI 14000897

PROGRAM PASCASARJANA MAGISTER ILMU KOMPUTER SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER

NUSA MANDIRI JAKARTA

2015

(2)

PERUSAHAAN PENJUALAN ONLINE MENGGUNAKAN ALGORITMA

NAÏVE BAYES

TESIS

SITI ERNAWATI 14000897

PROGRAM PASCASARJANA MAGISTER ILMU KOMPUTER SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER

NUSA MANDIRI JAKARTA

(3)
(4)

Nama : Siti Ernawati

NIM : 14000897

Program Studi : Magister Ilmu Komputer Jenjang : Strata Dua (S2)

Konsentrasi : Management Information System

Judul Tesis : Penerapan Algoritma Genetika Untuk Seleksi Fitur Pada Analisis Sentimen Review Perusahaan Penjualan Online Menggunakan Algoritma Naïve Bayes

Telah berhasil dipertahankan dihadapan Dewan Penguji dan diterima sebagai bagian persyaratan yang diperlukan untuk memperoleh gelar Magister Ilmu Komputer (M.Kom) pada Program Pascasarjana Magister Ilmu Komputer Sekolah Tinggi Manajemen Informatika dan Komputer Nusa Mandiri (STMIK Nusa Mandiri).

Jakarta, 5 September 2015

Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri

Direktur

Prof. Dr. Ir. Ricardus Eko Indrajit, M.Sc, MBA

D E W A N P E N G U J I

Penguji I : Dr. Sularso Budilaksono ...

Penguji II : Dr. Mochamad Wahyudi, MM, M.Kom, M.Pd ...

Penguji III/ : Dr. Sfenrianto, M.Kom ...

Pembimbing

(5)
(6)

Puji syukur alhamdulillah, penulis panjatkan kehadirat Allah SWT yang telah melimpahkan rahmat dan karunia-Nya sehingga pada akhirnya penulis dapat menyelesaikan tesis ini tepat pada waktunya. Dimana tesis ini penulis sajikan dalam bentuk buku yang sederhana. Adapun judul tesis yang penulis ambil sebagai berikut “Penerapan Algoritma Genetika Untuk Seleksi Fitur Pada Analisis Sentimen Review Perusahaan Penjualan Online Menggunakan Algoritma Naïve Bayes“

Tujuan penulisan tesis ini dibuat sebagai salah satu syarat untuk mendapatkan gelar Magister Ilmu Komputer (M.Kom) pada Program Pascasarjana Magister Ilmu Komputer Sekolah Tinggi Manajemen Informatika dan Komputer Nusa Mandiri (STMIK Nusa Mandiri). Penulis melakukan pencarian dan menganalisa berbagai macam sumber referensi, baik dalam bentuk jurnal ilmiah, buku-buku literatur, internet, dan lain- lain yang terkait dengan pembahasan pada tesis ini.

Penulis menyadari bahwa tanpa bimbingan dan dukungan dari semua pihak dalam pembuatan tesis ini, maka penulis tidak dapat menyelesaikan tesis ini tepat pada waktunya. Untuk itu ijinkanlah penulis dalam kesempatan ini untuk mengucapkan ucapan terima kasih yang sebesar-besarnya kepada:

1. Dr. Sfenrianto, M.Kom selaku pembimbing tesis yang telah menyediakan waktu, pikiran dan tenaga dalam membimbing penulis dalam menyelesaikan tesis ini.

(7)

3. Teman-teman yang sudah memberikan semangat kepada penulis (khususnya Mba Risa, Mba Uju teman seperjuangan).

4. Seluruh staf pengajar Program Pascasarjana Magister Ilmu Komputer Sekolah Tinggi Manajemen Informatika dan Komputer (STMIK) Nusa Mandiri yang telah memberikan pelajaran yang berarti bagi penulis selama menempuh studi.

5. Seluruh staf dan karyawan Program Pascasarjana Magister Ilmu Komputer Sekolah Tinggi Manajemen Informatika dan Komputer (STMIK) Nusa Mandiri yang telah melayani penulis dengan baik selama kuliah.

Serta semua pihak yang terlalu banyak untuk penulis sebutkan satu persatu sehingga terwujudnya penulisan tesis ini. Penulis menyadari bahwa penulisan tesis ini masih jauh sekali dari sempurna, untuk itu penulis mohon kritik dan saran yang bersifat membangun demi kesempurnaan penulisan karya ilmiah yang penulis hasilkan untuk yang akan datang.

Akhir kata, semoga tesis ini dapat bermanfaat bagi penulis khusunya dan bagi para pembaca yang berminat pada umumnya.

Jakarta, 15 Agustus 2015

Siti Ernawati

(8)
(9)

Nama : Siti Ernawati

NIM : 14000897

Program Studi : Magister Ilmu Komputer Jenjang : Strata Dua (S2)

Konsentrasi :Management Information System

Judul Tesis : “Penerapan Algoritma Genetika Untuk Seleksi Fitur Pada Analisis Sentimen Review Perusahaan Penjualan Online Menggunakan Algoritma Naïve Bayes“

Review perusahaan penjualan yang dibuat secara online adalah saluran yang menghubungkan konsumen yang satu dengan yang lainnya. Mereka dapat menuangkan opini tentang perusahaan dimana mereka telah melakukan transaksi pembelian. Review konsumen secara online mempengaruhi bagus atau tidaknya sebuah perusahaan penjualan tersebut. Masalah utama dalam klasifikasi teks adalah dimensi tinggi dari ruang fitur, hal ini sering terjadi pada teks yang memiliki puluhan ribu fitur. Sebagian besar fitur ini tidak relevan dan tidak bermanfaat bagi klasifikasi teks bahkan dapat mengurangi tingkat akurasi. Oleh karena itu dalam penelitian ini menggunakan pengklasifikasi Naïve Bayes disertai Algoritma Genetika sebagai metode pemilihan fitur yang diterapkan untuk mengklasifikasikan teks pada review perusahaan penjualan online untuk meningkatkan akurasi. Penelitian ini menghasilkan klasifikasi teks dalam bentuk positif dan negatif. Pengukuran berdasarkan akurasi Naïve Bayes sebelum dan sesudah penambahan metode pemilihan fitur. Validasi dilakukan dengan menggunakan 10 fold cross validation. Sedangkan pengukuran akurasi diukur dengan confussion matrix dan kurva ROC. Hasil penelitian menunjukan peningkatan yaitu dari 80.00% dan AUC 0.602 menjadi 95.00% dan AUC 0.929.

Dapat disimpulkan bahwa penerapan algoritma genetika untuk seleksi fitur pada naïve bayes mampu meningkatkan akurasi.

Kata kunci: Analisis Sentimen, Review Perusahaan Penjualan Online, Klasifiasi Teks, Naïve Bayes, Algoritma Genetika.

(10)

Name : Siti Ernawati

NIM : 14000897

Study of Program : Magister Ilmu Komputer Levels : Strata Dua (S2)

Concentration :Management Information System

Titel : “Penerapan Algoritma Genetika Untuk Seleksi Fitur Pada Analisis Sentimen Review Perusahaan Penjualan Online Menggunakan Algoritma Naïve Bayes“

Review of company sales made online is a channel that connects consumers with each other. They can pour their opinion of a company which has been making purchases. Consumer reviews online good influence whether or not a company's sales. The main problem in text classification is higher dimensions of space features, it is often the case in the text that have tens of thousands of features.

Most of these features are irrelevant and not useful for text classification can even reduce the level of accuracy. Therefore, in this study using Naïve Bayes classifier with Genetic Algorithms as a feature selection method is applied to classify the text on the review of online sales company to improve accuracy. This research resulted in the classification of the text in the form of positive and negative.

Measurement is based on the accuracy of Naïve Bayes before and after the addition of feature selection methods. Validation is performed using 10-fold cross validation. While the measurement accuracy is measured by the confusion matrix and ROC curves. The results showed that an increase of 80.00% and AUC 0.602 become 95.00% and AUC 0.929. It can be concluded that the application of genetic algorithms for feature selection in the naïve Bayes able to improve accuracy.

KeyWord: Sentiment Analisys, Company Review Online Sales, Text Classification, Genetic Algorithm, Naïve Bayes.

(11)

HALAMAN SAMPUL... i

HALAMAN JUDUL... ii

HALAMAN PERNYATAAN ORISINALITAS... iii

HALAMAN PENGESAHAN... iv

LEMBAR KONSULTASI... v

KATA PENGANTAR... vi

HALAMAN PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS... viii

ABSTRAK... ix

ABSTRACT... x

DAFTAR ISI... xi

DAFTAR TABEL... xii

DAFTAR GAMBAR... xiii

DAFTAR LAMPIRAN... xiv

BAB I PENDAHULUAN... 1

1.1. Latar Belakang Permasalahan... 1

1.2. Rumusan Masalah... 3

1.3. Tujuan Penelitian... 3

1.4. Manfaat Penelitian... 3

1.5. Konstribusi Penelitian...4

1.6. Ruang Lingkup Penelitian... 4

1.7. Sistematika Penulisan... 4

BAB II LANDASAN/KERANGKA PEMIKIRAN... 6

2.1. Tinjauan Studi... 6

2.1.1Model Penelitian Ting et al.(2011)... 6

2.1.2Model Penelitian Zhang et al. (2011)... 7

2.1.3 Model Penelitian Hidayatullah et al. (2014) ... ... 8

2.1.4 Model Penelitian Ling et al. (2014) ... 10

2.1.5 Model Penelitian Altheneyan et al. (2014) ... 11

2.2. Tinjauan Pustaka... 14

2.2.1 Review Analisis Sentimen... 14

2.2.2 Pemilihan Fitur... 16

2.2.3 Naïve Bayes... 17

2.2.4 Algoritma Genetika... 18

2.2.5 Evaluasi dan Validasi Klasifikasi... 19

2.3 Kerangka Pemikiran Penelitian... 20

BAB III METODE PENELITIAN... 22

3.1 PerancanganPenelitian... 22

3.2 Pengumpulan Data... 23

3.3 Pengolahan Data Awal... 24

3.4 Metode Yang Diusulkan... 26

3.5 Eksperimen dan Pengujian Model... 28

3.6 Evaluasi dan Validasi Hasil... 29

(12)

4.2 Hasil... 34

4.2.1 Model dengan Metode Klasifikasi Menggunakan Naïve Bayes... 34

4.2.2 Model dengan Metode Klasifikasi Menggunakan Naïve Bayes dan Pemilihan Fitur Algoritma Genetika... 39

4.3 Implementasi...47

4.4 Implikasi Penelitian... 49

BAB V PENUTUP... 51

5.1. Kesimpulan... 51

5.2. Saran... 51

DAFTAR REFERENSI... 53

DAFTAR RIWAYAT HIDUP... 55

(13)

Tabel 2.1. Perbandingan penelitian terkait... 13

Tabel 2.2. Class pada confussion matrix... 19

Tabel 3.1. Spesifikasi komputer yang digunakan... 29

Tabel 4.1. Perbandingan teks sebelum dan sesudah dilakukan proses Tokenization... 31

Tabel 4.2. Perbandingan teks sebelum dan sesudah dilakukan proses stopwords removal ... 32

Tabel 4.3. Perbandingan teks sebelum dan sesudah dilakukan proses stemming ... 33

Tabel 4.4. Perbandingan teks sebelum dan sesudah dilakukan proses N-gram... 34

Tabel 4.5. Proses Klasifikasi Penentuan Sebuah Kalimat Sebagai Anggota Class Positif atau Class Negatif ... 35

Tabel 4.6. Hasil akurasi menggunakan algoritma Naïve Bayes... 38

Tabel 4.7. Rencana Eksperimen ... 40

Tabel 4.8. Adjustment pada nilai maximum number of generation... 40

Tabel 4.9. Adjustment pada nilai population size... 41

Tabel 4.10. Adjustment pada nilai p crossover... 41

Tabel 4.11. Adjustment pada nilai p mutation... 42

Tabel 4.12. Confusion Matrix Algoritma Naïve Bayes Sebelum Penambahan Seleksi Fitur Algoritma Genetika... 43

Tabel 4.13. Confusion Matrix Algoritma Naïve Bayes Setelah Penambahan Seleksi Fitur Algoritma Genetika... 43

Tabel 4.14. Model algoritma Naïve Bayes sebelum dan sesudah menggunakan metode pemilihan fitur ... 45

(14)

Gambar 2.1. Model Penelitian Ting, et al. (Ting et al. 2011)... 6 Gambar 2.2. Model Penelitian Zhang et al. (Zhang et al. 2011)... 7 Gambar 2.3. Model Penelitian Hidayatullah et al. (Hidayatullah et al.

2014)... 9 Gambar 2.4. Model Penelitian Ling et al. (Ling & Oka 2014)... 10 Gambar 2.5. Model Penelitian Altheneyan et al. ( Altheneyan & Menai

2014)... 12 Gambar 2.6. Langkah dan teknik yang umum ditemukan dalam

pendekatan klasifikasi sentimen (Moraes et al. 2013)... 15 Gambar 2.7. Kerangka pemikiran penelitian untuk metode yang diusulkan. 21 Gambar 3.1. Langkah Metode Penelitian... 22 Gambar 3.2. Model yang diusulkan... 27 Gambar 4.1. Desain model Naïve Bayes menggunakan RapidMiner... 37 Gambar 4.2. GrafikArea Under Curve(AUC) menggunakan Algoritma

Naïve Bayes... 38 Gambar 4.3. Desain model Naïve Bayes dan metode Algoritma Genetika

menggunakan RapidMiner... 42 Gambar 4.4. GrafikArea Under Curve(AUC) Algoritma Naïve Bayes... 44 Gambar 4.5. GrafikArea Under Curve(AUC) Algoritma Naïve Bayes

Setelah Penambahan Seleksi Fitur Algoritma Genetika... 44 Gambar 4.6. Grafik Akurasi Naïve Bayes sebelum dan sesudah

menggunakan pemilihan fitur... 46 Gambar 4.7. Grafik Nilai AUC sebelum dan sesudah menggunakan

pemilihan fitur... 46 Gambar 4.8. Diagram alir tahapan proses klasifikasi... 48 Gambar 4.9. Tampilan rancangan aplikasi... 49 Gambar 4.10. Tampilan rancangan aplikasi mengklasifikasi review

positif ... 49

(15)

Lampiran 1. Review Positif ... 56 Lampiran 2. Review Negatif ... 70 Lampiran 3. Tabel vector dokumen dengan label class hasil klasifikasi... 89

(16)

1.1 Latar Belakang Permasalahan

Saat ini, tersedia banyak review dalam web, review yang tersedia merupakan sumber yang sangat berguna untuk berbagai bidang, seperti bidang pemasaran, sosial dan lain-lain. Review tersebut menggambarkan pandangan terhadap sesuatu misalnya review terhadap produk tertentu, review restoran dan lain sebagainya. Adapun contohreviewmenurut (Tang et al. 2009) apakahreview suatu produk positif atau negatif, bagaimana suasana hati yang dirasakan kalangan blogger, bagaimana cerminan publik terhadap urusan politik.

Banyak konsumen yang menuangkan review atau pengalaman mereka melalui media sosial seperti facebook, twitter atau situs media lainnya. Review perusahaan penjualan yang dibuat secara online adalah saluran yang menghubungkan konsumen yang satu dengan yang lainnya, mereka dapat menuangkan opini tentang perusahaan dimana mereka telah melakukan transaksi pembelian. Review konsumen secara online mempengaruhi bagus atau tidaknya sebuah perusahaan penjualan tersebut. Menurut (Tan & Zhang 2008) Masalah dalam analisis sentimen adalah klasifikasi sentimen, dimana dokumen diberi label sebagai label positif ('thumbs up') atau label negatif ('thumbs down’).

Terdapat beberapa penelitian yang pernah dilakukan mengenai klasifikasi sentimen diantaranya penelitian yang dilakukan oleh (Ting et al. 2011) mengenai klasifikasi kategori teks dengan nilai akurasi mencapai 97,00%. Penelitian yang

(17)

dilakukan oleh (Zhang et al. 2011) mengenai analisis sentimen review restoran dengan nilai akurasi mencapai 95,67%. Penelitian yang dilakukan oleh (Hidayatullah et al. 2014) mengenai analisis sentimen dan klasifikasi kategori terhadap tokoh publik pada twitter, dengan nilai akurasi mencapai 73,81%.

Penelitian yang dilakukan oleh (Ling & Oka 2014) mengenai klasifikasi opini berbahasa Inggris tentang produk telepon genggam dengan nilai akurasi mencapai 83,00%.

Naïve Bayes adalah algoritma yang sering digunakan dalam pengkategorian teks. Ide dasarnya adalah menggabungkan probabilitas kata-kata dan kategori untuk memperkirakan probabilitas dari kategori sebuah dokumen (Zhang et al.

2011). Naïve Bayes merupakan algoritma paling sederhana dari pengklasifikasi probabilistik (Ting et al. 2011). Seperti yang sudah disebutkan diatas bahwa Naïve Bayes sangat sederhana dan efisien, disisi lain Naïve Bayes sangat sensitif terhadap pemilihan fitur seleksi, maka dari itu pemilihan fitur yang sesuai sangat diperlukan (Chen et al. 2009).

Masalah utama dalam klasifikasi teks adalah dimensi tinggi dari ruang fitur, hal ini sering terjadi pada teks yang memiliki puluhan ribu fitur. Sebagian besar fitur ini tidak relevan dan tidak bermanfaat bagi klasifikasi teks bahkan dapat mengurangi tingkat akurasi (Chen et al. 2009).

Algoritma Genetika merupakan salah satu algoritma optimasi, yang diciptakan untuk meniru beberapa proses yang diamati dalam evolusi alam.

Algoritma Genetika juga merupakan algoritma stochastic yang kuat berdasarkan prinsip-prinsip seleksi alam dan natural genetik yang cukup berhasil diterapkan dalam masalahmachine learningdan optimasi (Guo et al. 2010).

(18)

Dalam penelitian ini menggunakan pengklasifikasi Naïve Bayes disertai Algoritma Genetika sebagai metode pemilihan fitur yang diterapkan untuk mengklasifikasikan teks pada review perusahaan penjualan online untuk meningkatkan akurasi.

1.2 Rumusan Masalah

Bagaimana peningkatan akurasi pengklasifikasi Naïve Bayes apabila Algoritma Genetika diterapkan untuk pemilihan fitur yang sesuai dan optimal?

1.3 Tujuan Penelitian

Mengetahui seberapa meningkatnya akurasi pengklasifikasi Naïve Bayes jika menggunakan Algoritma Genetika untuk seleski fitur yang kemudian diterapkan pada analisis sentimenreviewperusahaan penjualanonline.

1.4 Manfaat Penelitian

Manfaat dari penelitian ini adalah:

1. Manfaat praktis dari penelitian ini adalah sebagai bahan evaluasi untuk perusahaan agar lebih meningkatkan kualitas dari produk ataupun pelayanan.

2. Manfaat kebijakan dari penelitian ini adalah dapat digunakan sebagai bahan pertimbangan dalam pengambilan keputusan dalam menentukan perusahaan penjualanonlineyang dipercaya.

(19)

3. Manfaat teoritis dari penelitian ini, diharapkan dapat memberikan sumbangan untuk pengembangan teori yang berkaitan dengan metode Naïve Bayes dan Algoritma Genetika.

1.5 Konstribusi Penelitian

Penerapan Naïve Bayes dengan Algoritma Genetika untuk seleksi fitur pada analisis sentimenreviewperusahaan penjualanonline.

1.6 Ruang Lingkup Penelitian

Ruang lingkup pembahasan dalam penelitian ini dibatasi pada penerapan Algoritma Genetika untuk seleski fitur yang diharapkan dapat meningkatkan akurasi pengklasifikasi Naïve Bayes. Data yang digunakan untuk penelitian berupa kumpulanreviewkonsumen terhadap perusahaan penjualanonline.

1.7 Sistematika Penulisan

Sistematika penulisan tesis ini terdiri dari:

BAB I Pendahuluan

Membahas mengenai latar belakang permasalahan, rumusan masalah, tujuan penelitian, manfaat penelitian, kontribusi penelitian, ruang lingkup penelitian dan sistematika penulisan.

(20)

BAB II Landasan/Kerangka Pemikiran

Membahas tentang tinjauan studi, yaitu tentang penelitian sebelumnya yang mendasari penelitian ini. Adapula tinjauan pustaka, yaitu membahas teori yang melandasi penelitian, yaitu reviewanalisis sentimen, pemilihan fitur, Naïve Bayes dan Algoritma Genetika.

BAB III Metode Penelitian

Membahas metode pengumpulan data, pengolahan data awal, metode yang diusulkan, eksperimen dan pengujian model serta evaluasi dan validasi hasil.

BAB IV Hasil Penelitian dan Pembahasan

Membahas hasil penelitian dari pengujian Naïve Bayes dan Algoritma Genetika yang sebelumnya telah dilakukan, baik sebelum maupun sesudah model diterapkan.

BAB V Penutup

Membahas kesimpulan dari pembahasan bab-bab sebelumnya, baik itu kekurangan dari penelitian ataupun kelebihan dari penelitian yang dilakukan serta memberikan saran untuk penelitian selanjutnya.

(21)

2.1 Tinjauan Studi

Beberapa penelitian terdahulu yang dijadikan rujukan terkait dengan topik penelitian:

2.1.1 Model Penelitian Ting et al. (2011)

Penelitian yang dilakukan oleh Ting et al. (2011) mengenai klasifikasi kategori teks. Jumlah data yang dijadikan bahan penelitian sebanyak 4000 dataset.

Data dibagi menjadi dua dataset, 30% untuk data training dan 70% untuk data testing. Preprocessing yang dilakukan dalam penelitian ini adalah stopwords removing, missing value interpretation dan stemming. Untuk feature selection yang digunakan adalah chi-square dan metode pengklasifikasinya menggunakan Naïve Bayes. Akurasi yang dihasilkan dari penelitian ini mencapai 97,0%. Model penelitian yang dilakukan oleh Ting, et al. (2011) dapat dilihat pada Gambar 2.1.

Sumber : Ting et al. (2011)

Gambar 2.1 Model Penelitian Ting et al.

(22)

2.1.2 Model Penelitian Zhang et al. (2011)

Penelitian yang dilakukan oleh Zhang et al. (2011) mengenai analisis sentiment review restauran. Data review diambil dari situs http://www.openrice.com. Data yang diggunakan sebanyak 1500 data review positif dan 1500 data review negatif. Dalam penelitian ini melakukan proses text processing menggunakan substitution dan tokenize, untuk feature selection yang digunakan adalah mengkalkulasi information gain untuk setiap n-gram. Metode pengklasifikasian yang digunakan adalah Naïve Bayes dan Support Vector Machine. Model penelitian yang dilakukan oleh Zhang et al. (Zhang et al. 2011) dapat dilihat pada Gambar 2.2.

Sumber : Zhang et al. (2011)

Gambar 2.2 Model Penelitian Zhang et al.

(23)

2.1.3 Model Penelitian Hidayatullah et al. (2014)

Penelitian yang dilakukan oleh Hidayatullah et al. (2014) mengenai analisis sentiment dan klasifikasi kategori terhadap tokoh publik pada twitter.

Penelitian ini mengklasifikasikan tweet menjadi enam kelas yaitu tweet yang membicarakan tentang kapabilitas-positif, kapabilitas-negatif, integritas-positif, integritas-negatif, akseptabilitas-positif, dan akseptabilitas-negatif. Klasifikasi tweet dilakukan menggunakan metode Naïve Bayes. Model klasifikasi pada penelitian ini menambahkan fitur untuk dapat mendeteksi negasi yang terdapat dalam tweet. Ekstraksi fitur pada penelitian ini menggunakan fitur unigram.

Model klasifikasi dan pembobotan kata (term weighting) dihitung menggunakan term frequencyserta TF-IDF(term frequency-inverse document frequency).

Model penelitian yang dilakukan oleh Hidayatullah et al. (Hidayatullah et al. 2014) dapat dilihat pada Gambar 2.3

(24)

Sumber : Hidayatullah et al. (2014)

Gambar 2.3 Model Penelitian Hidayatullah et al.

(25)

2.1.4 Model Penelitian Ling et al. (2014)

Penelitian yang dilakukan oleh Ling et al. (2014) mengenai klasifikasi opini berbahasa Inggris tentang produk telepon genggam. Dari data yang tersedia, diambil secara acak sebanyak 200 buah reviewyang terdiri dari 100reviewpositif dan 100 review negatif. Data tersebut digunakan sebagai data training dan data testing untuk mengevaluasi kinerja sistem. Pada tahap preprocessing data, awal mula data mentah dilakukan proses tokenizer, stemming, serta stopword. Seleksi fitur yang digunakan adalah chi-square dan metode pengklasifikasinya menggunakan Naïve Bayes. Akurasi yang dihasilkan dari penelitian ini mencapai 83 %. Model penelitian yang dilakukan oleh Ling et al. (2014) dapat dilihat pada Gambar 2.4

Sumber : Ling et al (2014)

Gambar 2.4 Model Penelitian Ling, et al.

(26)

2.1.5 Model Penelitian Altheneyan & Menai (2014)

Penelitian yang dilakukan oleh (Altheneyan & Menai 2014) mengenai klasifikasi dokumen berbahasa Arab. Dari data yang tersedia, digunakan sebagai data training dan data testing untuk mengevaluasi kinerja sistem. Pada tahap preprocessing data, awal mula data mentah dilakukan proses normalization, stopword, elongation serta stemming. Seleksi fitur yang digunakan adalah Term Frequency dan metode pengklasifikasinya menggunakan Naïve Bayes. Akurasi yang dihasilkan dari penelitian ini mencapai 82.30 %. Model penelitian yang dilakukan oleh (Altheneyan & Menai 2014) dapat dilihat pada Gambar 2.5

(27)

Sumber : Altheneyan & Menai (2014)

Gambar 2.5 Model Penelitian Altheneyan & Menai (2014)

(28)

Tabel 2.1 Perbandingan Penelitian Terkait

Peneliti Text

Processing Feature

Selection Classifier Accuracy S.L. Ting, W.H.

Ip, Albert H.C.

Tsang (2011)

 Stopwords Removing

 missing value interpretation

 Stemming

 Chi-Square Naïve

Bayes 97,0 %

Ziqiong Zhang, Qiang Ye, Zili Zhang, dan Yijun Li (2011)

 Substitution

 N-gram  Information

Gain Naïve

Bayes 95,67 %

Ahmad Fathan Hidayatullah dan Azhari SN (2014)

 Remove URL

 Convert Emoticon

 Remove Special Character

 Remove Symbol

 Tokenize

 Case Folding

 Stemming

 Stopwords

 Unigram

 Negation

 Term Frequency

 TF-IDF

Naïve

Bayes 73,81 %

Juan Ling, Putu Eka N. Kencana, Tjokorda Bagus Oka (2014)

 Tokenization

 Stemming

 Stopwords

 Chi-Square Naïve

Bayes 83 %

Alaa Saleh Altheneyan &

Mohamed El Bachir Menai (2014)

 Normalization

 Stopwords

 Elongation

 Stemming

 Term

Frequency Naïve

Bayes 82,30 %

Siti Ernawati

(2015)  Tokenization

 Stopwords Removing

 Stemming

 N-gram

 Algoritma

Genetika Naïve

Bayes ?

(29)

2.2 Tinjauan Pustaka

2.2.1 Review Analisis Sentimen

Analisis sentimen adalah suatu bidang yang sedang berlangsung dalam penelitian berbasiskan teks. Analisis sentimen atau opini mining adalah kajian tetang cara untuk memecahkan masalah dari opini masyarakat, sikap dan emosi suatu entitas, dimana entitas tersebut dapat mewakili individu, peristiwa atau topik (Medhat et al. 2014).

Deteksi sentimen teks telah banyak menarik perhatian dan berkembang pesat dalam beberapa tahun terakhir, karena peningkatan ketersediaan review secara online dalam bentuk digital (Tang et al. 2009). Review tersebut adalah sumber yang kaya dan berguna bagi pemasaran, sosial dan lain-lain untuk penggalian dan opini mining seperti pandangan, suasana hati, dan perilaku.

Misalnya, apakah review suatu produk positif atau negatif, bagaimana suasana hati dikalangan blogger pada waktu itu, bagaimana cerminan publik terhadap urusan politik (Tang et al. 2009).

Reviewkonsumen secaraonlinemempengaruhi bagus atau tidaknya sebuah perusahaan penjualan online. Internet terus menjadi bagian penting dari kehidupan sehari-hari. Sekarang, tidak hanya dari anggota keluarga dan teman- teman, tetapi juga dari orang asing yang berlokasi diseluruh dunia yang mungkin telah menggunakan produk tertentu, belanja online disitus tertentu, mengunjungi tempat atau tujuan tertentu dan melihat film tertentu dapat menuangkan pendapat mereka secara online. Terdapat contoh situs review produk seperti www.amazon.com. Situs ini memberikan informasi mengenai review produk- produk tertentu, lengkap dengan ulasan yang mampu menunjukkan kualitas dari

(30)

produk tersebut.

Banyak konsumen yang menuangkan opini atau pengalaman mereka melalui media sosial seperti facebook, twitter atau situs media lainnya. Review perusahaan penjualan yang dibuat secara online adalah saluran yang menghubungkan konsumen satu dengan yang lainnya. Masalah dalam analisis sentimen ini adalah klasifikasi sentimen, dimana dokumen diberi label sebagai label positif ('thumbs up') atau label negatif ('thumbs down’) (Tan & Zhang 2008).

Pada gambar 2.5 menunjukan langkah dan teknik yang umum ditemukan dalam pendekatan klasifikasi sentimen menurut Moraes (Moraes et al. 2013)

Opinion Mining Steps Usual Techniques

Sumber : (Moraes et al. 2013)

Gambar 2.6 Langkah dan teknik yang umum ditemukan dalam pendekatan klasifikasi sentimen

Dibawah ini merupakan penjelasan dari gambar diatas:

1. Definisikan domain dataset

Pengumpulan dataset yang melingkupi suatu domain, misalnya datasetreview hotel, datasetreviewfilm, datasetreviewproduk, dan lain-lain.

2. Preprocessing

Tahap pemrosesan awal yang umumnya dilakukan dengan proses tokenization,stopwords removal, danstemming.

(31)

3. Transformation

Proses representasi angka yang dihitung dari data tekstual. Binary representation yang umumnya digunakan dan hanya menghitung kehadiran atau ketidakhadiran sebuah kata didalam dokumen. Berapa kali sebuah kata muncul didalam suatu dokumen juga digunakan sebagai skema pembobotan dari data tekstual. Proses yang umumnya digunakan yaitu TF-IDF,Binary transformation, dan Frequency transformation.

4. Feature Selection

Pemilihan fitur (feature selection) bisa membuat pengklasifikasi lebih efisien/efektif dengan mengurangi jumlah data untuk dianalisa dengan mengidentifikasi fitur yang relevan yang selanjutnya akan diproses.

Metode pemilihan fitur yang biasanya digunakan adalah Expert Knowledge, Minimum Frequency, Information gain, Chi-Square, dan lain sebagainya.

5. Classification

Proses klasifikasi umumnya menggunakan pengklasifikasi seperti Naïve Bayes, Support Vector Machine, dan lain sebagainya.

6. Interpretation/Evaluation

Tahap evaluasi biasanya menghitung akurasi,recall, precision,dan F-1.

2.2.2 Pemilihan Fitur

Dalam metode untuk analisis sentimen berdasarkan pendekatan pembelajaran mesin (Machine Learning) biasanya ada ruang fitur yang sangat besar. Dengan ruang fitur besar ini, maka datanglah masalah. Metode seleksi fitur

(32)

memainkan peran penting dalam analisis sentimen, sama seperti dalam tugas text mining lainnya. Penggunaan yang tepat dari metode seleksi fitur membantu juga memahami atribut yang relevan untuk kelas tertentu, serta meningkatkan akurasi klasifikasi (Koncz & Paralic 2011).

Menurut Jhon, Kohavi, dan Pfleger dalam Chen (Chen et al. 2009) ada dua jenis metode seleksi fitur dalam pembelajaran machine learning, yaitu wrappers danfilters.

1. Wrappers

Wrappers menggunakan akurasi klasifikasi beberapa algoritma sebagai fungsi evaluasinya. Wrappers harus menguji pengklasifikasi untuk setiap fitur bagian yang akan dievaluasi, biasanya lebih banyak waktu ketika jumlah fitur tinggi (Chen et al. 2009).

2. Filters

Berbeda dengan wrappers,filtersmelakukan seleksi fitur yang menggunakan fitur yang dipilih. Dalam mengevaluasi fitur, filters menggunakan matrix evaluasi yang mengukur kemampuan fitur untuk membedakan masing- masing kelas. Metode filter terdiri dari Information gain, Term frequency, Chi-square, Expected cross entropy, Odds ratio, The weight of evidence of text, Mutual information,danGini index(Chen et al. 2009).

2.2.3 Naïve Bayes

Bayesian Classification didasarkan pada teorema Bayes yang memiliki kemampuan klasifikasi serupa dengandecision treedan neural network.Bayesian Classification terbukti memiliki akurasi dan kecepatan yang tinggi saat

(33)

diaplikasikan ke dalam database dengan data yang besar.

Teorema Bayes memiliki bentuk umum sebagai berikut:

Dalam hal ini:

X = data denganclassyang belum diketahui

H = hipotesis data X merupakan suatuclassspesifik

P(H|X) = probabilitas hipotesis H berdasar kondisi X(posteriori probability) P(H) = probabilitas hipotesis H(prior probability)

P(X|H) = probabilitas X berdasar kondisi pada hipotesis H P(X) = probabilitas dari X

2.2.4 Algoritma Genetika

Algoritma Genetika merupakan salah satu algoritma optimasi, yang diciptakan untuk meniru beberapa proses yang diamati dalam evolusi alam.

Algoritma Genetika juga merupakan algoritma stochastic yang kuat berdasarkan prinsip-prinsip seleksi alam dan natural genetik yang cukup berhasil diterapkan dalam masalahmachine learningdan optimasi (Guo et al. 2010).

Keberhasilan Algoritma Genetika sangat tergantung pada dua faktor, keragaman populasi dan tekanan selektif. Ada sebuah pengaruh yang kuat antara dua faktor ini. Sebuah peningkatan tekanan seleksi dapat meningkatkan jumlah kromosom langsung yang disalin dari generasi sebelumnya. Sebaliknya, sebuah peningkatan keragaman populasi dapat menurunkan proporsi kromosom yang diwariskan dan kehilangan kesempatan bagi mereka untuk berevolusi sesuai keturunan (Song et al. 2009).

(34)

2.2.5 Evaluasi dan Validasi Klasifikasi

Untuk melakukan evaluasi pada algoritma Naïve Bayes dan algoritma Naïve Bayes dengan Algoritma Genetika dilakukan beberapa pengujian menggunakanconfusion matrixdan kurva ROC.

2.2.5.1Confusion Matrix

Matriks yang menginformasikan hasil prediksi secara keseluruhan dari nilai akurasi dan untuk melihat kinerja pengklasifikasi, yaitu seberapa sering kasus class X yang benar diklasifikasikan sebagai class X atau kesalahan klasifikasiclassyang lainnya .

Ketika dataset hanya memiliki dua kelas, yaitu class positif dan class negatif, maka dapat dibuatkan tabel seperti dibawah ini (Bramer 2007).

Tabel 2.2Classpadaconfussion matrix Correct classification Classified as

+ -

+ true positives false negatives

- false positives true negatives

True positif (tp) merupakan jumlah record positif dalam dataset yang diklasifikasikan positif.True negatif (tn) merupakan jumlah recordnegatif dalam dataset yang diklasifikasikan negatif. False positif merupakan jumlah record negatif dalam dataset yang diklasifikasikan positif. False negatif (fn) merupakan jumlahrecordpositif dalam dataset yang diklasifikasikan negatif.

(35)

2.2.5.2 Kurva ROC(Receiver Operating Characteristic)

Kurva ROC menunjukkan akurasi dan membandingkan klasifikasi secara visual. Kurva ROC mengekspresikan confusion matrix. ROC adalah grafik dua dimensi denganfalsepositif sebagai garis horizontal dantruepositif sebagai garis vertikal.

Pedoman umum untuk mengklasifikasikan keakuratan pengujian menggunakan AUC menurut (Gorunescu 2011) :

0.90 - 1.00 =Excellent Classification;

0.80 - 0.90 =Good Classification;

0.70 - 0.80 =Fair Classification;

0.60 - 0.70 =Poor Classification;

0.50 - 0.60 =Failure.

2.3 Kerangka Pemikiran Penelitian

Penelitian yang dibahas adalah mengenai analisis sentimen review perusahaan penjualan online. Dataset yang digunakan berasal dari situs http://www.consumeraffairs.com/online/online_sales.htm. Data yang digunakan sebanyak 200 data review, 100 review positif dan 100 review negatif. Metode pengklasifikasian yang digunakan dalam penelitian ini adalah Naïve Bayes dengan Algoritma Genetika untuk metode pemilihan fiturnya. Preprocessing dalam penelitian ini menggunakan tokenize,stopwords removal,stemmingdan n- gram.

Tujuan dari penelitian ini adalah mengetahui seberapa meningkatnya akurasi pengklasifikasi Naïve Bayes jika menggunakan Algoritma Genetika untuk

(36)

seleski fitur. Untuk mengevaluasi hasil penelitian ini akan didapatkan nilai akurasi dan nilai AUC. Kerangka pemikiran penelitian ini digambarkan dalam Gambar 2.7.

Gambar 2.7 Kerangka pemikiran penelitian untuk metode yang diusulkan

(37)

3.1 Perancangan Penelitian

Dalam penelitian ini menggunakan metode eksperimen, dimana dilakukan beberapa langkah dalam penelitian ini seperti yang dijelaskan pada Gambar 3.1.

Gambar 3.1 Langkah Metode Penelitian Berikut penjelasan dari langkah yang dilakukan dalam penelitian ini:

1. Pengumpulan Data

Penelitian ini diawali dengan melakukan pengumpulan data. Data yang diperoleh dariwebsiteberupa kumpulan opini masyarakat yang sudah banyak tersedia. Kemudian dari kumpulan opini tersebut diintegrasikan kedalam dataset.

2. Pengolahan Data Awal

Pada tahap pengolahan data, data yang sudah terkumpul, terlebih dahulu diolah dengan melakukan penyeleksian data yang meliputi pembersihan data,

(38)

mentransformasikan data kedalam bentuk yang dibutuhkan.

3. Metode yang Diusulkan

Setelah melakukan pengumpulan dan pengolahan data tahap selanjutnya adalah menentukan metode, dimana metode ini merupakan gambaran dari rangkaian kegiatan dan membagi data kedalam datatrainingdan datatesting.

4. Eksperimen dan Pengujian Metode

Menjabarkan bagaimana eksperimen yang dilakukan sampai terbentuknya model. Melakukan perhitungan dengan masing-masing algoritma yang akan diulang beberapa kali sampai menghasilkan nilai akurasi tertinggi.

5. Evaluasi dan Validasi Hasil

Tahap evaluasi merupakan tahap akhir dari rangkaian kegiatan penelitian ini.

Setelah melakukan tahap pengujian model maka akan menghasilkan nilai akurasi dan AUC. Kemudian dari hasil itu dievaluasi, dari hasil evaluasi itu dapat ditarik kesimpulan dari hasil penelitian ini.

3.2 Pengumpulan Data

Penelitian ini menggunakan data yang berasal dari situs web http://www.consumeraffairs.com/online/online_sales.htm. Banyak review yang tersedia dari situs tersebut menenai ulasan para pelanggan terhadap perusahaan belanjaonline. Data yang digunakan dalam penelitian ini sebanyak 200 data yang terdiri dari 100 datareviewpositif dan 100 datareviewnegatif.

(39)

Berikut ini contoh datareviewpositif:

“I have made several purchases with this website and have been completely satisfied with my shopping experience. Their products and inventory are top- notch. All of my orders have been received in a timely manner and their customer service has been stellar. I would definitely recommend that every jewelry consumer frequent this site before all others. You will definitely find great deals on quality jewelry and magnificent timepieces.”.

Berikut ini contoh datareviewnegatif:

“This company is horrible. The customer service is horrible. Very bad manners, money hungry company that does not value their customers. I gave a down payment on ring. I had a horrible medical problem and wasn't able to get the ring I wanted in the time frame I wanted. In the documentation on the website, it says nowhere that you can't apply your deposit to any other item. Instead of working with their customers, they will try and keep your money and are rude and insensitive about doing so. I am in the process of legal action. I recommend you do not do business with them if you value a company that care about their customers”.

3.3 Pengolahan Data Awal

Tahap selanjutnya adalah pengolahan data awal. Dataset yang digunakan sebanyak 200 data, 100 review positif dan 100 review negatif yang dijadikan sebagai data training. Dataset ini dalam tahap preprocessing harus melalui 4 proses, yaitu:

(40)

1. Tokenization

Yaitu mengumpulkan semua kata yang muncul dan menghilangkan tanda baca maupun simbol apapun yang bukan huruf.

2. Stopword Removal

Yaitu penghapusan kata-kata yang tidak relevan, sepertithe, of, for, with, dan sebagainya.

3. Stemming

Yaitu mengelompokkan kata kedalam beberapa kelompok yang memiliki kata dasar yang sama, sepertidrug, drugged, dan drugsdimana kata dasar dari semuanya adalah katadrug.

4. N-gram

Teknik n-gram didasarkan pada pemisahan teks menjadi string dengan panjang n mulai dari posisi tertentu dalam suatu teks. Posisi n-gram berikutnya dihitung dari posisi yang sebenarnya bergeser sesuai dengan offset yang diberikan.Nilai offset bergantung pada pembagian yang digunakan dalam n-gram. Pembagian n-gram dapat bervariasi tergantung dari pendekatan dalam membagi teks menjadi bentuk n-gram. N-gram untuk setiap string dihitung dan kemudian dibandingkan satu per satu. N- gram dapat berupa unigram (n=1), bigram (n=2), trigram (n=3), dan seterusnya. Teknik n-gram melibatkan 2 (dua) langkah, yaitu membagi string menjadi overlapping n-gram (suatu set substring dengan panjang n) dan melakukan pengecekan untuk mendapatkan substring yang memiliki struktur yang sama.

(41)

3.4 Metode Yang Diusulkan

Metode yang peneliti usulkan adalah menggunakan metode pemilihan fitur yaitu Algoritma Genetika. Algoritma Genetika digunakan agar akurasi menggunakan Naïve Bayes dapat meningkat.

Gambar 3.2 merupakan gambaran untuk model yang diusulkan dalam penelitian ini.

(42)

Gambar 3.2 Model yang diusulkan

(43)

3.5 Eksperimen dan Pengujian Model

Tahapan eksperimen dalam penelitian ini adalah:

1. Menyiapkan dataset untuk eksperimen

2. Inputreviewyang belum pernah diklasifikasi sebelumnya

3. Semua teks dari review yang telah diinput, lakukanpreprocessing, yang diantaranya ada proses untuk menghilangkan tanda baca ataupun simbol, menghapus kata yang tidak relevan, mengelompokkan kata kedalam kata dasar yang sama dan memisahkan teks menjadi string dengn panjang mulai dari posisi tertentu dalam suatu teks.

4. Mendesain arsitektur algoritma Naïve Bayes dan melakukan training dan testinglalu mencatat hasil akurasi dan AUC

5. Melakukan pengujian dengan model 10 fold cross validation dan mencari nilai metode pemilihan fitur

6. Mendesain arsitektur algoritma Naïve Bayes, algoritma pemilihan fitur yaitu Algoritma Genetika dan melakukantrainingdantestinglalu mencatat hasil akurasi dan AUC.

7. Melakukan optimalisasi parameter pada Algoritma Genetika untuk mengetahui akurasi dan AUC yang paling tinggi.

Penelitian yang dilakukan dalam eksperimen ini menggunakan komputer untuk melakukan proses perhitungan terhadap model yang diusulkan. Penggunaan komputer dengan spesifikasi sebagai berikut:

(44)

Tabel 3.1 Spesifikasi komputer yang digunakan

Processor AMD A6-3420M APU with Radeon™ HD Graphics 1.50 GHz

Memori 4.00 GB

Harddisk 650 GB

Sistem Operasi Microsoft Windows 7 Aplikasi RapidMiner 5.2

3.6 Evaluasi dan Validasi Hasil

Tahapan terakhir ini akan melakukan evaluasi terhadap data yang telah diuji sebelumnya, dengan mengevaluasi perbandingan hasil akurasi seluruh eksperimen antara menggunakan algoritma Naïve Bayes dengan algoritma Naïve Bayes dan Algoritma Genetika. Semakin tinggi nilai akurasi, semakin baik pula model yang diusulkan.

(45)

4.1 Pembahasan 4.1.1 Pengumpulan Data

Penelitian ini menggunakan data yang berasal dari situs web http://www.consumeraffairs.com/online/online_sales.htm. Banyak review yang tersedia dari situs tersebut mengenai review para pelanggan terhadap perusahaan penjualan online. Data yang digunakan dalam penelitian ini sebanyak 200 data yang terdiri dari 100review positif dan 100review negatif. Data tersebut masih berupa sekumpulan teks yang terpisah dalam bentuk dokumen. Data review positif disatukan dalam satu folder dan diberi nama positif, sedangkan datareview negatif disatukan dalam satu folder dan diberi nama negatif.

4.1.2 Pengolahan Data Awal a. Tokenization

Dalam proses ini, semua kata yang ada didalam setiap dokumen dikumpulkan dan dihilangkan tanda bacanya, serta dihilangkan jika terdapat simbol atau apapun yang bukan huruf. Berikut adalah contoh hasil dari prosestokenizationdalam RapidMiner.

(46)

Tabel 4.1 Perbandingan teks sebelum dan sesudah dilakukan proses tokenization

Sebelum Proses Tokenization

I have made several purchases with this website and have been completely satisfied with my shopping experience. Their products and inventory are top-notch.

All of my orders have been received in a timely manner and their customer service has been stellar. I would definitely recommend that every jewelry consumer frequent this site before all others. You will definitely find great deals on quality jewelry and magnificent timepieces.

Setelah Proses Tokenization

I have made several purchases with this website and have been completely satisfied with my shopping experience Their products and inventory are top notch All of my orders have been received in a timely manner and their customer service has been stellar I would definitely recommend that every jewelry consumer frequent this site before all others You will definitely find great deals on quality jewelry and magnificent timepieces

b. Stopwords Removal

Dalam proses ini, kata-kata yang tidak relevan akan dihapus, seperti kata the, of, for, with yang merupakan kata-kata yang tidak mempunyai makna tersendiri jika dipisahkan dengan kata yang lain dan tidak terkait dengan dengan kata sifat yang berhubungan dengan sentimen.

(47)

Tabel 4.2 Perbandingan teks sebelum dan sesudah dilakukan proses stopwords removal

Sebelum Proses Stopwords Removal

I have made several purchases with this website and have been completely satisfied with my shopping experience. Their products and inventory are top-notch. All of my orders have been received in a timely manner and their customer service has been stellar. I would definitely recommend that every jewelry consumer frequent this site before all others. You will definitely find great deals on quality jewelry and magnificent timepieces.

Setelah Proses Stopwords Removal

I made purchases website completely satisfied shopping experience products inventory top notch orders received timely manner customer service stellar I definitely recommend jewelry consumer frequent site others definitely find great deals quality jewelry magnificent timepieces

c. Stemming

merupakan salah satu proses dari mengubah token yang berimbuhan menjadi kata dasar, dengan menghilangkan semua imbuhan yang ada pada token tersebut. Seperti drug, drugged, dan drugs dimana kata dasar dari semuanya adalah kata drug. Pentingnya stemming dalam proses pembuatan sistem adalah untuk menghilangkan imbuhan pada awalan dan akhiran. Berdasarkan hasil proses tersebut, akan didapatkan sebuah informasi mengenai banyaknya fitur yang muncul dalam sebuah dokumen.

(48)

Tabel 4.3 Perbandingan teks sebelum dan sesudah dilakukan prosesstemming

Sebelum Proses Stemming

I have made several purchases with this website and have been completely satisfied with my shopping experience. Their products and inventory are top-notch. All of my orders have been received in a timely manner and their customer service has been stellar. I would definitely recommend that every jewelry consumer frequent this site before all others. You will definitely find great deals on quality jewelry and magnificent timepieces.

Setelah Proses Stemming

i made purchas websit complet satisfi shop experi product inventori top notch order receiv time manner custom servic stellar i definit recommend jewelri consum frequent site other definit find great deal qualiti jewelri magnific timepiec

d. N-gram

Teknik n-gram didasarkan pada pemisahan teks menjadi string dengan panjang n mulai dari posisi tertentu dalam suatu teks. Posisi n-gram berikutnya dihitung dari posisi yang sebenarnya bergeser sesuai dengan offset yang diberikan. Nilai offset bergantung pada pembagian yang digunakan dalam n-gram. Pembagian n-gram dapat bervariasi tergantung dari pendekatan dalam membagi teks menjadi bentuk n-gram. N-gram untuk setiap string dihitung dan kemudian dibandingkan satu per satu. N- gram dapat berupa unigram (n=1), bigram (n=2), trigram (n=3), dan seterusnya.

(49)

Teknikn-gram melibatkan 2 (dua) langkah, yaitu membagi string menjadi overlapping n-gram(suatu set substring dengan panjang n) dan melakukan pengecekan untuk mendapatkan substring yang memiliki struktur yang sama.

Tabel 4.4 Perbandingan teks sebelum dan sesudah dilakukan prosesN-gram

Sebelum Proses N-gram

I have made several purchases with this website and have been completely satisfied with my shopping experience. Their products and inventory are top-notch. All of my orders have been received in a timely manner and their customer service has been stellar. I would definitely recommend that every jewelry consumer frequent this site before all others. You will definitely find great deals on quality jewelry and magnificent timepieces.

Setelah Proses N-gram

i mad ade pur urc rch cha has web ebs bsi sit com omp mpl ple let sat ati tis isf sfi sho hop exp xpe per eri pro rod odu duc uct inv nve ven ent nto tor ori top not otc tch ord rde der rec ece cei eiv tim ime man ann nne ner cus ust sto tom ser erv rvi vic ste tel ell lla lar i def efi fin ini nit rec eco com omm mme men end jew ewe wel elr lri con ons nsu sum fre req equ que uen ent sit ite oth the her def efi fin ini nit fin ind gre rea eat dea eal qua ual ali lit iti jew ewe wel elr lri mag agn gni nif ifi fic tim ime mep epi pie iec

4.2 Hasil

4.2.1 Model dengan Metode Klasifikasi Menggunakan Naïve Bayes

Proses klasifikasi disini adalah untuk menentukan sebuah kalimat sebagai anggota class positif atauclass negatif berdasarkan nilai perhitungan probabilitas dari rumus Bayes. Jika hasil probabilitas kalimat tersebut untuk classpositif lebih

(50)

besar dari pada class negatif, maka kalimat tersebut termasuk ke dalam class positif. Jika probabilitas untuk class positif lebih kecil dari pada class negatif, maka kalimat tersebut termasuk ke dalamclassnegatif.

Peneliti hanya menampilkan 10 dokumen dari keseluruhan 200 data. 5 kata yang berhubungan dengan sentimen dan yang paling sering muncul yaitu recommend, disappoint, horrible, gooddangreat.

Tabel 4.5 Proses Klasifikasi Penentuan Sebuah Kalimat Sebagai AnggotaClassPositif atauClassNegatif

Dokumen

Ke- recommend disappoint horrible good great Class

1 1 0 0 0 1 Positif

2 1 0 0 0 1 Positif

3 0 0 0 0 0 Positif

4 1 0 0 1 0 Positif

5 1 0 0 1 0 Positif

101 0 0 1 0 0 Negatif

102 0 0 0 1 0 Negatif

103 1 1 0 0 1 Negatif

104 0 1 0 0 1 Negatif

105 0 1 1 0 0 ?

Probabilitas Bayes yang akan dijelaskan adalah probabilitas untuk dokumen ke 105.

(51)

1. Hitung probabilitas bersyarat (likelihood) dokumen ke 105 pada class positif dan negatif.

Untukclasspositif:

P(105|positif) = P(recommend =1|positif) x P(dissapoint =0|positif) x P(horrible =0|positif) x P(good =1|positif) x

P(great =1|positif)

P(105 |positif) = 4/5 x 0/5 x 0/5 x 2/5 x 1/5

= 0,8 x 0 x 0 x 0,4 x 0,2

= 0 Untukclassnegatif:

P(105| negatif) = P(recommend =1| negatif) x P(dissapoint =1| negatif) x P(horrible =1| negatif) x P(good =1| negatif) x

P(great =1| negatif)

P(105 | negatif) = 1/4 x 3/4 x2/4 x 1/4 x 2/4

= 0,25 x 0,75 x 0,5 x 0,25 x 0,5

= 0,012

2. Probabilitas prior dari class positif dan negatif dihitung dengan proporsi dokumen pada tiapclass:

P(positif) = 5/9 = 0,56 P(negatif) = 4/9 = 0,44

3. Hitung probabilitas posterior dengan memasukkan rumus Bayes dan menghilangkan penyebut P(105):

= 0

= 0,00528

(52)

Berdasarkan probabilitas diatas dapat disimpulkan bahwa nilai dari

lebih kecil dari nilai maka untuk

dokumen ke 105 masuk ke dalamclassnegatif.

Saat melakukan Eksperimen Menggunakan Algoritma Naïve Bayes peneliti menggunakan data sebanyak 200 review. Selain itu juga peneliti menggunakan 10-fold cross validation untuk pengujian model, dimana setiap bagian akan dibentuk secara random. Prinsip10-fold cross validationadalah 1:9, 1 bagian menjadi data testing dan data lainnya menjadi data training, sehingga 10 bagian tersebut berkesempatan menjadi datatesting.

Berikut gambar model Naïve Bayes menggunakan Rapidminer.

Gambar 4.1. Desain model Naïve Bayes menggunakan RapidMiner

Dari 200 data review yaitu 100 data review positif dan 100 data review negatif, sebanyak 91 data sesuai prediksi yaitu negatif dan sebanyak 9 data diprediksi negatif tetapi ternyata positif. 69 data sesuai prediksi yaitu positif dan 31 data diprediksi positif tapi ternyata negatif. Hasil yang diperoleh dengan menggunakan algoritma Naïve Bayes adalah nilaiaccuracy = 80.00% (Tabel 4.6) dan nilai AUC = 0.602 (Gambar 4.1).

(53)

Tabel 4.6 Hasil akurasi menggunakan algoritma Naïve Bayes Accuracy: 80,00% +/- 5,00% (mikro: 80,00%)

true negatif true positif class precision

pred.negatif 91 31 74,59%

pred.positif 9 69 88,46%

class recall 91,00% 69,00%

Nilaiaccuracydariconfusion matrixtersebut adalah sebagai berikut:

Gambar 4.2 GrafikArea Under Curve(AUC) menggunakan Algoritma Naïve Bayes

(54)

4.2.2 Model dengan Metode Klasifikasi Menggunakan Naïve Bayes dan Pemilihan Fitur Algoritma Genetika

Algoritma Genetika diciptakan oleh john Holland pada tahun 1975.

Algoritma Genetika berguna untuk masalah pencarian dan optimasi. Algoritma Genetika menggunakan genetika sebagai model pemecahan masalah. Setiap solusi dalam Algoritma Genetika direpresentasikan melalui kromosom. Kromosom terdiri dari gen, yang unsur-unsur individunya mewakili masalah. Kumpulan dari kromosom disebut populasi. Menurut (Özçift & Gülten, 2013) Umumnya ada tiga paremeter yang digunakan dalam Algoritma Genetika diantaranya:

1. Seleksi

Operator ini digunakan dalam memilih individu untuk reproduksi. Algoritma yang diusulkan menggunakan skemaroulette wheel selection.

2. Mutasi

Operator ini digunakan untuk mengubah solusi baru dalam mencari solusi yang lebih baik.

3. Crossover

Proses mengolah dua kromosom induk dan memproduksi anak dari mereka.

Operator ini diterapkan untuk membuat string yang lebih baik.

Menurut (Gunal 2012) parameter yang optimal dalam Algoritma Genetika diperoleh dengan nilai population size 50, number of generation 30, p crossover 0,8 danp mutation0,08.

Untuk mendapatkan hasil akurasi tertinggi diperlukan parameter-parameter yang membutuhkan adjusment. Parameter yang di-adjusment adalah generasi (Maximum Number of Generation) adjusment dimulai dari 10-100, untuk

(55)

population sizedimulai dari 5-50. Untukp crossover0.1-1.0 dan adjusment untuk p mutationdimulai dari 0.1-1.0.

Tabel 4.7 Rencana Eksperimen Maximum Number

of Generation Population

Size P

Crossover P

Mutation Accuracy AUC

10-100 5-50 0.1-1.0 0.1-1.0 ? ?

Eksperimen dimulai dengan melakukan adjustment terhadap nilai dari maximum number of generation, yaitu mulai dari nilai 10-100 penambahan menggunakan kelipatan 10. Untuk menentukan tingkat akurasi yang paling tinggi darimaximum number of generation.Ketika nilaimaximum number of generation di-adjustment, untuk nilaipopulation size, p crossover danp mutationberada pada nilaidefaultyaitu 5 untukpopulation size, 0.1p crossover, 0.1 untukp mutation.

Tabel 4.8Adjustmentpada nilaimaximum number of generation Maximum Number

of Generation Population

size P

Crossover P

Mutation Accuracy AUC

10 5 0.1 0.1 82.00% 0.632

20 5 0.1 0.1 83.00% 0.504

30 5 0.1 0.1 82.00% 0.638

40 5 0.1 0.1 82.00% 0.632

50 5 0.1 0.1 82.00% 0.632

60 5 0.1 0.1 83.00% 0.600

70 5 0.1 0.1 85.00% 0.590

80 5 0.1 0.1 83.50% 0.586

90 5 0.1 0.1 82.00% 0.632

100 5 0.1 0.1 82.00% 0.632

Akurasi tertinggi didapat pada saat jumlah generasi 70 yaitu 85.00% untuk nilai akurasi dan 0.590 untuk nilai AUC. Nilai maximum number of generation yang akan digunakan untuk eksperimen selanjutnya adalah 70. Selanjutnya dilakukanadjustmentuntuk nilaipopulation sizemulai dari 5-50.

(56)

Tabel 4.9Adjustmentpada nilaipopulation size Maximum Number

of Generation Population

Size P

Crossover P

Mutation Accuracy AUC

70 10 0.1 0.1 84.50% 0.599

70 15 0.1 0.1 85.50% 0.717

70 20 0.1 0.1 88.00% 0.726

70 25 0.1 0.1 88.00% 0.726

70 30 0.1 0.1 89.00% 0.751

70 35 0.1 0.1 87.50% 0.770

70 40 0.1 0.1 91.50% 0.802

70 45 0.1 0.1 92.00% 0.879

70 50 0.1 0.1 92.50% 0.709

Dari hasil adjustment nilai population size, diperoleh nilai population size 50 yang dapat menghasilkan akurasi mencapai 92.50% dan AUC 0.709.

Selanjutnya dilakukanadjustmentuntuk nilaipcrossovermulai dari 0.1-1.0.

Tabel 4.10Adjustmentpada nilaipcrossover Maximum Number

of Generation Population

Size P

Crossover P

Mutation Accuracy AUC

70 50 0.2 0.1 90.00% 0.639

70 50 0.3 0.1 91.50% 0.704

70 50 0.4 0.1 91.50% 0.900

70 50 0.5 0.1 90.50% 0.795

70 50 0.6 0.1 92.00% 0.840

70 50 0.7 0.1 92.00% 0.760

70 50 0.8 0.1 93.50% 0.924

70 50 0.9 0.1 95.00% 0.929

70 50 1.0 0.1 90.50% 0.777

Akurasi tertinggi pada saat adjustment p crossover adalah 95.00% dan AUC 0.929 yang berada diposisi 0,9. Adjustmentterakhir dilakukan untuk nilai p mutationmulai dari nilai 0.1-1.0.

(57)

Tabel 4.11Adjustmentpada nilaipmutation Maximum Number

of Generation Population

size P

Crossover P

Mutation Accuracy AUC

70 50 0.9 0.2 95.00% 0.929

70 50 0.9 0.3 95.00% 0.929

70 50 0.9 0.4 95.00% 0.929

70 50 0.9 0.5 95.00% 0.929

70 50 0.9 0.6 95.00% 0.929

70 50 0.9 0.7 95.00% 0.929

70 50 0.9 0.8 95.00% 0.929

70 50 0.9 0.9 95.00% 0.929

70 50 0.9 1,0 95.00% 0.929

Ternyata untuk adjustment terakhir pada parameter p mutation yang dimulai dari nilai 0.1-1.0 tidak ada perubahan dari nilai akurasi dan AUC. Maka dari itu, untukadjustmentdarip mutationdiambil dari nilaidefaultyaitu 0.1.

Dari proses eksperimen diatas, dapat disimpulkan bahwa untuk mendapatkan nilai akurasi dan AUC paling tinggi yaitu 95.00% dan 0.929 pada Algoritma Genetika, parameter yang optimal untuk nilai maximum number of generationadalah 70,population size50,p crossover0.9 danp mutation0,1.

Berikut gambar desain model Naïve Bayes dengan metode Algoritma Genetika menggunakan Rapidminer.

Gambar 4.3. Desain model Naïve Bayes dan metode Algoritma Genetika menggunakan RapidMiner

(58)

Pengukuran dengan confusion matrix disini akan menampilkan perbandingan dari hasil akurasi model Naïve Bayes sebelum ditambahkan pemilihan fitur Algoritma Genetika yang bisa dilihat pada Tabel 4.12 dan setelah ditambahkan pemilihan fitur Algoritma Genetika yang bisa dilihat pada Tabel 4.13.

Tabel 4.12Confusion MatrixAlgoritma Naïve Bayes Sebelum Penambahan Seleksi Fitur Algoritma Genetika

Accuracy: 80,00% +/- 5,00 (mikro: 80,00%)

true negatif true positif class precision

pred.negatif 91 31 74,59%

pred.positif 9 69 88,46%

class recall 91,00% 69,00%

Tabel 4.13Confusion MatrixAlgoritma Naïve Bayes Setelah Penambahan Seleksi Fitur Algoritma Genetika

Accuracy: 95,00% +/- 3,16 (mikro: 95,00%)

true negatif true positif class precision

pred.negatif 91 1 98,91%

pred.positif 9 99 91,67%

class recall 91,00% 99,00%

Nilaiaccuracydari confusion matrix Algoritma Naïve Bayes setelah penambahan seleksi fitur Algoritma Genetika tersebut adalah sebagai berikut:

(59)

Berikut adalah tampilan kurva ROC yang akan dihitung nilai AUC-nya.

Gambar 4.2 adalah kurva ROC untuk model Naïve Bayes sebelum menggunakan metode pemilihan fitur dan gambar 4.3 adalah kurva ROC untuk model Naïve Bayes setelah menggunakan metode pemilihan fitur.

Gambar 4.4 GrafikArea Under Curve(AUC) Algoritma Naïve Bayes

Gambar 4.5 GrafikArea Under Curve(AUC) Algoritma Naïve Bayes Setelah Penambahan Seleksi Fitur Algoritma Genetika

(60)

Dengan memiliki model klasifikasi teks pada review, pembaca dapat dengan mudah mengidentifikasi mana review yang positif maupun yang negatif.

Dalam penelitian ini, hasil pengujian model akan dibahas melalui confusion matrix untuk menunjukkan seberapa baik model yang terbentuk. Tanpa menggunakan metode pemilihan fitur, algoritma Naïve Bayes sendiri sudah menghasilkan akurasi sebesar 80.00% dan nilai AUC 0.602. Akurasi tersebut masih kurang akurat, sehingga perlu ditingkatkan lagi menggunakan metode pemilihan fitur. Setelah menggunakan metode pemilihan fitur Algoritma Genetika, akurasi algoritma Naïve Bayes meningkat menjadi 95.00% dan nilai AUC 0.929 seperti yang dapat dilihat pada tabel 4.8.

Tabel 4.14 Model algoritma Naïve Bayes sebelum dan sesudah menggunakan metode pemilihan fitur

Algoritma

Naïve Bayes Algoritma Naïve Bayes + Algoritma Genetika

Sukses klasifikasi review positif 91 91

Sukses prediksi review negatif 71 99

Akurasi 80,00% 95,00%

AUC 0,602 0,929

Berdasarkan hasil evaluasi diatas diketahui bahwa algoritma Naïve Bayes setelah penambahan seleksi fitur Algoritma Genetika mampu meningkatkan nilai akurasi untukreviewperusahaan penjualanonline. Pada Gambar 4.6 adalah grafik yang menunjukkan tingkat akurasi dari algoritma Naïve Bayes dan algoritma Naïve Bayes dan Algoritma Genetika. Sedangkan Gambar 4.7 adalah Grafik yang menunjukkan nilai AUC.

(61)

Gambar 4.6 Grafik Akurasi Naïve Bayes sebelum dan sesudah menggunakan pemilihan fitur

Gambar 4.7 Grafik Nilai AUC sebelum dan sesudah menggunakan pemilihan fitur

(62)

Dari pengolahan data yang telah dilakukan dengan metode Naïve Bayes dan Algoritma Genetika terbukti dapat meningkatkan akurasi pada Naïve Bayes.

Data review perusahaan penjualan online dapat diklasifikasikan dengan baik kedalam bentuk positif dan negatif.

4.3 Implementasi

Peneliti membuat aplikasi untuk menguji model yang sudah ada menggunakan dataset yang berbeda dan belum diketahui classnya. Aplikasi dibuat menggunakan dreamweaver dengan bahasa pemrograman PHP. Gambar 4.8 adalah diagram alir dari tahapan proses klasifikasi pada aplikasi yang peneliti buat.

(63)

Gambar 4.8 Diagram alir tahapan proses klasifikasi

Gambar 4.9 adalah tampilan rancangan aplikasi. Gambar 4.10 adalah ketika aplikasi mengklasifikasi review positif.

(64)

Gambar 4.9 Tampilan rancangan aplikasi

Gambar 4.10 Tampilan rancangan aplikasi mengklasifikasi review positif

4.4 Implikasi Penelitian

Implikasi penelitian ini mencakup beberapa aspek, di antaranya:

1. Implikasi terhadap aspek sistem

Hasil evaluasi menunjukkan penerapan Algoritma Genetika untuk seleksi fitur dapat meningkatkan akurasi Naïve Bayes dan merupakan metode yang cukup baik dalam mengklasifikasi teks review perusahaan

(65)

penjualan online. Dengan demikian penerapan metode tersebut dapat membantu para calon konsumen dalam mengambil keputusan saat ingin membeli produk di perusahaan penjualanonlinetertentu.

2. Implikasi terhadap aspek manajerial

Membantu para pengembang sistem yang berkaitan dengan review perusahaan penjualan online dari sosial media lainnya seperti Twitter, Blog, facebook dan lain-lain agar menggunakan aplikasi RapidMiner dalam membangun suatu sistem.

3. Implikasi terhadap aspek penelitian lanjutan

Penelitian selanjutnya bisa menggunakan metode pemilihan fitur ataupun dataset dari domain yang berbeda, seperti review produk, review restoran dan sebagainya.

Gambar

Gambar 2.1 Model Penelitian Ting et al.
Gambar 2.2 Model Penelitian Zhang et al.
Gambar 2.3 Model Penelitian Hidayatullah et al.
Gambar 2.4 Model Penelitian Ling, et al.
+7

Referensi

Garis besar

Dokumen terkait

Tujuan dari penelitian ini adalah untuk mengetahui teknik sequential methods terbaik untuk menangani missing value yang diterapkan dengan algoritma C4.5 dengan algoritma Naïve

1) Algoritma genetika sangat tepat diterapkan pada permasalahan penjadwalan tebangan hutan karena banyaknya petak hutan menyebabkan ruang solusi menjadi besar. 2) Hasil percobaan

Melalui penelitian Analisis Sentimen Data Review Aplikasi Female Daily pada Website Google Play menggunakan Algoritma Naïve Bayes diharapkan mampu mengklasifikasikan

Dalam penelitian ini, akan dilakukan perbandingan hasil klasifikasi antara algoritma naïve bayes tanpa metode seleksi fitur forward selection, dengan algoritma naïve bayes

Hasil evaluasi menunjukkan penerapan Algoritma Genetika (Genetic Algorithm) untuk seleksi fitur dan optimasi parameter pada Support Vector Machines (SVM) mampu

Tujuan dari penelitian ini adalah menerapkan teknik bagging untuk memanipulasi data training , agar kinerja algoritma pengklasifikasi ( Naïve Bayes ) pada seleksi

Kesimpulan dari penelitian ini yaitu algoritma Naïve Bayes dengan fitur seleksi Backward Elimination terbutki dapat meningkatkan hasil evaluasi pada prediksi waktu

algoritma genetika telah berhasil diterapkan pada berbagai permasalahan yang kompleks, maka dari itu penulis akan menggunakan algoritma genetika sebagai algoritma untuk