BAB II LANDASAN TEORI

(1)

BAB II

LANDASAN TEORI

2.1 Tinjauan Pustaka

Berikut ini beberapa studi sebelumnya yang terkait dengan penelitian ini adalah sebagai berikut :

 Analisis Sentimen Masyarakat terhadap Calon Presiden Indonesia 2014 berdasarkan Opini dari Twitter Menggunakan Metode Naïve Bayes Classifier[8].

Dalam penelitian ini, penulis meneliti opini masyarakat terhadap calon presiden Indonesia tahun 2014 yaitu pasangan Prabowo Subianto-Hatta Rajasa dan Joko Widodo-Jusuf Kalla. Penulis menggunakan Naïve Bayes untuk pengklasifikasian dokumen, selain sederhana metode ini mempunyai akurasi yang tinggi jika diaplikasikan dalam data yang besar dan beragam. Data dalam penelitian ini diambil dalam tiga periode yaitu sebelum pemilu legislatif, saat diadakan pemilu legislatif dan setelah deklarasi pengumuman pemilu legislatif kemudian dari data tersebut penulis mengelompokkan opini masyarakat apakah bersifat positif, negatif atau netral. Hasil dari polaritas sentimen, Prabowo Subianto-Hatta Rajasa mendapatkan 47,7% untuk sentimen positif, 26,4% untuk sentimen negatif dan 25,9% untuk sentimen netral sedangkan Joko Widodo-Jusuf Kalla mendapatkan 37,6% sentimen positif, 34,4%

sentimen negatif dan 27,9% sentimen netral dengan tingkat akurasi

sebesar 90%.

(2)

 Penerapan Algoritma Genetika Untuk Seleksi Fitur Pada Analisis Sentimen Review Jasa Maskapai Penerbangan Menggunakan Naïve Bayes[9].

Dalam penelitian ini peneliti menerapkan algoritma genetika untuk melakukan seleksi fitur pada dokumen dan algoritma naïve bayes untuk klasifikasi. Penggabungan keduanya bertujuan untuk meningkatkan akurasi. Tokenization, Stopword Removing, Stemming adalah pre-pocessing yang dilakukan sebelum melakukan seleksi fitur.

Nilai akurasi yang dihasilkan metode naïve bayes berbasis algoritma genetika adalah 89.5% dan AUC sebesar 0.919 metode tersebut berhasil meningkatkan akurasi sebesar 29.5% dan AUC sebesar 0.407 dari percobaan tanpa menggunakan algoritma genetika sebagai seleksi fitur yang hanya menghasilkan nilai akurasi sebesar 60% .

 An Ensemble Sentiment Classification System of Twitter Data for Airline Services Analysis[7].

Penelitian ini menggunakan enam metode untuk klasifikasi

yaitu Lexicon-based classifier, Naïve Bayes, Bayesian Network, SVM

(Support Vector Machine), C4.5 (Decision Tree), Random Forest serta

satu metode yang disebut dengan Ensemble Classifier yang

menggabungkan lima metode (Naïve Bayes, Bayesian Network, SVM,

C4.5 dan Random Forest) untuk mendapatkan akurasi yang lebih

tinggi. Dalam penelitian ini terdapat empat kelas yaitu kelas positif

(4288 tweet), negatif (35876 tweet), netral (40987 tweet) dan

irrelevant (26715 tweet). Perolehan akurasi masing-masing saat tidak

dikombinasikan dengan dataset dua kelas (menghilangkan kelas netral

dan irrelevant) adalah Lexicon Based 67.9%, Naïve Bayesian 90%,

Bayesian Network 91.4%, SVM 84.6%, Random Forest 89.8%.

(3)

Metode Lexicon Based tidak ikut dalam kombinasi karena perolehan akurasinya paling sedikit yaitu 67,9%, perolehan akurasi ensemble dengan dataset dua kelas yaitu 91.7% sedangkan perolehan akurasi ensemble untuk dataset tiga kelas yaitu 84.2%.

 Klasifikasi Teks dengan Naïve Bayes Classifier (NBC) untuk Pengelompokkan Teks Berita dan Abstrak Akademis[10].

Metode Naïve Bayes Classifier (NBC) untuk mengkategorikan dokumen berita dengan 1000 dokumen dan abstrak akademis 450 dokumen, masing-masing dilakukan percobaan sebanyak 7 kali pada percobaan pertama untuk dokumen berita memperoleh akurasi 91%

dengan 900 data latih dan 100 data uji, percobaan kedua memperoleh akurasi 87% dengan 800 data latih dan 200 data uji, percobaan ketiga memperoleh akurasi 85% dengan 700 data latih dan 300 data uji, percobaan keempat memperoleh akurasi 84% dengan 600 data latih dan 400 data uji, percobaan kelima memperoleh akurasi 84% dengan 500 data latih dan 500 data uji, percobaan keenam memperoleh akurasi 81% dengan 400 data latih dan 600 data uji, percobaan yang terakhir memperoleh akurasi 74% dengan 300 data latih dan 700 data uji.

Sedangkan untuk abstrak akademis pada percobaan pertama

memperoleh akurasi 82% dengan 405 data latih dan 45 data uji, pada

percobaan memperoleh akurasi 81% dengan 360 data latih dan 90 data

uji, pada percobaan ketiga memperoleh akurasi 78% dengan 315 data

latih dan 135 data uji, pada percobaan keempat memperoleh akurasi

75% dengan 270 data latih dan 180 data uji, pada percobaan kelima

memperoleh akurasi 75% dengaan 225 data latih dan 225 data uji,

pada percobaan keenam memperoleh akurasi 68% dengan 180 data

latih dan 270 data uji dan pada percobaan terakhir memperoleh akurasi

(4)

65% dengan 135 data latih dan 315 data uji. Semakin banyak data latih maka semakin besar akurasi yang didapatkan.

 Analisis Opini Terhadap Fitur Smartphone pada Ulasan Website Berbahasa Indonesia[11]

Pengumpulan data dilakukan dengan cara web scraping yaitu mengambil data review dari website target. Yang termasuk dalam target analisa adalah BOLT 4G Powerphone IVO, Samsung Galaxy Grand I9082 White, Apple iPhone 5S 16GB Gold White, Microsoft Lumia Orange dan Nokia Lumia 520 Black. Sebelum dilakukan analisa data yang diperoleh dari web harus melalui tahap preprocessing agar memperoleh review data bersih kemudian Lexicon based, rule bahasa dan score function digunakan untuk menganalisis opini. Dari hasil pengujian diperoleh rata-rata nilai recall dan precision masing-masing sebesar 0.63 dan 0.72 sedangkan akurasinya sebesar 81.76%.

Tabel 2. 1 Penelitian Terkait

No Peneliti Tahun Judul Metode Hasil

1 Faishol Nurhuda, Sari Widya Sihwi, Afrizal Doewes

2013 Analisis Sentimen Masyarakat terhadap Calon Presiden Indonesia 2014 berdasarkan Opini dari Twitter menggunakan

Metode Naïve Bayes

POS (Part-of- speech)

Tagging untuk ekstraksi opini dan Naïve Bayes

Classifier untuk

Dalam

penelitian ini, peneliti

mengambil data

yang berupa

opini masyarakat

dari twitter

kemudian

(5)

Classifier klasifikasi dan mengukur tingkat akurasi.

diklasifikasi menggunakan metode Naïve Bayes. Hasil yang didapatkan dari pengujian 100 data random yang sudah diklasifikasi polaritas secara manual dengan menggunakan

1400 data

training mendapatkan akurasi sebesar 90%.

2 Risa Wati 2016 Penerapan

Algoritma Genetika Untuk Seleksi Fitur Pada Analisis Sentimen Review Jasa Maskapai Penerbangan

Menggunakan Naïve Bayes

Algoritma Genetika untuk seleksi fitur pada dokumen dan Naïve Bayes untuk klasifikasi.

Penulis

menggabungkan Algoritma

Genetika sebagai

seleksi fitur dan

Algoritma Naïve

Bayes untuk

klasifikasi yang

bertujuan untuk

meningkatkan

akurasi. Hasil

(6)

akurasi sebelum menggunakan pemilihan fitur Algoritma

Genetika sebesar 60%, adapun hasil setelah menggunakan pemilihan fitur Algoritma

Genetika sebesar 89.5% dan AUC sebesar 0.919 maka terjadi peningkatan akurasi sebesar 29.5% dan AUC sebesar 0.407.

3 Yun Wan, Dr.

Qigang Gao

2015 An Ensemble

Sentiment Classification

System of Twitter Data for Airline Sevices Analysis

Lexicon-based classifier, Naïve Bayes Classifier, Bayesian Network classifier, SVM, C4.5 Decision Tree,

Metode The Ensemble

Classifier yaitu metode yang menggabungkan

5 metode

sekaligus (naïve

bayes, Bayesian

network, SVM,

(7)

Random

Forest, The Ensemble Classifier

C4.5 dan

Random Forest) memperoleh akurasi tertinggi yaitu sebesar 91.7%, metode Lexicon-based classifier memperoleh akurasi paling rendah yaitu sebesar 67.9%

saja. Untuk tingkat akurasi metode lainnya yaitu Naïve Bayes sebesar 90%, Bayesian Network sebesar 91.4%, SVM sebesar 84.6%, C4.5 sebesar

86% dan

Random Forest sebesar 89.8%

perolehan

akurasi tersebut

berdasarkan

(8)

dataset yang menggunakan dua kelas (kelas positif dan negatif)

sedangkan perolehan

akurasi untuk dataset yang menggunakan tiga kelas (ditambahkan kelas netral)

sama saja

urutannya tetapi nilai akurasi pada masing- masing metode sedikit menurun.

4 Amir Hamzah

2012 Analisa Klasifikasi Teks dengan Naïve Bayes Classifier

(NBC) untuk

Pengelompokkan Teks Berita dan Abstrak Akademis

Naïve Bayes Classifier

Dilakukan

sebanyak 7 kali percobaan untuk dokumen berita maupun

dokumen abstrak akademis pada percobaan

pertama dengan

(9)

jumlah data latih dan data uji 9:1 dari dokumen seluruhnya meghasilkan akurasi yang paling tinggi kemudian data latih dikurangi jumlahnya akurasinya berkurang juga.

Penggunaan data latih sebesar 50% dari data seluruhnya memperoleh hasil akurasi lebih dari 75%.

5 Doni Setyawan, Edi Winarko

2016 Analisis Opini terhadap Fitur Smartphone pada Ulasan Website Berbahasa Indonesia

Lexicon based, rule bahasa dan score function.

Hasil akurasi yag

didapatkan

dalam penelitian

ini adalah

81.76% dengan

nilai recall dan

precisionnya

masing-masing

adalah 0.63 dan

(10)

2.2 Landasan Teori 2.2.1. Twitter

Twitter adalah sosial media yang dibatasi dengan 140 karakter untuk sekali “berkicau”. Twitter disebut jejaring sosial berupa microblog karena situs ini memungkinkan penggunanya mengirim dan membaca pesan blog[12]. Selain siapa saja dapat menggunakan twitter dan penggunaannya yang mudah (user friendly) banyak sekali informasi yang ada di twitter seperti berita apa yang sedang ramai diperbincangkan dunia, informasi mengenai pekerjaaan, artis favorit dan teman teman kita. Berikut adalah dampak positif dan negatif yang ditimbulkan twitter:

Positif :

 Sebagai media informasi, promosi dan komunikasi.

 Tanpa melakukan login sudah mendapatkan update informasi yang ada di twitter.

 Untuk meraih kepopuleran, misalnya kita meng-upload sesuatu yang membuat user lain suka dan simpati maka kita mendapatkan kepopuleran lewat twitter.

0.72. Pengumpulan

data dilakukan

web scraping

yaitu dengan

mengumpulkan

review opini

masyarakat di

web target.

(11)

 Banyak teman baru yang dapat kita peroleh melalui twitter.

Negatif :

 Dapat menimbulkan konflik antar pengguna.

 Banyaknya spam yang ada di twitter sehingga membuat penggunanya tidak nyaman.

 Jika kecanduan dengan twitter menyebabkan rasa malas.

2.2.1.1. API Twitter

Karena twitter menghasilkan jutaan tweet setiap harinya developer menyediakan API Twitter (Application Programming Interface) untuk menyimpan tweet tersebut agar mempermudah seseorang untuk mengakses informasi yang ada didalamnya untuk tujuan pengembangan aplikasi.

Untuk dapat mengakses API Twitter dibutuhkan Consumer Key dan Consumer Secret keduanya berfungsi agar twitter mengetahui aplikasi yang kita buat [6]. Langkah pertama yang dilakukan adalah login dengan akun twitter ang kita miliki ke http://dev.twitter.com dan http://twitter.com lalu ikuti langkah-langkah yang ada didalamnya dan sediakan nomor handphone yang aktif untuk mendapatkan kode konfirmasi. Setelah mendapatkan API key, API secret, Access token dan Access token secret, API Twitter dapat diakses.

2.2.2. Text Mining

Text Mining dapat diartikan sebagai penambangan teks yang

bertujuan untuk mendapatkan data berupa dokumen yang tidak

terstruktur sehingga dapat dilakukan analisis agar dokumen menjadi

(12)

terstruktur dan informasi dapat diperoleh dari dokumen tersebut.

Kegiatan riset untuk text mining antara lain ekstraksi dan penyimpanan teks, preprocessing akan konten teks, pengumpulan data statistic serta indexing analisis sentimen[13]. Contoh pemanfaatan text mining antara lain untuk menyaring spam di email, pencarian lirik lagu di google, mengklasifikasi dokumen.

2.2.3. Sentimen Analisis

Sentimen analisis adalah ungkapan perasaan yang diubah menjadi bentuk tekstual yang memiliki tujuan untuk menganalisis, memahami, mengolah dan mengekstrak data tekstual yang berupa opini terhadap entitas seperti produk, servis, organisasi, individu dan topik tertentu. Tugas dasar dalam analisis sentimen adalah mengelompokkan popularitas dari teks yang ada dalam dokumen, apakah pendapat yang dikemukakan bersifat positif, negatif atau netral[16]. Sentimen analisis atau dapat disebut juga opinion mining dapat mempengaruhi sikap seseorang terhadap suatu objek dan dimanfaatkan untuk mengetahui kelebihan dan kekurangan objek tersebut.

2.2.4. Situs Belanja Online

Situs belanja online adalah website yang menjual produk secara elektronik menggunakan bantuan jaringan internet dan alat elektronik lainnya untuk melakukan transaksi. Ada empat macam e- commerce yaitu :

a. C2C (Customer to Customer) adalah situs e-commerce yang

penjualnya mendaftarkan diri kesebuah market place yang

meyediakan tempat penjual dan pembeli untuk “bertemu” jadi

penjual yang sudah memilki akun dapat menjual barang miliknya

yang baru maupun bekas dengan meng-upload gambar ke website

market place agar menarik pembeli, jika pembeli tertarik dengan

(13)

barang yang ditawarkan mereka dapat menghubungi kontak yang tersedia. Pihak market place tidak bertanggung jawab atas pengiriman barang, contohnya seperti KasKus, OLX, Jualo.

b. B2B (Bussiness to Bussiness) hampir sama seperti yang pertama hanya saja bukan individu yang menjual barang melainkan perusahaan yang berperan sebagai produsen/distributor yang menawarkan barangnya ke perusahaan lain, contohnya seperti Alibaba, Indonetwork.

c. B2C (Bussiness to Customer) perusahaan menjual barang kepada customer secara langsung tanpa perantara market place dengan kata lain perusahaan memiliki “toko” online sendiri mereka bertangung jawab pada pengiriman barang, transaksi transfer uang meskipun barang yang dijual bukan produk dari perusahaan mereka sendiri, contohnya seperti Matahari Mall, Berrybenka, Zalora.

d. B2B2C (Bussiness to Bussiness to Customer) hampir sama seperti yang ketiga perbedaannya perusahaan/individu yang bertidak sebagai distributor dapat meng-upload gambar barang yang akan dijual ke website market place transaksi dilakukan melalui pihak market place kemudian baru diberikan pada pihak distributor, contohnya seperti Tokopedia, Sociolla, Shopee, Lazada, Bukalapak. Berikut adalah kelebihan dan kelemahan situs belanja online :

Kelebihan :

 Tidak dibatasi wilayah jika ingin membeli dan dapat diakses kapan saja dimana saja.

 Seringkali diadakan diskon, kupon potongan untuk berbelanja

dan gratis ongkos kirim.

(14)

 Menghemat biaya akomodasi karena tidak usah datang ke toko.

 Menambah keuntungan bagi penjual karena tidak usah membangun “toko” sungguhan.

Kekurangan :

 Transaksi bergantung pada rasa saling percaya, adanya jaringan internet, listrik dan rekening/atm.

 Sering terjadi penipuan yang dilakukan oleh penjual maupun pembeli.

 Tidak dapat mengecek barang.

 Banyak situs belanja online yang tidak mau bertanggung jawab jika ada pembeli yang ingin menukar barang.

2.2.5. Prepocessing

Data tweet yang telah diambil dari twitter masih berupa data mentah maka dari itu dilakukan tahap preprocessing untuk mendapatkan data bersih agar dapat diproses ke tahap selanjutnya.

Tahapan yang dilakukan adalah cleansing data, case folding, tokenizing dan filtering yang terdiri dari stopword removal serta stemming.

2.2.5.1. Cleansing Data

Dilakukan untuk mengurangi noise pada data tweet.

Kata-kata yang tidak penting dihilangkan seperti URL, hashtag (#), username (@username), email, emoticon ( :@, :*, :D ), tanda baca seperti koma (,), titik (.) dan juga tanda baca lainnya[14].

Tabel 2. 2 Contoh cleansing data

Input

(15)

@LazadaIDCare kecewa dengan pelayanan dari CS Lazada, kemarin saya diinfokan bisa loh utk aktivasi kembali akun.

Output

kecewa dengan pelayanan dari CS Lazada kemarin saya diinfokan bisa loh utk aktivasi kembali akun

2.2.5.2. Case Folding

Dalam penulisan tweet, pasti terdapat perbedaan bentuk huruf, tahapan ini merupakan proses merubah bentuk huruf menjadi huruf kecil (lower case) atau dapat disebut juga penyeragaman bentuk huruf.

Tabel 2. 3 Contoh Case Folding Input

kecewa dengan pelayanan dari CS Lazada kemarin saya diinfokan bisa loh utk aktivasi kembali akun

Output

kecewa dengan pelayanan dari cs lazada kemarin saya diinfokan bisa loh utk aktivasi kembali akun

2.2.5.3. Tokenizing

Proses tokenizing atau parsing adalah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya. Pada dasarnya proses tokenizing adalah pemenggalan kalimat menjadi kata.

Tabel 2. 4 Contoh tokenizing Input

kecewa dengan pelayanan dari cs lazada kemarin saya diinfokan

bisa loh utk aktivasi kembali akun

(16)

Output

kecewa, dengan, pelayanan, dari, cs, lazada, kemarin, saya, diinfokan, bisa, loh, untuk, aktivasi, kembali, akun

2.2.5.4. Stopword Removal

Stopword Removal merupakan proses menghilangkan daftar kata-kata yang tidak mendeskripsikan sesuatu yang semestinya dihilangkan seperti “yang”, “di”, “ke”, “itu” dan lain sebagainya.

Tabel 2. 5 Contoh stopword removal Input

kecewa, dengan, pelayanan, dari, cs, lazada, kemarin, saya, diinfokan, bias, loh, untuk, aktivasi, kembali, akun

Output

kecewa pelayanan cs lazada kemarin saya info bisa aktivasi kembali akun

2.2.5.5. Stemming.

Stemming adalah tahapan untuk membuat kata berimbuhan menjadi kata dasar sesuai dengan aturan Bahasa Indonesia yang benar.

Tabel 2. 6 Contoh stemming Input

kecewa pelayanan cs lazada kemarin saya bisa aktivasi kembali akun

Output

kecewa pelayanan lazada kemarin saya bisa aktif kembali akun

(17)

2.2.5.6. Convert Negation

Dalam Bahasa Indonesia terdapat kata “tidak”, “nggak”,

“tak”, “kurang”, “tanpa” yang disebut kata negasi yaitu kata yang dapat membalikan arti dari kata yang sebenarnya.

Tabel 2. 7 Contoh convert negation Input

nggak suka belanja di lazada kualitas barang jelek Output

nggak_suka belanja di lazada kualitas barang jelek

2.2.6. Opinion Word

Adalah kumpulan kamus kata positif dan negatif dalam Bahasa Indonesia. Dibuat pertama kali oleh Liu dalam penelitiannya kemudian diterjemahkan ke dalam Bahasa Indonesia yang berguna untuk menghitung kata sentimen dalam sebuah kalimat. Agar selanjutnya dapat digunakan sebagai rumus untuk menghitung jarak centroid dengan dokumen dalam proses clustering. Dalam kamus kata opinion word terdapat kurang lebih 2400 kata negatif dan 1900 kata positif.

Tabel 2. 8 Kumpulan kata positif

a+ Ajaib Amat apresiasi bakat

Acungan Aklamasi Ambisius Asli bangga Adaptif Akomodatif Andal aspirasi bantuan

Adil Akurat Aneh asyik banyak

Afinitas alam mimpi Anggun bagos banyak akal Afirmasi Alhamdulillah angin sepoi bagus barang

baru

(18)

Agilely allahu akbar Angkat bahagia batu permata Agung Altruistis Antusias baik bebas

Ahli Aman Antusiasme baik

diposisikan

bebas masalah Ahlinya Amanah Pik baik sekali bebas

pulsa

Tabel 2. 9 Kumpulan kata negatif

Abnormal agresor amat panas Anarki anjlok

Absurd Aib Ambigu Anarkis anomali

Acak air terjun Ambivalen Anarkisme antagonis acak-

acakan

Akurat ambivalensi Ancaman antagonisme

Acuh Alarm Amoral Aneh antek

acuh tak acuh

Alas an Amoralitas aneh lagi anti-

Adiktif alat permainan

Ampun Anehnya anti- Amerika

Adil Alergi Amuk Angkuh anti-Israel

Agresi Alergik anak nakal Angriness anti-kita Agresif amat

ketakutan

anak yatim Anjing anti-

pendudukan

2.2.7. Clustering

Data mentah yang diperoleh dari twitter termasuk data

unsupervised, yaitu data yang belum memiliki label maka dari itu

dilakukan proses clustering untuk memberikan label data yang telah

diberikan label disebut data supervised.

(19)

2.2.7.1. K-Means

Langkah-langkah perhitungan clustering dengan menggunakan metode k-means :

1. Menentukan jumlah dokumen yang akan di clustering.

2. Menentukan pusat cluster (centroid) secara acak.

Dalam perhitungan kali ini terdiri dari dua pusat cluster yaitu C1 sebagai centroid negatif dan C2 sebagai centroid positif..

3. Setiap dokumen dihitung jaraknya ke centroid menggunakan persamaan euclidean distance. Rumus euclidean distance, yaitu :

( ) √( ) ( ) Dimana :

( ) = jarak antara dokumen i dan j

( ) = selisih kuadrat jarak antara dokumen i dan j pada dokumen yang pertama

( ) = selisih kuadrat jarak antara dokumen i dan j pada dokumen yang kedua.

e. Menghitung jarak cluster C1 (positif) f. Menghitung jarak cluster C2 (negatif)

4. Mengelompokkan semua dokumen berdasarkan jarak yang terkecil.

5. Menghitung nilai rata-rata dari dokumen yang ada

pada centroid yang sama untuk menentukan centroid

baru.

(20)

6. Kemudian hitung kembali jarak antara dokumen dengan centroid menggunakan euclidean distance.

7. Jika centroid baru tidak sama dengan centroid lama maka kembali ke langkah dua.

2.2.8. Klasifikasi

Klasifikasi adalah proses menemukan model dari sebuah data.

Tujuan dari klasifikasi adalah untuk mengambil suatu keputusan dengan memprediksi suatu kasus berdasarkan hasil klasifikasi yang diperoleh. Dalam proses pengklasifikasian terdapat 2 proses yang dilakukan yaitu :

a. Proses training

Pada proses ini dilakukan training set yang sudah diketahui label-labelnya untuk membangun model[15].

b. Proses testing

Proses ini untuk mengetahui keakuratan model yang dibangun pada proses training, umumnya digunakan data yang disebut data test set untuk memprediksi label[15].

2.2.8.1. Naïve Bayes Classifier

Naïve Bayes Classifier adalah algoritma kalsifikasi yang mudah, sederhana dan paling umum digunakan untuk klasikasi dokumen. Langkah perhitungan Naïve Bayes Classifier adalah :

Tabel 2. 10 Contoh data latih

Dok Teks label

(21)

D1 terimakasih lazada barang pesanan saya sudah sampai dengan selamat pengemasan barang juga bagus. Good.

C2(positif)

D2 ngeri belanja di lazada banyak barang palsu C1(negatif) D3 suka belanja di lazada lengkap kualitas

bagus harganya murah

C2(positif)

D4 barang di lazada jelek seperti dipasar C1(negatif)

1. Menentukan data uji Tabel 2. 11 Data Uji

kapok belanja di lazada sudah transfer uang barang tidak dikirim

2 Menentukan probabilitas kategori dari data latih P(+) =

P(-) =

3 Menghitung probabilitas kosakata (tf) dari data latih

Tabel 2. 12 Frekuensi kata

Kata D1 D2 D3 D4

Terimakasih 1 0 0 0

Lazada 1 1 1 1

Barang 2 1 0 1

pesan 1 0 0 0

Sampai 1 0 0 0

Selamat 1 0 0 0

Kemas 1 0 0 0

(22)

Bagus 1 0 1 0

Ngeri 0 1 0 0

Belanja 0 1 1 0

Palsu 0 1 0 0

Suka 0 0 1 0

Lengkap 0 0 1 0

Kualitas 0 0 1 0

Harga 0 0 1 0

Murah 0 0 1 0

Jelek 0 0 0 1

Pasar 0 0 0 1

4 Menghitung probabilitas untuk setiap kelas data latih

P(wk) =

Dimana,

P(wk) = probabilitas term

Pk+1 = query + angka satu agar hasil perhitungan tidak nol

n = semua jumlah kata yang muncul di outcome dokumen

|vocab| = total kata keseluruhan

a. Probabilitas untuk sentimen positif P(terimakasih|+) =

P(lazada|+) =

P(barang|+) =

P(pesan|+) =

(23)

P(sampai|+) =

P(selamat|+) =

P(kemas|+) =

P(bagus|+) =

P(ngeri|+) =

P(belanja|+) =

P(palsu|+) =

P(suka|+) =

P(lengkap|+) =

P(kualitas|+) =

P(harga|+) =

P(murah|+) =

P(jelek|+) =

P(pasar|+) =

b. Probabilitas untuk sentimen negatif P(terimakasih|-) =

P(lazada|-) =

P(barang|-) =

P(pesan|-) =

P(sampai|-) =

(24)

P(selamat|-) =

P(kemas|-) =

P(bagus|-) =

P(ngeri|-) =

P(belanja|-) =

P(palsu|-) =

P(suka|-) =

P(lengkap|-) =

P(kualitas|-) =

P(harga|-) =

P(murah|-) =

P(jelek|-) =

P(pasar|-) =

5 Menentukan Vmap untuk data uji

Vmap= P(wk|c)xP(c)

a. Vmap untuk sentimen positif

P(positif) x P(kapok|+) x P(belanja|+) x P(lazada|+) x P(uang|+) x P(barang|+) x P(- kirim|+)

=

b. Vmap untuk sentimen negatif

(25)

P(negatif) x P(kapok|-) x P(belanja|-) x P(lazada|-) x P(uang|-) x P(barang|-) x P(- kirim|-)

= (ini masuknya data uji)

6 Kasifikasi data uji

Jadi data uji tersebut termasuk dalam kategori kelas negatif (-) karena nilai P(-) > P(+).

2.2.9. Evaluasi dan Validasi

Proses evaluasi dan validasi yamg digunakan yaitu K-Fold Cross Validation. Dataset dibagi menjadi sejumlah K-buah partisi secara acak. Kemudian dilakukan sejumlah K-kali percobaan, dimana masing-masing percobaan menggunakan data partisi ke-K sebagai data uji dan memanfaatkan sisa partisi lainnya sebagai data latih.

Contohnya diambil 8 data untuk proses k-fold validation seperti dibawah ini :

Tabel 2. 13 Dataset

K1 K2 K3 K4 K5 K6 K7 K8

Tabel 2. 14 Data Eksperimen Data eksperimen

ke-

Data Latih Data Uji

1 K2,K3,K4,K5,K6,K7,K8 K1

2 K1,K3,K4,K5,K6,K7,K8 K2

3 K1,K2,K4,K5,K6,K7,K8 K3

4 K1,K2,K3,K5,K6,K7,K8 K4

5 K1,K2,K3,K4,K6,K7,K8 K5

(26)

Akurasi

Akurasi =

Dimana :

TP (True Positive) merupakan jumlah data kelas positif yang diklasifikasikan sebagai kelas positif.

TN (True Negative) merupakan jumlah data kelas negatif yang diklasifikasikan sebagai kelas negatif.

FP (False Positive) merupakan jumlah data kelas negatif yang diklasifikasikan sebagai kelas positif.

FN (False Negative) merupakan jumlah data kelas positif yang diklasifikasikan sebagai kelas negatif.

Berikut ini contoh jika menggunakan data:

Tabel 2. 15 Contoh Kalimat

Tweet Kelas

sebenarnya

Kelas prediksi

Hasil

ayo belanja aman positif Positif TP

tolong respon keluh konsumen positif negatif TN

cari cewek ol cocok positif Positif FP

call bicara robot bicara keluh negatif negatif FN

6 K1,K2,K3,K4,K6,K7,K8 K6

7 K1,K2,K3,K4,K5,K6,K8 K7

8 K1,K2,K3,K4,K5,K6,K7 K8

(27)

a. Pada dokumen pertama kelas sebenarnya adalah positif dan setelah di prediksi menunjukkan kelas positif maka hasil nilai prediksi benar (correct result) atau TP.

b. Pada dokumen kedua kelas sebenarnya adalah positif dan setelah di prediksi menunjukkan kelas negatif maka hasil nilai prediksi tidak ada yang benar (correct absence result) atau TN.

c. Pada dokumen pertama kelas sebenarnya adalah positif dan setelah di prediksi menunjukkan kelas positif dengan data tidak sesuai maka hasil tidak sesuai dengan nilai prediksi (unexpeted result) atau FP.

d. Pada dokumen pertama kelas sebenarnya adalah negatif dan setelah di prediksi menunjukkan kelas negatif dengan data tidak sesuai maka hasil prediksi salah (missing result) atau FN.

2.2.10. Kerangka Pemikiran

Tabel 2. 16 Kerangka Pikir

(28)

Masalah

Konsumen sering kali bingung untuk menentukkan situs belanja online mana yang akan dipilih untuk berbelanja, sering membaca opini tetapi

tidak dapat menyimpulkan karena data terlalu banyak.

Tujuan

Menyimpulkan opini masyarakat tentang situs belanja online yang memberikan pelayanan paling baik dengan menggunakan metode k- means untuk klastering dan metode naïve bayes untuk klasifikasi.

Pendekatan

Data Metode

1200 data yang sudah melalui proses pre-pocessing dan pemberian kelas dengan clustering