Analisis Sentimen Review Produk Skincare Dengan Naïve Bayes Classifier Berbasis Particle Swarm Optimization (PSO)

(1)

Analisis Sentimen Review Produk Skincare Dengan Naïve Bayes Classifier Berbasis Particle Swarm Optimization (PSO)

Tri Astuti¹, Yuli Astuti^2,*

1Fakultas Ilmu Komputer, Program Studi Informatika, Universitas Amikom Yogyakarta, Yogyakarta, Indonesia

2 Fakultas Ilmu Komputer, Program Studi Manajemen Informatika, Universitas Amikom Yogyakarta, Indonesia Email: ¹[email protected], ^2*[email protected]

Email Penulis Korespondensi:[email protected]

Abstrak−Produk perawatan kulit (skincare) sudah menjadi kebutuhan utama semua kalangan yang menjadi target dari berbagai brand produk perawatan kulit. Namun tidak semua produk perawatan kulit memiliki kualitas yang baik sesuai dengan kebutuhan konsumen. Mereka mencari produk yang memiliki kualitas terbaik dengan cara melihat ulasan dari orang lain, sehingga mereka memiliki gambaran yang mempengaruhi minat mereka dari ulasan orang lain yang disampaikan melalui berbagai platform marketplace atau sosial media terkait hasilnya setelah memakai produk perawatan kulit tersebut. Analisis sentimen merupakan salah satu cara untuk menganalisis dan mengklasifikasikan ulasan kedalam opini positif dan opini negatif terkait produk yang bersangkutan untuk dicari kualitas produk berdasarkan pandangan publik. Algoritma yang digunakan dalam penelitian ini adalah Naive Bayes Classifier. Metode Naive Bayes Classifier dipilih dengan alasan kemudahan dalam implementasinya, cepat dan memiliki akurasi yang tinggi. Pada Metode Naïve Bayes juga mempunyai kekurangan yaitu sensitif pada seleksi fitur, yang mengakibatkan akurasi klasifikasi menjadi rendah. Oleh karena itu, dalam penelitian ini digunakan metode pemilihan fitur, yaitu Particle Swarm Optimization agar dapat meningkatkan akurasi pengklasifikasi Naïve Bayes.

Dataset yang digunakan sebanyak 800 data review dan diujikan menggunakan 10-Fold Cross Validation. Hasil penelitian menunjukkan peningkatan akurasi dari 77.96% menjadi 79.85%.

Kata Kunci: Naive Bayes; Particle Swarm Optimization; Analisis Sentimen; Review; Cross Validation

Abstract−Skin care products have become the main needs of all people who are the targets of various brands of skin care products. However, not all skin care products have good quality according to consumer needs. They look for products that have the best quality by looking at reviews from other people, so they have an idea that influences their interest from other people's reviews submitted through various marketplace platforms or social media regarding the results after using these skin care products. Sentiment analysis is one way to analyze and classify reviews into positive opinions and negative opinions regarding the product in question to look for product quality based on public views. The algorithm used in this research is the Naive Bayes Classifier. The Naive Bayes Classifier method was chosen for reasons of ease of implementation, fast and high accuracy.

The Naïve Bayes method also has a disadvantage, namely it is sensitive to feature selection, which results in low classification accuracy. Therefore, in this study, the feature selection method, namely Particle Swarm Optimization, was used in order to increase the accuracy of the Naïve Bayes classifier. The dataset used is 800 data reviews and tested using 10-Fold Cross Validation. The results showed an increase in accuracy from 77.96% to 79.85%.

Keywords: Naive Bayes; Particle Swarm Optimization; Sentiment Analysis; Review; Cross Validation

1. PENDAHULUAN

Produk Skincare adalah suatu bahan pendukung perawatan kulit yang digunakan untuk menjaga kulit agar tetap sehat dan berfungsi dengan baik. Selain hal tersebut, produk perawatan kulit digunakan secara rutin dan terus menerus oleh manusia sebagai sarana untuk mengatasi dan mencegah berbagai permasalahan kulit yang terjadi [1]. Berbagai jenis brand produk skincare yang beredar di pasaran saat ini sangat beragam. Namun tidak semua produk tersebut memiliki kualitas yang baik sesuai kebutuhan konsumen. Keamanan bahan produk skincare yang terkandung didalamnya juga perlu diperhatikan apakah bahan tersebut aman atau tidak [2]. Untuk meminimalisir kesalahan dalam pembelian suatu produk, konsumen mencari informasi produk melalui testimoni dan opini atau hasil review dari konsumen yang sudah membeli dan menggunakan produk tersebut sebelumnya. Hal tersebut dilakukan agar terhindar dari produk skincare yang dapat memberikan efek negatif pada kulit [3].

Dengan memanfaatkan perkembangan teknologi informasi segala informasi mudah untuk ditemukan, termasuk kemudahan untuk mendapatkan informasi produk kecantikan Melimpahnya informasi produk kecantikan tidak lepas dari layanan mereka yang berbagi pengalaman setelah menggunakan produk kecantikan melalui media sosial, blog pribadi, atau website yang khusus memiliki fitur untuk mengulas produk kecantikan [4].

Femaledaily.com merupakan salah satu website dengan konten khusus tentang kewanitaan yang diciptakan untuk membahas produk kecantikan [5]. Website ini mempunyai tiga bagian yaitu review, blog dan forum. Pada bagian review terdiri dari dua bagian, yaitu nilai rating dan komentar review secara tekstual tentang produk yang di-review. Setiap harinya banyak pengguna yang menuliskan review pada beberapa produk, sehingga jumlah review berkisar dari ratusan hingga ribuan dan berisi berbagai pendapat [6]. Review produk dapat memberikan manfaat bagi konsumen yang baru ingin mencoba produk skincare karena dengan membaca review, konsumen mendapat informasi kualitas suatu produk skincare berdasarkan pengalaman konsumen lain yang sudah menggunakan produk tersebut.

Review juga dapat untuk mengetahui umpan balik dari masyarakat terhadap brand kosmetik bagi perusahaan industri kosmetik [7]. Membaca review tersebut secara keseluruhan dapat memakan waktu, namun

(2)

DOI: 10.30865/mib.v6i4.4119

jika hanya sedikit review yang dibaca evaluasi akan menjadi bias. Agar tidak memakan waktu dan bias informasi maka dapat dilakukan teknik klasifikasi. Klasifikasi sentimen bertujuan untuk mengatasi masalah ini dengan secara otomatis mengelompokkan review pengguna menjadi opini positif atau negative [8]. Oleh karena itu, pengkajian ulang review yang berisi informasi yang tidak lengkap, informasi yang bias, dan juga informasi yang beragam dapat dilakukan dengan menggunakan analisis sentimen.

Analisa Sentimen merupakan sebuah metode yang digunakan untuk memahami, mengekstrak data opini, dan mengolah data tekstual secara otomatis untuk mendapatkan sebuah sentiment yang terkandung dalam sebuah opini [3]. Dengan metode tersebut akan ditemukan polaritas sentimen dari sebuah kalimat dan mengklasifikasikannya ke dalam kelas positif atau negatif. Sehingga analisis sentimen dapat digunakan untuk menyimpulkan faktor-faktor atau aspek-aspek yang sering dibahas dalam opini-opini tersebut [9].

Untuk melakukan analisis sentimen ada beberapa algoritma yang dapat digunakan salah satunya adalah algoritma Naive Bayes. Naive Bayes classifier merupakan sebuah metode klasifikasi yang berakar pada teorema Bayes. Metode pengklasifikasian dengan menggunakan metode probabilitas dan statistik yaitu memprediksi peluang berdasarkan pengalaman di masa sebelumnya (Teorema Bayes) dengan ciri utamnya adalah asumsi yang sangat kuat (naif) akan ketergantungan dari masing-masing kondisi/kejadian [10]. Pemilihan algoritma Naïve Bayes Classifier pada penelitian ini dikarenakan algoritma tersebut mudah diimplementasikan, cepat, berakurasi tinggi, dan mempunyai performa yang cukup baik untuk melakukan klasifikasi data. Pada Metode Naïve Bayes juga mempunyai kelemahan yaitu sangat sensitif terhadap pemilihan fitur dan metode Naïve Bayes Classifier mengasumsikan atributnya indepensi sehingga dapat menyebabkan akurasinya kurang optimal [11]. Oleh karena itu, dalam penelitian ini digunakan metode pemilihan fitur, yaitu Particle Swarm Optimization agar dapat meningkatkan akurasi pengklasifikasi Naïve Bayes.

Pada penelitian sebelumnya membahas tentang optimalisasi fitur menggunakan metode Particle Swarm Optimization (PSO) untuk meningkatkan akurasi pengklasifikasian Naïve Bayes pada review hotel dari situs www.Tripadvisor.com dengan hasil peningkatan akurasi dari 90.50% menjadi 96.92% [12]. Selain untuk meningkatkan akurasi, Naïve Bayes Classifier berbasis Particle Swarm Optimization (PSO) juga digunakan untuk analisis sentimen terhadap review produk e-wallet OVO pada media sosial atau ulasan pada Google Play.

Penelitian ini menghasilkan peningkatan nilai Accuracy dan AUC yang sangat signifikan, dari yang sebelumnya menggunakan model Naïve Bayes Classifier tanpa feature selection hanya menghasilkan nilai akurasi 82.30% dan nilai AUC 0.780 setelah ditambahkan penggunaan feature selection menjadi 83.60% untuk accuracy dan nilai AUC 0.801 [13]. Optimasi pemilihan fitur dilakukan agar dapat meningkatkan akurasi klasifikasi, dimasukkannya algoritma Particle Swarm Optimization untuk algoritma klasifikasi Naïve Bayes memberikan akurasi yang signifikan, terutama untuk kasus analisis sentiment [14].

Teknik klasifikasi yang biasa digunakan untuk analisis sentimen review selain menggunakan metode Naïve Bayes Classifier yaitu dengan menggunakan metode Support Vector Machine (SVM). Penelitian terkait yang membahas tentang analisis sentimen terhadap review pengguna transportasi online yang ditulis pada media sosial Twitter menggunakan metode Support Vector Machine (SVM) berbasis Particle Swarm Optimization (PSO) menunjukkan bahwa SVM optimasi PSO dapat meningkatkan akurasi. Pada penelitian ini menghasilkan akurasi pada SVM sebesar 95,46% dan AUC 0,979 (excellent classification), sedangkan pada SVM-PSO sebesar 96,04%

dan AUC 0,993 (excellent classification).

Hasil menunjukkan bahwa SVM-PSO lebih baik daripada SVM biasa, meskipun menggunakan nilai parameter default [9]. Metode pemilihan fitur Particle Swarm Optimization (PSO) juga digunakan dalam penelitian analisis sentimen terhadap data ulasan pada marketplace www.tokopedia.com yang diambil dari Logitech Official Store menggunakan algoritma Support Vector Machine. Hasil penelitian menunjukkan peningkatan akurasi pengklasifikasian Support Vector Machine dari 83.33 % menjadi 88.89 %. Support Vector Machine memiliki kekurangan terhadap masalah pemilihan parameter atau fitur yang sesuai. Pemilihan fitur sekaligus penyetingan parameter di SVM secara signifikan mempengaruhi hasil akurasi klasifikasi sehingga algoritma Particle Swarm Optimization (PSO) banyak digunakan untuk memecahkan masalah optimasi serta sebagai solusi masalah seleksi fitur [15].

Sehingga pada penelitian ini bertujuan untuk menganalisis sentimen menggunakan dataset review dari website https://reviews.femaledaily.com/. Di dalam penelitian ini, akan dibahas tahapan yang dilalui untuk melakukan proses analisis sentimen terhadap review, dimulai dari tahap preprocessing sampai tahap analisis sentimen dengan Naive Bayes Classifier dan Feature selection Particle Swarm Optimization (PSO) serta bagaimana mengukur kualitas hasil analisis tanpa feature selection dan dengan feature selection. Untuk menghitung performansinya menggunakan metode evaluasi accuracy, precision, recall, dan F1-Score.

Batasan pada penelitian ini adalah dataset yang digunakan bersumber dari website https://reviews.femaledaily.com/, dan hanya mengambil review produk Wardah UV Shield Essential Sunscreen Gel SPF 30 PA+++. Dataset berjumlah 800 review dari bulan September 2020 sampai September 2021, dengan kelas positif dan negatif. Pelabelan dilakukan secara manual berdasarkan jumlah rating yang diberikan, rating 4-5 masuk kedalam kelas positif sedangkan rating 1-2 masuk kedalam kelas negative.

(3)

2. METODOLOGI PENELITIAN

2.1 Tahapan Penelitian

Tahapan penelitian merupakan gambaran umum terkait alur penelitian yang akan dilakukan dalam pengerjaan penelitian ini dari awal hingga akhir. Tahapan yang dilakukan dalam penelitian ini dapat dipaparkan melalui diagram alir seperti pada Gambar 1.

Gambar 1. Gambaran Tahapan Penelitian 2.2 Pengumpulan Data

Jenis data yang digunakan dalam penelitian ini adalah data kualitatif. Dimana data yang menjadi pokok penelitian ini berasal dari teks yang terdapat dalam ulasan yang diteliti. Data tersebut diperoleh dengan menggunakan teknik scraping dengan bantuan aplikasi bawaan Scraper dari Google Chrome pada halaman website Femaledaily.com (https://reviews.femaledaily.com/). Data review yang digunakan yaitu data review produk Wardah UV Shield Essential Sunscreen Gel SPF 30 PA+++. Data yang diambil berjumlah 800 data review dari bulan September 2020 sampai September 2021.Hasil dari crawling data disimpan dalam file bertipe .csv dan kemudian dilakukan labelling untuk menentukan pendapat atau pandangan dari review yang diambil. Pada proses pelabelan dibedakan menjadi 2 kelas, yaitu kelas positif dan kelas negatif. Pelabelan dilakukan secara manual berdasarkan jumlah rating yang diberikan, rating 4-5 masuk kedalam kelas positif sedangkan rating 1-2 masuk kedalam kelas negatif. Setelah proses pengambilan data selesai, dataset yang sudah siap kemudian dilakukan tahap preprocessing data.

2.3 Pre-processing Data

Dalam proses text mining, teks dokumen yang digunakan harus dipersiapkan terlebih dahulu sebelum dapat digunakan untuk proses utama. Proses mempersiapkan dataset mentah disebut juga dengan proses text preprocessing. Text preprocessing berfungsi untuk mengubah data teks yang tidak terstruktur atau sembarang menjadi data yang terstruktur. Preprocessing dilakukan untuk menghindari dataset yang kurang sempurna, terdapat noise pada dataset, data-data yang tidak konsisten dan mempercepat pemrosesan terhadap dokumen[16]. Adapun urutan dari tahapan preprocessing yang dilakukan seperti pada Gambar 2.

Gambar 2. Tahap Preprocessing Data 2.3.1 Case Folding

Case folding adalah proses penyamaan case dalam sebuah dokumen. Hal ini dilakukan untuk mempermudah pencarian. Tidak semua dokumen teks konsisten dalam penggunaan huruf kapital. Oleh karena itu peran case folding dibutuhkan dalam mengkonversi keseluruhan teks dalam dokumen menjadi suatu bentuk standar (dalam hal ini huruf kecil atau lowercase).

2.3.2 Tokenizing

Tokenizing adalah proses penguraian teks yang semula berupa kalimat-kalimat yang berisi kata-kata. Proses tokenisasi diawali dengan menghilangkan delimiter-delimiter yaitu simbol dan tanda baca yang ada pada teks tersebut seperti @, $, &, tanda titik (.), koma (,) tanda tanya (?), tanda seru (!). Proses pemotongan string

(4)

DOI: 10.30865/mib.v6i4.4119

berdasarkan tiap kata yang menyusunnya, umumnya setiap kata akan terpisahkan dengan karakter spasi, proses tokenisasi mengandalkan karakter spasi pada dokumen teks untuk melakukan pemisahan. Hasil dari proses ini adalah kumpulan kata saja.

2.3.3 Filtering

Filtering adalah proses mengambil kata-kata penting dari hasil token. Algoritma stoplist/stopword (membuang kata yang kurang penting) atau wordlist (menyimpan kata yang penting) dapat digunakan pada tahap ini. Stopword adalah kata-kata yang tidak deskriptif dan bukan merupakan kata penting dari suatu dokumen sehinggga dapat dibuang. Contoh stopword adalah “yang”, “dan”, “di”, “dari” dan seterusnya. Dalam filtrasi ini menggunakan stopword agar kata-kata yang kurang penting dan sering muncul dalam suatu dokumen dibuang sehingga hanya menyisakan kata-kata yang penting dan mempunyai arti.

2.4 Pembobotan Kata (Term weighting)

Term weighting merupakan pembobotan tiap-tiap kata agar dapat menaikkan kemampuan analisis sentimen pada proses text mining [9]. Salah satu metode pembobotan term terbaru yang paling banyak digunakan adalah metode Term Frequency – Inverse Document Frequency (TF-IDF). Dalam TF-IDF, perhitungan bobot term dari sebuah dokumen dilakukan dengan menghitung masing-masing nilai Term Frequency dan Inverse Document Frequency.

Pada tahap TF digunakan untuk mencari nilai dari kemunculan kata dalam suatu dokumen. Lalu tahap IDF digunakan untuk mencari nilai kemunculan dari kata pada keseluruhan dokumen, nilai IDF berbanding terbalik dengan TF, semakin banyak kata yang muncul maka nilai IDF akan semakin kecil [17]. TF-IDF dapat dirumuskan sebagai berikut[5] :

𝑇𝐹 𝐼𝐷𝐹( 𝑡_𝑘𝑑_𝑗) = 𝑇𝐹( 𝑡_𝑘𝑑_𝑗) × 𝐼𝐷𝐹( 𝑡_𝑘) (1)

2.5 Particle Swarm Optimization (PSO)

Particle Swarm Optimization (PSO) ditemukan oleh James Kennedy dan Russ Eberhart pada tahun 1995. Particle Swarm Optimization (PSO) terinspirasi oleh tingkah laku sosial kawanan burung yang terbang berduyung-duyung (bird flocking) atau geromboloan ikan yang berenang berkelompok (fish schooling) [13]. PSO merupakan metode penelitian populasi yang menggunakan populasi individu yang diperbarui dari setiap iterasi yang dilakukan. Dalam membuat partikel mencapai solusi optimum, setiap partikel bergerak ke arah posisi terbaik sebelumnya (pbest) dan posisi global terbaik (gbest) [14]. Metode tersebut digunakan untuk meningkatkan akurasi terhadap atribut yang terdapat pada metode naïve bayes classifier dengan menggunakan rumus sebagai berikut [17] :

𝑣_𝑖(𝑡 + 1) = 𝜔𝑉_𝑖(𝑡) + 𝑐₁𝑟₁(𝑃_𝑖(𝑡)− 𝑋_𝑖(𝑡)) + 𝑐₂𝑟₂(𝑃_𝑔− 𝑋_𝑖(𝑡)) (2) 2.6 Naïve Bayes Classifier

Menurut [18] Naïve Bayes Classifier adalah metode pengklasifikasi sederhana berdasarkan penerapan teorema Bayes (Statistik Bayesian). Algoritma Naive Bayes merupakan salah satu algoritma yang terdapat pada teknik klasifikasi data uji yang digunakan untuk mencari nilai probabilitas tertinggi pada kategori yang paling tepat.

Kesederhanaan proses klasifikasi dalam metode ini menjadi salah satu keunggulan dari metode klasifikasi yang lainnya. Dalam metode ini dilakukan dua proses yaitu proses pelatihan data dengan membuat model klasifikasi, yang kedua proses pengujian dengan menggunakan data uji yang dimasukkan kedalam model klasifikasi yang telah dibuat menggunakan proses pelatihan data.

2.7 Performance Evaluation Measure (PEM)

Performance Evaluation Measure (PEM) atau pengukuran evaluasi performa adalah tahapan yang digunakan untuk mengukur performa suatu sistem. Validasi dilakukan menggunakan 10 fold cross validation. Cross Validation merupakan metode untuk menemukan parameter terbaik dengan menguji besarnya galat pada data pengujian.

Metode ini membagi dataset secara acak dengan ukuran yang sama ke dalam k bagian dan tiap- tiap bagian akan dilakukan proses klasifikasi [19]. Pada fase ini data akan dibagi menjadi 10 bagian secara acak dengan menggunakan formasi dari model yang nantinya akan dibuat dalam RapidMiner. Untuk pengukuran akurasi diukur dengan confusion matrix seperti pada Tabel 1.

Tabel 1. Confusion Matrix

Positif Negatif

Positif True Positif (TP) Faslse Positif (FP) Negatif False Negatif (FN) True Negatif (TN) 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = ^{𝑇𝑃+𝐹𝑁}

𝑇𝑃+𝐹𝑃+𝑇𝑁+𝐹𝑁 (3)

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = ^𝑇𝑃

𝑇𝑃+𝐹𝑃 (4)

(5)

𝑅𝑒𝑐𝑎𝑙𝑙 = ^𝑇𝑃

𝑇𝑃+𝐹𝑁 (5)

𝐹1 𝑠𝑐𝑜𝑟𝑒 = 2(𝑟𝑒𝑐𝑎𝑙𝑙 ×𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛)

𝑟𝑒𝑐𝑎𝑙𝑙+𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 (6)

3. HASIL DAN PEMBAHASAN

Pembahasan pada penelitian kali ini terdapat dua skenario pengujian. Skenario pertama adalah membandingkan hasil klasifikasi menggunakan algoritma naïve bayes classifier dan klasifikasi algoritma naïve bayes classifier berbasis Particle Swarm Optimization (PSO). Skenario yang kedua adalah dilakukan uji coba pada klasifikasi algoritma naïve bayes classifier berbasis Particle Swarm Optimization (PSO) dengan merubah nilai parameter population size, nilai inertia dan maximum number of generation untuk mendapatkan hasil akurasi tertinggi.

Sebelum data dilakukan klasifikasi, dataset harus melalui beberapa tahapan proses agar dapat melalui proses selanjutnya, berikut ini adalah tahapan prosesnya.

3.1 Pengolahan Data 3.1.1 Pengumpulan Data

Pada penelitian ini menggunakan data review produk Wardah UV Shield Essential Sunscreen Gel SPF 30 PA+++

yang diambil dari situs website Femaledaily.com (https://reviews.femaledaily.com/). Data tersebut diperoleh dengan menggunakan teknik scraping dengan bantuan aplikasi bawaan Scraper dari Google Chrome. Data yang diambil berjumlah 800 data review dari bulan September 2020 sampai September 2021. Hasil dari crawling data disimpan dalam file bertipe .csv dan kemudian dilakukan labelling untuk menentukan pendapat atau pandangan dari review yang diambil. Pada proses pelabelan dibedakan menjadi 2 kelas, yaitu kelas positif dan kelas negatif.

Contoh hasil scraping data review yang digunakan pada penelitian ini dapat dilihat pada Tabel 2.

Tabel 2. Hasil Scraping Data Review

User Date Review Rating

SarahApriani 09 Juni 2021

Yang mau cari sunscreen dengan harga terjangkau sunscreen wardah jawabannya pliss ini bagus banget gampang meresap gak menimbulkan white cast juga tapi agak berminyak sedikit gak ganggu² bngt lah ya untuk tekstunya juga gel lembut dan ringan tapi agak susah untuk diblend 💖

5

Gambar 3. Proses Pengolahan Data Pada Tools Rapidminer

Pada Gambar 3 dipaparkan Proses pengolahan data pada Tools RapidMiner yang diawali dengan memasukan data kedalam operator Read CSV, kemudian operator Read CSV akan dihubungkan dengan operator set role, selanjutnya menetapkan attribut dan label terlebih dahulu pada operator set role. Setelah penentuan attribut dan label, langkah selanjutnya melakukan konversi dari nominal to string. Setelah terkonversi menjadi binomial, dapat dilakukan tahap selanjutnya yaitu proses pre-processing document.

3.1.2 Pre-processing data

Setelah mendapatkan dataset, maka selanjutnya adalah proses untuk memulai pengolahan data, yaitu proses preprocessing. tahapan pre-processing data dapat dilihat pada Gambar 4.

Gambar 4. Operator Process Pre-Processing

Menurut [13] pada proses document terdapat operator tokenize, filter stopwords, transform cases dan filter tokens.

1. Tokenize

Proses Tokenize yaitu semua kata yang ada di dalam tiap dokumen dikumpulkan dan dihilangkan tanda baca, angka, simbol, karakter khusus atau apapun yang bukan huruf.

(6)

DOI: 10.30865/mib.v6i4.4119 2. Transform Case

Operator yang digunakan pada tahapan ini adalah untuk mengubah huruf kapital yang masih ada pada text akan diubah menjadi huruf kecil semua. Hal ini dilakukan agar ketika dilakukan proses ke dalam model klasifikasi terdapat keseragaman huruf dan tidak terjadi kesalahan dalam proses tokenize.

3. Stopword Removal (by Directory)

operator Stopword Removal (by Directory) yang berfungsi untuk menghilangkan kata-kata yang tidak hubungan dengan isi text.

4. Filter Token (by Length)

Operator Filter Token adalah proses yang ada pada data preparation untuk menghilangkan sejumlah kata (setelah proses tokenize) dengan panjang karakter tertentu. Pada penelitian ini panjang minimum karakter yang digunakan adalah 4 karakter dan panjang maksimum 25 karakter. Artinya kata yang panjangnya kurang dari 4 karakter dan lebih dari 25 karakter akan dihilangkan.

Untuk Hasil preprocessing menggunakan tool rapid miner dapat dilihat pada Tabel 3.

Tabel 3. Hasil Preprocessing

sebelum sesudah

Sebenarnya aku suka banget sama sunscreen ini, selain claim nya ga ninggalin white cast terus ga menyebabkan minyakan juga dan gampang diblend! butttt aku pake ini bikin nimbul jerawat, mungkin karena ga cocok sama gabungan beberapa skincare lainnya, huhu

suka banget sunscreen claim ninggalin white cast menyebabkan minyakan gampang diblend butttt pake bikin nimbul jerawat cocok gabungan skincare huhu Teksturnya ga cocok banget di kulit aku. Dia gel tapi thick

banget dan bikin lengket di kulit. Susah meresap dan bikin mukaku kelihatan kusam. Dia juga ada parfum yang baunya kurang enak. Buat yang kulitnya kering mungkin bakalan suka sama produk ini, tapi buat kombinasi kaya aku ini bukan produk yang cocok.

teksturnya cocok banget kulit thick banget bikin lengket kulit susah meresap bikin mukaku kelihatan kusam parfum baunya kurang enak kulitnya kering bakalan suka produk kombinasi kaya bukan produk cocok

sunscreen favorite ku yang teksturnya cream dengan spf 30, enak bangettttt tidak lengket ketika di pakai, no white case, gampang di blend, no alcohol jadi aman untuk kulit sensitif kaya aku, no perfume juga jadi tidak ada bau yg menyengat.

sunscreen favorite teksturnya cream enak bangettttt lengket pakai white case gampang blend alcohol aman kulit sensitif kaya parfume menyengat

3.2 Klasifikasi menggunakan algoritma Naïve Bayes dan Naïve Bayes Particle Swarm Optimization (PSO) Proses pengklasifikasian ini adalah menentukan kelas untuk setiap kalimat sebagai anggota kelas positif atau kelas negatif. Penentuan kelas pada setiap kalimat ditentukan melalui perhitungan probabilitas dari rumus Naïve Bayes.

Kelas diberikan nilai Positif apabila nilai probabilitas pada dokumen tersebut untuk nilai kelas positifnya lebih besar dibandingkan dengan kelas negatif. Dan suatu kalimat dikatakan kelas negatif apabila nilai probabilitas pada dokumen tersebut untuk nilai kelas negatifnya lebih besar dibandingkan dengan kelas positifnya [12].

Peneliti hanya menampilkan 4 contoh dokumen sentimen dari keseluruhan 800 data review dan 6 kata yang berhubungan dengan kata sentimen, yaitu lengket, kusam, jerawat, bagus, cocok dan murah. Kehadiran kata dalam suatu kalimat akan diwakili oleh angka 1 dan angka 0 jika kata tersebut tidak muncul dalam kalimat pada dokumen.

Contoh hasil klasifikasi data dapat dilihat pada table 4.

Tabel 4. Klasifikasi data

Review lengket kusam jerawat bagus cocok murah Kelas temen temen bagus banget ringan

pemakeain gitu teksturnya bagus penasaran beli emang asli bagus banget brada rugi beli wardah emang cocok wajah kayanya

0 0 0 1 1 0 positif

harganya terjangkau bikin lengket kulit dipake bikin wajah break susah ngeblend wajah bikin wajahku kelihatannya berminyak kusam lumayan dikit

1 1 0 0 0 0 negatif

sunscreen pertama coba dimuka tipe skin kering berminyak sensitif pakai muncul jerawat muka auto minyakab kusam kandungan diwajah support repurchase

0 1 1 0 0 0 negatif

(7)

Review lengket kusam jerawat bagus cocok murah Kelas pemula remaja sunscreen cocok

digunakan harganya murah kantong pelajar ngefek engga tergantung kulit pakai lumayan ngaruh apply kalo dibandingkan sunscreen produk lumayan bagus

0 0 0 1 1 1 positif

Data diatas di dapatkan berdasarkan model dengan tool RapidMiner 9.10. Desain model arsitektur klasifikasi Naïve Bayes dapat dilihat pada gambar 5.

Gambar 5. Desain Klasifikasi Naïve Bayes

Pengujian metode klasifikasi Naïve Bayes dan Naïve Bayes-PSO menggunakan metode k-fold cross validation.Menurut [9] K-fold cross validation adalah metode validasi yang memisahkan data awal secara acak kedalam k bagian yang sama-sama terbagi atau “fold” . Fungsi k-fold adalah supaya tidak ada data overlapping terhadap data testing. Proses dalam K-fold cross validation dilakukan dengan membagi dataset menjadi K segmen yang hampir sama ukuran proporsinya. Kemudian salah satu segmen K diambil sebagai data uji sedangkan K-1 segmen lainnya digunakan sebagai data latih dari pembentukan model baru. Proses pelatihan dan penilaian ini dilakukan sebanyak K kali iterasi. Nilai K-fold cross validation diperoleh dari rata-rata dari hasil iterasi yang dilakukan. Jumlah K yang umumnya digunakan dalam K-fold cross validation yakni 5, 7, 10, dan 15.

Pada Tabel 5 ditunjukkan nilai akurasi dari algoritma Naïve Bayes sebesar 77.96% dan Naïve Bayes-PSO sebesar 78.85% hasil validasi menggunakan metode 10 k-fold cross validation. Perbedaan nilai akurasi sebesar 0,89% membuat metode Naïve Bayes -PSO memperoleh akurasi yang lebih baik dari metode Naïve Bayes.

Akurasi pada Tabel 5 membuktikan bahwa PSO dapat menaikkan akurasi Naïve Bayes. Hal ini dikarenakan PSO bekerja mencari nilai parameter terbaik dengan cara beradaptasi terhadap local best dan beradaptasi terhadap letak partikel terbaik pada seluruh kelompok (global best)[9]. Untuk Tabel Confusion Matrix Algoritma Naïve Bayes dan Algoritma Naïve Bayes-PSO dapat dilihat pada Tabel 6 dan Tabel 7.

Tabel 5. Hasil pengujian data menggunakan Naïve Bayes dan Naïve Bayes-PSO Algoritma Accuracy

Naïve Bayes 77.96%

Naïve Bayes-PSO 78.85%

Tabel 6. Confusion Matrix Algoritma Naïve Bayes Accuracy : 77.96% +/- 4.90% (micro average: 77.97%)

true positive true negative class precision

pred. positive 588 120 83.05%

pred. negative 56 35 38.46%

class recall 91.30% 22.58%

Tabel 7. Confusion Matrix Algoritma Naïve Bayes-PSO Accuracy : 78.85% +/- 4.44% (micro average: 78.85%)

(8)

DOI: 10.30865/mib.v6i4.4119

3.3 Hasil Eksperimen Menggunakan Algoritma Naïve Bayes berbasis Particle Swarm Optimization Pada model klasifikasi Naïve Bayes berbasis Particle Swarm Optimization, dilakukan uji coba dengan dengan merubah nilai parameter Population Size dari 1- 10 dengan nilai inertia nya 0.1 dan maximum number of generation 30 bernilai tetap. Berikut adalah hasil dari percobaan yang telah dilakukan untuk hasil nilai Accuracy dan AUC dapat dilihat pada Tabel 8.

Tabel 8. Hasil Eksperimen Algoritma Naïve Bayes Berbasis Particle Swarm Optimization Dengan Merubah Nilai Parameter Dari Population Size

Population Size (Q) Inertia Naïve Bayes PSO Weight (W) Accuracy AUC

1 0.1 76.22% 0.575

2 0.1 78.22% 0.537

3 0.1 78.10% 0.545

4 0.1 79.36% 0.522

5 0.1 78.86% 0.544

6 0.1 78.97% 0.547

7 0.1 79.60% 0.571

8 0.1 79.85% 0.584

9 0.1 79.35% 0.583

10 0.1 79.73% 0.565

Dalam uji coba merubah nilai parameter Population Size pada Particle Swarm Optimization, akurasi dan AUC yang paling tinggi diperoleh dengan nilai population size 8. Percobaan kedua peneliti melakukan uji coba dengan merubah nilai parameter Maximum Number Of Generation dari 10-100, dengan nilai parameter Population size 8 dan nilai parameter Inertia Weight 1.0. Hasil pada uji coba dapat dilihat pada tabel 9.

Tabel 9. Hasil Eksperimen Algoritma Naïve Bayes Berbasis Particle Swarm Optimization Dengan Merubah Nilai Parameter Dari Maximum Number Of Generation

Population Size (Q) Maximum Number Of Generation Inertia Naïve Bayes PSO Weight (W) Accuracy AUC

8 10 1.0 79.85% 0.584

8 20 1.0 79.85% 0.584

8 30 1.0 79.85% 0.584

8 40 1.0 79.85% 0.584

8 50 1.0 79.85% 0.584

8 60 1.0 79.85% 0.584

8 70 1.0 79.85% 0.584

8 80 1.0 79.85% 0.584

8 90 1.0 79.85% 0.584

8 100 1.0 79.85% 0.584

Pada percobaan Kedua dengan mengubah nilai Maximum Number Of Generation, nilai akurasi dan AUC berniali tetap yaitu 79.85% dan 0.584 . Kemudian uji coba dilanjutkan dengan mengubah nilai parameter Inertia Weight dari 0.1-1.0. Hasil yang didapatkan pada uji cob aini dapat dilihat pada table 10.

Tabel 10. Hasil Eksperimen Algoritma Naïve Bayes Berbasis Particle Swarm Optimization Dengan Merubah Nilai Parameter Dari Inertia Weight

8 30 0.1 79.85% 0.584

8 30 0.2 79.85% 0.584

8 30 0.3 79.85% 0.584

8 30 0.4 79.85% 0.584

8 30 0.5 79.85% 0.584

8 30 0.6 79.85% 0.584

8 30 0.7 79.85% 0.584

8 30 0.8 79.85% 0.584

8 30 0.9 79.85% 0.584

(9)

8 30 1.0 79.85% 0.584

Dalam percobaan hasil pada eksperimen Naïve Bayes dan Particle Swarm Optimization sebagai pemilihan fitur dengan merubah nilai parameter nilai populalation size 1-10, nilai maximum number of generation 10-100 dan nilai inertia weight nya 0.1-1.0, hasil akurasi dan AUC tertinggi yaitu bernilai 79.85% dan 0.584. Untuk Tabel Confusion Matrix Algoritma Naïve Bayes-PSO dapat dilihat pada Tabel 11.

Tabel 11. Confusion Matrix Algoritma Naïve Bayes-PSO Accuracy : 79.85% +/- 5.74% (micro average: 79.85%)

Pada Gambar 6. berikut adalah tampilan kurva ROC yang akan dihitung nilai AUC nya setelah menggunakan metode pemilihan fitur Particle Swarm Optimization.

Gambar 6. kurva ROC

4. KESIMPULAN

Hasil yang didapatkan dari penelitian Analisis Sentimen Review Produk Skincare Dengan Naïve Bayes Classifier Berbasis Particle Swarm Optimization (PSO) dihasilkan nilai akurasi paling baik pada proses klasifikasi naïve bayes yang menggunakan particle swarm optimization sebagai fitur seleksi dengan merubah nilai parameter nilai populalation size 1-10, nilai maximum number of generation 10-100 dan nilai inertia weight nya 0.1-1.0.

Didapatkan hasil akurasi dan AUC sebesar 79.85% dan 0.584. Dari pengolahan data yang sudah dilakukan, menggunakan metode pemilihan fitur yaitu Particle Swarm Optimization terbukti dapat meningkatkan akurasi pada pengklasifikasi Naïve Bayes. Peningkatan yang didapatkan sangat signifikan, hasil akurasi model Naïve Bayes Classifier tanpa feature selection hanya menghasilkan 77.96% dan nilai AUC 0.500 sedangkan setelah menggunakan metode pemilihan fitur Particle Swarm Optimization akurasinya meningkat menjadi 79.85% dan nilai AUC 0.584. Peningkatan akurasi mencapai 1.89%.

REFERENCES

[1] F. Latief and N. Ayustira, “Pengaruh Online Costumer Review Dan Customer Rating Terhadap Keputusan Pembelian Produk Kosmetik Di Sociolla,” J. Mirai Manag., vol. 4, no. 2, pp. 122–136, 2019, [Online]. Available:

https://journal.stieamkop.ac.id/index.php/mirai.

[2] D. Cahya Purnomo, M. Yanti, and A. P. Widyassari, “Bab 1 Latar Belakang Kulit, Skincare,” J. Ilm. Intech Inf. Technol.

J. UMUS, vol. 3, no. 01, pp. 32–41, 2021.

[3] D. N. Sari, D. N. Sari, F. Adelia, F. Rosdiana, B. B. Butar, and M. Hariyanto, “Analisa Sentimen Terhadap Review Produk Kecantikan Menggunakan Metode Naive Bayes Classifier,” JIKA (Jurnal Inform., vol. 4, no. 3, p. 109, 2020, doi:

10.31000/jika.v4i3.3086.

[4] N. B. N-gram, I. Pujadayanti, M. A. Fauzi, and Y. A. Sari, “Prediksi Rating Otomatis pada Ulasan Produk Kecantikan

(10)

DOI: 10.30865/mib.v6i4.4119

dengan Metode Prediksi Rating Otomatis pada Ulasan Produk Kecantikan dengan Metode Naïve Bayes dan N-gram,”

no. April, 2018.

[5] C. H. Yutika, A. Adiwijaya, and S. Al Faraby, “Analisis Sentimen Berbasis Aspek pada Review Female Daily Menggunakan TF-IDF dan Naïve Bayes,” J. Media Inform. Budidarma, vol. 5, no. 2, p. 422, 2021, doi:

10.30865/mib.v5i2.2845.

[6] D. C. Oktaviana et al., “Rate Prediction of Cosmetic Product Based on Test Review from W ebsite F emale D ailyUsing N aive B ayes C lassifier Sari Widya Sihwi,” vol. 8, no. 1, 2019.

[7] B. Gunawan, H. S. Pratiwi, and E. E. Pratama, “Sistem Analisis Sentimen pada Ulasan Produk Menggunakan Metode Naive Bayes,” J. Edukasi dan Penelit. Inform., vol. 4, no. 2, p. 113, 2018, doi: 10.26418/jp.v4i2.27526.

[8] E. Indrayuni, “Klasifikasi Text Mining Review Produk Kosmetik Untuk Teks Bahasa Indonesia Menggunakan Algoritma Naive Bayes,” J. Khatulistiwa Inform., vol. 7, no. 1, pp. 29–36, 2019, doi: 10.31294/jki.v7i1.1.

[9] V. Kevin, S. Que, A. Iriani, and H. D. Purnomo, “Analisis Sentimen Transportasi Online Menggunakan Support Vector Machine Berbasis Particle Swarm Optimization ( Online Transportation Sentiment Analysis Using Support Vector Machine Based on Particle Swarm Optimization ),” vol. 9, no. 2, pp. 162–170, 2020.

[10] F. Ratnawati, “Implementasi Algoritma Naive Bayes Terhadap Analisis Sentimen Opini Film Pada Twitter,” INOVTEK Polbeng - Seri Inform., vol. 3, no. 1, p. 50, 2018, doi: 10.35314/isi.v3i1.335.

[11] A. D. Cahyani and T. Mardiana, “Sentiment Analysis of Digital Wallet Service Users Using Naïve Bayes Classifier and Particle Swarm Optimization,” J. Ris. Inform., vol. 2, no. 4, pp. 241–250, 2020, doi: 10.34288/jri.v2i4.160.

[12] A. Taufik, “Optimasi Particle Swarm Optimization Sebagai Seleksi Fitur Pada Analisis Sentimen Review Hotel Berbahasa Indonesia Menggunakan Algoritma Naïve Bayes,” J. Tek. Komput., vol. III, no. 2, pp. 40–47, 2017.

[13] S. A. Aaputra, “Sentiment Analysis Analisis Sentimen E-Wallet Pada Google Play Menggunakan Algoritma Naive Bayes Berbasis Particle Swarm Optimization,” J. RESTI (Rekayasa Sist. dan Teknol. Informasi), vol. 3, no. 3, pp. 377–382, 2019.

[14] N. Hayatin, G. I. Marthasari, and L. Nuraini, “Optimization of Sentiment Analysis for Indonesian Presidential Election using Naïve Bayes and Particle Swarm Optimization,” J. Online Inform., vol. 5, no. 1, pp. 81–88, 2020, doi:

10.15575/join.v5i1.558.

[15] R. N. Handayani, “Optimasi Algoritma Support Vector Machine untuk Analisis Sentimen pada Ulasan Produk Tokopedia Menggunakan PSO,” Media Inform., vol. 20, no. 2, pp. 97–108, 2021, doi: 10.37595/mediainfo.v20i2.59.

[16] Ratino, N. Hafidz, S. Anggraeni, and W. Gata, “Sentimen Analisis Informasi Covid-19 menggunakan Support Vector Machine dan Naïve Bayes,” J. JUPITER, vol. 12, no. 2, pp. 1–11, 2020.

[17] A. Novrisal, G. I. Marthasari, and C. Aditya, “Sentimen Analisis Tweet Berbahasa Indonesia Pada Pilkada Serentak 2020 Menggunakan Metode Naive Bayes Berbasis Particle Swarm Optimization,” J. Repos., vol. 3, no. 2, pp. 191–198, 2021, doi: 10.22219/repositor.v3i2.1169.

[18] A. W. Attabi, L. Muflikhah, and M. A. Fauzi, “Penerapan Analisis Sentimen untuk Menilai Suatu Produk pada Twitter Berbahasa Indonesia dengan Metode Naïve Bayes Classifier dan Information Gain,” J. Pengemb. Teknol. Inf. dan Ilmu Komput., vol. 2, no. 11, pp. 4548–4554, 2018.

[19] R. Rinawati, “Penentuan Penilaian Kredit Menggunakan Metode Naive Bayes Berbasis Particle Swarm Optimization,”

J-SAKTI (Jurnal Sains Komput. dan Inform., vol. 1, no. 1, p. 48, 2017, doi: 10.30645/j-sakti.v1i1.28.