Prediksi Rating Pada Review Produk Kecantikan Menggunakan Metode Naïve Bayes dan Categorical Proportional Difference (CPD)

(1)

Fakultas Ilmu Komputer

Universitas Brawijaya

1991

Prediksi Rating Pada Review Produk Kecantikan Menggunakan Metode

Naïve Bayes dan Categorical Proportional Difference (CPD)

Fathor Rosi1_{, M. Ali Fauzi}2_{, Rizal Setya Perdana}3

1,2,3_{Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya}

Email: 1_{[email protected],}2_{[email protected],}3_{[email protected]}

Abstrak

Produk kecantikan pada saat ini menjadi hal yang populer di berbagai kalangan, terutama pada kalangan wanita. Hampir kebanyakan dari mereka memiliki produk kecantikan dan termasuk sebagai kebutuhan utama untuk menunjang penampilan mereka yang lebih baik lagi. Adanya suatu produk tidak terlepas dari sebuah komentar atau review dari konsumen untuk produk tersebut. Tentunya dengan adanya review tersebut bisa membantu konsumen untuk lebih selektif lagi dalam memilih suatu produk. Dan dari pihak produksi bisa terbantu untuk mengukur seberapa jauh kualitas produk yang mereka hasilkan. Namun dari pihak produksi sendiri terkadang mengalami kesulitan dalam memilah dan mengkategorikan review, apakah produk tersebut kualitasnya tergolong bagus, cukup bagus, tidak bagus, dan sebagainya. Dalam penelitian ini penilaian suatu produk berdasarkan review yang diberikan adalah rating. Sehingga dibutuhkan sebuah sistem prediksi rating untuk memprediksi dan menentukan rating yang tepat berdasarkan review yang diberikan oleh user terhadap suatu produk. Untuk mendukung sistem yang dibangun dibutuhkan metode untuk menyelesaikan permasalahan tersebut, dalam penelitian ini peneliti menggunakan metode Naïve Bayes dan Categorical Proportional Difference. Naïve Bayes adalah metode untuk klasifikasi sedangkan Categorical Proportional Difference adalah seleksi fitur untuk lebih mengoptimalkan hasil dari klasifikasi. Dari hasil pengujian, didapat tingkat akurasi terbaik pada saat penggunaan fitur sebesar 50% dengan tingkat akurasi sebesar 87%. Hasil tersebut adalah hasil terbaik dari hasil dengan rasio penggunaan fitur yang lain yaitu sebesar 25%, 75% dan 100%. Dari hasil tersebut CPD terbukti bisa melakukan pemilihan kata yang dianggap relevan maupun tidak relevan untuk dilakukan klasifikasi.

Kata kunci: prediksi rating, review, naïve bayes, Categorical Proportional Difference Abstract

Beauty products at this time become a popular thing in various circles, especially among women. Almost all of them have beauty products and are included as a primary requirement to support their better performances. The existence of a product can not be separated from a comment or review of the consumer for the product. Of course with the review can help consumers to be more selective again in choosing a product. And from the production side can be helped to measure how far the quality of the products they produce. But from the production itself sometimes have difficulty in sorting and categorize the review, whether the product is good quality, good enough, not good, and so forth. In this study the assessment of a product based on the review given is rating. So it takes a rating prediction system to predict and determine the right rating based on the reviews given by the users of a product. To support the system built required methods to solve the problem, in this study researchers used the method of Naïve Bayes and Categorical Proportional Difference. Naïve Bayes is a method for classification whereas Categorical Proportional Difference is a feature selection to further optimize the results of classification. From the test results, obtained the best accuracy level when the use of features by 50% with an accuracy of 87%. These results are the best results of the results with other feature usage ratios of 25%, 75% and 100%. From these results CPD proven to make the selection of words that are considered relevant or irrelevant to do classification.

(2)

Fakultas Ilmu Komputer, Universitas Brawijaya

1. PENDAHULUAN

Produk kecantikan saat ini menjadi suatu hal yang begitu populer di berbagai kalangan terutama kalangan para wanita. Terdapat banyak sekali produk kecantikan dengan menawarkan keunggulan-keunggulan dari produk tersebut. Di lain sisi dari banyaknya produk kecantikan yang ada tidak akan lepas juga dari pendapat atau komentar yang ditujukan kepada suatu produk tertentu terkait beberapa parameter pada produk tersebut seperti kualitas, keunggulan, kekurangan dan lainnya. Dengan semakin pesatnya perkembangan teknologi saat ini tidak sedikit juga suatu situs yang berkonten produk kecantikan yang berisikan tentang produk tersebut dan komentar atau review dari user yang pernah menggunakan suatu produk tersebut. Sehingga dari review tersebut bisa dijadikan parameter atau rekomendasi untuk menggunakan suatu produk tertentu. Salah satu contoh situs web yang bergerak pada bidang ini adalah seperti FemaleDaily.com

FemaleDaily.com telah menjadi salah satu situs yang paling populer pada saat ini yang bergerak pada bidang produk kecantikan. Terdapat beberapa ulasan mengenai beberapa produk yang ada pada website, kurang lebih terdapat 13.500 produk dari 1.000 brand dan lebih dari 100.000 review pada produk-produk yang ada pada website. Pada FemaleDaily.com orang-orang menulis ulasan atau review pada suatu produk dan memberikan rating mulai dari 1 sampai 5 berdasarkan kualitas produk tersebut sesuai penilaian mereka sendiri ketika pernah memakai produk tersebut. Rating digunakan sebagai indikator yang sangat penting untuk menunjang kualitas dan popularitas dari masing-masing produk. Di sisi lain review yang ada pada suatu produk dapat juga menjadi faktor penentu untuk kualitas produk tersebut karena dari review yang diberikan oleh user akan bergantung pada rating yang diberikan. Dari pihak produsen produk sendiri terkadang mengalami kesulitan dalam memilah dan mengkategorikan review, dalam penelitian ini penilaian suatu produk berdasarkan review yang diberikan adalah rating. Maka dari itu diperlukanlah suatu sistem prediksi rating untuk memprediksi dan menentukan rating yang tepat berdasarkan review yang diberikan oleh user terhadap suatu produk.

Penggunaan suatu metode terkadang tidak terlepas dari pengguanaan suatu fitur untuk meningkatkan keakuratan dalam proses perhitungan. Dan diberbagai penelitian juga sering ditemukan menggunakan metode seleksi fitur untuk mengurangi dimensi dan mempercepat proses perhitungan. Selain itu dengan menggunakan seleksi fitur kita bisa meningkatakan ke-efisienan dan ke-akuratan dalam proses extract suatu dokumen yang subset dengan pemilihan fitur yang dianggap lebih relevan (Simeon, 2008) . Pada penelitian yang dilakukan oleh simeon tersebut adalah membandingkan beberapa metode seleksi fitur dan salah satunya adalah Categorical Proportional Difference (CPD). Hasil yang yang didapat pada penelitian tersebut adalah bahwa CPD dapat memberikan hasil yang lebih baik daripada seleksi fitur yang lain.

Pada penelitian sebelumnya yang berkaitan dengan Categotical Proportional Difference (CPD) yang berjudul Sentiment Analysis And Classification Of Online Reviews Using Categorical Proportional Difference (Dorothy, 2011) membahas tentang penggunaan CPD sebagai seleksi fitur pada beberapa metode seperti Naïve bayes dan SVM dan menggunakan dua dataset dalam percobaannya. Terdapat juga seleksi fitur lain yang digunakan pada penelitian tersebut yaitu IG dan X2 untuk dibandingkan dengan CPD. Pada hasil pengujian dari penelitian tersebut menunjukkan bahwa pengguanaan CPD pada Sentiment Analysist dapat bekerja dengan baik daripada seleksi fitur yang lain. Dan dikatakan tingkat keakuratan menjadi lebih konstant setelah 50% dari beberapa fitur yang lain disingkirkan.

Berdasarkan uraian di atas, pada penelitian ini peneliti menggunakan metode Naïve Bayes dikarenakan tingkat akurasi yang lebih baik dan dilakukan seleksi fitur sebelum melakukan klasifikasi dengan menggunakan metode Categorical Proportional Difference (CPD) untuk mengukur derajat kontribusi sebuah kata guna membedakan apakah kata layak diprioritaskan untuk dilakukan klasifikasi atau tidak. Alasan penggunaan metode CPD adalah karena metode ini bisa digunakan untuk menemukan kata yang banyak terjadi dalam sebuah kelas dokumen, dengan menggunakan frekuensi dokumen positif dan frekuensi dokumen negatif (Simeon, 2008). Dengan

(3)

adanya penelitian ini, diharapkan permasalahan dalam menganalisa dan mengevaluasi pandangan seseorang terhadap sebuah produk, sehingga diketahui kelemahan produk dari sudut pandang pengguna dan bisa meningkatkan daya guna serta penjualan produk tersebut.

2. DATA DAN METODE 2.1 Data

Data yang digunakan pada penelitian ini adalah review dari berbagai produk kecantikan yang langsung diambil dari website femaledaily.com. data yang digunakan sebagai data latih sebanyak 500 data dengan komposisi rating 1 sebanyak 100 data, rating 2 sebanyak 100 data, rating 3 sebanyak 100 data, rating 4 sebanyak 100 data, rating 5 sebanyak 100 data. Sedangkan data uji yang digunakan sebanyak 100 data.

2.2 Naïve Bayes Classifier (NBC)

Naive Bayes adalah salah satu algoritma pembelajaran induktif yang paling efektif dan efisien untuk machine learning dan data mining. Performa Naive Bayes yang kompetitif dalam proses klasifikasi walaupun menggunakan asumsi keindependenan atribut (tidak ada kaitan antar atribut).

2.2.1 Multinomial Naïve Bayes

Metode Multinomial Naive Bayes merupakan algoritma yang naïve karena mengasumsikan indepedensi diantara kemunculan kata-kata dalam dokumen, tanpa memperhitungkan urutan kata dan informasi konteks dalam kalimat atau dokumen secara umum. Selain itu metode tersebut memperhitungkan jumlah kemunculan kata dalam dokumen (Destuardi dan Surya, 2009).

Pada metode Multinomial Naïve Bayes, untuk perhitungan peluang sebuah kata sama dengan Naïve bayes pada umumnya, yang berbeda hanya pada perhitungan Conditional Probability saja. 𝑃(𝑊𝑖|𝐶𝑗) = 𝑐𝑜𝑢𝑛𝑡 (𝑤𝑖, 𝑐𝑗) + 1 (∑ 𝑐𝑜𝑢𝑛𝑡(𝑤, 𝑐𝑗) 𝑤∈𝑉 ) + |𝑉| 𝑐𝑜𝑢𝑛𝑡 (𝑤𝑖, 𝑐) merupakan jumlah kata yang

muncul dalam suatu kategori atau kelas. Penambahan nilai 1 dilakukan untuk

menghindari nilai zero.

∑ 𝑐𝑜𝑢𝑛𝑡(𝑤, 𝑐)

𝑤∈𝑉

merupakan jumlah seluruh kata pada kelas. Sedangkan |𝑉| merupakan jumlah seluruh kata diseluruh kelas.

2.3 Categorical Proportional Difference (CPD)

Categorical Proportional Difference (CPD) adalah feature selection untuk mengukur derajat kontribusi sebuah kata guna membedakan apakah kata tersebut termasuk pada suatu kategori tertentu dari beberapa kategori yang ada. Jadi setiap kelas yang ada akan dihitung berapa banyak kata yang dicari ada pada suatu dokumen tertentu dan menghitung juga kata selain yang dicari. Sehingga akan ketemu jumlah kata tersebut pada setiap-setiap kelas

Tabel 1 : Tabel Contingency

C _￢C ∑ Row W ￢W A C B D A+B C+D ∑ Column A+C B+D N

CPD mengukur sejauh mana kata yang berkontribusi untuk membedakan kategori tertentu dari kategori lain dalam korpus. Nilai yang mungkin untuk CPD dibatasi pada interval -1 sampai 1, di mana nilai yang dekat -1 menunjukkan bahwa kata terjadi pada sekitar jumlah yang sama pada dokumen di semua kategori dan 1 menunjukkan bahwa kata terjadi di dokumen dari satu kategori. Lebih formal, perbedaan proporsional kategori untuk kata 𝑤𝑖 di

Kategori 𝑐𝑗 didefinisikan sebagai berikut.

𝐶𝑃𝐷(𝑤𝑖, 𝑐𝑗) =

𝐴 − 𝐵 𝐴 + 𝐵

Pada persamaan di atas A adalah jumlah berapa kali kata 𝑤𝑖 dan kategori 𝑐𝑗 terjadi

bersama sama, B adalah berapa kali kata 𝑤𝑖

terjadi tanpa kategori 𝑐𝑗, C adalah jumlah berapa

kali kategori c terjadi tanpa kata w, D adalah jumlah kali kata bukan 𝑤𝑖 atau kategori 𝑐𝑗

terjadi. Sehingga setelah dilakukan perhitungan di masing-masing kategori/class maka akan dipilih nilai ratio yang tertinggi untuk menentukan masuk pada suatu kategori/class tertentu. Untuk persamaanya adalah sebagai berikut.

(4)

𝐶𝑃𝐷(𝑤𝑖) = 𝑚𝑎𝑥𝑗{𝐶𝑃𝐷(𝑤𝑖, 𝐶𝑗)}

Gambar 1. Alur proses penyelesaian CPD 3. IMPLEMENTASI

Lingkungan implementasi diantaranya menggunakan perangkat keras dan perangkat lunak. Perangkat keras yang digunakan memiliki spesifikasi meliputi: Memory (RAM) 4 GB, Processor Intel Core i3 2.0 GHz, Harddisk 500 GB, Power Supply 600 W sedangkan perangkat lunak yang digunakan meliputi: Sistem operasi Microsoft Windows 7 64 bit, editor pemrograman Netbeans IDE, editor dokumentasi Microsoft Office 2013, dan Microsoft Excel 2013. Implementasi antarmuka pada sistem ini berbasis desktop dan menggunakan bahasa pemrogramana Java. Berikut halaman antarmuka sistem ditunjukkan pada Gambar 2 dan Gambar 3.

Gambar 2. Halaman Input Data

Gambar 3. Halaman Pengujian 4. HASIL PENGUJIAN DAN ANALISIS

Pada tahap pengujian dilakukan dua skenario pengujian, yang pertama adalah pengujian dengan menggunakan metode Naïve bayes saja tanpa menggunakan seleksi fitur. Yang kedua adalah pengujian dengan menggunakan Naïve Bayes-CPD artinya pada pengujian ini akan dilakukan pengurangan fitur berdasarkan nilai CPD pada masing-masing term.

4.1 Skenario pengujian klasifikasi klasifikasi Naïve Bayes tanpa variasi rasio fitur Pengujian ini dilakukan untuk mengetahui tingkat akurasi pada klasifikasi prediksi rating dengan menggunakan metode Multinomial Naïve Bayes dan tanpa menggunakan fitur seleksi. Kumpulan term yang dihasilkan dari proses pre-processing akan langsung dilakukan klasifikasi tanpa harus dikurangi.

Pada pengujian ini, data yang diuji benar-benar data asli review produk kecantikan yang diambil pada website femaledaily.com. data uji yang dipakai pada pengujian ini sebanyak 100 data dengan komposisi data random untuk rating

(5)

1 sampai rating 5, sedangkan untuk data latih yang digunakan sebanyak 500 data dengan komposisi data 100 data rating 1, 100 data rating 2, 100 data 3, 100 data 4, 100 data 5. Hasil pengujian untuk tingkat akurasi menggunakan Multinomial Naïve Bayes dapat dilihat pada tabel 2.

Tabel 2 : Pengujian klasifikasi Naïve Bayes tanpa variasi rasio fitur

klasifikasi menggunakan Multinomial Naïve Bayes

data persebaran data akurasi

data latih 100 data rating 1

64% 100 data rating 2

100 data rating 3 100 data rating 4 100 data rating 5 data uji 100 data uji

Hasil pengujian seperti pada tabel 2 menunjukkan tingkat akurasi dari proses klasifikasi menggunakan Multinomial Naïve Bayes sebesar 64%. Hasil tersebut menunjukkan bahwa hanya sebanyak 64 data dari 100 data uji yang diklasifikasi benar, dan peneliti beranggapan hasil tersebut tidak terlalu bagus. Data review pada website femaledaily.com hampir semuanya bisa dikatakan tipe review semi long text dengan rata-rata jumlah kata antara 50-100 kata pada setiap review. Pada review tersebut juga sering juga ditemukan kata-kata yang tidak baku dimana nanti kata-kata-kata-kata tersebut juga akan dilakukan klasifikasi. Kata-kata yang tidak baku tersebut diantaranya seperti kata singkatan dan kata-kata yang walaupun sebenarnya adalah kata yang bersifat sentiment namun karena penulisannya akhirnya kata tersebut termasuk kata yang tidak baku juga. Hal tersebut mengakibatkan klasifikasi dokumen menjadi lebih lambat karena lebih banyak kata-kata yang harus diproses daripada yang sebenarnya harus diproses. Dan hal tersebut juga dapat mengurangi akurasi karena sistem harus mempertimbangkan kata-kata yang tidak perlu saat melakukan klasifikasi. Karena permasalahan tersebut maka dibutuhkanlah sebuah metode untuk mengurangi kata-kata yang seharusnya tidak perlu untuk dilakukan klasifikasi. Untuk itu peneliti menggunakan seleksi fitur untuk memperkecil dimensi fitur, artinya seleksi fitur disini berfungsi untuk

memilih kata-kata yang dianggap relevan atau diprioritaskan untuk dilakukan klasifikasi 4.2 Pengujian klasifikasi Naïve Bayes-CPD

dengan variasi rasio fitur

Pengujian ini menjelaskan tentang pengujian klasifikasi dengan menggunakan metode Multinomial Naïve Bayes-CPD dengan variasi rasio fitur yang digunakan pada saat klasifikasi. Pada pengujian ini akan dilakukan pengurangan dimensi fitur atau term hasil pre-processing yang digunakan pada saat klasifikasi adalah sebanyak rasio yang yang telah ditetapkan yaitu sebesar 25%, 50%, 75% dan 100%. Untuk hasil pengujian ini dapat dilihat pada tabel 3.

Tabel 3 : Pengujian klasifikasi Naïve Bayes dengan variasi rasio fitur

klasifikasi menggunakan Multinomial Naïve Bayes data persebaran data akurasi fitur 25% fitur 50% fitur 75% fitur 100% data latih 100 data rating 1 54% 87% 64% 64% 100 data rating 2 100 data rating 3 100 data rating 4 100 data rating 5 data

uji 100 data uji

Pada pengujian ini sudah dilakukan pengurangan dimensi fitur sesuai rasio yang sudah ditetapkan oleh peneliti. Dengan data yang sama pada pengujian ini mendapatkan nilai akurasi terbaik sebanyak 87% pada penggunaan fitur sebanyak 50%. Dengan kata lain penggunaan CPD disini dapat mempengaruhi nilai akurasi dengan mengurangi atau membuang term-term yang dianggap tidak relevan untuk diklasifikasi.

(6)

Gambar 4. Grafik Akurasi Naïve Bayes-CPD dengan variasi rasio fitur

Untuk analisis yang dilakukan peneliti pada setiap rasio fitur yang digunakan sudah dirincikan pada point-point di bawah ini : 1. Pada saat penggunaan fitur sepenuhnya atau

100% tingkat akurasi yang didapatkan hanya sebesar 64%, selain beberapa faktor yang sudah disebutkan di atas hal ini bisa saja disebabkan karena setelah dilakukan pre-processing masih terdapat kata-kata pada yang seharusnya tidak perlu dilakukan klasifikasi tapi tetap dilakukan. Kata-kata yang dimaksud adalah seperti kata-kata yang tidak baku contohnya, sya, bagusss, kcewa, mahall, dan sebagainya. Hal tersebut tentunya akan mempengaruhi hasil dari klasifikasi dan tidak mendapatkan hasil yang maksimal.

2. Pada rasio penggunaan fitur sebesar 75% tingkat akurasi yang didapatkan lebih bagus dari rasio penggunaan fitur sebesar 100%. Tingkat akurasi yang didapatkan sebesar 66%, artinya adalah kumpulan term hasil pre-processing akan dikurangi sebesar 25% berdasarkan nilai CPD terendah pada masing-masing term dan 75% term akan dilakukan klasifikasi. Walaupun tingkat akurasi yang didapatkan tidak jauh beda dengan penggunaan fitur sepenuhnya, dapat dikatakan peran CPD disini berhasil memprioritaskan term mana yang seharusnya diprioritaskan untuk dilakukan klasifikasi dan memberikan hasil yang lebih bagus.

3. Pada rasio penggunaan fitur sebesar 50% sistem berhasil mendapatkan hasil yang

signifikan lebih baik dari penggunaan fitur sebesar 100% dan 75%. Tingkat akurasi yang didapatkan adalah sebesar 87% artinya sistem sudah berhasil mendapatkan hasil klasifikasi yang tepat untuk 87 data dari 100 data uji. Pada rasio ini CPD hanya menggunakan term sebesar 50% untuk dilakukan klasifikasi dan sisanya akan dibuang. Hal ini menunjukkan bahwa kumpulan term hasil pre-processing kurang lebih separuhnya adalah term yang sebenarnya tidak perlu atau tidak diprioritaskan untuk dilakukan klasifikasi. Dengan penggunaan term sebesar 50% tersebut bisa mendapatkan hasil yang lebih maksimal.

4. sedangkan pada rasio penggunaan fitur sebesar 25% sistem justru mendapatkan hasil yang tidak maksimal. hasil yang didapatkan pada rasio ini adalah hanya sebesar 54% artinya hasil tersebut adalah yang terendah dari rasio penggunaan fitur yang lain. Peneliti menganalisis hal ini disebabkan karena penggunaan fitur yang terlalu sedikit sehingga informasi yang diperlukan oleh sistem terlalu sedikit untuk dilakukan klasifikasi, dan bisa saja terdapat term yang semestinya diprioritaskan untuk dilakukan klasifikasi tetapi ikut terbuang atau tidak dilakukan klasifikasi, sehingga hal tersebut menyebabkan sistem kurang maksimal dalam menghasilkan hasil klasifikasi.

5. KESIMPULAN

Berdasarkan hasil pengujian dan analisis dari prediksi rating pada review produk kecantikan menggunakan metode Naïve Bayes dan Categorical Proportional Difference dapat disimpulkan sebgai berikut:

1. Metode klasifikasi Naïve Bayes dan Categorical Proportional Difference dapat diterapkan pada proses prediksi rating pada review produk kecantikan. Data latih yang diambil bersumber pada review produk kecantikan pada website femaledaily.com. dengan menggunakan data latih sebanyak 500 data dan data uji sebanyak 100 data dapat memberikan hasil yang lebih baik ketika penggunaan fitur sebesar 50%. Sebelum dilakukan proses klasifikasi

54% 87% 66% _64% 0% 20% 40% 60% 80% 100% tin gk at a ku ra si

Pengujian klasifikasi Naïve Bayes-CPD dengan variasi rasio fitur

(7)

dokumen perlu melalui berbagai tahapan meliputi tokenisasi, filtering, case folding, dan stemming untuk lebih memaksimalkan hasil klasikfikasi.

2. Klasifikasi menggunakan Naïve Bayes dan Categorical Proportional Difference dapat memberikan hasil yang lebih baik daripada menggunakan metode Naïve Bayes biasa. Hasil terbaik yang didapat pada saat penggunaan fitur sebanyak 50% dengan tingkat akurasi sebesar 87%. Hal tersebut membuktikan CPD berhasil melakukan pemilihan kata yang lebih diprioritaskan untuk dilakukan klasifikasi dan membuang kata-kata yang dianggap tidak relevan untuk dilakukan klasifikasi.

3. Pengurangan dimensi fitur dengan menggunakan Categorical Proportional Difference yang diterapkan dengan menggunakan data dari website femaledaily.com tidak menjamin ketika semakin kita memperkecil dimensi fitur yang digunakan maka akan memberikan tingkat akurasi yang lebih baik. Karena pada pengujian yang dilakukan pada saat penggunaan fitur sebesar 25% sistem memberikan nilai akurasi yang paling rendah yaitu hanya sebesar 54%, artinya adalah term-term yang diproses pada saat klasifikasi tidak memberikan hasil yang maksimal karena bisa saja terdapat kata-kata yang sebenarnya relevan untuk dilakukan klasifikasi tetapi ikut terbuang sehingga sistem kekurangan informasi untuk memberikan hasil yang maksimal.

6. DAFTAR PUSTAKA

Destuardi dan Surya, S. (2009). Klasifikasi Emosi Untuk Teks Bahasa Indonesia Menggunakan Metode Naïve Bayes. Teknik Elektro, Institut Teknologi Sepuluh Nopember, Surabaya.

Mustafa, A., Akbar, A., & Sultan, A. (2009). Knowledge Discovery Using Text

mining: A Programmable

Implementation on Information Extraction and Categorization. International Journal of Multimedia and Ubiquitous Engineering, 4(2), 183-188. Montanes, E., Diaz, I., Ranilla, J., Combarro, E.

And Fernandez, J. (2005), ‘Scoring and selecting terms for text categorization’, IEEE Intelligent Systems 20(3), 40–47.

Forman, G. (2008), Feature selection for text classification, in H. Liu and H. Motoda, eds, ‘Computational Methods of Feature Selection’, Chapman and Hall / CRC, pp. 257–276.

Mondelle Simeon, Robert Hilderman. (2008) Categorical Proportional Difference:A Feature Selection Method for Text Categorization. In Proceedings of the Seventh Australasian Data Mining Conference (AusDM 2008), Glenelg, South Australia. CRPIT, 87. Roddick, J. F., Li, J., Christen, P. and Kennedy, P. J., Eds. ACS. 201-208

Guo, Q. (2010). An Effective Algorithm for Improving the Performance of Naive Bayes for Text Classification. Cambridge University Press.

Dorothy Aku Allotey, Regina, Saskatchewan. (2011). Sentiment Analysis And Classification Of Online Reviews Using Categorical Proportional Difference Jong, J. (2011). Prediksi Rating with Sentiment

Analysis.

Medhat, W., Hassan, A., & Korashy, H. (2014). Sentiment analysis algorithms and applications: A survey. Ain Shams Engineering Journal, 5(4), 1093-1113.