PENERAPAN PRINCIPAL COMPONENT ANALYSIS DAN GENETIC ALGORITHM PADA ANALISIS SENTIMEN REVIEW PENGIRIMAN BARANG MENGGUNAKAN
ALGORITMA SUPPORT VECTOR MACHINE
Hilda Rachmi
Manajemen Informatika, AMIK BSI Bogor [email protected]
Abstract - Sentiment analysis studied the opinion of people, sentiments, attitudes, assessment, evaluation, and emotions against entities such as products, services, events, organizations, individuals, issues, topics and attributes. This information may be used for mark et research, p roduct feedback and analyz e the effectiveness of customer service. The problem in this research is the selection of features to improve the accuracy of Support Vector Machine and find the parameter values to get the highest accuracy in sentiment analysis review of the delivery of goods as well as produce a classification of negative and positive results of the review appropriately. Author using Principal Component Analysis and Genetic Algorithm as an optimization to improve the accurac y of Support Vector Machine method. The resulting accuracy of the algorithm Support Vector Mac hine by 86.00%, after optimized by using Principal Component Analysis and Genetic Algorit hm accurac y has increased to 97.00%.
Keywords: Sentiment Analysis, Review of Goods Delivery, Support Vector Machine.
Abstrak - Analisis sentimen mempelajari pendapat orang, sentimen, sikap, penilaian, evaluasi, dan emosi terhadap entitas seperti produk, layanan, kejadian, organisasi, individu, isu, topik dan atribut.
Informasi ini dapat digunakan untuk riset pasar, umpan balik produk dan analisis efektivitas layanan pelanggan. Masalah dalam penelitian ini adalah pemilihan fitur untuk meningkatkan akurasi Support Vector Machine dan menemukan nilai parameter untuk mendapatkan akurasi tertinggi dal am analisis sentimen tinjauan terhadap pengiriman barang sert a menghasilkan klasifikasi hasil negatif dan positif dari tinjau dengan t epat Penulis menggunakan Principal Component Analysis dan Genetic Algorithm sebagai optimasi untuk meningk atkan akurasi metode Support Vector Machine. Keakuratan yang dihasilkan dari algoritma Support Vector Machine sebesar 86.00%, setelah dioptimalkan dengan menggunakan Principal Component Analysis dan Genetic Algorithm accuracy telah meningkat menjadi 97%.
Kata Kunci: Analisis Sentimen, Review Pengiriman Barang, Support Vector Machine.
A. PENDAHULUAN 1. Latar Belakang
Web adalah tempat yang baik bagi orang- orang untuk mengekspresikan pendapat pada berbagai topik. Bahkan pemberi opini profesional memiliki blog dimana publik dap at mengomentari dan merespon apa yang mereka pikirkan (Wayan, N., Saras wati, S., Prodi, S., Informatika, T., Denpasar, S., Tukad, J., & No, B. 2013). Opini bisa diberikan oleh siapapun.
Banyak pelanggan yang telah memberikan opini terhadap jasa maupun produk yang sudah digunakan, salah satunya adalah layanan jasa pengiriman barang. Kebanyakan studi klasifikasi sentimen review produk dilakukan dengan menggunakan data yang dikumpulkan dari situs e-commerce seperti www.amazon.com (review produk), www.yelp.com (ulasan restoran), www.CNE Tdownload.com (review produk) dan www.reviewcentre.com, yang menjadi t uan rumah jutaan ulasan produk oleh konsumen.
Selain itu, situs yang tersedia adalah situs review profesional seperti www.dpreview.com,
www.zdnet.com dan situs pendapat konsumen tentang topik yang luas dan produk-produk seperti www.consumerreview.com, www.bizrate.com, dan www.epinions.com (Singh, P., & Pandi, G. S. 2015).
Pada umumnya review yang diberikan oleh customer memiliki rating yang dapat ditentukan oleh pelanggan itu sendiri. Namun, rating yang diberikan tidak selalu menunjukkan isi dari review yang disampaikan. Pembaca review pada umumny a tidak dapat menilai sebuah review hanya melalui rating. Penilaian sebuah review harus dilakukan dengan membaca keseluruhan isi dari review tersebut. Hal ini sangat merepotkan apabila review yang diberikan berjumlah banyak. Membaca review tersebut secara keseluruhan dapat membingungkan atau memakan waktu, namun jika hanya beberapa review yang dibaca evaluasi akan menjadi bias ( Zhang, Z., Ye, Q., Zhang, Z., & Li, Y. 2011)]. Oleh karena itu perlu adanya sistem yang bis a mengklasifikasikan review secara otomatis.
Analisis Komponen Utama atau Principal Component Analysis (PCA) adalah teknik yang digunakan untuk menyederhanaka n suatu data, dengan cara mentransformasi linier sehingga terbentuk sistem koordinat baru dengan variansi maksimum. PCA dapat digunakan untuk mereduksi dimensi suatu data tanpa mengurangi karakteristik data tersebut secara signifikan (Puspitaningrum. 2014). Tujuan dari PCA adalah unt uk mengekstrak informasi yang paling penting dari tabel data, kompres ukuran dataset dengan hanya menjaga informasi yang penting, menjelaskan dan menyederhanakan deskripsi datas et, serta menganalisis struktur pengamatan dan variabel.
Algoritma genetika merupakan salah satu algoritma optimasi seleksi fitur. Salah satu metode wrapper yang bisa digunakan dalam pemilihan fitur adalah Genetic algorithm (GA) (Gunal. 2012). Proses seleksi pada GA adalah dengan mengambil beberapa individ u terbaik.
Selain itu juga dapat dilakukan dengan proses pengambilan acak proporsional, dengan proporsi setara dengan proporsi kualitasnya.
artinya individu yang kualitasnya lebih baik memiliki peluang terpilih lebih besar dan pengambilan dilakuk an dengan pemulihan (Sartono. 2010).
Berdasarkan penelitian sebelumnya, Support Vector Machine merupakan algoritma klasifikasi yang banyak digunakan oleh para peneliti dibidang analisa sentimen. Untuk meningkatkan akurasi Support Vector Machine selain dengan mengubah nilai parameter, maka pada penelitian ini Principal Component Analysis dan Genetic Algorithm sebagai metode pemilihan fitur akan diterapkan untuk mengklasifikasikan teks pada komentar dari review pengiriman barang.
2. Tinjauan Studi Penelitian Terkait
Dalam penelitian sebelumnya (Bas ari et al., 2013) mengggunakan review film melalui twitter, Metode yang digunakan adalah SVM dengan menggabungkan hybrid PSO. Penelitian ini mengklasifikasikan review menjadi dua klasifikasi yaitu klasifikasi negatif dan klasifikasi positif. Validasi yang digunak an adalah 10 Fold- Cross Validation dan confusion matrix. Hasil penelitian menunjukkan peningk atan tingkat akurasi dari 71,87% menjadi 77%.
Penelitian lain [4] menggunakan algoritma K-NN dan improved K-NN, yaitu penggunaan pengkkasifikasi SVM yang membantu dalam pemecahan pelatihan dan pengujian. Hasil dari penelitian ini adalah peningkatan akurasi dari 84% menjadi 85% seperti yang dapat dilihat pada Tabel 2.2. Motivasi utama untuk penelitian ini adalah meningkatkan algoritma yang ada.
Hasil yang didapat dari penelitian ini lebih
efisien dan lebih akurat daripada algoritma yang ada. Faktor utama kompleksitas waktu KNN berkurang dengan bantuan perbaikan algoritma.
Penelitian [31] membahas pendapat klasifikasi pendapat positif dan opini negatif pada Bahasa Inggris dan Bahasa Indonesia menggunakan Naïve Bayes Classifier (NB C) dan Support Vector Mac hine (SVM). Didalam penelitian, baik NB C dan SVM metode memberikan sentimen kinerja analisa yang baik dalam mengklasifikasikan opini untuk Bahasa Inggris dan Bahasa Indonesia.
Algoritma klasifikasi seperti Naïve Bayes (NB), Support Vector Machine (SVM), dan Artificial Neural Net work (ANN) diusulkan oleh banyak peneliti untuk digunakan pada analisis sentimen review film. Namun, klasifikasi sentimen teks mempunyai masalah pada banyakny a atribut yang digunakan pada sebuah dataset. Feature selection dapat digunakan untuk mengurangi atribut yang kurang relevan pada dataset. Beberapa algoritma feat ure selection yang digunakan adalah information gain, chi square, forward selection dan backward elimination (Chandani, V. 2015).
Hasil komparasi algoritma, SVM mendapatkan hasil yang terbaik dengan accuracy 81. 10% dan AUC 0.904.
B. LANDASAN TEORI 1. Text Mining
Text mining adalah proses ekstraksi p ola (informasi dan pengetahuan yang berguna) dari sejumlah besar data tak terstruktur. Masukkan untuk pengembangan teks adalah data yang tidak (atau kurang) terstruktur, seperti dokumen Word, PDF, kutipan teks, sedangkan masukkan untuk pengembangan data adalah data yang terstruktur [5].
2. Review Pengiriman Barang
Ulasan atau review yang terdapat di internet sangat banyak namun tidak diolah menjadi sebuah informasi yang bermanfaat. Kini konsumen semakin meningkat sehingga mereka dapat memberikan opini dan pengalaman yang tersedia secara online [32].
Pratik Thakor melakukan penelitian mengenai review mengenai jasa pengiriman barang dengan mengumpulkan review yang berhubungan dengan layanan pengiriman termasuk keterlambat an pengiriman, kehilangan paket atau lay anan pelanggan yang tidak benar di kantor atau di call center [26].
3. Algoritma Support Vector Machine SVM disampaikan pada tahun 1992 oleh Vladimir Vapnik dan rekannya, Bernhard Boser dan Isabelle Guyon, meskipun dasar untuk SVM telah ada sejak 1960-an. Metode ini menjadikan
SVM sebagai metode baru yang menjanjikan untuk klasifikasi data, baik linier maupun nonlinier.
4. Pemilihan Fitur
Feature selection adalah sebuah proses yang bias digunakan pada machine learning dimana sekumpulan dari features yang dimiliki data digunakan untuk pembelajaran algoritma.
Subset yang baik memiliki sedikitnya dimensi angka yang paling banyak berkontribusi untuk akurasi dan nantinya akan dibuang sisa dari dimensi yang tidak berkepentingan [28]
5. Principal Component Analysis
Penggunaan seleksi fitur sangat berguna untuk mencegah terjadinya efek dimensionalitas, mengurangi jumlah waktu dan memori yang dibutuhkan oleh algoritme yang
digunakan, memudahkan dalam
memvisualisasikan data, dan membantu mengurangi fitur-fitur yang tidak relevan (derau) tanpa kehilangan informasi dari data aslinya [13]
6. Genetic Algorithm
Menurut (Gunal, 2012) salah satu metode wrapper yang bisa digunakan dalam pemilihan fitur adalah Genetic algorithm (GA). Algoritma genetika (AG) diperkenalkan pertama kali oleh John Holland (1975) dari Universitas Michigan, John Holland mengat akan bahwa setiap masalah yang berbentuk adaptasi (alami maupun buatan) dapat diformulasikan ke dalam terminologi genetika [28]
7. Evaluasi dan Validasi
Untuk melakukan evaluasi pada algoritma
Support Vector Machine dan
algoritma Support Vector Machine yang sudah dioptimasi dengan P rincipal Component Analysis dan Genetic Algorithm dilakukan beberapa pengujian menggunakan confusion matrix dan kurva ROC (receiver operating charateristic).
C. METODE PENELITIAN
1. Kerangka Pemikiran Penelitian
Berdasarkan tinjauan penelitian terkait yang sudah dilakukan sebelumnya, maka penelitian ini akan melakukan optimasi pemilihan fitur
Gambar 1. Kerangka Pemikiran Penelitian
2. Tahapan Penelitian
Penjelasan mengenai tahapan -tahapan yang dilakukan adalah:
a) Pengumpulan data (Data gathering) Data diambil dari satu website yang menyediakan review untuk berbagai kategori.
b) Pengolahan data awal (Dat a pre- processing)
Pengolahan data awal bertujuan untuk mengurangi data yang tidak relevan, atau data dengan at ribut yang hilang.
Pengolahan juga dapat berupa konversi nilai-nilai redundan atau nilai y ang terlalu beragam kedalam kelompok yang lebih kecil untuk mempermudah pembentukan model.
c) Metode yang diusulkan (Proposed Method)
Pada penelitian ini penulis mengusulkan metode S upport Vector Machine dengan penambahan optimasi dengan menggabungkan metode pemilihan fitur Principal Component Analysis (PCA) dan Genetic Algorithm (GA).
d) Eksperimen dan pengujian metode (Experiment and testing method)
Eksperimen dilakukan untuk mengolah data sehingga menghasilkan nilai akurasi yang tinggi. Pengujian metode dilakukan melalui aplikasi yang dibuat dengan bahasa pemrograman PHP dan HTML.
e) E valuasi dan validasi hasil (Evaluation and validation result)
E valuasi berfungsi untuk mengetahui akurasi dari model algoritma yang diusulkan. Akurasi algoritma ak an diukur menggunakan Confusion Matrix dan akan ditampilkan dalam bentuk Curve
ROC (Receiver Operating
Characteristic). Teknik validasi yang digunakan adalah Cross Validation.
D. HASIL DAN PEMBAHASAN
1. Klasifikasi Teks Menggunakan Support Vector Machine
a) Pengumpulan Data
Review pengiriman barang dikumpulkan melalui www.reviewcentre.com.
b) Pengolahan Data Awal (Preprocessing) Dalam preprocessing ada beberapa tahapan yang dilakukan, diantaranya adalah tok eninzing, stopwords removal, dan stemming.
c) Klasifikasi
Proses klasifikasi menggunakan Support Vector Machine dimulai dengan mengubah text menjadi data vektor.
Vektor dalam penelitian ini memiliki dua komponen yaitu dimensi (word id) dan bobot. Bobot ini sering dikombinasikan ke dalam sebuah nilai tf-idf, secara sederhana dengan mengalikan mereka bersama-sama.
Tabel 1. Perhitungan TF-IDF
Keywords
TF DF IDF
d1 d2 d3 d4 d5 d6 d7 d8 d9 d10
Bad 0 0 1 1 1 0 0 0 0 0 3 0.523
Poor 1 1 0 1 1 0 0 0 0 0 4 0.398
Delivery 2 0 2 0 2 3 0 2 2 1 7 0.155
Service 0 2 1 0 2 1 1 2 2 1 8 0.097
Reccom end 0 0 0 0 0 0 1 1 1 0 3 0.523
Good 0 0 0 0 0 1 1 0 1 1 4 0.398
2. Klasifika si Teks Menggunakan SVM dengan PCA dan GA
Model penelitian yang diusulkan dengan menambahkan optimasi pada metode Support Vector Machine dapat dijelaskan sebagai berikut. Diawali dengan process document from file dengan membuat dua buah folder berbeda untuk review negatif dan review positif.
Dalam process document terdapat preprocessing. Terdiri dari tokenizing, stopwords removal, dan stemming. S etelah process document kemudian dihubungkan ke pemilihan fitur yang pertama. Pemilihan fitur pertama menggunakan Principal Component Analysis (PCA). PCA sendiri berfungsi untuk mereduksi dimensi dataset. Sehingga dataset menjadi lebih kecil dan lebih mudah serta lebih cepat untuk diproses pada tahap selanjutnya.
Pemilihan fitur kedua menggunak an Genetic Algorithm (GA). Pada proses ini atribut yang ada dipilih dengan melihat bobot dari tiap atribut. Atribut dengan bobot tertinggi akan diambil untuk diproses. Sementara atribut dengan nilai kecil atau nilai = 0 tidak akan diproses. Hal ini mengurangi waktu proses karena atribut yang akan diproses menjadi semakin sedikit.
Gambar 2. Desain model PCA+ GA menggunakan RapidMiner
Proses selanjutnya adalah validasi dengan menggunakan 10-fold cross validation. Nilai k yang diambil adalah 10 karena beberapa penelitian sebelumnya menunjukkan bahwa nilai tersebut menunjukkan hasil terbaik untuk proses validasi.
Gambar 3. Desain validasi untuk model SVM + PCA+ GA menggunakan RapidMiner
Support Vector Machine sebagai metode yang akan digunakan pada kasus analisis sentiment review pengiriman barang. P ada penelitian ini data yang di gunakan berbentuk teks proses klasifikasi tidak dapat diasumsikan secara linear, oleh karena itu akan digunakan kernel sebagai parameter yang dapat melakukan klasifikasi terhadap data yang tidak bersifat internal. Apply model digunakan untuk dapat membac a data yang akan iestimasi berdasarkan data yang sudah dipelajari sebelumnya.
Gambar 4. Desain model SVM + PCA+ GA menggunakan RapidMiner
3. Perbandingan Hasil Klasifikasi Teks a) Metode Support Vector Machine
Pada penelitian ini estimasi parameter terbaik akan dilakukan dengan mengunakan grid search. Grid searc h bertujuan membuat grid parameter dari setiap pasangan parameter C dan parameter epsilon.
Tabel 2. Grid Search Nilai Akurasi Untuk SVM (%)
Tabel 3. Grid Search Nilai AUC Untuk SVM
berbasis Principal Component Analysis dan Genetic Algorithm
Perubahan nilai parameter threshold mempengaruhi nilai akurasi yang dihasilkan. Disini parameter Genetic Algorithm masih menggunakan nilai default yang ada. Adapun hasil dari perubahan nilai akurasi yang dihasilkan setelah perubahan parameter threshold disajikan dalam tabel.
Tabel 4. Hasil eksperimen setelah menggunakan Principal Component Analysis
Eksperimen dengan menggunakan Genetic Algorithm dimulai dengan melakukan adjustment pada nilai maximum number of generation, yaitu dimulai dari 10-100 dengan kelipatan nilai 10, untuk menentukan jumlah generasi yang menghasilkan akurasi paling tinggi. Ketika maximum of number generation di-adjustment, nilai population, p initialize, p crossover, dan p mutation berada pada nilai default, yaitu 5 unt uk population, 0.5 untuk p mutation, 0.5 untuk p crossover, dan 0.1 untuk p mutation. Setelah didapatkan jumlah maksimal generasi yang menghasilkan akurasi paling tinggi, kemudian dilanjutkan dengan melakukan adjustment pada nilai pop population yang dimulai dari 5-100 dengan kelipatan nilai 5. Nilai population yang menghasilkan akurasi paling tinggilah yang akan digunakan pada langkah percobaan selanjutny a. Setelah itu, dilakukan adjustment pada p
initialize dengan range 0. 1-1. 0 dengan kelipatan nilai 0.1. Dilanjutkan dengan adjustment pada p crossvover dengan range 0.1-1.0 dengan kelipatan nilai 0.1.
Dan yang terakhir dilakukan adjustment pada p mutation dengan range 1.0-1.0 dengan kelipatan nilai 0.1.
Tabel 5. Adjustment pada nilai p mutation
4. Evaluasi dan Validasi
Berdasarkan hasil pengujian metode yang diusulkan di atas. Pada pengujian ini, data yang digunakan adalah data bersih yang telah melalui preprocessing. Process document from files yaitu mengkonversi files menjadi dokumen, kemudian proses selanjutnya set role dengan menentukan field yang akan dijadikan sebagai kelas dan yang terak hir adalah proses validasi.
Proses validasi terdiri dari data t raining dan data testing.
Kurva ROC (Receiver Operating Characteristic) adalah cara lain untuk mengevaluasi akurasi dari klasifikasi secara visual. Sebuah grafik ROC adalah plot dua dimensi dengan proporsi positif salah pada sumbu X dan positif benar pada sumbu Y. Hasil perhitungan pada k urva ROC, meggambarkan kurva ROC untuk algoritma Support Vector Machine dengan penambahan pemilihan fitur Principal Component Analysis dan Genetic Algorithm. Dapat disimpulkan bahwa satu point pada kurva ROC adalah lebih baik dari pada yang lainnya jika arah garis melintang dari kiri bawah ke kanan at as didalam grafik. Kurva ROC Support Vector Mac hine memiliki AUC sebesar 0.994 yang termasuk ke dalam kategori excellent classification. Berikut dapat dilihat Kurva ROC Support Vector Machine pada Gambar 4.8.
Gambar 5. Kurva ROC SVM + PCA + GA
Berikut merupakan persamaan model Conf usion Matrix untuk menghitung akurasi pada percobaan S upport Vector Machine sebelum adanya penyesuaian nilai parameter dan sebelum dilakukan optimasi dengan pemilihan fitur.
Tabel 6. Confusion Matrix Support Vector Machine
CLASSIFICATION PREDICTED CLASS Class=Yes Class=No
Class=Yes 87 1
Class=No 63 149
Sedangkan persamaan model Conf usion Matrix untuk menghitung akurasi pada percobaan Support Vector Machine dengan P rincipal Component Analysis dan Genetic Algorithm adalah sbeagai berikut:
Tabel 7. Confusion Matrix dengan Model SVM + PCA + GA
CLASSIFICATION
PREDICTED CLASS Class=Yes Class=No
Class=Yes 148 4
Class=No 2 146
Akurasi yang diperoleh yaitu 98.33% dari 150 dat a revi ew negatif dan 150 data review positif. Data review yang dihasilkan RapidMiner dengan model SVM + PCA + GA menunjukan bahwa klasifikasi untuk review positif yang sesuai prediksi yaitu 148. Data review negatif yang termasuk ke dalam prediksi positif yaitu 2.
Dara review positif yang termasuk ke dalam prediksi negatif yaitu 4 dan data review negatif yang termasuk ke dalam prediksi negatif yaitu 146.
Acc (Accuracy)
TP+TN = 148 + 146 = 294 = 0.98 TP+TN+FP+FN 148+2+4+146 300
Sensitivity
TP ___ = 148 = 148 = 0.973 TP + FN 148 + 4 152
Specificity
TN____ = 146 = 146 = 0.986 TN + FP 146 + 2 148
PPV
TP____ = 148 = 148 = 0.986 TP + FP 148 + 2 150
NPV
TN___ = 146 = 146 = 0.973 TN + FN 146 + 4 150
Semakin besar nilai parameter C yang dipengaruhi oleh nilai epsilon pada Support Vector Machine, maka performa cenderung makin menurun. Penelitian ini menghasilkan akurasi pada algoritma Support Vector Machine yang dioptimasi dengan Principal Component Analysis dan Genetic Algorit hm dengan akurasi 98,33% dan AUC sebesar 0.994. Pada penelitian ini nilai parameter yan digunakan untuk Support Vector Machine adalah 0.0, baik untuk parameter C maupun parameter epsilon.
Sedangkan nilai paramet er threshold untuk Principal Component Analisys adalah 0,3. Dan untuk Genetic algorithm, nilai parameter yang digunakan adalah Maximum Number of Generation dengan nilai 30, Population dengan nilai 95, p initialize dengan nilai 0,4, p crossover dengan nilai 8,8, dan p mutation dengan nilai 0,1. Model Support Vector Machine berbasis Principal Component Analysis dan Genetic Algorithm dapat memberikan solusi terhadap permasalahan klasifikasi review negatif maupun positif pada pengiriman barang agar lebih akurat dan optimal. Model ini dapat digunakan untuk mengetahui hasil klasifikasi pada review, apakah review tersebut termasuk ke dalam review negatif at au review positif. Hal ini juga dapat membantu seseorang untuk menghemat waktu saat mencari review pengiriman barang dengan pelayanan yang baik sesuai reviewnya.
Metode Support Vector Machine sudah banyak digunakan dan mempuny ai performa yang baik dalam klasifikasi teks, namun ada beberapa hal yang dapat ditambahkan untuk penelitian selanjutnya:
1. Menggunakan pemilihan fitur lain, seperti Chi Square, Mutual Information, Information Gain, dan lain-lain. Penggunaan pemilihan fitur lain dapat dilakukan dengan cara penggabungan ataupun terpisah. Hasil dari penggunaan pemilihan fitur lain dapat dibandingkan dengan metode yang sudah digunakan.
2. Menggunakan pengklasifikasi lain yang mungkin di luar Supervised learning.
Sehingga bisa dilak ukan penelitian yang berbeda dari umumnya yang sudah ada.
3. Menggunakan data review dari domain yang berbeda, misalnya review film, restoran, review produk, dan lain sebagainya.
DAFTAR PUSTAKA
[1] Basari, A. S. H., Hussin, B., Ananta, I. G.
P., & Zeniarja, J. 2013. Opinion Mining of Movie Review using Hybrid Method of Support Vector Machine and Particle Swarm Optimization. Procedia Engineering,
http://doi.org/10.1016/j.proeng.2013. 02.059 [2] Chandani, V. 2015. Komparasi Algoritma
Klasifikasi Machine Learning Dan Feature Selection pada Analisis Sentimen Review Film, Journal of Intelligent Systems, 55–59.
[3] Dawson, C. W. 2009. Projects in Computing and Information S ystems.
England: Pearson Education Limited.
[4] Elkan, C. 2013. Predictive analytics and data mining. Technical report, Cato Institute.
[5] Feldman. 2007. The Text Mining Handbook. New York: Cambridge Univesity Press.
[6] Ghiassi, M., Skinner, J., & Zimbra, D. 2013.
Twitter brand sentiment analysis: A hybrid system using n-gram analysis and dynamic artificial neural net work. Expert Systems with Applications, 40(16), 6266–6282.
http://doi.org/10.1016/j.eswa.2013.05.057 [7] Gorunescu, F. 2011. Dat a mining: concepts
and techniques. Springer-Verlag Berlin Heidelberg. http://doi.org/10.1007/978-3- 642-19721-5
[8] Gunal. 2012. Hybrid feature selection for text classification, Turk J Elec Eng & Comp Sci, 20. http://doi.org/10.3906/elk-1101- 1064
[9] Kontopoulos, E., Berberidis, C., Dergiades, T., & Bassiliades, N. 2013. Ontology-bas ed sentiment analysis of twitter posts. Expert Systems with Applications, 40(10), 4065–
4074.
http://doi.org/10.1016/j.eswa.2013.01.001 [10] Kurniawan. 2013. Optimasi Algoritma
Support Vector Machine (SVM), Jurnal Teknologi Informasi, 9 (April), 38–49.
[11] Liu, B. 2010. Sentiment Analysis and Subjectivity, 1–38. Chicago: Handbook of Natural Language Processing
[12] Liu, B. 2012. Sentiment Analysis and Opinion Mining. Chicago: Morgan &
Claypool Publishers.
[13] Made, N., Lestari, A., Gede, I. K., Putra, D., Ketut, A. A., & Cahyawan, A. 2013.
Personality Types Classification for Indonesian Text in Partners Searching Website Using Naïve Bayes Methods, 10(1), 1–8.
[14] Miner, G., Delen, D. 2012. The Seven Practice Areas of Text Analytics, (January),
29–41. Elsevier Inc.
http://doi.org/10.1016/B978-0-12-386979- 1.00002-5
[15] Moraes, R., Valiati, J. F., & Gavião Neto, W. P. 2013. Document-level sentiment classification: An empirical comparison between SVM and A NN. E xpert Systems
with Applications, 40(2), 621–633.
http://doi.org/10.1016/j.eswa.2012.07.059 [16] Morchid, M., Dufour, R., Bousquet, P.-M.,
Linarès, G., & Torres-Moreno, J.-M. 2014.
Feature selection using Principal Component Analysis for massive retweet detection. Pattern Recognition Letters, 49, 33–39.
http://doi.org/10.1016/j.patrec.2014.05. 020 [17] Noviati. 2015. Analisis Pengaruh Seleksi
Fitur pada Klasifikasi Konsentrasi.
Semarang. Jurnal Nasional Sains dan Teknologi.
[18] Pang, B., & Lee, L. 2008. Opinion mining and sentiment analysis. Foundations and Trends in Information Retrieval. 2 (1).
[19] Pratama, E. E., & Trilaksono, B. R. 2014.
Klasifikasi Keluhan Pelanggan Berdasark an Tweet dengan Menggunakan Metode Support Vector Machine ( SVM ). Bandung:
Jurnal Teknik Elektro dan Informatika.
[20] Puspaningrum, E. Y., & Syidada, S. 2010.
Reduksi Fitur Untuk Kategorisasi Text Dengan, 2–5. Surabay a: Jurnal Teknik Informatika.
[21] Puspitaningrum. 2014. Dampak Reduksi Sampel Menggunakan Principal Component Analysis (PCA) Pada Pelatihan Jaringan Saraf Tiruan Terawasi - 2014.
Bengkulu: Jurnal Pseudocode.
[22] Sartono. 2010. Pengenalan Algoritma Genetik Untuk Pemilihan Peubah Penjelas Dalam Model Regresi Menggunakan SAS / IML ( An Int roduction to V ariables Selection in Regression Analysis using Genetic Algorithm with SAS / IML ) Bagus Sartono Peneliti di Data Mining Cent er – , 15(2), 10–15.
[23] Singh, P., & Pandi, G. S. 2015. Opinion Mining Techniques for Social Network Analysis : A Survey, 2(12), 350–354.
International Journal for Scientific Research
& Development.
[24] Swati. 2015. SVM Based Improvement In KNN For Text. International Journal of Engineering Research and General Science. 3(4), 214–220.
[25] Tan, S., & Zhang, J. 2008. An empirical study of sentiment analysis for chinese documents. Expert Systems with Applications, 34(4), 2622–2629.
http://doi.org/10.1016/j.eswa.2007.05.028 [26] Thakor, P., & Sasi, S. 2015. Ontology -
based Sentiment Analysis Process for Social Media Cont ent. Procedia Comput er
Science, 53, 199–207.
http://doi.org/10.1016/j.procs.2015.07.2 95 [27] Vercellis, C. 2009. Business Intelligence:
Data Mining and Optimization for Decision
Mak ing. United Kingdom: A John Wiley and Sons, Ltd., Publication.
[28] Wahyuni, D. T., & Lut hfiarta, A. 2004.
Prediksi Hasil Pemilu Legislatif DK I Jakarta Menggunakan Naïve Bayes Dengan Algoritma Genetika Sebagai Fitur Seleksi.
Semarang: Jurnal Teknik Informatika FIK UDINUS.
[29] Wan, C. H., Lee, L. H., Rajkumar, R., & Isa, D. 2012. A hybrid text classification approach with low dependency on parameter by integrating K-nearest neighbor and support vector machine.
Expert Systems with Applications, 39(15), 11880–11888.
http://doi.org/10.1016/j.eswa.2012.02.068 [30] Wang, Z. 2015. Enhancing Machine-
Learning Methods for Sentiment Classification of Web Data Enhancing Machine-Learning Methods for Sentiment, (September). Switzerland: Springer International Publishing.
[31] Wayan, N., Saraswati, S., Prodi, S., Informatika, T., Denpasar, S., Tukad, J., &
No, B. 2013. Naïve Bayes Classifier Dan Support Vector Machines Untuk Sentiment Analysis, 2–4. Bali: Seminar Nasional Sistem Informasi Indonesia.
[32] Zhang, Z., Ye, Q., Zhang, Z., & Li, Y. 2011.
Sentiment classification of Internet restaurant reviews written in Cantonese.
Expert Systems with Applications, 38(6), 7674–7682.
http://doi.org/10.1016/j.eswa.2010.12.147