Rumusan Masalah - Permasalahan Penelitian

BAB 1. PENDAHULUAN

1.2. Permasalahan Penelitian

1.2.3. Rumusan Masalah

Program Studi Ilmu Komputer STMIK Nusa Mandiri

Rumusan masalah yang terdapat pada penelitian ini adalah sebagai berikut : 1. Bagaimana perbandingan akurasi yang akan dihasilkan diantara Support

Vector Machine berbasis Particle Swarm Optimization dan Naive Bayes berbasis Particle Swarm Optimization.

2. Penelitian ini mencoba menganalisis ulasan dari masyarakat mengenai kosmetik melalui analisis sentimen dan diklasifikasikan menjadi dua kelas yaitu positif dan negatif.

1.3. Manfaat dan Tujuan Penelitian

Ulasan atau dokumen Word of Mouth mengenai kosmetik di website femaledialy.com jumlahnya sangat banyak di internet, karenasemua orang bebas untuk menuliskan pendapat mereka. Maka dari itu dipilihlah website sfemaledialy.com sebagai sumber data dalampenelitian ini karena femaledaily.com adalah website yang menyediakan berbagai informasi mengenai berbagai jenis kosmetik dari berbagai merk. Dengan demikian penelitian ini mencoba menganalisis ulasan dari masyarakat mengenai kosmetik melalui analisis sentimen dan diklasifikasikan menjadi dua kelas yaitu positif dan negatif.

Tujuan dari penelitian ini adalah untuk memperoleh dan mendeteksi besarnya efek penerapan metode pemilihan fitur Particle Swarm Optimization dalam menganalisa sentimen pada website atau opini publik tentang kosmetik dengan menggunakan Support Vector Machine dan Naive Bayes sehingga dapat dihasilkanakurasi tertinggi serta memilih akurasi yang terbaik dari kedua model yangdiusulkan.

1.4. Ruang Lingkup Penelitian

Ruang lingkup penelitian ini dibatasi pada penerapan algoritma Support vector machine dan Naive Bayes berbasis Particle Swarm Optimization dengan penjelasan sebagai berikut:

1. Data yang digunakan yaitu komentar dari review kosmetik di website femaledialy.com tentang empat pruduk kosmetik yang sangat populer yaitu wardah, emina, dan maybelline yang memiliki ulasan atau review terbanyak.

Program Studi Ilmu Komputer STMIK Nusa Mandiri 2. Metode algoritma Support Vector Machine dan Naive Bayes berbasis Particle

Swarm Optimization akan digunakan sebagaibaseline pada penelitian ini.

1.5. Sistematika Penulisan

Sistematika penulisan yang digunakan dalam penulisan tesis ini adalah sebagai berikut :

BAB I PENDAHULUAN

Membahas mengenai latar belakang penulisan, permasalahan penelitian, manfaat dan tujuan penelitian.

BAB II LANDASAN TEORI

Bab ini membahas tentang landasan teori yang melandasi penelitian yangmencakup tinjauan studi dan tinjauan pustaka serta teori-teori lainnya yangmendukung dalam proses penelitian ini.

BAB III METODOLOGI PENELITIAN

Bab ini berisi tentang metode penelitian yang membahas tentang perancangan metode penelitian serta konsep dari penelitian yang nantinyaakan digunakan sebagai solusi dalam penyelesaian masalah yang diangkatdalam penelitian ini.

BAB IV HASIL DAN PEMBAHASAN

Menampilkan hasil dari eksperimen, baik sebelum maupun sesudah model diterapkan. Membandingkan hasil dari kedua model untuk melihat tingkatakurasi yang paling tinggi.

BAB V PENUTUP

Membahas kesimpulan dan kekurangan penelitian, serta kelebihan dari model yang digunakan.

Program Studi Ilmu Komputer STMIK Nusa Mandiri

Menurut Chandra, (2016, p.12) Text mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks. Proses penganalisisan teks ini berguna untuk mencari informasi yang bermanfaat untuk tujuan tertentu. Pada dasarnya, text mining merupakan bidanginterdisiplin yang mengacu pada perolehan informasi (information retrieval), data mining, pembelajaran mesin (machine learning), statistik, dan komputasilinguistic.

Penambangan teks (bahasa inggris: text mining) adalah proses ekstraksi pola berupa informasi dan pengetahuan yang berguna dari sejumlah besar sumber data teks, seperti dokumen Word, PDF, kutipanteks, dll. Jenis masukan untuk penambangan teks ini disebut data tidak terstruktur dan merupakan pembeda utama dengan penambangan data yang menggunakan data terstruktur atau basis data sebagai masukan. Penambangan teks dapat dianggap sebagai proses dua tahap yang diawali dengan penerapan struktur terhadap sumber data teks dan dilanjutkan dengan ekstraksi informasi dan pengetahuan yang relevansi data teks terstruktur ini dengan menggunakan teknik dan alat yang sama dengan penambangan data. Proses yang umum dilakukan oleh penambangan teks diantaranya adalah perangkuman otomatis, kategorisasi dokumen, penggugusan teks, dan lain-lain. Text mining adalah salah satu bidang khusus dari data mining. Text mining dapat didefinisikan sebagai suatu proses menggali informasi dimana seorang pengguna berinteraksi dengan sekumpulan dokumen menggunakan tools analisis, yang merupakan komponen-komponen dalam data mining salah satunya adalah klasifikasi. Dari pendapat ahli diatas, maka dapat disimpulkan bahwa text mining adalah informasi terstruktur yang digunakan untuk menganalisis atau mengelompokkan dokumen atau teks dari sejumlah besar dokumen atau teks.

Beberapa tahun terakhir, penggunaan dan penelitian mengenai text mining

Program Studi Ilmu Komputer STMIK Nusa Mandiri

telah banyak mendapat perhatian dan aktif dilakukan seiring dengan semakin banyaknya data teks yang diperoleh dari berbagai jaringan sosial, web, dan aplikasi lainnya. Sebagian besar informasi teks yang disimpan tersebut seperti artikel berita, makalah, buku, perpustakaan digital, pesan email, blog, status di sosial media dan halaman web.

2.1.2. Analisa Sentimen

Analisis sentimen adalah bidang indisipliner, sebuah bidang dimana pendekatan pemecahan masalahnya dengan menggunakan tinjauan dari berbagai sudut pandang ilmu serumpun secara relevan dan terpadu. Analisis sentimen terdiri dari pemrosesan bahasa alami, analisis teks dan komputasi linguistik untuk mengidentifikasi sentimen dari suatu dokumen (Vinodhini, 2015).

Dalam beberapa tahun terakhir kita telah menyaksikan Analisa Sentimen dan Opini Pertambangan menjadi topik semakin populer di information retrieval dan analisis data web. Analisis sentimen atau pertambangan opini terdiri dari berbagai bidang seperti pengolahan bahasa alami, pertambangan teks, pengambilan keputusan dan linguistik. Analisis sentimen adalah jenis analisis teks yang mengklasifikasikan teks dan membuat keputusan dengan mengekstraksi dan menganalisis teks. Pendapat dapat dikategorikan sebagai positif dan negatif dan mengukur tingkat positif atau negatif yang terkait dengan acara (orang, organisasi, isu-isu sosial).

Analisa sentimen atau opinion mining adalah studi komputasi mengenai pendapat, perilaku dan emosi seseorang terhadap entitas. Entitas tersebut dapat menggambarkan individu, kejadian atau topik. Topik tersebut kemungkinan besar dapat berupa review (Medhat, dkk. 2014). Tugas dasar dalam analisis sentimen adalah mengelompokkan polaritas dari teks yang ada dalam dokumen, kalimat, atau pendapar.

Polaritas mempunyai arti apakah teks yang ada dalam dokumen, kalimat, atau pendapat memiliki aspek positif atau negatif.

Dari lima pendapat ahli diatas, maka dapat disimpulkan bahwa analisa sentimen atau sentiment analysis adalah jenis analisis teks yang mengklasifikasikan

Program Studi Ilmu Komputer STMIK Nusa Mandiri

teks dengan mengkategorikan teks sebagai positif atau negatif dan mengukur tingkat positif atau negatif yang terkait dengan suatu kejadian.

Langkah-langkah yang umumnya ditemukan pada kalsifikasi tekx analisa sentimen adalah :

1. Definisikan domain dataset

Pengumpulan dataset yang melingkupi suatu domain, misalnya dataset review film, dataset eview produk, dan lain sebagainya.

2. Preprocessing

Preprocessing bertujuan untuk mempersiapkan teks menjadi data yang akan mengalami pengolahan pada tahap berikutnya. Tahap pemrosesan awal yang umumnya dilakukan dengan proses Tokenization , stopwords removal, dan stemming.

3. Transfromation

Pada tahap ini hasil yang diperoleh dari tahap text preprocessing akan melalui proses transformasi. Proses representasi angka yang dihitung dari data tekstual. Binary representation yang umumnya digunakan dan hanya menghitung kehadiran dan ketidakhadiran sebuah kata di dalam dokumen. Berapa kali sebuah kata muncul di dalam suatu dokumen juga digunakan skema pembobotan dari data tekstual. Proses yang umumnya digunakan yaitu TF-IDF, Binary transformation, dan Frequency transformation.

4. Feature Selection

Pemilihan fitur (feature selection) bisa membuat pengklasifikasi lebih efisien/efektif dengan mengurangi jumlah data untuk dianalisa dengan mengidentifikasi fitur yang relevan yang selanjutnya akan diproses. Metode pemilihan fitur yang biasanya digunakan adalah Expert Knowledge, Minimum Frequency, Information gain, Chi-Square, dan lain sebagainya.

5. Classification

Classification adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data dengan tujuan untuk memperkirakan kelas yang tidak diketahui dari suatu objek. Proses klasifikasi umumnya menggunakan pengklasifikasi seperti Naïve Bayes, Support Vector Machine, dan lain sebagainya.

Program Studi Ilmu Komputer STMIK Nusa Mandiri

6. Interpretation/Evaluation

Tahap evaluasi biasanya menghitung akurasi, recall, precision, dan F-1.

2.1.3. RapidMiner

RapidMiner merupakan perangakat lunak yang bersifat terbuka (open source). RapidMiner adalahsebuah solusi untuk melakukan analisis terhadap data mining, text mining dan analisis prediksi. RapidMiner menggunakan berbagai teknik deskriptif dan prediksi dalam memberikan wawasan kepada pengguna sehingga dapat membuat keputusan yang paling baik.RapidMiner memiliki kurang lebih 500 operator data mining, termasuk operator untuk input, output, data preprocessing dan visualisasi. RapidMiner merupakansoftware yang berdiri sendiri untuk analisis data dan sebagai mesin data mining yang dapat diintegrasikan pada produknya sendiri. RapidMiner ditulis dengan munggunakan bahasa java sehingga dapat bekerja disemua sistem operasi ( Aprilla, C et al. 2013).

RapidMiner menyediakan GUI (Graphic User Interface) untuk merancang sebuah pipeline analitis.GUI ini akan menghasilkan file XML )Extensible Markup Language) yang mendefenisikan proses analitis keingginan pengguna untuk diterpkan ke data. File inikemudian dibaca oleh RapidMiner untuk menjalankan analis secara otomatis.

2.1.4. Pemilihan Fitur (Feature Selection)

Dalam penerapan text mining terhadap sekumpulan dokumen, kita mengenal istilah feature selection. Menurut Kristiyanti dan Wahyudi (2017, p.2) Seleksi Fitur adalah proses optimasi mengurangi jumlah data yang begitu besar untuk dikelompokan ke dalam beberapa bagian yang lebih kecil agar dapat meningkatkan klasifikasi akurasi secara signifikan, cepat dan efektif. Tahapan ini merupakan tahapan penting dalam text mining. Salah satu fungsi penting yang disediakan oleh proses ini adalah untuk dapat memilih term atau kata apa saja yang dapat disajikan sebagai wakil penting untuk kumpulan dokumen yang akan kita analisis.

Program Studi Ilmu Komputer STMIK Nusa Mandiri

2.1.5. Algoritma Klasifikasi (Classification Algorithm)

Klasifikasi merupakan salah satu peran utama dari text mining. Klasifikasi termasuk ke dalam supervised learning karena dalam proses klasifikasi terdapat proses pembelajaran dengan data lampau. Proses ini digunakan algoritma untuk mengenali pola dari data yang nantinya dapat diterapkan kepada data baru yang belum diketahui kelompoknya.

2.1.5.1. Naive Bayes

Menurut Chandra (2016, p. 13) Naive bayes classifier merupakan sebuah metode klasifikasi yang berakar pada teorema bayes. Metode pengklasifikasian dengan menggunakan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan inggris Thomas Bayes, yaitu memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya sehingga dikenal sebagai Teorema Bayes. Ciri utama dari naive bayes classifier ini adalah asumsi yang sangat kuat (naif) akan independensi dari masing-masing kondisi atau kejadian.

Misalnya, suatu objek dapat diklasifikasikan berdasarkan atributnya seperti bentuk, warna, dan berat. Klasifikasi yang masuk akal untuk sebuah benda yang bulat, kuning, dan kurang dari 60 gram beratnya mungkin bola tenis. Bahkan jika fitur-fitur ini bergantung satu sama lain atau pada keberadaan fitur-fitur lainnya, pengelompokan Naïve Bayes yang menganggap semua properti ini berkontribusi secara independen terhadap probabilitas bahwa objek tersebut adalah bola tenis.

Variabel input umumnya kategoris, tetapi variasi dari algoritma dapat menerima continuous variables. Ada juga cara untuk mengubah continuous variables menjadi categorical variable. Proses ini sering disebut sebagai diskretisasi continuous variables.

Dengan dua penyederhanaan, teorema Bayes dapat diperluas menjadi Naïve Bayes Classifier Penyederhanaan pertama adalah menggunakan asumsi

Program Studi Ilmu Komputer STMIK Nusa Mandiri

independensi bersyarat. Artinya, setiap atribut secara kondisional independen dari setiap atribut lain yang diberi label kelas ci.

Membangun Naïve Bayes Classifier membutuhkan pengetahuan statistik tertentu, semua dihitung dari set pelatihan. Persyaratan pertama adalah untuk mengumpulkan probabilitas dari semua label kelas. Hal kedua yang perlu diketahui oleh Naïve Bayes Classifier adalah probabilitas kondisional masing-masing atribut aj diberikan setiap label kelas.

2.5.1.2. Support Vector Machine

SVM merupakan metode supervised learning yang menganalisa data dan mengenali pola-pola yang digunakan untuk klasifikasi (Basari, 2013). Support Vector Machine (SVM) adalah kasus khusus dari keluarga algoritma yang disebut sebagai regularized metode klasifikasi linier dan metode yang kuat untuk meminimalisasi resiko (Weist, dkk. 2010). SVM memiliki kelebihan yaitu mampu mengidentifikasi hyperplane terpisah yang memaksimalkan margin antara dua kelas yang berbeda (Dehkharghani, 2014). Namun, Support Vector Machine memiliki kekurangan terhadap masalah pemilihan parameter atau fitur yang sesuai (Basari, 2013) . Pemilihan fitur sekaligus penyetingan parameter di SVM secara signifikan mempengaruhi hasil akurasi klasifikasi. Dalam masalah aplikasi tertentu, tidak semua fitur ini sama pentingnya. Kinerja yang lebih baik dapat dicapai dengan membuang beberapa fitur. Dengan demikian, dapat dihilangkannya data yang noise, data yang tidak relevan dan berlebihan.

SVM pada awalnya digunakan untuk klasifikasi data numerik, tetapi ternyata SVM juga sangat efektif dan cepat untuk menyelesaikan masalah masalah data teks. Data teks cocok untuk dilakukan klasifikasi dengan algoritma SVM karena sifat dasar teks yang cenderung mempunyai dimensi yang tinggi, dimana terdapat beberapa fitur yang tidak relevan, tetapi akan cenderung berkolerasi satu sama lain dan umumnya akan disusun dalam kategori yang terpisah secara linear.

Program Studi Ilmu Komputer STMIK Nusa Mandiri

SVM memiliki kelebihan yaitu mampu mengidentifikasi hyperplane terpisah yang memaksimalkan margin antara dua kelas yang berbeda. Namun SVM memiliki kekurangan terhadap masalah pemilihan parameteratau fitur yang sesuai (Basari et al. 2013). Pemilihan fitur sekaligus penyetinganparameter di SVM secara signifikan mempengaruhi hasil akurasi klasifikasi.

Gambar 2.1. SVM berusaha menemukan hyperplane terbaik yang memisahkan kedua class -1 dan +1

Konsep SVM dapat dijelaskan secara sederhana sebagai usaha mencari hyperplane terbaik yang berfungsi sebagai pemisah dua buah class pada input space. Gambar II.1 diatas memperlihatkan beberapa pattern yang merupakan anggota dari dua buah class : +1 dan -1. Pattern yang tergabung pada class -1 disimbolkan dengan warna merah (kotak), sedangkan pattern pada class +1, disimbolkan dengan warna kuning (lingkaran).

Problem klasifikasi dapat diterjemahkan dengan usaha menemukan garis (hyperplane) yang memisahkan antara kedua kelompok tersebut. Berbagai alternatif garis pemisah (discrimination boundaries) ditunjukkan pada gambar 2.1.

Hyperplane pemisah terbaik antara kedua class dapat ditemukan dengan mengukur margin hyperplane tersebut. Dan mencari titik maksimalnya. Margin adalah jarak antara hyperplane tersebut dengan pattern terdekat dari masingmasing class. Pattern yang paling dekat ini disebut sebagai support vector. Garis solid pada gambar sebelah kanan menunjukkan hyperplane yang terbaik, yaitu yang terletak tepat pada tengah-tengah kedua class, sedangkan titik merah dan kuning yang berada dalam lingkaran hitam adalah support vector. Usaha untuk

Program Studi Ilmu Komputer STMIK Nusa Mandiri

mencari lokasi hyperplane ini merupakan inti dari proses pembelajaran pada SVM.

Tujuan dari SVM adalah untuk memisahkan data kelas dengan cara maksimal margin hyperplane. Dengan demikian, SVM menjamin untuk memaksimalkan jarak antara data yang paling dekat dengan hyperplane. Jika input data dapat dipisahkan secara linear, pemisahan hyperplane dapat diberikan dalam persamaan:

f(X) = w^Tx + b (3) (2.1)

dimana w adalah n-dimensi bobot vektor dan b adalah pengali skalar atau nilai bias. Persamaan ini menemukan maksimum margin untuk memisahkan kelas dari kelas positif dari kelas negatif. Fungsi keputusan ditunjukkan dalam persamaan.

Contoh untuk data linear terpisah ditunjukkan pada Gambar 2.4:

yi (w x1 + b ) ≥ 1 i = 1... k (2.2)

Metode Support Vector Machine memiliki beberapa keuntungan yaitu : 1. Generalisasi

Generalisasi didefinisikan sebagai kemampuan suatu metode untuk mengklasifikasi suatu pattern atau pola, yang tidak termasuk data yang digunakan dalam fase pembelajaran metode itu.

2. Curse of dimensionaly

Curse of dimensionaly didefinisikan sebagai masalah yang dihadapi suatu metode pattern recognation dalam mengestimasikan parameter dikarenakan jumlah sampel data yang relatif lebihs edikit dibandingkan dengan dimensional ruang vektor tersebut.

3. Feasibility

Support Vector Machine dapat diimplementasikan relatif lebih mudah, karena proses penentuan Support Vector Machine dapat dirumuskan dalam Quadratic Programing (QP) problem.

Program Studi Ilmu Komputer STMIK Nusa Mandiri

2.1.6. Particle Swarm Optimization (PSO)

Particle Swarm Optimization (PSO) banyak digunakan untuk memecahkan masalah optimasi serta sebagai masalah seleksi fitur. Dalam teknik Particle Swarm Optimization (PSO) terdapat beberapa cara untuk melakukan pengoptimasian diantaranya meningkatkan bobot atribut (attribute weight) terhadap semua atribut atau variabel yang dipakai, menyeleksi atribut (attribute selection) dan feature selection. Particle Swarm Optimization (PSO) adalah suatu teknik optimasi yang sangat sederhana untuk menerapkan dan memodifikasi beberapa parameter [6].

Salah satu metode wrapper yang bisa digunakan dalam pemilihan fitur adalah Genetic algorithm (GA). Genetic algorithm mudah disejajarkan dan telah digunakan untuk klasifikasi seperti masalah optimasi lainnya. Dalam data mining, algoritma genetika dapat digunakan untuk mengevaluasi fitness algoritma lainnya.

2.1.7. Validasi dan Evaluasi Algoritma

Ada banyak metode yang digunakan untuk memvalidasi suatu model berdasarkan data yang ada, seperti holdout, random sub-sampling, crossvalidation, stratified sampling, bootstrap dan lain sebagainya. Diperlukan carayang sistematis untuk mengevaluasi kinerja dari suatu metode. Evaluasi klasifikasi didasarkan pengujian pada objek yang benar dan salah. Adapunvalidasi dan evaluasi algoritma yang digunakan dalam pengujian ini adalah:

1. Confusion matrix adalah alat yang sangat berguna untuk menganalisa seberapa baik pengklasifikasi bias mengenali tuple dari class yang berbeda.

Dalam confusion matrix dikenal beberapa istilah seperti True positive yang merujuk pada tuple positif yang secara benar dilabeli oleh pengklasifikasi, sementara True negative adalah tuple negatif yang secara benar dilabeli oleh pengklasifikasi.Confusion Matrix berisi informasi mengenai hasil klasifikasi.

Program Studi Ilmu Komputer STMIK Nusa Mandiri

Performa dari sistem tersebut biasanya dievaluasi menggunakan data dalam sebuah matrix.

2. Kurva ROC akan digunakan untuk mengukur Area Under Curve (AUC).

Kurva ROC membagi hasil positif dalam sumbu y dan hasil negative dalam sumbu x sehingga semakin besar area yang berada di bawah kurva, semakin baik pula hasil prediksi. Kurva Receiver Operasi Karakteristik (ROC) digunakan untuk mengevaluasi akurasi classifier dan untuk membandingkan klasifikasi yang berbeda model, sehingga semakin besar area yang berada di bawah kurva, semakin baik pula hasil prediksi.

2.2. Tinjauan Studi Penelitian Terdahulu yang Terkait 1. Model Penelitian Buntoro (2017)

Penelitian (Buntoro,2017) dengan judul Analisis Sentimen Calon Gubernur DKI Jakarta 2017 Di Twitter. Dari penelitian yang telah dilakukan, maka dapat ditarik kesimpulan bahwa Analisis Sentimen dapat digunakan untuk mengetahui sentimen masyarakat khususnya netizen Twitter terhadap calon Gubernur DKI Jakarta 2017.

Tujuannya membantu masyarakat menentukan sentimen yang terdapat pada twit opini Bahasa Indonesia yang ada di Twitter. Setelah dilakukan analisis sentimen, terlihat berapa banyak sentimen kepada calon Gubernur DKI Jakarta 2017. Nilai akurasi tertinggi didapat saat menggunakan metode klasifikasi Naïve Bayes Classifier (NBC) untuk klasifikasi data AHY, dengan nilai rata-rata akurasi mencapai 95%, nilai presisi 95%, nilai recall 95% nilai TP rate 96,8% dan nilai TN rate 84,6%. Dalam penelitian ini juga dapat diketahui metode klasifikasi Naïve Bayes Classifier (NBC) lebih tinggi akurasinya untuk klasifikasi sentimen Tweet Bahasa Indonesia dibandingkan dengan metode klasifikasi Support Vector Machine (SVM).

Program Studi Ilmu Komputer STMIK Nusa Mandiri

Tabel 2.1. Perbandingan Hasil Klasifikasi

2. Model Penelitian Rustiana, dkk (2017)

Rustiana, dkk (2017) dalam penelitiannya yang berjudul analisa sentimen otomotif mobil. Pada penelitian ini menganalisis data dari twitter dengan pencarian merk mobil yang terlaris berdasarkan data dari GAIKINDO (Gabungan Industri Kendaraan Bermotor Indonesia). Penelitian tersebut menggunakan metode naive bayes dan menghasilkan nilai akurasi 93%, serta persisi sentimen positif 90%, persisi sentimen negative 90%, dan persisi sentimen netral sebesar 100%. Proses klasifikasi semakin akurat jika data latih yang digunakan dalam pembelajaran berjumlah banyak, akan tetapi dapat juga mengurangi keakuratan jika kata-kata yang terdapat pada Tweet tersebut mengalami bias atau bermakna ganda.

3. Model Penelitian Nurhadi (2016)

Implementasi Algoritma Naïve Bayes Classifier Berbasis Particle Swarm Optimization (PSO) Untuk Klasifikasi Konten Berita Digital Bahasa Indonesia.

Dalam penelitian ini akan digunakan penggabungan metode pemilihan fitur, yaitu Particle Swarm Optimization berbasis Naïve Bayes Classifier untuk melihat akurasi pada metode tersebut. Penelitian ini menghasilkan klasifikasi teks dalam bentuk kategori gosip, kuliner, dan travel dari konten berita digital. Pengukuran

Program Studi Ilmu Komputer STMIK Nusa Mandiri

berdasarkan akurasi Naïve Bayes Classifier sebelum dan sesudah penambahan metode pemilihan fitur. Evaluasi dilakukan menggunakan 10 fold cross validation.

Sedangkan pengukuran akurasi diukur dengan confusion matrix. Hasil penelitian ini didapat akurasi dengan menggunakan metode algoritma Naïve Bayes Classifier sebesar 94.17%.

Tabel 2.2 Pengujian 10 Fold Cross Validation Cross Validation Naive Bayes PSO

Accuracy

Tabel 2.3. Model Confusion Matrix UntukMetode Naïve Bayes Classifier Berbasis Particle Swarm Optimization

True travel True gosip True kuliner Class precision

Pred travel 75 1 3 94.94%

Pred gosip 2 74 0 97.37%

Pred kuliner 3 5 77 90.59%

Class recall 93.75% 92.50% 96.25%

Dalam penelitian ini dilakukan pengujian model dengan menggunakan Naïve Bayes Classifier berbasis Particle Swarm Optimization dengan menggunakan data konten berita dengan keseluruhan 240 data konten berita dan 15 kata yang berhubungan dengan konten berita tersebut, yaitu gosip, selebriti, selingkuh, artis, skandal wisata,

Program Studi Ilmu Komputer STMIK Nusa Mandiri

pantai, travel, trip, gunung makan, minum, restoran, lezat, kuliner. Model yang dihasilkan diuji untuk mendapatkan nilai accuracy, precision, dan recall dari setiap

Dalam dokumen ANALISIS SENTIMEN REVIEW (Halaman 16-0)