18
BAB 3
METODOLOGI PENELITIAN
3.1 Metodologi Penelitian
Pada penelitian ini yang berjudul Implementasi Naive Bayes Pada Sentimen Analisis Komentar Youtube (Studi Kasus : Channel Sekretariat Presiden). Untuk melakukan metode yang dilakukan adalah penentuan topic, perumusan masalah, studi literature, System Development, uji coba System, evaluasi, dan konsultasi penelitian. Metode penelitian ini yang digunakan sebagai berikut:
1. Perumusan masalah
Pada tahap ini kegiatan yang dilakukan adalah mencari permasalahan pada komentar youtube yang bersifat positif maupun negatif pada Channel Sekretariat Presiden yang berjudul LIVE: Keterangan Pres Presiden RI Terkait Undang-Undang Cipta Kerja, Istana Bogor, 9 Oktober 2020.
2. Studi literatur
Pada tahap ini kegiatan yang dilakukan adalah mengumpulkan informasi berupa proses Preprocessing, Case folding, Tokenisasi, Normalisasi, Stemming, Filtering, metode dari Naive Bayes, teori TF-IDF, teori Confusion Matrix , Accuracy, Precision, Recall, F1-Score dan pengambilan data komentar dari Channel Sekretariat Presiden yang berjudul LIVE: Keterangan Pres Presiden RI Terkait Undang-Undang Cipta Kerja, Istana Bogor, 9 Oktober 2020 sebanyak 1.563 data ulasan yang telah dipilah menjadi 500 komentar yang telah dilabelin positif dan negatif.
19 3. Pengembangan sistem
Pada tahap ini kegiatan yang dilakukan adalah implementasi sistem berupa pembuatan UI dan implementasi algoritma Naive Bayes kedalam Code
4. Uji coba sistem
Pada tahap ini kegiatan yang dilakukan adalah melakukan uji coba system dengan 2 tahap yaitu Training dan Testing yang dimana Training melakukan pembelajaran sistem terhadap komentar youtube yang sudah dikategorikan dan Testing melakukan klasifikasi sistem terhadap komentar yang dikategorikan.
5. Evaluasi
Pada tahap ini kegiatan yang dilakukan adalah melakukan evaluasi yang dilakukan untuk melihat kekurangan dan kesalahan pada penelitian ini dan memberikan saran pengembangan yang diperlukan untuk melakukan penelitian tahap selanjutnya.
6. Konsultasi penelitian
Pada tahap ini kegiatan yang dilakukan adalah melakukan konsultasi kepada dosen pembimbing untuk menyempurnakan penelitian yang telah dibuat dan mendokumentasi hasil penelitian berupa laporan untuk keperluan akademis supaya penelitian ini dapat dikembangkan lebih lanjut dari hasil evaluasi yang diberikan.
20 3.2 Teknik Pengumpulan Data
Proses pengambilan Data yang dilakukan dengan cara menggunakan teknik Scraping. Data yang diperlukan pada penelitian ini adalah Data yang berisi ulasan komentar pengguna pada Channel Sekretariat Presiden yang berjudul LIVE:
Keterangan Pres Presiden RI Terkait Undang-Undang Cipta Kerja, Istana Bogor, 9 Oktober 2020. Data yang didapatkan pada teknik Scraping mendapatkan sebanyak 1.563 data ulasan komentar pengguna pada Channel Sekretariat Presiden yang berjudul LIVE: Keterangan Pres Presiden RI Terkait Undang-Undang Cipta Kerja, Istana Bogor, 9 Oktober 2020, data diolah agar tidak ada kesamaan kalimat ulasan komentar dan dilabel positif atau negatif sehingga Data menjadi 500 data yang akan digunakan pada penelitian ini. Pada penentuan positif dan negatif ditentukan dari jurnal (Ratnasari, 2010). Pesan berenergi rendah biasanya berkaitan dengan emosi negatif, sedangkan pesan berenergi tinggi memiliki daya yang kuat sehingga menggetarkan perasaan positif kita. Pesan berenergi tinggi seperti, riang, gembira, sukses, ataupun cinta, bergetar dengan getaran lebih tinggi dan cepat. Oleh karena itu, akan meningkatkan perasaan senang. Pesan berenergi rendah terutama kata-kata yang berkaitan dengan emosi negatif seperti kesedihan atau bersalah, beresonansi, pada frekuensi yang lebih rendah. Kata-kata tersebut membuat kita kurang gembira, menurunkan energi kita (Ratnasari, 2010).
3.3 Perancangan Aplikasi 3.3.1 Flowchart Awal Sistem
Pada Gambar 3.1 merupakan gambar alur dari proses utama sentimen yang akan digunakan saat proses penggunaan metode Naive Bayes. Langkah pertama dalam proses tersebut adalah memasukan Library yang akan digunakan dan
21 mendukung prosesnya penelitian, Selanjutnya memasukan proses data sentimen yang telah di labeling positif dan negatif dalam bentuk file CSV pada data tersebut berisi ulasan komentar pengguna padaChannel Sekretariat Presiden yang berjudul LIVE: Keterangan Pres Presiden RI Terkait Undang-Undang Cipta Kerja, Istana Bogor, 9 Oktober 2020. Dataset yang digunakan berjumlah 500 Data komentar yang telah dilabeli positif atau negatif, Pada proses selanjutnya adalah proses Preprocessing, Pada proses ini dilakukan untuk mengolah data sentimen yang telah dilabeling dengan proses Case Folding, Cleansing, Tokenization, Normalization, Stopword Removal Dan Stemming, Setelah proses Preprocessing selesai selanjutnya dengan proses perhitungan TF-IDF (Term Frequency – Inverse Document Frequency) proses ini adalah untuk menghitung bobot setiap kata yang telah di proses. Metode ini menghitung nilai dari Term dokumen atau menghitung seberapa sering suatu kata muncul didalam data dokumen, Selanjutnya proses dari Naive Bayes pada metode ini digunakan untuk menghitung peluang probabilitas dari setiap kata, Tahap selanjutnya dilakukan proses perhitungan Accuracy , Precision, Recall , dan F1-Score yang dilakukan proses dengan K-Fold Cross Validation dimana proses pengujian tersebut dilakukan sebanyak nilai k atau jumlah fold yang telah ditentukan yaitu k = 3, k = 4, sampai dengan k = 7.
22
Gambar 3. 1 Flowchart Awal Sistem
3.3.2 Flowchart Proses Prepreprocessing
Pada proses ini setelah proses dari data sentimen telah di read atau di baca oleh program proses ini tahap awal dari kalimat sentimen yang akan diolah dengan beberapa tahapan tahapan dapat di lihat pada gambar 3.2 berikut tahapan proses preprocessing:
1. Cleansing pada proses tahap ini digunakan untuk menghapus karakter lain selain huruf
2. Case folding pada proses tahap ini digunakan untuk mengubah semua huruf besar menjadi huruf kecil terlebih dahulu.
23 3. Tokenization pada proses tahap ini digunakan untuk memecah pada suatu
kalimat menjadi sebuah kata
4. Normalization pada proses tahap ini digunakan untuk mengubah kata yang bersifat typo menjadi kata yang benar.
5. Stopword removal pada proses tahap ini digunakan untuk menghapus kata- kata Stopword, pada penelitian ini menggunakan Stopword tala
6. Stemming pada proses tahap ini digunakan untuk mengubah kata menjadi kata dasar.
Gambar 3. 2 Flowchart Preprocessing
24 3.3.3 Flowchart Proses TF-IDF
Pada proses tahap ini perhitungan TF-IDF diawali dengan menghitung Term dokumen Matrix. Proses Term dokumen Matrix di mulai dengan deklarasi Dictionary Datacount proses untuk menghitung frekuensi setiap kata yang muncul lalu disimpan dalam Dictionary Datacount gambar dapat dilihat pada gambar 3.3
Gambar 3. 3 Flowchart Term Document
Selanjutnya proses pencarian Term frequency dengan cara disaat telah menemukan Term dokumen Matrix data Term dokumen Matrix tersebut dihitung setiap nilai Matrix dengan rumus 1 + log10(x) sehingga hasil tersebut menjadi TF Term Frequency gambar dapat dilihat pada gambar 3.4
25
Gambar 3. 4 Flowchart Term Frequency
Selanjutnya proses perhitungan Inverse Document Frequency. Setelah proses TF telah ditemukan dilanjutkan proses perhitungan Inverse Document Frequency dari setiap data menggunakan rumus log10(len(index)/n) sehingga hasil tersebut menjadi IDF Inverse Document Frequency gambar dapat dilihat pada gambar 3.5
26
Gambar 3. 5 Flowchart Inverse Document Frequency
Tahap akhir proses TF IDF setelah menemukan hasil dari TF Term frequency dan hasil IDF Inverse Document Frequency dimana proses Matrix TF Term frequency dikalikan dengan Matrix IDF Inverse Document Frequency sehingga hasil tersebut menjadi Matrix TF IDF gambar dapat dilihat pada gambar 3.6
27
Gambar 3. 6 Flowchart TF IDF
3.3.4 Flowchart Proses Naive Bayes
Pada gambar 3.7 Dijelaskan hasil proses matrix TF IDF akan melakukan proses perhitungan peluang setiap kata dari setiap kelas lalu proses tersebut akan menghitung fitur unik dimana fitur unik tersebut adalah semua Data unik di Data latih. Setelah proses perhitungan semua peluang kata yang ada didata latih nilai pada proses perhitungan tersebut akan menghitung dengan menjumlahkan jumlah fitur pada Matrix TF-IDF + 1 lalu dimasukan nilai hasil perhitungan tersebut ke dalam Dictionary.
28 Gambar 3. 7 Flowchart Naive Bayes
Pada gambar 3.8 Dijelaskan untuk menghitung peluang keseluruhan pada kelas, Pada Data uji yang telah melakukan proses Preprocessing akan melakukan proses pemeriksaan pada peluang yang ada di Data latih ,jika Data uji memiliki nilai peluang yang sudah ada di Data latih atau True maka nilai peluang tersebut akan diambil dari Data latih, jika False pada kata Data uji tersebut akan di hitung dengan rumus ((0 + 1) / ( data_tfidf.to_numpy().sum() + jml_fitur_unik)) untuk mendapatkan nilai peluang pada Flowchart peluang akhir = peluang akhir * peluang Naïve Bayes kata i
29 Gambar 3. 8 Flowchart Klasifikasi Naive Bayes
Pada gambar 3.9 Adalah klasifikasi akhir setelah menemukan hasil peluang.
Pada proses menentukan positif atau negatif, Hasil peluang yang telah dilakukan pada proses sebelumnya akan dilihat nilai Max, jika hasil peluang nilai Max positif maka Data uji tersebut masuk kedalam kelas positif, jika sebaliknya hasil peluang nilai Max negatif maka data uji tersebut masuk kedalam kelas negatif.
30 Gambar 3. 9 Flowchart Hasil Klasifikasi Positif atau Hasil Klasifikasi Negatif
3.3.5 Rancangan Tampilan Antarmuka
Pada Gambar 3.10 terdapat tampilan antarmuka untuk halaman input text komentar berupa kalimat yang akan diklasifikasi kemudian terdapat button untuk melihat hasil dari klasifikasi.
31 Gambar 3. 10 Tampilan Inputan text klasifikasi
Paga Gambar 3.11 merupakan hasil dari klasifikasi kalimat yang dimana pada tampilan tersebut akan menampilkan hasil output yang menampilkan hasil dari kalimat tersebut terklasifikasi positif atau negatif.
Gambar 3. 11 Tampilan Hasil kalimat terklasifikasi