BAB 3 METODOLOGI PENELITIAN

(1)

BAB 3

METODOLOGI PENELITIAN

3.1 Metodologi Penelitian

Metodologi pada penelitian ini terdiri atas beberapa tahap. Uraian dari tahap-tahap tersebut dapat dijelaskan sebagai berikut.

3.1.1 Telaah Literatur

Penelitian dimulai dengan tahap telaah literatur. Telaah literatur dapat berupa pencarian informasi terhadap teori maupun metode yang akan digunakan dalam penelitian ini. Informasi-informasi tersebut diperoleh dari jurnal penelitian dan karya ilmiah lainnya.

3.1.2 Pengumpulan Data

Set data yang akan digunakan diperoleh dari media sosial Twitter.

Set data yang digunakan merupakan kumpulan tweet dengan beberapa kata kunci yang sedang trending, antara lain “vaksin”, “astrazeneca”, “sino- vac”, “vaksin covid”, dan “vaksin corona”. Kumpulan tweet tersebut diambil dalam 3 tahap. Pengambilan tahap pertama dilakuan dalam rentang waktu 4 Juli hingga 11 September 2021, pengambilan kedua dilakukan dalam rentang waktu 10 Oktober hingga 16 Oktober 2021, dan pengambilan ketiga dilakukan dalam rentang waktu 1 November hingga 6 November 2021. Pengambilan data tweet dilakukan 3 kali selama 3 bulan untuk memperoleh visual perkembangan sentimen yang lebih bervariasi. Untuk jumlah tweet, akan diambil 10.000 tweet tiap harinya. Sehingga secara total, set data akan berjumlah kurang lebih 180.000 tweet sebelum dilakukan penyaringan.

Penyaringan set data dilakukan, dimana hanya tweet yang berlokasi ataupun berbahasa Indonesia yang digunakan, menghasilkan kurang lebih 100.000 tweet.

3.1.3 Perancangan Aplikasi

Pada tahap ini dilakukan perancangan proses pengolahan data dan metode Latent Dirichlet Allocation (LDA) maupun analisis sentimen yang akan diimplementasikan. Untuk perancangan aplikasi digunakan flowchart.

(2)

Perancangan kode untuk aplikasi juga akan dilaksanakan.

3.1.4 Implementasi dan Pengujian

Tahap implementasi akan dilakukan dengan menggunakan aplikasi web Jupyter Notebook, web framework Flask dan bahasa pemrograman Python. Pada tahap ini, algoritma Latent Dirichlet Allocation akan diimplementasikan pada set data yang telah diperoleh. Sebelumnya, preprocess- ingterlebih dahulu dilakukan pada set data tersebut. Tahap pengujian akan dilakukan dua kali, yaitu pada tahap LDA dan tahap analisis sentimen.

Pengujian pada tahap LDA dilakukan dengan menghitung nilai topic coherenceC_v, dimana dari nilai tersebut dapat diketahui apakah klasifikasi topik yang dilakukan sudah baik atau masih kurang (ditandai dengan nilai topic coherenceyang kecil), yang berarti klasifikasi masih tumpang tindih.

Sedangkan pengujian pada tahap analisis sentimen dilakukan dengan menggunakan validasi berupa kuesioner berisi sejumlah tweet yang akan diten- tukan sentimennya oleh sejumlah responden. Jumlah tweet yang dinyatakan cukup sebagai validasi berjumlah 400 tweet [37], dimana akan dipecah kepada 20 responden, yang mana masing-masing responden akan memperoleh 20 tweet berbeda.

3.1.5 Penulisan Laporan

Penulisan laporan merupakan bentuk dokumentasi dari penelitian yang telah dilakukan. Laporan kemudian akan ditulis mulai dari pendahu- luan hingga simpulan dan saran.

3.2 Perancangan Aplikasi

Sebelum aplikasi dibuat, dilakukan perancangan aplikasi dengan menggunakan flowchart. Perancangan aplikasi berupa flowchart terdiri dari flowchart penelitian secara umum, dan beberapa flowchart yang berisikan penjelasan lebih mendetail untuk tiap bagian.

3.2.1 Flowchart Penelitian secara Umum

Gambar 3.1 merupakan alur penelitian secara umum. Penelitian ini terdiri atas 5 tahap utama, yaitu tahap tahap pembuatan model LDA, tahap penerapan model LDA pada seluruh dataset, tahap analisis sentimen, serta

(3)

tahap prediksi topik dan sentimen.

Gambar 3.1. Flowchart penelitian secara umum

Alur penelitian secara umum dimulai dengan memuat berbagai li- braryyang dibutuhkan. Setelah itu, masuk ke dalam tahap data mining untuk mengumpulkan set data dari media sosial Twitter terkait kata kunci pada bulan September hingga November 2021. Setelah set data selesai terkumpul, maka dilanjutkan dengan mencari jumlah topik terbaik untuk digunakan sebagai parameter bersama dengan set data bulan September pada algoritma Latent Dirichlet Allocation (LDA). Jumlah topik terbaik yang diperoleh kemudian akan digunakan pada LDA untuk menentukan topik laten dari seluruh set data yang tersedia. Setelah topik laten untuk seluruh set data diperoleh, maka akan masuk ke dalam tahap analisis sentimen. Di tahap ini dilakukan pelabelan nilai sentimen terhadap masing-masing data tweet.

Apabila semua data telah dilabel, maka sistem akan menampilkan output berupa grafik perkembangan sentimen secara keseluruhan berdasarkan topik masing-masing. Langkah terakhir merupakan implementasi LDA serta analisis sentimen ke dalam fitur prediksi topik dan sentimen pada aplikasi web.

3.2.2 Flowchart Data Mining

Tahap data mining merupakan tahap pengumpulan data berupa tweet dengan menggunakan layanan Twitter API yang telah disediakan oleh media sosial Twitter. Layanan Twitter API memperbolehkan pengambilan data tweetdalam jumlah yang besar sesuai dengan kata kunci dan jangka waktu yang diinginkan. Alur dari tahap data mining dapat dilihat pada Gambar

(4)

3.2.

Gambar 3.2. Flowchart tahap data mining

Tahap ini dimulai dengan melakukan autentikasi pada Twitter API.

Setelah terautentikasi, maka proses mining terhadap data tweet dapat dimulai. Untuk melakukan data mining, Twitter API memerlukan input berupa kata kunci yang akan dicari serta beberapa aturan lainnya yang perlu ditetapkan, seperti jangka waktu dan jumlah maksimal tweet yang ingin dikumpulkan. Inputan ini dikenal dengan istilah query. Setelah query didefinisikan sesuai kebutuhan penelitian, proses mining dapat dimulai dengan menggunakan query tersebut. Hasil dari mining akan disatukan dalam sebuah tabel, dengan data untuk masing-masing tweet dibatasi hanya berupa nama pengguna, teks tweet, lokasi, bahasa, dan keterangan waktu penulisan.

Dikarenakan penelitian ini berfokus pada tanggapan masyarakat Indonesia, maka set data yang telah berhasil diperoleh melalui mining perlu disaring dengan ketentuan tweet harus berbahasa Indonesia. Setelah disaring, set data dinyatakan telah siap digunakan untuk penelitian.

(5)

3.2.3 Flowchart Preprocessing

Tahap Preprocessing merupakan salah satu subproses yang lumayan penting dan digunakan dalam kedua tahap sebelumnya. Pada tahap prepro- cessingini dilakukan pembersihan dan penyesuaian set data, sehingga dapat digunakan untuk membangun model LDA dan analisis sentimen. Bagan alur untuk tahap preprocessing dapat dilihat pada Gambar 3.3.

Gambar 3.3. Flowchart tahap preprocessing

Tahap preprocessing dimulai dengan memuat seluruh library yang dibutuhkan dan set data sesuai yang akan digunakan pada proses utama.

Setelah set data dimuat, set data akan dibersihkan, yaitu dengan menghapus kata pendek, email, tanda kutip, karakter baris baru, dan alamat URL. Hal ini bertujuan untuk menghilangkan bagian teks yang tidak diperlukan dalam membangun model LDA. Setelah bersih, stemming diterapkan kepada seluruh set data. Stemming dapat membantu dalam mengubah kata-kata yang tidak baku atau bersifat singkatan menjadi bentuk baku atau aslinya. Kemu- dian juga dilakukan tokenizing. Tokenizing ini sangat diperlukan, dikarenakan untuk membangun model LDA, diperlukan inputan berupa token (kata/frasa), dan bukan berupa kalimat. Setelah setiap data dipecah menjadi per kata, dilakukan pembersihan terakhir kalinya dengan menghapus stop- word. Selain itu juga dibuat model bigram, dikarenakan terdapat beberapa kata yang lebih bermakna jika digabungkan dalam sebuah frasa.

(6)

3.2.4 Flowchart Pencarian Topik Terbaik

Tahap ini ditujukan untuk mencari parameter jumlah topik terbaik pada algoritma LDA menggunakan set data bulan September.

Gambar 3.4. Flowchart pencarian topik terbaik untuk LDA

Seperti yang terlihat pada Gambar 3.4, data yang telah melalui tahap preprocessingakan digunakan dalam membuat dictionary dan corpus sebagai masukan pada algoritma LDA. Pencarian jumlah topik terbaik menggunakan LDA akan dilakukan secara iteratif dengan variasi parameter topik dimulai dari 5 hingga 25. Nilai topic coherence masing-masing iterasi LDA akan dihitung menggunakan metode topic coherence Cv dan dibandingkan satu sama lain. Jumlah topik dengan hasil nilai topic coherence tertinggi akan dipilih sebagai jumlah topik terbaik.

3.2.5 Flowchart Penentuan Topik

Tahap penentuan topik merupakan tahap dimana LDA akan digunakan pada keseluruhan set data menggunakan parameter topik terbaik yang telah diperoleh sebelumnya.

(7)

Gambar 3.5. Flowchart penentuan topik dengan LDA

Sesuai yang terlihat pada Gambar 3.5, tahap ini dimulai dengan membuat dictionary dari set data secara keseluruhan. Kemudian dilakukan LDA terhadap seluruh set data yang sebelumnya telah melalui preprocessing menggunakan masukan berupa corpus yang telah dibangun dan dictionary yang baru. Selain itu juga digunakan jumlah topik terbaik yang telah diperoleh sebagai parameter LDA. Output dari LDA merupakan sejumlah topik beserta kata-kata yang dikelompokkan dalam masing-masing topik terse- but. Setelah memperoleh sejumlah topik terhadap set data, langkah selan- jutnya adalah pelabelan masing-masing data tweet dengan masing-masing topik yang paling merepresentasikan data tweet tersebut. Setelah pelabelan diterapkan kepada tiap baris data tweet, maka tahap ini dinyatakan selesai.

3.2.6 Flowchart Analisis Sentimen

Tahap ini ditujukan untuk menentukan nilai sentimen untuk tiap baris data tweet pada set data. Nilai sentimen tersebut akan menentukan apakah tweetitu termasuk ke dalam sentimen positif, netral, atau negatif.

(8)

Gambar 3.6. Flowchart analisis sentimen

Seperti pada Gambar 3.6, dapat dilihat bahwa tahap ini dimulai dengan memuat library dan lexicon InSet yang akan digunakan untuk menentukan sentimen tiap data tweet. Untuk setiap kata pada masing-masing baris data (tweet), akan dibandingkan dengan setiap lexicon dalam InSet yang telah dilabeli dengan nilainya masing-masing. Jika kata pada baris data sama dengan salah satu lexicon, maka poin sentimen pada baris data tersebut akan ditambahkan sesuai dengan nilai sentimen lexicon yang serupa. Sedangkan jika tidak sama, maka akan dilewatkan. Proses ini berlangsung hingga men- capai akhir dari baris data (tweet).

3.2.7 Flowchart Prediksi Topik dan Sentimen

Tahap ini merupakan alur bagaimana aplikasi web dapat melakukan prediksi topik dan sentimen terhadap inputan pengguna, seperti pada Gam- bar 3.7. Tahap ini diawali dengan pengguna menginput suatu teks yang menyerupai tweet. Kemudian dilakukan preprocessing terhadap inputan tersebut, yang terdiri atas menghapus kata pendek (kurang dari 2 huruf), email, karakter garis baru, tanda kutip, dan alamat URL. Proses preprocessing dilanjutkan dengan stemming dan tokenizing. Stemming dan tokenizing dilakukan dengan bantuan library Sastrawi dan library Gensim yang

(9)

sebelumnya telah diinstal. Proses preprocessing diakhiri dengan dihapusnya stopworddan dibuatnya model bigram dari inputan.

Gambar 3.7. Flowchart prediksi topik dan sentimen

Setelah proses preprocessing selesai, dictionary yang telah dibuat sebelumnya perlu dimuat. Dengan menggunakan dictionary berupa id2word tersebut, inputan dapat diubah menjadi corpus. Setelah itu dimuat model LDA yang juga telah dibuat sebelumnya. Model LDA ini diterapkan pada corpusinputan. Output dari proses ini merupakan topik yang paling mencer-

(10)

minkan teks inputan pengguna.

Setelah proses penentuan topik dengan LDA selesai, proses penentuan sentimen dapat dimulai. Proses ini diawali dengan memuat dan meng- gabungkan Lexicon InSet positif dan negatif yang telah diunduh sebelumnya. Kemudian untuk setiap kata dalam corpus inputan pengguna akan dibandingkan dengan setiap kata pada lexicon positif dan negatif. Jika terdapat kata yang sama, maka nilai sentimen akan ditambahkan sesuai nilai pada lexicon tersebut. Proses ini memiliki output berupa teks positif jika nilai sentimennya lebih besar dari 0, netral jika nilai sentimen sama dengan 0, dan negatif apabila nilai sentimen lebih kecil dari 0.

3.2.8 Mockup Aplikasi Web

Hasil akhir penelitian merupakan suatu aplikasi web yang dapat menampilkan berbagai grafik sentimen terkait pandangan masyarakat terhadap vaksin COVID-19 dan menentukan topik serta sentimen dari suatu inputan tweet. Sebelum dibuat aplikasi web, perlu dilakukan perancangan aplikasi web dengan menggunakan mockup. Aplikasi web dirancang untuk memiliki 3 halaman, yang terdiri dari halaman home/dasbor, halaman input klasifikasi, dan halaman hasil klasifikasi. Halaman home/dasbor berisi data sentimen tweet yang telah diolah dan direpresentasikan dalam bentuk beberapa grafik. Berikut merupakan mockup untuk halaman home/dasbor.

(11)

Gambar 3.8. Mockup halaman dasbor

Seperti yang dapat terlihat pada Gambar 3.8, halaman dasbor menampilkan data olahan per topik. Di bagian kiri halaman dasbor terdapat informasi terkait topik terpilih, dan 15 kata kunci teratas topik terpilih. Pada bagian kanan gambar, terdapat beberapa grafik yang memvisu- alisasikan hasil sentimen dari data tweet. Visualisasi oleh grafik mencakup perbedaan jumlah sentimen dan perkembangan jumlah sentimen per harinya.

Pengguna juga dapat mengganti topik dengan menggunakan button Ubah Topik.

(12)

Gambar 3.9. Mockup halaman input klasifikasi

Selain itu, aplikasi web juga memiliki fitur prediksi topik dan sentimen terhadap tweet inputan pengguna. Gambar 3.9 memperlihatkan mockup halaman input, dimana pengguna perlu menginput suatu kalimat yang akan diprediksi topik dan sentimennya. Inputan kalimat tersebut dibatasi hanya maksimal 15 kata.

(13)

Gambar 3.10. Mockup halaman hasil klasifikasi

Setelah pengguna menekan button ’Mulai’ pada halaman input klasifikasi, maka pengguna akan dialihkan kepada halaman hasil klasifikasi. Speerti pada Gam- bar 3.10, pada bagian atas halaman, terdapat teks tweet yang diinput oleh pengguna. Bagian kiri dari halaman ini menampilkan 3 topik yang paling sesuai dengan inputan pengguna, beserta persentase dan kata kunci oleh masing-masing topik.

Di bagian tengah terdapat sebuah pie chart sebagai visualisasi sederhana dari per- bandingan persentase masing-masing topik. Bagian kanan halaman menampilkan hasil prediksi sentimen terhadap inputan pengguna, dengan tambahan indikator berupa gambar muka yang mewakili sentimen positif, netral ataupun negatif.