BAB III METODOLOGI PENELITIAN

(1)

13

BAB III

METODOLOGI PENELITIAN

Pada bab ini akan dijabarkan tahapan metode penelitian dalam penelitian ini. Metode dalam penelitian ini diproses melewati beberapa tahapan, yaitu Pengumpulan Data, Pelabelan Data, Preprocessing Data, TF-IDF, Klasifikasi, dan Evaluasi seperti yang ditampilkan pada Gambar 3.

Gambar 1. Alur Diagram Metode Penelitian 3.1 Pengumpulan Data

Data yang digunakan dalam penelitian ini adalah data opini yang bersumber

dari Twitter berupa tweet berbahasa Indonesia dengan topik UU Cipta Kerja. Proses

pengumpulan data dilakukan dengan cara crawling menggunakan 2 macam tools,

yaitu Twitter API dan snscrape dengan total data sebanyak 1000 tweet. Contoh data

yang berhasil di crawling dapat dilihat pada Tabel 2 di bawah ini.

(2)

14 Tabel 1. Data yang Berhasil Dicrawling

No. Tweet

1. Dari yg saya baca UU Cipta Kerja mengakselerasi Investasi lapangan kejra meningkat.. @jokowi #DukungTerusOmnibusLaw #UUCiptaKerja https://t.co/bqKmBC4YTd'

2. Saya dukung UU Cipta Kerja bagi pengembangan UMKM.

#dukungpenuhomnibuslaw https://t.co/tZvo4883Nr'

3. Produk UU CK itu inkonstitusional. Kita mau bernegara gimana lagi kalau dalam prakteknya tidak mengacu konstitusi? Jalan tengah, jalan tengah, itu jalan eksklusifnya Amien Rais! #MosiTidakPercaya

#TolakUUCiptaKerja

4. UU Cipta kerja bukti eksploitasi kaum buruh. >>

#BuruhMenggugatUUCiptaKerja >> #TolakUUCiptaKerja 3.2 Pelabelan Data

Data yang telah berhasil dikumpulkan melalui proses crawling kemudian akan diberikan label pada setiap datanya. Kategori yang digunakan dalam penelitian ini hanya terdiri atas label positif untuk data yang mengandung opini positif dan label negatif untuk data yang mengandung opini negatif. Proses pelabelan data ini dilakukan secara manual dengan bantuan 3 orang anotator yang terdiri atas 2 anotator primer dan 1 anotator sekunder. Contoh hasil data yang telah diberi label dapat dilihat pada Tabel 3 di bawah ini.

Tabel 2. Contoh Data yang Telah Diberi Label

No. Tweet Label

1. Dari yg saya baca UU Cipta Kerja mengakselerasi Investasi lapangan kejra meningkat.. @jokowi #UUCiptaKerja

#DukungTerusOmnibusLaw https://t.co/bqKmBC4YTd'

Positif

2. Saya dukung UU Cipta Kerja bagi

pengembangan UMKM.

#dukungpenuhomnibuslaw https://t.co/tZvo4883Nr'

Positif

3. Produk UU CK itu inkonstitusional. Kita mau bernegara gimana lagi kalau dalam prakteknya tidak mengacu konstitusi? Jalan tengah, jalan tengah, itu jalan eksklusifnya Amien Rais!

#MosiTidakPercaya #TolakUUCiptaKerja

Negatif

4. UU Cipta kerja bukti eksploitasi kaum buruh.

>> #BuruhMenggugatUUCiptaKerja >>

#TolakUUCiptaKerja

Negatif

(3)

15 3.3 Data Preprocessing

Pada proses ini, data yang sudah diberikan label akan diproses dalam tahap preprocessing sebelum akhirnya siap digunakan. Berikut proses yang dilakukan dalam tahap preprocessing adalah normalisasi, case folding, cleansing, tokenization, stopword removal, dan stemming.

a. Normalisasi

Proses normalisasi pada tahap preprocessing dilakukan secara manual dengan cara memperbaiki kata-kata yang terjadi kesalahan penulisan dan pengejaan, kata yang ditulis dengan singkatan, kata dengan Bahasa daerah. Proses ini dilakukan untuk mengurangi banyaknya varians kata yang pada dasarnya mempunyai maksud yang sama pada dataset. Hasil dari proses normalisasi dapat di.lihat pada Tabel 4.

Tabel 3. Hasil Proses Normalisasi

Sebelum Normalisasi Hasil Normalisasi Dari yg saya baca UU Cipta Kerja

mengakselerasi Investasi lapangan kejra meningkat.. @jokowi

#UUCiptaKerja

#DukungTerusOmnibusLaw https://t.co/bqKmBC4YTd'

Dari yang saya baca UU Cipta Kerja mengakselerasi Investasi lapangan kerja meningkat.. @jokowi

#UUCiptaKerja

#DukungTerusOmnibusLaw https:

t.co/bqKmBC4YTd' b. Case Folding

Pada tweet yang digunakan terdiri dari kombinasi antara huruf kapital dengan huruf kecil pada setiap kalimatnya. Pada bahasa pemrograman python, huruf kapital dengan huruf kecil memiliki nilai yang berbeda, sehingga untuk memudahkan proses pada tahap selanjutnya, proses case folding dilakukan untuk mengganti huruf kapital sebagai huruf kecil seluruhnya. Hasil dari proses case folding ditampilkan pada Tabel 5.

Tabel 4. Hasil Proses Case Folding

Sebelum Case Folding Hasil Case Folding Dari yang saya baca UU Cipta Kerja

mengakselerasi Investasi lapangan kerja meningkat.. @jokowi

#UUCiptaKerja

#DukungTerusOmnibusLaw https:

t.co/bqKmBC4YTd'

dari yang saya baca uu cipta kerja mengakselerasi investasi lapangan kerja meningkat.. @jokowi

#uuciptakerja

#dukungterusomnibuslaw https:

t.co/bqkmbc4ytd'

(4)

16 c. Cleansing

Pada tahap ini dilakukan proses untuk menghilangkan berbagai informasi yang tidak dibutuhkan dan dapat mempengaruhi hasil dari proses proses analisis sentimen baik berupa link (http, https, pic.twitter), hashtag, username (dituliskan

@username) serta karakter spesial lainnya. Hasil dari proses cleansing ditampilkan pada Tabel 6.

Tabel 5. Hasil Proses Cleansing

Sebelum Cleansing Hasil Cleansing

dari yang saya baca uu cipta kerja mengakselerasi investasi lapangan kerja meningkat.. @jokowi

#uuciptakerja

#dukungterusomnibuslaw https:

t.co/bqkmbc4ytd'

dari yang saya baca uu cipta kerja mengakselerasi investasi lapangan kerja meningkat

d. Tokenization

Tahap ini dilakukan untuk memecah setiap kalimat yang terdapat di dalam data menjadi potongan kata-kata dengan cara menjadikan spasi sebagai acuan untuk pemisahan setiap katanya. Hasil proses tokenization dapat dilihat pada Tabel 7.

Tabel 6. Hasil Proses Tokenization

Sebelum Tokenization Hasil Tokenization dari yang saya baca uu cipta kerja

mengakselerasi investasi lapangan kerja meningkat

dari yang saya baca uu cipta kerja

mengakselerasi investasi lapangan kerja meningkat e. Stopword Removal

Proses stopword removal dilakukan untuk meniadakan kata yang tidak

mempunyai arti penting (stopwords) pada data, dimana kumpulan kata yang tidak

(5)

17 memiliki makna penting ini disimpan di dalam sebuah stopword list yang berisikan daftar kata yang akan dihilangkan. Tahap ini dilakukan dengan menggunakan bantuan library nltk untuk mengakses stopword list yang telah tersedia untuk digunakan dalam proses ini. Hasil dari proses stopword removal dapat dilihat pada Tabel 8.

Tabel 7. Hasil Proses Stopword Removal

Sebelum Stopword Removal Hasil Stopword Removal dari

yang saya baca uu cipta kerja

mengakselerasi investasi lapangan kerja meningkat

baca uu cipta kerja

mengakselerasi investasi lapangan kerja meningkat

f. Stemming

Tahap Tahap terakhir dalam tahap preprocessing adalah stemming untuk meniadakan imbuhan yang ada di setiap kata sebagai sebuah kata dasar dengan mengacu pada kamus kata dasar berbahasa Indonesia. Tahap ini dilakukan dengan bantuan library sastrawi yang menerapkan algoritma Nazief-Adriani pada proses stemmingnya. Hasil proses stemming dapat dilihat pada Tabel 9.

Tabel 8. Hasil Proses Stemming

Sebelum Stemming Hasil Stemming

baca uu cipta kerja

mengakselerasi investasi lapangan kerja meningkat

baca

uu

cipta

kerja

akselerasi

investasi

lapang

kerja

tingkat

(6)

18 3.4 Term Weighting

Setelah dilakukan tahap preprocessing, data yang telah siap digunakan tersebut kemudian masuk ke dalam proses term weighting dengan menggunakan metode TF-IDF (Term Frequency-Inverse Document Frequency) untuk dilakukan proses pembobotan atau pemberian nilai agar setiap term yang terdapat dalam data memiliki bobotnya masing-masing. Dimana nilai TF adalah frekuensi kemunculan term pada dokumen dan dihitung hanya dengan menghitung banyak kemunculan term pada satu dokumen, sedangkan IDF adalah keterkaitan ketersediaan sebuah term dalam seluruh dokumen. Rumus untuk menghitung nilai TF-IDF dapat dilihar pada persamaan berikut [14]:

𝑊

_𝑖𝑗

= 𝑡𝑓

_𝑖𝑗

× 𝑖𝑑𝑓

_𝑗

= 𝑡𝑓

_𝑖𝑗

× 𝑙𝑜𝑔

^𝑁

𝑑𝑓_𝑗

(6)

Dimana 𝑊

_𝑖𝑗

adalah bobot term ke-j terhadap dokumen-i yang akan kita cari dengan 𝑡𝑓

_𝑖𝑗

sebagai frekuensi kemunculan term-j dalam dokumen-i, 𝑁 berupa total dokumen secara keseluruhan, dan 𝑑𝑓

_𝑗

berupa total dokumen yang mengandung term-j. Contoh pembobotan dengan TF-IDF dapat dilihat pada Tabel 10.

Tabel 9. Contoh Hasil Pembobotan TF-IDF

Tweet Nilai TF Nilai IDF Nilai TF-IDF

[‘dukung’,

‘indonesia’,

‘butuh’,

‘omnibus’, ‘law’,

‘cipta’, ‘kerja’]

[0.143, 0.143, 0.143, 0.143, 0.143, 0.143, 0.143]

[1.2365, 0.8416, 1.5528, 0.9355, 0.9507, 0.3133, 0.2806]

[0.1768, 0.1203, 0.222, 0.1337, 0.1359, 0.0448, 0.0401]

[‘uu’, ‘cipta’,

‘kerja’, ‘cepat’,

‘program’,

‘bangun’,

‘rumah’, ‘mbr’]

[0.125, 0.125, 0.125, 0.125, 0.125, 0.125, 0.125, 0.125]

[0.2518, 0.3133, 0.2806, 1.7212, 2.5229, 0.2518, 2.6989, 3]

[0.0314, 0.0391, 0.035, 0.2151, 0.3153, 0.0314, 0.3373, 0.375]

3.5 Klasifikasi

Setelah seluruh tahapan sebelumnya selesai dilakukan, selanjutnya akan dilakukan proses klasifikasi sentimen terhadap data yang sudah disiapkan.

Klasifikasi yang dilakukan pada tugas akhir ini dilakukan dengan dua macam

proses klasifikasi, yang pertama adalah klasifikasi sentimen dengan metode

(7)

19 Support Vector Machine saja, dan yang kedua adalah klasifikasi sentimen dengan metode Support Vector’Machine yang diintegrasikan dengan metode Particle Swarm Optimization.

3.5.1 Support Vector Machine

Setelah data selesai dibersihkan pada proses preprocessing dan diberikan bobot pada menggunakan metode pembobotan TF-IDF, data siap digunakan untuk proses klasifikasi. Support Vector Machnine adalah algoritma klasifikasi yang merupakan metode pembelajaran mesin. Algoritma ini bekerja dengan mengikuti prinsip Structural Risk Minimization (SRM) sehingga proses klasifikasinya dilakukan melalui cara mencari hyperplane terbaik yang membagi du akelas di dalam ruang input dan ketika memprediksi suatu kelas pada data dalam klasifikasi, SVM akan memberikan label pada data berdasarkan daerah kelas mana yang ditempati oleh data tersebut.

3.5.2 Particle Swarm Optimization

Pada tahap ini, Support Vector Machine akan dioptimasi dengan menerapkan metode Particle Swarm Optimization sebagai seleksi parameter SVM.

PSO sendiri adalah sebuah metode optimasi berbasis populasi dari sekumpulan partikel dengan kecepatan dan posisi yang selalu diperbarui dalam setiap iterasinya.

Kecepatan dan posisi partikel akan terus diperbarui pada setiap iterasinya dengan menggunakan persamaan (1) dan (2). Setiap partikel pada PSO akan melacak posisi di dalam ruang pencarian serta solusi terbaiknya yang disebut dengan personal best (pbest) dan global best (gbest) yang dicapai oleh populasi dengan indeks partikelnya.

Dalam penelitian ini, algoritma Support Vector Machine akan mendapatkan

hasil akurasi klasifikasi berdasarkan nilai parameter SVM yang telah terpilih

menggunakan Particle Swarm Optimization. Gambar 4 menunjukkan langkah-

langkah untuk mengoptimalkan SVM menggunakan PSO dalam analisis sentimen

[3].

(8)

20 Gambar 2. Alur Model Klasifikasi SVM-PSO

Pada tahap pertama, dilakukan inisialisasi awal parameter PSO. Selanjutnya akan dilakukan evaluasi fitness value menggunakan SVM untuk mendapatkan akurasi klasifikasi berdasarkan parameter tiap partikel yang telah terpilih. Jika proses belum mencapai iterasi maksimumnya, maka kecepatan dan posisi tiap partikel akan terus diperbarui hingga selesai diproses hingga iterasi maksimum dan mencapai nilai akurasi yang terbaik untuk kemudian digunakan sebagai model untuk menguji data test sesuai dengan parameter yang terpilih.

3.6 Evaluasi

Hasil dari klasifikasi yang berhasil dilakukan berikutnya masuk ke tahap

evaluasi dengan tujuan untuk menguji dan mengetahui performa dari model yang

telah dibangun. Evaluasi pada penelitian ini dilakukan dengan menghitung nilai

akurasi, presisi, dan recall berdasarkan nilai yang terdapat pada confusion matrix

dengan menerapkan rumus pada persamaan (3), (4), dan (5) berdasarkan pengujian

model yang dilakukan dengan penggunaan metode k-fold cross validation dengan

nilai k sebesar 10. Proses pengujian dengan k-fold cross validation dengan nilai k

sebesar 10 ini akan membagi data ke dalam 10 bagian, dimana satu bagian akan

(9)

21 berperan sebagai data uji dan sembilan bagian lainnya akan berperan sebagai data latih dan pengujian ini akan dilakukan sebanyak 10 kali secara bergantian menggunakan model yang telah dibentuk.

3.7 Skenario Pengujian

Pada penelitian ini, dilakukan dua macam pengujian klasifikasi. Pertama klasifikasi sentimen dengan menerapkan algoritma Support Vector Machine dan yang kedua adalah klasifikasi sentimen dengan menerapkan algoritma Support Vector Machine yang diintegrasikan dengan Particle Swarm Optimization.

Sehingga, pada penelitian ini akan dilakukan proses pengujian yang terdiri atas 8 skenario pengujian.

Skenario pertama dilakukan pengujian dengan menerapkan algoritma Support Vector Machine dengan parameter default. Skenario kedua dilakukan pengujian dengan menerapkan algoritma Support Vector Machine yang diintegrasikan dengan PSO dengan iterasi pada proses PSO sebanyak 10 kali.

Skenario ketiga dilakukan pengujian dengan menerapkan algoritma Support Vector Machine yang diintegrasikan dengan PSO dengan iterasi pada proses PSO sebanyak 50 kali. Skenario keempat dilakukan pengujian dengan menerapkan algoritma Support Vector Machine yang diintegrasikan dengan PSO dengan iterasi pada proses PSO sebanyak 100 kali. Skenario kelima dilakukan pengujian dengan menerapkan algoritma Support Vector Machine yang diintegrasikan dengan PSO dengan iterasi pada proses PSO sebanyak 150 kali. Skenario keenam dilakukan pengujian dengan menerapkan algoritma Support Vector Machine yang diintegrasikan dengan PSO dengan iterasi pada proses PSO sebanyak 200 kali.