13
BAB III
METODOLOGI PENELITIAN
Pada bab ini akan dijabarkan tahapan metode penelitian dalam penelitian ini. Metode dalam penelitian ini diproses melewati beberapa tahapan, yaitu Pengumpulan Data, Pelabelan Data, Preprocessing Data, TF-IDF, Klasifikasi, dan Evaluasi seperti yang ditampilkan pada Gambar 3.
Gambar 1. Alur Diagram Metode Penelitian 3.1 Pengumpulan Data
Data yang digunakan dalam penelitian ini adalah data opini yang bersumber
dari Twitter berupa tweet berbahasa Indonesia dengan topik UU Cipta Kerja. Proses
pengumpulan data dilakukan dengan cara crawling menggunakan 2 macam tools,
yaitu Twitter API dan snscrape dengan total data sebanyak 1000 tweet. Contoh data
yang berhasil di crawling dapat dilihat pada Tabel 2 di bawah ini.
14
Tabel 1. Data yang Berhasil Dicrawling
No. Tweet
1. Dari yg saya baca UU Cipta Kerja mengakselerasi Investasi lapangan kejra meningkat.. @jokowi #DukungTerusOmnibusLaw #UUCiptaKerja https://t.co/bqKmBC4YTd'
2. Saya dukung UU Cipta Kerja bagi pengembangan UMKM.
#dukungpenuhomnibuslaw https://t.co/tZvo4883Nr'
3. Produk UU CK itu inkonstitusional. Kita mau bernegara gimana lagi kalau dalam prakteknya tidak mengacu konstitusi? Jalan tengah, jalan tengah, itu jalan eksklusifnya Amien Rais! #MosiTidakPercaya
#TolakUUCiptaKerja
4. UU Cipta kerja bukti eksploitasi kaum buruh. >>
#BuruhMenggugatUUCiptaKerja >> #TolakUUCiptaKerja 3.2 Pelabelan Data
Data yang telah berhasil dikumpulkan melalui proses crawling kemudian akan diberikan label pada setiap datanya. Kategori yang digunakan dalam penelitian ini hanya terdiri atas label positif untuk data yang mengandung opini positif dan label negatif untuk data yang mengandung opini negatif. Proses pelabelan data ini dilakukan secara manual dengan bantuan 3 orang anotator yang terdiri atas 2 anotator primer dan 1 anotator sekunder. Contoh hasil data yang telah diberi label dapat dilihat pada Tabel 3 di bawah ini.
Tabel 2. Contoh Data yang Telah Diberi Label
No. Tweet Label
1. Dari yg saya baca UU Cipta Kerja mengakselerasi Investasi lapangan kejra meningkat.. @jokowi #UUCiptaKerja
#DukungTerusOmnibusLaw https://t.co/bqKmBC4YTd'
Positif
2. Saya dukung UU Cipta Kerja bagi
pengembangan UMKM.
#dukungpenuhomnibuslaw https://t.co/tZvo4883Nr'
Positif
3. Produk UU CK itu inkonstitusional. Kita mau bernegara gimana lagi kalau dalam prakteknya tidak mengacu konstitusi? Jalan tengah, jalan tengah, itu jalan eksklusifnya Amien Rais!
#MosiTidakPercaya #TolakUUCiptaKerja
Negatif
4. UU Cipta kerja bukti eksploitasi kaum buruh.
>> #BuruhMenggugatUUCiptaKerja >>
#TolakUUCiptaKerja
Negatif
15 3.3 Data Preprocessing
Pada proses ini, data yang sudah diberikan label akan diproses dalam tahap preprocessing sebelum akhirnya siap digunakan. Berikut proses yang dilakukan dalam tahap preprocessing adalah normalisasi, case folding, cleansing, tokenization, stopword removal, dan stemming.
a. Normalisasi
Proses normalisasi pada tahap preprocessing dilakukan secara manual dengan cara memperbaiki kata-kata yang terjadi kesalahan penulisan dan pengejaan, kata yang ditulis dengan singkatan, kata dengan Bahasa daerah. Proses ini dilakukan untuk mengurangi banyaknya varians kata yang pada dasarnya mempunyai maksud yang sama pada dataset. Hasil dari proses normalisasi dapat di.lihat pada Tabel 4.
Tabel 3. Hasil Proses Normalisasi
Sebelum Normalisasi Hasil Normalisasi Dari yg saya baca UU Cipta Kerja
mengakselerasi Investasi lapangan kejra meningkat.. @jokowi
#UUCiptaKerja
#DukungTerusOmnibusLaw https://t.co/bqKmBC4YTd'
Dari yang saya baca UU Cipta Kerja mengakselerasi Investasi lapangan kerja meningkat.. @jokowi
#UUCiptaKerja
#DukungTerusOmnibusLaw https:
t.co/bqKmBC4YTd' b. Case Folding
Pada tweet yang digunakan terdiri dari kombinasi antara huruf kapital dengan huruf kecil pada setiap kalimatnya. Pada bahasa pemrograman python, huruf kapital dengan huruf kecil memiliki nilai yang berbeda, sehingga untuk memudahkan proses pada tahap selanjutnya, proses case folding dilakukan untuk mengganti huruf kapital sebagai huruf kecil seluruhnya. Hasil dari proses case folding ditampilkan pada Tabel 5.
Tabel 4. Hasil Proses Case Folding
Sebelum Case Folding Hasil Case Folding Dari yang saya baca UU Cipta Kerja
mengakselerasi Investasi lapangan kerja meningkat.. @jokowi
#UUCiptaKerja
#DukungTerusOmnibusLaw https:
t.co/bqKmBC4YTd'
dari yang saya baca uu cipta kerja mengakselerasi investasi lapangan kerja meningkat.. @jokowi
#uuciptakerja
#dukungterusomnibuslaw https:
t.co/bqkmbc4ytd'
16 c. Cleansing
Pada tahap ini dilakukan proses untuk menghilangkan berbagai informasi yang tidak dibutuhkan dan dapat mempengaruhi hasil dari proses proses analisis sentimen baik berupa link (http, https, pic.twitter), hashtag, username (dituliskan
@username) serta karakter spesial lainnya. Hasil dari proses cleansing ditampilkan pada Tabel 6.
Tabel 5. Hasil Proses Cleansing
Sebelum Cleansing Hasil Cleansing
dari yang saya baca uu cipta kerja mengakselerasi investasi lapangan kerja meningkat.. @jokowi
#uuciptakerja
#dukungterusomnibuslaw https:
t.co/bqkmbc4ytd'
dari yang saya baca uu cipta kerja mengakselerasi investasi lapangan kerja meningkat
d. Tokenization
Tahap ini dilakukan untuk memecah setiap kalimat yang terdapat di dalam data menjadi potongan kata-kata dengan cara menjadikan spasi sebagai acuan untuk pemisahan setiap katanya. Hasil proses tokenization dapat dilihat pada Tabel 7.
Tabel 6. Hasil Proses Tokenization
Sebelum Tokenization Hasil Tokenization dari yang saya baca uu cipta kerja
mengakselerasi investasi lapangan kerja meningkat
dari yang saya baca uu cipta kerja
mengakselerasi investasi lapangan kerja meningkat e. Stopword Removal
Proses stopword removal dilakukan untuk meniadakan kata yang tidak
mempunyai arti penting (stopwords) pada data, dimana kumpulan kata yang tidak
17
memiliki makna penting ini disimpan di dalam sebuah stopword list yang berisikan daftar kata yang akan dihilangkan. Tahap ini dilakukan dengan menggunakan bantuan library nltk untuk mengakses stopword list yang telah tersedia untuk digunakan dalam proses ini. Hasil dari proses stopword removal dapat dilihat pada Tabel 8.
Tabel 7. Hasil Proses Stopword Removal
Sebelum Stopword Removal Hasil Stopword Removal dari
yang saya baca uu cipta kerja
mengakselerasi investasi lapangan kerja meningkat
baca uu cipta kerja
mengakselerasi investasi lapangan kerja meningkat
f. Stemming
Tahap Tahap terakhir dalam tahap preprocessing adalah stemming untuk meniadakan imbuhan yang ada di setiap kata sebagai sebuah kata dasar dengan mengacu pada kamus kata dasar berbahasa Indonesia. Tahap ini dilakukan dengan bantuan library sastrawi yang menerapkan algoritma Nazief-Adriani pada proses stemmingnya. Hasil proses stemming dapat dilihat pada Tabel 9.
Tabel 8. Hasil Proses Stemming
Sebelum Stemming Hasil Stemming
baca uu cipta kerja
mengakselerasi investasi lapangan kerja meningkat
baca
uu
cipta
kerja
akselerasi
investasi
lapang
kerja
tingkat
18 3.4 Term Weighting
Setelah dilakukan tahap preprocessing, data yang telah siap digunakan tersebut kemudian masuk ke dalam proses term weighting dengan menggunakan metode TF-IDF (Term Frequency-Inverse Document Frequency) untuk dilakukan proses pembobotan atau pemberian nilai agar setiap term yang terdapat dalam data memiliki bobotnya masing-masing. Dimana nilai TF adalah frekuensi kemunculan term pada dokumen dan dihitung hanya dengan menghitung banyak kemunculan term pada satu dokumen, sedangkan IDF adalah keterkaitan ketersediaan sebuah term dalam seluruh dokumen. Rumus untuk menghitung nilai TF-IDF dapat dilihar pada persamaan berikut [14]:
𝑊
𝑖𝑗= 𝑡𝑓
𝑖𝑗× 𝑖𝑑𝑓
𝑗= 𝑡𝑓
𝑖𝑗× 𝑙𝑜𝑔
𝑁𝑑𝑓𝑗