Teknik Pengumpulan Data - METODE PENELITIAN

BAB III METODE PENELITIAN

3.4. Teknik Pengumpulan Data

Pada penelitian ini peneliti menggunakan jenis data sekunder. Pengumpulan data dilakukan yaitu melakukan Crawling data ulasan diTwitter pada layanan indihome. Proses Crawling data dilakukan dengan memanfaatkan Twitter API rapidminer sebagai akses untuk mengumpulkan data. Data ulasan kemudian disimpan dalam bentuk format file csv.

1. Studi Literatur

Teknik pengumpulan data ini dilakukan dengan mencari melalui data-data penting yang berkaitan dengan gejala yang akan diteliti. Tahap teknik pengumpulan data ini merupakan

indihome.

3.5 Input data Twitter

Pada tahap ini peneliti menyiapkan data Twitter untuk melakukan penginputan. Adapun contoh data dari Twitter pada penelitian ini dapat dilihat pada tabel 3.3.

Tabel 3. 3 komentar hate comment diTwitter

No Nama Ulasan atau komentar

1. Yoko Saputra Kenapa sih indihome kalo di chat gak pernah dibalas

2. kemenkes poy emg kau paling kontol indihome

3. IndiHomeCare Indihome parah, sinyal full tapi ketika dipake main game sinyal naik turun parah banget. Saya udah laporan beberapa kali tapi tetep sinyal naik turun

4. Lorenzo

lamaar saya seneng pake Indihome di tempat saya, lalu saya mau pindah kontrakan, bisa diatur min ?

Setelah pengambilan data selesai, maka masuk pada tahap Preprocessing, tahap ini diperlukan untuk membersihkan data dari hal yang tidak diperlukan, dengan tujuan pada tahap masuk kedalam metode C4.5 lebih optimal dalam perhitungnya, pada tahap ini melibatkan rekognisi dari isi struktur teksnya.

3.6 Text Preprocessing

Text preprocessing merupakan tahapan proses awal mempersiapkan agar teks dapat diubah menjadi lebih terstruktur dan menjadi data yang akan diolah selanjutnya

(Hermawan & Bellaniar Ismiati, 2020). text preprocessing merupakan langkah yang sangat penting sebelum memulai penelitian, Karena penelitian dikatakan berhasil dan lancar jika terdapat sedikit sekali kesalahan dalam text preprocessing . Text preprocessing terjadi sedemikian rupa sehingga data mentah diproses melalui beberapa langkah hingga data benar-benar siap untuk digunakan (Albab et al., 2023).

Tahapan Tahapan Text preprocessing terdiri dari proses Case Folding, Tokenizing, Stopword, dan Stemming

1. Case Folding adalah tahapan untuk mengubah semua huruf dalam dalam data menjadi huruf kecil.

Tabel 3. 4 Contoh Penerapan Case Folding Teks Tidak ada kata terlambat

untuk memulai Case folding tidak ada kata terlambat

untuk memulai

2. Tokenizing yaitu proses mengidentifikasi kata-kata dalam teks menjadi beberapa urutan yang terpotong oleh spasi atau karakter spesial.

Tabel 3. 5 Contoh Penerapan Tokenizing.

Teks Tidak ada kata terlambat untuk memulai

Tokenizing [‘tidak’,’ ada’,’ kata’,’ terlambat’,’

untuk’,’memulai’]

3. Stopword adalah sebuah kata penghubung yang tidak begitu penting,membuang kata-kata yang sering muncul, kurang

dibuang tersebut didefinisikan dalam stopword list. Contoh beberapa kata yang sering masuk ke dalam stopword list adalah ‘untuk”, “yang”, dan “itu”.

Tabel 3. 6 Contoh Penerapan Stopword Teks Tidak ada kata terlambat

untuk memulai

Stopword Tidak ada kata terlambat memulai

4. Stemming adalah proses untuk membuat kata yang berimbuhan kembali ke bentuk asalnya. Contohnya kata

“memberikan” setelah melewati tahap ini maka akan menjadi “beri”.

Tabel 3. 7 Contoh Penerapan Stemming.

Input Output

Menginsipiras

i Inspirasi

3.7 Implementasi C4.5

Pada akhir 1970-an hingga awal 1980-an, peneliti pembelajaran mesin J. Ross Quinlan menciptakan algoritma pohon keputusan yang dikenal sebagai ID3 (Iterative Dichotomizer). Quinlan kemudian menciptakan algoritma C4.5 (sering disebut pohon keputusan), yang merupakan perluasan dari algoritma ID3. Algoritma ini memiliki kelebihan yaitu mudah dipahami, fleksibel dan menarik karena dapat divisualisasikan sebagai gambar (pohon keputusan) (Nasrullah, 2018).

Pada tahapannya algoritma C4.5 memiliki 2 prinsip kerja,

yaitu: Membuat pohon keputusan, dan membuat aturan-aturan (rule model). Aturan aturan yang terbentuk dari pohon keputusan akan membentuk suatu kondisi dalam bentuk if then (Arifin &

Fitrianah, 2018).

Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut

1. Memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada

2. Membuat cabang untuk masing-masing nilai, artinya membuat cabang sesuai dengan jumlah nilai variabel gain tertinggi.

3. Membagi setiap kasus dalam cabang, berdasarkan perhitungan nilai gain tertinggi dan perhitungan dilakukan setelah perhitungan nilai gain tertinggi awal dan kemudian dilakukan proses perhitungan gain tertinggi kembali tanpa meyertakan nilai variabel gain awal.

4. Mengulangi proses dalam setiap cabang sehingga semua kasus dalam cabang memiliki kelas yang sama, mengulangi semua proses perhitungan gain tertinggi untuk masing- masing cabang kasus sampai tidak bisa lagi dilakukan proses perhitungan.

Adapun implementasi dalam algoritma Decision Tree C4.5 adalah sebagai berikut (Swastina, 2018) :

2. Hitung nilai entropy. Entropy merupakan ukuran ketidakpastian, yakni perbedaan keputusan terhadap nilai atribut tertentu. Semakin tinggi nilai entropy, semakin tinggi perbedaan keputusan (ketidakpastian).

Mencari nilai entropy dengan menggunakan rumus dalam persamaan

entropy(S) =

∑

i=0 n

−pi∗log2pi ………..

(1)

Keterangan:

S : Himpunan kasus A : fitur

n : Jumlah partisi dalam atribut Pi : Proposi dari Si terhadap S

3. Menghitung nilai gain. Gain merupakan salah satu langkah pemilihan atribut yang digunakan untuk memilih tes atribut setiap simpul pada pohon keputusan atau dengan kata lain gain merupakan tingkat pengaruh suatu atribut terhadap keputusan atau ukuran efektifitas suatu variabel dalam mengklasifikasikan data. Gain dihitung dengan rumus yang ditulis sebagai

gain(S,A)=Entropy(S) -

∑

i=0 n |Si|

|S|^xEntropy^(Si) ^……….

(2)

Keterangan:

S : Himpunan kasus A : Atribut

N : Jumlah partisi dalam atribut A

|Si| : jumlah kasus pada partisi ke-i |S| : jumlah kasus dalam

Pada algoritma C4.5, nilai gain digunakan untuk menentukan variabel mana yang menjadi node dari suatu pohon keputusan. Suatu variabel yang memiliki gain tertinggi akan dijadikan node di pohon keputusan.

3.8 Jadwal penelitian

Adapun jadwal penelitian yang dilakukan oleh penelis untuk pembuatan laporan ini dapat dilihat pada tabel tabel 3.8 berikut.

Tabel 3. 8 waktu penelitian N

o Kegiatan Bulan

1 2 3 4 5 6 7 8 9 1

0 1

1 1 2 1 Studi pustaka

2 Identifikasi masalah 3 Perumusan

metode penelitian

4 data

5 Pengolahan data 6 Analisis data 7 Input dan

pengujian 8 Evaluasi dan

pembahasan 9 Pembuatan

laporan 1

0 Seminar

DAFTAR PUSTAKA

Aderibigbe. (2018). KLASIFIKASI DATA SCIMAGO JOURNAL DAN COUNTRY RANK MENGGUNAKAN ALGORITMA C4.5 TUGAS.

Energies, 6(1), 1–8.

http://journals.sagepub.com/doi/10.1177/1120700020921110

%0Ahttps://doi.org/10.1016/j.reuma.2018.06.001%0Ahttps://

doi.org/10.1016/j.arth.2018.03.044%0Ahttps://reader.elsevier .com/reader/sd/pii/S1063458420300078?

token=C039B8B13922A2079230DC9AF11A333E295FCD8 Akhir, T. (2019). MENGGUNAKAN METODE ’ K-NEAREST ’

NEIGHBOR ”.

Al Khadafi, M., Kurnia Paranitha Kartika, & Filda Febrinita. (2022).

Penerapan Metode Naïve Bayes Classifier Dan Lexicon Based Untuk Analisis Sentimen Cyberbullying Pada Bpjs. JATI (Jurnal Mahasiswa Teknik Informatika), 6(2), 725–733.

https://doi.org/10.36040/jati.v6i2.5633

Albab, M. U., P, Y. K., & Fawaiq, M. N. (2023). Optimization of the Stemming Technique on Text preprocessing President 3 Periods Topic. 20(2), 1–10.

Almujaddedi, M. S., & Hayati, R. (2022). Perspective of Islamic Law on Hate Comments in Social Media Tinjauan Hukum Islam Terhadap Hate Comment Di Media Sosial. Jurnal

Cendekia Hukum: Vol, 7, 243–256.

https://doi.org/10.3376/jch.v7i2.466

Ansori. (2015). Pembahasan Klasifikasi. Paper Knowledge . Toward a Media History of Documents, 3(April), 49–58.

Arifin, M. F., & Fitrianah, D. (2018). Rekomendasi Penerimaan Mitra Penjualan Studi Kasus : PT Atria Artha Persada.

IncomTech, 8(2), 87–102.

https://doi.org/10.22441/incomtech.v8i1.2198

artikel/14366/Pengaruh-Positif-dan-Negatif-Media-Sosial- Terhadap-Masyarakat.html

Hermawan, L., & Bellaniar Ismiati, M. (2020). Pembelajaran Text Preprocessing berbasis Simulator Untuk Mata Kuliah Information Retrieval. Jurnal Transformatika, 17(2), 188.

https://doi.org/10.26623/transformatika.v17i2.1705

Ihsan, F., Iskandar, I., Harahap, N. S., & Agustian, S. (2021).

Decision tree algorithm for multi-label hate speech and abusive language detection in Indonesian Twitter. Jurnal Teknologi Dan Sistem Komputer, 9(4), 199–204.

https://doi.org/10.14710/jtsiskom.2021.13907

Irfani, F. F., Fauzi, M. A., & Sari, Y. A. (2018). Klasifikasi Berita pada Twitter Menggunakan Metode Naive Bayes dan Query Expansion Hipernim-Hiponim. Jurnal Pengembangan Teknologi Informasi Dan Ilmu Komputer (J-PTIIK) Universitas Brawijaya, 2(12), 6093–6099.

Kustiyahningsih, Y., & Rahmanita, E. (2016). Aplikasi Sistem Pendukung Keputusan Menggunakan Algoritma C4.5. untuk Penjurusan SMA. Jurnal Semantec, 5(2), 101–108.

Mardi, Y. (2017). Data Mining : Klasifikasi Menggunakan Algoritma

C4.5. Edik Informatika, 2(2), 213–219.

https://doi.org/10.22202/ei.2016.v2i2.1465

Muwafiq, A. Z., Sumarlam, S., & Kristina, D. (2019). Discursive Strategies of Verbal Violence in the Users Comments on Facebook News Updates. Jurnal Ilmiah Peuradeun, 7(3), 413.

https://doi.org/10.26811/peuradeun.v7i3.297 35

Nasrullah, A. H. (2018). Penerapan Metode C4.5 untuk Klasifikasi Mahasiswa Berpotensi Drop Out. ILKOM Jurnal Ilmiah, 10(2), 244–250. https://doi.org/10.33096/ilkom.v10i2.300.244-250 Parulian, H., & Putranto, R. D. (2022). Pidana Ujaran Kebencian

Melalui Media Sosial Ditinjau dalam Perspektif Undang- Undang Nomor 19 Tahun 2016 tentang Perubahan Atas Undang Undang Nomor 11 Tahun 2008 tentang Informasi dan Transaksi Elektronik (UU ITE). Jurnal Pendidikan Dan Konseling (JPDK), 4(4), 4909–4919.

Putu, N., Saraswati, V. D., Yudistira, N., & Adikara, P. P. (2023).

Analisis Sentimen terhadap Perundungan Siber pada Twitter menggunakan Algoritma Bidirectional Encoder Representations from Transformer (BERT). 7(2), 6980–6987.

http://j-ptiik.ub.ac.id

Rheza, M. A., & Metandi, F. (2020). IMPLEMENTASI METODE K- MEANS CLUSTERING UNTUK PENENTUAN JENIS KOMENTAR PADA TWEET PSSI. 2, 73–78.

Saifuddin, L. H. (2018). Pendekatan Text mining Sebagai Sistem Pendeteksi. 1–6.

Sanjulya, L., Vidyarini, T. N., Prodi, V. M., Komunikasi, I., Kristen, U., & Surabaya, P. (2020). JURNAL E-KOMUNIKASI PROGRAM STUDI ILMU KOMUNIKASI UNIVERSITAS KRISTEN PETRA, SURABAYA Studi Komparatif: Analisis Isi Pesan Komunikasi Pemasaran Melalui Instagram (Indihome vs First Media). 1–

12.

Saputro, B. I. (2017). Penerapan Sistem Klasifikasi Perpustakaan Arkeologi di Perpustakaan Balai Arkeologi Daerah Istimewa Yogyakarta. Berkala Ilmu Perpustakaan Dan Informasi, 13(2), 107. https://doi.org/10.22146/bip.23453

Setio, P. B. N., Saputro, D. R. S., & Bowo Winarno. (2020).

Klasifikasi Dengan Pohon Keputusan Berbasis Algoritme C4.5.

Creative Media, 11–2018.

Swastina, L. (2018). Penerapan Algoritma C4 . 5 Untuk Penentuan Jurusan Mahasiswa. Gema Aktualita, 2(1), 93–98.

Tineges, R., Triayudi, A., & Sholihati, I. D. (2020). Analisis Sentimen Terhadap Layanan Indihome Berdasarkan Twitter Dengan Metode Klasifikasi Support Vector Machine (SVM).

Jurnal Media Informatika Budidarma, 4(3), 650.

https://doi.org/10.30865/mib.v4i3.2181

Trihapsari, E. (2016). SKRIPSI Klasifikasi Cyber Bullying Pada Media Sosial Twitter Dengan Menggunakan Cyber Bullying Classification on Twitter Social Media Using Naïve Bayes Algorithm. Klasifikasi Cyber Bullying Pada Media Sosial Twitter Dengan Menggunakan Algoritma Naïve Bayes.

Widi, S. (2023). No Title. Dataindonesia.

https://dataindonesia.id/internet/detail/pengguna-media- sosial-di-indonesia-sebanyak-167-juta-pada-2023

Yan, K., Arisandi, D., & Tony, T. (2022). Analisis Sentimen Komentar Netizen Twitter Terhadap Kesehatan Mental Masyarakat Indonesia. Jurnal Ilmu Komputer Dan Sistem Informasi, 10(1). https://doi.org/10.24912/jiksi.v10i1.17865 Zahrin Nur Azizah. (2022). No Title. Yoursay.

https://yoursay.suara.com/kolom/2022/03/28/141951/hate- comment-cara-keliru-masyarakat-dalam-menyampaikan- sebuah-kritik#:~:text=Hate comment adalah salah satunya,warna kulit%2C dan lain sebagainya.

Zukhrufillah, I. (2018). Gejala Media Sosial Twitter Sebagai Media 37

Dalam dokumen KLASIFIKASI PADA KOMENTAR TIDAK BAIK DI TWITTER (Halaman 32-44)