BAB III METODE PENELITIAN

(1)

METODE PENELITIAN 3.1 Desain Penelitian

Desain penelitian adalah tahapan atau gambaran yang akan dilakukan dalam penelitian. Berikut merupakan langkah langkah yang akan dilakukan dalam melakukan penelitian:

(2)

1. Pengumpulan Data

Dalam pengumpulan data, hal pertama yang dilakukan adalah pemilihan akun-akun yang akan dijadikan dataset. Akun-akun tersebut akan diberi label sesuai kategori masing-masing. Setelah pemberian label, maka akun akan dibagi menjadi 2 bagian, yaitu data pelatihan dan data uji. Selanjutnya dilakukan proses

crawling pada masing-masing data dengan melakukan permintaan (request)

menggunakan Twitter REST API. Berikut request yang dikirimkan.

No Jenis Request Contoh request

1 GET statuses/user_timeline https://api.twitter.com/1.1/statu

ses/user_timeline.json?screen_nam e=dionajie&count=200

2 GET users/lookup https://api.twitter.com/1.1/users

/lookup.json?screen_name=dionajie

Tabel 3. 1 Jenis request

Berikut adalah atribut yang diambil:

No Atribut Keterangan

1 Username Nama pengguna

2 followers_count Jumlah pengikut/follower pengguna 3 friends_count Jumlah teman/following pengguna 4 verified Status verifikasi akun

5 description Deskripsi biodata pengguna 6 url Deskripsi tautan website pengguna 7 location Deskripsi lokasi pengguna

(3)

9 status_count Jumlah tweet pengguna

10 last_update_date Tanggal status terakhir pengguna 11 taken_tweet Jumlah tweet yang diambil

12 taken_tweet_date Tanggal diambilnya data pengguna

13 start_taken_tweet_data Tanggal tweet pertama yang diambil dari

pengguna

14 last_taken_tweet_date Tanggal tweet terakhir yang diambil dari pengguna

15 mention_number Jumlah mention tweet yang terdapat dalam tweet yang diambil dari pengguna

16 retweet_number Jumlah retweet yang terdapat dalam tweet yang diambil dari pengguna

17 hashtag_number Jumlah hashtag yang terdapat dalam tweet yang diambil dari pengguna

18 url_number Jumlah url yang terdapat dalam tweet yang diambil dari pengguna

Tabel 3. 2 Features hasil crawling

2. Praproses Data

Pada tahap ini dilakukan transformasi data dengan metode attribute

construction (pembuatan atribut). Setelah melakukan tahap praproses maka

atribut yang didapat adalah sebagai berikut.

No Atribut Keterangan

(4)

2 following_rate Jumlah friends/following pengguna 3 account_age Umur akun (dalam bulan)

4 last_update Jeda antara waktu data diambil dengan tweet terakhir (dalam satuan bulan)

5 tweet_average Jumlah tweet perhari 6 account_reputation Reputasi akun pengguna

7 mention_ratio Ratio mention dalam tweet yang diambil 8 hashtag_ratio Rasio hashtag dalam tweet yang diambil 9 url_ratio Rasio tautan dalam tweet yang diambil 10 retweet_ratio Rasio retweet dalam tweet yang diambil 11 interval_all_tweet Interval waktu yang dibutuhkan untuk

menghasilkan jumlah tweet yang diambil (dalam satuan jam)

12 interval_one_tweet Interval waktu yang dibutuhkan untuk menghasilkan satu tweet

13 is_spam Kategori/label akun yang menunjukkan akun twitter merupakan akun spam atau non-spam

Tabel 3. 3 Features hasil praproses data

3. Membangun model dan evaluasi

Pada tahap ini dilakukan pembuatan model pohon keputusan dengan menggunakan algoritma C4.5. Setelah pembuatan model, akurasi model akan dievaluasi. Evaluasi menggunakan metode 10-fold cross validation untuk menentukan akurasi dari sebuah model menggunakan data pelatihan. Setelah melakukan evaluasi langkah selanjutnya yaitu melakukan pruning tree (pemangkasan pohon). Pada tahap pruning, model yang telah dibuat akan

(5)

dengan hasil maksimal.

Proses terakhir dari membangun model dan evaluasi adalah klasifikasi data uji. Klasifikasi dengan data uji untuk mengukur akurasi model terhadap data diluar data pengujian.Tingkat akurasi model yang dihasilkan sebelum dan setelah melakukan pruning akan dibandingkan hasil akurasinya. Model dengan akurasi paling baik akan menjadi model yang digunakan dalam penerapan.

4. Penerapan model

Membuat sistem yang dapat melakukan prediksi kategori akun yang belum diketahui kategorinya berdasarkan model yang telah dibuat sebelumnya.

1.2 Metode Penelitian

Metode penelitian ini dibagi menjadi dua, yaitu metode pengumpulan data dan metode pengembangan perangkat lunak.

1.2.1 Metode Pengumpulan Data

Data yang diambil dalam penelitian ini merupakan data akun yang diambil dari Twitter. Pemberian label pada akun-akun tersebut ditentukan berdasarkan karakteristik spam account yang telah dijelaskan oleh Twitter sebelumnya. Selanjutnya pengambilan data akun akan dilakukan dengan memanfaatkan REST API Twitter. Data inilah yang akan dijadikan dataset untuk penelitian.

1.2.2 Metode Pengembangan Perangkat Lunak

Proses dalam pengembangan perangkat lunak dalam penelitian ini menggunakan model waterfall. Model waterfall adalah sebuah contoh dari proses perencanaan, dimana semua proses kegiatan harus terlebih dahulu direncanakan dan dijadwalkan sebelum dikerjakan (Sommerville, 2011). Berikut adalah tahapan-tahapannya :

(6)

Gambar 3. 2 Model Waterfall (Sommerville,2011)

1. Requirements definition (Definisi kebutuhan)

Mengumpulkan kebutuhan, penetapan fitur, kendala dan tujuan sistem melalui konsultasi dengan pengguna sistem. Semua hal tersebut akan ditetapkan secara rinci dan berfungsi sebagai spesifikasi sistem.

2. System and software design (Desain sistem dan perangkat lunak)

Dalam tahapan ini akan dibentuk suatu arsitektur sistem berdasarkan persyaratan yang telah ditetapkan. Dan juga mengidentifikasi dan menggambarkan abstraksi dasar sistem perangkat lunak dan hubungan-hubungannya.

3. Implementation and unit tesing (Tes implementasi dan unit)

Hasil dari desain perangkat lunak akan direalisasikan sebagai satu set program atau unit program. Setiap unit akan diuji apakah sudah memenuhi spesifikasinya.

4. Integration and unit tesing (Tes integrasi dan unit)

Setiap unit program akan diintegrasikan satu sama lain dan diuji sebagai satu sistem yang utuh untuk memastikan sistem sudah memenuhi persyaratan yang ada. Setelah itu sistem akan dikirim ke pengguna sistem.

(7)

Dalam Operation and maintenance, sistem diinstal dan mulai digunakan. Selain itu juga memperbaiki error yang tidak ditemukan pada tahap pembuatan. Dalam tahap ini juga dilakukan pemeliharaan software serta pengembangan sistem seperti penambahan fitur dan fungsi baru.

1.3 Alat dan Bahan Penelitian

Berdasarkan kebutuhan-kebutuhan di atas, maka ditentukan bahwa alat dan bahan yang digunakan pada penelitian ini adalah sebagai berikut:

1.3.1 Alat Penelitian

Dalam penelitian ini, peneliti menggunakan bebagai alat bantu penunjang baik berupa perangkat keras maupun perangkat lunak. Adapun perangkat keras yang digunakan adalah seperangkat komputer yang mempunyai spesifikasi sebagai berikut:

1. Processor Intel Core i5 2.4Ghz 2. RAM 4 GB

3. Hardisk 500GB 4. Monitor 14 inch 5. Mouse dan Keyboard

Sedangkan perangkat lunak yang digunakan yaitu : 1. Sistem operasi Ubuntu 14.04

2. Sublime text 3.0 3. Python 2.7.0 4. XAMPP 1.8.3 5. Google Chrome

1.3.2 Bahan Penelitian

Bahan Penelitian dilakukan dengan menggunakan dataset yang dibagi menjadi dua bagian:

(8)

Jumlah akun yang dijadikan data pelatihan adalah 1391 akun dengan 442 akun kategori akun spam account dan 949 akun kategori

non-spam account. Data pelatihan akan digunakan untuk membangun model

dan validasi menggunakan k-fold cross validation. 2. Data uji

Jumlah akun pada data uji adalah sebanyak 100 akun dengan 50 akun kategori spam account dan 50 akun kategori kategori non-spam

account. Data uji akan digunakan untuk menghitung akurasi sebenarnya