commit to user
DETEKSI
SPAMMER
DI TWITTER
DENGAN MEMPELAJARI
TWEET-BASED FEATURES
SKRIPSI
Diajukan untuk memenuhi sebagian persyaratan mendapatkan gelar Strata Satu
Jurusan Informatika
disusun oleh:
YULIA WARDHANI
M0508012
JURUSAN INFORMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SEBELAS MARET
SURAKARTA
commit to user
commit to user
iii
MOTTO
”
If you have God on your side, everything becomes clear.
”
(Ayrton Senna )
“True heroism is minutes, hours, weeks, year upon year of the quiet, precise,
judicious
exercise of probity and care
—with no one there to see or cheer. This is the world.”
(David Foster Wallace, The Pale King)
“
Mengalah bukan berarti kalah, hanya orang-orang besarlah yang berani mengalah untuk
mencapai kemenangan yang hakiki.
”
commit to user
iv
PERSEMBAHAN
commit to user
v
KATA PENGANTAR
Puji syukur penulis ucapkan pada Allah SWT, yang telah membimbing dan
menemani penulis hingga dapat menyelesaikan skripsi yang berjudul ”Deteksi
Spammer di Twitter dengan mempelajari Tweet-Based Features” yang disusun
sebagai persyaratan mendapatkan gelar Starata Satu jurusan Informatika Universitas
Sebelas Maret.
Penyusunan skripsi ini juga tak lepas dari bimbingan dan bantuan yang tidak ada
habisnya dari segenap pihak. Untuk itu perkenankan penulis mengucapkan
terimakasih yang sebesar-besarnya kepada:
1. Bapak dan Ibu di rumah, atas dukungan, doa restu, dan kepercayaan yang telah
diberikan selama ini,
2. Ibu Dewi Wisnu Wardani, S. Kom, M. S, selaku dosen pembimbing I yang
selalu mengarahkan penulis ke arah yang benar dan selalu menimbulkan sikap
optimis pada penulis akan selesainya skripsi ini,
3. Bapak Didiek S. Wiyono, S. T, M. T, selaku dosen pembimbing II yang selalu
membimbing dan memberikan ide maupun koreksi pada penulis sehingga
mampu mewujudkan skripsi ini,
4. Ibu Sari Widya Sihwi, S. Kom, M. TI, selaku penguji I dan Bapak Meiyanto
Eko Sulistyo, S. T, M. Eng, selaku penguji II yang telah meluangkan waktunya
dan memberikan saran untuk perbaikan skripsi ini,
5. Ibu Umi Salamah, S. Si, M. Kom, selaku pembimbing akademik, yang selalu
memberikan dorongan semangat dan bimbingannya.
6. Kakak-kakakku, @playgroundpilot khususnya, untuk doa, dorongan, bantuan
yang tiada henti.
7. Teman-teman, @ndrer atas mottonya, @christinethuel, @rikybagoes,
@agathariyadi, @ifantraadindo, bintang7, tbcfamily, dan teman-teman
commit to user
vi
8. Semua pihak yang turut terlibat baik secara langsung maupun tidak langsung
dalam penulisan skripsi ini yang tidak dapat disebutkan satu persatu,
terimakasih banyak atas semua bantuannya.
Semoga Allah SWT membalas budi baik semua pihak yang telah membantu dalam
penulisan skripsi ini, Amin ya robbal ’alamin. Penulis menyadari bahwa kemampuan dan pengalaman penulis masih sangat terbatas. Akan tetapi penulis berharap skripsi ini
dapat bermanfaat bagi semua pihak.
commit to user
vii
DETEKSI
SPAMMER
DI TWITTER
DENGAN MEMPELAJARI
TWEET-BASED FEATURES
Yulia Wardhani
Jurusan Informatika. Fakultas Matematika dan Ilmu Pengetahuan Alam.
Universitas Sebelas Maret
ABSTRAK
Spam merupakan penyalahgunaan dalam pengiriman berita dari jaringan
komunikasi dan memiliki berbagai bentuk dan definisi yang berbeda tergantung pada
jenis jaringannya. Dengan jutaan pengguna di seluruh dunia, Twitter menyediakan
berbagai berita dan peristiwa yang terjadi. Namun, dengan adanya kemudahan dalam
penyebaran berita dan memungkinkan pengguna untuk membahas berita tersebut
dalam status mereka, layanan ini juga membuka peluang terbentuknya spam.
Pada penelitian ini dilakukan deteksi spammer untuk mengklasifikasikan akun ke
dalam spammer atau nonspammer dengan mempelajari tweet-based features (jumlah
follower, following, URL, @mention dan #hashtag).
Hasil penelitian menunjukkan bahwa algoritma yang dibangun mempunyai
kesalahan (error) lebih sedikit dibanding dengan algoritma pembandingnya (algoritma
C5.0), yaitu sebesar 11% untuk dataset 1, 14% untuk dataset 2, dan 6,3% untuk
dataset 3. Ketelitian mengklasifikasikan sebesar 87,8% untuk dataset 1, 82,35% untuk
dataset 2, dan 92,10% untuk dataset 3. Keakurasian sebesar 89% untuk dataset 1, 86%
untuk dataset 2, dan 93,67% untuk dataset 3.
commit to user
viii
DETECTING SPAMMERS ON TWITER
BY IDENTIFYING TWEET-BASED FEATURES
Yulia Wardhani
Department of Informatics. Mathematic and Science Faculty.
Sebelas Maret University
ABSTRACT
Spam is the abuse in the delivery of news and communication networks. It has
different shapes and different definitions depending on the type of network. With
millions of users worldwide, Twitter provides a variety of news and events. However,
with the ease of dissemination of news, and allow users to discuss the stories in their
status, these services also open opportunities for another kind of spam.
In this study, spammer detection algorithm is applied to classify accounts into a
spammer or non spammer by identifying tweet-based features (number of followers,
followings, URLs, @mentions and #hashtags).
The results showed that the algorithm has constructed an error 11% (dataset 1),
14% (dataset 2), 6,3% (dataset 3) is less than the comparison algorithm (C5.0
algorithm), achieve 87.8% precision (dataset 1), 82,35% precision (dataset 2),
92,10% precision (dataset 3) and 89% accuracy (dataset 1), 86% accuracy (dataset 2),
93,67% accuracy (dataset 3).
commit to user
2.1.3.2Pemilihan Fitur untuk Pendeteksian Spammer... 9
commit to user
2.2.2. Mutually Reinforcing Spam Detection on Twitter and Web……….. 13
2.2.3. Detecting Spam Bots in Online Social Networking Sites: A Machine Learning Approach ... 14
4.3.2Proses Pendeteksian... 26
4.3.2.1Algoritma Pendeteksian Spammer………. 26
4.3.2.2Algoritma C5.0……….. 28
4.3.2.2.1 Features Importance Analysis…….…. 28
commit to user
xi
DAFTAR GAMBAR
Halaman
Gambar 2.1 Klasifikasi sebagai pemetaan sebuah atribut input x
ke dalam label kelas ... 10
Gambar 2.2 Confusion Matrix ... 12
Gambar 2.3 Twitter Graph.. ... 14
Gambar 3.1 Kerangka Pemikiran Penelitian ... 16
Gambar 3.2 Gambaran umum sistem deteksi spam di Twitter ... 17
commit to user
xii
DAFTAR TABEL
Halaman
Tabel 4.1 Keterangan atribut Friends, Isurl,
Ismention, Ishashtag ... 25
Tabel 4.2 Contoh instances dengan atribut terpilih ... 25
Tabel 4.3 Contoh data dengan kelas spammer dan nonspammer berdasar
atribut Ishashtag ... 29
Tabel 4.4 Confusion Matrix: Deteksi spammer dengan menggunakan
algoritma pendeteksi spammer (Data testing 1, 100 records) ... 32
Tabel 4.5 Confusion Matrix: Deteksi spammer dengan menggunakan
algoritma pendeteksi spammer (Data testing 2, 150 records)... 32 Tabel 4.6 Confusion Matrix: Deteksi spammer dengan menggunakan
algoritma pendeteksi spammer (Data testing 3, 300 records) ... 32
Tabel 4.7 Confusion Matrix: Deteksi spammer dengan menggunakan
algoritma C5.0(Data testing 1, 100 records) ... 33
Tabel 4.8 Confusion Matrix: Deteksi spammer dengan menggunakan
algoritma C5.0(Data testing 2, 150 records) ... 33 Tabel 4.9 Confusion Matrix: Deteksi spammer dengan menggunakan
algoritma C5.0(Data testing 3, 300 records) ... 33
Tabel 4.10 Persentase hasil klasifikasi berdasarkan alat ukur evaluasi
commit to user
xiii
DAFTAR LAMPIRAN
Halaman
Hasil Klasifikasi: Algoritma Pendeteksian Spammer (data testing 1)……. 38
Hasil Klasifikasi: Algoritma Pendeteksian Spammer (data testing 2)... 40
Hasil Klasifikasi: Algoritma Pendeteksian Spammer (data testing 3)... 44
Hasil Klasifikasi: Algoritma C5.0 (data testing 1) ... 51
Hasil Klasifikasi: Algoritma C5.0 (data testing 2) ... 54