Klasifikasi Spam Pada Twitter Menggunakan Metode Improved K-Nearest Neighbor

(1)

Fakultas Ilmu Komputer

Universitas Brawijaya

3948

Klasifikasi

Spam

Pada Twitter Menggunakan Metode

Improved K-Nearest

Neighbor

Dea Zakia Nathania1_{, Indriati}2_{, Fitra Abdurrachma Bachtiar}3

Program Studi Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya Email: 1_{[email protected],}2_{[email protected],}3_{[email protected]}

Abstrak

Twitter merupakan salah satu layanan aplikasi yang populer karena dapat digunakan untuk berinteraksi dan berkomunikasi dalam kehidupan sehari-hari. Untuk dapat menyebarkan informasi secara cepat maka banyak bermunculan berbagai macam perangkat lunak otomasi. Karena Twitter tidak memeriksa secara ketat mengenai otomasi pada tweet, maka tidak ada pencegahan pemakaian

bot secara teratur. Keterbukaan penggunaan layanan otomasi atau automation tweet pada Twitter inilah yang menyebabkan munculnya pasar Spam-as-a-Service yang terdiri dari program pemalsuan, layanan pemendek berbasis iklan dan penjualan akun. Masing-masing layanan ini memungkinkan

spammer untuk melakukan proses penyebaran spam dengan menggunakan layanan automation tweet. Sehingga dibutuhkan suatu penelitian untuk melakukan klasifikasi pada tweet untuk mengetahui jenis kategorinya termasuk ke dalam kategori spam atau bukan spam. Proses klasifikasi spam diawali dengan preprocessing yang terdiri dari beberapa tahapan yaitu cleansing, case folding, tokenisasi,

filtering dan stemming. Dilanjutkan dengan proses term weghting, hingga proses klasifikasi dengan menggunakan metode Improved K-Nearest Neighbor. Hasil yang diperoleh berdasarkan implementasi dan pengujian penelitian Klasifikasi Spam pada Twitter ini menghasilkan rata-rata Precision sebesar 0.8946, Recall sebesar 0.9405, F-Measure sebesar 0.9155 dan hasil akurasi sebesar 89.57%. Dimana jumlah dokumen, perbandingan atau keseimbangan proporsi data latih dan penentuan nilai k-values

yang digunakan berpengaruh terhadap baik atau tidaknya proses klasifikasi terhadap dokumen.

Kata Kunci: Text Mining, Klasifikasi, Spam, Twitter, Improved K-Nearest Neighbor

Abstract

Twitter is a service application that is popular because it can be used to interact and communicate in everyday life. A lot of various new types of automation software increases to disseminate information immediately. Twitter does not strictly check the automation tweet, therefore there is no prevention of the use of bot on a regular basis. Low restriction of the use of automation services on Twitter led to the emergence of market Spam-as-a-Service consisting of counterfeiting program, abridgement ad-based on service and sales account. Each of these services allows spammers to do the spam deployment process by using automation tweet services. So it is necessary to do a research on the classification of the tweet to know the type of category is included in the category of spam or not spam. Spam classification process begins with the preprocessing consists of several stages, namely; cleansing, case folding, tokenization, filtering and stemming. The next step are process of term weighting, until the process of classification using Improved K-Nearest Neighbor method. The results obtained on the basis of implementation and testing research of the classification of Spam on Twitter produces an average Precision of 0.8946, Recall of 0.9405, F-Measure of 0.9155 and results accuracy of 89.57%. Where is the number of documents, a comparison or balance the proportion of training data and the determination of k-values that are used too well or whether the process of classification of the document.

Keywords: Text Mining, Clasification, Spam, Twitter, Improved K-Nearest Neighbor

1. PENDAHULUAN

Internet merupakan salah satu teknologi

yang berkembang pesat hingga saat ini dimana

digunakan untuk mendapatkan dan

menyebarkan informasi (Bintang, 2013).

(2)

layanan aplikasi yang populer karena dapat

digunakan untuk berinteraksi dan

berkomunikasi dalam kehidupan sehari-hari. Di antara OSN yang ada, Twitter merupakan salah satu yang populer pada kategori ini (Teljstedt, 2016).

Twitter menawarkan suatu konsep mikroblog yang memungkinkan penggunanya

untuk dapat berinteraksi dengan

mempublikasikan pesan atau tulisan berbasis teks pendek hingga 140 karakter yang sering dikenal dengan sebutan tweet (Teljstedt, 2016). Sejak awal bulan November 2017, Twitter menambah batas karakter pesan atau tulisannya menjadi 280 karakter (Rosen, 2017). Dengan berubahnya pertanyaan pada bagian tweet input box dari “Apa yang Anda Lakukan?” menjadi

“Apa yang Terjadi?” telah menunjukkan bahwa

Twitter ingin menghapus konsep mengenai hanya melakukan pembaruan status pribadi saja yang dapat dilakukan (Stone, 2009). Dengan jutaan pengguna yang saling berhubungan, kini Twitter telah menjadi sarana yang ideal untuk menyuarakan opini hingga menyebarkan berita langsung (Xiong dan Liu, 2014). Sehingga untuk menjangkau khalayak yang besar memungkinkan adanya perangkat lunak yang dirancang untuk melakukan posting tweet

secara otomatis yang juga dikenal dengan bot

(Teljstedt, 2016).

Karena Twitter tidak memeriksa secara ketat mengenai otomasi pada tweet, maka tidak ada pencegahan pemakaian bot secara teratur. Sehingga Kini muncul Cyborg yang merujuk pada Bot-Assisted Human atau bot yang dibantu oleh manusia. Cara kerja Cyborg diawali dengan mendaftarkan akun, dilanjutkan dengan mengatur program otomatis untuk dapat melakukan posting tanpa perlu melakukan daring pada satu waktu tertentu (Chu et al., 2012). Istilah lain dari bot pada Twitter adalah layanan otomasi atau automation tweet dimana merupakan suatu proses dari akun yang secara

otomatis memposting tweet dengan

menggunakan aplikasi otomasi tertentu untuk menyebarkan konten (Chu et al., 2012). Keterbukaan penggunaan layanan otomasi pada Twitter inilah yang menyebabkan munculnya pasar Spam-as-a-Service yang terdiri dari program pemalsuan, layanan pemendek berbasis iklan dan penjualan akun. Masing-masing layanan ini memungkinkan spammer

untuk melakukan proses penyebaran spam

dengan menggunakan layanan automation tweet

(Thomas et al., 2011).

Prayoga (2017) telah melakukan penelitian untuk mendeteksi spam pada Twitter dengan menggunakan metode Naïve Bayes dan KNN. Berdasarkan hasil pengujian akurasi yang dilakukan, metode Naïve Bayes memiliki persentase akurasi yang lebih tinggi sebesar 82% dibandingkan dengan metode KNN yang mendapatkan hasil akurasi sebesar 71%.

Berkembangnya kemunculan spam pada Twitter menjadi salah satu permasalahan yang muncul. Sehingga dibutuhkan suatu penelitian untuk melakukan klasifikasi pada tweet untuk mengetahui jenis kategorinya. Salah satu metode yang dapat digunakan untuk melakukan klasifikasi adalah Improved K-Nearest Neighbor. Metode ini melakukan modifikasi di dalam penentuan nilai k-values. Pemilihan

metode Improved K-Nearest Neighbor

didasarkan pada penelitian milik Sianturi, Marji dan Sutrisno (2014) yang membandingkan kinerja dari metode Naïve Bayes dan Improved K-NN dalam implementasi sistem klasifikasi

spam email. Dimana dari hasil F-Measure

dalam penelitian tersebut menyatakan bahwa metode Improved K-Nearest Neighbor lebih baik dalam proses pengklasifikasian pada spam email dibandingkan dengan Naïve Bayes.

Berdasarkan paparan permasalahan diatas, penulis mengusulkan untuk melakukan klasifikasi terhadap tweet sebagai dokumen ke dalam dua jenis kategori spam atau bukan spam

menggunakan metode Improved K-Nearest Neighbor yang diharapkan dapat memberikan hasil yang lebih baik dibandingkan dengan penelitian sebelumnya yang dilakukan oleh Prayoga (2017).

2. LANDASAN KEPUSTAKAAN

2.1 Text Mining

Text Mining merupakan proses pencarian atau penggalian informasi yang berguna dari sumber data tekstual dimana mencoba untuk menemukan pola yang menarik dari database

yang cukup besar (Nayak et al., 2016).

2.2 Preprocessing

(3)

1. Cleansing

Tahapan cleansing dilakukan untuk mengurangi noise yang dimulai dengan melakukan proses penghilangan atau penghapusan karakter HTML, URL, email,

hashtag (#hashtag), ikon emosi dan username

(@username) (Nur dan Santika, 2011). 2. Case Folding

Case folding merupakan tahapan untuk mengubah masukan yang berupa huruf menjadi huruf kecil (lower case).

3. Tokenisasi

Tokenisasi merupakan proses membuat daftar token/term/kata yang digunakan sebagai masukan untuk proses metode berikutnya (Nayak et al., 2016). Sederhananya adalah memisahkan setiap kata yang dipisahkan oleh

whitespace di dalam suatu dokumen. 4. Filtering

Filtering atau stopword removal merupakan tahapan yang digunakan untuk menghapus kata yang termasuk dalam stoplist yang jika

dihilangkan masih memiliki makna

(Wahyuningtyas, 2016).

5. Stemming

Stemming merupakan proses pengubahan

bentuk kata menjadi kata dasar atau tahap mencari root kata pada setiap kata. Dengan dilakukannya proses ini maka setiap kata yang berimbuhan akan berubah menjadi kata dasar sehingga dapat mengoptimalkan proses (Herdiawan, 2015).

2.3 Term Weighting

1. Term

Frequency

(TF)

dan

Term

Weighting

(Wtf)

TFt,d merupakan banyaknya kemunculan terms/token/kata t dalam dokumen d. TF dapat juga disebut dengan istilah frekuensi dalam dalam satu dokumen (Xia dan Chai, 2011). Sedangkan Wtf merupakan proses perhitungan atau pembobotan pada setiap terms/token/kata t. Berikut merupakan persamaan perhitungan pembobotan dari TF: Document Frequency (IDFt)

DFt merupakan banyaknya dokumen yang mengandung terms/token/kata t. Sedangkan IDFtmerupakan hasil invers dari DFt. Berikut

merupakan persamaan untuk menghitung IDFt

yang diusulkan oleh Jones (1972):

𝑖𝑑𝑓𝑡= log10𝑁/𝑑𝑓𝑡 (2)

Pembobotan TF.IDF dari suatu

terms/token/kata t merupakan hasil perkalian dari TF Weight dengan IDFt (Manning, Raghavan dan Schutze, 2009).

𝑤𝑡,𝑑= 𝑤𝑡𝑓𝑡,𝑑∗ 𝑖𝑑𝑓𝑡

Dilanjutkan dengan perhitungan normalisasi terhadap nilai Wt,d.

𝑤𝑡,𝑑= 𝑤𝑡,𝑑 √∑𝑛𝑡=1𝑤𝑡,𝑑2

(4)

2.4 K-Nearest Neighbor

K-Nearest Neighbor merupakan metode

pembelajaran berbasis instance (contoh) dimana menghitung kesamaan antara data uji dengan data latih yang mempertimbangkan nilai kesamaan tertinggi sejumlah k (Zheng et al., 2015).

2.5 Cosine Similarity

Cosine similarity merupakan fungsi yang digunakan untuk menghitung besarnya derajat kemiripan di antara dua vektor (dokumen dan

query) (Herdiawan, 2015).

Berikut merupakan persamaan untuk menghitung nilai similarity diantara dua vektor:

(4)

 Dengan Normalisasi, yang diawali dengan perhitungan menggunakan persamaan persamaan (4).

2.6 Improved K-Nearest Neighbor

Metode Improved K-Nearest Neighbor

merupakan metode dimana melakukan

modifikasi di dalam penentuan nilai k-values. Penetapan awal nilai k-values tetap dilakukan, hanya saja dilakukan pada tiap-tiap kategori yang memiliki nilai k-values yang berbeda. Perbedaan nilai k-values yang dimiliki disesuaikan dengan tingkat besar kecilnya jumlah dokumen/data latih pada tiap-tiap kategori yang ada (Herdiawan, 2015).

Setelah melakukan perhitungan Cosine

similarity maka akan dilanjutkan dengan

melakukan pengurutan hasil perhitungan

Cosine similarity secara menurun pada setiap kategori. Dilanjutkan dengan perhitungan nilai

k-values yang baru (n) (Herdiawan, 2015).

𝑛 = ( k∗N(c𝑚) jumlah dokumen/data latih terbanyak pada semua kategori yang ada

Sejumlah n dokumen yang terpilih pada masing-masing kategori merupakan top n

dokumen atau dokumen teratas yang memiliki nilai kesamaan paling besar pada masing-masing kategori (Putri, 2013).

Dalam menentukan hasil kategori, dilakukan perbandingan similaritas pada masing-masing kategori. Persamaan (8) menyatakan nilai maksimum dari perbandingan antara kemiripan dokumen X dengan dokumen latih dj sejumlah top n tetangga pada suatu kategori dengan dokumen X terhadap dokumen

latih dj sejumlah top n tetangga pada training set (Baoli, Shiwen dan Qin, 2003).

𝑝(𝑥, 𝑐𝑚) = 𝑎𝑟𝑔𝑚𝑎𝑥𝑚 Σdj∈𝑡𝑜𝑝 𝑛 𝑘𝑁𝑁(c_Σd m)𝑠𝑖𝑚(𝑥,𝑑𝑗)𝑦(𝑑𝑗.𝑐𝑚)

j∈𝑡𝑜𝑝 𝑛 𝑘𝑁𝑁(cm)𝑠𝑖𝑚(𝑥,𝑑𝑗)

(8) Dimana:

- p(x,cm) : probabilitas dokumen x

menjadi anggota kategori cm

- 𝑠𝑖𝑚(𝑥, 𝑑𝑗) : kemiripan antara dokumen x

dengan dokumen latih dj

- top n kNN : top n tetangga

Berdasarkan perhitungan menggunakan persamaan (8), maka selanjutnya akan dibandingkan hasil probabilitas untuk masing-masing kategori. Hasil kategori akan mengacu kepada hasil probabilitas terbesar (Putri, 2013).

2.7 Precision, Recall, F-Measure dan

Akurasi

Confusion matrix merupakan jenis

perhitungan akurasi yang sering digunakan untuk menghitung hasil akurasi dalam suatu penelitian. Evaluasi dengan menggunakan tabel

confusion matrix ini dilakukan dengan cara membandingkan kategori hasil aktual dengan kategori hasil prediksi (Manning, Raghavan dan Schutze, 2009):

Tabel 1 Confusion Matrix

Hasil Aktual Hasil Prediksi

Spam Bukan Spam Spam TP FN

Bukan Spam FP TN

Precision merupakan proporsi dari suatu set yang diperoleh yang relevan (Putri, 2013).

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =_TP+FPTP (9)

Recall merupakan proporsi dari semua dokumen yang relevan dikoleksi termasuk dokumen yang diperoleh (Putri, 2013).

𝑅𝑒𝑐𝑎𝑙𝑙 =_TP+FNTP (10)

F-Measure lebih menekankan terhadap

kinerja dari precision dan recall (Herdiawan, 2015).

(5)

Dan untuk mendapatkan nilai akurasi dari penelitian yang dilakukan, berikut merupakan persamaan yang digunakan untuk mendapatkan nilai akurasi:

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =_TP+FN+FP+TNTP+TN ∗ 100% (12)

3. METODOLOGI

Dalam melakukan penelitian ini melalui beberapa tahapan yang dilakukan. Dimulai dengan pencarian literatur yang sesuai, pengumpulan data, analisis kebutuhan, perancangan, implementasi, pengujian dan analisis. Dan tahapan yang terakhir adalah penarikan kesimpulan berdasarkan hasil pengujian dan analisis yang telah dilakukan.

Diagram alir untuk melakukan klasifikasi

spam pada Twitter menggunakan metode

Improved K-Nearet Neighbor ditunjukkan pada Gambar 1.

Gambar 1 Diagram Alir Klasifikasi Spam pada Twitter Menggunakan Improved K-Nearest Neighbor

1. Input Dokumen

Input dokumen berupa tweet dimana digunakan sebagai data yang akan diuji untuk menentukan hasil kategori berupa spam atau bukan spam.

2. Preprocessing

Preprocessing terhadap dokumen berupa

teks digunakan untuk mendapatkan data dalam bentuk yang terstruktur sehingga dapat memudahkan proses perhitungan yang dilakukan selanjutnya. Textpreprocessing yang dilakukan disesuaikan dengan tahapan-tahapan yang terdiri dari cleansing, case folding,

tokenisasi, filtering dan stemming. 3. Perhitungan TF-IDF

Perhitungan pembobotan (term weighting) dilakukan dengan menggunakan TF-IDF dimana IDF dapat mengindikasikan seberapa unik atau berbedanya kemunculan kata pada kumpulan dokumen yang ada. Persamaan yang digunakan telah dijelaskan pada persamaan (1) hingga (4) yang digunakan untuk mencapai nilai Wt,d yang telah dinormalisasikan.

4. Perhitungan Cosine Similarity

Setelah mendapatkan hasil normalisasi dari perhitungan TF-IDF Weighting (Wt,d), maka proses klasifikasi akan lebih mudah dilakukan. Sebelum menentukan nilai k-values yang digunakan dalam proses klasifikasi, maka dilakukan perhitungan nilai cosine similarity

terlebih dahulu. Persamaan yang digunakan dalam menghitung nilai cosine similarity telah dijelaskan pada persamaan (6) yang mana persamaan tersebut dapat dihitung jika nilai Wt,d sudah dinormalisasikan. Nilai cosine similarity

yang dihitung adalah data latih terhadap data uji yang ingin diketahui hasil kategorisasinya. 5. Proses Klasifikasi Improved K-Nearest

Neighbor

Dilanjutkan dengan proses perhitungan k-values baru (n) yang dijelaskan pada persamaan (7) mengenai proporsi untuk menetapkan nilai n

pada masing-masing kategori. Setelah didapatkan nilai n (k-values baru) pada masing-masing kategori. Maka proses selanjutnya adalah menghitung nilai dari probabilitas dokumen uji pada masing-masing kategori dengan menggunakan persamaan (8).

6. Hasil Klasifikasi

Setelah seluruh tahapan proses dilalui, maka akan menghasilkan kategori terhadap dokumen uji (tweet) berdasarkan nilai terbesar dari hasil perhitungan probabilitas yang dihasilkan.

4. IMPLEMENTASI

Antarmuka pada aplikasi Klasifikasi Spam

(6)

1. Tampilan Halaman Awal

Gambar 2 Tampilan Halaman Awal

2. Tampilan Halaman Data Latih

Gambar 3 Tampilan Halaman Data Latih

3. Tampilan Halaman Pengujian

Gambar 4 Tampilan Halaman Pengujian

5. PENGUJIAN DAN ANALISIS

5.1 Precision, Recall, F-Measure dan

Akurasi

Untuk mengetahui pengaruh dari jumlah data latih dan nilai k-values terhadap efektifitas sistem klasifikasi, maka akan dilakukan proses pengujian dengan beberapa skenario yang dibentuk. Masing-masing dari skenario pengujian memiliki jumlah data latih dan nilai

k-values awal yang berbeda-beda dimana

seluruh skenario yang ada menggunakan jumlah data uji yang sama yaitu sebanyak 100 dokumen secara keseluruhan. Tabel 2 merupakan skenario yang dibangun untuk proses pengujian.

Tabel 2 Skenario Pengujian

1. Hasil Pengujian Skenario 1

Tabel 3 Hasil Pengujian Skenario 1

Pada Tabel 3 ditunjukkan hasil pengujian skenario 1, dimana nilai F-Measure tertinggi berada pada nilai k-values awal=5 dan 10 sebesar 0.9268 dan terendah pada nilai k-values

awal=40, 45, 50, 75 dan 100 sebesar 0.8722. Nilai F-Measure pada nilai k-values awal =40, 45, 50, 75 dan 100 menjadi bernilai rendah karena semakin banyak dokumen dari data latih yang dibandingkan terhadap data uji, sehingga probabilitas untuk masing-masing kategori memiliki selisih yang sangat kecil dan dapat menghasilkan kategori prediksi yang tidak sesuai dengan kategori aktual.

Pada Tabel 4 ditunjukkan hasil pengujian skenario 2, dimana nilai F-Measure tertinggi berada pada nilai k-values awal=10 sebesar 0.9355 dan terendah pada nilai k-values

(7)

menjadi bernilai rendah karena semakin banyak dokumen dari data latih yang dibandingkan terhadap data uji, sehingga probabilitas untuk masing-masing kategori memiliki selisih yang sangat kecil dan dapat menghasilkan kategori prediksi yang tidak sesuai dengan kategori aktual.

Pada Tabel 5 ditunjukkan hasil pengujian skenario 3. Karena data latih yang digunakan untuk masing-masing kategori memiliki jumlah yang sama, maka n (k-values baru) yang dihasilkan akan sama dengan k-values awalnya. Nilai F-Measure tertinggi berada pada nilai k-values awal=10, 15, dan 20 sebesar 0.9322 dan terendah pada nilai k-values awal=2 sebesar 0.8929. Dengan nilai k-values awal sebesar 2 mengakibatkan nilai F-Measure menjadi bernilai rendah karena hanya membandingkan dokumen uji dengan dua dokumen latih.

Pada Tabel 6 ditujukkan hasil pengujian skenario 4, dimana nilai F-Measure tertinggi berada pada nilai k-values awal=5 sebesar 0.9431 dan terendah pada nilai k-values awal=2 sebesar 0.9027. Nilai n (k-values baru) pada kategori bukan spam bernilai 1, sehingga mengakibatkan nilai F-Measure menjadi bernilai rendah karena hanya membandingkan dokumen uji dengan satu dokumen latih.

Pada Tabel 7 ditunjukkan hasil pengujian skenario 5, dimana nilai F-Measure tertinggi berada pada nilai k-values awal=5 sebesar 0.9508 dan terendah pada nilai k-values awal=2 sebesar 0.9027. Nilai n (k-values baru) pada kategori bukan spam bernilai 1, mengakibatkan nilai F-Measure menjadi bernilai rendah karena hanya membandingkan dokumen uji dengan satu dokumen latih.

6. Rata-rata Precision, Recall dan F-Measure

Tabel 8 merupakan rata-rata dari hasil perhitungan Precision, Recall dan F-Measure

untuk masing-masing skenario yang dilakukan:

Tabel 8 Rata-rata Precision, Recall dan F-Measure

Skenario Precision Recall F-Measure

1 0.8479 0.9452 0.8915

2 0.8737 0.9408 0.9049

3 0.9387 0.9071 0.9224

4 0.8935 0.9548 0.9223

5 0.9193 0.9548 0.9362

Dari Tabel 8 diatas didapatkan bahwa rata-rata F-Measure terbaik berada pada skenario 5 dengan jumlah data latih sebanyak 500 dokumen dengan nilai 0.9362. Hal ini terjadi karena jumlah data latih yang digunakan lebih banyak dibandingkan dengan skenario 2, 3, 4 atau 5 sehingga nilai F-Measure yang dihasilkan menjadi yang terbaik. Gambar 5 merupakan bentuk grafik dari Tabel 8.

(8)

5.2 Analisis

Dari hasil evaluasi yang telah dilakukan, dapat diketahui bahwa terdapat beberapa faktor yang mempengaruhi ketepatan hasil klasifikasi yang dilakukan dengan menggunakan metode

Improved K-Nearest Neighbor. Dari proses

pengujian yang dilakukan dengan

menggunakan 100 data uji, diketahui bahwa semakin banyak jumlah data latih yang digunakan, maka semakin baik pula nilai F-Measure yang akan dihasilkan. Hal ini dapat dilihat dari peningkatan dari rata-rata nilai F-Measure pada skenario 1 hingga skenario 5.

Rata-rata F-Measure terendah berasal dari skenario 1, hal ini disebabkan karena data latih yang digunakan paling sedikit dan proporsi pada masing-masing kategori memiliki perbandingan yang paling besar dibandingkan dengan skenario yang lain, yaitu kategori spam

sebanyak 225 dokumen dan kategori bukan

spam sebanyak 125 dokumen. Proporsi jumlah data latih dengan perbandingan yang cukup besar akan mengakibatkan dokumen memiliki kecenderungan untuk masuk ke dalam kategori dengan jumlah data latih terbanyak.

Pada skenario 3 dan skenario 4 memiliki rata-rata F-Measure dengan selisih yang sangat sedikit. Skenario 3 memiliki jumlah data latih yang seimbang pada masing-masing kategori, sedangkan skenario 4 memiliki jumlah data latih yang lebih banyak dibandingkan dengan skenario 3 dengan perbandingan kategori spam

sebanyak 270 dokumen dan kategori bukan

spam sebanyak 180 dokumen. Dari dua hasil skenario inilah dapat ditarik kesimpulan bahwa dibutuhkan kecermatan di dalam pemilihan besarnya jumlah data latih yang akan digunakan, sehingga sistem yang dibangun dapat berjalan dengan baik, seimbang dan dapat menghasilkan kategori yang sesuai.

Nilai Precision, Recall dan F-Measure

terendah didapatkan jika nilai k-values yang digunakan terlalu sedikit (k-values awal=2) atau terlalu banyak yang ditunjukkan pada hasil

masing-masing skenario yang dapat

mengakibatkan terjadinya kesalahan pada hasil klasifikasi. Sehingga diperlukan pula kecermatan untuk memilih nilai k-values awal terbaik untuk menghasilkan kategori yang sesuai.

6. KESIMPULAN

Berikut merupakan kesimpulan yang didapatkan dari hasil penelitian Klasifikasi

Spam pada Twitter Menggunakan Metode

Improved K-Nearest Neighbor:

Metode Improved K-Nearest Neighbor

dapat diterapkan dalam proses klasifikasi spam

dengan input yang berupa tweet. Dokumen

tweet tersebut akan melalui beberapa tahapan mulai dari preprocessing, perhitungan term weighting hingga perhitungan cosine similarity

(derajat kemiripan) terhadap data latih yang digunakan. Dilanjutkan dengan mengurutkan tingkat kemiripan, penentuan k-values baru hingga menghasilkan kategori terhadap dokumen.

Proses pengujian penelitian Klasifikasi

Spam pada Twitter Menggunakan Metode

Improved K-Nearest Neighbor menghasilkan rata-rata Precision sebesar 0.8946, Recall

sebesar 0.9405, F-Measure sebesar 0.9155 dan hasil akurasi sebesar 89.57%. Dimana jumlah dokumen, perbandingan atau keseimbangan proporsi data latih dan penentuan nilai k-values

yang digunakan berpengaruh terhadap baik atau tidaknya proses klasifikasi terhadap dokumen berupa tweet.

Skenario untuk membandingkan hasil pengujian Improved K-Nearest Neighbor

dengan K-Nearest Neighbor menggunakan jumlah data latih sebanyak 500 dokumen. Berdasarkan hasil pengujian yang dilakukan dapat disimpulkan bahwa metode Improved K-Nearest Neighbor memberikan hasil yang lebih baik dengan hasil akurasi sebesar 92% dibandingkan dengan menggunakan metode K-Nearest Neighbor dengan hasil akurasi sebesar 88%.

7. DAFTAR PUSTAKA

Baoli, L., Shiwen, Y. dan Qin, L., 2003. An Improved k-Nearest Neighbor Algorithm for Text Categorization. Reading, p.678. Chu, Z., Gianvecchio, S., Wang, H. dan Jajodia,

S., 2012. Detecting Automation of Twitter Accounts: Are You a Human, Bot, or Cyborg? IEEE Transactions on Dependable and Secure Computing, 9(6), pp.811–824.

(9)

Herdiawan, 2015. Analisis Sentimen Terhadap TELKOM Indihome berdasarkan Opini Publik menggunakan Metode Improved K-Nearest Neighbor.

Manning, C.D., Raghavan, P. dan Schutze, H., 2009. An Introduction to Information Retrieval. [online] Cambridge, England: Cambridge University Press. Tersedia di: <http:// www.informationretrieval.org/>. Prayoga, F.A., Pinandito, A. and Perdana, R.S.,

2018. Rancang Bangun Aplikasi Deteksi Spam Twitter menggunakan Metode Naive Bayes dan KNN pada Perangkat

Bergerak Android. Jurnal

Pengembangan Teknologi Informasi dan Ilmu Komputer, 2(2), pp.554–564. Putri, P.A., 2013. Implementasi Metode

Improved K-Nearest Neighbor pada Analisis Sentimen Twitter Berbahasa Indonesia. S1. Universitas Brawijaya. Sianturi, M., Marji dan Sutrisno, 2014.

Perbandingan Kinerja Metode Naïve Bayesian dengan Metode Improved

K-NN dlam Implementasi Sistem

Pengklasifikasian Spam Email.

Stone, B., 2009. What’s Happening. [online] Tersedia di: <https://blog.twitter.com/offi cial/en_us/a/2009/whats-happening.html > [Diakses 26 Oktober 2017].

Teljstedt, E.C., 2016. Separating Tweets from Croaks (Detecting Automated Twitter Accounts with Supervised Learning and Synthetically Constructed Training Data ). [online] Tersedia di:<www.kth.se/csc>. Thomas, K., Grier, C., Paxson, V. dan Song, d., 2011. Suspended Accounts in Retrospect: An Analysis of Twitter Spam. pp.243– 258.

Wahyuningtyas, A., 2016. Deteksi Spam Pada Twitter menggunakan Algoritme Naïve Bayes. S1. Institut Pertanian Bogor. Xiong, F. dan Liu, Y., 2014. Opinion formation

on social media: an empirical approach.

Chaos, Tersedia di: <http://www.ncbi. nlm.nih.gov/pub med/24697392>.