KLASIFIKASI TWEET PADA TWITTER MENGGUNAKAN METODE MULTINOMIAL NAÏVE BAYES STUDI KASUS UNTUK TOPIK PRESIDEN
Nofri Sandra, Evfi Mahdiyah
Mahasiswa Program Studi S1 Sistem Informasi Jurusan Ilmu Komputer
Fakultas Matematika dan Ilmu Pengetahuan Alam Kampus Bina Widya Pekanbaru, 28293, Indonesia
nofri.sandra@student.unri.ac.id
ABSTRACT
Social media invites anyone who is interested to participate by contributing and giving feedback openly, giving comments, and sharing information in a fast and unlimited time.
One of the most widely used and influential social media in Indonesia is Twitter. Twitter usually contains meaningless chatter, conversation, repeated messages or retweets, self- promotion, spam, news and some statements, opinions and expressions. Tweets can contain blasphemous or hate speech and Good Speech. This study aims to build an application to classify user tweets against posts on Twitter social media so that it is known whether the Tweet contains hate speech or not by implementing the multinomial nave Bayes method. Crawling data using the R programming language using the Rstudio tool.
Use the Twitter API to search data with the keyword "president". The data is taken from comments containing keywords using a time filter, namely October 2018 - April 2019.
The application is able to classify tweet data using multinomial nave Bayes with an accuracy of 87,5% based on 400 tweet data by dividing 360 training data and 40 testing data.
Keywords : Application, Good Speech, Hate Speech, Classification, Multinomial Naïve Bayes, Presiden, Twitter
ABSTRAK
Media sosial mengajak siapa saja yang tertarik untuk berpertisipasi dengan memberi kontribusi dan feedback secara terbuka, memberi komentar, serta membagi informasi dalam waktu yang cepat dan tak terbatas. Salah satu media sosial yang paling banyak digunakan dan sangat berpengaruh di Indonesia adalah Twitter. Twitter biasanya berisi celotehan tak berarti, percakapan, pesan berulang atau retweet, promosi diri, spam, berita dan ada juga mengeluarkan pernyataan, pendapat serta ekspresi. Tweet dapat mengandung hujatan atau hate speech dan Good Speech. Penelitian ini bertujuan membangun aplikasi untuk mengklasifikasikan tweet pengguna terhadap post pada media sosial Twitter sehingga diketahui Tweet tersebut mengandung hate speech atau tidak dengan mengimplementasikan metode multinomial naïve bayes. Crawling data menggunakan bahasa pemrograman R menggunakan tool Rstudio. Penggunaan API
Twitter untuk pencarian data dengan kata kunci “presiden”. Data diambil berasal dari komentar yang mengandung kata kunci menggunakan filter waktu, yaitu oktober 2018 - April 2019. Aplikasi mampu melakukan klasifikasi data tweet menggunakan multinomial naïve bayes dengan akurasi yang dihasilkan sebesar 87,5% berdasarkan 400 data tweet dengan pembagian 360 data traning dan 40 data testing.
Kata Kunci : Aplikasi, Good Speech, Hate Speech, Klasifikasi, Multinomial Naïve Bayes, Presiden, Twitter
PENDAHULUAN
Era globalisasi saat ini menyebabkan teknologi semakin maju, sehingga tidak dapat dipungkiri bahwa hadirnya internet semakin dibutuhkan dalam kehidupan sehari- hari, baik dalam bidang komunikasi, sosial, pendidikan, bisnis, maupun bidang yang lainnya. Internet menyediakan berbagai fasilitas, salah satunya media sosial. Media sosial (Social Networking) merupakan media online yang populer dikalangan masyarakat yang dimanfaatkan sebagai sarana pergaulan sosial secara online untuk dapat saling berkomunikasi, berinteraksi dan berbagai kegiatan lainnya.
Media sosial adalah sebuah media online dimana para penggunanya bisa dengan mudah berpartisipasi, berbagi, dan menciptakan isi meliputi blog, social network atau jejaring sosial, wiki, forum dan dunia virtual. Sementara, jejaring sosial merupakan situs dimana setiap orang bisa membuat web page pribadi, kemudian terhubung dengan teman- teman untuk berbagi informasi dan berkomunikasi. Jika media tradisional menggunakan media cetak dan media broadcast, maka media sosial menggunakan internet. Media sosial mengajak siapa saja yang tertarik untuk berpertisipasi dengan memberi kontribusi dan feedback secara terbuka, memberi komentar, serta membagi informasi dalam waktu yang cepat dan tak terbatas.(Putri and Nurwati 2016)
Salah satu media sosial yang paling banyak digunakan dan sangat berpengaruh di Indonesia adalah Twitter. Twitter menurut statistiknya adalah jejaring sosial dengan pertumbuhan tercepat sejak tahun 2006. Jejaring yang dibatasi 140 karakter ini mengirim 250 juta tweet tiap harinya. Menurut MIT Technology Review (2013), Indonesia menempati Negara ketiga penyumbang tweet terbanyak dengan jumlah 1 milyar tweet, di bawah Amerika Serikat (3,7 milyar) dan Jepang (1,8 milyar). Bahkan, Jakarta menjadi Twitter Capital City, yakni kota dengan jumlah tweet terbanyak dan teraktif di dunia.(Monarizqa, Nugroho, & Hantono, 2014)
Di Indonesia sendiri, Twitter biasanya berisi celotehan tak berarti, percakapan, pesan berulang atau retweet, promosi diri, spam, berita dan ada juga mengeluarkan pernyataan, pendapat serta ekspresi. Masyarakat belum banyak memahami perbedaaan antara kebebasan mengekspresikan pendapat dan menyebarkan kebencian, fitnah, ancaman, pencemaran nama baik, pembentukan opini negative. Yang paling populer saat ini adalah Hate speech atau ujaran/ucapan kebencian serta cyber bullying.
Percakapan yang paling umum adalah masalah sara (suku, ras, agama dan antar golongan). Kejahatan ini memiliki potensi mengancam keamanan dan stabilitas negara.
Norma-norma kemasyarakatan seolah hilang dengan perilaku kebebasan berekspresi,
apalagi dengan mudahnya seseorang menuliskan pendapat dan sikapnya di Twitter.
Kalimat Hujatan, umpatan, penistaan dan penodaan mudah sekali tersebar.
Hate Speech atau ujaran kebencian merupakan tindakan baik ucapan atau kata- kata yang menggunakan media tertentu misalnya internet seperti media sosial untuk menghina atau mendiskriditkan orang lain, dengan dalih atau dasar suku, ras, agama, gender, kelompok atau bangsa tertentu. Oleh sebab itu, dibutuhkan suatu cara untuk mengklasifikasikan tweet yang mengandung hujatan atau hate speech, karena semakin maraknya tweet tentang hate speech di media sosial khususnya Twitter. Model klasifikasi tweet berbahasa Indonesia, bisa menjadi masukan untuk pengembangan aplikasi demi meningkatkan pelayanan yang lebih baik serta memberikan kenyamanan bagi penggunanya.
Beberapa penelitian tentang klasifikasi sudah pernah dilakukan, antara lain : tentang klasifikasi kategori terhadap tokoh publik pada Twitter menggunakan metode naïve bayes classifier (Hidayatullah & Sn, 2014), tentang klasifikasi posting tweet mengenai kebijikan pemerintah menggunakan metode naïve bayes classification (Berliana et al., 2018), tentang klasifikasi posting tweet kemacetan kota Bandung menggunakan metode naïve bayes classification (UGM, 2012)
Banyak metode yang dapat digunakan dalam klasifikasi. Salah satu metode tersebut yang digunakan dalam penelitian ini adalah metode multinomial naïve bayes.
Algoritma multinomial naïve bayes adalah pengembangan dari algoritma naïve bayes yang memiliki keunggulan dalam memproses teks. Naïve Bayes yaitu salah satu Teknik klasifikasi yang banyak digunakan untuk klasifikasi teks karena metode ini sangat cepat dan cukup akurat.
Berdasarkan latar belakang diatas, maka penulis berkeinginan membuat penelitian dan menuangkannya dalam bentuk Tugas Akhir dengan judul :
“Klasifikasi Tweet Pada Twitter Menggunakan Metode Multinomial Naïve Bayes Studi Kasus Untuk Topik Presiden ”.
METODE PENELITIAN A. Teknik Pengumpulan Data
Teknik pengumpulan data yang akan digunakan dalam penelitian ini antara lain : 1. Studi Pustaka (Literatur)
Pada tahap ini, penulis mencari dan mempelajari referensi berupa textbook, artikel ilmiah, Skripsi, maupun jurnal yang berkaitan dengan penyusunan Skripsi ini khususnya yang berkaitan dengan klasifikasi tweet dan metode multinomial naïve bayes .
2. Pengumpulan Dataset
Dataset yang akan digunakan dalam penelitian ini adalah public timeline tweet bahasa Indonesia yang merupakan hasil pencarian berdasarkan topik tertentu. Dataset didapatkan dengan cara mengunduh tweet dari situs Twitter dengan memanfaatkan Twitter API dan bahasa R.
B. Peralatan yang Digunakan
Adapun peralatan yang digunakan dalam penelitian ini adalah : 1. Perangkat Keras (Hardware), terdiri dari :
a. Laptop Asus dengan spesifikasi :
▪ Processor Intel(R) Core(TM) i3-2370M CPU @ 2.40GHz
▪ Random Access Memory (RAM) dengan kapasitas 4.00 GB
▪ Harddisk 500 GB
2. Perangkat Lunak (Software), terdiri dari :
a. Sistem Operasi Microsoft Windows 7 Ultimate 64-bit.
b. Microsoft Office Word 2016; untuk pengetikan hasil penelitian.
c. R Studio versi 1.1.419, digunakan untuk mencari data dengan Bahasa pemrograman R.
d. Notepad++ 6.7.4 digunakan untuk membuat aplikasi.
e. Web Server XAMPP versi 1.8.2 sebagai software yang memuat MySQL.
f. Mozilla Firefox untuk web browser localhost.
C. Langkah-langkah Penelitian
Adapun langkah-langkah penelitian yang dilakukan adalah sebagai berikut:
1. Crawling Data
Melakukan crawling atau pengambilan data tweet di Twitter menggunakan Bahasa pemrograman R dengan tool R Studio.
2. Persiapan Data
Tahap ini terdiri dari pelabelan data untuk memberikan kelas klasifikasi pada dataset, menyeimbangkan jumlah setiap kelas data, dan melakukan pembagian data latih (training) dan data uji (testing).
3. Import Dataset
Dataset yang telah disiapkan langsung di-import ke dalam database melalui aplikasi yang telah dibuat.
4. Preprocessing data
Tahapan preprocessing data diperlukan untuk membersihkan sumber data dari data yang tidak diperlukan. Proses ini bertujuan agar data yang digunakan nantinya bersih dari noise atau ciri-ciri yang tidak berpengaruh pada proses-proses selanjutnya seperti link, “@”, “RT”, stopword. Proses preprocessing juga mempunyai tujuan agar data yang digunakan memiliki dimensi yang lebih kecil dan lebih terstruktur, sehingga dapat diolah lebih lanjut
5. Pembobotan Term
Pembobotan term (kata) dimulai dengan perhitungan jumlah kata dalam setiap dokumen, yang kemudian dihitung menggunakan skema pembobotan yang dikehendaki.
6. Klasifikasi Multinomial Naïve bayes
Multinomial Naïve Bayes merupakan metode klasifikasi supervised learning untuk menentukan nilai probabilistik sebuah dokumen terhadap suatu kelas.
7. Evaluasi dengan menggunakan Confusion Matrix
Confusion matrix merupakan salah satu metode yang dapat digunakan untuk mengukur kinerja suatu metode klasifikasi dimana urutan pengujian ditabulasikan dalam matriks.
HASIL DAN PEMBAHASAN A. Analisis Data
Penelitian ini data terdiri dari 3 bagian yaitu, dataset atau data tweet, data KBBI, dan data stopword.
1. Dataset atau Data Tweet
Dataset atau data tweet dalam penelitian ini diperoleh dengan memanfaatkan Twitter API yang disediakan oleh Twitter dan tool Rstudio. Data tweet yang diambil sebanyak 400 data. Data tersebut kemudian dikelompokkan menjadi data training dan data testing.
2. Data Kata Dasar
Data kata dasar didapat dari KBBI 3. Data Stopword
Data stopword didapat dari jurnal Tala (2003) diamana datanya berjumlah 753 data dari Tweet
B. Analisis Sistem
Analisis sistem bertujuan untuk mengidentifikasi permasalahan-permasalahan yang ada pada sistem yang meliputi perangkat lunak (software), pengguna (user) serta hasil analisis terhadap sistem.
Dalam penelitian ini mempunyai 2 tahapan proses yaitu:
1. Tahapan Training
Tahapan training yaitu tahap pengklasifikasian terhadap tweet yang sudah diketahui kategorinya. Tujuan dari tahapan kategorinya. Tujuan dari tahapan training adalah untuk mencari keyword berserta probabilitasnya yang nantinya akan digunakan pada proses testing.
a. Memasukkan tweet training berdasarkan kategori yang tersimpan didalam database
b. Kemudian sistem akan melakukan proses text preprocessing
c. Lalu hasil preprocessing dilanjutkan ke proses pembobotan hingga setiap kata / term memiliki nilai/bobot
2. Tahapan Testing
Tahapan testing yaitu tahap lanjutan setelah tahapan training. Tujuan dari tahapan training adalah untuk memastikan dokumen atau tweet di dimaksud benar atau tidak pengklasifikasian yg dilakukan secara manual.
a. Memasukkan tweet testing yang tersimpan didalam database.
b. Kemudian sistem akan melakukan proses pengklasifikasian menggunakan metode Multinomial Naïve Bayes
ha tespeec h tra i ning
180 da ta
goodspech tra i ning 180 da ta goodspeec
h tes ting 20 da ta ha tespeec h tes ting
20 da ta
c. Lalu hasil testing akan keluar berupa ouput yg menyatakan tweet tersebut adalah goodspeech/hatespeech.
C. Persiapan Dataset
Persiapan Dataset dilakukan sebelum data siap diolah. Tahap ini terdiri dari crawling data, pelabelan dataset, menyeimbangkan jumlah dataset setiap kelas, pembagian dataset, dan import dataset.
4.3.1 Crawling Data
Dalam crawling data menggunakan Bahasa pemrograman R menggunakan tool Rstudio. Dengan menggunakan API Twitter selanjutnya melakukan pencarian data dengan kata kunci “presiden”. Data diambil berasal dari komentar yang mengandung kata kunci menggunakan filter waktu, yaitu dari oktober 2018 sampe April 2019.
Data yang telah diambil menggunakan Bahasa R tersebut lalu dikonversi menjadi dataframe dan kemudian di ekspor dalam format CSV (comma-separated values).
4.3.2 Pelabelan Dataset
Pelabelan dataset dibuat berdasarkan rule, apabila kalimat mengandung pesan yang merujuk pada kebencian ke seseorang atau suatu kelompok maka pelabelanya adalah hatespeech, dan jika tidak mengandung pesan kebencian maka pelabelannya goodpeech
4.3.3 Menyeimbangkan Jumlah Dataset Setiap Kelas
Menghitung jumlah data yang memiliki kelas hatespeech dan goodspeech, kemudian mengambil jumlah kelas terendah, yaitu data kelas hatespeech berjumlah 200. Sehingga data yang dipakai untuk proses selanjutnya adalah data dengan kelas goodspeech berjumlah 200. Jadi total data yang digunakan adalah 400 data tweet yang memiliki jumlah kelas sama.
4.3.4 Pembagian Dataset
Pembagian dataset untuk proses training (pelatihan) dan testing (pengujian) adalah 9 : 1 (9 banding 1). Total data yang digunakan berjumlah 400. Maka 90% dari total data tersebut akan digunakan untuk proses training. Sedangkan sisanya, 10% digunakan untuk proses testing . Rincian pembagian data dapat diliat pada Gambar 1.
Gambar 1 Pembagian data Training dan Testing
D. Import Dataset
Tahap berikutnya adalah mengimport dataset yang telah disiapkan ke database MySQL untuk melakukan processing data menggunakan PHP. Gambar 2 menunjukkan tampilan dalam proses memasukkan dataset ke sistem.
Gambar 4.2 Tampilan Proses Input Dataset
Setelah data di input ke sistem, kemudian lamgsung di upload kedalam database MySQL.
Kemudian dataset tersebut akan melewati proses selanjutnya yaitu preprocessing data.
E. Preprocessing Data
Pada tahap ini, akan dilakukan pembersihan terhadap data pada setiap dokumen sesuai dengan tahap preprocessing sehingga menghasilkan data yang siap untuk masuk ke proses selanjutnya. Table 4.1 dibawah ini menggambarkan bagaimana contoh tweet sebelum melalui tahap preprocessing dan bagaimana hasilnya setelah dilakukan proses case folding, cleansing, tokenizing, stemming, dan juga stop removal.
F. Pembobotan Term
Pada tahap ini, setiap kata akan diberikan bobot atau nilai. Pembobotan dilakukan dengan menghitung berapa kali suatu kata atau term muncul pada sebuah dokumen, sehingga akan diperoleh jumlah kemunculan setiap kata tersebut dari semua dokumen yang kemudian jumlah itu akan berfungsi sebagai nilainya. Pembobotan hanya dilakukan pada data training sedangkan data testing tidak melewati tahap ini, Hasil pembobotan TF dapat dilihat pada Tabel 4.2.
id kata Probabilitas goodspeech Probabilitas hatespeegh
1 mau 0.043005 0.0768564
2 kerja 0.043005 0.0768564
3 pamer 0.043005 0.0768564
4 bilang 0.043005 0.0768564
Tabel 4.2 Hasil Pembobotan TF G. Klasifikasi
Pada tahap ini sistem akan mengklasifikasin data testing yang telah di import menggunakan metode multinomial naïve bayes sehingga hasilnya dapat dilihat pada Gambar 4.3 dibawah
Gambar 3 Hasil klasifikasi menggunakan metode multinomial naïve bayes
5 hasil 0.043005 0.105739
6 utang 0.043005 0.0768564
7 negara 0.043005 0.0768564
8 presiden 0.053751 0.0599609
9 pilih 0.0559508 0.0624149
10 dungu 0.043005 0.0768564
11 mampu 0.043005 0.0768564
12 bagus 0.0688966 0.0479735
13 jalan 0.0688966 0.0479735
14 lemah 0.0688966 0.0479735
15 tunjuk 0.0688966 0.0479735
16 langsung 0.0688966 0.0479735
17 gagal 0.0688966 0.0479735
18 suara 0.0688966 0.0479735
19 keras 0.0688966 0.0479735
20 hidup 0.0688966 0.0479735
21 rakyat 0.0688966 0.0479735
22 ramah 0.0688966 0.0479735
23 bisa 0.0688966 0.0479735
24 main 0.0688966 0.0479735
25 canda 0.0688966 0.0479735
H. Evaluasi menggunakan Confusion matrix
Selanjutnya melakukan evaluasi perhitungan akurasi metode menggunakan confusin matrix. Pembagian dataset dalam penelitian ini ada 9 : 1 yaitu dari 400 dataset menjadi 360 data traning dan 40 data testing , yang akhinya memperoleh hasil seperti tabel dibawah ini
Tabel 4.3 Hasil confusion matrix Kelas Sebenarnya
Kelas Prediksi Metode
Positif Negatif
Positif 19 1
Negatif 4 16
Berdasarkan Tabel 4.3 maka dapat dihitung tingkat akurasinya dengan persamaan berikut :
Akurasi = 𝐽𝑢𝑚𝑙𝑎ℎ 𝑡𝑤𝑒𝑒𝑡 𝑦𝑎𝑛𝑔 𝑏𝑒𝑟ℎ𝑎𝑠𝑖𝑙 𝑑𝑖𝑘𝑙𝑎𝑠𝑖𝑓𝑖𝑘𝑎𝑠𝑖
𝐽𝑢𝑚𝑙𝑎ℎ 𝑑𝑎𝑡𝑎 𝑡𝑒𝑠𝑡𝑖𝑛𝑔 x 100%
= 𝟑𝟓𝟒𝟎 x 100% = 87,5%
KESIMPULAN
Berdasarkan penelitian yang telah dilakukan, maka dapat diambil kesimpulan sebagai berikut:
1. Penelitian ini menghasilkan aplikasi yang dapat digunakan untuk melakukan klasifikasi tweet pada twitter menggunakan metode multinomial naïve bayes.
2. Aplikasi mampu melakukan klasifikasi data tweet menggunakan multinomial naïve bayes dengan akurasi yang dihasilkan sebesar 85% berdasarkan 400 data tweet dengan pembagian 360 data traning dan 40 data testing.
UCAPAN TERIMA KASIH
Penulis mengucapkan terima kasih kepada Ibu Evfi Mahdiyah, S.Kom., MIT yang telah membimbing, memotivasi serta membantu penelitian dan penulisan karya ilmiah ini.
DAFTAR PUSTAKA
Barus, E. E., Suprapto, & Herlambang, D. A. (2018). Analisis Kualitas Website Tribunnews.com Menggunakan Metode Webqual 4.0 dan Importance Performance Analysis. Jurnal Informatika Universitas Pamulang, 2, 1483–1491.
https://doi.org/10.32493/informatika.v6i1.8130
Jamiansyah, H. (2018). Analisis Kualitas Layanan E-Government Dengan Menggunakan E- Govqual (Vol. 10, Issue 2). UIN Raden Fatah PAlembang.
Saputra, R. A., Suprapto, & Rachmadi, A. (2018). Penilaian Kualitas Layanan E-Government Dengan Pendekatan Dimensi EGovqual dan Importance Performance Analysis (IPA) (Studi Kasus Pada Pemerintah Provinsi Nusa Tenggara Barat). Jurnal Pengembangan Teknologi Informasi Dan Ilmu Komputer, 2(5), 1794–1802.
Setiyorini, A. (2018). Evaluasi Website dengan E-Govqual. Jurnal Informasi Interaktif, 3(1), 77–153.
Sugiyono. (2017). Metode Penelitian Kuantitatif, Kualitatif, dan R&D (26th ed.). Alfabeta.
Sulaiman, A. H., Aryadita, H., & Pinandito, A. (2018). Evaluasi Kualitas Layanan Website Pemerintah Kota Batu dengan Metode E-Govqual dan Importance Performance Analysis ( IPA ). Jurnal Pengembangan Teknologi Informasi Dan Ilmu Komputer (J-PTIIK) Universitas Brawijaya, 2(2), 493–502.