• Tidak ada hasil yang ditemukan

Klasifikasi Jenis Berita pada Sosial Media Twitter menggunakan Algoritme Support Vector Machine (SVM)

N/A
N/A
Protected

Academic year: 2021

Membagikan "Klasifikasi Jenis Berita pada Sosial Media Twitter menggunakan Algoritme Support Vector Machine (SVM)"

Copied!
9
0
0

Teks penuh

(1)

Fakultas Ilmu Komputer

Universitas Brawijaya

1906

Klasifikasi Jenis Berita pada Sosial Media Twitter menggunakan Algoritme Support Vector Machine (SVM)

Faturrahman M Suryana1, Imam Cholissodin2, Edy Santoso3

Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya Email: 1[email protected], 2[email protected], 3[email protected]

Abstrak

Twitter merupakan jejaring sosial yang dari dulu sampai sekarang masih disukai oleh masyarakat Indonesia. Tidak hanya sekedar media untuk berkomunikasi, kini Twitter menjadi satu dari beberapa sarana penyampaian berita yang sangat cepat. Salah satu informasi yang disebarkan melalui sosial media Twitter adalah berita. Hal ini dibuktikan dengan banyaknya pengikut pada akun Twitter media pemberitaan online seperti media pemberitaan online @detikcom yang memiliki lebih dari lima belas juta pengikut pada akun Twitternya. Saat ini, cuitan berita pada sosial media Twitter tidak dikategorikan berdasarkan kategori bahasan dalam berita tersebut. Penelitian ini dilakukan untuk mengklasifikasikan jenis berita pada sosial media Twitter untuk memudahkan pengguna Twitter dalam melakukan pencarian berita berdasarkan kategori yang dicari. Algoritme Support Vector Machine (SVM) ialah salah satu algoritme yang bisa diaplikasikan untuk melakukan klasifikasi. Penelitian ini memakai algoritme SVM multiclass one against all dengan jumlah kelas sebanyak 5 jenis kelas.

Sebelum masuk pada proses algoritme SVM, proses pertama ialah melakukan proses preprocessing dan menghitung bobot TF-IDF terlebih dahulu. Parameter yang digunakan yaitu perbandingn rasio data latih dan uji 90%:10%, lambda = 0.1, complexity = 0.001, learning rate = 0.0001, dan epsilon = 0.0001. Hasil yang didapatkan dari penelitian ini ialah nilai akurasi rata-rata 0.85.

Kata kunci: klasifikasi, support vector machine, one against all, berita, twitter Abstract

Twitter is a social media that is still very popular in Indonesia. Not just for communication, Twitter now become one of the fastest way of spreading information. One of information that disseminated by Twitter is news. This thing is proven by the large number of followers in online news media’s Twitter account such as @detikcom that has over fifteen million followers on its Twitter account. Nowadays, news tweets on Twitter are not categorized into categories based on the discussion in that news. This research is conducted to classify the categories of the news on Twitter to make user easily find the category of the news that users want to find. One of algorithm that can be applied to do classification is Support Vector Machine (SVM). This research use multi-class SVM algorithm with one against all method with classes as many as 5 type of classes. Before proceeding to SVM algorithm process, preprocessing and term weighting is processed first. Parameter-parameter that are used by this research are ratio of training data and test data 90%:10%, lambda = 0.1, complexity = 0.001, learning rate = 0.0001, and epsilon = 0.0001. The average accuracy value in this research is 0.85.

Keywords: classification, support vector machine, one against all, news, twitter

1. PENDAHULUAN

Berita adalah hal yang tidak bisa dipisahkan dalam keseharian manusia. Setiap kejadian yang terjadi pasti akan diliput oleh berbagai kantor berita. Berita di Indonesia terus mengalami perkembangan seiring dengan berkembangnya media cetak di Indonesia

semenjak permulaan abad ke-20 sampai dengan saat ini. Pada permulaan abad ke-21, media penyampaian berita terus berevolusi dengan hadirnya berita dengan media online.

Situs web, tv-online, dan surat elektronik merupakan sebuah media yang berbasiskan online yang memiliki kegunaannya tersendiri yang dapat dimanfaatkan oleh pengguna. Pada

(2)

tahun 1994, Repulika Online hadir di internet untuk pertama kali sekaligus menjadi yang pertama yang ada di dunia internet Indonesia.

Selang dua tahun kemudian yaitu tahun 1996, Tempo dan Bisnis Indonesia hadir. Dan pada tahun 1997 Kompas Online hadir. Kemudian pada tahun 1998 Detik hadir sebagai pengubah permainan media online. Detik hadir bukan berawal dari media cetak, melainkan media online independent. Penggagas dari Detik.com, Budiono membuat sebuah hal yang baru dengan mengenalkan ragam berita baru: ringkas to the point.

Setelah lama dengan konsep media online yang sudah ada, pada tahun 2008 konsep media online yang baru mulai bermunculan dengan hadirnya media-media online yang baru.

Dengan adanya hal tersebut, berbagai media online melakukan perubahan pada situs mereka menjadi lebih atraktif (Miranda, 2017).

Dengan semakin ketatnya persaingan media online, para penggagas media online pun turut menjajal ranah sosial media atau sosmed untuk mencapai target pembaca yang lebih banyak seiring dengan bertambahnya jumlah pengguna sosial media di Indonesia setiap tahunnya. Dari sekian banyak jejaring sosial yang ada, salah satu jejaring sosial yang banyak digunakan ialah jejaring sosial Twitter. Berita pada media online dalam bentuk website dikemas menjadi sebuah tweets dengan tautan berita yang tidak lebih dari 140 karakter.

Namun, pada sosial media Twitter, berita tidak dikategorikan Mengacu pada kategori bahasan dalam berita tersebut misalnya seperti berita politik, hiburan, ataupun otomotif.

Pengguna Twitter harus melakukan scroll pada akun Twitter media online untuk mendapatkan berita dengan kategori yang mereka inginkan.

Pengguna Twitter diharuskan mencari berita dengan fitur search, hal ini tentu sangat merepotkan bagi pengguna Twitter karena berita yang dicari berdasarkan keyword judul berita yang dicari. Pada penelitian ini dibuat satu fitur yang memungkinkan pengguna melihat berita sesuai kategori yang diinginkan dengan hanya menekan tombol yang dapat menampilkan berita sesuai kategori yang diinginkan. Maka dari itu, dilakukanlah klasifikasi berdasarkan judul berita yang diunggah pada akun Twitter media online untuk memudahkan pengguna media sosial Twitter dalam melakukan pencarian berita berdasarkan kategori yang dicari.

Untuk melakukan klasifikasi kategori

berita berdasarkan status Twitter, dapat menggunakan metode supervised learning yaitu Support Vector Machine (SVM) method. Untuk memprediksikan sesuatu, metode ini merupakan metode baru. Pada Conference on Learning Theory (COLT) yang dilakukan oleh Boser, Bernhard, Guyon dan Vapnik pada tahun 1992, metode SVM diperkenalkan (Premanode dan Toumazou, 2013). Untuk melakukan klasifikasi dan regresi menggunakan metode jenis supervised learning dapat dilakukan menggunakan metode SVM (Sewell dan Shawe-Taylor, 2012).

2. LANDASAN KEPUSTAKAAN 2.1. Kajian Pustaka

Dalam melakukan penelitian ini, penelitian pertama yang menjadi referensi kajian pustaka ialah penelitian yang sudah lebih dahulu dilakukan oleh Pratama dan Trilaksono (2015), yang membahas tentang keluhan pelanggan yang datanya diambil dari Twitter. Metode yang digunakan adalah penggabungan feature hasil ekstraksi pada metode SVM. Hasil yang didapat adalah akurasi klasifikasi bentuk keluhan 83,33%, klasifikasi jenis keluhan 89,17%, precision klasifikasi bentuk keluhan 83,67%, klasifikasi jenis keluhan 89,76%, recall klasifikasi bentuk keluhan 83,33%, klasifikasi jenis keluhan 89,17%, dan f-measure klasifikasi bentuk keluhan 83,29%, klasifikasi jenis keluhan 89,34%.

Selanjutnya penelitian yang dilakukan Asiyah dan Fithriasari (2016). Penelitian ini membahas tentang pengklasifikasian berita online dengan membandingkan dua metode yaitu SVM dan K-Nearest Neighbor. Hasil perbandingan SVM dengan KNN adalah SVM mendapatkan akurasi total 93.2%, recall 93.2%, precision 93.63%, dan F-Measure 93.14%. Dan KNN mendapatkan akurasi total 60%, recall 60%, precision 81.15%, dan F-Measure 68.90%. Dengan hasil yang didapat, maka SVM lebih baik dibandingkan dengan KNN untuk proses klasifikasi.

Srivastava dan Bhambhu (2010) melakukan penelitian tentang perbandingan 4 kernel, yaitu linear, polynomial, sigmoid dan RBF. Hasil yang didapat yaitu kernel yang memperoleh hasil lebih baik adalah kernel RBF.

Penelitian selanjutnya ada penelitian yang telah dilakukan terlebih dahulu oleh

(3)

Fakultas Ilmu Komputer, Universitas Brawijaya

Prayoginingsih dan Kusumawardani (2018) tentang pengklasifikasian tweet berdasarkan kategori yang ada pada aplikasi myTelkomsel.

Hasil dari penelitian ini adalah sistem ini berhasil mengklasifikasikan tweet sesuai dengan kategori yang ada di myTelkomsel dengan baik. Berdasarkan 6 percobaan yang dilakukan, didapatkan hasil dari setiap percobaan memiliki performa yang baik.

Penelitian terakhir yang digunakan sebagai kajian pustaka pada penelitian ini adalah tentang pengklasifikasian teks dengan metode SVM Mixture of Kernel yang dilakukan oleh Wei, Wei dan Wang (2012). Penelitian ini mendapatkan hasil nilai Precision, Recall, dan F1 dari 10 kategori cukup baik. Namun pada kategori military, didapatkan nilai yang lebih rendah dari kategori lainnya.

2.2. Berita

Berita merupakan keterangan, laporan, ataupun pemberitahuan tentang suatu kejadian yang hangat/baru saja terjadi (Kamus Besar Bahasa Indonesia (KBBI), 2019). Menurut Cambridge Dictionary (2019b) berita adalah laporan informasi tentang kejadian penting yang terjadi di dunia, di suatu negara, ataupun area tertentu/lokal. Penyampaian berita adalah dengan memakai media. Media terbagi menjadi media cetak dan media elektronik. Koran dan majalah adalah contoh media cetak, sedangkan media elektronik seperti televisi dan internet (Amani, 2015).

2.3. Media Sosial

Media sosial merupakan situs web yang bisa membuat profile dan memungkinkan pengguna berhubungan dengan pengguna lainnya (Boyd dan Ellison, 2007). Menurut (Kietzmann et al., 2011) social media merupakan sebuah aplikasi yang dibangun berbasis web yang mampu berbagi, berhubungan, membuat grup, mmembuat profile dan berkomunikasi.

2.4.1 Twitter

Twitter adalah media sosial yang mana dalam penggunaannya, media sosial ini mengizinkan pengguna untuk memberikan informasi secara real-time dengan cara memposting komentar ataupun pendapatnya tentang kejadian yang sedang terjadi (Maclean et al., 2013). Pada media sosial Twitter pengguna dapat mengirim dan membaca pesan

atau tweet. Untuk membuat tweet, pengguna dapat memuat maksimal 140 karakter.

Pembatasan 140 karakter tersebut ditambah menjadi 280 karakter pada tahun 2017 (Rosen, 2017).

2.4. Pre-processing

Langkah awal sebelum melakukan tahapan selanjutnya dalam melakukan klasifikasi adalah Preprocessing. Dokumen teks disiapkan untuk kemudian dijadikan data yang bisa diproses untuk proses pada tahapan selanjutnya (Perdana, Suprapto and Regasari, 2013).

2.4.1 Case Folding

Tahapan case folding ialah proses diamana seluruhhhuruf diganti menjdi huruf kecil.

Karakter yang diterima hanya karakter berupa huruf ‘a’ sampai dengan huruf ‘z’. Proses case folding akan menghilangkan karakter selain karakter tersebut karena dianggap sebagai delimiter (Langgeni, Baizal and W, 2010).

2.4.2 Stopword Removal

Stopword removal merupakan tahapan untuk menghiangkan kata pada kalimat dengan frekuensi kemunculan yang sering muncul dan kata tersebut tidak berpengaruh pada makna dari keseluruhan kalimat (Perdana, Suprapto and Regasari, 2013).

2.4.3 Stemming

Proses Stemming ialah proses dimana kata akan dirubah ke kata aslinya, proses ini dilakukan dengan menggunakan suatu aturan.

Stemming dalam Bahasa Indonesia cukup susah untuk dilakukan, karena memiliki imbuhan yang rumit/kompleks. Algoritma Porter, Algoritma Nazief & Adriani merupakan algoritma stemming dalam Bahasa Indonesia (Agusta, 2009).

2.4.4 Tokenisasi

Tokenisasi ialah suatu proses dimana suatu kalimat akan dipecah menjadi potongan kata berdasarkan kalimat penyusunnya (Langgeni, Baizal and W, 2010).

2.5. Pembobotan Term Frequency-Inverse Document Frequency (TF-IDF)

Pembobotan TF-IDF merupakan Teknik dimana setiap kata yang paling sering digunakan akan dihitung bobotnya. Teknik ini

(4)

efektif, mudah dan menghasilkan akurasi yang tinggi. Teknik ini akana mengkalkulasikan nilai TF dan IDF untuk masing-masing kata pada keseluruhan dokumen (Maarif, 2015). Rumus pembobotan TF-IDF ditunjukkan pada Persamaan 1, 2, dan 3.

𝑊𝑡𝑓𝑡,𝑑= {1 + 𝑙𝑜𝑔10 𝑡𝑓𝑡,𝑑, 𝑡𝑓𝑡,𝑑 > 0

0, 𝑡𝑓𝑡,𝑑 = 0 (1)

𝑖𝑑𝑓𝑡= 𝑙𝑜𝑔10(𝑁

𝑑𝑓𝑡) (2)

𝑊𝑡,𝑑= 𝑊𝑡𝑓𝑡,𝑑 𝑥 𝑖𝑑𝑓𝑡 (3) Keterangan:

𝑑

= dokumen ke d 𝑡

= kata ke t dari keyword

𝑊𝑡𝑓𝑡,𝑑 = nilai bobot kata pada tiap dokumen 𝑡𝑓𝑡,𝑑 = jumlah frekuensi kata t pada

dokumen d

𝐷

= jumlah semua dok

𝑑𝑓

= banyak dok yang mengandung kata yang dicari

𝑖𝑑𝑓𝑡 = nilai bobot inverse dari nilai df 𝑊𝑡,𝑑 = bobot TF-IDF

2.6. Klasifikasi

Proses klasifikasi ialah suatu langkah dimana suatu data akan dikelompokkan menjadi suatu kelas dengan cara melihat pola yang ada pada kelas tersebut. Agar dapat melakukan langkah yang ada pada klasifikasi, maka diberikan suatu data yang akan dipakai untuk menjadi acuan untuk pembuatan aturan dalam mengklasifikasikan suatu data (Kurniawaty, Cholissodin and Adikara, 2018).

2.7. Support Vector Machine (SVM)

SVM ialah salah satu metode mesin pembelajaran atau machine learning. Metode ini bekerja berdasarkan prinsip dari Structural Risk Minimization (SRM) yang tujuannya untuk mendapatkan pemisah/hyperplaen paling baik yang akan terbagi menjadi dua pokok kelas pada input space (Nugroho, Witarto and Handoko, 2003). Untuk memecahkan suatu permasalahan klasifikasi, metode terbaik yang dapat digunakan salah satunya adalah SVM.

Klasifikasi menjadi dua pokok kelas menjadi awal pembentukan konsep SVM. Dalam metode SVM, dibutuhkan training set positif dan training set negatif. SVM memisahkan dua kelas dengan menemukan hyperplane/pemisah

terbaik. Metode SVM memiliki 2 fungsi, yaitu linear untuk mengkategorikan data dalam bentuk linear dan untuk mengkategorikan data dalam bentuk non-linear metode ini memiliki fungsi kernel (Pratama, Arif, 2018). Rumus untuk menentukan hyperplane ditunjukkan pada Persamaan 4.

𝑤. 𝑥 + 𝑏 = 0 (4)

Keterangan:

𝑤 = parameter yang dicari 𝑥 = data input

𝑏 = nilai bias (parameter yang dicari) Pada klasifikasi menggunakan metode SVM terbagi menjadi 2 metode yaitu metode SVM non-linear dan linear. SVM non-linear terbagi lagi menjadi beberapa macam, yaitu kernel gaussian RBF, polinomial, additive, dan sigmoid (Cholissodin, Soebroto and Hidayat, 2015). Untuk penelitian ini, metode yang dipakai adalah kernel polinomial. Rumus kernel polinomial di Persamaan 5.

𝐾(𝑥, 𝑦) = (𝑥. 𝑦 + 1)𝑝 (5) Keterangan:

𝐾(𝑥, 𝑦)= kernel polynomial 𝑥

= data ke-x

𝑦

= data ke-y

𝑝 = pangkat

Selanjutnya akan dijelaskan langkah- langkah training pada metode Support Vector Machine (SVM) ini.

1. Inisialisasi beberapa parameter, yaitu:

a. 𝛼 = alpha(untuk menentukan bobot positif dan negatif

, 𝛼

= 0)

b. 𝛾

=

gamma (untuk perhitungan

nilai delta alpha,𝛾= 0,0001)

c. 𝐶

= complexity (untuk perhitungan nilai delta alpha,𝐶= 1) d. 𝜀 = epsilon (untuk batas

perulangan nilai delta alpha, 𝜀 = 0,0001)

2. Hitung kernel polynomial dengan menggunakan rumus pada Persamaan 5 di atas.

3. Hitung matrix hessian yang dinyatakan pada Persamaan 2.6.

[𝐷]𝑖𝑗= 𝑦𝑖𝑦𝑗(𝐾(𝑥, 𝑦) + λ2 (6) Keterangan:

[𝐷]

𝑖𝑗 = matrix hessian

𝑦

𝑖

= kelas data ke-i

(5)

Fakultas Ilmu Komputer, Universitas Brawijaya

𝑦

𝑗

= kelas data ke-j Λ

= lambda

4. Hitung error rate, delta alpha, dan alpha sampai batas iterasi.

a. Error rate

𝐸𝑖 = ∑𝑗=1𝑛 𝛼𝑖𝐷𝑖𝑗 (7) Keterangan:

𝐸𝑖 = error rate 𝛼𝑖 = alpha ke-i b. Delta alpha

𝛿𝛼𝑖 = min {max[𝛾(1 − 𝐸𝑖), −𝛼𝑖], 𝐶 − 𝛼𝑖} (8) Keterangan:

𝛿𝛼

𝑖 = delta alpha

𝛾

= gamma c. Alpha

𝛼𝑖 = 𝛼𝑖+ 𝛿𝛼𝑖 (9)

5.

Tentukan 𝛼𝑖𝑚𝑎𝑥 kelas bernilai positif dan 𝛼𝑖𝑚𝑎𝑥kelas bernilai negatif.

6. Hitung nilai bobot (w).

𝑤. 𝑥+= 𝐾(𝑥. 𝑦+). max(𝛼𝑖+) . 𝑦𝑖 (10) 𝑤. 𝑥= 𝐾(𝑥. 𝑦). max(𝛼𝑖) . 𝑦𝑖 (11)

Keterangan:

𝑤. 𝑥+ = nilai bobot (𝑤) kelas bernilai positif

𝑤. 𝑥 = nilai bobot (𝑤) kelas bernilai negatif

𝐾(𝑥. 𝑦+) = kernel kelas 𝛼𝑖𝑚𝑎𝑥 positif 𝐾(𝑥. 𝑦) = kernel kelas 𝛼𝑖𝑚𝑎𝑥 negatif 7. Hitung nilai bias.

𝑏 = −1

2(∑𝑤. 𝑥++ ∑𝑤. 𝑥) (12) Setelah proses pelatihan/training dilakukan, selanjutnya melakukan proses uji/testing dengan melakukan perhitungan fungsi f(x) yang dinyatakan pada Persamaan 13.

𝑓(𝑥) = 𝑠𝑖𝑔𝑛(∑𝑖=1𝑚 𝛼𝑖𝑦𝑖𝐾(𝑥, 𝑦) + 𝑏) (13)

2.8. One Against All

Penggunaan algoritme SVM dalam penelitian ini dengan memakai 5 kelas mengakibatkan suatu permasalahan, dimana pada dasarnya metode SVM hanya terbagi ke dalam 2 kelas, yakni kelas bernilai positif dan kelas bernilai negatif. Permasalahan ini dapat

diselesaikan dengan dua jenis pendekatan, yaitu pendekatan One-Against-All (OAA) dan One- Against-One (OAO). Pada penelitian ini penulis menggunakan 5 kelas, maka dari itu penyelesaian masalah ini menggunakan pendekatan OAA. Pendekatan One Against All ini menyelesaikan permasalahan SVM multiclass dengan membuat kelas pada data ke-i memiliki nilai positif dan data yang tidak pada kelas ke-i memiliki nilai negatif (Mase, Furqon and Rahayudi, 2018). Contoh permasalahan SVM dengan 5 kelas ditunjukkan pada Tabel 1.

Tabel 1. Contoh Pendekatan One Against All

2.9. Evaluasi

Evaluasi merupakan penilaian terhadap sesuatu berdasarkan kualitasnya (Cambridge Dictionary, 2019a). Dalam mengevaluasi hasil klasifikasi terdapat beberapa metode, salah satunya evaluasi akurasi klasifikasi ynag pada penelitian ini digunakan. Akurasi merupakan probabilitas hasil prediksi yang benar dari kelas yang tidak terdapat label (Galdi and Tagliaferri, 2019). Perhitungan nilai akurasi ditunjukkan pada Persamaan 14.

𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =𝐽𝑢𝑚𝑙𝑎ℎ 𝐷𝑎𝑡𝑎 𝐵𝑒𝑛𝑎𝑟

𝐽𝑢𝑚𝑙𝑎ℎ 𝐷𝑎𝑡𝑎 (14) 3. PERANCANGAN

3.1. Deskripsi Umum Sistem

Sistem yang dibuat memiliki deskripsi umum sebagai berikut, memasukkan data yang dipakai. Setelah menginputkan data yang dipakai, proses pertama pada sistem ini ialah dengan melakukan pre-processing teks untuk memproses data supaya bisa diproses pada algoritme SVM ini. Selanjutnya setiap kata diberikan bobot pada proses pembobotan TF- IDF. Setelah setiap kata mendapatkan bobot, akan dilanjutkan proses pengklasifikasian denganmalgoritme Support VectormMachine.

Karena pada penelitian ini terdapat 5 kelas, maka ada proses tambahan yaitu One Against All yang akan menunjukkan suatu data akan masuk pada kategori berita olahraga, otomotif,

(6)

ekonomi, teknologi, atau travel. Tahap-tahap deskirpsi umum sistem dapat dilihat pada Gambar 1.

Mulai

Data Latih dan Data Uji

Pre-Processing

Pembobotan TF-

IDF

Support Vector Machine

One-Against-All

Hasil Klasifikasi

Selesai

Gambar 1. Deskripsi Umum Sistem 3.2. Pre-Processing

Pre-processing ialah proses yang dilakukan pertama kali dalam proses klasifikasi. Pre- processing ini tujuannya untuk mengolah data teks untuk dapat diolah pada proses selanjutnya.

3.3. Pembobotan TF-IDF

Setelah langkah awal selesai, langkah berikutnya melakukan pembobotan setiap kata menggunakan Term Frequency-Inverse

Document Frequency (TF-IDF). Proses ini merupakan teknik untuk menghitung bobot dari setiap kata yang paling sering digunakan.

3.4. Support Vector Machine

Algoritme Support Vector Machine merupakan langkah akhir pada proses pengklasifikasian. Setelah mendapatkan bobot pada setiap kata, akan dilakukan proses untuk mendapatkan hasil klasifikasi.

3.4. One Against All

Dikarenakan pada penelitian ini menggunakan 5 kelas, maka ada tambahan proses one-against-all ini. Proses ini melakukan pengecekan pada level 1 apakah hasil testing samadengan 1 atau tidak. Jika belum samadengan 1, proses dilanjut pengecekan level 2 dan seterusnya sampai mencapai level 4. Jika pada level 4 masih tidak samadengan 1, maka hasil dari klasifikasinya adalah kelas 5.

4. HASIL DAN PEMBAHASAN 4.1 Pengujian Rasio Perbandingan

Dilakukan pengujian rasio perbandingan supaya bisa mendapatkan hasil komparasi data yang mempunyai nilai akurasi paling tinggi.

Rasio perbandingan dengan rerata tertinggi dari akurasi akan dipakai dalam pengujian setelahnya. Pengujian ini melakukan pengujian dengan menguji komparasi data latih dengan data uji. Komparasi yang diujikan dengan ketentuan datamlatih dan datamuji sebesar 90%:10% sampai 10%:90%. Parameter yang dipakai ialah nilai Complexity = 1,mLambda = 0.5, LearningzRate = 0.0001, dan Epsilon = 0.0001. Berikut adalah perolehan pengujian rasio perbandingan yang digambarkan pada Gambar 6.

Gambar 2. Grafik Hasil Pengujian Rasio Perbandingan

Pada Gambar 6 didapatkan perolehan dari

0.85 0.80

0.73 0.69

0.69 0.65

0.58

0.45 0.36

0.00 0.20 0.40 0.60 0.80 1.00

90:10 80:20 70:30 60:40 50:50 40:60 30:70 20:80 10:90

Akurasi

Rasio Perbandingan (%)

(7)

Fakultas Ilmu Komputer, Universitas Brawijaya

pengujian rasio perbandingan yaitu perbandingan rasio cukup mempengaruhi hasil rata-rata akurasi yang didapatkan. Bisa dilihat bahwa akurasinya cenderung mengalami penurunan dari rasio perbandingan 90%:10%

sampai rasio perbandingan 10%:90%.

Ini dapat terjadi karena data yagn dipakai sebagai data latih semakin banyak, maka data uji akan semakin dapat mencari data yang sesuai. Oleh karena itu, akurasi akan semakin baik pula. Dari semua rasio perbandingan, nilai akurasi cenderung menurun. Ini terjadi karena data yang dipakai sebagai data latih semakin sedikit, sehingga data uji semakin sedikit memiliki pilihan yang sesuai. Rasio perbandingan yang dipakai pada pengujian selanjutnya ialah rasio perbandingan 90%:10%.

4.2 Pengujian Nilai Lambda

Pengujian nilaimlambda tujuannya utnuk mengetahui nilaimlambda yang mendapatkan hasil accuracy paling tinggi. Dalam melakukan pengujian ini, dilakukan dengan cara menguji nilai lambda yang ditentukan. Nilai lambda dengan akurasi nilai rata-rata paling tinggi akan dipakai untuk pengujian selanjutnya.

Perbandingan yang diujikan dengan ketentuan Lambda = 0.1, 0.3, 0.5, 1, 1.5, 2, 2.5, 3, dan 3.5.

Parameter yang dipakai ialah nilai Complexity = 1, Learning Rate = 0.0001, Epsilon = 0.0001 dan rasio perbandingan 90%:10%. Berikut ialah hasil dari pengujian nilai lambda yang digambarkan pada Gambar 7.

Gambar 3. Grafik Hasil Pengujian Nilai Lambda Berdasarkan Gambar 7, nilai lambda makin besar maka akurasi rata-rata menjadi semakin rendah. Penyebab dari hal ini ialah kerana apabila semakin besar suatu nilai lambda, maka akan semakin lama juga jalannya komputasi pada bagian matrix hessian. Hal ini bisa memicu terbentuknya augmented factor yang membuat sistem menjadi lama untuk mendapatkan nilai konvergen sehingga

menyebabkan tidak stabilnya proses pembelajaran (Vijayakumar and Wu, 1999).

Nilai lambda yang dipakai dalam pengujian selanjutnya ialah lambda = 0,1.

4.3 Pengujian Nilai Complexity

Pengujianmicomplexity tujuannya untuk mengetahui nilai complexity yang mendapatkan hasil akurasi rata-rata paling tinggi. Pengujian ini dilakukan degan mengetes nilai complexity yang ditentukan. Nilai complexity yang memiliki akurasi rata-rata paling tinggi akan dipakai dalam pengujian selanjutnya.

Perbandingan yang diujikan dengan ketentuan Complexityb= 0.00001, 0.0001, 0.001, 0.01, 0.1, 1, 50, 100, dan 200. Parameter yang digunakan ialah nilai Lambda = 0.1, Learning Rate = 0.0001, Epsilon = 0.0001 dan rasio perbandingan 90%:10%. Berikut ialah hasil dari pengujiannnilai complexity yang digambarkan pada Gambar 8.

Gambar 4. Grafik Hasil Pengujian Nilai Complexity Berdasarkan Gambar 8, jika nilai complexity semakin besar maka akurasi rata- rata menjadi semakin tinggi. Hal ini dikarenakan saat nilai complexity menjauh dari nilai 0, maka pemisah akan menjadi lebih besar/lebar. Karena parameter complexity bertujuan untuk meminimalisir terjadinya nilai eror. Semakin besar suatu nilai complexity, maka akan memiliki dampak yang besar pada nilai error terhadap hasil klasifikasi (Nugroho, Witarto and Handoko, 2003).

4.4 Pembahasan

Berdasarkan pengujian yang sudah dilakukan, rerata akurasi tertinggi yang didapat ialah 0,85. Salah satu contoh tweet yang terklasifikasikan dengan benar adalah “PSG yang Selalu Gagal di Liga Champions”, tweet tersebut termasuk kedalam kelas olahraga.

Term yang terdapat pada tweet tersebut spesifik terkategorikan sebagai term yang terkait dengan

0.85 0.85

0.85

0.83 0.54 0.48

0.41 0.39

0.40

0.00 0.20 0.40 0.60 0.80 1.00

0.1 0.3 0.5 1 1.5 2 2.5 3 3.5

Akurasi

Nilai Lambda

0.71 0.71

0.85 0.85

0.85 0.85

0.85 0.85

0.85

0.00 0.20 0.40 0.60 0.80 1.00

0.00001 0.0001 0.001 0.01 0.1 1 50 100 200

Akurasi

Nilai Complexity

(8)

olahraga, seperti “PSG, Liga, Champions”, sehingga tweet tersebut terklasifikasikan dengan benar.

Namun pada penelitian ini masih terdapat beberapa kesalahan pengklasifikasian yang terjadi, hal ini disebabkan karena dalam satu kalimat terdapat term yang sama pada term yang ada pada kategori lain. Seperti pada kelas otomotif dengan tweet judul berita “Seriusi Garap Indonesia, Nissan Ajak Livina 'Jalan- jalan' di 10 Kota Besar”. Pada kalimat tersebut terdapat beberapa term yang termasuk pada kelas travel, seperti “Indonesia, Jalan-jalan, Kota, Besar”. Sehingga terjadi kesalahan pada proses klasifikasi, sehingga hasil yang didapatkan termasuk kedalam kelas travel, yang seharusnya berita tersebut masuk kedalam kelas otomotif.

5. KESIMPULAN DAN SARAN

Dari hasil yang diperoleh setelah melakukan penelitian yang berjudul Klasifikasi Jenis Berita pada Sosial Media Twitter Menggunakan Algoritme Support Vector Machine (SVM), didapatkan kesimpulan.

Diantaranya kesimpulan yang didapatkan pada penelitian ini ialah metode SVM bisa digunakan dengan optimal pada klasifikasi jenis berita pada dokumen Twitter. Didapatkan rasio perbandingan sebesar 90%:10% yang menjadikan rasio perbandingan yang paling optimal. Dan juga nilai lambda 0.1 dan nilai complexity 0.001 sebagai nilai parameter yang paling optimal. Tahapan dalam pengklasifikasian pada penelitian ini diawali dengan tahapan pre-processing, pembobotan TF-IDF, lalu melakukan klasifikasi teks dengan menggunakan metode Support Vector Machine.

Hasil klasifikasi terbagi atas 5 kelas, yaitu olahraga, otomotif, teknologi, travel, dan ekonomi. Tingkat akurasi yang dihasilkan cukup baik dengan rata-rata akurasi paling baik sebesar 0,85. Hasil tersebut didapatkan dari rasio perbandingan, nilai parameter lambda, dan nilai parameter complexity yang paling optimal. Parameter-parameter yang optimal dapat mempengaruhi hasil klasifikasi.

Saran untuk penelitian selanjutnya adalah penambahan pada kategori berita sehingga lebih lengkap kategori beritanya, menggunakan metode pengambilan data secara real-time, menambah tahapan pada sistem klasifikasi seperti normalisasi data, dan menambah tahapan pada pre-processing seperti translasi.

6. DAFTAR PUSTAKA

Agusta, L., 2009. Perbandingan Algoritma Stemming Porter Dengan Algoritma Nazief & Adriani Untuk Stemming Dokumen Teks Bahasa Indonesia.

Konferensi Nasional Sistem dan Informatika 2009, (KNS&I09-036), pp.196–201.

Amani, A.S.Z., 2015. Informasi dalam Bentuk Media Elektronik dan Media Cetak.

[online] Kompasiana. Available at:

<https://www.kompasiana.com/alyashabri na/5607b118de22bdd00756df52/informasi -dalam-bentuk-media-elektronik-dan- media-cetak> [Accessed 30 Jul. 2019].

Asiyah, S. and Fithriasari, K., 2016. Klasifikasi Berita Online Menggunakan Metode Support Vector Machine Dan K-Nearest Neighbor. Jurnal Sains dan Seni ITS, 5(2).

Boyd, D.M. and Ellison, N.B., 2007. Social network sites: Definition, history, and scholarship. Journal of Computer- Mediated Communication.

Cambridge Dictionary, 2019a. Evaluation.

[online] Cambridge Dictionary. Available at:

<https://dictionary.cambridge.org/dictionar y/english/evaluation> [Accessed 30 Jul.

2019].

Cambridge Dictionary, 2019b. News. [online]

Cambridge Dictionary. Available at:

<https://dictionary.cambridge.org/dictionar y/english/news> [Accessed 30 Jul. 2019].

Cholissodin, I., Soebroto, A.A. and Hidayat, N., 2015. Integrasi Metode Fuzzy Additive SVM (FASVM) Menggunakan Model Warna YUV-CMY-HSV Untuk Klasifikasi Bibit Unggul Sapi Bali Melalui Citra Digital. Jurnal Teknologi Informasi dan Ilmu Komputer.

Galdi, P. and Tagliaferri, R., 2019. Data Mining: Accuracy and Error Measures for Classification and Prediction.

Encyclopedia of Bioinformatics and Computational Biology, (January), pp.431–

436.

Kamus Besar Bahasa Indonesia (KBBI), 2019.

Berita. [online] Kamus Besar Bahasa Indonesia (KBBI). Available at:

<https://kbbi.web.id/berita> [Accessed 30 Jul. 2019].

(9)

Fakultas Ilmu Komputer, Universitas Brawijaya

Kietzmann, J.H., Hermkens, K., McCarthy, I.P.

and Silvestre, B.S., 2011. Social media?

Get serious! Understanding the functional building blocks of social media. Business Horizons.

Kurniawaty, D., Cholissodin, I. and Adikara, P.P., 2018. Klasifikasi Gangguan Jiwa Skizofrenia Menggunakan Algoritme Support Vector Machine ( SVM ). Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer (JPTIIK) Universitas Brawijaya, 2(5), pp.1866–1873.

Langgeni, D.P., Baizal, Z.K.A. and W, Y.F.A., 2010. Clustering Artikel Berita Berbahasa Indonesia Menggunakan Unsupervised Feature Selection. Seminar Nasional Informatika 2010, 2010(semnasIF), pp.1–

10.

Maarif, A.A., 2015. Penerapan Algoritma TF- IDF untuk Pencarian Karya Ilmiah.

Dokumen Karya Ilmiah | Tugas Akhir | Program Studi Teknik Informatika - S1 | Fakultas Ilmu Komputer | Universitas Dian Nuswantoro Semarang, [online] (5),

p.4. Available at:

<mahasiswa.dinus.ac.id/docs/skripsi/jurnal /15309.pdf>.

Mase, J., Furqon, M.T. and Rahayudi, B., 2018.

Penerapan Algoritme Support Vector Machine ( SVM ) Pada Pengklasifikasian Penyakit Kucing. Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer (J-PTIIK) Universitas Brawijaya, 2(10), pp.3648–3654.

Miranda, S., 2017. Awal Mulanya Media Online. [online] Kompasiana. Available at:

<https://www.kompasiana.com/stephaniem iranda/59bbd39ea7249b6a153bd392/awal- mulanya-media-online?page=all>

[Accessed 30 Jul. 2019].

Nugroho, A.S., Witarto, A.B. and Handoko, D., 2003. Support Vector Machine – Teori dan Aplikasinya dalam Bioinformatika. Kuliah Umum IlmuKomputer.Com.

Perdana, R.S., Suprapto and Regasari, R., 2013.

Pengkategorian Pesan Singkat Berbahasa Indonesia pada Jejaring Sosial Twitter dengan Metode Klasifikasi Naïve Bayes.

Jurnal PTIIK UB, (September), pp.1–12.

Pratama, Arif, D., 2018. Implementasi Algoritme Support Vector Machine (SVM) untuk Prediksi Ketepatan Waktu Kelulusan Mahasiswa. Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, 2(March), pp.1704–1708.

Pratama, E.E. and Trilaksono, B.R., 2015.

Klasifikasi Topik Keluhan Pelanggan Berdasarkan Tweet dengan Menggunakan Penggabungan Feature Hasil Ekstraksi pada Metode Support Vector Machine (SVM). Jurnal Edukasi dan Penelitian Informatika (JEPIN), 1(2).

Prayoginingsih, S. and Kusumawardani, R.P., 2018. Klasifikasi Data Twitter Pelanggan Berdasarkan Kategori myTelkomsel Menggunakan Metode Support Vector Machine (SVM). Sisfo, 07(02).

Premanode, B. and Toumazou, C., 2013.

Improving prediction of exchange rates using Differential EMD. Expert Systems with Applications, [online] 40(1), pp.377–

384. Available at:

<http://dx.doi.org/10.1016/j.eswa.2012.07.

048>.

Sewell, M. and Shawe-Taylor, J., 2012.

Forecasting foreign exchange rates using kernel methods. Expert Systems with Applications, [online] 39(9), pp.7652–

7662. Available at:

<http://dx.doi.org/10.1016/j.eswa.2012.01.

026>.

Srivastava, D.K. and Bhambhu, L., 2010. Data classification using support vector machine. Journal of Theoretical and Applied Information Technology, 12(1), pp.1–7.

Vijayakumar, S. and Wu, S., 1999. Sequential Support Vector Classifiers and Regression.

Proceedings of International Conference on Soft Computing (SOCO ‘99), 619(February), pp.610–619.

Wei, L., Wei, B. and Wang, B., 2012. Text Classification Using Support Vector Machine with Mixture of Kernel. Journal of Software Engineering and Applications, 05(12), pp.55–58.

Gambar

Gambar 2. Grafik Hasil Pengujian Rasio  Perbandingan
Gambar 3. Grafik Hasil Pengujian Nilai Lambda  Berdasarkan Gambar 7, nilai lambda makin  besar  maka  akurasi  rata-rata  menjadi  semakin  rendah

Referensi

Dokumen terkait

Ferdi Alvianda, Indriati, “Analisis Sentimen Konten Radikal Di Media Sosial Twitter Menggunakan Metode Support Vector Machine (SVM),” vol. Hayatin, “Sarcasm detection

bahwa dengan telah ditetapkannya Peraturan Bupati Badung Nomor 64 Tahun 2014 tentang Perubahan Kedua Atas Peraturan Bupati Badung Nomor 1 Tahun 2012 tentang Indikator

Prinsip kerja percobaan ini yaitu merangkai rangkaian kombina- sional dan komparator dari gerbang logika dasar dengan menggunakan IC 7408, IC 7432, dan IC 7485 dengan keluaran

hortensis Becker disebut nilam sabun (Nuryani, 2006a). patchouli) merupakan tanaman yang memiliki aroma khas dan rendemen minyak daun keringnya tinggi yaitu 2,5-5%

Teknologi seperti MIMO dapat menghasilkan frekuensi yang efisien yaitu dengan mengirimkan informasi yang sama dari dua atau lebih pemancar terpisah kepada sejumlah

Berdasarkan hasil penelitian yang telah dianalisa, maka dapat diketahui bahwa Berita Pendidikan Secara On - line di Lembaga Kantor Berita Nasional (LKBN) ANTARA Jawa Barat

Peristiwa yang telah lalu yang ada dalam kehidupan siswa, dengan memberikan keteladanan tentang perilaku jujur, disiplin dan, tanggung jawab

Penambahan laju aliran massa udara yang semakin besar mengakibatkan jumlah aliran udara terlalu banyak dan tidak diikuti dengan jumlah laju aliran air pada pompa udara