• Tidak ada hasil yang ditemukan

PENERAPAN ALGORITMA SUPPORT VECTOR MACHINE BERBASIS ALGORITMA GENETIKA UNTUK ANALISIS SENTIMEN PADA TWITTER

N/A
N/A
Protected

Academic year: 2021

Membagikan "PENERAPAN ALGORITMA SUPPORT VECTOR MACHINE BERBASIS ALGORITMA GENETIKA UNTUK ANALISIS SENTIMEN PADA TWITTER"

Copied!
7
0
0

Teks penuh

(1)

1 ISSN 2442-2444| PENERAPAN ALGORITMA SUPPORT… Abstract __ Twitter has become one of the platforms of the most

popular micro-blogging recently. Millions of users can share their thoughts and opinions on various aspects, it is because twitter is considered as a rich source of information for decision making and sentiment analysis. In this case the sentiment aims to overcome the problem of classifying tweets automatically to the user becomes a positive opinion and a negative opinion. In this study, classifier Support Vector Machine (SVM) is a machine learning technique that text classifier popular research areas Text Mining. However Support Vector Machine (SVM) has a weakness in the right parameter selection problem. The trend in recent years is to simultaneously optimize the features and parameters to Support Vector Machine (SVM), so as to improve the accuracy of classification Support Vector Machine (SVM). Genetic algorithms have the potential to produce better features and become the optimal parameters at the same time. This Penelitiana generate text classification in the form of positive and negative tweets the account Starbuck. Accuracy of measurement is based on a Support Vector Machine (SVM) before and after using Genetic Algorithms. Evaluation is done by using a 10 fold cross vadilation while the measurement accuracy is measured by the confusion matrix and ROC curves. The results showed an increase in the accuracy of Support Vector Machine (SVM) from 69.32% to 97.97%.

Intisari __ Twitter telah menjadi salah satu platform micro-blogging paling populer baru-baru ini. Jutaan pengguna dapat berbagi pikiran dan pendapat mereka tentang berbagai aspek, hal ini dikarenakan twitter dianggap sebagai sumber yang kaya informasi untuk pengambilan keputusan dan analisis sentimen. Dalam hal ini sentimen ini bertujuan untuk mengatasi masalah secara otomatis untuk mengelompokkan tweet pengguna menjadi pendapat positif dan pendapat negatif. Dalam penelitian ini, Mesin classifier Support Vector (SVM) adalah teknik pembelajaran mesin yang pengklasifikasi teks populer untuk bidang penelitian Teks Mining. Namun Support Vector Machine (SVM) memiliki kelemahan dalam masalah pemilihan parameter yang tepat. Kecenderungan dalam beberapa tahun terakhir adalah untuk secara bersamaan mengoptimalkan fitur dan parameter untuk Support Vector Machine (SVM), sehingga dapat meningkatkan akurasi klasifikasi Support Vector Machine (SVM). Algoritma Genetika memiliki potensi untuk menghasilkan fitur yang lebih baik dan menjadi parameter optimal pada waktu yang sama. Penelitiana ini menghasilkan klasifikasi teks dalam bentuk tweet positif dan negatif pada akun Starbuck. Akurasi pengukuran didasarkan pada Support Vector Machine (SVM) sebelum dan sesudah menggunakan Algoritma Genetika. Evaluasi dilakukan dengan menggunakan 10 fold cross vadilation sementara akurasi pengukuran diukur dengan confusion matrix dan kurva ROC. Hasil penelitian menunjukkan peningkatan akurasi Support Vector Machine (SVM) dari 69.32% menjadi 97.97%.

Kata kunci: Analisis Sentimen, Twitter, Support Vector Machine (SVM), Klasifikasi Teks.

I.

I. PENDAHULUAN

Twitter telah menjadi salah satu platform mikroblog paling populer baru-baru ini. Jutaan pengguna dapat berbagi pikiran dan pendapat tentang berbagai aspek dan kegiatanuntuk platform micro blogging mereka. Oleh karena itu twitter dianggap sebagai sumber yang kaya informasi untuk pengambilan keputusan dan analisis sentimen. Munculnya media sosial telah memberikan tempat bagi para pengguna web untuk mengekspresikan berbagi pikiran serta pendapat mereka tentang topik yang berbeda dalam suatu peristiwa. Twitter telah hampir memiliki 600 juta pengguna dan lebih dari 250 juta pesan per hari. Hal ini dengan cepat telah menjadi tambang emas bagi organisasi untuk memantau reputasi dan merek mereka dengan mengekstrasi dan menganalisis sentimen dari Tweets yang diposting oleh publik tentang pasar mereka dan para pesaing [7]

Area utama lain penelitian Twitter berfokus pada pengembangan pendekatan analisis sentimen yang dirancang khusus untuk tweet. Tweets adalah genre yang unik komunikasi, dan fitur unik dan sifat telah dipertanyakan dalam penerapan dan efektivitas dari pendekatan yang lebih tradisional untuk sentiment analisis. Tweets adalah unit yang sangat singkat teks, maksimal 140 karakter panjang, dan ditandai dengan santai, bahasa kompak dengan penggunaan luas gaul, singkatan, akronim, dan emoticon. Tweets juga mengandung hashtags, referensi pengguna, dan link tertanam ke situs lain yang berisi informasi direferensikan tambahan, lebih rumit analisis sentimen. [4]

Terdapat beberapa penelitian yang telah dilakukan dalam hal klasifikasi sentimen pada twitter yang tersedia secara online diantaranya, analisis sentimen pada data twitter dengan menggunkan penglasifikasian Support Vector Machine (SVM) [10]. Analisa sentimen pada opini review film menggunakan pengklasifikasi Support Vector Machine (SVM) dan Particle Swarm Optimization[1]. Sentimen kalsifikasi terhadap ulasan tempat tujuan travel dengan menggunakan pendekatan Supervised Machine Learning [14]. Support Vector Machine (SVM) merupakan salah satu algoritma kalsifikasi linier yang memiliki prinsip utama untuk menentukan pemisah linear dalam ruang pencarian terbaik yang dapat memisahkan dua kelas yang berbeda [11].

kelebihan pada algoritma SVM yaitu mampu

mengidentifikasi hyperplane terpisah yang memaksimalkan margin antara dua kelas [2]. SVM adalah kasus khusus dari keluarga algoritma yang kita sebut sebagai pengatur metode klasifikasi linier dan metode yang kuat untuk minimalisasi resiko [12]. Namun Support Vector Machine (SVM) memiliki kekurangan terhadap masalah pemilihan parameter yang sesuai [1].

PENERAPAN ALGORITMA SUPPORT VECTOR MACHINE BERBASIS

ALGORITMA GENETIKA UNTUK ANALISIS SENTIMEN

PADA TWITTER

Dwi Andini Putri

Program Studi Teknik Informatika STMIK Nusa Mandiri, Jln Damai No.8 Warung Jati Barat (Margasatwa) Jakarta Selatan 12550 INDONESIA (telp:021-78839502; e-mail:

(2)

2 ISSN 2442-2444| PENERAPAN ALGORITMA SUPPORT… Seleksi fitur mempengaruhi beberapa aspek yaitu pola

klasifikasi, akurasi klasifikasi, waktu yang diperlukan untuk pembelajaran fungsi klasifikasi, jumlah contoh yang dibutuhkan untuk pembelajaran dan biaya yang terkait dengan fitur menurut Yang dan Honavar dalam [15]. Dalam masalah aplikasi tertentu, tidak semua fitur ini sama pentingnya. Kinerja yang lebih baik dapat dicapai dengan membuang beberapa fitur. Dengan demikian, kita dapat menghilangkan data yang noise, data yang tidak relevan dan berlebihan.

Selain seleksi fitur, pengaturan parameter Support Vector Machine (SVM) memiliki pengaruh penting pada akurasi klasifikasinya. Tidak sesuainya sebuah pengaturan parameter dapat menyebabkan hasil klasifikasi yang rendah menurut Keerthi & Lin dalam Zhao [15]. Akurasi klasifikasi optimal SVM diperoleh dengan mencari setting parameter yang optimal. Parameter yang harus dioptimalkan yaitu kesalahan parameter C dan parameter fungsi kernel seperti Gaussian kernel parameter γ untuk fungsi kernel Gaussian. Pencarian grid merupakan alternatif dan pendekatan pencarian secara langsung. Namun, pencarian kemampuan dari pendekatan ini sangat rendah menurut Hsu, Chang, dan Lin dalam Zhao [15]. Selain itu, pencarian grid tidak dapat melakukan pilihan fitur. Dalam beberapa literatur, metode seleksi fitur berdasarkan Genetic Algoritm (GA) telah diusulkan oleh Raymer, Punch, Goodman, Kuhn, dan Jain dalam Zhao [15].

Kecenderungan dalam beberapa tahun terakhir adalah untuk secara bersamaan mengoptimalkan bagian fitur dan parameter untuk Support Vector Machine (SVM), sehingga dapat meningkatkan akurasi klasifikasi pada Support Vector Machine (SVM). Algoritma Genetika memiliki potensi untuk menghasilkan fitur yang lebih baik dan menjadi parameter yang optimal pada waktu yang sama [15]. Pada penelitian ini algoritma Support Vector Machine (SVM) dan metode Genetic Algoritm sebagai metode pemilihan fitur yang akan diterapkan untuk mengklasifikasikan tweet yang ada pada twitter untuk meningkatkan akuasi sentiment

II. KAJIAN PUSTAKA A. Analisis Sentimen (Sentiment Analysis)

Menurut Medhat [8] Analisis Sentimen dapat dianggap sebagai proses klasifikasi yang memiliki 3 tingkat klasifikasi utama yaitu tingkat pada dokumen, tingkat pada kalimat dan tingkat pada aspek

Menurut Moraes [9] langkah-langkah yang umumnya ditemukan pada klasifikasi teks analisa sentimen adalah:

a. Definisikan domain dataset

Pengumpulan dataset yang melingkupi suatu domain, misalnya dataset review film, dataset review produk, dataset tweet dan lain sebagainya.

b. Pre-processing

Tahap pemrosesan awal yang umumnya dilakukan dengan proses Tokenization, Stopwords removal, dan Stemming.

c. Transformation

Proses representasi angka yang dihitung dari data tekstual. Binary Representation yang umumnya

digunakan dan hanya menghitung kehadiran atau ketidakhadiran sebuah kata di dalam dokumen. Berapa kali sebuah kata muncul di dalam suatu dokumen juga digunakan sebagai skema pembobotan dari data tekstual. B. Support Vector Machine (SVM)

SVM menemukan hyperlane ini menggunakan Support Vector dan Margin.Menurut Basari [1] dalam menentukan suatu nilai pembobotan kelas positif dan negatif dalam Support Vector Machine (SVM) ditentukan berdasarkan jika nilai dari bobot lebih besar sama dengan 0 maka diklasifikasikan kedalam kelas positif dan sebaliknya jika nila bobot kurang dari 0 maka dapat diklasifikasikan kedalam kelas negatif. Berikut adalah fungsi dari rumus perhitungan bobot pada Support Vector Machine (SVM) [24] .

Variabel dan parameter Algoritma Support Vector Machine (SVM) untuk kalsifikasi:

1. χ ={ χ1, χ1,.., χ m} sebagai sampel training

2. y ={ y1,.., ym}Ć {±1} sebagai label data training

3. kernel =jenis fungsi kernel 4. par =parameter kernel 5. C =komstanta cost

6. Α =[ α1,.., αm] sebagai multiplier dan bias

C. Pemilihan Fitur (Feature Selection)

Menurut Gorunescu [5] pemilihan fitur digunakan untuk menghilangkan fitur yang tidak relevan dan berulang, yang mungkin menyebabkan kekacauan, dengan menggunakan metode tertentu. Menurut John, Kohavi, dan Pfleger dalam Chou[2] metode pemilihan fitur dalam machine learning salah satunya yaitu:

1) Wrapper: Menurut Chou[2] wrapper menggunakan akurasi klasifikasi dari beberapa algoritma sebagai fungsi evaluasinya. Karena wrapper harus menguji sebuah pengklasifikasi untuk tiap subset fitur untuk dievaluasi, biasanya lebih banyak memakan waktu khususnya ketika jumlah fiturnya tinggi. Menurut Kohavi dalam Ye [14] wrapper mengevaluasi fitur secara berulang dengan mematuhi algoritma induktif. Oleh karena itu, fitur yang dipilih oleh pendekatan wrapper mungkin lebih cocok untuk algoritma induktif, dan menghasilkan akurasi klasifikasi yang tinggi. Menurut Ghiassi [4] salah satu metode wrapper yang bisa digunakan dalam pemilihan fitur adalah Genetic algorithm (GA). Penilitian ini akan dibahas mengenai Genetic algorithm lebih rinci sebagai Algoritma Genetika (Genetic Algorithm) Menurut Zukhri [16] Optimasi adalah proses menyelesaikan suatu masalah tertentu supaya berada pada kondisi yang paling menguntungkan dari suatu sudut pandang. Masalah yang diselesaikan berkaitan erat dengan data-data yang dapat dinyatakan dalam satu atau beberapa variable.

Menurut Zukhri [16] Algoritma Genetika merupakan suatu metode heuristik yang dikembangkan berdasarkan

(3)

3 ISSN 2442-2444| PENERAPAN ALGORITMA SUPPORT… prinsip genetika dan proses seleksi alamiah teori Evolusi

Darwin. Metode optimasi dikembangkan oleh Jhon Holland sekitar tahun 1960-an dan dipopulerkan oleh salah seorang mahasiswanya, David Goldberg pada tahun 1980-an. Proses pencarian penyelesaian dalam algoritma ini berlangsung sama seperti terpilihnya individu untuk bertahan hidup dalam proses evolusi.

D. Tinjauan Studi Penelitian Terkait

Ada beberapa penelitian yang menggunakan algoritma Support Vector Machine sebagai pengkalsifikasian dalam klasifikasi teks sentimen pada twitter, diantaranya ketiga penelitian terkait yang dibahas pada penelitian ini memiliki model yang berbeda, namun pengklasifikasi Support Vector Machine (SVM) telah terbukti memiliki akurasi yang paling tinggi diantara pengklasifikasi lainnya. Algoritma Genetika dapat digunakan sebagai model optimasi yang dapat digunakan untuk menghasilkan akurasi Support Vector Machine (SVM) yang lebih tinggi. Perbandingan ketiga penelitian terkait dapat dilihat pada tabel 1

Table 1. Comparison Related Research

Tittle Preprocessing Feature

Selection Classifier Accuracy Sentiment Analysis of Twitter Data [10]

- Replace all the emoticons by emoticon dictionary - Replace all URLs with a Tag “U” - Replace targets with a Tag “T” - Replace all negations by Tag “NOT” - Replace a sequence of repeated characters - Tokenizing all the tweet - Dentify stop words - POS-specific prior polarity features - tree kernel Suppor t Vector Machin e (SVM) 75,39% Opinion Mining of Movie Review using Hybrid Method of Support Vector Machine and Particle Swarm Optimizati on [1] - fillter data -Data cleansing - xtract to text file - Case Normalizati on -Tokenizing - Steamming - Generate n-Gram Suppor t Vector Machin e (SVM) 77% Sentiment classificati on of Convert all characters to lowercase n-Gram Suppor t Vector 80% online reviews to travel destinatio ns by supervised machine learning approache s [14] Machin e (SVM)

Sumber: Hasil Penelitian (2015)

Dari tinjauan studi diatas, dapat diketahui bahwa Support Vector Machine (SVM) merupakan pengklasifikasi terbaik untuk memecahkan masalah analisa sentimen. Pada penelitian ini digunakan sebuah pengklasifikasi algoritma Support Vector Machine (SVM) dan metode teknik optimasi yang digunakan adalah Genetic algorithm sebagai metode pemilihan fitur untuk meningkatkan tingkat akurasi dari pengklasifikasi.

Objek penelitian yang dilakukan dalam tesis ini yaitu analisis sentimen pada twitter dan teknik optimasi dalam rangka pemilihan fitur dengan penjelasan sebagai berikut: E. Sentimen pada Twitter

Menurut Khan [7] Micro Blogging situs Twitter

merupakan sumber informasi yang kaya dan beragam. Menurut Dehkharghani [3] Twitter adalah microblogging populer dan jaringan sosial situs web dengan basis pengguna terdaftar sekitar 650 juta per tahun 2013 yang memungkinkan penggunanya untuk mengirim pesan teks paling banyak hanya 140 karakter (tweet). Pengguna Twitter mengirimkan atau membahas sebuah pesan (tweet) tentang subjek dalam kehidupan sehari-hari. Dan dapat dilihat bahwa dalam beberapa tahun terakhir ini twitter telah banyak digunakan partai politik untuk meluncurkan kampanye terhadap masyarakat. Bahkan beberapa perusahaan manufaktur produk telah mempelajari reaksi para pengguna lewat twitter. Hal tersebut disebabkan oleh sifat dari micro blog yang dimana orang-orang dapat mengirimkan pesan secara real time tentang pendapat mereka terhadap berbagai topik, membahas isu-isu yang sedang popular, mereka juga dapat berpendapat tentang keluhan dan mengekspresikan sentiment positif bagi prouk yang mereka gunakan dalam kehidupan sehari-hari. Namun luasnya data sentimen pada twitter tersebut menyebabkan sulit untuk menganalisa dan memahami sentimen tersebut untuk mengklasifikasikan tweet pada twitter sebagai sentimen positif, negatif atau netral secara real time. F. Feature Selection (Pemilihan fitur)

Menurut Medhat [8] tugas dari analisis sentimen telah

dianggap sebagai masalah klasifikasi, maka langkah pertama dalam sebuah masalah kalsifikasi sentimen adalah untuk mengekstrak dan memilih fitur pada teks. Berikut penjelsan dari beberapa pemilihan fitur saat ini:

1) Terms Presence and Frequance: Fitur-fitur ini adalah kata-kata individu atau N-Gram dan jumlah frekuensi yang sering muncul seperti memberikan bobot pada kata-kata menjadi nilai biner (nol jika kata tersebut muncl dan satu jika

(4)

4 ISSN 2442-2444| PENERAPAN ALGORITMA SUPPORT…

Observed Variables

Observed Variables

PROPOSED METHOD OBJECTIVES

Model Accuracy MEASUREMENT Confution Matrix INDICATORS Population P Crossover Dataset Tweet @pizzahut (rs.peoplebrowsr.com) Feature Selection Preprocessing Tokenize Stopwords removal Generate 2-Gram Steamming Wrapper Genetic Algorithm Classification Algorithm Support Vector Machine ROC Curve P Generate Crossover Type C sebaliknya) atau menggunakan bobot frekuensi yaitu istilh

untuk menunjukan kepentingan yang relative pada fitur. 2) Part Of Speech (POS): Penemuan kata sifat karena hal tersebut adlah indikator penting dari suatu pendapat.

3) Opinion Words and Phrases: Merupakan kata-kata yang umum digunakan untuk mengekspersikan pendapat termasuk pendapat yang baik atau buruk dan suka datau benci. Dari sisi lain beberapa ungkapan mengungkapkan suatu pendapat tanpa menggunakan kata-kata opini.

4) Negations: Munculnya kata-kata negatif yang dapat mengubah orientasi opini seperti tidak baik menjadi setara dengan buruk.

G. Validasi dan Evaluasi Algoritma Data Mining

Menurut Gorunescu [5] validasi adalah proses mengevaluasiakurasi prediksi dari suatu model. Ada banyak metode yang digunakan untuk memvalidasi suatu model berdasarkan data yang ada, seperti holdout, random sub-sampling, cross-validation, stratified sub-sampling, bootstrap, dan lain sebagainya. Menurut Han [6] confusion matrix adalah alat yang sangat berguna untuk menganalisa seberapa baik pengklasifikasi bisa mengenali tuple dari class yang berbeda. Dalam confusion matrix dikenal beberapa istilah seperti True positive yang merujuk pada tuple positif yang secara benar dilabeli oleh pengklasifikasi, sementara True negative adalah tuple negatif yang secara benar dilabeli oleh pengklasifikasi. Adapula False positive yang merupakan tuple negatif yang secara tidak benar dilabeli oleh pengklasifikasi, dan False negative yang merupakan tuple positif yang secara tidak benar dilabeli oleh pengklasifikasi.

Kurva ROC akan digunakan untuk mengukur AUC (Area Under Curve). ROC curve membagi hasil positif dalam sumbu y dan hasil negatif dalam sumbu x [13]. Sehingga semakin besar area yang berada dibawah kurva, semakin baik pula hasil prediksi.

Penelitian ini dimulai dari adanya masalah dalam kalsifikasi teks pada twitter yang terdiri dari kurang lebih 140 karakter menggunakan Support Vector Machine (SVM), di mana pengklasifikasian tersebut memiliki kekurangan terhadap masalah pemilihan parameter yang sesuai, karena dengan tidak sesuainya sebuah pengaturan parameter dapat menyebabkan hasil klasifikasi yang rendah. Dataset yang digunakan dalam penelitian ini yaitu mengambil data tweet pada twitter yang didapat dari http://rs.peoplebrowsr.com/

yang akan diuji dengan menggunakan 100 tweet positif dan 100 tweet negatif dengan waktu selama 3 bulan yang lalu. Preprocessing yang dilakukan dengan tokenize, stopwords removal, Stemming, generate 2-Gram. dan pemilihan fitur wrapper dengan metode Genetic Algorithm. Sedangkan pengkalsifikasi yang digunakan adalah Support Vector Machine (SVM). Pengujian 10 fold cross validation akan dilakukan, akurasi algorima akan diukur menggunakan confusion matrix dan kurva ROC. RapidMiner Versi 5.3 digunakan sebagai alat bantu dalam mengukur akurasi data eksperimen yang dilakukan dalam penelitian. Gambar 1. menggambarkan kerangka pemikiran yang diusulkan dalam penelitian ini.

Sumber: Hasil Penelitian (2015)

Gambar 1. Kerangka Pemikira

III. METODEPENELITIAN

A. Pengumpulan Data

Dataset yang digunakan dalam penelitian ini yaitu mengambil data tweet pada twitter yang diunduh dari http://rs.peoplebrowsr.com/ yang terdiri dari 650 tweet positif dan 634 tweet negative dengan menggunakan akun twitter @Starbucks. Contoh tweet positif sebagai berikut:

“Today, I need a bucket of #coffee. Thanks, @Starbucks. I love the #verismo machine! #addicted #coffeeday”.

Sedangkan contoh tweet negative sebagai berikut:

“Hate when there is a new barista at @Starbucks and makes my coffee so strong I can't even drink it! ??”.

B. Pengolahan Awal Data

Untuk mengurangi lamanya waktu pengolahan data, pada penelitian ini hanya menggunakan 100 Tweet positif dan 100 Tweet negatif sebagai data training. Kemudian data Tweet tersebut melalui tahap preprosesing dikarenakan terdapat beberapa fitur sintaksis yang mungkin tidak berguna untuk diolah menggunkan algoritma Machine Learning, sehingga data tweet tersebut harus dibersihkan seperti tanda @ (at) untuk link ke nama pengguna, url atau link website (http, url, www), # (hashtag), RT (untuk tweet balik).

Dataset ini dalam tahap preprosesing harus melalui 4 proses, yaitu:

(5)

5 ISSN 2442-2444| PENERAPAN ALGORITMA SUPPORT… 1) Tokenization: yaitu mengumpulkan semua kata yang

muncul dan menghilangkan tanda baca maupun simbol apapun yang bukan huruf.

2) Stopwords Removal: yaitu penghapusan kata-kata yang tidak relevan, seperti the, of, for, with dan sebagainya.

3) Stemming: yaitu mengelompokkan kata ke dalam beberapa kelompok yang memiliki kata dasar yang sama, seperti drug, drugged, dan drugs di mana kata dasar dari semuanya adalah kata drug.

4) Generate 2-Gram: yarakter N-Gram adalah n angka terdekat dari urutan umpan balik yang diberikan. Sebagai contoh 3-gram dari kata “TERM” akan menjadi “_ _ T”,”_ T E”, “TER”, ERM”, “RM _”, “M _ _”. N-gram dengan 1 dimensi disebut dengan unigram, jika 2 dimensi disebut bigram, sedangkan 3 dimensi disebut trigram dan apabila lebih dari 3 dimensi pada dasarnya disebut N-gram.

Sedangkan untuk tahap transformation dengan melakukan pembobotan TF-IDF pada masing-masing kata.

Di mana prosesnya menghitung kehadiran atau

ketidakhadiran sebuah kata di dalam dokumen. Berapa kali sebuah kata muncul didalam suatu dokumen juga digunakan sebagai skema pembobotan dari data tekstual.

C. Metode Yang Diusulkan

Metode yang usulkan dalam penelitian ini adalah menggunakan metode pemilihan fitur wrapper. Dari jenis wrapper yang digunakan yaitu Genetic Algorithm sebagai metode pemilihan fitur agar akurasi pengklasifikasi Support Vector Machine (SVM) bisa meningkat. Penulis menggunakan pengklasifikasi Support Vector Machine (SVM) karena sangat mampu mengidentifikasi hyperplane terpisah yang memaksimalkan margin antara dua kelas, efisien dan merupakan teknik machine learning yang populer untuk klasifikasi teks, serta memiliki performa yang baik. Genetic Algorithm yang penulis terapkan adalah menggunakan Support Vector Machine (SVM) yang diuji di dalam tahap wrapper

D. Evaluasi dan Validasi Hasil

Validasi dilakukan menggunakan 10 fold cross validation. Sedangkan pengukuran akurasi diukur dengan confusion matrix dan kurva ROC untuk mengukur nilai AUC. Dengan confusion matrix, akurasi (SVM) Support Vector Machine sebelum menggunakan metode pemilihan fitur dan setelah menggunakan metode pemilihan fitur.

IV. HASILDANPEMBAHASAN

A. Klasifikasi

Proses klasifikasi pada penelitian ini adalah untuk menentukan sebuah kalimat sebagai anggota kelas positif atau kelas negatif berdasarkan nilai perhitungan pembobotan dari rumus SVM yang bernilai 0. Jika nilai dari bobot lebih besar sama dengan 0 maka diklasifikasikan kedalam kelas positif dan sebaliknya jika nila bobot kurang dari sama dengan 0 maka dapat diklasifikasikan kedalam kelas negatif. Dokumen yang akan dihitung nilai bobotnya dapat dilihat pada table 2

Table 2. Dokumen yang dihitung nilai bobotnya.

Dokumen Atribute kelas

Starbu cks_i hate Replac_c om Start_ go Pos75.txt (@Starbucks I

still love you, but I hate that the surrounding

stores have

replaced comfy seats for hard wooden chairs. Not inviting) 0,758 1) 2) 3) 4) 5) 6) 0 ,354 0,003 0,412 positif Neg8.txt (I heard a rumor that @Starbucks is getting coconut milk!! I might start going there again! I hate their soy!!! #pleasebetrue #coconutmilk) 0 0 0,001 0 negatif

Sumber: Hasil Penelitian (2015)

Berikut adalah perhitungan untuk contoh dokumen pos75.txt dengan fungsi sebagai berikut:

W75 = Y75 . X75

= 1 . (0,059+0,031+0,245) = 1,335

Di mana W75 adalah bobot untuk dokumen Pos75.txt yang

menentukan klasifikasi kelas positif atau negatif, sedangkan

Y75 merupakan nilai label untuk dokumen tersebut di mana Y

hanya bernilai 1 untuk kelas positif dan -1 untuk kelas negatif.

X75 nilai-nilai atribut yang ada pada sebuah dokumen yang

ingin dihitung bobotnya dan ditentukan kelasnya. Bobot untuk dokumen Pos75.txt adalah 1,335 maka dokumen tersebut diklasifikasikan kedalam kelas positif.

Berikut adalah perhitungan untuk contoh dokumen Neg8.txt dengan fungsi sebagai berikut:

W8 = -Y8 . X8

= -1 . (0,035+0,028+0,156) = - 1,219

Di mana W8 adalah bobot untuk dokumen Neg8.txt yang

menentukan klasifikasi kelas positif atau negatif, sedangkan

Y8 merupakan nilai label untuk dokumen tersebut di mana Y

hanya bernilai 1 untuk kelas positif dan -1 untuk kelas negatif.

X8 nilai-nilai atribut yang ada pada sebuah dokumen yang

ingin dihitung bobotnya dan ditentukan kelasnya. Bobot untuk dokumen Neg8.txt adalah - 1,219, maka dokumen tersebut diklasifikasikan kedalam kelas negatif.

B. Eksperimen Terhadap Indikator Model

penelitian ini dimulai dengan melakukan adjustment pada metode Genetik algoritma dengan nilai Population size yang berada pada nilai default, kemudian dilanjutkann dengan kelipatan 5 hingga nilai Population size yang menghasilkan akurasi paling tinggilah yang akan digunakan

(6)

6 ISSN 2442-2444| PENERAPAN ALGORITMA SUPPORT… pada langkah percobaan selanjutnya. Kemudian dilakukan

adjustment pada nilai P Initialize, P Crossover, P Generate dengan keliapan 0.2 untuk mendapatkan model yang baik. Sedangkan pada metode SVM (Support Vector Machine) berdasarkan penelitian Ilhan & Tezel (2013) adjustment dilakukan pada nilai parameter C sebagai parameter pengendali dengan nilai =1.0 . Dan hasil akhir akurasi tertinggi dicapai pada saat nilai Population size=15, P Initialize=0.9, P Crossover=0.9, P Generate=1.0 dan . Tabel indikator dan hasil pengujian dapat dilihat pada tabel 3

Tabel 3. Tabel Indikator Dan Hasil Pengujian

Population size P Initialize P Crossover P Generate C Accuracy 5 0.5 0.5 0.1 0.0 74,97% 10 0.7 0.7 1.0 1.0 94,39% 15 0.9 0.9 1.0 1.0 96,95% 20 1.1 1.1 1.0 1.0 91,79% 15 0.7 0.7 1.0 1.0 91,39% 10 0.9 0.9 1.0 1.0 95,37%

Sumber: Hasil Penelitian (2015)

Dalam penyesuaian indikator pada Genetic algorithm, akurasi paling tinggi diperoleh dengan kombinasi population size=15, p initialize=0.9, p crossover=0.9, dan p generate=1.0. Hasil akurasi mencapai 96,95%. Jika indikator lainnya turut diubah nilainya, dapat menyebabkan proses pengolahan data menjadi semakin lama.

C. Pembahasan

Dengan memiliki model klasifikasi teks tweet pada twitter, dapat digunakan untuk menindaklanjuti suatu strategi perusahaan maupun organisasi dalam menentukan keputusan dari akun twitter mere ka, yaitu dengan mengidentifikasi tweet tersebut sentimen yang positif maupun yang negatif. Dari data tweet yang sudah ada, dipisahkan menjadi kata-kata, lalu diberikan bobot pada masing-masing kata tersebut. Dapat dilihat kata mana saja yang berhubungan dengan sentimen yang sering muncul dan mempunyai bobot paling tinggi. Dengan demikian dapat diketahui tweet tersebut positif atau negatif. Dalam penelitian ini, hasil pengujian model akan dibahas melalui confusion matrix untuk menunjukkan seberapa baik model yang terbentuk. Tanpa menggunakan metode wrapper Genetic Algorithm, algoritma Support Vector Machine (SVM) sendiri sudah menghasilkan akurasi sebesar 69,32% dan nilai AUC 0.764 Akurasi tersebut masih kurang akurat, sehingga perlu ditingkatkan lagi menggunakan metode wrapper Genetic Algorithm. Akurasi algoritma Support Vector Machine (SVM) meningkat menjadi 97.97% dan nilai AUC 0.993 seperti yang bisa dilihat pada tabel 4

Tabel 4. Model algoritma Support Vector Machine (SVM) sebelum dan sesudah menggunakan metode Genetic Algorithm

Algoritma Support Vector Machine (SVM) Algoritma Support Vector Machine (SVM) + Genetic Algorithm Successful classification of positive tweets 97 97 Successful classification negative tweets 30 90 Model accuracy AUC 63.50% 93.50% Model accuracy AUC 0.903 0.940

Sumber: Hasil Penelitian (2015)

D. Pengukuran dengan Confusion Matrix

Pengukuran dengan confusion matrix di sini akan menampilkan perbandingan dari hasil akurasi model Support Vector Machine (SVM) sebelum ditambahkan metode Genetic algorithm yang bisa dilihat pada tabel 4.9 dan setelah ditambahkan metode Genetic algorithm yang bisa dilihat pada tabel 5

Tabel5. Confusion Matrix Model Support Vector Machine (SVM) sebelum penambahan metode Genetic Algorithm

Akurasi Support Vector Machine (SVM): 69.32 % + - 12.38% (mikro 69.23)

True negative True positif Kelas precision

Pred.negative 56 20 73.68 %

Pred.Positive 40 79 66.39%

Class recall 58.33% 79.80%

Sumber: Hasil Penelitian (2015)

Table 6. Confusion Matrix Model Support Vector Machine (SVM) sesudah penambahan metode Genetic Algorithm

Akurasi Support Vector Machine (SVM): 97.97% + - 4.09% (mikro 96.92%)

True negative True positif Kelas precision

Pred.negatif 93 3 96.88%

Pred.Positif 3 96 96.97%

Kelas recall 96.88% 96.97%

Sumber: Hasil Penelitian (2015)

Berikut adalah tampilan kurva ROC yang akan dihitung nilai AUC-nya. Gambar 2 adalah kurva ROC untuk

model Support Vector Machine (SVM) sebelum

menggunakan metode Genetic Algorithm dan gambar 3 adalah kurva ROC untuk model Support Vector Machine (SVM) setelah menggunakan metode Genetic Algorithm.

(7)

JURNAL

TEKNIK INFORMATIKA STMIK ANTAR BANGSA

VOL. I NO.01 FEBRUARI 2015

7 ISSN 2442-2444| PENERAPAN ALGORITMA SUPPORT…

7

Sumber: Hasil Penelitian (2015)

Gambar 2. Kurva ROC Model Support Vector Machine (SVM) sebelum menggunakan metode Genetik Algorithm

Sumber: Hasil Penelitian (2015)

Gambar 3. Kurva ROC Model Support Vector Machine (SVM) setelah menggunakan metode Genetik Algorithma

V. KESIMPULAN

Untuk mengklasifikasikan teks sentimen analisis dengan data berupa data tweet pada twitter, salah satu pengklasifikasi yang dapat digunakan adalah pengklasifikasi menggunakan algoritma Support Vector Machine (SVM). Hal ini dikarenakan Support Vector Machine (SVM) merupakan salah satu algoritma kalsifikasi linier yang mampu mengidentifikasi hyperplane terpisah yang memaksimalkan margin antara dua kelas. Selain itu Support Vector Machine (SVM). juga sangan populer digunakan untuk klasifikasi teks dan memiliki performa yang baik.

Metode wrapper telah terbukti dapat meningkatkan akurasi pengklasifikasi Support Vector Machine (SVM)dalam hal pengolahan data. Data tweet dapat diklasifikasi dengan baik ke dalam bentuk positif dan negatif. Akurasi Support Vector Machine (SVM) sebelum menggunakan penggabungan metode wrapper Genetic Algorithm akirasi yang dihasilkan yaitu sebesar 69,32% dan nilai AUC 0.764 . Sedangkan setelah menggunakan penggabungan metode Genetic algorithm, akurasinya meningkat hingga mencapai 97.97% dan nilai AUC 0.993. Peningkatan akurasi mencapai 30%. Untuk mendukung penelitian ini dikembangkan aplikasi sentimen analisis mengklasifikasikan tweet positif dan negatif menggunakan bahasa pemrograman PHP.

Model yang dibentuk dalam penelitian ini diterapkan pada akun twitter Starbucks sebagai penentu keputusan

strategi perusahaan dari opini-opini yang diutarakan oleh pelanggan, sehingga penelitian ini dapat digunakan pula untuk organisasi dan perusahaan lain yang memiliki akun twitter untuk menganalisis sentimen yang terjadi terhadap produk mereka untuk menentukan keputusan dan strategi selanjutnya yang harus ditindaklanjuti.

VI. REFERENCES

[1] Basari, A. S. H., Hussin, B., Ananta, I. G. P., & Zeniarja, J. pinion Mining of Movie Review using Hybrid Method of Support Vector Machine and Particle Swarm Optimization. Procedia Engineering. 2013.

[2] Chou, J.-S., Cheng, M.-Y., Wu, Y.-W., & Pham, A.-D. Optimizing parameters of support vector machine using fast messy genetic algorithm for dispute classification. Expert Systems with Applications. 2014.

[3] Dehkharghani, R., Mercan, H., Javeed, A., & Saygin, Y. Sentimental causal rule discovery from Twitter. Expert Systems with Applications. 2014.

[4] Ghiassi, M., Skinner, J., & Zimbra, D. Twitter brand sentiment analysis: A hybrid system using n-gram analysis and dynamic artificial neural network. Expert Systems with Applications. 2013.

[5] Gorunescu, F. Data Mining Concept Model Technique. 2011. [6] Han, J., & Kamber, M. (2007). Data Mining Concepts and Techniques [7] Khan, F. H., Bashir, S., & Qamar, U. (2014). TOM: Twitter opinion

mining framework using hybrid classification scheme. Decision Support Systems, 57, 245–257. doi:10.1016/j.dss.2013.09.004 [8] Medhat, W., Hassan, A., & Korashy, H. (2014). Sentiment analysis

algorithms and applications: A survey. Ain Shams Engineering Journal. doi:10.1016/j.asej.2014.04.011

[9] Moraes, R., Valiati, J. F., & Gavião Neto, W. P. (2013). Document-level sentiment classification: An empirical comparison between SVM and ANN. Expert Systems with Applications, 40(2), 621–633. [10] Passonneau, R. (2011). Sentiment Analysis of Twitter Data.

Proceedings of the Workshop on Languages in Social Media, (ISBN: 978-1-932432-96-1), 30–38.

[11] Schoefegger, K., Tammet, T., & Granitzer, M. (2013). A survey on socio-semantic information retrieval. Computer Science Review, 8, 25– 46. doi:10.1016/j.cosrev.2013.03.001

[12] Weise, T. (2009). Global Optimization Algorithms – Theory and Application – (Second Edi.). it-weise.de (self-published).

[13] Witten, H. I., Frank, E., & Hall, M. A. (2011). Data Mining Practical MachineLearning Tools And Technique. Burlington: Elsevier Inc. [14] Ye, Q., Zhang, Z., & Law, R. (2009). Sentiment classification of online

reviews to travel destinations by supervised machine learning approaches. Expert Systems with Applications, 36(3), 6527–6535. doi:10.1016/j.eswa.2008.07.035

[15] Zhao, M., Fu, C., Ji, L., Tang, K., & Zhou, M. (2011). Feature selection and parameter optimization for support vector machines: A new approach based on genetic algorithm with feature chromosomes. Expert

Systems with Applications, 38(5), 5197–5204.

doi:10.1016/j.eswa.2010.10.041

[16] Zukri, Zainudin. (2014) Algoritma Genetika Metode Komputasi Evolusioner untuk Menyelesaikan Masalah Optimasi. Yogyakarta: Andi Offset.

Dwi Andini Putri, M.Kom memperoleh gelar Sarjana

Komputer (S.Kom), Jurusan Sistem Informasi STMIK Nusa Mandiri Jakarta, lulus tahun 2012. Memperoleh gelar Magister Komputer (M.Kom) Program Pasca Sarjana Magister Ilmu Komputer STMIK Nusa Mandiri Jakarta, lulus tahun 2014. Saat ini menjadi Dosen di AMIK BSI Bogor

Gambar

Gambar 1. Kerangka Pemikira
Gambar 2. Kurva ROC Model Support Vector Machine (SVM) sebelum  menggunakan metode Genetik Algorithm

Referensi

Dokumen terkait

Implementasi Text Mining Pada Analisis Sentimen Pengguuna Twitter Terhadap Media Mainstream Menggunakan Naive Bayes Classifier Dan Support Vector Machine..

Penelitian ini membuat sebuah sistem yang dapat melakukan analisis sentimen pengguna twitter terhadap tokoh publik secara real time dengan menggunakan Twitter

Dalam analisis sentimen ini dilakukan dengan memanfaatkan machine learning salah satu metodenya adalah Support Vector Machine yang merupakan metode pengklasifikasian

Bila telah berbunyi “krek” maka umbi tersebut telah kering (Jumali, 1980).. Keripik di atas merupakan bahan baku tepung iles-iles yang dapat dipisahkan tepung

Akan tetapi dalam penelitian ini yang digunakan dalam perlakuan adalah tepung umbi suweg sehingga masih terdapat komponen lain dalam tepung umbi misalnya pati yang

Berdasarkan dari penelitian yang telah dilakukan, dapat disimpulkan bahwa algoritma Support Vector Machine (SVM) terbukti mampu diterapkan dengan baik untuk

di Puskesmas Jetis Yogyakarta, hasil penelitian menunjukkan ada hubungan yang signifikan antara tingkat pengetahuan dengan kepatuhan kunjungan ibu nifas sehingga

Judul Skripsi : Analisis Sentimen Terhadap Layanan Provider Telkomsel Pada Jejaring Sosial Twitter Menggunakan Algoritma Support Vector Machine.. Telah berhasil dipertahankan