HERU SUSANTO Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT.

(1)

HERU SUSANTO

2209 105 030

Dosen Pembimbing :

1. Dr. Surya Sumpeno, ST., M.Sc.

2. Reza Fuad Rachmadi, ST., MT.

(2)

LATAR BELAKANG

• Peran media jejaring sosial pada perkembangan teknologi

komunikasi dan informasi;

• Twitter merupakan salah satu media jejaring sosial telah

menjadi bagian dari pola komunikasi masyarakat;

• Sentimen berhubungan dengan penilaian terhadap suatu

konteks atau wacana;

• Melihat kecenderungan pola sentimen pada data

menggunakan teknik visualisasi.

(3)

PERMASALAHAN

• Kalimat-kalimat pada tweet yang dapat berisi berita

maupun sentimen seringkali mengandung banyak simbol

dan unsur kata tidak baku;

• Kesulitan pengguna untuk melakukan interpretasi secara

manual pada puluhan ribu data tweet.

(4)

TUJUAN

Memberikan kemudahan pembacaan data tentang pola

komunikasi di masyarakat terkait topik tertentu melalui

visualisasi berdasarkan data masukan berupa tweet sehingga

dapat diketahui kecenderungan pola sentimennya.

(5)

BATASAN MASALAH

1. Data yang digunakan dalam proses visualisasi data ini adalah

data teks bahasa indonesia.

2. Topik sentimen yang diteliti pada Twitter adalah Pemilu

2014.

(6)

(7)

(8)

PRA PEMROSESAN DATA TWEET

1. Inisialisasi data input berupa masukan data dari pengguna berdasarkan hasil pengunduhan data tweet sebelumnya.

2. Case folding, yakni proses penyetaraan kapitalisasi

karakter dalam isi dokumen.

3. Filtering simbol dan karakter, yakni penghilangan

karakter-karakter selain huruf (a,b,..,z | A,B,..,Z), yakni karakter-karakter angka (0-9) dan simbol-simbol.

4. Pembakuan Kata, yakni proses mengubah kata-kata tidak baku dalam tweet menjadi kata baku sesuai KBBI.

5. Stopword removal, yakni penghilangan kata-kata yang

tergolong sebagai stopword pada isi suatu dokumen.

6. Stemming, yakni proses pengembalian suatu kata ke

bentuk kata dasarnya. Pada aplikasi ini, pilihan algoritma

(9)

PENGKLASTERAN DATA TWEET

1. Inisialisasi data input berupa masukan data dari

pengguna berdasarkan hasil pra pemrosesan data tweet sebelumnya.

2. Baca fitur (load term) merupakan proses pencarian kata yang termasuk dalam fitur yang diperhitungkan ke dalam dokumen input.

3. Pembobotan Kata, yakni proses pembobotan term-term pada tiap dokumen. Pembobotan dilakukan dengan menggunakan metode TF-IDF.

4. Pengklasteran data, yakni proses pengelompokan data berdasarkan fitur dan atau jumlah kelompok masukan. Proses ini menggunakan 3 (tiga) pilihan algoritma yaitu :

K-Means, Cascade K-Means dan Self-Organizing Map Kohonen.

(10)

KINERJA CLUSTER

1. Sum Squared Error (SSE)

• Error merupakan jarak tiap titik diukur ke cluster yang

terdekat.

• Nilai SSE dapat dirumuskan sebagai berikut ini :

2. Dunn Index (DI)

• Pengukuran kualitas klaster secara internal.

• Nilai DI dapat dirumuskan sebagai berikut ini :

(11)

REDUKSI DIMENSI

• Teknik reduksi dimensi adalah menemukan transformasi

yang memenuhi ketentuan/kriteria tertentu;

• Pendekatan yang sederhana adalah Principal Component

Analysis (PCA);

• Tujuan dari PCA adalah mengurangi dimensi data dengan

mempertahankan variasi data yang ada.

(12)

PENGUJIAN

Pengujian dilakukan terhadap proses-proses berikut :

• Pengujian Sistem Pengumpulan Data Tweet

• Pengujian Sistem Pra Pemrosesan Data Tweet

• Pengujian Sistem Pengklasteran Data Tweet :



Pada variasi 3 (tiga) pilihan algoritma yaitu : K-Means, Cascade

K-Means dan Self-Organizing Map Kohonen.



Analisa Kinerja Pengklasteran.



Jenis Sentimen.

• Pengujian Sistem Visualisasi Data Tweet :



Visualisasi Data Tweet Asli



Visualisasi Pengklasteran Data Tweet

(13)

Pengujian Sistem Pengumpulan Data Tweet

Hasil melakukan scrapping data pada kurun waktu bulan Juli 2013 sampai Oktober 2013 pada situs scraperwiki.com menggunakan kata kunci “Pemilu 2014”, didapat data dengan ukuran 57294 tweet.

(14)

Pengujian Sistem Pra Pemrosesan Data Tweet

Dalam proses ini, data masukan dilakukan case folding, filtering, pembakuan kata (KBBI), stopword removal dan stemming.

No. Data Tweet Asli Data Hasil Pra Pemrosesan 1.

2.

3.

4.

5.

Parpol mana yang akan meraih suara terbanyak PEMILU 2014? Mari ikutan pollingnya

Partai Hanura hari ini tengah melakukan pembekalan kepada 560 caleg DPR RI yang akan maju di Pemilu 2014.

RT @Yusrilihza_Mhd: Pemilu 2014 sdh dekat, mari kita kampanyekan Pemilu Bersih, Jujur dan Adil. Jauhkan kecurangan dari Pemilu

#Web: Ada Indikasi Ke#curangan #Pemilu 2014, ungkap Komisi II #DPR http://t.co/nIzHsmWjNT

KPU sosialisasikan teknis pencoblosan pemilu 2014 http://t.co/GSTnlA6urR

parpol meraih suara pemilu mari ikut pollingnya

partai hanura bekal caleg dpr ri maju pemilu

pemilu mari kampanye pemilu bersih jujur adil jauh kecurangan pemilu

web indikasi kecurangan pemilu komisi ii dpr

(15)

Pengujian Sistem Pengklasteran Data Tweet

Sistem pengklasteran data pada data uji coba sebanyak 57294 tweet dilakukan dengan menggunakan algoritma K-Means, Cascade K-Means dan Self-Organizing Map (SOM) Kohonen.

Algoritma

Data Hasil Pengklasteran Evaluasi Klaster

Full Data Cluster SSE (Sum of Squared Error) Dunn Index 0 () 1 () 2 () 3 () 4 (▀) K-Means 57294 (100%) 271 (0,47%) 33973 (59,30%) 23050 (40,23%) - - 52885 0,16 Cascade K-Means 57294 (100%) 26332 (45,96%) 7912 (13,81%) 23050 (40,23%) - - 7073 0,67 SOM Kohonen 57294 (100%) 23688 (41,34%) 7907 (13,80%) 2520 (0,23%) 129 (4,40%) 23050 (40,23%) 9843 0,46

(16)

Pengujian Sistem Visualisasi Data Tweet

• Pengujian sistem visualisasi data tweet sejumlah 57294 tweet;

• Divisualisasikan berdasarkan desain sistem yang telah dipaparkan;

• Visualisasi data tweet asli;

• Visualisasi data tweet hasil pengklasteran pada diagram scatter;

• Visualisasi data tweet hasil pengklasteran pada peta geografi;

• Visualisasi atribut fitur utama melalui word cloud;

(17)

Visualisasi Data Tweet Asli

1

3

2

(18)

(19)

Visualisasi Data Tweet Hasil Pengklasteran Pada

Peta Geografi

Algoritma

Jumlah Tweet pada Peta

Cluster 0 ( ) Cluster 1 ( ) Cluster 2 ( ) Cluster 3 ( ) Cluster 4 ( ) K-Means 0 223 161 - - Cascade K-Means 143 80 161 - - SOM Kohonen 136 80 3 4 161

Dari total seluruh data tweet berjumlah 57294, sebanyak 384 tweet memiliki nilai lat dan lng

(20)

Visualisasi Data Tweet Hasil Pengklasteran Pada

Peta Geografi (3)

(21)

Visualisasi Data Tweet Hasil Pengklasteran Pada

Peta Geografi (5)

No. Kota Jumlah Tweet Sentimen

1. Jakarta 142 Positif 2. Bandung 109 Positif 3. Semarang 6 Negatif 4. Yogyakarta 45 Positif 5. Surabaya 12 Positif 6. Denpasar 10 Negatif

(22)

KESIMPULAN

1. Algoritma Cascade K-Means menghasilkan nilai SSE terkecil yaitu 7073 dan nilai Dunn Index tertinggi yaitu 0,67 dengan perolehan sentimen positif berjumlah 26332, negatif berjumlah 7912, dan netral berjumlah 23050;

2. SOM menghasilkan nilai SSE 9843 serta nilai 0,46 untuk Dunn Index yang terbilang lebih rendah kualitasnya daripada Cascade K-Means

sebelumnya, meskipun memiliki jumlah cluster yang lebih banyak yaitu 5 cluster.

3. Hasil visualisasi data tweet terhadap hasil pengklasteran pada 3 variasi algoritma telah berhasil diimplementasikan pada diagram scatter

menggunakan konfigurasi evaluator Analisa Komponen Utama dengan variabel korelasi pada parameter input sebesar 0.95 dan penyertaan seluruh attribut dengan nilai -1 pada variabel attributes include.

(23)

REFERENSI

1. Sumpeno, Surya, Destuardi. 2009. Klasifikasi Emosi Untuk Teks Bahasa Indonesia

Menggunakan Metode Naive Bayes. Seminar Nasional Pascasarjana ITS. Surabaya

2. Prasetyo, Eko. 2012. Data Mining : Konsep dan Aplikasi menggunakan Matlab. Andi :

Yogyakarta.

3. Santoso, Budi. 2011. Text Mining dan Web Mining. Fakultas Teknik Informatika UKDW :

Yogyakarta.

4. Santoso, Budi. 2006. StudiEM : Sebuah Program Email Mining.

http://budsus.blogspot.com/2006/06/studiem-sebuah-program-email-mining.html. Diakses pada tanggal 3 Juni 2013.

5. Asian, Jelita. 2007. Effective Techniques for Indonesian Text Retrieval. PhD thesis School of

Computer Science and Information Technology RMIT University Australia.

6. Nurfalah, Adiyasa. 2011. Analisis Sentimen Pada Opini Berbahasa Indonesia Menggunakan

Pendekatan Lexicon-Based. Fakultas Pascasarjana Intitut Teknologi Telkom. Bandung.

7. Mahendra, I Putu Adhi Kerta. 2008. Penggunaan Algoritma Semut dan Confix Stripping

Stemmer Untuk Klasifikasi Dokumen Berita Berbahasa Indonesia. Tugas Akhir. ITS. Surabaya.

8. R.A. Johnson & D.W. Wichern. 1988. Applied Multivariate Statistical Analysis. Prentice Hall.