HERU SUSANTO
2209 105 030
Dosen Pembimbing :
1. Dr. Surya Sumpeno, ST., M.Sc.
2. Reza Fuad Rachmadi, ST., MT.
LATAR BELAKANG
•
Peran media jejaring sosial pada perkembangan teknologi
komunikasi dan informasi;
•
Twitter merupakan salah satu media jejaring sosial telah
menjadi bagian dari pola komunikasi masyarakat;
•
Sentimen berhubungan dengan penilaian terhadap suatu
konteks atau wacana;
•
Melihat kecenderungan pola sentimen pada data
menggunakan teknik visualisasi.
PERMASALAHAN
•
Kalimat-kalimat pada tweet yang dapat berisi berita
maupun sentimen seringkali mengandung banyak simbol
dan unsur kata tidak baku;
•
Kesulitan pengguna untuk melakukan interpretasi secara
manual pada puluhan ribu data tweet.
TUJUAN
Memberikan kemudahan pembacaan data tentang pola
komunikasi di masyarakat terkait topik tertentu melalui
visualisasi berdasarkan data masukan berupa tweet sehingga
dapat diketahui kecenderungan pola sentimennya.
BATASAN MASALAH
1. Data yang digunakan dalam proses visualisasi data ini adalah
data teks bahasa indonesia.
2. Topik sentimen yang diteliti pada Twitter adalah Pemilu
2014.
PRA PEMROSESAN DATA TWEET
1. Inisialisasi data input berupa masukan data dari pengguna berdasarkan hasil pengunduhan data tweet sebelumnya.
2. Case folding, yakni proses penyetaraan kapitalisasi
karakter dalam isi dokumen.
3. Filtering simbol dan karakter, yakni penghilangan
karakter-karakter selain huruf (a,b,..,z | A,B,..,Z), yakni karakter-karakter angka (0-9) dan simbol-simbol.
4. Pembakuan Kata, yakni proses mengubah kata-kata tidak baku dalam tweet menjadi kata baku sesuai KBBI.
5. Stopword removal, yakni penghilangan kata-kata yang
tergolong sebagai stopword pada isi suatu dokumen.
6. Stemming, yakni proses pengembalian suatu kata ke
bentuk kata dasarnya. Pada aplikasi ini, pilihan algoritma
PENGKLASTERAN DATA TWEET
1. Inisialisasi data input berupa masukan data dari
pengguna berdasarkan hasil pra pemrosesan data tweet sebelumnya.
2. Baca fitur (load term) merupakan proses pencarian kata yang termasuk dalam fitur yang diperhitungkan ke dalam dokumen input.
3. Pembobotan Kata, yakni proses pembobotan term-term pada tiap dokumen. Pembobotan dilakukan dengan menggunakan metode TF-IDF.
4. Pengklasteran data, yakni proses pengelompokan data berdasarkan fitur dan atau jumlah kelompok masukan. Proses ini menggunakan 3 (tiga) pilihan algoritma yaitu :
K-Means, Cascade K-Means dan Self-Organizing Map Kohonen.
KINERJA CLUSTER
1. Sum Squared Error (SSE)
•
Error merupakan jarak tiap titik diukur ke cluster yang
terdekat.
•
Nilai SSE dapat dirumuskan sebagai berikut ini :
2. Dunn Index (DI)
•
Pengukuran kualitas klaster secara internal.
•
Nilai DI dapat dirumuskan sebagai berikut ini :
REDUKSI DIMENSI
•
Teknik reduksi dimensi adalah menemukan transformasi
yang memenuhi ketentuan/kriteria tertentu;
•
Pendekatan yang sederhana adalah Principal Component
Analysis (PCA);
•
Tujuan dari PCA adalah mengurangi dimensi data dengan
mempertahankan variasi data yang ada.
PENGUJIAN
Pengujian dilakukan terhadap proses-proses berikut :
•
Pengujian Sistem Pengumpulan Data Tweet
•
Pengujian Sistem Pra Pemrosesan Data Tweet
•
Pengujian Sistem Pengklasteran Data Tweet :
Pada variasi 3 (tiga) pilihan algoritma yaitu : K-Means, Cascade
K-Means dan Self-Organizing Map Kohonen.
Analisa Kinerja Pengklasteran.
Jenis Sentimen.
•
Pengujian Sistem Visualisasi Data Tweet :
Visualisasi Data Tweet Asli
Visualisasi Pengklasteran Data Tweet
Pengujian Sistem Pengumpulan Data Tweet
Hasil melakukan scrapping data pada kurun waktu bulan Juli 2013 sampai Oktober 2013 pada situs scraperwiki.com menggunakan kata kunci “Pemilu 2014”, didapat data dengan ukuran 57294 tweet.Pengujian Sistem Pra Pemrosesan Data Tweet
Dalam proses ini, data masukan dilakukan case folding, filtering, pembakuan kata (KBBI), stopword removal dan stemming.
No. Data Tweet Asli Data Hasil Pra Pemrosesan 1.
2.
3.
4.
5.
Parpol mana yang akan meraih suara terbanyak PEMILU 2014? Mari ikutan pollingnya
Partai Hanura hari ini tengah melakukan pembekalan kepada 560 caleg DPR RI yang akan maju di Pemilu 2014.
RT @Yusrilihza_Mhd: Pemilu 2014 sdh dekat, mari kita kampanyekan Pemilu Bersih, Jujur dan Adil. Jauhkan kecurangan dari Pemilu
#Web: Ada Indikasi Ke#curangan #Pemilu 2014, ungkap Komisi II #DPR http://t.co/nIzHsmWjNT
KPU sosialisasikan teknis pencoblosan pemilu 2014 http://t.co/GSTnlA6urR
parpol meraih suara pemilu mari ikut pollingnya
partai hanura bekal caleg dpr ri maju pemilu
pemilu mari kampanye pemilu bersih jujur adil jauh kecurangan pemilu
web indikasi kecurangan pemilu komisi ii dpr
Pengujian Sistem Pengklasteran Data Tweet
Sistem pengklasteran data pada data uji coba sebanyak 57294 tweet dilakukan dengan menggunakan algoritma K-Means, Cascade K-Means dan Self-Organizing Map (SOM) Kohonen.Algoritma
Data Hasil Pengklasteran Evaluasi Klaster
Full Data Cluster SSE (Sum of Squared Error) Dunn Index 0 () 1 () 2 () 3 () 4 (▀) K-Means 57294 (100%) 271 (0,47%) 33973 (59,30%) 23050 (40,23%) - - 52885 0,16 Cascade K-Means 57294 (100%) 26332 (45,96%) 7912 (13,81%) 23050 (40,23%) - - 7073 0,67 SOM Kohonen 57294 (100%) 23688 (41,34%) 7907 (13,80%) 2520 (0,23%) 129 (4,40%) 23050 (40,23%) 9843 0,46
Pengujian Sistem Visualisasi Data Tweet
•
Pengujian sistem visualisasi data tweet sejumlah 57294 tweet;
•
Divisualisasikan berdasarkan desain sistem yang telah dipaparkan;
•
Visualisasi data tweet asli;
•
Visualisasi data tweet hasil pengklasteran pada diagram scatter;
•
Visualisasi data tweet hasil pengklasteran pada peta geografi;
•
Visualisasi atribut fitur utama melalui word cloud;
Visualisasi Data Tweet Asli
1
3
2
Visualisasi Data Tweet Hasil Pengklasteran Pada
Peta Geografi
Algoritma
Jumlah Tweet pada Peta
Cluster 0 ( ) Cluster 1 ( ) Cluster 2 ( ) Cluster 3 ( ) Cluster 4 ( ) K-Means 0 223 161 - - Cascade K-Means 143 80 161 - - SOM Kohonen 136 80 3 4 161
Dari total seluruh data tweet berjumlah 57294, sebanyak 384 tweet memiliki nilai lat dan lng
Visualisasi Data Tweet Hasil Pengklasteran Pada
Peta Geografi (3)
Visualisasi Data Tweet Hasil Pengklasteran Pada
Peta Geografi (5)
No. Kota Jumlah Tweet Sentimen
1. Jakarta 142 Positif 2. Bandung 109 Positif 3. Semarang 6 Negatif 4. Yogyakarta 45 Positif 5. Surabaya 12 Positif 6. Denpasar 10 Negatif
KESIMPULAN
1. Algoritma Cascade K-Means menghasilkan nilai SSE terkecil yaitu 7073 dan nilai Dunn Index tertinggi yaitu 0,67 dengan perolehan sentimen positif berjumlah 26332, negatif berjumlah 7912, dan netral berjumlah 23050;
2. SOM menghasilkan nilai SSE 9843 serta nilai 0,46 untuk Dunn Index yang terbilang lebih rendah kualitasnya daripada Cascade K-Means
sebelumnya, meskipun memiliki jumlah cluster yang lebih banyak yaitu 5 cluster.
3. Hasil visualisasi data tweet terhadap hasil pengklasteran pada 3 variasi algoritma telah berhasil diimplementasikan pada diagram scatter
menggunakan konfigurasi evaluator Analisa Komponen Utama dengan variabel korelasi pada parameter input sebesar 0.95 dan penyertaan seluruh attribut dengan nilai -1 pada variabel attributes include.
REFERENSI
1. Sumpeno, Surya, Destuardi. 2009. Klasifikasi Emosi Untuk Teks Bahasa Indonesia
Menggunakan Metode Naive Bayes. Seminar Nasional Pascasarjana ITS. Surabaya
2. Prasetyo, Eko. 2012. Data Mining : Konsep dan Aplikasi menggunakan Matlab. Andi :
Yogyakarta.
3. Santoso, Budi. 2011. Text Mining dan Web Mining. Fakultas Teknik Informatika UKDW :
Yogyakarta.
4. Santoso, Budi. 2006. StudiEM : Sebuah Program Email Mining.
http://budsus.blogspot.com/2006/06/studiem-sebuah-program-email-mining.html. Diakses pada tanggal 3 Juni 2013.
5. Asian, Jelita. 2007. Effective Techniques for Indonesian Text Retrieval. PhD thesis School of
Computer Science and Information Technology RMIT University Australia.
6. Nurfalah, Adiyasa. 2011. Analisis Sentimen Pada Opini Berbahasa Indonesia Menggunakan
Pendekatan Lexicon-Based. Fakultas Pascasarjana Intitut Teknologi Telkom. Bandung.
7. Mahendra, I Putu Adhi Kerta. 2008. Penggunaan Algoritma Semut dan Confix Stripping
Stemmer Untuk Klasifikasi Dokumen Berita Berbahasa Indonesia. Tugas Akhir. ITS. Surabaya.
8. R.A. Johnson & D.W. Wichern. 1988. Applied Multivariate Statistical Analysis. Prentice Hall.