Visualisasi Data Teks Twitter Berbasis Bahasa Indonesia
Menggunakan Teknik Pengklasteran
Heru Susanto
1, Dr. Surya Sumpeno, ST., M.Sc.
2, Reza Fuad Rachmadi, ST., MT.
21
Mahasiswa S1 Teknik Elektro – Institut Teknologi Sepuluh Nopember 2
Staf Pengajar, Teknik Elektro – Institut Teknologi Sepuluh Nopember Jurusan Teknik Elektro Fakultas Teknologi Industri
Institut Teknologi Sepuluh Nopember Kampus ITS Sukolilo, Surabaya 60111, Indonesia
ABSTRAK : Kebutuhan pengelompokan sentimen didorong oleh suatu pemikiran bahwa informasi berupa sentimen dari suatu data merupakan hal yang penting dan dibutuhkan. Pengklasteran terhadap data sentimen ini akan memberikan gambaran tentang pola komunikasi di masyarakat. Seringkali hasil pengolahan data tersebut masih belum mampu ditafsirkan oleh pengguna karena model visualisasi yang kurang komunikatif. Visualisasi ini merupakan hal yang penting untuk pengambilan keputusan selanjutnya, karena di dalamnya dapat dilihat pola data yang sedang diteliti apakah berkecenderungan positif atau negatif. Perkembangan jejaring sosial Twitter dapat memberikan informasi mengenai sentimen ini. Penelitian ini menggunakan topik isu Pemilu 2014 sebanyak 57294 tweet. Algoritma pengklasteran yang digunakan adalah K-Means, Cascade K-Means dan Self-Organizing Map Kohonen. Hasil yang didapat menunjukkan bahwa Cascade K-Means mampu menghasilkan nilai konvergensi kelompok terkecil SSE sebesar 7073 dan Dunn Index 0,67 dengan distribusi sentimen positif berjumlah 26332 tweet, negatif berjumlah 7912 tweet, dan netral berjumlah 23050 tweet. Visualisasi menggunakan grafik dua dimensi dengan evaluator Analisa Komponen Utama (PCA) pada variabel korelasi input 0,95.
Kata kunci : Visualisasi, Twitter, Pengklasteran, K-Means, Cascade K-Means, Self-Organizing Map Kohonen.
I. PENDAHULUAN
Media jejaring sosial memberikan peran yang sangat besar bagi perkembangan teknologi khususnya pada teknologi komunikasi dan informasi. Salah satu dampak yang paling terlihat adalah manusia menjadi lebih terbuka dalam menyatakan pendapat. Twitter yang merupakan salah satu media jejaring sosial sudah menjadi bagian dari pola komunikasi masyarakat. Media ini dikenal sangat populer terutama pada jumlah pengguna dan posting tweet yang tergolong besar pada setiap harinya.
Media jejaring sosial ini erat kaitannya dengan sentimen pengguna. Sentimen tersebut didapat ketika pengguna melakukan tweet. Sentimen berhubungan dengan penilaian terhadap suatu konteks atau wacana. Sentimen positif menyatakan pemberian nilai yang baik pada konteks dalam teks dan sentimen negatif menyatakan kebalikannya.
Pengelompokan sentimen diaplikasikan untuk
mengelompokkan sentimen positif, negatif dan netral. Pola data tweet yang besar tersebut memiliki kecenderungan sifat yang berbeda-beda. Untuk melihat pola data yang ada maka harus digunakan teknik visualisasi. Secara visual, pengguna akan mendapatkan kemudahan untuk melihat kecenderungan data berkorelasi positif atau negatif serta informasi pada setiap kategori tersebut sehingga mempercepat dan mempermudah tugas organisasi untuk memantau dan mengevaluasi kinerjanya. Visualisasi data
tweet tersebut tidak hanya berdasarkan pola kemiripan data
semata, namun yang tidak kalah penting adalah mengenai pola sentimen regional. Sentimen regional dimaksud adalah
sentimen-sentimen pengguna yang dikelompokkan
berdasarkan lokasi tempat tweet tersebut dikirim. Lokasi ini menggambarkan sentimen kewilayahan terhadap isu-isu tertentu tersebut.
Pada penelitian ini, penulis mengambil studi kasus pada situs jejaring sosial Twitter dengan topik sentimen ‘Pemilu 2014’. Tweet dapat berisi sentimen maupun kalimat berita biasa. Data tweet ini kemudian akan divisualisasikan berdasarkan pola sentimen dan lokasinya sehingga akan terlihat pola data sesungguhnya secara cepat dan tepat menggunakan teknik pengelompokan data.
II. DESAIN SISTEM
Alur visualisasi data twitter dalam Tugas akhir ini secara umum ditunjukkan pada Gambar 1 di bawah ini :
Pengumpulan Data Tweet
Pra Pemrosesan Data Tweet
Pengklasteran Data Tweet
Visualisasi Data Tweet Gambar 1 Gambaran Umum Sistem
Dari Gambar 1 diatas, terlihat bahwa sistem dibagi menjadi 4 (empat) tahap besar yaitu; tahap pengumpulan data
tweet, tahap pra perosesan data tweet, tahap pengklasteran
data tweet dan tahap visualisasi data tweet. Keseluruhan dari tahap tersebut dibangun dengan menggunakan dibuat dengan menggunakan bahasa pemrograman Java pada platform Java Development Kit 1.6.0 dan IDE Netbeans 6.7.
Sistem pengumpulan data tweet pada Tugas Akhir ini menganut sistem scrapping dengan menggunakan web
scrapper yaitu scrapperwiki.com. Prosesnya didahului
dengan registrasi pengguna lalu dapat diperoleh fasilitas mencari dan menyimpan data tweet tersebut sesuai dengan kata kunci yang dimasukkan. Dengan menggunakan web
scrapper, data tweet akan secara otomatis tersimpan pada server web tersebut dari waktu ke waktu sampai pengguna
blok diagram pada Gambar 2 tentang penggunaan
scrapperwiki.com dalam mengumpulkan data tweet :
Gambar 2 Sistem Pengumpulan Data Tweet
Secara umum, tahap pra pemrosesan data tweet tampak pada Gambar 3 (a) dan proses pengklasteran data tweet pada Gambar 3 (b) dapat dilihat pada diagram alir di bawah ini :
(a) (b)
Gambar 3 Diagram Alir Sistem Pra Pemrosesan dan Pengklasteran Data Tweet
Sistem visualisasi dibagi menjadi dua macam yaitu visualisasi data tweet asli dan visualisasi data tweet hasil pengklasteran. Berikut blok diagram beserta penjelasan masing-masing tipe visualisasi yang digunakan :
Gambar 4 Blok Diagram Visualisasi Data Tweet Asli
Dari Gambar 4 di atas, visualisasi tipe pertama adalah visualisasi dengan menggunakan data tweet asli. Data tweet asli yang dimaksud adalah data asli hasil pengunduhan langsung dari scraperwiki.com. Berikut penjelasan masing-masing data yang digunakan :
1. Data pengguna paling aktif, merupakan data pengguna
twitter yang paling banyak melakukan post tweet
berkaitan dengan isu yang dibahas dalam Tugas Akhir ini yakni Pemilu 2014.
2. Data hashtag paling sering muncul, merupakan data
hashtag atau kata kunci dari tweet yang didahului
karakter tanda pagar (#) atau hash yang paling sering digunakan para pengguna twitter dalam posting mereka. 3. Data volume tweet, merupakan data jumlah tweet yang
dihitung dalam kurun waktu bulanan berdasarkan data kolom created_at.
4. Data pengguna paling sering di-mention, merupakan data pengguna yang dalam posting tweet-nya mencantumkan nama pengguna lain sebagai bentuk mention agar orang
atau user yang di-mention tersebut tahu dan
membacanya. Para pengguna yang di-mention oleh pengguna lain ini ditampilkan dalam format grafik.
(a) (b)
(c)
Gambar 5 Desain Antarmuka Visualisasi Data Hasil Pengklasteran
Dari Gambar 5 di atas, visualisasi tipe kedua adalah visualisasi dengan menggunakan data hasil pengklasteran. Secara umum, visualisasi jenis ini dibagi dalam tiga sesi yaitu sesi scatter diagram, sesi peta geografi dan sesi evaluasi klaster.
Pada sesi scatter diagram berdasarkan Gambar 5 (a), data hasil klaster yang terdiri dari ratusan fitur menyebabkan dimensi data menjadi sangat tinggi. Dimensi data yang tinggi tersebut harus direduksi menggunakan fungsi seleksi atribut dengan evaluator Analisa Komponen Utama. Analisa ini akan menghasilkan pemeringkatan atribut-atribut utama yang akan diambil.
Pada sesi peta geografi berdasarkan Gambar 5 (c), setiap data tweet yang memiliki nilai untuk kolom lat dan lng dapat dilakukan plotting pada peta. Tidak semua tweet memiliki data lat dan lng tersebut karena data ini biasanya akan dikirim ketika pengguna melakukan posting tweet dari sebuah mobile gadget seperti handphone atau smartphone.
Dari sesi scatter diagram dan peta geografi, nilai klaster akan direpresentasikan melalui sebuah word cloud berdasarkan Gambar 5 (b). Word cloud merupakan kumpulan kata yang merepersentasikan atau mewakili makna dari klaster. Teknik ini sudah juga sering digunakan dalam melakukan tweet statistic.
III. TEKNIK PENGKLASTERAN
A. Algoritma K-Means
K-Means merupakan salah satu metode pengelompokan
data nonhierarki yang berusaha mempartisi data yang ada ke
dalam bentuk dua atau lebih kelompok. Tujuan
pengelompokan data ini adalah meminimalkan fungsi objektif yang diset dalam proses pengelompokan, yang pada umumnya berusaha meminimalkan variasi di dalam suatu kelompok dan memaksimalkan variasi antarkelompok [2]. Berikut merupakan algoritma dari k-means :
1. Menentukan jumlah klaster k
2. Menentukan titik pusat klaster (centroid) secara acak. 3. Menemukan centroid terdekat setiap dataset dengan
menghitung jarak setiap data pada masing-masing
centroid. Persamaannya adalah:
D(x1,x2) = ||x2-x1||2 = ∑ | − | (1) 4. Hitung kembali objek pada pusat klaster dengan anggota
klaster yang baru.
5. Ulangi lagi sampai menemukan pusat klaster yang tidak berubah.
B. Algoritma Cascade K-Means
Algoritma Cascade K-Means pada dasarnya tidak berbeda dengan algoritma K-Means sebelumnya. Nilai K akan diperoleh melalui hasil perulangan algoritma K-Means pada data sehingga akan dicari variasi kelompok K terbaik menggunakan sistem skor Calinski-Harabasz dengan persamaan sebagai berikut :
= ∑ || ||
∑ ∑ ∈ || ||×
( )
( ) (2)
Keterangan dari persamaan 2 adalah :
k : nomor kluster N : angka Observasi
mi : centroid dari cluster i x : data poin ci : cluster ke-i
C. Algoritma Self-Organizing Map Kohonen
Self-Organizing Map (SOM) merupakan perluasan dari
jaringan kompetitif yang sering disebut sebagai jaringan Kohonen. Adapun prosedur yang ditempuh dalam melakukan
clustering dengan SOM adalah sebagai berikut [2] :
1. Tentukan weight dari input data secara random. 2. Pilih salah satu input data.
3. Hitung tingkat kesamaan (dengan Eucledian) antara input data dan weight dari input data tersebut, dan pilih input data yang memiliki kesamaan dengan weight yang ada. 4. Perbaharui weight dari input data dengan mendekatkan
weight tersebut ke BMU dengan rumus:
Wv(t+1) = Wv(t) + Theta(v, t) x Alpha(t) x (D(t) – Wv(t))
(3) Dimana :
Wv(t) : Weight pada saat ke-t
Theta (v, t) : Fungsi neighbourhood yang tergantung pada Lattice distance antara BMU dengan neuron v. Umumnya bernilai 1 untuk neuron yang cukup dekat dengan BMU, dan 0 untuk yang sebaliknya. Penggunaan fungsi Gaussian juga memungkinkan. Alpha (t) : Learning Coefficient yang berkurang
secara monotonic D(t) : Input data
5. Tambah nilai t, sampai t < Lambda, dimana Lambda adalah jumlah iterasi.
Kinerja pada setiap cluster diukur dengan menghitung
SSE (Sum Squared Error). Error merupakan jarak tiap titik
diukur ke cluster yang terdekat. Semakin kecil SSE menunjukkan instance lebih seragam pada klaster yang dikelompokan. Nilai SSE dapat dirumuskan sebagai berikut ini [8] :
= ∑ ∑ ∈ ( , ) (4)
Nilai dist diperoleh dengan menghitung rata jarak anggota atribut cluster ke pusat cluster.
Selain SSE, evaluasi kualitas klaster juga diukur menggunakan Dunn Index (DI). Prinsip kerja metode ini adalah dengan mengukur perbandingan kerapatan data interklaster (diameter) dan jarak antarklaster data.
= min min ,
,
∆ (5)
dimana , adalah jarak anggota tiap klaster dan ∆ adalah jarak antar pusat klaster.
IV. TEKNIK VISUALISASI
Gambar 6 Proses Reduksi Dimensi Data [10]
Dari Gambar 6 di atas, data set dapat memiliki sejumlah besar fitur. Pada sekumpulan dokumen yang setiap dokumennya direpresentasikan oleh sebuah vektor memiliki komponen berupa frekuensi kata yang muncul dalam dokumen. Dalam kasus demikian, terdapat ribuan atau bahkan puluhan ribu atribut (komponen).
Analisa Komponen Utama atau Principal Component
Analysis (PCA) adalah teknik yang digunakan untuk
menyederhanakan suatu data, dengan cara mentransformasi linier sehingga terbentuk sistem koordinat baru dengan variansi maksimum. PCA dapat digunakan untuk mereduksi dimensi suatu data tanpa mengurangi karakteristik data tersebut secara signifikan.
Diberikan dataset matrik X berukuran (n × X) yang terdiri dari n observasi ( ∈ {1,2, … , }) dengan D dimensi. Algoritma dari analisis komponen utama adalah sebagai berikut [12] :
1. Hitung vektor rata-rata ̅ ( ∈ {1,2, … , }) dengan
̅ =∑ (6)
2. Hitung matriks kovariansi C atau cov(X) dengan
= , =∑ ( ̅ )( ̅ ) (7)
3. Hitung nilai eigen λ dan vektor eigen V yang memenuhi persamaan:
| − λI| = 0 (8)
( − λI) = 0 (9)
4. Vektor eigen yang didapatkan merupakan komponen utama untuk membentuk variabel baru. Variabel-variabel baru merupakan perkalian antara vektor eigen V dengan
matriks Xa, yaitu matriks X yang telah dinormalisasi (adjusted) yang dihitung dengan rumus :
=( ̅) (10)
5. Sedangkan variansi yang dapat dijelaskan oleh variabel baru ke-i tergantung persentase kontribusi pi dari masing-masing nilai eigen, yang dihitung dengan rumus :
=
∑ 100% (11)
Sedangkan penentuan jumlah variabel baru yang digunakan tergantung persentase kontribusi kumulatif dari kumulatif nilai eigen yang telah diurutkan dari nilai yang terbesar. Nilai persentase kontribusi kumulatif sampai komponen ke – r dihitung dengan rumus :
=∑
∑ 100% dengan λ > λ > λ > ⋯ λ (12)
V. PENGUJIAN DAN ANALISA
A. Hasil Visualisasi Data Tweet Asli
Gambar 7 Antarmuka Visualisasi Data Tweet Asli
Pada Gambar 7 di atas terdapat 4 buah grafik visualisasi hasil pembacaan data tweet asli yaitu data pengguna paling aktif, data hashtag paling sering muncul, data volume tweet dan data pengguna paling sering di-mention.
Panel antarmuka pertama menunjukkan pengguna dengan nama ‘@kabarPemilu2014’ adalah pengguna yang paling aktif melakukan tweet tentang pemilu 2014 yakni sebanyak 5238 tweet. Disusul oleh pengguna ‘@AyaVallensha’ sebanyak 3711 tweet dan ‘@JokowiMendengar’ sebanyak 1126 tweet serta ‘@OllaTasya’ sebanyak 842 tweet. Data pada panel ini ditampilkan sebanyak 10 nama pengguna yang paling aktif.
Panel antarmuka kedua menunjukkan data hashtag atau topik yang sering muncul dalam tweet pengguna. Hashtag dengan nama ‘#Pemilu2014’ menempati jumlah tertinggi yakni 1250 tweet. Disusul oleh ‘#Pemilu’ sebanyak 569
tweet dan ‘#politik’ berjumlah 379 tweet. Untuk ‘#Tuit’
sebanyak 249 tweet dan ‘#SEBHEUPDATE’’ sebanyak 197
tweet. Pada panel ini ditampilkan 5 hashtag teratas dengan
ukuran huruf menggambarkan dominasi atau jumlah sebenarnya.
Panel antarmuka ketiga menunjukkan persentase data pengguna paling sering di-mention. Dalam suatu tweet dimungkinkan pengguna dapat melakukan mention agar pengguna yang di-mention tersebut mengetahui dan
membaca tweet bersangkutan. Pada panel tersebut ditampilkan 5 (lima) nama pengguna yang paling sering
di-mention yaitu @TrioMacan2000 (75%), @PemiluCom
(23%), @junhyungcola(1%), @suaramerdeka (1%) dan @TuitSemarang (1%).
Panel antarmuka keempat menunjukkan jumlah data
tweet yang diunduh berdasarkan satuan waktu bulan. Pada
penelitian ini, penulis melakukan pengunduhan data tweet pada bulan Juli 2013 sampai Oktober 2013 pada situs
scraperwiki.com menggunakan kata kunci “Pemilu 2014”,
dan data dengan ukuran 57294 tweet. Untuk bulan Juli sejumlah 12072 tweet, bulan Agustus 14712 tweet, bulan September 16569 tweet dan bulan Oktober 13941 tweet.
B. Hasil Visualisasi Pengklasteran Data Tweet
Gambar 8 Hasil Visualisasi Data dengan K-Means
Gambar 9 Hasil Visualisasi dengan Cascade K-Means
Gambar 10 Hasil Visualisasi Data dengan SOM Kohonen
Sistem pengklasteran data pada data uji coba sebanyak 57294 tweet dilakukan dengan menggunakan algoritma
Self-Organizing Map (SOM) Kohonen (gambar 10). Data uji coba
tersebut sebelumnya telah dilakukan pra pemrosesan yang meliputi proses case folding, filtering, pembakuan kata (KBBI), stopword removal dan stemming. Percobaan diawali dengan menghitung vektor kata pada setiap kalimat tweet menggunakan metode pembobotan TF-IDF. Hasilnya kemudian digunakan sebagai data masukan proses pengklasteran.
Tabel 1 Hasil perbandingan cluster Tweet dengan variasi algoritma pengelompokan
Algoritma
Data Hasil Pra Pemrosesan
Full Data Cluster 0 () 1 () 2 () 3 () 4 (▀) K-Means 57294 (100%) 271 (0,47%) 33973 (59,30%) 23050 (40,23) - - Cascade K-Means 57294 (100%) 26332 (45,96%) 7912 (13,81%) 23050 (40,23%) - - SOM Kohonen 57294 (100%) 23688 (41,34%) 7907 (13,80%) 2520 (0,23%) 129 (4,40%) 23050 (40,23%)
Tabel 2 Hasil perbandingan evaluasi hasil klaster
Algoritma
Evaluasi Klaster SSE
(Sum of Squared Error) Dunn Index
K-Means 52885 0,16
Cascade K-Means 7073 0,67
SOM Kohonen 9843 0,46
Berdasarkan Tabel 1 dan Tabel 2 di atas, dapat diketahui bahwa pada percobaan menggunakan Algoritma Cascade
K-Means didapat nilai SSE terkecil yakni 7073 dengan rincian cluster 0 sebesar 26332 tweet, cluster 1 sebesar 7912 tweet
dan cluster 2 sebesar 23050 tweet. Variasi percobaan dengan menggunakan algoritma SOM dengan learning rate 0.02 ternyata dihasilkan 5 buah cluster meski hasil SSE-nya tidak menunjukkan kualitas cluster yang relatif baik yakni 9843 jika dibandingkan dengan algoritma Cascade K-Means. Hasil evaluasi kualitas klaster yang sama juga ditunjukkan melalui pengukuran internal Dunn Index pada Tabel 2 Percobaan menghasilkan nilai tertinggi yakni 0,67 pada variasi algoritma Cascade K-Means. Hal ini menunjukkan kualitas terbaik diantara dua variasi algoritma lainnya.
Tabel 3 Hasil perbandingan jenis sentimen cluster Tweet dengan variasi algoritma pengelompokan
Algoritma Sentimen Cluster 0 Cluster 1 Cluster 2 Cluster 3 Cluster 4
K-Means Positif Positif Netral - -
Cascade
K-Means Positif Negatif Netral - -
SOM
Kohonen Positif Positif Negatif Negatif Netral
Penafsiran analisa sentimen pada Tabel 3 di atas adalah hasil dari visualisasi word cloud sebagai vektor kata pembentuk cluster. Penafsiran positif berarti kata-kata yang muncul pada word cloud berkategori positif, dan sebaliknya. Pada sentimen netral, kata-kata yang membentuk cluster tidak dijumpai fitur sentimen yang telah ditentukan.
C. Hasil Visualisasi Pengklasteran Data Tweet Pada Peta
Gambar 11 Hasil Visualisasi Pada Peta dengan Algoritma K-Means
Gambar 12 Hasil Visualisasi Pada Peta dengan Algoritma
Cascade K-Means
Gambar 13 Hasil Visualisasi Pada Peta dengan Algoritma SOM
Dari total seluruh data tersebut, sebanyak 384 tweet memiliki nilai lat dan lng. Gambar 11, 12 dan 13 merupakan hasil visualisasi pada peta terhadap hasil pengklasteran dengan pola warna titik seperti pada Tabel 4 menggunakan algoritma K-Means, Cascade K-Means dan SOM Kohonen.
Tabel 4 Hasil perbandingan jumlah Tweet pada Peta untuk Setiap
cluster dengan variasi algoritma pengelompokan Algoritma
Jumlah Tweet pada Peta
Cluster 0 ( ) Cluster 1 ( ) Cluster 2 ( ) Cluster 3 ( ) Cluster 4 ( ) K-Means 0 223 161 - - Cascade K-Means 143 80 161 - - SOM Kohonen 136 80 3 4 161
Berdasarkan wilayah tweet di-posting, analisa sentimen dapat dilakukan pada setiap bagian daerah. Analisa sentimen ini untuk mengetahui isu kewilayahan terkait topik yang diteliti yaitu ‘Pemilu 2014’.
Gambar 14 Visualisasi Data Tweet Wilayah Kota Jakarta
Pada Gambar 14 di atas, panel visualisasi menunjukkan sentimen wilayah kota Jakarta pada 142 tweet dengan pilihan kata fitur utama yang bermuatan positif pada kata ‘pilih’, ‘ok’ dan ‘cinta’ dengan total persentase kemunculan sebesar 79%. Berikut Tabel 5 yang menunjukkan data teknis fitur kata wilayah kota Jakarta.
Tabel 5 Fitur Kata Sentimen Wilayah Kota Jakarta
No Fitur Kata Bobot Kemunculan ( % ) 1. pilih 0.3285795915492959 81 2. ok 0.22478174647887317 73 3. cinta 0.22374387323943662 71 4. buka 0.10424895774647888 22 5. sesuai 0.09422159154929578 4 6. cocok 0.09008858450704225 4 7. dukun 0.06937138028169014 2 8. bingung 0.06562292957746478 2 9. dukung 0.06381019014084507 2 10. salam 0.06347278873239436 2
Berdasarkan analisa sentimen daerah terhadap isu nasional “Pemilu 2014”, berikut hasil rekap data tweet pada beberapa wilayah di Indonesia dalam Tabel 6.
Tabel 6 Rekap Analisa Sentimen Berdasarkan Wilayah No. Kota Jumlah Tweet Sentimen
1. Jakarta 142 Positif 2. Bandung 109 Positif 3. Semarang 6 Negatif 4. Yogyakarta 45 Positif 5. Surabaya 12 Positif 6. Denpasar 10 Negatif VI. KESIMPULAN
Berdasarkan aplikasi yang telah dibuat dan hasil uji coba yang telah dilakukan, maka dapat ditarik beberapa kesimpulan sebagai berikut:
1. Cascade K-Means menghasilkan nilai SSE terkecil yaitu 7073 dan nilai Dunn Index tertinggi yaitu 0,67 sehingga algoritma ini menghasilkan cluster terbaik dengan perolehan sentimen positif berjumlah 26332, negatif berjumlah 7912, dan netral berjumlah 23050.
2. SOM menghasilkan nilai SSE 9843 yang terbilang masih lebih tinggi daripada Cascade K-Means, hal yang sama
juga ditunjukkan pada pengukuran Dunn Index yang menunjukkan nilai 0,46 meskipun memiliki jumlah
cluster yang lebih banyak yaitu 5 cluster.
3. Hasil visualisasi data tweet terhadap hasil pengklasteran pada 3 variasi algoritma telah berhasil diimplementasikan pada diagram scattermenggunakan konfigurasi evaluator Analisa Komponen Utama dengan variabel korelasi pada parameter input sebesar 0.95 dan penyertaan seluruh attribut dengan nilai -1 pada variabel attributes include.
DAFTAR PUSTAKA
[1] Sumpeno, Surya, Destuardi. 2009. Klasifikasi Emosi
Untuk Teks Bahasa Indonesia Menggunakan Metode Naive Bayes. Seminar Nasional Pascasarjana ITS.
Surabaya.
[2] Prasetyo, Eko. 2012. Data Mining : Konsep dan
Aplikasi menggunakan Matlab. Andi : Yogyakarta.
[3] Santoso, Budi. 2011. Text Mining dan Web Mining. Fakultas Teknik Informatika UKDW : Yogyakarta. [4] Santoso, Budi. 2006. StudiEM : Sebuah Program Email
Mining. http://budsus.blogspot.com/2006/06/studiem-sebuah-program-email-mining.html. Diakses pada tanggal 3 Juni 2013.
[5] Asian, Jelita. 2007. Effective Techniques for Indonesian
Text Retrieval. PhD thesis School of Computer Science
and Information Technology RMIT University
Australia.
[6] Nurfalah, Adiyasa. 2011. Analisis Sentimen Pada Opini
Berbahasa Indonesia Menggunakan Pendekatan Lexicon-Based. Fakultas Pascasarjana Intitut Teknologi
Telkom. Bandung.
[7] Mahendra, I Putu Adhi Kerta. 2008. Penggunaan
Algoritma Semut dan Confix Stripping Stemmer Untuk Klasifikasi Dokumen Berita Berbahasa Indonesia.
Tugas Akhir. ITS. Surabaya.
[8] R.A. Johnson & D.W. Wichern. 1988. Applied
Multivariate Statistical Analysis. Prentice Hall. USA.
[9] Salton G., 1989. Automatic Text Processing. Cornell University Chapter 9.
[10] Midshipman David G. 2007. Exploring Dimensionality
Reduction For Text Mining. United States Naval
Academy Annapolis. Maryland.
[11] Sri Mulyana, Edi Winarko. 2009. Teknik Visualisasi
Dalam Data Mining. Seminar Nasional Informatika.
Yogyakarta.
[12] Ronny Susetyoko, Elly Purwantini. 2009. Teknik
Reduksi Dimensi Menggunakan Komponen Utama Data Partisi Pada Pengklasifikasian Data Berdimensi Tinggi dengan Ukuran Sampel Kecil. Jurnal. PENS.
[13] Harianja, Henri. 2008. Visualisasi K-Means Clustering
Pada Data Potensi Pertanian Desa Di Bogor Menggunakan Mapserver. Skripsi. Institut Pertanian
Bogor.
[14] Indrawati, Nur. 2008. Natural Language Processing
(NLP) Bahasa Indonesia Sebagai Preprocessing Pada Text Mining. Jurnal Institut Tinggi Teknologi Telkom.
Bandung.
[15] Adiwijaya, Igg. 2006. Texi Mining dan Knowledge
Discovery. Komunitas Data mining Indonesia &