dimana δ C, C adalah jarak anggota tiap klaster dan adalah jarak antar pusat klaster. TEKNIK VISUALISASI

(1)

Visualisasi Data Teks Twitter Berbasis Bahasa Indonesia

Menggunakan Teknik Pengklasteran

Heru Susanto

1

, Dr. Surya Sumpeno, ST., M.Sc.

2

, Reza Fuad Rachmadi, ST., MT.

2

1

Mahasiswa S1 Teknik Elektro – Institut Teknologi Sepuluh Nopember 2

Staf Pengajar, Teknik Elektro – Institut Teknologi Sepuluh Nopember Jurusan Teknik Elektro Fakultas Teknologi Industri

Institut Teknologi Sepuluh Nopember Kampus ITS Sukolilo, Surabaya 60111, Indonesia

ABSTRAK : Kebutuhan pengelompokan sentimen didorong oleh suatu pemikiran bahwa informasi berupa sentimen dari suatu data merupakan hal yang penting dan dibutuhkan. Pengklasteran terhadap data sentimen ini akan memberikan gambaran tentang pola komunikasi di masyarakat. Seringkali hasil pengolahan data tersebut masih belum mampu ditafsirkan oleh pengguna karena model visualisasi yang kurang komunikatif. Visualisasi ini merupakan hal yang penting untuk pengambilan keputusan selanjutnya, karena di dalamnya dapat dilihat pola data yang sedang diteliti apakah berkecenderungan positif atau negatif. Perkembangan jejaring sosial Twitter dapat memberikan informasi mengenai sentimen ini. Penelitian ini menggunakan topik isu Pemilu 2014 sebanyak 57294 tweet. Algoritma pengklasteran yang digunakan adalah K-Means, Cascade K-Means dan Self-Organizing Map Kohonen. Hasil yang didapat menunjukkan bahwa Cascade K-Means mampu menghasilkan nilai konvergensi kelompok terkecil SSE sebesar 7073 dan Dunn Index 0,67 dengan distribusi sentimen positif berjumlah 26332 tweet, negatif berjumlah 7912 tweet, dan netral berjumlah 23050 tweet. Visualisasi menggunakan grafik dua dimensi dengan evaluator Analisa Komponen Utama (PCA) pada variabel korelasi input 0,95.

Kata kunci : Visualisasi, Twitter, Pengklasteran, K-Means, Cascade K-Means, Self-Organizing Map Kohonen.

I. PENDAHULUAN

Media jejaring sosial memberikan peran yang sangat besar bagi perkembangan teknologi khususnya pada teknologi komunikasi dan informasi. Salah satu dampak yang paling terlihat adalah manusia menjadi lebih terbuka dalam menyatakan pendapat. Twitter yang merupakan salah satu media jejaring sosial sudah menjadi bagian dari pola komunikasi masyarakat. Media ini dikenal sangat populer terutama pada jumlah pengguna dan posting tweet yang tergolong besar pada setiap harinya.

Media jejaring sosial ini erat kaitannya dengan sentimen pengguna. Sentimen tersebut didapat ketika pengguna melakukan tweet. Sentimen berhubungan dengan penilaian terhadap suatu konteks atau wacana. Sentimen positif menyatakan pemberian nilai yang baik pada konteks dalam teks dan sentimen negatif menyatakan kebalikannya.

Pengelompokan sentimen diaplikasikan untuk

mengelompokkan sentimen positif, negatif dan netral. Pola data tweet yang besar tersebut memiliki kecenderungan sifat yang berbeda-beda. Untuk melihat pola data yang ada maka harus digunakan teknik visualisasi. Secara visual, pengguna akan mendapatkan kemudahan untuk melihat kecenderungan data berkorelasi positif atau negatif serta informasi pada setiap kategori tersebut sehingga mempercepat dan mempermudah tugas organisasi untuk memantau dan mengevaluasi kinerjanya. Visualisasi data

tweet tersebut tidak hanya berdasarkan pola kemiripan data

semata, namun yang tidak kalah penting adalah mengenai pola sentimen regional. Sentimen regional dimaksud adalah

sentimen-sentimen pengguna yang dikelompokkan

berdasarkan lokasi tempat tweet tersebut dikirim. Lokasi ini menggambarkan sentimen kewilayahan terhadap isu-isu tertentu tersebut.

Pada penelitian ini, penulis mengambil studi kasus pada situs jejaring sosial Twitter dengan topik sentimen ‘Pemilu 2014’. Tweet dapat berisi sentimen maupun kalimat berita biasa. Data tweet ini kemudian akan divisualisasikan berdasarkan pola sentimen dan lokasinya sehingga akan terlihat pola data sesungguhnya secara cepat dan tepat menggunakan teknik pengelompokan data.

II. DESAIN SISTEM

Alur visualisasi data twitter dalam Tugas akhir ini secara umum ditunjukkan pada Gambar 1 di bawah ini :

Pengumpulan Data Tweet

Pra Pemrosesan Data Tweet

Pengklasteran Data Tweet

Visualisasi Data Tweet Gambar 1 Gambaran Umum Sistem

Dari Gambar 1 diatas, terlihat bahwa sistem dibagi menjadi 4 (empat) tahap besar yaitu; tahap pengumpulan data

tweet, tahap pra perosesan data tweet, tahap pengklasteran

data tweet dan tahap visualisasi data tweet. Keseluruhan dari tahap tersebut dibangun dengan menggunakan dibuat dengan menggunakan bahasa pemrograman Java pada platform Java Development Kit 1.6.0 dan IDE Netbeans 6.7.

Sistem pengumpulan data tweet pada Tugas Akhir ini menganut sistem scrapping dengan menggunakan web

scrapper yaitu scrapperwiki.com. Prosesnya didahului

dengan registrasi pengguna lalu dapat diperoleh fasilitas mencari dan menyimpan data tweet tersebut sesuai dengan kata kunci yang dimasukkan. Dengan menggunakan web

scrapper, data tweet akan secara otomatis tersimpan pada server web tersebut dari waktu ke waktu sampai pengguna

(2)

blok diagram pada Gambar 2 tentang penggunaan

scrapperwiki.com dalam mengumpulkan data tweet :

Gambar 2 Sistem Pengumpulan Data Tweet

Secara umum, tahap pra pemrosesan data tweet tampak pada Gambar 3 (a) dan proses pengklasteran data tweet pada Gambar 3 (b) dapat dilihat pada diagram alir di bawah ini :

(a) (b)

Gambar 3 Diagram Alir Sistem Pra Pemrosesan dan Pengklasteran Data Tweet

Sistem visualisasi dibagi menjadi dua macam yaitu visualisasi data tweet asli dan visualisasi data tweet hasil pengklasteran. Berikut blok diagram beserta penjelasan masing-masing tipe visualisasi yang digunakan :

Gambar 4 Blok Diagram Visualisasi Data Tweet Asli

Dari Gambar 4 di atas, visualisasi tipe pertama adalah visualisasi dengan menggunakan data tweet asli. Data tweet asli yang dimaksud adalah data asli hasil pengunduhan langsung dari scraperwiki.com. Berikut penjelasan masing-masing data yang digunakan :

1. Data pengguna paling aktif, merupakan data pengguna

twitter yang paling banyak melakukan post tweet

berkaitan dengan isu yang dibahas dalam Tugas Akhir ini yakni Pemilu 2014.

2. Data hashtag paling sering muncul, merupakan data

hashtag atau kata kunci dari tweet yang didahului

karakter tanda pagar (#) atau hash yang paling sering digunakan para pengguna twitter dalam posting mereka. 3. Data volume tweet, merupakan data jumlah tweet yang

dihitung dalam kurun waktu bulanan berdasarkan data kolom created_at.

4. Data pengguna paling sering di-mention, merupakan data pengguna yang dalam posting tweet-nya mencantumkan nama pengguna lain sebagai bentuk mention agar orang

atau user yang di-mention tersebut tahu dan

membacanya. Para pengguna yang di-mention oleh pengguna lain ini ditampilkan dalam format grafik.

(a) (b)

(c)

Gambar 5 Desain Antarmuka Visualisasi Data Hasil Pengklasteran

Dari Gambar 5 di atas, visualisasi tipe kedua adalah visualisasi dengan menggunakan data hasil pengklasteran. Secara umum, visualisasi jenis ini dibagi dalam tiga sesi yaitu sesi scatter diagram, sesi peta geografi dan sesi evaluasi klaster.

Pada sesi scatter diagram berdasarkan Gambar 5 (a), data hasil klaster yang terdiri dari ratusan fitur menyebabkan dimensi data menjadi sangat tinggi. Dimensi data yang tinggi tersebut harus direduksi menggunakan fungsi seleksi atribut dengan evaluator Analisa Komponen Utama. Analisa ini akan menghasilkan pemeringkatan atribut-atribut utama yang akan diambil.

Pada sesi peta geografi berdasarkan Gambar 5 (c), setiap data tweet yang memiliki nilai untuk kolom lat dan lng dapat dilakukan plotting pada peta. Tidak semua tweet memiliki data lat dan lng tersebut karena data ini biasanya akan dikirim ketika pengguna melakukan posting tweet dari sebuah mobile gadget seperti handphone atau smartphone.

Dari sesi scatter diagram dan peta geografi, nilai klaster akan direpresentasikan melalui sebuah word cloud berdasarkan Gambar 5 (b). Word cloud merupakan kumpulan kata yang merepersentasikan atau mewakili makna dari klaster. Teknik ini sudah juga sering digunakan dalam melakukan tweet statistic.

(3)

III. TEKNIK PENGKLASTERAN

A. Algoritma K-Means

K-Means merupakan salah satu metode pengelompokan

data nonhierarki yang berusaha mempartisi data yang ada ke

dalam bentuk dua atau lebih kelompok. Tujuan

pengelompokan data ini adalah meminimalkan fungsi objektif yang diset dalam proses pengelompokan, yang pada umumnya berusaha meminimalkan variasi di dalam suatu kelompok dan memaksimalkan variasi antarkelompok [2]. Berikut merupakan algoritma dari k-means :

1. Menentukan jumlah klaster k

2. Menentukan titik pusat klaster (centroid) secara acak. 3. Menemukan centroid terdekat setiap dataset dengan

menghitung jarak setiap data pada masing-masing

centroid. Persamaannya adalah:

D(x1,x2) = ||x2-x1||2 = ∑ | − | (1) 4. Hitung kembali objek pada pusat klaster dengan anggota

klaster yang baru.

5. Ulangi lagi sampai menemukan pusat klaster yang tidak berubah.

B. Algoritma Cascade K-Means

Algoritma Cascade K-Means pada dasarnya tidak berbeda dengan algoritma K-Means sebelumnya. Nilai K akan diperoleh melalui hasil perulangan algoritma K-Means pada data sehingga akan dicari variasi kelompok K terbaik menggunakan sistem skor Calinski-Harabasz dengan persamaan sebagai berikut :

= ∑ || ||

∑ ∑ ∈ || ||×

( )

( ) (2)

Keterangan dari persamaan 2 adalah :

k : nomor kluster N : angka Observasi

mi : centroid dari cluster i x : data poin ci : cluster ke-i

C. Algoritma Self-Organizing Map Kohonen

Self-Organizing Map (SOM) merupakan perluasan dari

jaringan kompetitif yang sering disebut sebagai jaringan Kohonen. Adapun prosedur yang ditempuh dalam melakukan

clustering dengan SOM adalah sebagai berikut [2] :

1. Tentukan weight dari input data secara random. 2. Pilih salah satu input data.

3. Hitung tingkat kesamaan (dengan Eucledian) antara input data dan weight dari input data tersebut, dan pilih input data yang memiliki kesamaan dengan weight yang ada. 4. Perbaharui weight dari input data dengan mendekatkan

weight tersebut ke BMU dengan rumus:

Wv(t+1) = Wv(t) + Theta(v, t) x Alpha(t) x (D(t) – Wv(t))

(3) Dimana :

 Wv(t) : Weight pada saat ke-t

 Theta (v, t) : Fungsi neighbourhood yang tergantung pada Lattice distance antara BMU dengan neuron v. Umumnya bernilai 1 untuk neuron yang cukup dekat dengan BMU, dan 0 untuk yang sebaliknya. Penggunaan fungsi Gaussian juga memungkinkan.  Alpha (t) : Learning Coefficient yang berkurang

secara monotonic  D(t) : Input data

5. Tambah nilai t, sampai t < Lambda, dimana Lambda adalah jumlah iterasi.

Kinerja pada setiap cluster diukur dengan menghitung

SSE (Sum Squared Error). Error merupakan jarak tiap titik

diukur ke cluster yang terdekat. Semakin kecil SSE menunjukkan instance lebih seragam pada klaster yang dikelompokan. Nilai SSE dapat dirumuskan sebagai berikut ini [8] :

= ∑ ∑ ∈ ( , ) (4)

Nilai dist diperoleh dengan menghitung rata jarak anggota atribut cluster ke pusat cluster.

Selain SSE, evaluasi kualitas klaster juga diukur menggunakan Dunn Index (DI). Prinsip kerja metode ini adalah dengan mengukur perbandingan kerapatan data interklaster (diameter) dan jarak antarklaster data.

= min min ,

,

∆ (5)

dimana , adalah jarak anggota tiap klaster dan ∆ adalah jarak antar pusat klaster.

IV. TEKNIK VISUALISASI

Gambar 6 Proses Reduksi Dimensi Data [10]

Dari Gambar 6 di atas, data set dapat memiliki sejumlah besar fitur. Pada sekumpulan dokumen yang setiap dokumennya direpresentasikan oleh sebuah vektor memiliki komponen berupa frekuensi kata yang muncul dalam dokumen. Dalam kasus demikian, terdapat ribuan atau bahkan puluhan ribu atribut (komponen).

Analisa Komponen Utama atau Principal Component

Analysis (PCA) adalah teknik yang digunakan untuk

menyederhanakan suatu data, dengan cara mentransformasi linier sehingga terbentuk sistem koordinat baru dengan variansi maksimum. PCA dapat digunakan untuk mereduksi dimensi suatu data tanpa mengurangi karakteristik data tersebut secara signifikan.

Diberikan dataset matrik X berukuran (n × X) yang terdiri dari n observasi ( ∈ {1,2, … , }) dengan D dimensi. Algoritma dari analisis komponen utama adalah sebagai berikut [12] :

1. Hitung vektor rata-rata ̅ ( ∈ {1,2, … , }) dengan

̅ =∑ (6)

2. Hitung matriks kovariansi C atau cov(X) dengan

= , =∑ ( ̅ )( ̅ ) (7)

3. Hitung nilai eigen λ dan vektor eigen V yang memenuhi persamaan:

| − λI| = 0 (8)

( − λI) = 0 (9)

4. Vektor eigen yang didapatkan merupakan komponen utama untuk membentuk variabel baru. Variabel-variabel baru merupakan perkalian antara vektor eigen V dengan

(4)

matriks Xa, yaitu matriks X yang telah dinormalisasi (adjusted) yang dihitung dengan rumus :

=( ̅) (10)

5. Sedangkan variansi yang dapat dijelaskan oleh variabel baru ke-i tergantung persentase kontribusi pi dari masing-masing nilai eigen, yang dihitung dengan rumus :

=

∑ 100% (11)

Sedangkan penentuan jumlah variabel baru yang digunakan tergantung persentase kontribusi kumulatif dari kumulatif nilai eigen yang telah diurutkan dari nilai yang terbesar. Nilai persentase kontribusi kumulatif sampai komponen ke – r dihitung dengan rumus :

=∑

∑ 100% dengan λ > λ > λ > ⋯ λ (12)

V. PENGUJIAN DAN ANALISA

A. Hasil Visualisasi Data Tweet Asli

Gambar 7 Antarmuka Visualisasi Data Tweet Asli

Pada Gambar 7 di atas terdapat 4 buah grafik visualisasi hasil pembacaan data tweet asli yaitu data pengguna paling aktif, data hashtag paling sering muncul, data volume tweet dan data pengguna paling sering di-mention.

Panel antarmuka pertama menunjukkan pengguna dengan nama ‘@kabarPemilu2014’ adalah pengguna yang paling aktif melakukan tweet tentang pemilu 2014 yakni sebanyak 5238 tweet. Disusul oleh pengguna ‘@AyaVallensha’ sebanyak 3711 tweet dan ‘@JokowiMendengar’ sebanyak 1126 tweet serta ‘@OllaTasya’ sebanyak 842 tweet. Data pada panel ini ditampilkan sebanyak 10 nama pengguna yang paling aktif.

Panel antarmuka kedua menunjukkan data hashtag atau topik yang sering muncul dalam tweet pengguna. Hashtag dengan nama ‘#Pemilu2014’ menempati jumlah tertinggi yakni 1250 tweet. Disusul oleh ‘#Pemilu’ sebanyak 569

tweet dan ‘#politik’ berjumlah 379 tweet. Untuk ‘#Tuit’

sebanyak 249 tweet dan ‘#SEBHEUPDATE’’ sebanyak 197

tweet. Pada panel ini ditampilkan 5 hashtag teratas dengan

ukuran huruf menggambarkan dominasi atau jumlah sebenarnya.

Panel antarmuka ketiga menunjukkan persentase data pengguna paling sering di-mention. Dalam suatu tweet dimungkinkan pengguna dapat melakukan mention agar pengguna yang di-mention tersebut mengetahui dan

membaca tweet bersangkutan. Pada panel tersebut ditampilkan 5 (lima) nama pengguna yang paling sering

di-mention yaitu @TrioMacan2000 (75%), @PemiluCom

(23%), @junhyungcola(1%), @suaramerdeka (1%) dan @TuitSemarang (1%).

Panel antarmuka keempat menunjukkan jumlah data

tweet yang diunduh berdasarkan satuan waktu bulan. Pada

penelitian ini, penulis melakukan pengunduhan data tweet pada bulan Juli 2013 sampai Oktober 2013 pada situs

scraperwiki.com menggunakan kata kunci “Pemilu 2014”,

dan data dengan ukuran 57294 tweet. Untuk bulan Juli sejumlah 12072 tweet, bulan Agustus 14712 tweet, bulan September 16569 tweet dan bulan Oktober 13941 tweet.

B. Hasil Visualisasi Pengklasteran Data Tweet

Gambar 8 Hasil Visualisasi Data dengan K-Means

Gambar 9 Hasil Visualisasi dengan Cascade K-Means

Gambar 10 Hasil Visualisasi Data dengan SOM Kohonen

Sistem pengklasteran data pada data uji coba sebanyak 57294 tweet dilakukan dengan menggunakan algoritma

(5)

Self-Organizing Map (SOM) Kohonen (gambar 10). Data uji coba

tersebut sebelumnya telah dilakukan pra pemrosesan yang meliputi proses case folding, filtering, pembakuan kata (KBBI), stopword removal dan stemming. Percobaan diawali dengan menghitung vektor kata pada setiap kalimat tweet menggunakan metode pembobotan TF-IDF. Hasilnya kemudian digunakan sebagai data masukan proses pengklasteran.

Tabel 1 Hasil perbandingan cluster Tweet dengan variasi algoritma pengelompokan

Algoritma

Data Hasil Pra Pemrosesan

Full Data Cluster 0 () 1 () 2 () 3 () 4 (▀) K-Means 57294 (100%) 271 (0,47%) 33973 (59,30%) 23050 (40,23) - - Cascade K-Means 57294 (100%) 26332 (45,96%) 7912 (13,81%) 23050 (40,23%) - - SOM Kohonen 57294 (100%) 23688 (41,34%) 7907 (13,80%) 2520 (0,23%) 129 (4,40%) 23050 (40,23%)

Tabel 2 Hasil perbandingan evaluasi hasil klaster

Algoritma

Evaluasi Klaster SSE

(Sum of Squared Error) Dunn Index

K-Means 52885 0,16

Cascade K-Means 7073 0,67

SOM Kohonen 9843 0,46

Berdasarkan Tabel 1 dan Tabel 2 di atas, dapat diketahui bahwa pada percobaan menggunakan Algoritma Cascade

K-Means didapat nilai SSE terkecil yakni 7073 dengan rincian cluster 0 sebesar 26332 tweet, cluster 1 sebesar 7912 tweet

dan cluster 2 sebesar 23050 tweet. Variasi percobaan dengan menggunakan algoritma SOM dengan learning rate 0.02 ternyata dihasilkan 5 buah cluster meski hasil SSE-nya tidak menunjukkan kualitas cluster yang relatif baik yakni 9843 jika dibandingkan dengan algoritma Cascade K-Means. Hasil evaluasi kualitas klaster yang sama juga ditunjukkan melalui pengukuran internal Dunn Index pada Tabel 2 Percobaan menghasilkan nilai tertinggi yakni 0,67 pada variasi algoritma Cascade K-Means. Hal ini menunjukkan kualitas terbaik diantara dua variasi algoritma lainnya.

Tabel 3 Hasil perbandingan jenis sentimen cluster Tweet dengan variasi algoritma pengelompokan

Algoritma Sentimen Cluster 0 Cluster 1 Cluster 2 Cluster 3 Cluster 4

K-Means Positif Positif Netral - -

Cascade

K-Means Positif Negatif Netral - -

SOM

Kohonen Positif Positif Negatif Negatif Netral

Penafsiran analisa sentimen pada Tabel 3 di atas adalah hasil dari visualisasi word cloud sebagai vektor kata pembentuk cluster. Penafsiran positif berarti kata-kata yang muncul pada word cloud berkategori positif, dan sebaliknya. Pada sentimen netral, kata-kata yang membentuk cluster tidak dijumpai fitur sentimen yang telah ditentukan.

C. Hasil Visualisasi Pengklasteran Data Tweet Pada Peta

Gambar 11 Hasil Visualisasi Pada Peta dengan Algoritma K-Means

Gambar 12 Hasil Visualisasi Pada Peta dengan Algoritma

Cascade K-Means

Gambar 13 Hasil Visualisasi Pada Peta dengan Algoritma SOM

Dari total seluruh data tersebut, sebanyak 384 tweet memiliki nilai lat dan lng. Gambar 11, 12 dan 13 merupakan hasil visualisasi pada peta terhadap hasil pengklasteran dengan pola warna titik seperti pada Tabel 4 menggunakan algoritma K-Means, Cascade K-Means dan SOM Kohonen.

Tabel 4 Hasil perbandingan jumlah Tweet pada Peta untuk Setiap

cluster dengan variasi algoritma pengelompokan Algoritma

Jumlah Tweet pada Peta

Cluster 0 ( ) Cluster 1 ( ) Cluster 2 ( ) Cluster 3 ( ) Cluster 4 ( ) K-Means 0 223 161 - - Cascade K-Means 143 80 161 - - SOM Kohonen 136 80 3 4 161

(6)

Berdasarkan wilayah tweet di-posting, analisa sentimen dapat dilakukan pada setiap bagian daerah. Analisa sentimen ini untuk mengetahui isu kewilayahan terkait topik yang diteliti yaitu ‘Pemilu 2014’.

Gambar 14 Visualisasi Data Tweet Wilayah Kota Jakarta

Pada Gambar 14 di atas, panel visualisasi menunjukkan sentimen wilayah kota Jakarta pada 142 tweet dengan pilihan kata fitur utama yang bermuatan positif pada kata ‘pilih’, ‘ok’ dan ‘cinta’ dengan total persentase kemunculan sebesar 79%. Berikut Tabel 5 yang menunjukkan data teknis fitur kata wilayah kota Jakarta.

Tabel 5 Fitur Kata Sentimen Wilayah Kota Jakarta

No Fitur Kata Bobot Kemunculan ( % ) 1. pilih 0.3285795915492959 81 2. ok 0.22478174647887317 73 3. cinta 0.22374387323943662 71 4. buka 0.10424895774647888 22 5. sesuai 0.09422159154929578 4 6. cocok 0.09008858450704225 4 7. dukun 0.06937138028169014 2 8. bingung 0.06562292957746478 2 9. dukung 0.06381019014084507 2 10. salam 0.06347278873239436 2

Berdasarkan analisa sentimen daerah terhadap isu nasional “Pemilu 2014”, berikut hasil rekap data tweet pada beberapa wilayah di Indonesia dalam Tabel 6.

Tabel 6 Rekap Analisa Sentimen Berdasarkan Wilayah No. Kota Jumlah Tweet Sentimen

1. Jakarta 142 Positif 2. Bandung 109 Positif 3. Semarang 6 Negatif 4. Yogyakarta 45 Positif 5. Surabaya 12 Positif 6. Denpasar 10 Negatif VI. KESIMPULAN

Berdasarkan aplikasi yang telah dibuat dan hasil uji coba yang telah dilakukan, maka dapat ditarik beberapa kesimpulan sebagai berikut:

1. Cascade K-Means menghasilkan nilai SSE terkecil yaitu 7073 dan nilai Dunn Index tertinggi yaitu 0,67 sehingga algoritma ini menghasilkan cluster terbaik dengan perolehan sentimen positif berjumlah 26332, negatif berjumlah 7912, dan netral berjumlah 23050.

2. SOM menghasilkan nilai SSE 9843 yang terbilang masih lebih tinggi daripada Cascade K-Means, hal yang sama

juga ditunjukkan pada pengukuran Dunn Index yang menunjukkan nilai 0,46 meskipun memiliki jumlah

cluster yang lebih banyak yaitu 5 cluster.

3. Hasil visualisasi data tweet terhadap hasil pengklasteran pada 3 variasi algoritma telah berhasil diimplementasikan pada diagram scattermenggunakan konfigurasi evaluator Analisa Komponen Utama dengan variabel korelasi pada parameter input sebesar 0.95 dan penyertaan seluruh attribut dengan nilai -1 pada variabel attributes include.

DAFTAR PUSTAKA

[1] Sumpeno, Surya, Destuardi. 2009. Klasifikasi Emosi

Untuk Teks Bahasa Indonesia Menggunakan Metode Naive Bayes. Seminar Nasional Pascasarjana ITS.

Surabaya.

[2] Prasetyo, Eko. 2012. Data Mining : Konsep dan

Aplikasi menggunakan Matlab. Andi : Yogyakarta.

[3] Santoso, Budi. 2011. Text Mining dan Web Mining. Fakultas Teknik Informatika UKDW : Yogyakarta. [4] Santoso, Budi. 2006. StudiEM : Sebuah Program Email

Mining. http://budsus.blogspot.com/2006/06/studiem-sebuah-program-email-mining.html. Diakses pada tanggal 3 Juni 2013.

[5] Asian, Jelita. 2007. Effective Techniques for Indonesian

Text Retrieval. PhD thesis School of Computer Science

and Information Technology RMIT University

Australia.

[6] Nurfalah, Adiyasa. 2011. Analisis Sentimen Pada Opini

Berbahasa Indonesia Menggunakan Pendekatan Lexicon-Based. Fakultas Pascasarjana Intitut Teknologi

Telkom. Bandung.

[7] Mahendra, I Putu Adhi Kerta. 2008. Penggunaan

Algoritma Semut dan Confix Stripping Stemmer Untuk Klasifikasi Dokumen Berita Berbahasa Indonesia.

Tugas Akhir. ITS. Surabaya.

[8] R.A. Johnson & D.W. Wichern. 1988. Applied

Multivariate Statistical Analysis. Prentice Hall. USA.

[9] Salton G., 1989. Automatic Text Processing. Cornell University Chapter 9.

[10] Midshipman David G. 2007. Exploring Dimensionality

Reduction For Text Mining. United States Naval

Academy Annapolis. Maryland.

[11] Sri Mulyana, Edi Winarko. 2009. Teknik Visualisasi

Dalam Data Mining. Seminar Nasional Informatika.

Yogyakarta.

[12] Ronny Susetyoko, Elly Purwantini. 2009. Teknik

Reduksi Dimensi Menggunakan Komponen Utama Data Partisi Pada Pengklasifikasian Data Berdimensi Tinggi dengan Ukuran Sampel Kecil. Jurnal. PENS.

[13] Harianja, Henri. 2008. Visualisasi K-Means Clustering

Pada Data Potensi Pertanian Desa Di Bogor Menggunakan Mapserver. Skripsi. Institut Pertanian

Bogor.

[14] Indrawati, Nur. 2008. Natural Language Processing

(NLP) Bahasa Indonesia Sebagai Preprocessing Pada Text Mining. Jurnal Institut Tinggi Teknologi Telkom.

Bandung.

[15] Adiwijaya, Igg. 2006. Texi Mining dan Knowledge

Discovery. Komunitas Data mining Indonesia &