CLUSTERING
DATA TEKS TWITTER UNTUK
KASUS PERTANIAN DI INDONESIA
RYAN BUDIMAN DENATARI
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Clustering Data Teks Twitter untuk Kasus Pertanian di Indonesia adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.
ABSTRAK
RYAN BUDIMAN DENATARI. Clustering Data Teks Twitter untuk Kasus Pertanian di Indonesia. Dibimbing oleh HARI AGUNG ADRIANTO.
Mayoritas pengguna internet di Indonesia mengakses media sosial. Hal tersebut menyebabkan masyarakat dapat memperoleh informasi dan menyebarkannya dengan lebih cepat. Informasi yang beredar melalui media sosial sangat beragam, termasuk di dalamnya topik pertanian. Hal ini dapat dimanfaatkan untuk menganalisis kasus pertanian di Indonesia, dengan melakukan clustering data teks Twitter untuk kasus pertanian di Indonesia. Data yang digunakan yaitu data teks Twitter berjumlah 102 data. Data teks Twitter terbagi menjadi 2 jenis, yaitu data tweet sejumlah 51 data dan data konten uniform resource locator sejumlah 51 data. Kedua jenis data tersebut dibandingkan dan dikelompokkan dengan algoritme hierarchical clustering untuk mendapatkan cluster terbaik. Data teks tersebut diukur kemiripannya dengan metode cosine similarity. Hasil cluster terbaik yang diperoleh yaitu jenis data konten uniform resource locator pada complete linkage yang terbagi ke dalam 12 cluster, dengan nilai sum of squared error 0.1499 pada ketinggian 0.032. Data konten uniform resource locator lebih baik karena memiliki jumlah term yang lebih banyak sehingga lebih merepresentasikan isi topik dari data. Jumlah data konten uniform resource locator yang diberi label berjumlah 50 data yang terbagi ke dalam 11 cluster.
Kata kunci: clustering, cosine similarity, hierarchical clustering, twitter
ABSTRACT
RYAN BUDIMAN DENATARI. Twitter Text Data Clustering for Agricultural Case in Indonesia. Supervised by HARI AGUNG ADRIANTO.
Majority of internet users in Indonesia use social media. Through social media people obtain and disseminate information more quickly. The information from social media is very diverse, including agricultural topics. It can be used to analyze agricultural cases in Indonesia, by performing clustering Twitter text data for agricultural cases in Indonesia. The data used are 102 Twitter data. Twitter text data was divided into 2 types, namely 51 tweet data and 51 uniform resource locators. Both types of data are compared and clustered by hierarchical clustering algorithm to get the best cluster. The text data similarity is measured using cosine. Best cluster results obtained are the uniform resource locators in complete linkage which are divided into 12 clusters, with sum of squared error value of 0.1499 at height of 0.032. Uniform resource locator data are better because they have more terms, so that they represent the contents of the data subject more. The data labeled are 50 uniform resource locators which are divided into 11 clusters.
Skripsi
sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer
pada
Departemen Ilmu Komputer
CLUSTERING
DATA TEKS TWITTER UNTUK
KASUS PERTANIAN DI INDONESIA
RYAN BUDIMAN DENATARI
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR
Penguji:
Judul Skripsi : Clustering Data Teks Twitter untuk Kasus Pertanian di Indonesia Nama : Ryan Budiman Denatari
NIM : G64110022
Disetujui oleh
Hari Agung Adrianto, SKom MSi Pembimbing
Diketahui oleh
Dr Ir Agus Buono, MSi MKom Ketua Departemen
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak bulan Januari 2015 ini ialah clustering, dengan judul Clustering Data Teks Twitter untuk Kasus Pertanian di Indonesia.
Penulis menyadari bahwa dalam proses penulisan skripsi ini banyak mengalami kendala, namun berkat bantuan, bimbingan, kerjasama dari berbagai pihak dan berkah dari Allah subhanahu wa ta'ala sehingga kendala-kendala yang dihadapi tersebut dapat diatasi. Terima kasih penulis ucapkan kepada Bapak Hari Agung Adrianto, SKom MSi selaku pembimbing, serta Ibu Dr Imas Sukaesih Sitanggang, SSi MKom dan Ibu Husnul Khotimah, SKomp MKom selaku penguji yang telah banyak memberi saran. Ungkapan terima kasih juga disampaikan kepada ayah, ibu, dan seluruh keluarga, serta teman-teman Departemen Ilmu Komputer atas segala doa dan kasih sayangnya.
Semoga karya ilmiah ini bermanfaat.
DAFTAR ISI
DAFTAR TABEL vi
DAFTAR GAMBAR vi
PENDAHULUAN 1
Latar Belakang 1
Perumusan Masalah 1
Tujuan Penelitian 2
Manfaat Penelitian 2
Ruang Lingkup Penelitian 2
METODE 2
Data Penelitian 2
Tahapan Penelitian 2
Masukan Term Document Matrix (TDM) 3
Perubahan Term Frequency (TF) Menjadi Bentuk Vektor 3
Perhitungan Cosine Similarity 3
Hierarchical Clustering 4
Analisis Hasil Clustering 4
Lingkungan Pengembangan 5
HASIL DAN PEMBAHASAN 5
Masukan Term Document Matrix (TDM) 5
Perubahan Term Frequency (TF) Menjadi Bentuk Vektor 6
Perhitungan Cosine Similarity 7
Hierarchical Clustering 8
Analisis Hasil Clustering 11
SIMPULAN DAN SARAN 20
Simpulan 20
Saran 20
DAFTAR TABEL
1 Parameter linkage (Han et al. 2012) 4
2 Nilai SSE cluster data tweet 12
3 Nilai SSE cluster data konten URL 12
4 Daftar term pada cluster (jumlah cluster = 3) 14
5 Daftar term pada cluster (jumlah cluster = 6) 16
6 Daftar term pada cluster (jumlah cluster = 12) 18
7 Label data 19
DAFTAR GAMBAR
1 Tahapan penelitian 3
2 Term document matrix 6
3 Vektor term frequency 7
4 Cosine distance matrix 8
5 Dendrogram complete linkage 9
6 Dendrogram single linkage 10
7 Dendrogram average linkage 10
8 Grafik perbandingan nilai SSE 13
9 Dendrogram data konten URL height 0.783 14
10 Diagram Venn untuk jumlah cluster = 3 15
11 Dendrogram data konten URL height 0.653 16
12 Diagram Venn untuk jumlah cluster = 6 17
PENDAHULUAN
Latar Belakang
Pada tahun 2013, pengguna internet di Indonesia mencapai 63 juta orang dan 95 persen di antaranya menggunakan internet untuk mengakses media sosial (Kemenkominfo 2013). Menurut Adler dan Rodman (2006), komunikasi secara online dianggap lebih murah, cepat, dan mudah. Komunikasi dengan menggunakan media sosial juga tidak terikat ruang dan waktu sehingga memudahkan siapapun dalam berinteraksi, berkomunikasi, dan memperoleh informasi.
Beberapa penelitian menggunakan data dari media sosial telah dilakukan sebelumnya. Susanto et al. (2014) telah melakukan penelitian menggunakan tweet berbahasa Indonesia dengan teknik clustering untuk menganalisis sentimen tweet dengan topik Pemilu 2014. Teknik clustering yang digunakan antara lain algoritme k-means, cascade k-means, dan self organizing map (SOM) Kohonen. Penelitian tersebut bertujuan membandingkan masing-masing algoritme, dengan hasil algoritme cascade k-means sebagai algoritme terbaik dengan nilai SSE terkecil.
Adityawan (2014) melakukan penelitian tentang analisis sentimen dengan klasifikasi naive Bayes pada pesan Twitter menggunakan data seimbang. Penelitian ini bertujuan mengklasifikasikan data tweet dengan jenis data seimbang pada sentimen yang telah ditentukan menggunakan metode klasifikasi naive Bayes dengan model multinomial dan Bernoulli.
Pada penelitian ini dilakukan clustering data teks Twitter. Clustering adalah teknik pengelompokkan beberapa objek data ke dalam cluster. Objek data pada satu cluster memiliki kesamaan yang tinggi jika dibandingkan dengan objek data pada cluster lain. Teknik ini dapat menghasilkan label pada suatu objek data (Han et al. 2012). Algoritme yang digunakan dalam penelitian ini yaitu hierarchical clustering. Hierarchical clustering adalah algoritme yang dapat digunakan untuk mengelompokkan data teks atau dokumen. Algoritme tersebut bertujuan membuat hierarki dari cluster. Hasil dari algoritme hierarchical clustering dapat divisualisasikan dalam bentuk dendrogram (Han et al. 2012).
Selain dilakukan clustering, antar-tweet juga diukur kemiripannya. Metode pengukuran kemiripan yang digunakan yaitu cosine similarity. Menurut Sree dan Murthy (2012), cosine similarity adalah teknik pengukuran kesamaan antara dua vektor dimensi n dengan mencari cosinus dari sudut antara kedua vektor tersebut. Metode cosine similarity ini banyak digunakan untuk menghitung kemiripan (similarity) antardokumen.
Perumusan Masalah
Perumusan masalah pada penelitian ini adalah:
1 Bagaimana melakukan clustering data teks Twitter dengan menggunakan algoritme hierarchical clustering?
2
Tujuan Penelitian
Tujuan dari penelitian ini adalah melakukan clustering data teks Twitter dengan menghitung kemiripan (similarity) antardata dan memberi label pada data tersebut.
Manfaat Penelitian
Manfaat penelitian ini untuk memberikan label pada data teks Twitter dengan topik pertanian sehingga bermanfaat untuk proses visualisasi data pada sistem informasi geografis (SIG).
Ruang Lingkup Penelitian
Ruang lingkup pada penelitian ini adalah:
1 Data yang digunakan dalam penelitian berupa data teks Twitter yang terdiri dari dua jenis, yaitu data tweet dan data konten uniform resource locator (URL).
2 Data teks Twitter tersebut sudah melalui tahapan praproses terlebih dahulu sebelum dilakukan proses clustering.
3 Algoritme clustering yang digunakan adalah hierarchical clustering.
4 Metode pengukuran kemiripan antardata yang digunakan adalah cosine similarity.
METODE
Data Penelitian
Data yang digunakan dalam penelitian ini adalah data teks Twitter berjumlah total 102 data. Data tersebut dibagi menjadi data tweet dan data konten URL. Data konten URL diperoleh dari data tweet dan masih berhubungan dengan tweet tersebut. Data tersebut sudah melalui tahap praproses terlebih dahulu sehingga diproses dalam bentuk term document matrix (TDM). TDM adalah matriks yang berisi rincian jumlah term (term frequency) dari masing-masing data. Data konten URL yang digunakan berjumlah 51 data dan mengandung 728 term, sedangkan data tweet yang digunakan berjumlah 51 data dan mengandung 66 term.
Tahapan Penelitian
3
Masukan Term Document Matrix (TDM)
Data masukan berupa data tweet dan data konten URL. Kedua jenis tweet tersebut sudah dilakukan praproses sehingga berbentuk term document matrix (TDM).
Perubahan Term Frequency (TF) Menjadi Bentuk Vektor
Tahapan ini mengubah term frequency (TF) pada TDM menjadi bentuk vektor. Tujuannya memperoleh TF pada masing-masing data dalam bentuk vektor dan menghilangkan row names yang berisi term.
Perhitungan Cosine Similarity
Perhitungan cosine similarity antardata menghasilkan cosine distance matrix. Nilai-nilai yang ada dalam matriks tersebut digunakan sebagai dasar pengelompokkan data ke dalam bentuk dendrogram. Berikut rumus penghitungan cosine similarity (Sree dan Murthy 2012):
4
Tahapan ini mengelompokkan data menggunakan algoritme hierarchical clustering. Terdapat beberapa parameter linkage (pengukuran jarak) dalam hierarchical clustering, yaitu complete linkage, single linkage, dan average linkage. Single linkage menggunakan jarak minimum antaranggota di setiap cluster sehingga hasil cluster memiliki tingkat kemiripan yang besar antaranggotanya dalam satu cluster. Complete linkage menggunakan jarak maksimum antaranggota di setiap cluster sehingga hasil cluster memiliki tingkat kemiripan yang minimum, tetapi jarak antar-cluster menjadi besar. Average linkage menggunakan jarak rata-rata antaranggota di setiap cluster. Hasil clustering divisualisasikan dalam bentuk dendrogram. Rumus perhitungan untuk ketiga tipe linkage dapat dilihat pada Tabel 1.
Tabel 1 Parameter linkage (Han et al. 2012)
Parameter Rumus
Single linkage distmin(Ci, Cj) = | - | Complete linkage distmax(Ci, Cj) = a | - | Average linkage distavg(Ci, Cj) =
∑ | - |
dengan:
distmin(Ci, Cj) = jarak minimum antar-cluster, distmax(Ci, Cj) = jarak maksimum antar-cluster, distavg(Ci, Cj) = jarak rata-rata antar-cluster,
p = objek data p,
’ = objek data ’, Ci = cluster ke-i, Cj = cluster ke-j, dan |p- ’| = jarak antara dua objek.
ni = jumlah objek pada cluster ke-i, nj = jumlah objek pada cluster ke-j.
Analisis Hasil Clustering
5 squared error (SSE) pada cluster. Analisis subjektif dilakukan dengan melihat term dominan dan relevan pada masing-masing cluster sebagai dasar pemberian label pada data. Rumus penghitungan SSE sebagai berikut (Tan et al. 2006):
∑ ∑
dengan:
= jumlah kelas, = objek data,
= titik pusat kelas i (digunakan medoid sebagai titik pusat kelas i), dan = fungsi jarak, yaitu jarak cosine.
Lingkungan Pengembangan
Spesifikasi perangkat keras dan perangkat lunak yang digunakan untuk penelitian ini adalah sebagai berikut:
Perangkat keras:
Processor Intel Core i5-3210M 2.5 GHz Harddisk 750 GB
RAM 4 GB
Perangkat lunak:
Sistem operasi Windows 7 Ultimate Edition RStudio versi 0.98.1103
Microsoft Excel 2010
HASIL DAN PEMBAHASAN
Masukan Term Document Matrix (TDM)
6
a) Term document matrix untuk data tweet
b) Term document matrix untuk data konten URL Gambar 2 Term document matrix
Pada Gambar 2a dapat dilihat TDM untuk data tweet yang terdiri dari 51 data dan 66 term. Pada Gambar 2b dapat dilihat TDM untuk data konten URL yang terdiri dari 51 data dan 728 term. Kolom pada TDM berisi keterangan data tweet atau konten URL. Baris berisi keterangan daftar term yang terdapat pada data tweet atau konten URL.
Perubahan Term Frequency (TF) Menjadi Bentuk Vektor
7 1 vectorTF = cbind(TDM[1:66]) #Angka 1:66 menunjukkan jumlah term 2 for(i in (2:51)){ #Angka 2:51 menunjukkan data ke-2 sampai 51
3 vectorTF <- cbind(vectorTF,TDM[((i-1)*66)+1:((i)*66)]) 4 }
5 colnames(vectorTF) <- colnames(TDM) #penamaan header
Kode implementasi tersebut bertujuan mengubah TF ke bentuk vektor dan menggabungkannya satu sama lain. Setelah digabungkan, kumpulan TF yang berbentuk vektor tersebut terlihat seperti pada Gambar 3.
a) Vektor TF untuk data tweet
b) Vektor TF untuk data konten URL Gambar 3 Vektor term frequency
Pada Gambar 3a dapat dilihat vektor TF untuk data tweet. Pada Gambar 3b dapat dilihat vektor TF untuk data konten URL. Kolom menunjukkan TF dalam bentuk vektor.
Perhitungan Cosine Similarity
8
a) Cosine distance matrix untuk data tweet
b) Cosine distance matrix untuk data konten URL Gambar 4 Cosine distance matrix
Pada Gambar 4a dapat dilihat cosine distance matrix untuk data tweet. Pada Gambar 4b dapat dilihat cosine distance matrix untuk data konten URL. Cosine distance matrix berisi nilai jarak kemiripan cosinus antardata. Pada jarak kemiripan cosinus, data dapat dikatakan memiliki kemiripan (similarity) yang tinggi dengan data yang lainnya apabila nilainya semakin mendekati angka 1. Sementara itu, data dikatakan memiliki kemiripan yang rendah atau tidak memiliki kemiripan jika nilainya semakin mendekati angka 0. Berikut ini merupakan kode implementasi penghitungan cosine similarity pada bahasa R, dengan menggunakan library lsa pada software RStudio.
1 library(lsa) #mengaktifkan library lsa pada RStudio 2 cosine_matrix <- cosine(matrixTF) #menghitung cosine
Hierarchical Clustering
9
a) Dendrogram complete linkage untuk data konten URL
b) Dendrogram complete linkage untuk data tweet Gambar 5 Dendrogram complete linkage
Pada Gambar 5a dapat dilihat dendrogram complete linkage untuk data konten URL. Dendrogram untuk data konten URL mengandung 13 cluster pada ketinggian 0.0, sedangkan pada Gambar 5b dapat dilihat dendrogram complete linkage untuk data tweet. Dendrogram untuk data tweet mengandung 18 cluster pada ketinggian 0.0. Berikut merupakan contoh tampilan dendrogram single linkage yang diberikan pada Gambar 6.
10
b) Dendrogram single linkage untuk data tweet Gambar 6 Dendrogram single linkage
Pada Gambar 6a dapat dilihat dendrogram single linkage untuk data konten URL. Dendrogram untuk data konten URL mengandung 13 cluster pada ketinggian 0.0. Pada Gambar 6b dapat dilihat dendrogram single linkage untuk data tweet. Dendrogram untuk data tweet mengandung 18 cluster pada ketinggian 0.0. Berikut merupakan contoh tampilan dendrogram average linkage yang diberikan pada Gambar 7.
a) Dendrogram average linkage untuk data konten URL
11 Pada Gambar 7a dapat dilihat dendrogram average linkage untuk data konten URL. Dendrogram untuk data konten URL mengandung 13 cluster pada ketinggian 0.0. Pada Gambar 7b dapat dilihat dendrogram average linkage untuk data tweet. Dendrogram untuk data tweet mengandung 18 cluster pada ketinggian 0.0. Berikut ini merupakan kode implementasi pembuatan dendrogram pada bahasa R.
1 library(cluster) #mengaktifkan library cluster 2 library(proxy) #mengaktifkan library proxy
3 dendrogram <- dist(cosine_matrix, method="cosine")
4 fit <- hclust(dendrogram, method="complete") #complete linkage 5 plot(fit, hang=-1) #plot dendrogram
Berdasarkan Gambar 5, 6, dan 7, hasil cluster yang terbentuk untuk ketiga parameter linkage memiliki kesamaan pada masing-masing anggota cluster. Hal tersebut dikarenakan pada saat pembuatan dendrogram, data yang dikelompokkan lebih awal adalah data yang memiliki nilai similarity terbesar. Pada jenis data konten URL, data ke-46 termasuk pencilan karena memiliki nilai ketidakmiripan yang besar terhadap cluster lainnya. Pada jenis data tweet, data ke-10 dan 11 termasuk pencilan karena memiliki nilai ketidakmiripan yang besar terhadap cluster lainnya. Selain itu, data tersebut dianggap pencilan karena mengandung term yang tidak relevan atau memiliki kemiripan yang minimum jika dibandingkan dengan tweet pada cluster lain. Data ke-46 pada jenis data tweet tidak termasuk pencilan karena data tersebut memiliki kemiripan yang besar dengan data pada cluster lainnya dan memiliki term yang relevan, tidak seperti term yang terdapat pada data ke-46 untuk jenis data konten URL.
Terdapat perbedaan bentuk cluster yang terbentuk dari ketiga jenis dendrogram pada Gambar 5, 6, dan 7. Pada Gambar 5, dendrogram complete linkage menghasilkan jarak cluster yang saling berjauhan satu sama lain. Hal itu disebabkan karena prinsip complete linkage yang menggunakan jarak terjauh (maksimum) pada penentuan jarak antar-cluster. Pada Gambar 6, dendrogram single linkage menghasilkan jarak cluster yang saling berdekatan satu sama lain. Hal itu disebabkan karena prinsip single linkage yang menggunakan jarak terdekat (minimum) pada penentuan jarak antar-cluster. Pada Gambar 7, dendrogram average linkage menggunakan prinsip nilai rata-rata dalam penentuan jarak antar-cluster.
Pada penelitian ini, parameter linkage yang digunakan yaitu complete linkage. Hal tersebut dikarenakan complete linkage menggunakan jarak maksimum dalam penghitungan cluster sehingga jarak antar-cluster yang dihasilkan menjadi berjauhan satu sama lain (Han et al. 2012). Menurut Han et al. (2012), clustering dengan complete linkage meminimalkan peningkatan diameter cluster di setiap iterasi sehingga menghasilkan cluster yang berkualitas tinggi.
Analisis Hasil Clustering
12
cluster. Analisis subjektif dilakukan dengan melihat term dominan dan relevan pada masing-masing cluster sebagai dasar pemberian label pada data.
1 Analisis Objektif
Analisis objektif dilakukan dengan menghitung nilai SSE. Penghitungan nilai SSE dilakukan dengan mencari centroid (titik pusat) dari masing-masing cluster. Centroid tersebut diperoleh dengan menghitung nilai rata-rata (mean) dari objek data pada masing-masing cluster, kemudian dihitung dengan cosine similarity ke masing-masing objek data pada cluster. Objek data yang memiliki jarak terdekat dengan centroid dipilih menjadi medoid. Medoid merupakan suatu objek data yang dipilih untuk merepresentasikan titik pusat suatu cluster. Selanjutnya, dilakukan kembali pengukuran jarak cosine similarity antara medoid yang baru terbentuk dan masing-masing objek data pada cluster. Hasil dari masing-masing jarak tersebut dilakukan pengkuadratan dan penjumlahan sehingga diperoleh nilai SSE untuk cluster tersebut. Hasil dari penghitungan nilai SSE untuk kedua jenis tweet dapat dilihat pada Tabel 2 dan 3.
Tabel 2 Nilai SSE cluster data tweet Height Jumlah cluster SSE
1.000 2 22.4360
Tabel 3 Nilai SSE cluster data konten URL Height Jumlah cluster SSE
13 Berdasarkan nilai SSE pada Tabel 2 dan 3, dapat dilakukan perbandingan nilai SSE cluster untuk kedua jenis data tersebut. Visualisasi perbandingan nilai SSE cluster tersebut dapat dilihat pada Gambar 8.
Gambar 8 Grafik perbandingan nilai SSE
Gambar 8 memperlihatkan grafik perbandingan nilai SSE untuk kedua jenis data. Perbedaan nilai SSE tersebut tidak terlalu signifikan. Jika dilihat berdasarkan Tabel 2 dan 3, cluster yang paling baik adalah cluster untuk jenis data konten URL karena memiliki nilai SSE terkecil sebesar 0.1499 dengan jumlah 12 cluster. Sementara itu, cluster untuk jenis data tweet dengan jumlah 12 cluster memiliki nilai SSE sebesar 0.2661.
Oleh karena itu, berdasarkan analisis objektif, cluster yang dijadikan acuan dalam proses pemberian label pada data adalah cluster dendrogram complete linkage untuk jenis data konten URL dengan jumlah 12 cluster.
2 Analisis Subjektif
14
Gambar 9 Dendrogram data konten URL height 0.783
Masing-masing data pada cluster tersebut memiliki beberapa term yang dominan. Daftar term pada cluster tersebut dapat dilihat pada Tabel 4.
Tabel 4 Daftar term pada cluster (jumlah cluster = 3)
Cluster Data ke- Term
A 46 puisi, cinta, hati, galau, gelap, sedih, sulit, mudah, nikmat, kecewa, selamat, diam, banjir, lahar, dingin, sawah, erupsi, gagal, panen, awan, panas, jagung, kacang, ketimun, rusak, dimakan, kelinci, menyerbu, ladang, palawija, sayur, batang, pohon, kerusakan, tani, hutan, perkebunan, hama, sagu, sorghum, bibit, penyakit, curah, hujan, suhu, ulat, merusak, daun, pestisida, insektisida, pencegahan, hama, tunas, anggrek, buah, aglaonema, anthurium, bonsai, penyakit, hidroponik, kaktus, sansevieria, obat, tani, kutu, daun, cabai, puso, banjir,
Tabel 4 memperlihatkan bahwa terdapat cluster yang berisi data pencilan, yaitu cluster A yang berisi data ke-46. Hal tersebut disebabkan term yang
15 terkandung dalam data ke-46 tidak relevan dengan kasus pertanian. Jika dilihat pada Gambar 9, data ke-46 tersebut memiliki nilai ketidakmiripan sebesar 0.813 sehingga dianggap data pencilan.
Term pada suatu cluster dapat beririsan satu sama lain dengan term pada cluster lainnya. Visualisasi daftar term yang saling beririsan dalam bentuk diagram Venn dapat dilihat pada Gambar 10.
Gambar 10 Diagram Venn untuk jumlah cluster = 3
Pada Gambar 10 dapat dilihat bahwa terdapat beberapa term yang saling beririsan pada cluster B dan C. Term yang beririsan tersebut secara umum membahas kasus gagal panen pada tanaman. Namun, perbedaan terletak pada jenis komoditinya. Cluster C membahas gagal panen pada tanaman hias, sedangkan pada cluster B tidak.
16
Gambar 11 Dendrogram data konten URL height 0.653
Masing-masing data pada cluster tersebut memiliki beberapa term yang dominan. Daftar term pada cluster tersebut dapat dilihat pada Tabel 5.
Tabel 5 Daftar term pada cluster (jumlah cluster = 6)
Cluster Data ke- Term
A 46 puisi, cinta, hati, galau, gelap, sedih, sulit, mudah, nikmat, kecewa, selamat, diam, banjir, lahar, dingin, sawah, erupsi, gagal, panen, awan, panas, jagung, kacang, ketimun, rusak, dimakan, kelinci, menyerbu, ladang, palawija, sayur, batang, pohon, kerusakan, tani, hutan, perkebunan, hama, sagu, sorghum, bibit, penyakit, curah, hujan, suhu, ulat, merusak, daun, pestisida, insektisida, wereng, iklim, tropis, walang, sangit, buah, keong, serang, kembang, lahan.
C 10, 51 bunga, hias. anthurium, bonsai, hidroponik, kaktus, obat, tani, kutu, daun, pucuk, cokelat, mengenai kasus penyelundupan komoditas pertanian secara ilegal. Cluster E
17 membahas mengenai tanaman cabai. Cluster F secara umum membahas kasus gagal panen pada tanaman hias. Visualisasi daftar term yang saling beririsan dalam bentuk diagram Venn dapat dilihat pada Gambar 12.
Gambar 12 Diagram Venn untuk jumlah cluster = 6
Pada Gambar 12, dapat dilihat bahwa terdapat beberapa term yang saling beririsan. Cluster B dan F umumnya membahas kasus gagal panen. Cluster C membahas tanaman hias. Cluster D membahas kasus penyelundupan komoditas secara ilegal. Cluster E membahas tanaman cabai.
18
Gambar 13 Dendrogram data konten URL height 0.032
Masing-masing data pada cluster tersebut memiliki beberapa term yang dominan. Daftar term pada masing-masing cluster dapat dilihat pada Tabel 6.
Tabel 6 Daftar term pada cluster (jumlah cluster = 12)
Cluster Data ke- Term
A 46 puisi, cinta, hati, galau, gelap, sedih, sulit, mudah, nikmat, kecewa, selamat, diam. B 21, 22, 23 tanam, padi, terancam, puso, irigasi,
banjir, lahar, dingin, sawah, gagal, panen. C 47, 48, 49, 50 tanam, jagung, kacang, ketimun, rusak, dimakan, kelinci, ladang, palawija, sayur, panen, batang, pohon, tani.
D 11 hama, tanam, padi, sagu, jagung,
sorghum, bibit, penyakit, curah, hujan, suhu, tani, ulat, daun, obat, pestisida, batang, insektisida, wereng, buah, kelopak, iklim, tropis, koloni, walang, sangit, katak, sawah, larva, fotosintesis. E 24, 25, 26, 27, 28, 29, 30,
31, 32, 33, 34, 35, 36, 37
tani, keong, serang, tanam, padi, hama, populasi, sawah, irigasi, sawah, lahan.
19 Tabel 6 memperlihatkan bahwa data ke-46 memiliki term yang tidak relevan dengan kasus pertanian. Data lainnya memiliki beberapa term yang relevan terkait kasus pertanian. Oleh karena itu, data ke-46 dianggap sebagai data pencilan dan data tersebut tidak diperhitungkan saat proses pemberian label pada data. Hal tersebut dikarenakan data ke-46 memiliki nilai ketidakmiripan mendekati angka 1.0 sehingga data tersebut berjauhan dengan cluster lainnya. Jumlah data yang digunakan pada proses pemberian label berjumlah 50 data yang terbagi ke dalam 11 cluster. Tabel 7 memperlihatkan daftar data yang sudah diberi label terkait pertanian.
Tabel 7 Label data
Cluster Data ke- Label
B 21, 22, 23 Ancaman gagal panen
C 47, 48, 49, 50 Serangan hama kelinci pada tanaman
D 11 Pemberantasan hama pada tanaman
E 24, 25, 26, 27, 28, 29, 30, 31,
K 12, 13 Serangan hama pada tanaman coklat
L 14, 4, 5, 6, 7, 8, 9, 15, 16, 17, 18, 19, 20
Gagal panen
Berdasarkan Tabel 7, jumlah data yang diberi label berjumlah 50 data yang terbagi dalam 11 cluster. Pemberian label pada data dilakukan secara subjektif dengan melihat term yang dominan dan relevan. Pada cluster B, term yang terkandung membahas mengenai tanaman yang terancam mengalami gagal panen sehingga cluster tersebut diberi label ancaman gagal panen. Pada cluster C, term yang terkandung membahas mengenai hewan kelinci yang menyerang tanaman pertanian sehingga cluster tersebut diberi label serangan hama kelinci pada tanaman. Pada cluster D, term yang terkandung membahas mengenai upaya pemberantasan hama yang menyerang tanaman sehingga cluster tersebut diberi label pemberantasan hama pada tanaman.
20
tanaman hias sehingga cluster tersebut diberi label pencegahan hama pada tanaman hias. Pada cluster K, term yang terkandung membahas mengenai hama yang menyerang tanaman coklat (kakao) sehingga cluster tersebut diberi label serangan hama pada tanaman coklat. Pada cluster L, term yang terkandung secara umum membahas mengenai gagal panen yang menyerang sawah atau lahan pertanian sehingga cluster tersebut diberi label gagal panen.
SIMPULAN DAN SARAN
Simpulan
Clustering data teks Twitter dan proses pemberian label pada data berhasil dilakukan. Proses pemberian label pada data dilakukan secara subjektif dengan melihat term yang dominan dan relevan terkait kasus pertanian. Hasil clustering terbaik diperoleh dari jenis data konten URL berjumlah 12 cluster, dengan nilai SSE 0.1499. Hasil clustering tersebut menunjukkan bahwa terdapat 12 cluster, yaitu sembilan cluster yang memiliki lebih dari satu data dan tiga cluster yang terdiri dari satu data. Sembilan cluster tersebut terbentuk karena data terbentuk dari proses retweet sehingga tidak mengubah komposisi term. Jumlah cluster yang diberi label berjumlah 11 cluster dengan jumlah 50 data. Secara umum, seluruh data tersebut memiliki topik yang terkait dengan gagal panen. Topik gagal panen tersebut terbagi menjadi beberapa kasus yang lebih spesifik pada ketinggian (height) yang semakin rendah. Kasus gagal panen tersebut meliputi ancaman gagal panen, serangan hama pada jenis tanaman tertentu, pencegahan hama pada jenis tanaman tertentu, dan komoditi tanaman tertentu.
Saran
21
DAFTAR PUSTAKA
Adityawan E. 2014. Analisis sentimen dengan klasifikasi naïve Bayes pada pesan Twitter menggunakan data seimbang [skripsi]. Bogor (ID): Institut Pertanian Bogor.
Adler RB, Rodman G. 2006. Understanding Human Communication. New York (US): Oxford Univ Pr.
Han J, Kamber M, Pei J. 2012. Data Mining: Concept and Techniques. Ed ke-3. Massachusetts (US): Morgan Kauffman.
[Kemenkominfo] Kementerian Komunikasi dan Informatika. 2013. Kominfo: pengguna internet di Indonesia 63 juta orang [Internet]. [diunduh 2014 Nov 24]. Tersedia pada: http://kominfo.go.id/index.php/content/detail/3415/ Kominfo+%3A+Pengguna+Internet+di+Indonesia+63+Juta+Orang/0/berita _satker.
Sree S, Murthy JVR. 2012. Clustering based on cosine similarity measure. International Journal of Engineering Science & Advanced Technology. 2(3): 508-512.
Susanto H, Sumpeno S, Rachmadi RF. 2014. Visualisasi data teks Twitter berbasis Bahasa Indonesia menggunakan teknik pengklasteran [Internet]. [diunduh 2015 Apr 8]. Tersedia pada: http://digilib.its.ac.id/public/ITS-paper-35629-2209105030-Paper.pdf.
22
RIWAYAT HIDUP
Penulis dilahirkan di DKI Jakarta pada tanggal 3 Juni 1993. Penulis adalah anak ketiga dari tiga bersaudara, anak dari pasangan Benjamin Natari dan Tinekawaty.