ANALISIS TEXT-MINING DENGAN METODE DENSITY-BASED CLUSTERING PADA PESAN MEDIA SOSIAL UNTUK PEMETAAN LOKASI KECELAKAAN

(1)

31 Jurnal Nasional JMII 2016

ANALISIS TEXT-MINING DENGAN METODE DENSITY-BASED

CLUSTERING PADA PESAN MEDIA SOSIAL UNTUK

PEMETAAN LOKASI KECELAKAAN

Nurjayanti

Fakultas Teknis, Jurusan Teknik Informatika Universitas Widyatama

Jalan Cikutra No. 204A, Bandung, Indonesia [email protected]

Abstrak

Salah satu fungsi media sosial adalah untuk berbagi pesan atau kabar berita dari satu pengguna kepada pengguna media sosial lainnya. Adanya kesadaran atau perhatian (awareness) masyarakat terhadap kejadian nyata seperti kecelakaan menjadi pemicu bagi masyarakat untuk menggunggah kabar berita tersebut ke media sosial. Pesan pada media sosial yang diunggah seringkali menyebutkan lokasi kejadian tersebut.

Proses deteksi kejadian secara real-time lengkap dengan informasi geospatial merupakan dasar dalam membuat pemetaan lokasi kecelakaan ini. Yang disebut kejadian pada penelitian ini adalah pesan media sosial yang memiliki topik “kecelaakan alat transportasi”. Dengan menggunakan text-mining, pesan tersebut dapat diproses untuk diperoleh infomasi geospatial yang kemudian dapat

divisualisasikan kedalam peta. Algoritma yang digunakan pada text-mining dengan metode

density-based clustering yaitu algoritma DBSCAN (Density-Based Spatial Clustering of Applications with Noise).

Algoritma DBSCAN menggunakan dua parameter yaitu radius masing-masing anggota cluster dengan inti cluster Eps ( ) dan MinPts (Minimal Points) yang memberikan batasan jumlah minimum anggota

cluster dalam Eps. Ektraksi lokasi kemudian

dilakukan pada cluster yang dihasilkan proses

clustering. Visualisasi peta dilakukan terhadap lokasi cluster yang diekstrak menggunakan metode NER rule-based dan parsing lokasi ke Google Maps

Geocoding API. Kata kunci :

geospatial, text-mining, density-based clustering,

DBSCAN, NER rule-based

Abstract

Social media has a function as messages or news feed sharing platform between users, either in the form of texts, images, photos, or videos. The public awareness on real-time events such as accidents become a trigger for users to upload the news feed into social media. Messages on social media often mentioned the location where the event happened.

The process of events detection in real-time and geospatial information is the basis for mapping event location. An event in this study is a message on social media which has “transportation accident” as the topic. The social media messages can be processed to obtain geospatial information by using text-mining and then visualized into a map. The algorithm used in the text-mining with density-based clustering method is DBSCAN (Density-Based Spatial Clustering of Applications with Noise) algorithm. DBSCAN algorithm uses two parameters: the radius of each cluster member to the cluster core (ε) and MinPts (Minimal Points) which provides a minimum number of cluster members in Eps. Extraction locations then performed on each cluster that produced from clustering. Mapping visualization is done against cluster locations that are extracted using NER rule-based method and parsing to Google Maps Geocoding API.

Keywords :

geospatial, text-mining, density-based clustering,

(2)

I. P

ENDAHULUAN

Proses deteksi kejadian secara real-time lengkap dengan informasi geospatial merupakan dasar dalam membuat pemetaan lokasi. Yang disebut kejadian pada penelitian ini adalah pesan media sosial yang memiliki topik “kecelaakan alat transportasi”.

Algoritma yang akan digunakan pada

text-mining dengan metode density-based clustering yaitu

algoritma DBSCAN (Density-Based Spatial

Clustering of Applications with Noise). Algoritma

DBSCAN menggunakan dua parameter yaitu radius masing-masing anggota cluster dengan inti cluster ( ) dan MinPts (Minimal Points) yang memberikan batasan jumlah minimum anggota cluster dalam Eps.

II. L

ANDASAN

T

EORI

a. Text-mining dan Data Mining

Data mining dapat lebih dikarakterisasi sebagai

ekstraksi dari implisit, yang sebelumnya tidak diketahui, dan informasi yang berpotensi berguna dari data [12]. Informasi pada data mining diperoleh dari data implisit: data tersebut tersembunyi, tidak dikenali, dan sulit diekstrak tanpa sumber daya untuk teknik otomatis data mining. Sementara text-mining, informasi yang diekstrak adalah jelas dan eksplisit disebutkan dalam teks [10].

b. Vector Space Model (VSM)

Vector Space Model adalah teknik pada teks clustering yang digunakan untuk pembobotan dengan

merepresentasikan teks sebagai kumpulan titik di suatu ruang vektor. Dalam VSM, teks direpresentasikan dalam bentuk vektor (t1, t2, ... ti) dimana setiap ti mewakili sebuah kata. Kumpulan teks kemudian direpresentasikan dalat satu set vektor yang dapat digambarkan dalam bentuk matriks sebagai berikut. Perhitungan bobot pada VSM dapat menggunakan TF-IDF (Term Frequency – Inverse

Document Frequency) dimana dari matriks diatas

bobot direpresentasikan oleh setiap elemen xji [5]. Perhitungan bobot dengan TF-IDF dapat dilihat pada persamaan 1:

c. Analisa Cluster

Analisa cluster atau clustering adalah proses pembagian atau pengelompokan (partitioning) satu set objek data kedalam beberapa subset yang disebut

cluster. Objek dalam sebuah cluster bisa memiliki

kemiripan satu dengan yang lainnya atau ketidakmiripan dengan objek pada cluster lain [5]. Density-Based Clustering

Density-based clustering adalah metode clustering yang dapat digunakan untuk mencari clusters yang betuknya berubah-ubah (arbitary shape) yang dimodelkan berupa daerah yang padat

(dense regions) pada ruang data yang dipisahkan oleh daerah yang jarang (sparse regions) [5].

Algoritma DBSCAN: Density-Based Spatial Clustering of Applications with Noise

Algoritma DBSCAN digunakan pada spatial

database yang memuat noise. Density dari objek

dapat diukur dari banyaknya objek yang dekat ke . DBSCAN mencari objek inti (core objects) yaitu objek yang memiliki daerah sekitar yang padat (dense

neighborhoods). DBSCAN menghubungkan (density-connected) objek inti dan daerah sekitarnya untuk

membentuk daerah padat sebagai cluster. Sementara objek yang bukan anggota cluster dianggap sebagai

noise [5]. Berikut contoh pseudocode algoritma

DBSCAN.

Algoritma II.1 DBSCAN: a density-based clustering algorithm

Input :

D: a data set containing n objects : the radius parameter, and MinPts : the neighborhood density threshold

Output: A set of density-based clusters Method:

(1) mark all objects as unvisited; (2) do

(3) randomly select an unvisited object p;

(4) mark p as visited;

(5) if the -neighborhood of p has at least MinPts objects

(6) create a new cluster C, and add p to C;

(7) let N be the set of objects in the -neighborhood of p;

(3)

(9) if p’ is unvisited

(10) mark p’ as visited;

(11) if the -neighborhood of p’

has at least MinPts points,

(12) add those points to N;

(13) if p’ is not yet member of

any cluster, add p’ to C;

(14) end for;

(15) output C;

(16) else mark p as noise;

(17) until no object is unvisited; Evaluasi Clustering

Silhoutte coefficient merupakan metode evaluasi cluster secara internal dimana menggabungkan

konsep cohesion (bagaimana relasi kedekatan/ kepadatan objek dalam cluster) dan separation (seberapa baiknya masing-masing cluster terpisah antara satu dan lainnya).

Silhoutte coefficient didefinisikan sebagai

berikut pada persamaaan 2.

Dimana a(o) adalah rata-rata jarak objek o ke objek lain dalam cluster dan b(o) adalah minimal jarak rata-rata dari objek o ke objek lain dalam

cluster berbeda. Nilai silhoutte coefficient adalah

antara -1 dan 1. Kondisi yang baik adalah jika nilai

silhoutte coefficient mendekati 1, yang menunjukan cluster dimana objek o berada padat dan jauh terpisah

dari cluster lainnya.

d. Named Entity Recognition

Named Entity Recognition (NER) merupakan sub-tasks dari Information Extraction (IE) [6]. NER

merupakan bagian penting dari Natural Language

Processing (NLP). NER bertugas untuk mencari dan

menklasifikasi nama (entitas) dalam teks yang ditulis dengan bahasa natural.

III. A

NALISIS DAN

P

ERANCANGAN

a. Sumber Data

Jenis data yang digunakan adalah teks tweet pada Twitter yang berisi informasi kecelakaan dimana teks menggunakan bahasa Indonesia. Pengambilan teks tweet dibatasi parameter kata kunci dan bahasa. Data yang dipilih berasal dari

banyak pengguna Twitter. Attribut yang dipilih adalah teks tweet dengan jumlah maksimal karakter per teks adalah 140 karakter.

Tabel 1 Daftar Kata Kunci Pencarian Data

Kata

Kunci Format Parameter

kecelakaan kecelakaan, kecelakaan mobil, kecelakaan motor, _{kecelakaan kendaraan} tabrakan tabrakan, tabrakan mobil, tabrakan motor, tabrakan _{kendaraan, menabrak}

Metode scrapping web digunakan pada pengambilan data secara langsung dari halaman Twitter Search. Implementasi program akan mengakses URL https://twitter.com/i/search/timeline.

Proses dimulai dengan mengirimkan query

permintaan pencarian teks tweet. Apabila respon yang dikirimkan kembali oleh Twitter adalah sukses, teks tweet kemudian diekstrak dari informasi yang diterima. Teks tweet yang diekstrak tersebut kemudian disimpan sebagai data mentah (raw data). Sementara jika gagal permintaan akan dikirimkan kembali oleh sistem.

b. Tahapan Penelitian

Berikut gambaran alur kerja atau tahapan penelitian implementasi text-mining dengan metode

density-based clustering pada media sosial yang akan

dilakukan. Tahapan penelitian diatas sebagai berikut: 1. Raw Data, pada tahap ini data penelitian

dikumpulkan kemudian disimpan dan disebut sebagai data mentah (raw data).

2. Preprocessing, data mentah diolah pada tahap

preprocessing sehingga sesuai dan siap diproses

oleh text-mining, yaitu pada tahap implementasi

density-based clustering.

3. Data after preprocessing merupakan data yang diperoleh dari tahap preprocessing.

4. Density-Based Clustering, tahap implementasi metode density-based clustering pada data hasil

preprocessing. Pada proses clustering, jarak

antar teks dihitung menggunakan fungsi

Euclidean Distance kemudian proses clustering

dilakukan dengan algoritma DBSCAN.

5. Extract locations, ektraksi informasi lokasi dari teks pada cluster dengan menggunakan NER

rule-based untuk memilih teks yang diperkirakan

mengandung informasi lokasi secara eksplisit. Kata hasil keluaran NER kemudian di parsing

(4)

menggunakan Google Maps Geocoding API untuk meminta informasi geocoding.

6. Data from text-mining, data hasil keluaran penerapan metode density-based clustering. 7. Analysis & evaluation, analisa dan evaluasi hasil

keluaran metode density-based clustering dan hasil ekstraksi lokasi dari setiap cluster yang dihasilkan proses clustering.

8. Result, data yang sudah dievaluasi kemudian diproses untuk dibuat kedalam visualisasi pemetaan atau geospatial. Pada tahap ini dibuat hasil dan kesimpulan dari penelitian.

9. Mapping, tahap menampilkan visualisasi pemetaan lokasi kecelakaan. Pemetaan dilakukan dengan bantuan Google Maps Geocoding API. Tahapan Preprocessing

Pada tahap preprocessing dihasilkan data set yang siap untuk diproses oleh metode density-based

clustering. Tahapan preprocessing terdiri dari sub

tahap yaitu text-preprocessing dan pembobotan kata.Pada text-preprocessing dilakukan case folding dan tokenizing pada data mentah yang dikumpulkan. Proses processing diawali dengan inisialisasi tabel

hash yaitu tabel yang digunakan untuk menyimpan

frekuensi kemunculan kata pada sejumlah data yang akan diproses oleh clustering.Teks pada data yang dihasilkan tahap text-preprocessing dipecah ke dalam bentuk kata kemudian dihitung bobot untuk kata tersebut. Pembobotan kata akan menghasilkan nilai TF-IDF setiap kata pada teks. Persamaan untuk menghitung TF-IDF yang digunakan sebagai berikut.

Tahapan Implementasi DBSCAN

Hasil pembobotan kata yang sudah dilakukan kemudian digunakan dalam proses density-based

clustering. Algoritma DBSCAN yang akan

diimplementasikan akan membuat cluster sesuai dengan parameter masukan, yaitu dan MinPts.

Parameter dan MinPts akan mempengaruhi jumlah cluster yang terbentuk. DBSCAN akan membuat suatu daerah yang berpusat di dengan radius sebesar , sehingga anggota cluster adalah objek-objek dalam radius dari objek pusat .

Perhitungan jarak objek p ke objek pusat dapat menggunakan pengukuran numerik yaitu menggunakan Euclidean Distance. Berikut rumus

Euclidean Distance:

Tahapan Visualisasi Pemetaan

Visualisasi dilakukan terhadap setiap cluster yang dihasilkan DBSCAN. Adapun tahapan pada visualisasi pemetaan antara lain:

1. Tahap ekstraksi lokasi masing-masing cluster dengan menggunakan NER rule-based.

2. Visualisasi dengan menggunakan Google Maps Geocoding API dimana parameter yang digunakan adalah kata pada setiap cluster. Dengan menggunakan geocoding akan

dihasilkan koordinat geografis (dalam latitude dan longitude) yang kemudian dapat digunakan sebagai titik lokasi pada Google Maps.

Respon status yang diberikan geocoding pada permintaan (request) yang dikirimkan terdiri dari kode berikut: [4]

Tabel 2 Respon Status Geocoding

Status Keterangan

OK

menunjukan tidak ada error terjadi. Alamat berhasil diuraikan dan paling sedikit satu geocode dikembalikan. ZERO_RESULTS

menunjukan geocode berhasil tetapi mengembalikan hasil kosong. Hal tersebut mungkin jika geocoder memberikan alamat yang tidak ada (not existing address).

OVER_QUERY_LIMIT menunjukan bahwa permintaan _{melebihi kuota}

REQUEST_DENIED menunjukan bahwa permintaan ditolak

INVALID_REQUEST umumnya menunjukan bahwa query (address, components atau latlng) hilang

UNKNOWN_ERROR

menunjukan bahwa permintaan tidak dapat diproses karena server error. Pemintaan munkin berhasil diproses jika dikirim ulang.

IV. I

MPLEMENTASI

D

AN

A

NALISIS

Preprocessing

Penelitian implementasi density-based clustering dilakukan terhadap 50 pesan teks dari

(5)

Twitter. Preprocessing dimulai dengan

text-preprocessing yang terdiri dari tahap case folding dan tokenizing. Setelah text-preprocessing selesai

kemudian dilanjutkan dengan tahap pembobotan kata. Data hasil text-preprocessing dibentuk kedalam vektor yang direpresentasikan dengan kata. Kemudian dihitung frekuensi kemunculan setiap kata tersebut. Berikut contoh data pada tabel hasil perhitungan bobot yang dilakukan oleh sistem.

Tabel 3 Pembobotan Kata

Terms F term on text Total text with terms Total Text TFIDF

arah 1 9 50 0.745

Perhitungan untuk kata “arah” pada teks kesatu muncul sebanyak 1 kali dalam teks ke-1 dimana dari 50 teks yang diuji kata muncul pada 9 teks. Sehingga perhitungannya adalah sebagai berikut.

(5) Density-based Clustering dengan DBSCAN

Setiap teks adalah objek yang akan diuji kedekatannya oleh DBSCAN dalam proses

clustering. Pada tahap awal, DBSCAN akan

menandai semua objek sebagai “unvisited” dan kemudian memilih secara random satu objek untuk diuji kedekatannya dengan menggunakan fungsi pengukuran jarak yaitu Euclidean Distance. Berikut hasil clustering untuk dan minpts = 1 untuk 50 teks yang diuji.

Tabel 4 Contoh Hasil Clustering

ID Teks Cluster

1 gunakan jalur sesuai ketentuan jangan melawan arus karena rawan kecelakaan kesadaran kita keselamatan semua pictwittercomuzyzwcnq

7 2 gunakan jalur sesuai ketentuan jangan melawan

arus krn rawan kecelakaan kesadaran kita keselamatan semua pictwittercomlitosjblr

7

Iterasi pengujian pada teks dilakukan sampai semua teks dikunjungi (visited). Misal jika objek berikutnya yaitu teks-1 dan teks-2 yang akan diuji dimana teks-1 adalah objek pusat cluster C1 maka

perhitungan jaraknya adalah:

Tabel 5 Contoh Perhitungan Bobot

p Term TFIDF1 TFIDF2

x J i 1 arus 1.097 1.097 0 2 gunakan 1.222 1.222 0 3 jalur 1.097 1.097 0 4 jangan 1.097 1.097 0 5 karena 1.398 0 1.954404 6 kecelakaan 0.009 0.009 0 7 kesadaran 1.398 1.398 0 8 keselamatan 1.398 1.398 0 9 ketentuan 1.398 1.398 0 10 kita 1.398 1.398 0 11 melawan 1.398 1.398 0 12 pictwittercomuzyzwcnq 1.699 0 2.886601 13 rawan 0.854 0.854 0 14 semua 1.398 1.398 0 15 sesuai 1.398 1.398 0 16 pictwittercomlitosjblr 0 1.699 2.886601 ∑ 7.727606

Teks-2 karena berada didalam radius yaitu

sehingga teks-2 adalah anggota cluster C1.

(6)

semua noise akan diuji, termasuk objek r apakah berada dalam radius untuk clusteratau tidak. Visualisasi Pemetaan

Data yang dihasilkan DBSCAN kemudian diproses pada tahap preprocessing visualiasi yaitu dengan menghitung frekuensi kemunculan kata dalam sebuah cluster. Kemudian dilakukan pengecekan apakah kata dapat diidentifikasi oleh Google Maps Geocoding. Berikut contoh tabel hasil pengecekan lokasi menggunakan Google Maps Geocoding, informasi yang diberikan terdiri dari status, longitude, latitude, dan alamat.

Pengujian dan Analisis

Jumlah cluster yang dihasilkan dari proses

density-based clustering menunjukan jumlah

kejadian (event) yaitu kecelakaan yang terjadi. Pada percobaan menggunakan nilai diantara 1 sampai 10 untuk data 50 teks tweet yang diambil secara

real-time pada tanggal 21 Juni 2016 diperoleh jumlah

kejadian sebagai berikut.

Gambar 1 Grafik Jumlah Kejadian (Event) Kecelakaan yang Terjadi

Gambar 2 Grafik Keterhubungan Nilai Epsilon, MinPts, dan Jumlah Cluster

Dari grafik pada gambar 2 dapat dilihat bahwa jumlah cluster yang dihasilkan dari proses clustering dipengaruhi oeh nilai dan MinPts. Pada percobaan yang dilakukan jumlah cluster paling banyak pada nilai MinPts = 1 dan dimana sebuah cluster paling sedikit memiliki anggota 1 teks tweet dan jarak antara teks dengan inti cluster . Sementara jumlah cluster yang paling sedikit pada pada nilai dimana berarti jarak antara teks dengan inti

cluster . Sehingga dapat disimpulkan bahwa

semakin kecil nilai dan MinPts maka jumlah

cluster semakin banyak. Dan sebaliknya semakin

besar nilai dan MinPts maka jumlah cluster semakin sedikit.

Pengujian hasil keluaran sistem dilakukan pada 6 skenario pengujian. Dimana pengujian dilakukan dengan variasi parameter ϵ dan MinPts untuk melihat jumlah cluster yang dihasilkan. Evaluasi clustering dilakukan dengan menghitung nilai Silhoutte

Coefficient. Nilai Silhoutte Coefficient adalah antara

-1 dan -1. Kondisi yang baik adalah jika nilai Silhoutte

Coefficient mendekati 1, yang menunjukan cluster

dimana teks tweet berada padat dan jauh terpisah dari cluster lainnya. Berikut nilai Silhoutte

Coefficient pada masing-masing skenario pengujian.

Tabel 6 Hasil Evaluasi Clustering

MinPts Jumlah Cluster Jumlah Teks dalam Cluster Silhoutte Coefficient 5 1 26 50 0.055 6 1 9 50 0.142 7 1 2 50 0.254 3 2 2 4 0.532 4 2 2 10 0.522 5 2 2 26 0.126

Dari hasil evaluasi clustering diatas diperoleh nilai Silhoutte Coefficient yang paling mendekati 1 adalah hasil clustering pada skenario 4 yaitu 0.532 dengan 3, MinPts = 2 dan jumlah cluster 2. Dimana nilai Silhoutte Coefficient pada skenario 4 menunjukan bahwa teks dalam cluster memiliki

density yang baik dan memiliki kemiripan atau

(7)

Nilai Silhoutte Coefficient pada skenario 1 sebesar 0.055 dengan 5, MinPts = 1 dan jumlah

cluster 26 adalah nilai yang paling mendekati -1.

Sehingga pada skenario 1 teks dalam cluster memiliki density yang kurang baik dan memiliki kemiripan atau kesamaan kejadian yang lebih rendah. Setelah dilakukan evaluasi clustering, kemudian dilakukan analisa terhadap informasi lokasi yang ditemukan pada hasil clustering. Pengujian informasi lokasi dilakukan dengan membandingkan hasil keluaran sistem dengan hasil observasi pada informasi lokasi yang eksplisit ada pada teks dalam

cluster.

Tabel 7 Hasil Pengujian Lokasi pada Cluster

Jumlah Cluster Silhoutte Coefficient Jumlah Lokasi Ditemukan Jumlah Lokasi Benar Jumlah Lokasi Salah Probalitas Lokasi Benar Probalitas Lokasi Salah 26 0.055 26 14 12 0.538 0.462 9 0.142 26 14 12 0.538 0.462 2 0.254 26 14 12 0.538 0.462 2 0.532 2 2 0 1 0 2 0.522 5 5 0 1 0 2 0.126 17 11 6 0.647 0.353

Dari pengujian diatas dihasilkan kemungkinan lokasi

cluster benar paling tinggi pada percobaan clustering

pada skenario ke-4 dengan 3 dan MinPts = 2 dan skenario ke-5 dengan 4 dan MinPts = 2.

Dari pengujian diatas dihasilkan kemungkinan lokasi cluster benar paling tinggi pada percobaan

clustering pada skenario ke-4 dengan 3 dan MinPts = 2 dan skenario ke-5 dengan 4 dan MinPts = 2.

Gambar 3 Grafik Hubungan Jumlah Cluster dan Probalitas Lokasi

Pada skenario pengujian 4 dan 5 probalitas lokasi benar lebih tinggi dibandingkan dengan hasil skenario 3 dan 6 walaupun jumlah cluster sama. Hal ini dipengaruhi juga nilai Silhoutte Coefficient pada skenario 4 dan 5 yang paling mendekati 1. Dimana dapat disimpulkan bahwa pada skenario ke 4 dan 5, teks pada cluster memiliki kemiripan atau kesamaan kejadian lebih tinggi sehingga probalitas lokasi kejadian yang ditemukan juga lebih tinggi.

V. K

ESIMPULAN

Dari penelitian yang dilakukan dapat diambil kesimpulan sebagai berikut:

1. Density-based clustering menggunakan

algoritma DBSCAN dapat digunakan untuk mendeteksi dan mengelompokan kejadian (event) nyata yang diunggah user melalui pesan pada media sosial. DBSCAN membuat sejumlah cluster berdasarkan paramater

masukan yaitu dan MinPts.

2. Identifikasi dan ekstraksi informasi geospatial atau lokasi dari suatu event pada sebuah cluster dapat menggunakan Google Maps Geocoding API, dimana parameter pencarian yang digunakan adalah kata pada teks anggota

cluster. Informasi koordinat geografis yang

(8)

titik lokasi pada visualisasi pemetaan lokasi kecelakaan.

3. Nilai parameter dan MinPts mempengaruhi jumlah cluster yang dihasilkan proses

clustering. Semakin kecil nilai dan MinPts

maka jumlah cluster semakin banyak. Dan sebaliknya semakin bear nilai dan MinPts maka jumlah cluster semakin sedikit.

4. Nilai silhoutte coefficient pada evaluasi

clustering mempengaruhi probalitas lokasi

benar dari cluster. Jika nilai silhoutte coefficient mendekati 1 maka probalitas lokasi benar semakin tinggi dan jika nilai silhoutte

coefficient mendekati -1 maka probalitas lokasi

benar semakin rendah.

5. Hasil keluaran sistem sudah dapat memberikan informasi lokasi kecelakaan. Informasi lokasi berupa daftar kemungkinan lokasi yang ada secara eksplisit dalam teks pesan media sosial pada setiap cluster. Akan tetapi hasil keluaran belum dapat disajikan dengan baik untuk publik karena lokasi yang ditemukan belum spesifik menyebutkan suatu lokasi dengan detail.

R

EFERENSI

[1]. Chung-Hong, L. (2012). Mining spatio-temporal information on microblogging streams using a density-based online clustering method. 39(10).

[2]. Data Mining. (n.d.). Retrieved March 20, 2015, from Oracle:

http://www.oracle.com/technetwork/database/o ptions/advanced-analytics/odm/index.html [3]. Ester, M., Kriegel, H.-P., Sander, J., & Xu, X.

(n.d.). A density-based algorithm for

discovering clusters in large spatial databases with noise.

[4]. Google Maps APIs. (n.d.). Retrieved May 20,

2016, from Google Developers:

https://developers.google.com/maps/documenta tion/geocoding

[5]. Han, J., Kamber, M., & Pei, J. (2012). Data Mining Concepts and Techniques, Third Edition. USA: Elsevier Inc.

[6]. Konkol, M. (2012). Named Entity Recognition. Pilsen: University of West Bohemia.

[7]. Krstajic, M., Rohrdantz, C., Hund, M., & Weiler, A. (2012). Getting There First: Real-Time Detection of Real-Word Incidents on Twitter. Proceedings of the 2nd IEEE Workshop on Interactive Visual Text Analytics -IEEE VisWeek 2012. Seattle, WA, USA: Konstanzer Online Publications System. [8]. Kusrini, & Luthfi, E. T. (2009). Algoritma Data

Mining. Yogyakarta: ANDI.

[9]. Sebastiani, F. (2002). Machine learning in

automated text categorization. ACM

Computing, 34, 1-47.

[10]. The Streaming APIs | Twitter Developers. (n.d.). Retrieved 05 01, 2016, from Twitter: https://dev.twitter.com/streaming/overview [11]. Witten, I. (2005). Text mining. In M. Singh,

Practical handbook of internet computing. Boca Raton, Florida: Chapman & Hall/CRC Press. [12]. Witten, I. a. (2000). Data mining: Practical

machine learning tools and techniques. San Francisco, CA: Morgan Kaufmann.