Clustering Mobilitas Masyarakat Berdasarkan Moda Transportasi Menggunakan Metode K-Means

(1)

Fakultas Ilmu Komputer

Universitas Brawijaya

2459

Clustering Mobilitas Masyarakat Berdasarkan Moda Transportasi

Menggunakan Metode K-Means

Humam Aziz Romdhoni1_{, M. Tanzil Furqon}2_{, Sigit Adinugroho}3

Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya Email: 1_{[email protected],}2_{[email protected],}3_{[email protected]}

Abstrak

Mobilitas masyarakat adalah perpindahan masyarakat dari satu tempat ke tempat lain. Mobilitas masyarakat merupakan topik yang patut untuk diteliti. Karena dengan mengetahui mobilitas masyarakat kita dapat mengetahui pola rute yang dilalui, moda transportasi yang dipilih, lama waktu perjalanan, dan lain-lain. Di era modern ini, data lintasan perpindahan seorang individu dapat diketahui melalui GPS (Global Positioning System). Data-data GPS yang diperoleh tersebut dapat diolah menjadi informasi yang berguna, seperti moda transportasi apa saja yang digunakan oleh setiap individu. Untuk melakukan pengolahan data tersebut dapat digunakan salah satu metode data mining, yaitu clustering. Clustering dipilih karena data GPS untuk setiap moda transportasi dianggap mempunyai karakteristik yang hampir sama, sehingga metode pengambilan informasi yang paling tepat adalah dengan cara dikelompokkan. Salah satu metode clustering yang populer adalah k-means. Pada penelitian ini diketahui bahwa hasil

cluster dengan metode k-means memiliki kualitas sedang sampai baik pada nilai k mendekati jumlah

jenis moda transportasi dilihat dari nilai silhouette coefficient. Akan tetapi dari hasil pengujian ketepatan, metode k-means menunjukkan persentase yang baik yaitu sebesar 90%.

Kata kunci: clustering, k-means, lintasan

Abstract

Peoples mobility is the movement of people from one place to another. Peoples mobility is a worthy topic to research. Because by knowing the mobility of society we can know the pattern of the route traversed, the chosen transportation mode, the duration of travel, and others. In this modern era, moving trajectory data of an individual can be known through GPS (Global Positioning System). GPS data obtained can be processed into useful information, such as what each mode of transportation used by each individual. To perform this data processing, we can use one method of data mining, which name is clustering. Clustering is chosen because GPS data for each mode of transport is considered to have almost the same characteristics, so the most appropriate method of information retrieval is by grouping. One of the popular clustering methods is means. In this research we can see that the cluster with k-means method has medium to high quality when k value close to quantity of transportation mode seen from the value of silhouette coefficient. From the results of accuracy testing, k-means method shows a good percentage that is 90%.

Keywords: clustering, k-means, trajectory

1. PENDAHULUAN

Mobilitas masyarakat adalah perpindahan masyarakat dari satu tempat ke tempat lain. Mobilitas masyarakat merupakan topik yang patut untuk diteliti. Karena dengan mengetahui mobilitas masyarakat kita dapat mengetahui pola rute yang dilalui, moda transportasi yang dipilih, lama waktu perjalanan, dan lain-lain. Di era modern ini, data perpindahan seorang individu

dapat diketahui melalui GPS. Salah satu proyek yang mengumpulkan data lintasan GPS adalah

Microsoft GeoLife (Zheng, 2007). Proyek ini

merupakan jejaring sosial berbasis lokasi. Data-data GPS yang diperoleh tersebut dapat diolah menjadi informasi yang berguna, seperti moda transportasi apa saja yang digunakan oleh setiap individu. Dengan mengetahui hal tersebut diharapkan masyarakat mempunyai banyak pilihan yang dapat digunakan sebagai pertimbangan untuk melakukan sebuah

(2)

perjalanan. Untuk melakukan pengolahan data tersebut dapat digunakan salah satu metode data

mining, yaitu clustering. Clustering adalah

metode untuk menganalisa data dan bertujuan untuk mengelompokkan data yang mempunyai karakteristik yang sama. Clustering dipilih karena data GPS untuk setiap moda transportasi dianggap mempunyai karakteristik yang hampir sama, sehingga metode pengambilan informasi yang paling tepat adalah dengan cara dikelompokkan. Salah satu metode clustering yang populer adalah k-means. Metode ini memisahkan dan membagi objek ke daerah-daerah yang terpisah sesuai dengan banyaknya k yang telah ditentukan. K-means dipilih karena metode ini mudah untuk diimplementasikan serta mudah untuk diadaptasi.

2. DATA DAN METODE CLUSTERING

2.1. Microsoft GeoLife GPS Trajectory

Data yang digunakan dalam penelitian ini adalah data lintasan GPS yang didapatkan dari proyek Microsoft GeoLife GPS Trajectory. Data GPS ini dikumpulkan oleh 182 pengguna pada proyek GeoLife dalam kurun waktu kurang lebih lima tahun (sejak April 2007 hingga Agustus 2012). Data GPS ini direpresentasikan sebagai rangkaian titik koordinat yang disertai waktu. Titik koordinat tersebut terdiri dari latitude,

longitude, dan altitude. Data ini berisi 17.621

lintasan dengan total jarak mencapai 1.292.951 kilometer dan total durasi selama 50.176 jam. 91,5 persen dari data lintasan diambil dengan representasi yang padat, yaitu setiap 1 – 5 detik atau setiap 5 – 10 meter per poin.

Data yang dibutuhkan untuk diolah adalah data latitude, longitude, dan altitude. Sebanyak 30 titik koordinat dianggap mewakili satu lintasan berdasarkan moda transportasi.

2.2. Metode K-means

Metode k-means merupakan salah satu metode non hirarkial clustering yang populer digunakan. Metode ini pertama kali diperkenalkan oleh MacQueen JB pada tahun 1976. Metode ini membagi atau memisahkan objek ke k kelompok atau golongan bagian yang terpisah. Metode k-means mengharuskan setiap objek masuk ke dalam golongan yang terbentuk, akan tetapi pada suatu tahapan langkah tertentu, objek yang telah menjadi anggota dalam satu golongan tadi akan berpindah ke golongan lain pada tahapan proses berikutnya.

Langkah-langkah metode k-means:

1. Menentukan k sebagai jumlah cluster yang ingin dibentuk.

2. Menentukan nilai secara acak untuk pusat

cluster awal (centroid) sebanyak k.

3. Menghitung jarak setiap data yang dimasukkan terhadap masing-masing

centroid menggunakan rumus Eucledian Distance hingga ditemukan jarak yang

paling dekat antara setiap data dengan

centroid. Berikut ini adalah persamaan Eucledian Distance: 𝑑(𝑥𝑖, 𝑦𝑗) = √(𝑥𝑖− 𝑦𝑗) 2 (2-1) Keterangan: 𝑥𝑖: Data kriteria

𝑦𝑗: Centroid pada cluster j

4. Mengelompokkan setiap data berdasarkan kedekatannya dengan centroid (jarak terkecil).

5. Memperbaharui nilai centroid. Nilai

centroid yang baru didapatkan dari rata-rata cluster yang bersangkutan dengan menggunakan rumus:

𝑦𝑗(𝑡 + 1) = 1

𝑁_𝑠𝑗∑𝑗∈𝑠𝑗𝑥𝑗 (2-2)

Keterangan:

𝑦𝑗(𝑡 + 1): Centroid baru pada iterasi ke

t + 1

𝑁𝑠𝑗: Banyaknya data pada cluster j

6. Melakukan perulangan dari langkah 2 hingga 5 sampai anggota tiap cluster tidak ada yang berubah.

7. Jika langkah 6 telah terpenuhi, maka nilai pusat cluster pada perulangan terakhir akan digunakan sebagai parameter untuk menentukan klasifikasi data.

2.3. Sillhouette Coefficient

Metode pengujian yang digunakan dalam penelitian ini adalah metode Silhoutte Coeffisient. Metode ini akan menguji kualitas

dari setiap cluster yang dihasilkan dengan menggabungkan metode cohesion dan

separation.

Ada tiga langkah yang perlu dilakukan untuk menghitung Silhoutte Coeffisient, yaitu: 1. Untuk setiap objek i, hitung rata-rata jarak

objek i dengan seluruh objek yang berada dalam satu cluster. Maka akan didapatkan nilai rata-rata yang disebut dengan ai.

(3)

2. Untuk setiap objek i, hitung rata-rata jarak dari objek i dengan objek yang berada di

cluster lainnya. Dari semua jarak rata-rata

tersebut diambil nilai yang paling kecil. Nilai ini disebut dengan bi.

3. Setelah itu maka nilai Silhoutte Coeffisient dari objek i adalah:

𝑆𝑖= (𝑏𝑖− 𝑎𝑖)/𝑚𝑎𝑥(𝑎𝑖, 𝑏𝑖) (2-3)

Keterangan:

𝑎𝑖: Rata-rata jarak objek i terhadap

seluruh objek di dalam cluster

𝑏𝑖: Rata-rata jarak objek i terhadap

seluruh objek di luar cluster

Ukuran nilai Silhoutte Coeffisient

(Kaufman dan Rousseeuw, 2008): • 0,7 < SC <= 1 Strong structure • 0,5 < SC <= 0,7Medium structure • 0,25 < SC <= 0,5Weak structure • SC <= 0,25 No structure 3. PEMBAHASAN 3.1. Proses Clustering

Contoh perhitungan clustering dengan menggunakan metode k-means ini dilakukan terhadap 26 data lintasan. Langkah-langkah proses clustering menggunakan metode k-means dijelaskan secara rinci di bawah ini:

1. Tentukan nilai k, yaitu jumlah cluster yang akan dibentuk. Dalam contoh kali ini akan ditentukan nilai k adalah 3, sehingga akan terbentuk 3 cluster.

2. Tentukan centroid atau pusat cluster. Karena nilai k adalah 3, maka akan dipiplih titik tengah cluster sebanyak 3 titik. Titik pusat cluster ini dipilih secara acak. Nantinya nilai titik pusat cluster (centroid) akan berubah setiap selesai sekali proses

clustering. Setiap sekali proses clustering

anggota cluster yang terbentuk juga tidak akan sama dengan proses clustering sebelumnya. Karena nilai centroid awal ditentukan secara acak, maka ada kemungkinan proses clustering

membutuhkan banyak perulangan apabila nilai awal centroid terlalu jauh dari centroid yang terbentuk pada cluster terbaik. Pada perancangan ini diambil satu contoh percobaan. Dari hasil pemilihan centroid secara acak, maka diperoleh centroid untuk masing-masing cluster sebagai berikut: C1 = (41.765052, 83.34479, -777, 41.765113, 83.345118, -777, …, - 777) C2 = (34.754773, 113.650028, -777, 34.756763, 113.649385, …, -777) C3 = (41.140963, 80.29841, -777, 41.13767, 80.289385, -777, …, -777)

3. Selanjutnya hitung jarak setiap objek data terhadap setiap centroid yang terbentuk. Hasil dari perhitungan ini akan menjadi penentu data tersebut berada pada cluster yang mana. Perhitungan jarak ini dihitung menggunakan rumus Eucledian Distance seperti pada rumus 2.1. Contoh perhitungan data lintasan pertama terhadap centroid pertama adalah sebagai berikut:

d1 =

√(39.893397 − 41.765052)2_{+ ⋯ + (−777 − (−777))}2 = 180.9247425

Contoh perhitungan data lintasan pertama dengan centroid kedua adalah sebagai berikut:

d2 =

√(39.893397 − 34.754773)2_{+ ⋯ + (−777 − (−777))}2 = 31.12279205

Contoh perhitungan data lintasan pertama dengan centroid ketiga adalah sebagai berikut:

d3 =

√(39.893397 − 41.140963)2_{+ ⋯ + (−777 − (−777))}2 = 198.1061559

4. Setelah mengetahui jarak setiap objek data dengan setiap centroid, pilih jarak yang paling dekat dan masukkan data tersebut ke dalam cluster yang di dalamnya terdapat

centroid dengan jarak yang paling dekat

dengan data tersebut. Contohnya pada hasil perhitungan jarak di atas, data nomor 1 memiliki jarak yang paling dekat dengan

centroid 2, maka data nomor dimasukkan

ke dalam cluster 2

5. Setelah semua data masuk ke dalam setiap

cluster, hitung rata-rata atribut pada setiap cluster untuk dijadikan centroid baru pada cluster tersebut. Perhitungan rata-rata ini

menggunakan rumus 2.2. Contoh perhitungan centroid baru adalah sebagai berikut:

Misal pada cluster 1 terdapat 10 anggota. Maka setiap atribut pada tiap-tiap data dijumlahkan kemudian dibagi sebanyak jumlah anggota.

(4)

C11 = 41.147205+43.774235+⋯+43.15195 10 = 42.2215328 C12 = 109.619872+95.457762+⋯+95.470535 10 = 88.0972963 ... C190 = −777+(−777)+⋯+(−777) 10 = -777

Pada cluster 2 terdapat 12 anggota, sehingga perhitungan atribut centroid baru: C21 = 39.893397+39.50293+⋯+39.1657 12 = 36.1647855 C22 = 116.313677+116.714948+⋯+117.20348 12 = 114.358932 ... C290 = −777+(−777)+⋯+16 10 = -566.5

Pada cluster 3 terdapat 4 anggota, maka perhitungan atribut centroid baru sebagai berikut: C31 = 41.140963+39.473332+39.471673+39.492748 4 = 39.894679 C32 = 80.29841+75.988222+75.98658+76.047162 4 = 77.0800935 ... C390 = −777+(−777)+⋯+(−777)₄ = -777 Keterangan:

C11 = atribut 1 pada centroid cluster 1. C12 = atribut 2 pada centroid cluster 1. C190 = atribut 90 pada centroid cluster

1.

C21= atribut 1 pada centroid cluster 2. C22 = atribut 2 pada centroid cluster 2. C290 = atribut 90 pada centroid cluster

2.

C31 = atribut 1 pada centroid cluster 3. C32 = atribut 2 pada centroid cluster 3. C390 = atribut 90 pada centroid cluster

3.

6. Setelah mendapatkan centroid baru, ulangi langkah 3 sampai 5 hingga setiap anggota

cluster dan centroid tiap cluster tidak

berubah. Pada percobaan kali ini, proses berhenti pada perulangan ke-6.

4. PENGUJIAN DAN ANALISIS

4.1. Pengujian Kualitas Cluster

Kualitas cluster dilihat berdasarkan nilai rata-rata silhouette coefficient. Setiap percobaan

clustering menggunakan nilai k yang

berbeda-beda untuk diketahui nilai k yang paling tepat dan menghasilkan kualitas cluster yang paling baik. Data yang digunakan dalam pengujian

adalah 100 data lintasan dari 5 orang yang berbeda. Masing-masing orang diwakili 20 lintasan.

Pengujian kualitas cluster ini dilakukan sebanyak 10 kali dengan nilai k mulai dari 3 sampai 12. Hasil dari pengujian kualitas cluster ditampilkan tabel 1.

Tabel 1. Hasil Pengujian Kualitas Cluster Silhouette Coefficient Pengujian 1 (k=2) 0.658923826 Pengujian 2 (k=3) 0.720749771 Pengujian 3 (k=4) 0.718863788 Pengujian 4 (k=5) 0.670422407 Pengujian 5 (k=6) 0.692242069 Pengujian 6 (k=7) 0.696811609 Pengujian 7 (k=8) 0.630570671 Pengujian 8 (k=9) 0.552190494 Pengujian 9 (k=10) 0.636142387 Pengujian 10 (k=11) 0.546994785

4.2. Pengujian Ketepatan Cluster

Ketepatan cluster diuji dengan cara mencocokkan hasil cluster dengan data real berdasarkan moda transportasi. Moda transportasi yang ada pada data yang diuji antara lain mobil pribadi, taksi, bus, kereta, dan kereta bawah tanah. Nilai k pada pengujian ketepatan

cluster ini adalah 5 karena disesuaikan dengan

jumlah jenis moda transportasi yang ada pada data lintasan yang diuji.

Jumlah anggota cluster berdasarkan moda transportasi hasil dari pengujian ketepatan

cluster ditampilkan pada tabel 2.

Tabel 2. Hasil Pengujian Ketepatan Cluster

Moda Jumlah C l u s t e r 1 Mobil 0 Bus 0 Kereta 0

Kereta bawah tanah 20

Taksi 0 C l u Mobil 0 Bus 0 Kereta 20

(5)

s t e r 2

Taksi 0 C l u s t e r 3 Mobil 20 Bus 20 Kereta 0

Taksi 10

4.3. Analisis Kualitas Cluster

Pada tahap analisis kualitas cluster, tingkat kualitas cluster dilihat dari rata-rata nilai

silhouette coefficient. Nilai tersebut didapatkan

dari rata-rata jarak data terhadap data lain di luar

cluster dikurangi dengan rata-rata jarak data

terhadap data lain di dalam satu cluster. Selanjutnya hasil pengurangan tersebut dibagi dengan nilai terbesar antara kedua nilai yang telah dihitung sebelumnya.

Berdasarkan pengujian clustering yang telah dilakukan terhadap 100 data lintasan dari 5 orang yang berbeda, didapatkan nilai silhouette

coefficient yang berbeda-beda setiap k yang

berbeda. Pada gambar 1 adalah grafik nilai rata-rata silhouette coefficient pada pengujian 1 sampai pengujian 10.

Gambar 1. Grafik Rata-rata Nilai Silhouette Coefficient pada Pengujian

Pada gambar 1 diketahui grafik rata-rata nilai silhouette coefficient pada masing-masing pengujian. Terlihat nilai tertinggi ada pada pengujian kedua dengan nilai k = 3. Pada pengujian kedua rata-rata nilai silhouette

coefficient adalah 0,720749771. Hal ini

disebabkan karena ada 3 moda transportasi yang memiliki rute hampir mirip yaitu Bus, Mobil Pribadi, dan Taksi. Sehingga memiliki nilai

silhouette coefficient yang baik jika hanya

membentuk 3 cluster saja. Sedangkan nilai terendah ada pada pengujian kesepuluh dengan nilai k = 11, yaitu 0,546994785.

Sehingga dapat disimpulkan bahwa kualitas

cluster yang dihasilkan adalah medium atau

sedang karena nilai silhouette coefficient berada di antara 0.5 – 0.7.

4.4. Analisis Ketepatan Cluster

Pada tahap analisis ketepatan cluster ini, ketepatan cluster ditentukan dari banyaknya jumlah mayoritas moda transportasi pada tiap

cluster dibanding dengan banyaknya jumlah

anggota pada cluster tersebut.

Berikut perhitungan ketepatan cluster merujuk pada data di tabel 2:

• Cluster 1: Mayoritas moda transportasi adalah Kereta bawah tanah dengan jumlah 20 dan jumlah seluruh anggota cluster

adalah 20.

Maka ketepatan cluster adalah 20

20× 100% = 100%

• Cluster 2: Mayoritas moda transportasi adalah Kereta dengan jumlah 20 dan jumlah seluruh anggota cluster adalah 20.

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7

0,8

Graf

ik Rata-rata Nilai Silhouette

(6)

Maka ketepatan cluster adalah 20

20× 100% = 100%

• Cluster 3: Mobil dan Bus sama-sama berjumlah 20 dan anggota cluster adalah 40. Maka ketepatan cluster adalah 20₄₀× 100% = 50%

• Cluster 4: Mayoritas moda transportasi adalah Taksi dengan jumlah 10 dan jumlah seluruh anggota cluster adalah 10. Maka ketepatan cluster adalah 10

10× 100% = 100%

• Cluster 5: Mayoritas moda transportasi adalah Bus dengan jumlah 10 dan jumlah seluruh anggota cluster adalah 10. Maka ketepatan cluster adalah 10₁₀× 100% = 100%

• Rata-rata ketepatan cluster adalah: 100% + 100% + 50% + 100% + 100%

5 = 90%

Bus dan Mobil Pribadi masuk ke dalam

cluster yang sama karena kedua moda

transportasi tersebut memiliki rute lintasan yang hampir mirip. Sedangkan Taksi terbagi ke dua

cluster yang berbeda karena tersisa 2 cluster

setelah Bus dan Mobil Pribadi masuk ke dalam satu cluster.

5. PENUTUP

Kesimpulan yang diambil dari penelititan ini adalah:

1. Metode k-means dapat diimplementasikan untuk clustering mobilitas masyarakat dengan cara menjadikan rangkaian titik koordinat yang terdiri dari latitude,

longitude, dan altitude yang mewakili satu

data lintasan menjadi atribut dalam perhitungan clustering.

2. Kualitas clustering dilihat dari nilai

silhouette coefficient masuk pada kategori

sedang sampai baik pada k yang mendekati jumlah moda transportasi. Sedangkan pada k semakin jauh dari jumlah moda transportasi, semakin buruk kualitas

cluster.

DAFTAR PUSTAKA

Han, J. dan Kamber, M., 2006. Data Mining: Concepts and Techniques, Second Edition. Morgan Kaufmann Publisher.

Irwanto, 2016. Penerapan Data Mining Untuk Mengetahui Pola Pemilihan Program Studi

Mahasiswa Baru UIN Sunan Kalijaga Menggunakan Algoritma K-means Clustering. Universitas Islam Negeri Sunan Kalijaga. Yogyakarta.

Hastuti, N.F. 2013. Pemanfaatan Metode K-means Clustering dalam Penentuan Penerima Beasiswa. Universitas Sebelas Maret. Surakarta.

Zheng, Y., 2007. GeoLife: Building Social Networks Using Human Location History.

https://www.microsoft.com/en- us/research/project/geolife-building-social-networks-using-human-location-history/ Andayani, S. 2007. Pembentukan Cluster dalam

Knowledge Discovery in Database dengan Algoritma KMeans. Seminar Nasional Matematika dan Pendidikan Matematika 2007. Universitas Negeri Yogyakarta. Yogyakarta.

Santosa, B. 2007. Data Mining Teknik Pemanfaatan Data untuk Keperluan Bisnis. Graha Ilmu. Yogyakarta.

Agusta, Y. 2007. K-Means-Penerapan, Permasalahan dan Metode Terkait. Jurnal Sistem dan Informatika Vol.3, 47-60. Nuningsih, S. 2010. K-Means Clustering: Studi

Kasus pada Data Pengujian Kualitas Susu di Koperasi Peternakan Bandung Selatan. Jurusan Matematika FMIPA, Universitas Pendidikan Indonesia. Bandung.

Kaufman, L. dan Rousseeuw, P.J., 2008. Finding Groups in Data: An Introduction to Cluster Analysis. John Wiley & Sons, Inc.