Bab II Tinjauan Pustaka
2.4 Teknik Analisis Data Kecelakaan
2.4.1 Konsep Dasar Clustering
Mengorganisasi data ke dalam kelompok merupakan salah satu pendekatan
yang paling mendasar dari pemahaman dan pembelajaran. Cluster Analysis adalah
studi formal metode dan algoritma untuk pengelompokan, atau clustering, objek
yang diukur memiliki karakteristik intrinsik atau kesamaan. Sampel untuk
clustering diwakili sebagai vektor pengukuran dan sebagai titik dalam ruang
sampel cluster yang berbeda. Metodologi clustering sangat cocok untuk eksplorasi
hubungan timbal balik antara sampel untuk membuat penilaian awal pada struktur
sampel. Kemampuan manusia yang kompetitif dengan otomatis pengelompokan
prosedur dalam satu, dua, atau tiga dimensi, tetapi kebanyakan masalah nyata
melibatkan pengelompokan dalam dimensi yang lebih tinggi. Hal ini sangat sulit
bagi manusia untuk intuitif menginterpretasikan data tertanam dalam dimensi ruang
yang tinggi (Mehmed Kantardzic, 2011: 250).
Teknik cluster analysis berfokus pada mengeksplorasi data set untuk
menilai apakah data dapat diringkas bermakna dalam hal yang relatif pada
kelompok kecil atau kelompok objek atau individu yang mirip satu sama lain dan
yang berbeda dalam beberapa hal dari individu dalam kelompok lain. analisis
cluster memeriksa beberapa pendekatan grafis yang dapat membantu dalam
mengungkap
cluster struktur, dan kemudian mempertimbangkan pengukuran
kesamaan, perbedaan dan jarak, yang merupakan pusat untuk banyak teknik
clustering (Brian S. et al, 2011: 13).
Tabel 2.1 menunjukkan contoh sederhana mengelompokkan informasi
untuk sembilan pelanggan, didistribusikan di tiga
cluster. Dua fitur
menggambarkan pelanggan: fitur pertama adalah jumlah item pelanggan membeli,
dan fitur kedua menunjukkan harga mereka dibayar untuk setiap. Terdiri dari
beberapa objek yang serupa.
Tabel 2.1 Contoh Data Set Dari Cluster
Banyak Barang
Harga
Cluster 1
2
1700
3
2000
4
23000
Cluster 2
10
1800
12
2100
11
2500
Cluster 3
2
100
3
200
3
350
Gambar 2.1 Analisis cluster pada titik 2D. (a) Inisial data; (b) tiga cluster data;
(c) empat cluster data.
Pelanggan di Cluster 1 pembelian beberapa item dengan harga tinggi;
pelanggan di Cluster 2 membeli banyak item dengan harga tinggi; dan pelanggan
di Cluster 3 membeli beberapa item dengan harga rendah. Bahkan ini contoh
sederhana dan interpretasi cluster berdasarkan karakteristik yang menunjukkan
bahwa analisis pengelompokan (dalam beberapa referensi disebut juga klasifikasi
unsupervised) mengacu pada situasi di mana tujuannya adalah untuk membangun
keputusan batas (permukaan klasifikasi) berdasarkan data set training berlabel.
Sampel dalam set data hanya memiliki dimensi input, dan proses pembelajaran
diklasifikasikan sebagai tanpa pengawasan (Mehmed Kantardzic, 2011: 250-255).
2.4.2 Konsep Dasar K-means Clustering
K-means clustering, salah satu yang tertua dan paling banyak digunakan
pada algoritma clustering. Penelitian tentang K-menas dapat ditelusuri kembali ke
tengah abad terakhir, yang dilakukan oleh berbagai peneliti di seluruh disiplin ilmu
yang berbeda, sebagian besar terutama Lloyd (1957, 1982), Forgey (1965),
Friedman dan Rubin (1967) dan MacQueen (1967). Jain dan Dubes (1988)
memberikan sejarah rinci K-means bersama dengan deskripsi dari beberapa variasi.
Gray dan Neuhoff (1998) menempatkan K-means dalam konteks yang lebih besar.
Secara singkat,
K-means
berbasis prototipe, algoritma klasterisasi
partisional sederhana yang mencoba untuk menemukan kelompok yang tidak saling
tumpang tindih. Kelompok ini diwakili oleh centroid (centroid cluster biasanya
rata-rata poin dalam cluster). Proses pengelompokan K-means adalah sebagai
berikut: Pertama, K-initial centroid yang dipilih, di mana ditentukan oleh pengguna
dan menunjukkan jumlah kelompok yang diinginkan. Setiap titik data ini kemudian
ditugaskan ke pusat centroid terdekat, dan setiap titik yang ada ditugaskan untuk
membentuk
cluster.
Centroid masing-masing
cluster kemudian diperbarui
berdasarkan titik yang ditugaskan untuk cluster. Proses ini diulang sampai tidak ada
titik perubahan cluster (Junjie, 2011: 7).
K-Means adalah salah satu algoritma clustering yang sangat popular
karena kesederhanaan dan kemampuannya dalam menangani data dengan skala
besar. Namun demikian algoritma ini sangat sensitif terhadap centroid awal.
Perbedaan centroid awal akan memberikan perbedaan hasil clustering dan apabila
centroid awal yang diberikan adalah centroid yang tidak baik maka dapat dipastikan
hasil clustering juga tidak baik (Achmad, Wahyu, 2014: 1).
K-means memiliki beberapa keuntungan yang berbeda dibandingkan
dengan algoritma pengelompokan lainnya. Artinya, K-means merupakan algoritma
yang sangat sederhana dan kuat, sangat efisien, dan dapat digunakan untuk berbagai
macam jenis data. Selain itu, K-means memiliki kelemahan mengenai optimasi
yang masih memiliki beberapa teori tantangan, misalnya masalah generalisasi jarak
centroid. Muncul dalam data dengan sifat yang rumit, seperti skala besar, tinggi
dimensi, dan kelas ketidakseimbangan, juga perlu beradaptasi klasik K-means
untuk skenario data yang berbeda. Beberapa kerugian dari
K-means, seperti
berkinerja buruk untuk non-globular clusters, dan menjadi sensitif terhadap outlier,
sering didominasi oleh keuntungan, dan sebagian dikoreksi oleh varian baru yang
diusulkan.
Dengan metode pengelompokan berdasarkan jarak, teknik K-means yang
dianggap sebagai metode pengelompokan klasik (Jain et al., 1999: 264–323). Salah
satu fitur utama yang membuat Kmeans berguna dalam penelitian ini adalah
kemungkinan menentukan terlebih dahulu berapa banyak cluster yang sedang
dicari. Jumlah ini mengacu pada parameter K (di sini mengacu pada jumlah cluster).
Dari jumlah ini, poin K dipilih dalam clusterrandom sebagai pusat cluster. Semua
variabel ditugaskan ke pusat cluster terdekat mereka sesuai dengan metrik jarak
Euclidean. Langkah selanjutnya adalah menghitung centroid dari mean dari contoh
di setiap cluster. Kemudian centroid ini diambil untuk menjadi nilai-nilai pusat
baru. Hasil algoritma K-means diterapkan pada set data. K-means merupakan teknik
sederhana dan efektif, memberikan hasil yang diverifikasi dan berguna.
Berdasarkan hasil observasi dan wawancara dengan kepala unit kecelakaan
lalu lintas Polrestabes Semarang, jumlah cluster ditentukan menjadi tiga cluster
diantaranya: cluster 1 yaitu cluster dengan tingkat kecelakaan rendah (hati-hati),
cluster 2 merupakan cluster dengan tingkat kecelakaan sedang (waspada), dan
cluster 3 merupakan cluster dengan tingkat kecelakaan tertinggi (berbahaya). AKP
Slamet selaku kepala unit kecelakaan lalu lintas mengatakan bahwa pembagian
kategori tingkat kecelakaan berdasarkan umur tersebut menjadi tiga kategori
bertujuan untuk memudahkan dalam melakukan tindakan penyelesaian masalah
apabila hasil dari penelitian telah didapatkan.
Dalam dokumen
ANALISIS KECELAKAAN LALU LINTAS JALAN RAYA DI KOTA SEMARANG MENGGUNAKAN METODE K MEANS CLUSTERING
(Halaman 35-40)