• Tidak ada hasil yang ditemukan

Bab II Tinjauan Pustaka

2.4 Teknik Analisis Data Kecelakaan

2.4.1 Konsep Dasar Clustering

Mengorganisasi data ke dalam kelompok merupakan salah satu pendekatan

yang paling mendasar dari pemahaman dan pembelajaran. Cluster Analysis adalah

studi formal metode dan algoritma untuk pengelompokan, atau clustering, objek

yang diukur memiliki karakteristik intrinsik atau kesamaan. Sampel untuk

clustering diwakili sebagai vektor pengukuran dan sebagai titik dalam ruang

sampel cluster yang berbeda. Metodologi clustering sangat cocok untuk eksplorasi

hubungan timbal balik antara sampel untuk membuat penilaian awal pada struktur

sampel. Kemampuan manusia yang kompetitif dengan otomatis pengelompokan

prosedur dalam satu, dua, atau tiga dimensi, tetapi kebanyakan masalah nyata

melibatkan pengelompokan dalam dimensi yang lebih tinggi. Hal ini sangat sulit

bagi manusia untuk intuitif menginterpretasikan data tertanam dalam dimensi ruang

yang tinggi (Mehmed Kantardzic, 2011: 250).

Teknik cluster analysis berfokus pada mengeksplorasi data set untuk

menilai apakah data dapat diringkas bermakna dalam hal yang relatif pada

kelompok kecil atau kelompok objek atau individu yang mirip satu sama lain dan

yang berbeda dalam beberapa hal dari individu dalam kelompok lain. analisis

cluster memeriksa beberapa pendekatan grafis yang dapat membantu dalam

mengungkap

cluster struktur, dan kemudian mempertimbangkan pengukuran

kesamaan, perbedaan dan jarak, yang merupakan pusat untuk banyak teknik

clustering (Brian S. et al, 2011: 13).

Tabel 2.1 menunjukkan contoh sederhana mengelompokkan informasi

untuk sembilan pelanggan, didistribusikan di tiga

cluster. Dua fitur

menggambarkan pelanggan: fitur pertama adalah jumlah item pelanggan membeli,

dan fitur kedua menunjukkan harga mereka dibayar untuk setiap. Terdiri dari

beberapa objek yang serupa.

Tabel 2.1 Contoh Data Set Dari Cluster

Banyak Barang

Harga

Cluster 1

2

1700

3

2000

4

23000

Cluster 2

10

1800

12

2100

11

2500

Cluster 3

2

100

3

200

3

350

Gambar 2.1 Analisis cluster pada titik 2D. (a) Inisial data; (b) tiga cluster data;

(c) empat cluster data.

Pelanggan di Cluster 1 pembelian beberapa item dengan harga tinggi;

pelanggan di Cluster 2 membeli banyak item dengan harga tinggi; dan pelanggan

di Cluster 3 membeli beberapa item dengan harga rendah. Bahkan ini contoh

sederhana dan interpretasi cluster berdasarkan karakteristik yang menunjukkan

bahwa analisis pengelompokan (dalam beberapa referensi disebut juga klasifikasi

unsupervised) mengacu pada situasi di mana tujuannya adalah untuk membangun

keputusan batas (permukaan klasifikasi) berdasarkan data set training berlabel.

Sampel dalam set data hanya memiliki dimensi input, dan proses pembelajaran

diklasifikasikan sebagai tanpa pengawasan (Mehmed Kantardzic, 2011: 250-255).

2.4.2 Konsep Dasar K-means Clustering

K-means clustering, salah satu yang tertua dan paling banyak digunakan

pada algoritma clustering. Penelitian tentang K-menas dapat ditelusuri kembali ke

tengah abad terakhir, yang dilakukan oleh berbagai peneliti di seluruh disiplin ilmu

yang berbeda, sebagian besar terutama Lloyd (1957, 1982), Forgey (1965),

Friedman dan Rubin (1967) dan MacQueen (1967). Jain dan Dubes (1988)

memberikan sejarah rinci K-means bersama dengan deskripsi dari beberapa variasi.

Gray dan Neuhoff (1998) menempatkan K-means dalam konteks yang lebih besar.

Secara singkat,

K-means

berbasis prototipe, algoritma klasterisasi

partisional sederhana yang mencoba untuk menemukan kelompok yang tidak saling

tumpang tindih. Kelompok ini diwakili oleh centroid (centroid cluster biasanya

rata-rata poin dalam cluster). Proses pengelompokan K-means adalah sebagai

berikut: Pertama, K-initial centroid yang dipilih, di mana ditentukan oleh pengguna

dan menunjukkan jumlah kelompok yang diinginkan. Setiap titik data ini kemudian

ditugaskan ke pusat centroid terdekat, dan setiap titik yang ada ditugaskan untuk

membentuk

cluster.

Centroid masing-masing

cluster kemudian diperbarui

berdasarkan titik yang ditugaskan untuk cluster. Proses ini diulang sampai tidak ada

titik perubahan cluster (Junjie, 2011: 7).

K-Means adalah salah satu algoritma clustering yang sangat popular

karena kesederhanaan dan kemampuannya dalam menangani data dengan skala

besar. Namun demikian algoritma ini sangat sensitif terhadap centroid awal.

Perbedaan centroid awal akan memberikan perbedaan hasil clustering dan apabila

centroid awal yang diberikan adalah centroid yang tidak baik maka dapat dipastikan

hasil clustering juga tidak baik (Achmad, Wahyu, 2014: 1).

K-means memiliki beberapa keuntungan yang berbeda dibandingkan

dengan algoritma pengelompokan lainnya. Artinya, K-means merupakan algoritma

yang sangat sederhana dan kuat, sangat efisien, dan dapat digunakan untuk berbagai

macam jenis data. Selain itu, K-means memiliki kelemahan mengenai optimasi

yang masih memiliki beberapa teori tantangan, misalnya masalah generalisasi jarak

centroid. Muncul dalam data dengan sifat yang rumit, seperti skala besar, tinggi

dimensi, dan kelas ketidakseimbangan, juga perlu beradaptasi klasik K-means

untuk skenario data yang berbeda. Beberapa kerugian dari

K-means, seperti

berkinerja buruk untuk non-globular clusters, dan menjadi sensitif terhadap outlier,

sering didominasi oleh keuntungan, dan sebagian dikoreksi oleh varian baru yang

diusulkan.

Dengan metode pengelompokan berdasarkan jarak, teknik K-means yang

dianggap sebagai metode pengelompokan klasik (Jain et al., 1999: 264–323). Salah

satu fitur utama yang membuat Kmeans berguna dalam penelitian ini adalah

kemungkinan menentukan terlebih dahulu berapa banyak cluster yang sedang

dicari. Jumlah ini mengacu pada parameter K (di sini mengacu pada jumlah cluster).

Dari jumlah ini, poin K dipilih dalam clusterrandom sebagai pusat cluster. Semua

variabel ditugaskan ke pusat cluster terdekat mereka sesuai dengan metrik jarak

Euclidean. Langkah selanjutnya adalah menghitung centroid dari mean dari contoh

di setiap cluster. Kemudian centroid ini diambil untuk menjadi nilai-nilai pusat

baru. Hasil algoritma K-means diterapkan pada set data. K-means merupakan teknik

sederhana dan efektif, memberikan hasil yang diverifikasi dan berguna.

Berdasarkan hasil observasi dan wawancara dengan kepala unit kecelakaan

lalu lintas Polrestabes Semarang, jumlah cluster ditentukan menjadi tiga cluster

diantaranya: cluster 1 yaitu cluster dengan tingkat kecelakaan rendah (hati-hati),

cluster 2 merupakan cluster dengan tingkat kecelakaan sedang (waspada), dan

cluster 3 merupakan cluster dengan tingkat kecelakaan tertinggi (berbahaya). AKP

Slamet selaku kepala unit kecelakaan lalu lintas mengatakan bahwa pembagian

kategori tingkat kecelakaan berdasarkan umur tersebut menjadi tiga kategori

bertujuan untuk memudahkan dalam melakukan tindakan penyelesaian masalah

apabila hasil dari penelitian telah didapatkan.

Dokumen terkait