Pendeteksian objek pada suatu citra memerlukan suatu proses segmentasi. Segmentasi akan membagi citra menjadi beberapa bagian atau objek, bagian yang menjadi hasil dari segmentasi citra ini sangat bergantung pada apa yang diinginkan. Tujuan segmentasi yang ideal adalah mengidentifikasikan komponen dari suatu citra dan menggolongkan piksel-piksel didalamnya ke komponen yang telah ditentukan.
2.8.1 Clustering
Clustering adalah membagi data ke dalam grup-grup yang mempunyai obyek
yang karakteristiknya sama (Berkhin dan Pavel). Garcia Molina dan Hector menyatakan clustering adalah mengelompokkan item data ke dalam sejumlah kecil grup sedemikian sehingga masing-masing grup mempunyai sesuatu persamaan yang esensial.
Clustering memegang peranan penting dalam aplikasi data mining, misalnya
eksplorasi data ilmu pengetahuan, pengaksesan informasi dan text mining, aplikasi basis data spasial, dan analisis web. Clustering diterapkan dalam mesin pencari di Internet. Web mesin pencari akan mencari ratusan dokumen yang cocok dengan kata kunci yang dimasukkan. Dokumen-dokumen tersebut dikelompokkan dalam cluster-cluster sesuai dengan kata-kata yang digunakan.
Tan, dkk. membagi clustering dalam dua kelompok, yaitu hierarchical and
partitional clustering. Partitional Clustering disebutkan sebagai pembagian
obyek-obyek data ke dalam kelompok yang tidak saling overlap sehingga setiap data berada tepat di satu cluster. Hierarchical clustering adalah sekelopok cluster yang bersarang seperti sebuah pohon berjenjang (hirarki).
William membagi algoritma clustering ke dalam kelompok besar seperti berikut:
1. Partitioning algorithms: algoritma dalam kelompok ini membentuk bermacam partisi dan kemudian mengevaluasinya dengan berdasarkan beberapa kriteria.
2. Hierarchy algorithms: pembentukan dekomposisi hirarki dari sekumpulan data
menggunakan beberapa kriteria.
3. Density-based: pembentukan cluster berdasarkan pada koneksi dan fungsi
densitas.
4. Grid-based: pembentukan cluster berdasarkan pada struktur multiple-level
granularity
5. Model-based: sebuah model dianggap sebagai hipotesa untuk masing-masing
cluster dan model yang baik dipilih diantara model hipotesa tersebut.
2.8.2 Algoritma k means clustering
Algoritma K-Means diperkenalkan oleh James B MacQueen pada tahun 1967 dalam proceedings of the 5 th berkeley symposium on Mathematical Statistics and Probability (Johnson & Wichern, 1992).
Algoritma K-Means adalah metode clustering berbasis jarak yang membagi data ke dalam sejumlah cluster. Algoritma ini hanya bekerja pada atribut numerik.
Dasar pengelompokan dalam metode ini adalah menempatkan objek berdasarkan rata-rata (mean) klaster terdekat. Untuk itu digunakan Algoritma K-Means yang di dalamnya memuat aturan sebagai berikut :
1 Jumlah cluster perlu diinputkan.
2 Hanya memiliki atribut bertipe numerik.
Algoritma K-Means merupakan metode non hierarchial yang pada awalnya mengambil sebagian dari banyaknya komponen dari populasi untuk dijadikan pusat cluster awal. Pada tahap ini pusat cluster dipilih secara acak dari sekumpulan populasi data. Berikutnya Kmeans menguji masing-masing komponen di dalam populasi data dan menandai komponen tersebut ke salah satu pusat cluster yang telah didefinisikan tergantung dari jarak minimum antar komponen dengan tiap-tiap pusat cluster. Posisi pusat cluster akan dihitung kembali sampai semua komponen data digolongkan ke dalam tiap-tiap pusat cluster dan terakhir akan terbentuk posisi pusat cluster baru.
Algoritma K-Means pada dasarnya melakukan 2 proses yakni proses pendeteksian lokasi pusat tiap cluster dan proses pencarian anggota dari tiap-tiap cluster.
Algoritma K-Means, melakukan tiga langkah utama dalam melakukan pengelompokan :
1 Menentukan koordinat titik pusat untuk masing-masing klaster. Jumlah klaster K sudah ditentukan sebelumnya, sehingga terdapat K koordinat titik pusat. Inisialisasi koordinat titik pusat dapat dilakukan secara sekuensial dengan mengambil sejumlah data pertama sebagai titik pusat, atau secara acak (random) pada sembarang nomor urut data
2 Menghitung jarak setiap objek terhadap semua titik pusat klaster
3 Mengelompokkan objek berdasarkan jarak minimum atau jarak ke titik pusat terdekat Langkah 1-3 di atas dilakukan dalam perulangan (iterasi) sampai tidak ditemukan lagi objek yang berpindah klaster akibat perhitungan kembali titik-titik pusat klaster pada iterasi terakhir
Secara sederhana algoritma K-Means dapat digambarkan dalam diagram alir pada gambar 1.
Start
Tentukan Jumlah Klaster K
Tentukan asumsi titik pusat klaster
(centroid)
Hitung Jarak Objek Ke Centroid
Kelompokkan Objek berdasarkan jarak
minimum
Adakah objek yang
berpindah? End
Gambar 2.1. Diagram Alir algoritma K Means Clustering
Algoritma K- Means memerlukan 3 komponen yaitu: 1. Jumlah Klaster
K-Means merupakan bagian dari metode non-hirarki sehingga dalam metode ini jumlah I harus ditentukan terlebih dahulu. Jumlah klaster I dapat ditentukan melalui pendekatan metode hirarki. Namun perlu diperhatikan bahwa tidak terdapat aturan khusus dalam menentukan jumlah klaster I, terkadang jumlah klaster yang diinginkan tergantung pada subjektif seseorang.
2. Klaster Awal
Klaster awal yang dipilih berkaitan dengan penentuan pusat klaster awal (sentroid awal). Dalam hal ini, terdapat beberapa pendapat dalam memilih klaster awal untuk metode K-Means sebagai berikut:
 Berdasarkan Hartigan (1975), pemilihan klaster awal dapat ditentukan berdasarkan interval dari jumlah setiap observasi.
 Berdasarkan Rencher (2002), pemilihan klaster awal dapat ditentukan melalui pendekatan salah satu metode hirarki.
Oleh karena adanya pemilihan klaster awal yang berbeda ini maka kemungkinan besar solusi klaster yang dihasil akan berbeda pula.
3. Ukuran Jarak
Dalam hal ini, ukuran jarak digunakan untuk menempatkan observasi ke dalam klaster berdasarkan sentrid terdekat. Ukuran jarak yang digunakan dalam metode K-Means adalah jarak Euclid.
Adapun algoritma K-means dalam pembentukan klaster sebagai berikut:
Misalkan diberikan matriks data X = {xij} berukuran dengan i=1,2,3,..n,
j=1,2,3,…p dan asumsikan jumlah klaster awal K
1. Tentukan sentroid.
Hitung jarak setiap objek ke setiap centroid dengan menggunakan jarak euclid atau dapat ditulis sebagai berikut:
√
Setiap objek disusun ke sentroid terdekat dan kumpulan objek tersebut akan membentuk klaster.
2. Tentukan sentroid baru dari klaster yang baru terbentuk, di mana sentroid baru itu diperoleh dari rata-rata setiap objek yang terletak pada klaster yang sama.
3. Ulangi langkah 3, jika sentroid awal dan baru tidak sama.
Hasil dari proses clustering yang menggunakan Metode K-Means Clustering dapat digambarkan seperti di gambar 2.2.
Gambar 2.2. Hasil dari proses clustering dengan menggunakan algoritma K-Means Clustering.
2.8.3 Kelebihan dan Kelemahan algoritma K-means
Algoritma K-means dinilai cukup efisien, yang ditunjukkan dengan kompleksitasnya O(tkn), dengan catatan n adalah banyaknya obyek data, k adalah jumlah cluster yang dibentuk, dan t banyaknya iterasi. Biasanya, nilai k dan t jauh lebih kecil daripada nilai n. Selain itu, dalam iterasinya, algoritma ini akan berhenti dalam kondisi optimum lokal (William dan Graham).
Hal yang dianggap sebagai kelemahan algoritma ini adalah adanya keharusan menentukan banyaknya cluster yang akan dibentuk, hanya dapat digunakan dalam data yang mean-nya dapat ditentukan, dan tidak mampu menangani data yang mempunyai penyimpangan-penyimpangan (noisy data dan outlier). Berkhin menyebutkan beberapa kelemahan algoritma K-means adalah: (1) sangat bergantung pada pemilihan nilai awal centroid, (2) tidak jelas berapa banyak cluster k yang terbaik, (3) hanya bekerja pada atribut numerik.
Memperhatikan input dalam algoritma K-Means, dapat dikatakan bahwa algoritma ini hanya mengolah data kuantitatif. Hal tersebut juga diungkapkan oleh Berkhin , bahwa algoritma K-means hanya dapat mengolah atribut numerik.
Sebuah basis data, tidak mungkin hanya berisi satu macam type data saja, akan tetapi beragam type. William menyatakan sebuah basis data dapat berisi data-data dengan type sebagai berikut: symmetric binary, asymmetric binary, nominal, ordinal,
interval dan ratio. Sedangkan Pal dan Mitra menyebutkan sebuah basis data dapat
berisi data-data teks, simbol, gambar dan suara(Pal, Shankar K dan Mitra). 2.9 Median Filtering
Konsep dasarnya adalah dengan menemukan nilai pixel yang memiliki nilai intensitas dari suatu pixel yang berbeda dengan nilai pixel yang ada di daerah sekitarnya, dan menggantinya dengan nilai yang lebih cocok. (Davies, 1990).
Sesuai dengan namanya, median filter merupakan suatu metode yang menitik beratkan pada nilai median atau nilai tengah dari jumlah total nilai keseluruhan pixel yang ada di sekelilingnya. Dimisalkan terdapat data A=1, B=5, C=2, D=9, dan E=7, maka median filter akan mencari nilai tengah dari semua data yang telah diurutkan terlebih dahulu dari yang paling kecil hingga pada data yang paling besar dan kemudian diambil nilai tengahnya (1, 2, 5, 7, 9). Median dari deret tersebut adalah 5.
Pemrosesan median filter ini dilakukan dengan cara mencari nilai tengah dari nilai pixel tetangga yang mempengaruhi pixel tengah. Teknik ini bekerja dengan cara mengisi nilai dari setiap pixel dengan nilai median tetangganya. Proses pemilihan median ini diawali dengan terlebih dahulu mengurutkan nilai-nilai pixel tetangga, baru kemudian dipilih nilai tengahnya (Gambar 2.3).
Gambar 2.3. Block Diagram Alur Kerja Median Filter
Pengurutan akan menghasilkan nilai dari yang terkecil sampai nilai yang terbesar
sesuai dengan P(1) < P(2) < P(3) < P(n), sedangkan nilai m sesuai dengan rumus dimana n bernilai ganjil.
Gambar 2.4. Contoh Penerapan Median Filter
Hasil dari pengurutan data pada contoh (Gambar 2.4) didapatkan urutan 25, 33, 38, 45, 45, 45, 54, 57, 98. Dari hasil ini akan diambil nilai median yang memiliki nilai 45.
Tabel 2.2 Penelitian Terdahulu No. Peneliti Tahun Metode yang
Digunakan Keterangan 1 Beril Sirmacek