• Tidak ada hasil yang ditemukan

Bab ini berisi kesimpulan dan saran dari hasil penelitian yang telah dilakukan yang didapatkan dari tujuan dan permasalahan yang ada. DAFTAR PUSTAKA

BAB II

TINJ AUAN PUSTAKA

2.1 Data

Pengertian data menurut Webster New World Dictionary, Data adalah things known or assumed, yang berarti bahwa data itu sesuatu yang diketahui atau dasumsi artinya yang sudah terjadi merupakan fakta (bukti). Data dapat memberikan gambaran tentang suatu keadaan atau persoalan.

Data bisa juga didefenisikan sekumpulan informasi atau nilai yang diperoleh dari pengamatan (observasi) suatu objek, data dapat berupa angka dan dapat pula merupakan lambang atau sifat. Beberapa macam data antara lain: data populasi dan sampel, data observasi, data primer, dan data sekunder.

Pada dasarnya kegunaan data (setelah diolah dan dianalisis) ialah sebagai dasar yang objektif di dalam proses pembuatan keputusan-keputusan (kebijaksanaan–kebijaksanaan) dalam rangka untuk memecahkan persoalan oleh pengambilan keputusan. Keputusan yang baik hanya bisa diperoleh dari pengambilan keputusan yang objektif, dan didasarkan atas datayang baik.

Data yang baik adalah data yang bisa dipercaya kebenarannya (reliable), tepat waktu dan mencakup ruang lingkup yang luas atau bisa memberikan gambaran tentang suatu masalah secara menyeluruh merupakan data relevan.

2.1.1 Data Menur ut Sifatnya

(Sugiono, 2005) Data menurut sifatnya dibagi menjadi 2, yaitu:

a. Data kualitatif yaitu data yang tidak berbentuk angka, misalnya: kuesioner pertanyaan tentang suasana kerja, kualitas pelayanan sebuah restoran atau gaya kepemimpinan, dan sebagainya.

b. Data kuantitatif yaitu data yang berbentuk angka, misalnya: harga saham, besarnya pendapatan, dan sebagainya.

2.1.2 Data Menur ut Sumbernya

Menurut sumber data, yang selanjutnya dibagi dua (Sugiono, 2005):

a. Data internal yaitu data dari dalam suatu organisasi yang menggambarkan organisasi tersebut. Misalnya: jumlah karyawan suatu perusahaan, jumlah modalnya, dan jumlah produksinya

b. Data eksternal yaitu data dari luar suatu organisasi yang dapat menggambarkan faktor–faktor yang mungkin mempengaruhi hasil kerja suatu organisasi. Misalnya: daya beli masyarakat mempengaruhi hasil penjualan suatu perusahaan.

2.1.3 Data Menur ut Cara Memperolehnya

(Sugiono, 2005) Menurut cara memperolehnya, data bisa dibagi dua:

a. Data primer (primery data) yaitu data yang dikumpulan sendiri oleh perorangan/ suatu organisasi secara langsung dari obyek yang diteliti dan untuk studi yang bersangkutan dan dapat berupa interview, observasi. b. Data sekunderi (secondary data) yaitu data yang diperoleh/ dikumpulkan

instansi lain. Biasanya sumber tidak langsung berupa data dokumentasi dan arsip–arsip resmi.

2.2 Variabel

Dalam melakukan observasi tentunya perlu ditentukan karakter yang akan diobservasi dari unit amatan yang disebut variabel. Variabel dalam penelitian merupakan suatu atribut dari sekelompok objek yang diteliti yang memiliki variasi antara satu objek dengan objek lain dalam kelompok tersebut.

Variabel penelitian adalah sesuatu yang digunakan sebagai ciri, sifat dan ukuran yang dimiliki atau didapatkan oleh satuan penelitian tentang suatu konsep pengertian tertentu (Sugiono, 2005). Variabel dalam penelitian ini terdiri dari variabel independen (bebas) dan variabel dependen (terikat) dijelaskan sebagai berikut:

1. Variabel independen (bebas) adalah variabel yang menjadi sebab timbulnya atau berubahnya variabel terikat.

2. Variabel dependen (terikat) adalah variabel yang dipengaruhi atau menjadi akibat karena adanya variabel bebas, dan variabel ini sering disebut variabel respon.

Pengamatan utama dilakukan pada variabel yang datanya akan dianalisis, sedangkan pengamatan selintas dilakukan pada variabel yang datanya tidak dimaksudkan untuk dianalisis. Pada umumnya data pengamatan selintas menggambarkan keadaan lingkungan atau lokasi dilakukannya observasi. Data yang diperoleh dari pengamatan selintas seringkali dipergunakan untuk mendukung pembahasan hasil dari data pengamatan utama.

2.3 Data mining

Seiring dengan perkembangan teknologi, semakin berkembang pula kemampuan kita dalam menggumpulkan dan mengolah data. Penggunaan sistem komputerisasi dalam berbagai bidang baik itu dalam transaksi-transaksi bisnis, maupun untuk kalangan pemerintah dan sosial, telah menghasilkan data yang berukuran sangat besar.

Data-data yang terkumpul ini merupakan suatu tambang emas yang dapat digunakan sebagai informasi. Akibatnya data yang dihasilkan oleh bidang-bidang tersebut sangatlah besar dan berkembang dengan cepat. Hal ini menyebabkan timbulnya kebutuhan terhadap teknik-teknik yang dapat melakukan pengolahan data sehingga dari data-data yang ada dapat diperoleh informasi penting yang dapat digunakan untuk perkembangan masing-masing bidang tersebut.

2.3.1 Pengertian Data mining

Santosa (2007) menyatakan bahwa data mining merupakan suatu kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menentukan keteraturan, pola atau hubungan dalam set data berukuran besar. Salah satu tugas utama dari data mining adalah pengelompokan Clustering dimana data yang dikelompokkan belum mempunyai contoh kelompok.

Larose dalam Novianti (2012) menyatakan bahwa data mining adalah suatu proses pencarian korelasi, pola dan tren baru yang berguna dalam media penyimpanan data berukuran besar menggunakan teknologi pengenalan pola seperti teknik-teknik statistik dan matematis.

2.3.2 Teknik Data mining

Perkembangan bidang data mining yang semakin pesat, menimbulkan banyak tantangan baru, aplikasi-aplikasi dari metode dan teknik, statistik serta sistem basis data yang ada tidak dapat secara langsung menyelesaikan masalah-masalah yang ada dalam data mining.

Oleh karena itu maka perlu dilakukan studi-studi terkait untuk menemukan metode data mining baru atau suatu teknik terintegrasi untuk sebuah sistem data mining yang efektif dan efisien. Telah banyak kemajuan dalam hal riset dan pengembangan dari data mining, juga banyak teknik data mining dan sistem baru yang akhir-akhir ini dikembangkan.

Kata mining mempunyai arti yaitu usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Data mining memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelegent), machine learning, statistik dan database. Beberapa metode yang sering disebut-sebut dalam literatur data mining antara lain clustering, association rules mining, decision tree, neural network, classification, genetic algorithm dan lain-lain.

Dalam melakukan analisis data mining secara umum teknik-teknik pengolahan data terbagi menjadi 2 pendekatan yaitu Supervised learning dan Unsupervised learning. Dalam pendekatan unsupervised learning metode analisis dilakukan dengan dengan tanpa adanya latihan (training) dan tanpa adanya label (output) dari data. Dalam kategori ini adalah clustering dan association rule analysis.

Pendekatan lain adalah supervised learning, yaitu metode analisis dengan menggunakan latihan (training). Dalam pendekatan supervised learning ini untuk

menemukan fungsi keputusan, fungsi pemisah atau fungsi regresi digunakan beberapa contoh data yang mempunyai output atau label selama proses training. Data untuk training terdiri dari vector/ matrik input dan output (label). Matrik/ vektor input biasa diberi symbol X dan output diberi symbol Y.

(Saepulloh, 2010)

Menurut Han Jiawei (2011) ada beberapa teknik data mining yang digunakan, diantaranya adalah:

1. Association Rule Mining/ Market Basket Analsysis

Aturan asosiasi (Association rules) atau analisis afinitas (affinity analysis) berkenaan dengan studi tentang ’apa bersama apa’. Ini bisa berupa studi transaksi di supermarket, misalnya seseorang yang membeli kopi juga membeli gula. Di sini berarti kopi bersama dengan gula. Karena awalnya berasal dari studi tentang database transaksi pelanggan untuk menentukan kebiasaan suatu produk dibeli bersama produk apa, maka aturan asosiasi juga sering dinamakan market basket analysis.

Market Basket Analysis adalah analisis dari kebiasaan membeli customer dengan mencari asosiasi dan korelasi antara item-item berbeda yang diletakkan customer dalam keranjang belanjaannya.

Dari jumlah besar aturan yang mungkin dikembangkan, perlu memiliki aturan-aturan yang cukup kuat tingkat ketergantungan antar item dalam antecedent dan consequent. Untuk mengukur kekuatan aturan asosiasi ini, digunakan ukuran support dan confidence. Support adalah rasio antara jumlah transaksi

yang memuat antecedent dan consequent dengan jumlah transaksi. Confidence adalah rasio antara jumlah transaksi yang meliputi semua item dalam antecedent dan consequent dengan jumlah transaksi yang meliputi semua item dalam antecedent.

……… (2.1) Dimana :

S = Support

Σ(Ta+Tc) = Jumlah transaksi yang mengandung antencendent dan consequencent

Σ(T) = Jumlah transaksi

…………..(2.2) Dimana :

C = Confidence

Σ(Ta+Tc) =Jumlah transaksi yang mengandung antencendent dan consequencent

Σ(Ta) = Jumlah transaksi yang mengandung antencendent

Fungsi ini paling banyak digunakan untuk menganalisa data dalam rangka. keperluan strategi pemasaran, desain katalog, dan proses pembuatan keputusan bisnis. Contoh dari aturan asosiatif dari analisa pembelian di suatu pasar swalayan adalah bisa diketahui berapa besar kemungkinan seorang pelanggan membeli roti bersamaan dengan susu. Dengan pengetahuan

tersebut, pemilik pasar swalayan dapat mengatur penempatan barangnya. Penting tidaknya suatu aturan asosiatif dapat diketahui dengan dua parameter support yaitu persentase kombinasi item tersebut dalam database dan confidence yaitu kuatnya hubungan antar item dalam aturan asosiatif.

2. Decision tree

Decision tree adalah salah satu metode classification yang paling populer karena mudah untuk diinterpretasi oleh manusia. pada dasarnya konsep decision tree yaitu mengubah data menjadi pohon keputusan dan aturan-aturan keputusan.

Dalam decision tree kita tidak menggunakan vektor jarak untuk mengklasifikasikan obyek. Seringkali kita mempunyai data observasi dengan atribut-atribut yang bernilai nominal. Misalkan obyek kita adalah sekumpulan buah-buahan yang bisa dibedakan berdasarkan atribut bentuk, warna, ukuran dan rasa. Dalam kumpulan buah itu mungkin ada semangka dan pisang yang bisa dibedakan berdasarkan bentuk, warna, ukuran dan rasa. Bentuk, warna, ukuran dan rasa adalah besaran nominal, yaitu bersifat kategoris dan tiap nilai tidak bisa dijumlahkan atau dikurangkan.disini didasarkan pada pengelompokan objek berdasarkan atribut dan nilainya.

Gambar 2.1 Decision tree Sumber: Santoso, 2007

Dalam gambar diatas akan nampak di situ ada 4 level pertanyaan. Dalam setiap level ditanyakan nilai atribut melalui sebuah simpul. Jawaban dari pertanyaan itu dikemukakan lewat cabang-cabang. Langkah ini akan berakhir di suatu simpul jika di situ sudah jelas kelas atau jenis obyek yang kita cari. Kalau dalam satu tingkat suatu obyek sudah diketahui termasuk dalam jenis buah apa, maka kita berhenti di level tersebut. Jika tidak, kita susul dengan pertanyaan di level berikutnya hingga jelas ciri-cirinya dan kita bisa menentukan jenis buahnya. Dengan cara ini akan mudah mengelompokkan obyek ke dalam beberapa kelompok. Dalam decision tree setiap atribut ditanyakan di simpul. Jawaban dari atribut ini dinyatakan dalam cabang sampai akhirnya ditemukan kategori/jenis dari suatu obyek di simpul terakhir. Konsep entropi digunakan untuk penentuan pada atribut mana sebuah pohon akan terbagi. Semakin tinggi entropy sebuah sampel, semakin tidak murni sampel tersebut. Rumus yang digunakan untuk menghitung entropy sampel S adalah sebagai berikut :

Entropy (S) = -p1 log2 p1 – p2 log2 p2 ……….. (2.3) Dimana p1, p2, ....,pn masing-masing menyatakan proposi kelas 1, kelas 2, ..., kelas n dalam output.

Aplikasi klasifikasi decision tree telah digunakan dalam banyak area seperti kedokteran, manufaktur dan produksi, dan astronomi.

3. Clustering

Clustering adalah proses pengelompokan kumpulan data menjadi beberapa kelompok sehingga objek di dalam satu kelompok memiliki banyak kesamaan dan memiliki banyak perbedaan dengan objek di kelompok lain. Clustering

sendiri juga disebut unsupervised learning, karena Clustering lebih bersifat untuk dipelajari dengan diperhatikan. Cluster analysis merupakan proses partisi satu set objek data ke dalam himpunan bagian. Setiap himpunan bagian adalah cluster, sehingga objek yang di dalam cluster mirip satu sama dengan lainnya, dan mempunyai perbedaan dengan objek dari cluster yang lain.

Gambar 2.2 Contoh Clustering

Sumber: (Baskoro dalam Novianti, 2012)

Cluster analysis banyak digunakan dalam berbagai aplikasi seperti business inteligence, image pattern recognition, web search, biology, dan security. Di dalam business inteligence, Clustering bisa mengatur banyak customer ke dalam banyak group. Clustering juga dapat digunakan sebagai outlier detection, di mana outliers bisa menjadi menarik daripada kasus yang biasa. Contoh aplikasi yang digunakan adalah outlier detection berfungsi untuk mendeteksi dan memonitori aktifitas kriminal dalam e-commerce.

2.4 Clustering

Proses pengelompokan sekumpulan obyek kedalam kelas-kelas obyek yang sama disebut Clustering atau pengelompokan. Teknik cluster termasuk teknik yang sudah cukup dikenal dan banyak dipakai dalam data mining. Pengclusteran merupakan satu dari sekian banyak fungsi proses data mining

untuk menemukan kelompok atau identifikasi kelompok obyek yang hampir sama.

Secara umum cluster didefiniskan sebagai “sejumlah objek yang mirip yang dikelompokan secara bersama”, namun definisi dari cluster bisa beragam tergantung dari sudut pandang yang digunakan, beberapa definisi cluster berdasarkan sudut pandang adalah sebagai berikut (Saepulloh, 2010):

1. Definisi Well-Separated Cluster

Berdasarkan definisi ini cluster adalah sekelompok titik (objek) dimana sebuah titik pada kelompok itu lebih dekat atau mirip dengan semua titik (objek) yang ada pada kelompok tersebut dari pada titik-titik (objek-objek) lain yang tidak terdapat pada kelompok itu. Biasanya digunakan sebuah nilai batas (threshold) untuk menentukan titik-titik (objek-objek) yang dianggap cukup dekat satu sama lainnya.

Sumber: (Saepulloh, 2010)

Gambar 2.3 Cluster berdasarkan definisi Well-Separated-Cluster 2. Definisi Center-Based Cluster

Berdasarkan definisi ini sebuah cluster didefinisikan sebagai sekelompok titik (objek) dimana semua titik pada kelompok itu lebih dekat dengan pusat atau “center” dari kelompok tersebut dari pada pusat pada kelompok lainnya.

Umumnya pusat cluster adalah centroid, yaitu rata-rata dari semua titik pada cluster tersebut, namun dapat juga digunakan medoid, yaitu titik yang paling mewakili pada sebuah cluster.

Sumber: (Saepulloh, 2010)

Gambar 2.4 Cluster berdasarkan definisi Center-Based Cluster

Clustering digunakan untuk menganalisis pengelompokkan berbeda terhadap data. Prinsip dari Clustering adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar cluster. Clustering dapat dilakukan pada data yang memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi. Ilustrasi dari Clustering dapat dilihat pada gambar dibawah ini. Singkatnya, Clustering berusaha untuk menemukan komponen kelompok secara natural berdasarkan pada kedekatan data.

Gambar 2.5 Ilustrasi Pengelompokan Sumber: (Santosa, 2007)

2.4.1 Persyar atan Clustering

(Wakhidah, 2007) menyatakan bahwa syarat untuk melakukan analisa Clustering adalah sebagai berikut:

1. Scalability

Mampu menangani data dalam jumlah yang besar. Karena database yang besar berisi lebih dari jutaan objek bukan hanya ratusan objek, maka dari itu diperlukan algoritma dengan Clustering yang scalable.

2. Kemampuan untuk menangani berbagai jenis tipe

Banyak algoritma Clustering yang hanya dibuat untuk menganalisa data bersifat numeric. Namun sekarang ini, aplikasi data mining harus dapat menangani berbagai macam bentuk data seperti biner, data nominal, data ordinal, ataupun campuran.

3. Kemampuan untuk menangani data yang rusak

Pada kenyataannya, data pasti ada yang rusak, error, tidak dimengerti, ataupun menghilang. Beberapa algoritma Clustering sangat sensitif terhadap data yang rusak, sehingga menyebabkan cluster dengan kualitas rendah. Maka dari itu diperlukan Clustering yang mampu menangani data yang rusak.

4. Usability

Pengguna tentu saja menginginkan hasil Clustering mudah ditafsirkan, dimengerti, dan bermanfaat. Hal ini berarti Clustering perlu ditandai dengan beberapa syarat sesuai kemauan user dan tentu saja hal itu mempengaruhi pemilihan metode Clustering yang akan digunakan.

2.4.2 Klasifikasi Clustering

Metode Clustering pada dasarnya ada dua jenis, yaitu hierarichal Clustering method dan partitional Clustering method, seperti penjelasan berikut ini (Baskoro, 2010):

1. Partitional Clustering

Metode partitional Clustering atau biasa disebut non-hierarichal Clustering bertujuan untuk mengelompokkan n objek kedalam k cluster, dimana nilai k sudah ditentukan sebelumnya. Ini bias dilakukan dengan menentukan pusat cluster awal, lalu dilakukan realokasi objek berdasarkan criteria tertentu sampai dicapai pengelompokkan yang optimum.

Gambar 2.6 Partitional Clustering Sumber: (Baskoro, 2010)

2. Hierarchical Clustering

Metode hierarchical Clustering digunakan apabila belum ada informasi jumlah cluster yang akan dipilih, metode hirarki akan menghasilkan cluster -cluster yang bersarang (nested) sehingga masing-masing cluster dapat memiliki sub-cluster. Prinsip utama hierarchical Clustering adalah mengatur semua objek dalam sebuah pohon keputusan (umumnya berupa pohon biner) berdasarkan suatu fungsi kriteria tertentu. Pohon tersebut disebut dendogram. Dalam cluster hirarki, kita mulai dengan membuat m cluster dimana setiap

cluster beranggotakan satu obyek dan berakhir dengan satu cluster dimana anggotanya adalah m obyek. Pada setiap tahap dalam prosedurnya, satu cluster digabung dengan satu cluster yang lain.

Gambar 2.7 Dendogram Hierarchical Clustering Sumber : (Saepulloh, 2010)

2.5 Algoritma K-means

Clustering Algoritma K-means merupakan teknik Clustering yang paling umum dikenal karena sederhana dan mudah diimplementasikan. K-means merupakan metode pengklasteran secara partitioning yang memisahkan data ke dalam kelompok yang berbeda. Dalam teknik ini kita ingin mengelompokkan obyek ke dalam k kelompok atau cluster.

Untuk melakukan Clustering ini, nilai k harus ditentukan terlebih dahulu. Biasanya user atau pemakai sudah mempunyai informasi awal tentang obyek yang sedang dipelajari termasuk berapa jumlah cluster yang paling tepat.

Secara detail kita bisa menggunakan ukuran ketidakmiripan untuk mengelompokkan obyek kita. Ketidakmiripan bisa diterjemahkan dalam konsep jarak. Jika jarak dua obyek atau data titik cukup dekat, maka dua obyek itu mirip. Semakin dekat berarti semakin tinggi kemiripannya. Semakin tinggi nilai jarak, semakin tinggi ketidakmiripannya.

Agusta dalam Novianti (2012) menyatakan bahwa K-means merupakan salah satu metode data Clustering non hirarki yang berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih cluster atau kelompok. Metode ini mempartisi data ke dalam cluster atau kelompok sehingga data yang memiliki karakteristik sama dikelompokkan ke dalam satu cluster yang sama.

K-Means merupakan algoritma untuk cluster n objek berdasarkan atribut menjadi k partisi, dimana k < n. Gambar berikut ini menunjukkan k-means Clustering algoritma dalam tindakan, untuk kasus dua dimensi. Pusat awal yang dihasilkan secara acak untuk menunjukkan tahapan lebih rinci. Background ruang partisi hanya untuk ilustrasi dan tidak dihasilkan oleh algoritma k-means.

Gambar 2.8 K-meansClustering dalam tindakan (2 dimensi) Sumber: (Wakhidah, 2007)

Algoritma k-means merupakan algoritma yang membutuhkan parameter input sebanyak k dan membagi sekumpulan n objek kedalam k cluster sehingga tingkat kemiripan antar anggota dalam satu cluster tinggi sedangkan tingkat kemiripan dengan anggota pada cluster lain sangat rendah. Kemiripan anggota terhadap cluster diukur dengan kedekatan objek terhadap nilai mean pada cluster atau dapat disebut sebagai centroid cluster atau pusat massa (Widyawati, 2010).

(Santoso, 2007) Rangkaian gambar dibawah ini menunjukkan ilustrasi bagaimana Algoritma K-means dilakukan sebagai berikut:

Gambar 2.9 Ilustrasi algoritma K-means Sumber: (Santosa, 2007)

Dari gambar diatas dapat dijelaskan mengenai langkah-langkah dari algoritma K-means adalah:

1. Pilih jumlah cluster k

2. Inisialisasi k pusat cluster Ini bisa dilakukan dengan berbagai cara. Yang paling sering dilakukan adalah dengan cara random. Pusat-pusat cluster diberi nilai awal dengan angka-angka random.

3. Tempatkan setiap data/obyek ke cluster terdekat Kedekatan dua obyek ditentukan berdasar jarak kedua obyek tersebut. Demikian juga kedekatan suatu data ke cluster tertentu ditentukan jarak antara data dengan pusat cluster. Dalam tahap ini perlu dihitung jarak tiap data ke tiap pusat cluster. Jarak paling dekat antara satu data dengan satu cluster tertentu akan menentukan suatu data masuk dalam cluster mana.

4. Hitung kembali pusat cluster dengan keanggotaan cluster yang sekarang Pusat cluster adalah rata-rata dari semua data/obyek dalam cluster tertentu. Jika dikehendaki bisa juga memakai median dari cluster tersebut. Jadi rata-rata (mean) bukan satu-satunya ukuran yang bisa dipakai.

5. Tugaskan lagi setiap obyek dengan memakai pusat cluster yang baru. Jika pusat cluster sudah tidak berubah lagi, maka proses pengclusteran selesai. Atau, kembali lagi ke langkah nomor 3 sampai pusat cluster tidak berubah lagi.

Adapun rumus untuk pengerjaan Algoritma K-means adalah sebagai berikut: a. Me ne nt uka n Ba nya k nya Clu ste r k

Untuk menentukan nilai banyaknya cluster k dilakukan dengan beberapa pertimbangan seperti dibawah ini: (Saepulloh, 2010)

1. Pertimbangan teoritis, konseptual, praktis yang mungkin diusulkan untuk menentukan berapa banyak jumlah cluster.

2. Besarnya relative cluster seharusnya bermanfaat, pemecahan cluster yang menghasilkan 1 objek anggota cluster dikatakan tidak bermanfaat sehingga hal ini perlu untuk dihindari.

b. Me ne nt uka n Cent roid

Penentuan centroid awal dilakukan secara random/ acak dari data/ objek yang tersedia sebanyak jumlah kluster k, kemudian untuk menghitung centroid cluster berikutnya ke i, vidigunakan rumus sebagai berikut: (Saepulloh, 2010)

1 i N i i k k

X

V

N

=

= ∑

……….. (2.4)

Vk : centroid pada cluster ke k Xi : Data ke i

Nk : Banyaknya objek/jumlah data yang menjadi anggota cluster ke k c. Me ng h it u ng J arak Ant ara Dat a De nga n Ce ntroid

Menurut Santosa (2007), untuk menghitung jarak antara data dengan centroid dapat dihitung dengan menggunakan rumus dibawah ini:

……….. (2.5)

Dimana:

De : Euclidean Distance i : Banyaknya Objek (x,y): Koordinat Objek (s,t) : Koordinat Centroid d. Konvergensi

Pengecekan konvergensi dilakukan dengan membandingkan matrik group assignment pada iterasi sebelumnya dengan matrik group assignment pada iterasi yang sedang berjalan. Jika hasilnya sama maka algoritma k-means cluster analysis sudah konvergen, tetapi jika berbeda maka belum konvergen sehingga perlu dilakukan iterasi berikutnya. (Saepulloh, 2010)

2.6 C on t oh P en e r a p a n A lgo r it m a K-M ean s

Misalnya kita memiliki 4 objek sebagai titik data pelatihan dan setiap obyek memiliki 2 atribut. Tiap atribut mewakili koordinat dari objek, yaitu:

Objek Atribut 1 (X): bobot indeks Objek Atribut 2 (Y): pH

Tabel 2.1 Data Penelitian

Untuk menyelesaikan permasalahan tersebut, kita dapat melakukan beberapa tahap, seperti dibawah ini:

1. Menentukan Jumlah Cluster

Dengan memperhatikan data tersebut, kita dapat mengelompokkan object tersebut ke dalam dua cluster sesuai dengan atributnya (yaitu cluster 1 dan

Dokumen terkait