• Tidak ada hasil yang ditemukan

Bab ini berisi kesimpulan dan saran dari hasil penelitian sehingga dapat memberikan suatu rekomendasi sebagai masukan bagi pihak perpustakaan.

DAFTAR PUSTAKA LAMPIRAN

BAB II

TINJ AUAN PUSTAKA

2.1 Data Mining

Santosa (2007) menyatakan bahwa data mining sering juga disebut knowledge discovery in database (KDD), adalah kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar. Keluaran dari data mining ini bisa dipakai untuk memperbaiki pengambilan keputusan di masa depan. Sehingga istilah pattern recognition sekarang jarang digunakan karena ia termasuk bagian dari data mining.

Sedangkan menurut Larose (2004) dalam Nango (2012) menyatakan bahwa data mining adalah suatu proses pencarian korelasi, pola dan tren baru yang berguna dalam media penyimpanan data berukuran besar menggunakan teknologi pengenalan pola seperti teknik-teknik statistik dan matematis. Istilah lain yang sering digunakan antara lain knowledge mining from data, knowledge extraction, data/ pattern analysis, data archeology, dan data dredging.

Tujuan data mining menurut Baskoro (2010) dalam Nango (2012) menyatakan bahwa adapun tujuan dari adanya data mining adalah:

a. Explanatory, yaitu untuk menjelaskan beberapa kegiatan observasi atau suatu

kondisi.

b. Confirmatory, yaitu untuk mengkonfirmasikan suatu hipotesis yang telah ada.

2.1.1 Teknik Data mining

Perkembangan bidang data mining yang semakin pesat, menimbulkan banyak tantangan baru, aplikasi-aplikasi dari metode dan teknik, statistik serta sistem basis data yang ada tidak dapat secara langsung menyelesaikan masalah-masalah yang ada dalam data mining.

Oleh karena itu maka perlu dilakukan studi-studi terkait untuk menemukan metode data mining baru atau suatu teknik terintegrasi untuk sebuah sistem data mining yang efektif dan efisien. Telah banyak kemajuan dalam hal riset dan pengembangan dari data mining, juga banyak teknik data mining dan sistem baru yang akhir-akhir ini dikembangkan.

Dalam melakukan analisis data mining secara umum teknik-teknik pengolahan data terbagi menjadi 2 pendekatan yaitu Supervised learning dan

Unsupervised learning. Dalam pendekatan unsupervised learning metode analisis

dilakukan dengan dengan tanpa adanya latihan (training) dan tanpa adanya label dari data. Dalam kategori ini adalah clustering analysis dan association rule analysis.

Pendekatan lain adalah supervised learning, yaitu metode analisis dengan menggunakan latihan (training). Dalam pendekatan supervised learning ini untuk menemukan fungsi keputusan, fungsi pemisah atau fungsi regresi digunakan beberapa contoh data yang mempunyai output atau label selama proses training, disini kita ingin menemukan fungsi yang bisa dinyatakan sebagai y= f(x). Data untuk training terdiri dari vector/matrik input dan output(label). Matrik/Vektor input biasa diberi symbol X dan output diberi symbol Y.

Dalam unsupervised learning kita tidak mempunyai data output atau Y. Karena hasil dari data mining ini akan digunakan untuk pengambilan keputusan maka sifat mudah difahami dan mudah pencariannya menjadi sangat penting, sebab bagaimanapun apabila hasil tersebut sulit untuk difahami maka kemungkinan akan sulit juga diinterpretasikan dengan benar, yang pada akhirnya dihawatirkan akan menghasilkan keputusan yang kurang tepat atau bahkan salah. (Saepulloh, 2010)

Menurut Han Jiawei (2011) ada beberapa teknik data mining yang digunakan, diantaranya adalah:

1. Association Rule Mining/ Market Basket Analsysis

Aturan asosiasi (Association rules) atau analisis afinitas (affinity analysis) berkenaan dengan studi tentang ’apa bersama apa’. Ini bisa berupa studi transaksi di supermarket, misalnya seseorang yang membeli susu bayi juga membeli sabun mandi. Di sini berarti susu bayi bersama dengan sabun mandi. Karena awalnya berasal dari studi tentang database transaksi pelanggan untuk menentukan kebiasaan suatu produk dibeli bersama produk apa, maka aturan asosiasi juga sering dinamakan market basket analysis. Market Basket Analysis adalah Analisis dari kebiasaan membeli customer dengan mencari asosiasi dan korelasi antara item-item berbeda yang diletakkan customer dalam keranjang belanjaannya. Dari jumlah besar aturan yang mungkin dikembangkan, perlu memiliki aturan-aturan yang cukup kuat tingkat ketergantungan antar item dalam antecedent dan consequent. Untuk mengukur kekuatan aturan asosiasi ini, digunakan ukuran support dan Confidence seperti pada persamaan. Support

adalah rasio antara jumlah transaksi yang memuat antecedent dan consequent dengan jumlah transaksi. Confidence adalah rasio antara jumlah transaksi yang meliputi semua item dalam antecedent dan consequent dengan jumlah transaksi yang meliputi semua item dalam antecedent.

Dimana :

S = Support

Σ(Ta+Tc) =Jumlah transaksi yang mengandung antencendent dan consequencent

Σ(T) = Jumlah transaksi

Dimana :

C = Confidence

Σ(Ta+Tc) =Jumlah transaksi yang mengandung antencendent dan consequencent

Σ(Ta) = Jumlah transaksi yang mengandung antencendent

Fungsi ini paling banyak digunakan untuk menganalisa data dalam rangka. keperluan strategi pemasaran, desain katalog, dan proses pembuatan keputusan bisnis. Contoh dari aturan asosiatif dari analisa pembelian di suatu pasar swalayan adalah bisa diketahui berapa besar kemungkinan seorang pelanggan

membeli roti bersamaan dengan susu. Dengan pengetahuan tersebut, pemilik pasar swalayan dapat mengatur penempatan barangnya. Penting tidaknya suatu aturan asosiatif dapat diketahui dengan dua parameter support yaitu persentase kombinasi item tersebut dalam database dan Confidence yaitu kuatnya hubungan antar item dalam aturan asosiatif.

2. Decision tree

Decision tree adalah salah satu metode classification yang paling populer

karena mudah untuk diinterpretasi oleh manusia. pada dasarnya konsep decision tree yaitu mengubah data menjadi pohon keputusan dan aturan-aturan keputusan. Dalam decision tree kita tidak menggunakan vektor jarak untuk mengklasifikasikan obyek. Seringkali kita mempunyai data observasi dengan atribut-atribut yang bernilai nominal. Misalkan obyek kita adalah sekumpulan buah-buahan yang bisa dibedakan berdasarkan atribut bentuk, warna, ukuran dan rasa. Dalam kumpulan buah itu mungkin ada semangka dan pisang yang bisa dibedakan berdasarkan bentuk, warna, ukuran dan rasa. Bentuk, warna, ukuran dan rasa adalah besaran nominal, yaitu bersifat kategoris dan tiap nilai tidak bisa dijumlahkan atau dikurangkan. Disini didasarkan pada pengelompokan objek berdasarkan atribut dan nilainya.

Dalam gambar diatas akan nampak di situ ada 4 level pertanyaan. Dalam setiap level ditanyakan nilai atribut melalui sebuah simpul. Jawaban dari pertanyaan itu dikemukakan lewat cabang-cabang. Langkah ini akan berakhir di suatu simpul jika di situ sudah jelas kelas atau jenis obyek yang kita cari. Kalau dalam satu tingkat suatu obyek sudah diketahui termasuk dalam jenis buah apa, maka kita berhenti di level tersebut. Jika tidak, kita susul dengan pertanyaan di level berikutnya hingga jelas ciri-cirinya dan kita bisa menentukan jenis buahnya. Dengan cara ini akan mudah mengelompokkan obyek ke dalam beberapa kelompok. Dalam decision tree setiap atribut ditanyakan di simpul. Jawaban dari atribut ini dinyatakan dalam cabang sampai akhirnya ditemukan kategori/ jenis dari suatu obyek di simpul terakhir.

Konsep entropy digunakan untuk penentuan pada atribut mana sebuah pohon akan terbagi. Semakin tinggi entropy sebuah sampel, semakin tidak murni sampel tersebut. Rumus yang digunakan untuk menghitung entropy sampel S adalah sebagai berikut :

Entropy (S) = -p1 log2 p1 – p2 log2 p2

Dimana p1, p2, ....,pn masing-masing menyatakan proposi kelas 1, kelas 2, ...,

kelas n dalam output.

Aplikasi klasifikasi decision tree telah digunakan dalam banyak area seperti kedokteran, manufaktur dan produksi, dan astronomi.

3. Clustering

Clustering adalah proses pengelompokan kumpulan data menjadi beberapa kelompok sehingga objek di dalam satu kelompok memiliki banyak kesamaan dan memiliki banyak perbedaan dengan objek di kelompok lain. Clustering sendiri juga disebut unsupervised learning, karena clustering lebih bersifat untuk dipelajari dengan diperhatikan. Cluster analysis merupakan proses partisi satu set objek data ke dalam himpunan bagian. Setiap himpunan bagian adalah cluster, sehingga objek yang di dalam cluster mirip satu sama dengan lainnya, dan mempunyai perbedaan dengan objek dari cluster yang lain.

Gambar 2.2 Contoh Clustering (Baskoro dalam Novianti, 2012)

Cluster analysis banyak digunakan dalam berbagai aplikasi seperti business

inteligence, image pattern recognition, web search, biology, dan security. Di

dalam business inteligence, clustering bisa mengatur banyak customer ke dalam banyak group. Clustering juga dapat digunakan sebagai outlier

detection, di mana outliers bisa menjadi menarik daripada kasus yang biasa.

Contoh aplikasi yang digunakan adalah outlier detection berfungsi untuk mendeteksi dan memonitori aktifitas kriminal dalam e-commerce.

2.2 Teknik Klastering

Menurut Santosa (2007), Teknik klaster termasuk teknik yang sudah cukup dikenal dan banyak dipakai dalam data mining. Sampai sekarang para ilmuwan dalam bidang data mining masih melakukan berbagai usaha untuk melakukan perbaikan model klaster karena metoda yang dikembangkan sekarang masih bersifat heuristik. Usaha-usaha untuk menghitung jumlah klaster yang optimal dan pengklasteran yang paling baik masih terus dilakukan. Dengan demikian menggunakan metoda yang sekarang, kita tidak bisa menjamin hasil pengklasteran kita sudah merupakan hasil yang optimal. Namun, hasil yang dicapai biasanya sudah cukup bagus dari segi praktis.

Tujuan utama dari metoda klaster adalah pengelompokan sejumlah data/ obyek kedalam klaster (group) sehingga dalam setiap klaster akan berisi data yang semirip mungkin. Dalam klastering kita berusaha untuk menempatkan obyek yang mirip (jaraknya dekat) dalam satu klaster dan membuat jarak antar klaster sejauh mungkin. Ini berarti obyek dalam satu klaster sangat mirip satu sama lain dan berbeda dengan obyek dalam klaster-klaster yang lain. Dalam teknik ini kita tidak tahu sebelumnya berapa jumlah klaster dan bagaimana pengelompokanya.

Ada dua pendekatan dalam klastering: partisioning dan hirarki. Dalam partisioning kita mengelompokkan obyek xi, x2, ..., xm ke dalam k klaster. Ini bisa dilakukan dengan menentukan pusat klaster awal, lalu dilakukan realokasi obyek berdasarkan kriteria tertentu sampai dicapai pengelompokkan yang optimum. Dalam klaster hirarki, kita mulai dengan membuat m klaster dimana setiap klaster beranggotakan satu obyek dan berakhir dengan satu klaster dimana

anggotanya adalah m obyek. Pada setiap tahap dalam prosedurnya, satu klaster digabung dengan satu klaster yang lain. Kita bisa memilih berapa jumlah klaster yang diinginkan dengan menentukan cut-off pada tingkat tertentu.

Sedangkan menurut Hill (2007) dalam Saepulloh (2012) menyatakan cluster analysis is usually used as an initial analytic tool, giving data mining

analysts the ability to identify general groupings in the data. Cluster analysis

merupakan salah satu metode data mining yang bersifat tanpa latihan (unsupervised analisys) yang mempunyai tujuan untuk mengelompokan data kedalam kelompok-kelompok dimana data-data yang berada dalam kelompok yang sama akan mempunyai sifat yang relatif homogen.

Jika ada n objek pengamatan dengan p variable maka terlebih dulu ditentukan ukuran kedekatan sifat antar data, ukuran kedekatan sifat data yang bisa digunakan adalah jarak euclidius (Euclidean distance) antara dua objek dari p dimensi pengamatan, jika objek pertama yang akan diamati adalah X = [x1,x2,x3,….xp] dan Y=[y1,y2,y3,….yp] maka euclidean distance dirumuskan

sebagai berikut :

Secara formal definisi dari cluster analysis adalah sebagai berikut: Misalkan S adalah himpunan objek yang mempunyai n buah elemen,

S = {o1,o2,o3…on}

Cluster analysis membagi S menjadi k himpunan C1,C2,C3…Ck,

himpunan bagian dari S, CiS . Solusi atau keluaran dari sebuah cluster

Analysis dinyatakan sebagai himpunan dari semua cluster,

1 2 3

{ , , .... k | i , i 1, 2.. } C= C C C C C ⊆ ∀ ∈S k

Jika S adalah himpunan objek yang mempunyai n buah elemen dan terdiri dari r variable maka ketika S dibagi menjadi k cluster, maka model dari cluster dapat didefinisikan dengan dua buah matrik yaitu matrik data Dnxk = (dik) dan matrik variable Frxk = (fjk),

1, data ke i anggota kluster ke k 0,data ke i bukan anggota kluster ke k

ik d

=  

1, Variable ke j anggota kluster ke k 0, Variable ke j bukan anggota kluster ke k

jk f

=  

Proses clustering mengasumsikan bahwa data akan menjadi anggota dari satu dan hanya satu cluster. (Hill, 2007 dalam Saepulloh, 2012)

2.2.1 Klasifikasi Metode Klastering

Metode klastering pada dasarnya ada dua jenis, yaitu metode cluster analysis hirarki (hierarchical clustering method) dan Metode cluster analysis non hirarki (non hierarchical clustering method). Metode clustering hirarki digunakan apabila belum ada informasi jumlah cluster yang akan dipilih, metode hirarki akan menghasilkan cluster-cluster yang bersarang (nested) sehingga masing-masing

cluster dapat memiliki sub-cluster. Prinsip utama metode cluster analysis hirarki

pohon biner) berdasarkan suatu fungsi kriteria tertentu. Pohon tersebut disebut dendogram.

Gambar 2.3 Contoh Dendogram (Saepulloh,2010)

Semakin tinggi level simpul pohon maka semakin rendah tingkat similaritas antar objeknya, metode cluster analysis hirarki dapat dilakukan dengan dua pendekatan yaitu bottom-up (agglomerative) dan top-down (divisive). Pada pendekatan aggromerative setiap objek pada awalnya berada pada cluster masing-masing, kemudian setiap cluster yang paling mirip akan dikelompokan dalam satu cluster, hingga membentuk suatu hirarki cluster. Sedangkan pada pendekatan divisive, pada awalnya hanya terdapat satu buah cluster tunggal yang beranggotakan seluruh objek, kemudian dilakukan pemecahan atas cluster tersebut menjadi beberapa sub-cluster, contoh algoritma metode cluster hirarki adalah HAC (Hieararchical Aggromerative Clustering) dengan beberapa variasi perhitungan similaritas antar cluster seperti single-link, complete-link dan group average.

Sedangkan metode cluster analysis non hirarki biasa juga disebut dengan partitional clustering bertujuan mengelompokan n objek kedalam k cluster (k < n) dimana nilai k sudah ditentukan sebelumnya. Salah satu prosedur clustering non hirarki adalah menggunakan metode K-Means clustering analisis, yaitu metode yang bertujuan untuk mengelompokan objek atau data sedemikian rupa sehingga

jarak tiap objek ke pusat cluster (centroid) adalah minimum, titik pusat cluster terbentuk dari rata-rata nilai dari setiap variable.

Secara umum proses cluster analysis dimulai dengan perumusan masalah clustering dengan mendefinisikan variable-variable yang akan digunakan sebagai dasar proses cluster. Konsep dasar dari cluster analysis adalah konsep pengukuran jarak (distance) atau kesamaaan (similarity), distance adalah ukuran tentang jarak pisah antar objek sedangkan similaritas adalah ukuran kedekatan. Pengukuran jarak (distance type measure) digunakan untuk data-data yang bersifat metrik, sedangkan pengukuran kesesuaian (matching type measure) digunakan untuk data-data yang bersifat kualitatif atau non metrik. Proses

clustering yang baik seharusnya menghasilkan cluster-cluster yang berkualitas

tinggi dengan sifat-sifat sebagai berikut:

a. Setiap objek pada cluster memiliki kemiripan (intra cluster similarity) yang tinggi satu sama lainnya.

b. Kemiripan objek pada cluster yang berbeda (inter cluster similarity) rendah. ( Saepulloh, 2010)

2.2.2 K-Means

Cluster analysis merupakan salah satu metode data mining yang bersifat

tanpa latihan (unsupervised analisys), K-means cluster analysis merupakan salah satu metode cluster analysis non hirarki yang berusaha untuk mempartisi data yang ada kedalam satu atau lebih cluster atau kelompok data berdasarkan

karakteristiknya, sehingga data yang mempunyai karakteristik yang sama dikelompokan dalam satu cluster yang sama dan data yang mempunyai karakteristik yang berbeda dikelompokan ke dalam cluster yang lain. Tujuannya adalah untuk meminimalkan objective function yang di set dalam proses clustering, yang pada dasarnya berusaha untuk meminimalkan variasi dalam satu cluster dan memaksimalkan variasi antar cluster.

Metode ini meliputi sequential threshold, pararel threshold dan optimizing

threshold, Sequential threshold melakukan pengelompokan dengan terlebih

dahulu memilih satu objek dasar yang akan dijadikan nilai awal cluster, kemudian semua cluster yang ada dalam jarak terdekat dengan cluster ini akan bergabung, lalu dipilih cluster kedua dan semua objek yang mempunyai kemiripan dengan cluster ini akan digabungkan, demikian seterusnya sehingga terbentuk beberapa cluster dengan keseluruhan objek terdapat didalamnya. (Saepulloh, 2010)

Santosa (2007) menyatakan bahwa, dari beberapa teknik klastering yang paling sederhana dan umum dikenal adalah klastering k-means. Dalam teknik ini kita ingin mengelompokkan obyek ke dalam k kelompok atau klaster. Untuk melakukan klastering ini, nilai k harus ditentukan terlebih dahulu. Biasanya user atau pemakai sudah mempunyai informasi awal tentang obyek yang sedang dipelajari, termasuk berapa jumlah klaster yang paling tepat. Secara detail kita bisa menggunakan ukuran ketidakmiripan untuk mengelompokkan obyek kita. Ketidakmiripan bisa diterjemahkan dalam konsep jarak. Jika jarak dua obyek atau

data titik cukup dekat, maka dua obyek itu mirip. Semakin dekat berarti semakin tinggi kemiripannya. Semakin tinggi nilai jarak, semakin tinggi ketidakmiripannya. Algoritma k-means klastering dapat diringkas sebagai berikut: a. Pilih jumlah klaster k

b. Inisialisasi k pusat klaster Ini bisa dilakukan dengan berbagai cara. Yang paling sering dilakukan adalah dengan cara random. Pusat-pusat klaster diberi nilai awal dengan angka-angka random.

c. Tempatkan setiap data/ obyek ke klaster terdekat. Kedekatan dua obyek ditentukan berdasar jarak kedua obyek tersebut. Demikian juga kedekatan suatu data ke klaster tertentu ditentukan jarak antara data dengan pusat klaster. Dalam tahap ini perlu dihitung jarak tiap data ke tiap pusat klaster. Jarak paling dekat antara satu data dengan satu klaster tertentu akan menentukan suatu data masuk dalam klaster mana.

d. Hitung kembali pusat klaster dengan keanggotaan klaster yang sekarang Pusat klaster adalah rata-rata dari semua data/ obyek dalam klaster tertentu. Jika dikehendaki bisa juga memakai median dari klaster tersebut. Jadi rata-rata (mean) bukan satu-satunya ukuran yang bisa dipakai.

e. Tugaskan lagi setiap obyek dengan memakai pusat klaster yang baru. Jika pusat klaster sudah tidak berubah lagi, maka proses pengklasteran selesai. Atau, kembali lagi ke langkah nomor 3 sampai pusat klaster tidak berubah lagi.

Adapun rumus untuk pengerjaan Algoritma K-Means adalah sebagai berikut: A. Me ne nt uka n Ba nya k nya Clu ste r k

Untuk menentukan nilai banyaknya cluster k dilakukan dengan beberapa pertimbangan sebagai berikut: (Saepulloh, 2010)

1. Pertimbangan teoritis, konseptual, praktis yang mungkin diusulkan untuk menentukan berapa banyak jumlah cluster.

2. Besarnya relative cluster seharusnya bermanfaat, pemecahan cluster yang menghasilkan 1 objek anggota cluster dikatakan tidak bermanfaat sehingga hal ini perlu untuk dihindari.

B. Me ne nt uka n Cent roid

Penentuan centroid awal dilakukan secara random/ acak dari data/ objek yang tersedia sebanyak jumlah kluster k, kemudian untuk menghitung

centroid cluster berikutnya ke i, vi digunakan rumus sebagai berikut:

(Saepulloh, 2010) 1 i N i i k k

X

V

N

=

=

Vk : centroid pada cluster ke k

Xi : Data ke i

C. Me ng h it u ng J arak Ant ara Dat a De nga n Ce ntroid

Menurut Santosa (2007), untuk menghitung jarak antara data dengan centroid dapat dihitung dengan menggunakan rumus:

Dimana P : Dimensi data

| . | : Nilai Absolut

Sedangkan untuk euclidean distance jarak antara data dengan centroid dihitung dengan menggunakan rumus:

Dimana P : Dimensi data | . | : Nilai Absolut

D. Penga lo k as ia n U la ng Dat a Keda la m Ma s in g- ma s ing Clust er Untuk melakukan pengalokasian data kedalam masing-masing cluster pada saat iterasi dilakukan secara umum dengan dua cara yaitu dengan cara pengalokasian dengan cara hard k-means, dimana secara tegas setiap objek dinyatakan sebagai anggota cluster satu dan tidak menjadi anggota cluster lainnya. Cara lain adalah dengan cara fuzzy k-means dimana masing-masing objek diberikan nilai kemungkinan untuk bisa bergabung dengan setiap cluster yang ada. (Saepulloh, 2010)

E. Konv erg ens i

Pengecekan konvergensi dilakukan dengan membandingkan matrik group assignment pada iterasi sebelumnya dengan matrik group assignment pada iterasi yang sedang berjalan. Jika hasilnya sama maka algoritma

k-means cluster analysis sudah konvergen, tetapi jika berbeda maka belum

konvergen sehingga perlu dilakukan iterasi berikutnya. (Saepulloh, 2010)

2.2.3 C on t oh P en e r a p a n A lgo r it m a K-M e an s Clu st er A n a ly sis Untuk mempermudah memahami algoritma k-means cluster analysis maka berikut ini adalah contoh sederhana pemakaian algoritma k-means cluster, Misalkan kita mempunyai dua variable X1 dan X2 dengan masing-masing

mempunyai item-item A, B, C dan D sebagai berikut:

Tabel 2.1 Tabel Observasi Item Observasi X1 X2 A 1 1 B 2 1 C 4 3 D 5 4

Tujuannya adalah membagi semua item menjadi 2 cluster ( k = 2) , dengan menggunakan algoritma yang disebutkan diatas maka langkah-langkah yang dikerjakan adalah sebagai berikut:

a. Tentukan k sebagai jumlah cluster yang akan di bentuk k = 2

b. Bangkitkan k Centroid (titik pusat cluster) awal secara random

Secara random kita tentukan A dan B sebagai centroid yang pertama, sehingga diperoleh c1= (1,1) dan c2= (2,1)

c. Hitung jarak setiap data ke masing-masing centroid dari masing-masing cluster dengan Euclidian distance sebagai berikut :

Dimana P : Dimensi data | . | : Nilai Absolut D(C1,A) = (1 1)− + −2 (1 1)2 =0 D(C1,B) = (2 1)− + −2 (1 1)2 =1 D(C1,C) = (4 1)− + −2 (3 1)2 =3,61 D(C1,D) = (5 1)− + −2 (4 1)2 =5 D(C2,A) = (1 2)− 2+ −(1 1)2 =1 D(C2,B) = (2 2)− 2+ −(1 1)2 =0 D(C2,C) = (4 2)− 2+ −(3 1)2 =2,83 D(C2,D) = (5 2)− 2+ −(4 1)2 =4, 24

Sehingga distance yang diperoleh adalah sebagai berikut: Tabel 2.2 Hasil Perhitungan

Cluster

Distance

A B C D

C1 0 1 3,61 5

C2 1 0 2,83 4,24

d. Alokasikan masing-masing data ke dalam centroid yang paling terdekat

Proses alokasi dilakukan dengan melihat minimum distance. Dari table distance diatas maka terlihat bahwa jarak item A terdekat pada cluster C1 sehingga item A dialokasikan kepada cluster C1, sementara item B, Item C,

Item D jarak terdekatnya pada cluster C2, sehingga item B, C, D dialokasikan

pada cluster C2. Dengan menggunakan rumus alokasi dibawah ini,

Maka diperoleh table group assigmentnya adalah sebagai berikut: Tabel 2.3 Group Assigment

A B C D

1 0 0 0

0 1 1 1

e. Lakukan iterasi-1, kemudian tentukan posisi centroid baru dengan cara menghitung rata-rata dari data-data yang berada pada centroid yang sama. Dengan menggunakan rumus,

1 i N k k i X V =

=

Maka diperoleh centroid baru untuk kedua cluster tersebut adalah C1 = (1,1), karena beranggotakan 1 anggota

1 2( ) 2 4 5 3, 67 3 x C = + + = 2 2( ) 1 3 4 2, 67 3 x C = + + = C2=(3.67, 2.67)

f. Ulangi langkah 3 jika posisi centroid baru dan centroid lama tidak sama, karena nilai centroidnya berbeda maka langkah no 3 diulangi kembali sebagai berikut: D1(C1,A) = 2 2 (1 1)− + −(1 1) =0 D1(C1,B) = 2 2 (2 1)− + −(1 1) =1 D1(C1,C) = 2 2 (4 1)− + −(3 1) =3,61 D1(C1,D) = 2 2 (5 1)− + −(4 1) =5 D1(C2,A) = (1 3,67)− 2+ −(1 2, 67)2 =3,14 D1(C2,B) = (2 3, 67)− 2+ −(1 2,67)2 =2,36 D1(C2,C) = (4 3,67)− 2+ −(3 2,67)2 =0, 47 D1(C2,D) = (5 3,67)− 2+ −(4 2,67)2 =1,89

Sehingga distance yang diperoleh pada iterasi 1 adalah sebagai berikut:

Tabel 2.4 Distance Pada Iterasi 1

Cluster

Distance

A B C D

C1 0 1 3,61 5

C2 3,14 2,36 0,47 1,89

g. Alokasikan masing-masing data ke dalam centroid yang paling terdekat

Dokumen terkait