ANALISIS KINERJA ALGORITMA SUBTRACTIVE CLUSTERING DALAM MENENTUKAN JUMLAH DAN POSISI PUSAT CLUSTER TESIS IRWANDI

(1)

POSISI PUSAT CLUSTER

TESIS

IRWANDI 167038032

PROGRAM STUDI S2 TEKNIK INFORMATIKA

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA

MEDAN

2020

(2)

POSISI PUSAT CLUSTER

TESIS

Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Magister Teknik Informatika

IRWANDI 167038032

PROGRAM STUDI S2 TEKNIK INFORMATIKA

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA

MEDAN 2020

(3)

(4)

PERNYATAAN

ANALISIS KINERJA ALGORITMA SUBTRACTIVE CLUSTERING DALAM MENENTUKAN JUMLAH DAN

POSISI PUSAT CLUSTER

TESIS

Saya mengakui bahwa tesis ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.

Medan, Desember 2020

Irwandi

NIM. 167038032

(5)

PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN

AKADEMIS

Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan dibawah ini:

Nama : Irwandi

NIM : 167038032

Program Studi : Magister Teknik Informatika Jenis Karya Ilmiah : Tesis

Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalty Free Right) atas tesis saya yang berjudul:

ANALISIS KINERJA ALGORITMA SUBTRACTIVE CLUSTERING DALAM MENENTUKAN JUMLAH DAN

POSISI PUSAT CLUSTER

Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non- Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat, mengelola dalam bentuk database, merawat dan mempublikasikan tesis saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan sebagai pemilik hak cipta.

Demikian pernyataan ini dibuat dengan sebenarnya.

Irwandi 167038032

(6)

Telah diuji pada

Tanggal: 17 Desember 2020

PANITIA PENGUJI TESIS

Ketua : Prof. Dr. Opim Salim Sitompul, M.Sc Anggota : 1. Rahmat W. Sembiring, M.Sc.IT., Ph.D

2. Dr. Syahril Efendi, S.Si., M.IT 3. Dr. Erna Budhiarti Nababan, M.IT

(7)

RIWAYAT HIDUP

DATA PRIBADI

Nama Lengkap : Irwandi

Tempat dan Tanggal Lahir : Aceh Tamiang, 11 Agustus 1978 Alamat Rumah : Kota Langsa, Aceh

Telepon/HP : 085262212162

Email : [email protected]

Instansi Tempat Bekerja : Dinas Lingkungan Hidup Kabupaten Aceh Timur Alamat Kantor : Idi - Aceh Timur

DATA PENDIDIKAN

SD : SD Negeri 06 Kuala Simpang TAMAT : 1991

SLTP : MTsS Ar-Raudhatul Hasanah Medan TAMAT : 1994 SLTA : MAS Ar-Raudhatul Hasanah Medan TAMAT : 1997 S1 : Sustem Informasi UPI “YPTK” Padang TAMAT : 2003

S2 : Teknik Informatika USU TAMAT : 2020

(8)

UCAPAN TERIMA KASIH

Puji dan rasa syukur dipanjatkan kehadirat Allah SWT yang telah melimpahkan segala karunia, rahmat dan hidayah-Nya sehingga penyusunan tesis ini dengan judul

“ANALISIS KINERJA ALGORITMA SUBTRACTIVE CLUSTERING DALAM MENENTUKAN JUMLAH DAN POSISI PUSAT CLUSTER” dapat diselesaikan dengan baik. Salawat beriring salam turut serta disampaikan kepada Nabi Muhammad SAW, semoga diberikan safaat pada hari akhirat kelak.

Tesis ini merupakan syarat untuk menyelesaikan studi pada jenjang magister yang dalam penyusunannya tidak terlepas dari dukungan berbagai pihak, baik secara moril maupun materil. Pada kesempatan yang sangat berbahagia saat ini dan dalam ruang ucapan terima kasih ini, kami menyampaikan rasa terima kasih dan perhargaan yang setinggi-tingginya dengan tulus dan ikhlas kepada :

Bapak Prof. Dr. Runtung Sitepu, M.Hum selaku Rektor Universitas Sumatera Utara. Terima kasih atas kesempatan yang diberikan sehingga kami dapat mengikuti dan menyelesaikan pendidikan program magister (S2) ini.

Bapak Prof. Dr. Opim Salim Sitompul, M.Sc selaku Dekan Fakultas Ilmu Komputer dan Teknologi Informasi sekaligus sebagai Pembimbing Utama. Terima kasih yang tak terhingga atas semua bimbingan dan arahan yang diberikan, yang telah meluangkan waktu dan perhatian. Semoga Allah SWT selalu melimpahkan rahmat dan hidayah-Nya, serta selalu diberikan kesehatan dan dimudahkan segala urusan dan diberikan masa depan yang mapan. Amiin.

Bapak Rahmat W. Sembiring, M.Sc.IT., Ph.D selaku Pembimbing Anggota yang baik hati, kebaikan dan ketulusan Bapak atas semua bimbingan dan arahan yang diberikan tidak akan pernah dapat kami lupakan, semoga mendapat imbalan yang sebaik-baiknya dari Allah SWT.

Bapak Prof. Dr. Muhammad Zarlis, M.Sc selaku Ketua Program Studi Magister (S2) Teknik Informatika sekaligus sebagai Pembanding dan juga Dosen Penasehat Akademik. Atas semua masukan dan saran-saran yang diberikan kami ucapkan terima kasih. Semoga Allah SWT senantiasa mencurahkan rahmat dan nikmat serta selalu dalam lindungan-Nya.

(9)

Bapak Dr. Syahril Efendi, S.Si., M.IT dan Ibu Dr. Erna Budhiarti Nababan, M.IT selaku Pembanding. Terima kasih yang tak terhingga atas semua masukan dan saran-saran yang diberikan, semoga mendapat imbalan yang sebaik-baiknya dari Allah SWT. Terima kasih juga atas keakrabannya.

Untuk kedua orang tua, Almarhum Bapak Ayub, Mudah-mudahan Allah SWT senantiasa melapangkan kubur Beliau, saya selalu mendoakan semoga ditempatkan di sisi Allah SWT yang sebaik-baiknya dan tetap mendapat Maghfirah-Nya. Mamak Sarimanah yang selalu mendoakan Kami, mudah-mudahan Allah SWT senantiasa mengampuni, menyayangi, mencukupkan kekurangan, meninggikan derajat, memberi rejeki, petunjuk dan nikmat kesehatan.

Bapak dan Ibu mertua, Almarhum M. Syarif dan Almarhumah Suriyati, Mudah-mudahan Allah SWT senantiasa melapangkan kubur mereka, saya selalu mendoakan semoga ditempatkan di sisi Allah SWT yang sebaik-baiknya dan tetap mendapat Maghfirah-Nya.

Kepada Isteri saya tercinta, Marialis dan anak yang saya sayangi Bazyli Dzakwan Naufal Irlis dan Afizah Ghania Irlis yang telah memberikan motivasi dan pengertiannya. Rasanya saya tidak akan bisa menyelesaikan studi tanpa pengorbanan mereka. Semoga Allah SWT menutupi aib, dosa, maksiat dan kekurangan kita. Amiin.

Kakak Syafridawati dan Jawanis, Abang Asril, Adik Amaiyuli, Adik Yuliadi, Keponakan Muthia dan seluruh keluarga yang tidak memungkinkan disebutkan satu persatu, terima kasih atas doa-doanya.

Para Bapak/Ibu Dosen Prodi S2 Teknik Informatika Fasilkom-TI USU, para pegawai tata usaha prodi S2 Teknik Informatika Fasilkom-TI USU, teman-teman Kom A 2016. Terima kasih yang setinggi-tingginya.

Seluruh rekan-rekan yang terlibat baik secara langsung maupun tidak langsung sehingga kami dapat sampai pada jenjang pendidikan sekarang ini, terima kasih.

“Yaa Allah, jika rejeki Kami di langit, turunkanlah. Jika di dalam bumi dan air, keluarkanlah. Jika lambat, percepatlah. Jika sedikit, perbanyaklah. Jika sulit, permudahlah. Jika jauh, dekatkanlah. Dan jika banyak, berkahilah. Amiin yaa Allah, Allahuma Amiin”.

Irwandi

NIM. 167038032

(10)

ABSTRAK

Pada algoritma subtractive clustering, penentuan anggota cluster berdasarkan derajat keanggotaan yang dimiliki setiap data pada setiap pusat cluster. Pada algoritma subtractive clustering tidak ditentukan jumlah cluster yang terbentuk. Jumlah dan posisi pusat cluster yang terbentuk dipengaruhi oleh keragaman data. Selain itu juga dipengaruhi oleh nilai parameter radius , squash factor , accept ratio ̅ dan reject ratio . Jumlah dan posisi pusat cluster yang terbentuk pada algoritma subtractive clustering dipengaruhi oleh nilai parameter radius . Untuk mendapatkan clustering data yang optimal perlu diketahui nilai parameter radius yang tepat. Pada penelitian ini menggunakan metode partisi clustering sebagai nilai parameter untuk menentukan suatu titik data (calon pusat cluster) akan dipilih atau tidak sebagai pusat cluster, sehingga dapat diketahui pengaruh nilai parameter radius pada algoritma subtractive clustering dalam menghasilkan clustering. Hasil penelitian menunjukkan bahwa nilai parameter radius tidak berpengaruh secara signifikan atau belum sepenuhnya menjamin dapat meningkatkan nilai rata-rata fuzzy silhouette, hal tersebut disebabkan pada algoritma subtractive clustering penentuan titik pusat cluster dipengaruhi oleh empat nilai parameter yaitu nilai parameter radius

, squash factor , accept ratio ̅ dan reject ratio . Kata Kunci: subtractive clustering, radius, fuzzy silhouette

(11)

THE PERFORMANCE ANALYSIS OF RADIUS PARAMETERS IN SUBTRACTIVE CLUSTERING ALGORITHM

ABSTRACT

In the subtractive clustering algorithm, the determination of cluster members is based on the degree of membership that each data has at each cluster center. The subtractive clustering algorithm does not determine the number of clusters formed.

The number and position of the cluster center formed is influenced by the diversity of data. In addition, it is also influenced by the parameter values of radius (r), squash factor (q), accept ratio (ε ̅) and reject ratio (ε). The number and position of the cluster center formed in the subtractive clustering algorithm is influenced by the value of the parameter radius (r). To obtain optimal data clustering, it is necessary to know the correct value of the radius (r) parameter. In this study, the partition clustering method is used as a parameter value to determine whether a data point (prospective cluster center) will be selected or not as a cluster center, so that it can be seen the effect of the radius (r) parameter value on the subtractive clustering algorithm in generating clustering. The results showed that the value of the radius (r) parameter did not have a significant effect or was not fully guaranteed to increase the average value of the fuzzy silhouette, this was because the subtractive clustering algorithm determined the cluster center point was influenced by four parameter values, namely the radius (r) parameter value , squash factor (q), accept ratio (ε ̅) and reject ratio (ε).

Keywords: subtractive clustering, radius, fuzzy silhouette

(12)

DAFTAR ISI

Hal.

HALAMAN JUDUL i

PERSETUJUAN ii

PERNYATAAN ORISINALITAS iii

PERNYATAAN PERSETUJUAN PUBLIKASI iv

PANITIA PENGUJI v

RIWAYAT HIDUP vi

UCAPAN TERIMAKASIH vii

ABSTRAK ix

ABSTRACT x

DAFTAR ISI xi

DAFTAR TABEL xiii

DAFTAR GAMBAR xv

BAB 1 PENDAHULUAN 1

1.1 Latar Belakang Masalah 1

1.2 Rumusan Masalah 3

1.3 Batasan Masalah 4

1.4 Tujuan Penelitian 4

1.5 Manfaat Penelitian 4

BAB 2 TINJAUAN PUSTAKA 5

2.1 Data mining 5

2.2 Clustering 5

2.3 Algoritma Subtractive Clustering 6

2.4 Fuzzy Silhouette Index 10

2.5 Penelitian-Penelitian Terkait 11

BAB 3 METODOLOGI PENELITIAN 14

3.1. Deskripsi Umum Sistem 14

3.2. Contoh Perhitungan Manual 16

3.2.1. Input dataset 16

3.2.2. Inisialisasi parameter 16

3.2.3. Normalisasi dataset 17

3.2.4. Penghitungan potensi setiap titik data 18 3.2.5. Potensial tertinggi ^∗ dan menetapkan pusat cluster 21

3.2.6. Hitung fuzzy silhouette index 32

3.3. Perangkat dan Kebutuhan Dalam Implementasi Metode 43

BAB 4 HASIL DAN PEMBAHASAN 44

4.1. Data yang digunakan 44

4.2. Hasil Titik Pusat Cluster Berdasarkan Metode Standar 44 4.3. Hasil Titik Pusat Cluster Berdasarkan Metode Partisi 47

4.4. Pembahasan 49

(13)

BAB 5 KESIMPULAN DAN SARAN 59

5.1. Kesimpulan 59

5.2. Saran 60

DAFTAR PUSTAKA

(14)

DAFTAR TABEL

Hal.

TABEL 2.1. Range parameter algoritma subtractive clustering 7

TABEL 3.1. Kutipan Iris dataset ternormalisasi 17

TABEL 3.2. Kutipan Potensi awal untuk data pertama 19

TABEL 3.3. Potensi awal Iris dataset 19

TABEL 3.4. Kutipan Potensi ke-2 22

TABEL 3.8. Hasil pusat cluster 26

TABEL 3.9. Hasil center denormalisasi 27

TABEL 3.10. Nilai sigma cluster 27

TABEL 3.11. Hasil proses algoritma subtractive clustering 28

TABEL 3.12. Hasil dan 33

TABEL 3.13. Bobot Keanggotaan 35

TABEL 3.14. Hasil fuzzy silhouette index 39

TABEL 4.1. Rincian dataset yang digunakan 44

TABEL 4.2. Hasil titik pusat cluster berdasarkan metode standar pada dataset 1 45

TABEL 4.6. Hasil titik pusat cluster berdasarkan metode partisi pada dataset 1 47

TABEL 4.10. Hasil Perbandingan Pengujian dataset 1 49

TABEL 4.11. Hasil Pengujian dataset 1 50

(15)

(16)

DAFTAR GAMBAR

Hal.

GAMBAR 2.1. Parameter accept ratio ̅ dan reject ratio 7

GAMBAR 2.2. Karakteristik fungsi gauss 9

GAMBAR 3.1. Gambaran Umum Sistem 14

GAMBAR 4.1. Grafik Hasil Perbandingan Pengujian dataset 1 49

GAMBAR 4.2. Grafik Hasil Pengujian dataset 1 51

GAMBAR 4.3. Grafik Hasil Perbandingan Pengujian dataset 2 52

GAMBAR 4.4. Grafik Hasil Pengujian dataset 2 53

(17)

BAB 1 PENDAHULUAN

1.1. Latar Belakang Masalah

Clustering merupakan suatu teknik yang digunakan untuk mengelompokkan obyek berdasarkan atribut data yang menggambarkan hubungan objek dalam kelompok cenderung mirip satu sama lain dan berbeda jauh (tidak sama) dengan obyek dari cluster lainnya. Clustering bertujuan untuk mempartisi data berdasarkan kemiripan (similarity) antar obyek. Kemiripan diperoleh dengan meminimalkan jarak antar obyek dalam kelompok (within-cluster) dan memaksimalkan jarak antar kelompok (between-cluster).

Clustering telah diterapkan dibanyak bidang seperti pattern recognition, machine learning, data mining, analisis data statistik, dan segmentasi citra. Teknik clustering yang umum adalah pendekatan hirarki dan pendekatan partisi. Clustering dengan pendekatan hirarki (hierarchical clustering) menemukan urutan partisi yang diawali dari satu data tunggal yang dianggap sebagai sebuah kelompok, dua atau lebih kelompok kecil data bergabung menjadi sebuah kelompok besar dan begitu seterusnya sampai semua data dapat bergabung menjadi sebuah kelompok. Sedangkan clustering dengan pendekatan partisi (partition-based clustering) membagi dataset ke beberapa cluster yang menggunakan fungsi objektif. Kelebihan clustering dengan pendekatan partisi adalah dapat memanipulasi dataset dalam jumlah yang besar. Han & Kamber (2006) mengelompokkan clustering dengan pendekatan partisi ke dalam hard partition dan fuzzy partition. Dalam metode pengelompokan hard partition, setiap objek dari kumpulan data ditempatkan pada satu cluster. Kekurangan hard partition adalah memungkinkan akan kehilangan beberapa informasi penting yang mengarah pada pengelompokan tersebut. Sedangkan fuzzy partition didasarkan derajat keanggotaan yang mencakup himpunan fuzzy sebagai dasar pembobotan bagi pengelompokan. Masing-masing data diberikan nilai kemungkinan untuk bergabung ke setiap kelompok yang ada, yang berarti data tidak mutlak menjadi anggota satu

(18)

kelompok, tetapi juga kemungkinan untuk menjadi anggota kelompok yang lain dengan derajat keanggotaan yang berbeda-beda. Data dengan derajat keanggotaan terbesar menunjukkan kecenderungan yang tinggi suatu data untuk menjadi anggota kelompok tertentu.

Algoritma Subtractive Clustering (Chiu, 1994) merupakan metode pengelompokan yang dimodifikasi dari Mountain Clustering (Yager & Filev, 1992).

Pada prinsipnya algoritma subtractive clustering didasarkan atas ukuran densitas titik- titik data (potensial) dalam suatu ruang (variabel). Titik data dengan nilai potensial tertinggi akan dipilih sebagai pusat cluster. Potensi titik data dalam radius yang ditentukan disekitar pusat cluster akan dikurangi nilai potensinya. Kemudian algoritma akan memilih titik lain yang memiliki nilai potensial titik data tertinggi berikutnya untuk dijadikan sebagai pusat cluster yang lain. Proses ini dilakukan berulang-ulang sampai kriteria yang telah ditentukan terpenuhi (Sarin et al. 2019).

Metode algoritma subtractive clustering merupakan salah satu metode clustering yang sederhana dan cepat serta membentuk jumlah cluster secara otomatis. Metode ini banyak diimplementasikan dalam berbagai bidang, Liang et al. (2017) diagnosis kanker payudara, Wu & Luo (2017) transportasi, Radionov et al. (2015) mengontrol tegangan arus listrik, Polat & Durduran (2011) Geographical Information System (GIS), Pereira et al. (2016) teknologi Smart Grid jaringan listrik industri, Mubeen et al. (2017) Bigdata.

Beberapa peneliti sebelumnya telah melakukan penelitian terhadap kinerja algoritma subtractive clustering dalam menentukan jumlah dan posisi pusat cluster, antara lain: Kokkinos & Margaritis (2018) pemilihan otomatis titik exemplars pada algoritma affinity propagation. Yang et al. (2010) pemilihan otomatis jumlah dan posisi pusat cluster pada fuzzy c-means. Rezaeian et al. (2017) menggunakan metode algoritma subtractive clustering pada algoritma K-means dan algoritma fuzzy c-means.

Namun, dalam implementasinya metode algoritma subtractive clustering membutuhkan 4 (empat) parameter, yaitu: radius , squash factor , accept ratio

̅ dan reject ratio (Chiu, 1994). Dimana parameter radius merupakan vektor yang akan menentukan seberapa besar pengaruh pusat cluster pada setiap titik data yang jadi calon pusat cluster. Parameter squash factor digunakan untuk menghindari pusat cluster memiliki densitas yang berdekatan. Sedangkan parameter accept ratio ̅ dan reject ratio digunakan sebagai parameter pembanding yang

(19)

menentukan suatu titik data (calon pusat cluster) akan dipilih atau tidak sebagai pusat cluster. Menurut (Sarin et al. 2019), parameter radius memiliki peranan penting dalam mengoptimalkan metode algoritma subtractive clustering. Selama ini, nilai parameter radius ditentukan berdasarkan “trial and error”. Untuk menghasilkan clustering yang baik harus dilakukan beberapa kali proses pengelompokan dengan nilai parameter radius yang berbeda.

Beberapa penelitian telah dilakukan untuk memperkirakan nilai parameter radius dan validitas hasil clustering pada metode algoritma subtractive clustering, antara lain : Shieh et al. (2013) menggunakan algoritma genetika. Sarin et al. (2019) menggunakan regresi linier. Shieh & Kuo (2011) mengusulkan indeks validitas baru dari kombinasi compactness dan separation untuk mengukur hasil clustering metode algoritma subtractive clustering. Shieh (2014) mengkombinasikan compactness, separation dan partition index untuk mengukur hasil clustering metode algoritma subtractive clustering.

Silhouette index (Rousseeuw, 1987) salah satu teknik untuk mengukur kualitas clustering pada crisp clustering yang mengkombinasikan hasil compactness dan separation. Campello & Hruschka (2006) mengusulkan metode fuzzy silhouette dengan memodifikasi metode silhouette index untuk menganalisis fuzzy clustering.

Subbalakshmi et al. (2015) menggunakan fuzzy silhouette untuk menentukan jumlah cluster optimal pada algoritma fuzzy c-means dengan menggunakan data dinamis.

Dimana parameter pada fuzzy silhouette digunakan dapat menerima perubahan dataset sewaktu-waktu. Sedangkan Bezdek et al. (2016) mengembangkan soft generalization dari C index. Dengan cara mendefinisikan soft generalization menjadi empat kriteria berdasarkan transformasi relasional dari fuzzy partition clustering.

1.2. Rumusan Masalah

Jumlah dan posisi pusat cluster yang terbentuk pada algoritma subtractive clustering dipengaruhi oleh nilai parameter radius . Jika nilai parameter radius sangat kecil, akan mengakibatkan pengabaian titik data potensial disekitar pusat cluster sehingga dihasilkan jumlah cluster yang banyak. Sedangkan jika nilai parameter radius terlalu besar, akan meningkatkan kontribusi dari semua titik data potensial, sehingga membatalkan efek densitas cluster sehingga jumlah cluster yang dihasilkan sedikit.

(20)

Sehingga diperlukan suatu pendekatan untuk menentukan nilai parameter radius yang tepat pada algoritma subtractive clustering agar dapat menghasilkan jumlah dan posisi pusat cluster yang optimal.

1.3. Batasan Masalah

Agar penelitian ini lebih terarah dan tidak tidak menyimpang dari permasalahan, maka peneliti membatasi masalah yang akan dibahas, yaitu :

1. Nilai parameter radius yang digunakan pada penelitian ini adalah: {(0.25), (0.30), (0.35), (0.40), (0.45), (0.50)}.

2. Jumlah dan posisi pusat cluster yang optimal berdasarkan nilai evaluasi clustering fuzzy silhouette index.

1.4. Tujuan Penelitian

Tujuan penelitian ini adalah untuk menganalisa kinerja algoritma subtractive clustering dalam menentukan jumlah dan posisi pusat cluster berdasarkan nilai parameter radius dan membandingkan hasil evaluasi clustering fuzzy silhouette index antara metode standar dengan metode yang diusulkan.

1.5. Manfaat Penelitian

Manfaat dari penelitian ini diharapkan dapat :

1. Mengetahui pengaruh nilai parameter radius pada algoritma subtractive clustering dalam menghasilkan jumlah dan posisi pusat cluster berdasarkan nilai rata-rata fuzzy silhouette.

2. Menjadikan acuan untuk penelitian-penelitian selanjutnya.

(21)

BAB 2

TINJAUAN PUSTAKA

2.1. Data Mining

Data mining merupakan proses pencarian pola-pola yang menarik dan tersembunyi (hidden pattern) dari suatu kumpulan data yang berukuran besar yang tersimpan dalam suatu basis data, data warehouse, atau tempat penyimpanan data lainnya.

Menurut Vadim (2018), data mining juga didefinisikan sebagai proses penggalian informasi dalam database dan mengubah informasi tersebut menjadi struktur yang dapat dipahami dan bermakna untuk penggunaan lebih lanjut. Data mining dapat juga diartikan langkah penting dalam proses penemuan pengetahuan dari database atau Knowledge Discovery in Database (KDD). KDD merupakan suatu area yang mengintegrasikan berbagai metode, yang meliputi statistik, basis data, kecerdasan buatan (Artificial Intelligence), machine learning, pengenalan pola (Pattern Recognition), pemodelan yang menangani ketidakpastian, visualisasi data, optimasi, Sistem Informasi Manajemen (SIM), dan sistem berbasis pengetahuan (knowledge based-system). Sebagai bagian dari proses yang ada di dalam KDD, maka data mining didahului dengan proses pemilihan data, pembersihan data, preprocessing, dan transformasi data.

2.2. Clustering

Clustering adalah metode mengelompokkan atau mempartisi data dalam suatu dataset.

Pada dasarnya clustering merupakan suatu metode untuk mencari dan mengelompokkan data yang memiliki kemiripan karakteriktik (similarity) antara satu data dengan data yang lain. Cluster merupakan sekumpulan objek-objek data yang yang memiliki kemiripan satu sama lain dalam cluster yang sama dan yang tidak memiliki kemiripan terhadap objek-objek yang berbeda cluster. Objek akan dikelompokkan ke dalam satu atau lebih cluster sehingga objek-objek yang berada dalam satu cluster akan mempunyai kesamaan yang tinggi antara satu dengan lainnya.

(22)

Objek-objek dikelompokkan berdasarkan prinsip memaksimalkan kesamaan objek pada cluster yang sama dan memaksimalkan ketidaksamaan pada cluster yang berbeda. Kesamaan objek biasanya diperoleh dari nilai-nilai atribut yang menjelaskan objek data, sedangkan objek-objek data biasanya direpresentasikan sebagai sebuah titik dalam ruang multidimensi. Karakteristik dari setiap cluster tidak ditentukan sebelumnya, namun tergambar dari kemiripan data yang terkelompok di dalamnya.

Ukuran kesamaan atau kemiripan antar objek merupakan ukuran korespondensi diantara dua objek. Euclidean distance adalah akar dari jumlah kuadrat perbedaan atau deviasi di dalam nilai untuk setiap variable. Adapun persamaan Euclidean distance sebagai berikut :

= − (2.1)

dimana :

∶ euclidean distance antara objek ke- dengan objek ke- : jumlah variable

∶ nilai atau data dari objek kepada variable ke-

2.3. Algoritma Subtractive Clustering

Chiu (1994) mengusulkan algoritma subtractive clustering yang merupakan modifikasi dari algoritma mountain clustering (Yager & Filev, 1992). Algoritma subtractive clustering, menentukan titik data yang memiliki densitas tertinggi terhadap titik-titik (data sekitarnya) sebagai calon pusat cluster. Titik data yang memiliki tetangga terbanyak akan dipilih sebagai pusat cluster. Titik data yang menjadi pusat cluster akan dikurangi densitasnya. Kemudian algoritma mencari lagi titik data lainnya yang memiliki tetangga terbanyak untuk dijadikan pusat cluster selanjutnya.

Proses ini dilakukan berulang-ulang sampai semua titik data diuji.

Dalam prakteknya, algoritma subtractive clustering membutuhkan 4 (empat) parameter (Chiu, 1994), yaitu: radius ( ), squash factor ( ), accept ratio ( ̅) dan reject ratio . Parameter radius ( ) merupakan vektor yang akan menentukan seberapa besar pengaruh pusat cluster pada setiap titik data yang jadi calon pusat

(23)

cluster. Parameter squash factor ( ) digunakan untuk menghindari pusat cluster memiliki densitas yang berdekatan. Parameter accept ratio ( ̅) dan reject ratio merupakan parameter pembanding yang menentukan suatu titik data (calon pusat cluster) akan dipilih atau tidak sebagai pusat cluster.

Gambar 2.1. Parameter accept ratio ( ̅) dan reject ratio

Beberapa aturan yang terbentuk dari dua parameter accept ratio ( ̅) dan reject ratio (Sarin et al, 2019). Sebagaimana pada gambar 2.1 :

a. Jika potensi tertinggi titik data dibagi dengan potensi tertinggi titik pertama kali dari iterasi pertama lebih besar dari accept ratio, maka titik tersebut diterima sebagai pusat cluster baru.

b. Jika potensi tertinggi titik data dibagi dengan potensi tertinggi titik pertama kali dari iterasi pertama berada di rentang accept ratio dengan reject ratio, maka titik tersebut dapat diterima sebagai pusat cluster baru hanya jika titik tersebut berada dilokasi yang cukup jauh dengan pusat cluster lainnya.

c. Jika potensi tertinggi titik data dibagi dengan potensi tertinggi titik pertama kali dari iterasi pertama lebih kecil dari accept ratio maupun reject ratio, maka titik tersebut dipastikan untuk tidak dapat menjadi pusat cluster baru.

Liang et al. (2017) merekomendasikan nilai empat parameter pada algoritma subtractive clustering, yaitu :

Nilai Radius

( ) Squash factor

( ) Accept ratio

( ) Reject ratio

Minimum 0.2 0.5 0.2 0.1

Maksimum 1.0 1.5 1.0 0.5

Default 0.5 1.25 0.5 0.15

Tabel 2.1. Range parameter algoritma subtractive clustering

̅. ! . !

ratio

Diterima Ditolak

(24)

Menurut Wu & Luo (2017) Algoritma subtractive clustering mencakup tiga langkah utama:

Misalkan terdapat " buah titik data # , , … , _%& dalam sebuah ruang berdimensi '.

Dengan menganggap data tersebut sudah keadaan normal.

1. Menghitung densitas (potensi) titik-titik data.

( ) = ( )−4‖ − ‖

, (2.2)

%

dimana :

( ) ∶ nilai potensi dari nilai

‖ − ‖ ∶ menotasikan jarak Euclidean antara dengan

∶ konstanta positif yang dikenal dengan radius (influence range)

Setelah menghitung densitas (potensi) titik-titik data, maka titik data dengan densitas tertinggi akan dipilih sebagai pusat cluster.

2. Revisi potensi setiap titik data

( ) = ( ) − _! ( )−4‖ − _! ‖ ( × ) ,

%

(2.3)

dimana :

! ∶ ukuran densitas. Misalkan ukuran densitas pusat cluster pertama.

! ∶ titik data yang terpilih sebagai pusat cluster. Misalkan pusat cluster pertama.

∶ faktor pengali (squash factor).

3. Pada langkah ini, setelah densitas tiap titik-titik data direvisi. Kemudian, dicari titik data memiliki potensi tertinggi untuk dipilih sebagai pusat cluster kedua _! . Proses ini diulang hingga ambang batas potensi yang telah ditentukan diperoleh, yaitu:

/ %+

! ≥ 1 (2.4) dimana :

/ % ∶ jarak terkecil antara titik data yang terpilih terhadap pusat cluster.

∶ nilai radius

(25)

∶ potensi tertinggi titik data

! ∶ potensi tertinggi titik data pada awal iterasi

Hasil dari algoritma subtractive clustering ini berupa matriks pusat cluster (2) dan sigma (3) yang akan digunakan untuk menentukan nilai parameter fungsi keanggotaan fuzzy. Dalam penelitian ini digunakan fungsi keanggotaan Gauss (Shieh, 2014).

Karakteristik fungsi keanggotaan gauss ditentukan oleh parameter 4 dan 3 seperti terlihat pada gambar berikut :

Gambar 2.2 Karakteristik fungsi gauss

Derajat keanggotaan suatu titik data pada cluster ke- dihitung menggunakan persamaan dibawah ini :

5 = (^{6 ∑}

89_:^;6!_:^<=^>

?_:^>

@:AB

(2.5) dimana :

5 ∶ derajat keanggotaan cluster kepada data ke- ∶ data ke- dan atribut ke-

4 ∶ pusat cluster kepada atribut ke- (bentuk ternormalisasi) 3 ∶ kuadrat nilai simpangan baku/variansi cluster

Derajat Keanggotaan 5( )

Pusat 3

1

0.5

0

Lebar 4 domain

(26)

2.4. Fuzzy Silhouette Index

Metode Silhouette index diperkenalkan oleh Rousseeuw (1987) digunakan untuk mengukur kualitas crisp cluster yang menggabungkan nilai compactness dan separation.

Compactness adalah tingkat similaritas objek dalam cluster yang sama. Dimana Compactness dihitung menggunakan persamaan:

D = 1

E − 1

/_: FFG

, _F (2.6)

dimana :

∶ indeks data ∶ cluster

E ∶ jumlah data dalam cluster

, _F ∶ jarak data ke- dengan data dalam cluster ∶ data

Sedangkan Separation adalah tingkat perbedaan objek dalam cluster yang berbeda. Dimana separation dihitung menggunakan persamaan:

I = 1

E_%

/: FFG

, _F^/^: (2.7)

dimana :

∶ indeks data ∶ cluster

E ∶ jumlah data dalam cluster E_% ∶ jumlah data dalam satu cluster

, _F^/^: ∶ jarak data kepada cluster dengan data pada cluster E ∶ data

Rentang nilai dari silhouette index adalah -1 hingga +1. Jika nilai silhouette index mendekati 1 menunjukkan bahwa data tersebut tepat berada pada cluster tersebut, jika nilai silhouette index bernilai 0 atau mendekati 0 maka posisi data berada

(27)

pada perbatasan dua cluster. Nilai silhouette index dihitung sebagaimana persamaan 2.8 (Rousseeuw, 1986).

KL = I − D

ED MD , I N (2.8) dimana :

D ∶ jarak rata-rata data ke- terhadap semua data dalam satu cluster

I ∶ nilai minimum rata-rata jarak data ke- terhadap semua data dari cluster lain selain cluster

ED MD , I N ∶ nilai maksimum dari D dan I dari satu data

Campello et al. (2006) mengusulkan silhouette index untuk partisi fuzzy dengan memasukkan nilai keanggotaan fuzzy dalam mengevaluasi cluster. Partisi fuzzy divalidasi menggunakan silhouette index dengan mengikutsertakan proses difuzzifikasi. Pada proses difuzzifikasi, matriks keanggotaan fuzzy diubah menjadi matriks crisp.

Pada fuzzy silhouette index, nilai rata-rata silhouette cluster dihitung menggunakan rata-rata tertimbang. Setiap nilai titik data diberi nilai bobot berdasarkan pengurangan nilai keanggotaan cluster terbesar dalam satu cluster. Misalkan _P adalah titik data yang memiliki nilai keanggotaan tertinggi pertama dan kedua, dilambangkan Q _P dan Q_RP, kemudian bobot S dihitung menggunakan persamaan :

S( _P) = Q _P− Q_RP (2.9) Sedangkan fuzzy silhouette index dihitung menggunakan persamaan :

U. K V( _P) =∑ S K^% _P

∑ S^% (2.10)

2.5.Penelitian-Penelitian Terkait

Penelitian-penelitian yang telah dilakukan mengenai algoritma subtractive clustering dan fuzzy silhouette index, antara lain: Shieh & Kuo (2011) mengusulkan metode indeks validasi baru dengan menggabungkan metode compactness dan separation untuk mengukur kualitas hasil clustering dari algoritma subtractive clustering.

Parameter yang digunakan radius ( ) dan squash factor ( ), untuk ambang batas

(28)

menggunakan jumlah maksimal cluster yang diinginkan, sehingga dapat diketahui pengaruh parameter radius ( ) dan squash factor ( ) dalam menghasilkan clustering.

Dari hasil penelitian ini indeks validasi yang diusulkan lebih unggul dari pada partition entropy (PE) index, xie and beni (XB) index dan fukuyama and sugeno (FS) index.

Shieh et al. (2013) menggunakan fungsi obyektif dari algoritma genetika untuk memperkirakan nilai optimal parameter radius ( ) pada algoritma subtractive clustering. Dari hasil penelitian ini dapat memperkirakan nilai optimal dari parameter radius ( ) pada algoritma subtractive clustering.

Shieh (2014) mengusulkan validitas baru untuk mengevaluasi hasil clustering dari algoritma subtractive clustering yang dimodifikasi dengan menggabungkan metode compactness, separation dan partition index. Nilai parameter radius ( ) yang digunakan adalah ^F^X

Y. Hasil dari penelitian ini algoritma subtractive clustering yang dimodifikasi dapat mengurangi waktu komputasi dalam menemukan pusat cluster dibandingkan algoritma subtractive clustering standar dan hasil clustering berdasarkan indeks validasi lebih baik dibandingkan indeks validasi yang lain : partition entropy (PE) index, xie and beni (XB) index dan fukuyama and sugeno (FS) index.

Kokkinos & Margaritis (2018) menggunakan algoritma subtractive clustering untuk menentukan nilai preference pada algoritma affinity propagation. Algoritma subtractive clustering dimodifikasi dengan menghitung nilai rata-rata kernel. Hasil penelitian tersebut dapat menentukan nilai preference pada algoritma affinity propagation secara otomatis.

Sarin et al. (2019) mengusulkan metode untuk menentukan nilai parameter radius ( ) pada algoritma subtractive clustering berdasarkan nilai linear regression.

Nilai parameter radius ( ) ditentukan berdasarkan meta-fitur data. Hasil penelitian ini ada hubungan yang kuat antara nilai parameter radius ( ) dengan meta-fitur data.

Campello et al. (2006) mengusulkan metode baru untuk validitas fuzzy clustering. Metode ini merupakan modifikasi dari metode silhouette index. Dimana silhouette index digunakan untuk mengukur kualitas crisp clustering. Metode fuzzy silhouette dirancang untuk meningkatkan kinerja metode silhouette index dalam mengukur kepadatan data dalam dan antar cluster. Performa fuzzy silhouette ini dievaluasi dan dibandingkan dengan lima ukuran validitas cluster yang terkenal, yaitu

(29)

: Fuzzy hypervolume and average partition density (FHV), Fuzzy hypervolume and average partition density (FHV), Average Within-Cluster Distance (AWCD), Xie–Beni (XB) index, Average Partition Density (APD) dan Crisp Silhouette (CS). Hasil penelitian ini menyatakan metode fuzzy silhouette yang diusulkan memiliki kinerja sama atau lebih baik dari metode validitas cluster yang lain sehingga metode ini layak digunakan dalam mengukur kualitas fuzzy clustering.

Subbalakshmi et al. (2015) menerapkan metode fuzzy silhouette untuk menemukan jumlah cluster optimal pada dataset dinamis dengan menggunakan algoritma fuzzy c-means clustering. Pada metode fuzzy silhouette ini, parameternya dimodifikasi agar dapat menerima perubahan data sewaktu-waktu. Hasil penelitian ini, metode fuzzy silhouette yang dimodifikasi atau yang diusulkan dapat mengukur kualitas clustering pada dataset dinamis serta dapat mengurangi waktu komputasi dengan cara tanpa mengeksekusi semua hasil clustering yang dihasilkan dari algoritma fuzzy c-means clustering.

Bezdek et al. (2016) mengembangkan soft generalization dari C index yang dapat digunakan untuk mengevaluasi kualitas clustering yang dihasilkan dari algoritma fuzzy clustering. Dengan cara mendefinisikan soft generalization menjadi empat kriteria berdasarkan transformasi relasional dari fuzzy partition clustering.

Metode ini dibandingkan dengan fuzzy clustering index internal. Metode perbandingan yang digunakan internal “best-c” dan internal/external (I/E) “best match”. Hasil dari penelitian ini, metode soft generalization sum-min memiliki kinerja terbaik kedua pada metode perbandingan internal “best-c” dan memiliki kinerja terbaik pada metode perbandingan internal/external (I/E) “best match” dengan menggunakan dataset yang kecil.

(30)

BAB 3

METODOLOGI PENELITIAN

3.1. Deskripsi Umum Sistem

Gambar 3.1. Gambaran Umum Sistem

Berdasarkan gambar 3.1, tahapan dari penelitian ini dapat diuraikan sebagai berikut :

Input : Dataset

Inisialisasi :

, ,

Penghitungan potensi setiap titik data

Output : Fuzzy Silhouette Potensi tertinggi ^∗ dan menetapkan pusat cluster

Normalisasi dataset

= Ya

Tidak

=

Output : fuzzy silhouette

(31)

1. Input dataset

Pilih dataset yang akan digunakan pada penelitian. Sebagai contoh untuk perhitungan manual dalam proses clustering digunakan iris dataset yang didapat dari UCI Machine Learning Repository https://archive.ics.uci.edu/ml/datasets.php, dengan jumlah 150 data.

2. Inisialisasi nilai parameter

Penentuan nilai parameter radius , squash factor , jumlah cluster maksimal

3. Normalisasi dataset

Proses ini dilakukan untuk penskalaan terhadap data menjadi rentang nilai tertentu.

Normalisasi sangat dibutuhkan ketika data yang ada bernilai tidak seimbang yaitu sangat besar atau sangat kecil.

= −

− 3.1

Memasukkan dataset yang akan dinormalisasi, nilai , dan . Hasil dari proses normalisasi .

Dengan normalisasi ini dapat membantu menormalkan batas nilai dengan melakukan standarisasi nilai ke dalam interval 0 sampai dengan 1.

4. Penghitungan potensi dati titik data

Proses penentuan potensi awal dilakukan terhadap masing-masing data ternormalisasi. Tujuan dari proses ini adalah menilai titik data untuk menjadi calon pusat cluster. Data yang diolah pada proses ini adalah data yang sudah ternormalisasi pada proses sebelumnya dan masukan untuk nilai parameter radius . Hasil akhir pada proses ini berupa nilai data yang merupakan potensi tiap titik data.

5. Potensi tertinggi ^∗ dan menetapkan pusat cluster

Proses pencarian titik data dengan potensi tertinggi adalah proses pencarian nilai tertinggi dari data untuk menjadi pusat cluster. Hasil akhir dari proses ini adalah nilai ! sebagai nilai data dengan potensi tertinggi ^∗ dan ℎ adalah indeks posisi data tertinggi. Selanjutnya proses penentuan pusat cluster dan pengurangan potensinya merupakan proses untuk memilih titik data manakah yang akan dipilih sebagai pusat cluster. Hasil akhir dari proses ini adalah hasil cluster yang

(32)

merupakan jumlah cluster yang terbentuk dan pusat cluster yang terpilih (medoid).

Selanjutnya proses diterimanya suatu titik data untuk menjadi pusat cluster berdasarkan suatu kondisi.

6. Ulangi proses nomor 5, sampai =

Proses mencari potensi tertinggi ^∗ dan menetapkan pusat cluster dilakukan secara berulang sampai tercapai kondisi tertentu, yaitu kondisi dimana = . 7. Menghitung nilai fuzzy silhouette index

Pada proses ini akan dihitung nilai fuzzy silhouette index pada tiap hasil cluster yang terbentuk sebagai langkah validitas cluster. Validitas cluster digunakan untuk mengetahui hasil cluster yang ideal berdasarkan nilai parameter radius . Hasil dari perhitungan inilah yang nantinya dijadikan bahan pertimbangan untuk dapat menentukan jumlah cluster mana yang optimal menurut hasil fuzzy silhouette index.

Pada penelitian ini dilakukan modifikasi terhadap nilai parameter accept ratio

#̅ dan reject ratio # pada algoritma subtractive clustering. Pada algoritma subtractive clustering standard, nilai parameter accept ratio #̅ dan reject ratio

# digunakan sebagai parameter pembanding yang menentukan suatu titik data (calon pusat cluster) akan dipilih atau tidak sebagai pusat cluster. Sementara pada penelitian ini menggunakan metode partisi clustering sebagai nilai parameter untuk menentukan suatu titik data (calon pusat cluster) akan dipilih atau tidak sebagai pusat cluster, sehingga dapat diketahui pengaruh nilai parameter radius pada algoritma subtractive clustering dalam menghasilkan clustering.

3.2. Contoh Perhitungan Manual 3.2.1. Input dataset

Input data yang akan di cluster : , dengan = 1,2, … , ' dan ( = 1,2, … , . Dataset yang digunakan pada contoh perhitungan ini adalah Iris dataset yang didapat pada https://archive.ics.uci.edu/ml/datasets/iris.

3.2.2. Inisialisasi parameter

Langkah selanjutnya adalah menentukan parameter awal sebagai berikut : ) ∶ 0.45

(33)

ℎ . / ∶ 1.25

( ℎ ∶ 5

∶ 4.3; 2; 1; 0.1 ∶ 7.9; 44; 6.9; 2.5 3.2.3. Normalisasi dataset

Normalisasi nilai atribut dataset dilakukan dengan cara mengubah interval nilai atribut dataset yang sebenarnya ke dalam interval tertentu, dalam kasus ini diubah ke dalam interval [0,1]. Sebagai contoh, perhitungan terhadap Iris dataset sebagaimana persamaan 3.1:

: 4.3; 2; 1; 0.1 : 7.9; 44; 6.9; 2.5

44= ⁴⁴− ₄

4− ₄ =5.1 − 4.3

7.9 − 4.3 = 0.2222

45= ⁴⁵− ₅

5− ₅ =3.5 − 2

4.4 − 2 = 0.6250

46= ⁴⁶− ₆

6− ₆ =1.4 − 1

6.9 − 1 = 0.0678

48= ⁴⁸− ₈

8− ₈ =0.2 − 0.1

2.5 − 0.1 = 0.0417

Dimana, adalah data yang ternormalisasi. Hasil Iris dataset yang telah normalisasi seperti pada table 3.1.

Tabel 3.1. Kutipan Iris dataset ternormalisasi

₄ ₅ ₆ ₈

1 0.2222 0.6250 0.0678 0.0417 2 0.1667 0.4167 0.0678 0.0417 3 0.1111 0.5000 0.0508 0.0417

⋮ ⋮ ⋮ ⋮ ⋮

7 0.0833 0.5833 0.0678 0.0833 8 0.1944 0.5833 0.0847 0.0417 9 0.0278 0.3750 0.0678 0.0417 10 0.1667 0.4583 0.0847 0.0000

⋮ ⋮ ⋮ ⋮ ⋮

(34)

Tabel 3.1. Kutipan Iris dataset ternormalisasi (Lanjutan)

₄ ₅ ₆ ₈

33 0.2500 0.8750 0.0847 0.0000 34 0.3333 0.9167 0.0678 0.0417 35 0.1667 0.4583 0.0847 0.0417 36 0.1944 0.5000 0.0339 0.0417 37 0.3333 0.6250 0.0508 0.0417

⋮ ⋮ ⋮ ⋮ ⋮

79 0.4722 0.3750 0.5932 0.5833 80 0.3889 0.2500 0.4237 0.3750 81 0.3333 0.1667 0.4746 0.4167 82 0.3333 0.1667 0.4576 0.3750 83 0.4167 0.2917 0.4915 0.4583 84 0.4722 0.2917 0.6949 0.6250

⋮ ⋮ ⋮ ⋮ ⋮

113 0.6944 0.4167 0.7627 0.8333 114 0.3889 0.2083 0.6780 0.7917 115 0.4167 0.3333 0.6949 0.9583

⋮ ⋮ ⋮ ⋮ ⋮

149 0.5278 0.5833 0.7458 0.9167 150 0.4444 0.4167 0.6949 0.7083

3.2.4. Penghitungan potensi setiap titik data

Potensi dari titik data dihitung menggunakan persamaan 2.2. Sebagai contoh, Potensi awal ₄ pada data pertama ₄, misalkan = 0.45. Sebagai contoh perhitungan sebagai berikut :

: ₄₄ =0.2222 − 0.2222

0.45 = 0

: ₄₅ =0.6250 − 0.6250

0.45 = 0

: ₄₆ =0.0678 − 0.0678

0.45 = 0

: ₄₈ =0.0417 − 0.0417

0.45 = 0

:;₄ = < : ⁵

8

=4

= : ₄₄⁵ > : ₄₅⁵ > : ₄₆⁵ > : ₄₈⁵

= 0⁵ > 0⁵> 0⁵> 0⁵ = 0

Proses perhitungan jarak dilakukan untuk setiap data, yaitu = 1 sampai = 150, sehingga hasil akhir potensi awal untuk data pertama seperti pada table 3.2.

(35)

Tabel 3.2. Kutipan Potensi awal ₄ untuk data pertama ₄

: 4 : 5 : 6 : 8 :; ^?8∗@A

1 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000

2 0.1235 0.4630 0.0000 0.0000 0.2296 0.3992

3 0.2469 0.2778 0.0377 0.0000 0.1395 0.5722

⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮

7 0.3086 0.0926 0.0000 -0.0926 0.1124 0.6379 8 0.0617 0.0926 -0.0377 0.0000 0.0138 0.9463

9 0.4321 0.5556 0.0000 0.0000 0.4954 0.1379

10 0.1235 0.3704 -0.0377 0.0926 0.1624 0.5222

⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮

33 -0.0617 -0.5556 -0.0377 0.0926 0.3224 0.2753 34 -0.2469 -0.6481 0.0000 0.0000 0.4811 0.1460 35 0.1235 0.3704 -0.0377 0.0000 0.1538 0.5405 36 0.0617 0.2778 0.0753 0.0000 0.0866 0.7071 37 -0.2469 0.0000 0.0377 0.0000 0.0624 0.7792

⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮

79 -0.5556 0.5556 -1.1676 -1.2037 3.4295 0.0000 80 -0.3704 0.8333 -0.7910 -0.7407 2.0059 0.0003 81 -0.2469 1.0185 -0.9040 -0.8333 2.6099 0.0000 82 -0.2469 1.0185 -0.8663 -0.7407 2.3975 0.0001 83 -0.4321 0.7407 -0.9416 -0.9259 2.4794 0.0000 84 -0.5556 0.7407 -1.3936 -1.2963 4.4798 0.0000

⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮

113 -1.0494 0.4630 -1.5443 -1.7593 6.7953 0.0000 114 -0.3704 0.9259 -1.3559 -1.6667 5.6108 0.0000 115 -0.4321 0.6481 -1.3936 -2.0370 6.6984 0.0000

⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮

149 -0.6790 0.0926 -1.5066 -1.9444 6.5203 0.0000 150 -0.4938 0.4630 -1.3936 -1.4815 4.5951 0.0000

29.3694

Langkah diatas dilakukan juga terhadap data ke-2 sampai data ke-150, sehingga hasil akhir potensi awal untuk seluruh data seperti pada table 3.3.

Tabel 3.3. Potensi awal ₄ Iris dataset

4 4 4

1 29.3694 8 30.3927 15 9.9954

2 22.5922 9 15.3174 16 4.8465

3 26.6044 10 24.6553 17 16.7861

4 23.5479 11 22.7111 18 29.3512

5 27.8213 12 28.9752 19 15.0152

6 16.7795 13 21.5892 20 22.5493

7 25.3076 14 14.3109 21 24.0585

(36)

Tabel 3.3. Potensi awal ₄ Iris dataset (Lanjutan)

4 4 4

22 24.1363 65 18.8616 108 10.6198

23 19.5679 66 19.2328 109 12.7441

24 23.1024 67 23.1913 110 5.5590

25 26.3817 68 19.2319 111 22.7046

26 21.8662 69 11.9742 112 23.7282

27 28.0596 70 19.0051 113 21.9293

28 28.5399 71 20.5177 114 12.8757

29 28.6353 72 25.3876 115 9.1487

30 26.6364 73 21.5440 116 17.9668

31 25.4337 74 24.7973 117 25.8434

32 23.2033 75 24.2499 118 2.9129

33 11.7750 76 22.5696 119 3.7832

34 9.4126 77 19.2108 120 11.6144

35 25.9055 78 25.3110 121 16.7569

36 27.1249 79 30.4675 122 15.6550

37 22.0825 80 15.5477 123 6.2633

38 25.5012 81 16.3055 124 26.2889

39 17.5930 82 14.4332 125 18.2823

40 29.8995 83 23.6384 126 12.3510

41 29.1445 84 26.7542 127 28.2444

42 2.9785 85 18.5745 128 27.9867

43 20.5777 86 14.9437 129 20.9800

44 20.1145 87 21.9886 130 12.1552

45 19.4797 88 13.8886 131 10.4098

46 22.1451 89 21.5429 132 2.5904

47 22.2487 90 20.1108 133 18.8129

48 25.2806 91 20.9724 134 28.0393

49 24.1608 92 28.6468 135 16.6522

50 29.8136 93 23.3156 136 7.0736

51 13.0815 94 8.1866 137 11.8999

52 22.5719 95 24.8520 138 24.7028

53 18.2856 96 21.5920 139 26.7680

54 15.1613 97 25.4317 140 20.4274

55 26.6879 98 26.8096 141 16.6707

56 26.3806 99 8.9832 142 16.0501

57 20.5142 100 25.8721 143 20.2953

58 7.8605 101 10.3196 144 16.6566

59 21.8461 102 20.2953 145 12.6770

60 15.9050 103 16.6014 146 18.3860

61 5.1602 104 24.9834 147 18.2261

62 26.4108 105 20.1676 148 25.8668

63 9.9754 106 7.8550 149 12.5552

64 29.8766 107 6.5045 150 24.7105

(37)

3.2.5. Potensi tertinggi ^∗ dan menetapkan pusat cluster

Dari table 3.3, nilai tertinggi terletak pada titik data ke-79. Selanjutnya inisialisasi variabel nilai tertinggi ^∗ dan letak titik data tertinggi dengan ℎ .

4∗= 30.4675 ℎ = 79

4 = = 0.4722; 0.3750; 0.5932; 0.5833

Kemudian kurangi potensi dari titik-titik didekat pusat cluster menggunakan persamaan (2.3). Sebagai contoh perhitungan, untuk pengurangan pada data pertama:

;₄₄=0.4722 − 0.2222

0.45 B 1.25 = 0.4444

;₄₅=0.3750 − 0.6250

0.45 B 1.25 = −0.4444

;₄₆=0.5932 − 0.0678

0.45 B 1.25 = 0.9341

;₄₈=0.5833 − 0.0417

0.45 B 1.25 = 0.9630

Kemudian dihitung menggunakan persamaan dibawah ini:

;C = <D − D⁵

B ⁵

E

=4

3.6

Sehingga :

;C₄ = ;₄₄ ⁵> ;₄₅ ⁵> ;₄₆ ⁵> ;₄₈ ⁵

= 0.4444 ⁵> −0.4444 ⁵> 0.9341 ⁵> 0.9630 ⁵

= 2.1949

Demikian seterusnya perhitungan tersebut dilakukan untuk = 2 sampai = 150. Kemudian dihitung nilai sebagai nilai pengurang potensial setiap titik data.

Sebagai contoh, untuk data pertama :

= ₄^∗B ^{?8 AF}^G = 30.4675 B ^{?8 5.4H8H} = 0.0047

Potensi baru merupakan pengurangan antara potensi lama dengan pengurang potensi . sebagai contoh untuk potensi baru dari data pertama adalah :

5 = ₅ − ₄ = 29.3694 − 0.0047 = 29.3648

Sehingga hasil akhir untuk potensi baru ₅ semua titik data, seperti pada table 3.4. Ketika potensi titik data ada yang bernilai kurang dari nol, maka nilai potensi titik data tersebut diset menjadi nol.