PERBANDINGAN ALGORITME K-MEANS DAN FUZZY C-MEANS UNTUK CLUSTERING CITRA DAUN MELON

(1)

PERBANDINGAN ALGORITME K-MEANS DAN FUZZY C-MEANS **UNTUK CLUSTERING CITRA DAUN MELON**

ARDINSYAH SIREGAR

PROGRAM STUDI ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

BOGOR 2023

(2)

(3)

PERNYATAAN MENGENAI TESIS DAN

SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA

Dengan ini saya menyatakan bahwa tesis dengan judul “Perbandingan Algoritme K-Means dan Fuzzy C-Means untuk Clustering Citra Daun Melon”

adalah karya saya dengan arahan dari dosen pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.

Bogor, Maret 2023 Ardinsyah Siregar G651190121

(4)

RINGKASAN

ARDINSYAH SIREGAR. Perbandingan Algoritme K-Means dan Fuzzy C- Means untuk Clustering Citra Daun Melon. Dibimbing oleh AGUS BUONO dan KARLISA PRIANDANA.

Tanaman melon termasuk tanaman semusim yang tumbuh merambat, tanaman ini mempunyai akar tunggang yang ditumbuhi akar-akar serabut pada ujungnya dan juga memiliki daun yang berwarna hijau, permukaannya berambut, bentuk lebar menjari dengan lima sudut. Daun melon tersusun berselang-seling pada ruas-ruas batang. Tanaman melon merupakan tanaman yang rentan terhadap penyakit, baik penyakit yang disebabkan oleh virus maupun yang disebabkan oleh bakteri. Salah satu bagian tanaman yang dapat terkena penyakit adalah daun. Daun pada tanaman yang sakit umumnya berubah warna yang kemudian akan mempengaruhi daun lain dan menghambat perkembangan dan pertumbuhan tanaman tersebut.

Penelitian ini bertujuan untuk melakukan clustering pada citra daun melon dengan mengektraksi fitur data-data daun melon serta membandingkan metode algoritme K-Means dan Fuzzy C-Means menggunakan metode validasi. Data yang digunakan dalam penelitian ini adalah 160 citra daun melon yang terdiri dari daun sehat hingga daun tidak sehat. Data yang sudah diperoleh kemudian dilakukan praproses data dan ekstraksi fitur, tahapan selanjutnya dilakukan reduksi dimensi data menggunakan Principal Component Analysis (PCA).

Metode yang digunakan adalah metode Clustering dengan algoritme K- Means dan Fuzzy C-Means. Hasil Clustering dari hasil reduksi data menggunakan PCA kemudian dibandingkan hasil nilai validasi Silhouette Coefficient dan Fuzzy Partition Coefficient (FPC) untuk mendapatkan hasil Clustering terbaik.

Hasil perbandingan menunjukkan metode Fuzzy C-Means Clustering dengan validasi Fuzzy Partition Coefficient (FPC) bernilai 0,8359 dan metode K-Means Clustering dengan validasi Silhouette Coefficient bernilai 0,5793.

Hasil perbandingan menunjukkan bahwa metode Fuzzy C-Means Clustering lebih baik dari pada metode K-Means Clustering dengan k = 2 untuk cluster yang terbaik.

Kata kunci: Citra, Clustering, Daun Melon, Fuzzy C-Means,K-Means.

(5)

SUMMARY

ARDINSYAH SIREGAR. Comparison of K-Means and Fuzzy C-Means Algorithms for Image Clustering of Melon Leaves. Supervised by AGUS BUONO and KARLISA PRIANDANA.

The melon plant is an annual plant that grows on vines, this plant has a taproot which is grown by fibrous roots at the ends and also has green leaves, the surface is hairy, the shape is wide with five angles. Melon leaves are arranged alternately on the stem segments. Melon plants are plants that are susceptible to disease, both diseases caused by viruses and those caused by bacteria. One part of the plant that can be affected by the disease is the leaves. Leaves on diseased plants generally change color which will then affect other leaves and inhibit the development and growth of these plants.

This study aims to perform clustering on melon leaf images by extracting the features of melon leaf data and comparing the K-Means and Fuzzy C-Means algorithms using validation values. The data used in this study were 160 images of melon leaves consisting of healthy leaves to unhealthy leaves. The data that has been obtained is then carried out pre-processing of data and feature extraction, the next step is to reduce the dimensions of the data using Principal Component Analysis (PCA).

The method used is the clustering method with the K-Means and Fuzzy C- Means algorithms. Clustering results from data reduction using PCA are then compared to the results of the Silhouette Coefficient and Fuzzy Partition Coefficient (FPC) validation values to get the best clustering results.

The results of the comparison show that the Fuzzy C-Means Clustering method with Fuzzy Partition Coefficient (FPC) validation is worth 0.8359 and the K-Means Clustering method with Silhouette Coefficient validation is worth 0.5793.

The results of the comparison show that the Fuzzy C-Means Clustering method is better than the K-Means Clustering method with k = 2 for the best cluster.

Keywords: Clustering, Fuzzy C-Means, Image, K-Means, Melon Leaves.

(6)

© Hak Cipta milik IPB, tahun 2023

¹

Hak Cipta dilindungi Undang-Undang

Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu masalah, dan pengutipan tersebut tidak merugikan kepentingan IPB.

Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini dalam bentuk apa pun tanpa izin IPB.

(7)

(8)

Tesis

sebagai salah satu syarat untuk memperoleh gelar Magister pada

Program Studi Ilmu Komputer

PERBANDINGAN ALGORITME K-MEANS DAN FUZZY C-MEANS **UNTUK CLUSTERING CITRA DAUN MELON**

ARDINSYAH SIREGAR

PROGRAM STUDI ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

BOGOR 2023

(9)

Penguji Luar Komisi Pembimbing pada Ujian Tesis:

Dr. Mushthofa, S.Kom., M.Sc

(10)

(11)

Judul Tesis : Perbandingan Algoritme K-Means dan Fuzzy C-Means untuk Clustering Citra Daun Melon

Nama : Ardinsyah Siregar

NIM : G651190121

Disetujui oleh Pembimbing 1:

Prof. Dr. Ir. Agus Buono, M.Si., M.Kom. __________________

Pembimbing 2:

Dr. Karlisa Priandana, S.T., M.Eng. __________________

Diketahui oleh Ketua Program Studi:

Prof. Dr. Imas Sukaesih Sitanggang, S.Si., M.Kom.

NIP 19750130 199802 2 001

__________________

Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam:

Dr. Berry Juliandi, S.Si., M.Si.

NIP 19780723 200701 1 001

__________________

Tanggal Ujian:

23 Februari 2023

Tanggal Lulus:

(12)

PRAKATA

Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Judul tesis ini adalah “Perbandingan Algoritme K-Means dan Fuzzy C-Means untuk Clustering Citra Daun Melon”.

Penulis mengucapkan terimakasih banyak kepada para pembimbing, Bapak Prof. Dr. Ir. Agus Buono, M.Si., M.Kom selaku ketua pembimbing dan Ibu Dr.

Karlisa Priandana, S.T., M.Eng selaku anggota pembimbing yang telah memberikan bimbingan, arahan, saran dan motivasi dalam menyelesaikan penelitian ini. Ucapan terimakasih juga kepada orang tua penulis, Mansyur Syawal Siregar dan Uti Matsilah Nasution yang memberikan dukungan dan teman-teman angkatan seperjuangan Magister Ilmu Komputer 2019.

Semoga karya ilmiah ini bermanfaat bagi pihak yang membutuhkan dan bagi kemajuan ilmu pengetahuan.

Bogor, Maret 2023 Ardinsyah Siregar

(13)

DAFTAR ISI

DAFTAR TABEL xii

DAFTAR GAMBAR xii

I PENDAHULUAN 1

1.1 Latar Belakang 1

1.2 Rumusan Masalah 2

1.3 Tujuan 2

1.4 Manfaat 3

1.5 Ruang Lingkup Penelitian 3

II TINJAUAN PUSTAKA 4

2.1 Tanaman Melon 4

2.2 Ekstraksi Fitur 5

2.3 Principal Component Analysis (PCA) 6

2.4 Clustering 7

2.5 K-Means Clustering 8

2.6 Fuzzy C-Means Clustering 10

III METODE 13

3.1 Data Penelitian 13

3.2 Peralatan Penelitian 13

3.3 Tahapan Penelitian 13

3.4 Pengumpulan Data 14

3.5 Praproses Data 15

3.6 Ekstraksi Fitur 15

3.7 Reduksi Dimensi Data 18

3.10 Pengujian dan Evaluasi 19

IV HASIL DAN PEMBAHASAN 20

4.1 Praproses Data 20

4.2 HasilEkstraksi Fitur 20

4.3 Hasil Reduksi dimensi data 21

4.5 Hasil Sillhoutte Coefficient 21

4.7 Hasil Fuzzy Partition Coefficient (FPC) 23

4.8 Evaluasi 25

V SIMPULAN DAN SARAN 26

5.1 Simpulan 26

5.2 Saran 26

DAFTAR PUSTAKA 27

(14)

DAFTAR TABEL

1 Ukuran nilai Silhoutte Coefficient 12

2 Hasil ekstraksi fitur dari citra daun melon 20

3 Hasil reduksi dimensi data PCA 21

DAFTAR GAMBAR

1 Tanaman Melon 4

2 Daun Melon 4

3 Proses pada metode K-Means 9

4 Tahapan-tahapan penelitian 13

5 Data Daun Melon 13

6 Tahapan Praproses data 14

7 Ukuran daun melon 15

8 RGB colorspace 15

9 Ilustrasi menghitung indeks GLCM pada sebuah gambar 17

10 Hasil praproses datacitra daun melon 19

11 Grafik Visualisasi PCA 20

12 Hasil pengujian nilai Silhoutte Coefficient 21

13 Visualisasi Hasil K-means Clustering 21

14 Hasil visualisasi PCA 22

15 Grafik Fuzzy Partition Coefficient (FPC) 22

16 Visualisasi hasil Fuzzy C-Means Clustering 23

(15)

1

I PENDAHULUAN

1.1 Latar Belakang

Melon (Cucumis melo L) adalah tanaman buah semusim yang berasal dari Lembah Panas Persia atau wilayah mediterania yang dekat dengan perbatasan antara Asia Barat dengan Eropa serta Afrika. Tanaman melon masih satu famili seperti semangka, blewah serta mentimun termasuk dalam jenis tanaman labu (Asih et al. 2020). Tanaman melon termasuk tanaman semusim yang tumbuh merambat, tanaman ini mempunyai akar tunggang yang ditumbuhi akar-akar serabut pada ujungnya dan juga memiliki daun yang berwarna hijau, permukaannya berambut, bentuk lebar menjari dengan lima sudut. Daun melon tersusun berselang-seling pada ruas-ruas batang (Redaksi Agromedia 2007).

Dalam proses penanamannya, tanaman melon tidak terlepas dari penyakit baik dari virus maupun dari bakteri. Salah satu bagian tanaman yang dapat terkena penyakit, yaitu daun (Nugroho et al. 2021). Berkurangnya fotosintesis pada tanaman yang diakibatkan oleh infeksi virus maupun bakteri, seperti berkurangnya klorofil pada daun, penurunan efektivitas klorofil, atau berkurangnya daerah daun, dan penurunan zat dalam pengontrol perkembangan tanaman (Mushtaq et al. 2014).

Daun pada tanaman yang sakit biasanya mengalami perubahan warna yang kemudian akan mempengaruhi daun sekitarnya serta mengganggu perkembangan dan pertumbuhan pada tanaman tersebut (Pracaya 2008).

Deteksi awal dari kesehatan daun pada melon dapat menggunakan deteksi data gambar. Tentunya data gambar yang digunakan harus diolah dahulu dengan pengolahan citra digital sehingga pemrosesan dapat berfokus hanya pada daun (Pineda et al. 2018).Oleh sebab itu, digunakan suatu metode untuk mengolah citra digital yang dapat mengambil ciri dari objek citra daun sehingga daun dapat diklasifikasikan menjadi daun sehat dan daun tidak sehat.

Klasifikasi daun dapat dilakukan apabila kelas data daun telah diketahui.

Apabila kelas data belum diketahui, maka klasifikasi terhadap objek citra daun tidak dapat dilakukan secara langsung. Dalam hal ini, diperlukan teknik clustering terlebih dahulu untuk dapat mengelompokkan data berdasarkan fitur data. Beberapa metode clustering yang dapat digunakan untuk pengelompokkan data citra antara lain yaitu metode DBSCAN (Density-Based Spatial Clustering of Applications with Noise), SBAC (Similarity-Based Agglomerative Clustering), algoritme Fuzzy C- Means, dan algoritme K-Means (Xu dan Wunsch 2005).

Adapun algoritme yang digunakan untuk mengelompokkan citra daun melon adalah algoritme Fuzzy C-Means dan K-Means. Fuzzy C-Means merupakan metode clustering yang membolehkan satu bagian data memiliki setidaknya dua atau lebih cluster (Dunn 1973). Manfaat utama fuzzy C-Means adalah dapat memberikan hasil pengelompokan bagi suatu data yang penyebarannya tidak teratur maka terdapat kemungkinan suatu titik data mempunyai sifat atau karakteristik dari cluster lain.

Sehingga perlu adanya pembobotan kecenderungan titik data terhadap suatu cluster (Jansen 2007). Sedangkan K-Means adalah metode yang serderhana dan cepat perhitungannya dibandingkan menggunakan algoritme clustering lainnya.

Algoritme ini memiliki kelebihan yaitu praktis diterapkan dan berjalan dengan cepat, praktis buat untuk diadaptasi, dan paling sering digunakan (Arthur dan Vassilvitskii 2006).

(16)

2

Penelitian yang terkait dengan pengelompokan citra daun yang sudah dilakukan yaitu salah satunya pada penelitian oleh Sari et al. (2014) menggunakan Correlation based Featured Selection (CFS), CFS dengan Genetic Search (GS), dan chi square untuk seleksi fitur yang meliputi bentuk, warna, dan tekstur pada citra daun. Hasil penelitian menunjukkan nilai temu kembali citra daun menggunakan seleksi fitur CFS dengan pengukuran kedekatan dalam menghitung similaritas pada sistem temu kembali citra daun dengan akurasi 72,7 %. Kemudian, penelitian yang dilakukan oleh Anggraeny et al. (2019) yang menggunakan segmentasi k-means clustering pada citra warna daun buah belimbing. Hasil penelitian menunjukkan bahwa k-means clustering berhasil melakukan segmentasi dengan tingkat keberhasilan mencapai 97%.

Penelitian mengenai perbandingan metode K-Means dan Fuzzy C-Means telah banyak dilakukan sebelumnya. Salah satunya yaitu penelitian oleh Andika dan Hafiz (2018) yang menganalisa penggunaan metode K-Means dan Fuzzy C-Means dalam melakukan segmentasi citra. Hasil pengujian menunjukkan bahwa algoritme K-Means menghasilkan segmentasi untuk identifikasi yang lebih baik daripada Fuzzy C-Means. Penelitian lainnya oleh Yohannes (2016) menganalisa perbandingan algoritme Fuzzy C-Means dan K-Means untuk klasterisasi data. Hasil penelitian menunjukkan bahwa K-Means lebih cepat 0.023828 detik dengan 6 iterasidibandingkan dengan Fuzzy C-Means dari segi waktu klasterisasi, sedangkan Fuzzy C-Means lebih baik dalam hal komputasi untuk pengelompokan data.

Kemudian, penelitian yang dilakukan oleh Ramadhan et al. (2019) membandingkan K-Means dan Fuzzy C-Means untuk mengelompokkan data user knowledge modeling menunjukkan bahwa hasil validasi Partition Coefficient Index (PCI) Fuzzy C-Means bernilai 0,2854 lebih baik dari pada validasi Silhouestte Index(SI) K-Means bernilai 0,1866 dikarenakan nilai validasinya bernilai mendekati 1.

1.2 Rumusan Masalah

Perumusan masalah pada penelitian ini antara lain:

1. Untuk mengetahui deteksi citra daun pada pertumbuhan tanaman melon.

2. Untuk mengetahui pembagian kelas terbaik untuk data citra daun melon dalam mendeteksi penyakit tanaman melon, maka diperlukan suatu metode clustering untuk mengelompokkan citra daun melon.

3. Teknik clustering dengan K-Means dan Fuzzy C-Means telah banyak diimplementasikan dan dibandingkan pada berbagai domain permasalahan.

Namun, belum ada penelitian yang menggunakan dan membandingkan kedua teknik clustering ini untuk citra daun melon.

1.3 Tujuan

Tujuan dari penelitian ini adalah:

1. Melakukan ekstraksi fitur pada citra daun melon.

2. Melakukan teknik clustering pada data citra dengan metode K-Means dan Fuzzy C-Means.

3. Membandingkan metode K-Means dan Fuzzy C-Means menggunakan nilai validasi clustering.

(17)

3 1.4 Manfaat

Penelitian ini diharapkan dapat menjadi alat dalam pengelompokan tanaman melon berdasarkan citra daun, sehingga dapat membantu petani melon dalam pemeliharaan dan budidaya tanaman melon.

1.5 Ruang Lingkup Penelitian

Ruang lingkup dari penelitian yang dilakukan di antaranya yaitu:

1. Dataset citra yang digunakan berasal dari daun melon golden alisha F1 yang dibudidayakan di greenhouse iSurf Departemen Ilmu Komputer di IPB University.

2. Metode yang dibandingkan adalah metode clustering dengan K-Means Algorithm dan Fuzzy C-Means Algorithm.

(18)

4

II TINJAUAN PUSTAKA

2.1 Tanaman Melon

Tanaman melon (Cucumisa meloa L.) merupakan tanaman yang termasuk dalam family cucurbitaceae dan genus cucumis. Melon adalah tanaman agrikultura yang terkenal di Indonesia pada skala kecil sampai besar (Prasetyo et al. 2018).

Tumbuhan melon termasuk dalam tumbuhan berbiji sebab termasuk pada divisio Spermatophyta. Sub-divisio Angiospermae adalah tumbuhan berbiji tertutup atau biji pada pada daun buah, kelas Dicotyledoneae memiliki 2 daun lembaga, sub- kelas Sympetalae memiliki daun mahkota bunga yang berlekatan. Buah melon merupakan komoditas holtikultura yang telah banyak dikembangkan di Indonesia, baik dalam skala kecil dan juga agribisnis (Anindita 2009).

Gambar 1 Tanaman Melon (Anindita 2009)

Daun melon berbentuk hampir bulat, tunggal serta tersebar sudutnya lima terdiri dari jumlah lekukan sebanyak 3-7 lekukan. Daun melon memiliki lebar bercangap atau berlekuk berwarna hijau dan menjari agak pendek. Bagian atas daun kasar, ada jenis melon yang tepi daunnya bergelombang serta tidak bercangap.

Panjang pangkal berkisar 5 -10 centimeter dengan lebar 3-8 cm (Asih et al. 2020).

Gambar 2 Daun Melon (greenhouse iSurf IPB University)

(19)

5 2.2 Ekstraksi Fitur

Ekstraksi fitur adalah suatu pengambilan karakteristik (feature) dari suatu struktur yang nantinya nilai yang didapatkan akan dianalisa untuk proses berikutnya. Ekstraksi fitur (Feature Extraction) bertujuan untuk menemukan wilayah komponen yang besar dalam gambar bergantung pada atribut dan aplikasinya. Daerah fitur dapat dicirikan dalam iklim secara global atau lokal dan dikenali dari bentuk, tekstur, ukuran, intensitas, sifat statistik, dan sebagainya (Putra 2010).

Ekstraksi fitur dilakukan dengan cara menghitung jumlah titik atau piksel yang ditemui dalam setiap pengecekan, dimana pengecekan dilakukan dalam berbagai arah tracing pengecekan pada koordinat kartesian dari citra digital yang dianalisis yaitu vertikal, horizontal, diagonal kanan, dan diagonal kiri (Putra 2010).

Menurut Putra (2010) Ekstraksi fitur terbagi menjadi tiga macam yaitu ekstraksi fitur ukuran, ekstraksi fitur warna, dan ekstraksi fitur tekstur.

a. Ekstraksi fitur ukuran

Ukuran adalah karakter pengaturan permukaan yang diwakili oleh garis dan bentuk. Fitur ukuran dikategorikan berdasarkan prosedur yang digunakan. Kategori tersebut adalah berdasarkan batas (boundary-based) dan berdasarkan daerah (region-based). Metode berbasis batas (boundary-based) menggambarkan keadaan suatu area yang menggunakan karakteristik eksternal, misalnya piksel di sepanjang batas objek. Sementara itu, strategi berbasis daerah (boundary-based) menggambarkan ukuran suatu area dengan menggunakan karakteristik eksternal, misalnya piksel yang berada di suatu area. Biasanya fitur ukuran yang digunakan yaitu (Putra 2010):

1. Wilayah (area) yang adalah jumlah piksel dalam suatu daerah digambarkan oleh bentuk pada fitur (foreground).

2. Lingkar (perimeter) merupakan jumlah dari piksel yang terletak pada batas dari ukuran. Parameter yang didapatkan dari hasil deteksi tepi.

3. Kekompakan (compactness) merupakan identifikasi bentuk dan ukuran objek yang sama tetapi dengan profik tepi yang berbeda.

4. Euler number atau faktor E adalah perbedaan antara jumlah dari connected component (C) dan jumlah lubang (H) pada citra.

b. Ekstraksi fitur warna

Pada ekstraksi fitur warna, karakteristik pembeda adalah warna. Umumnya ekstraksi fitur dipakai pada gambaran berwarna yang mempunyai komposisi warna RGB (Red, Green, Blue). Perbedaan suatu objek dengan warna tertentu bisa dilakukan dengan nilai hue yang merupakan gambaran tampak cahaya (merah, jingga, kuning, hijau, biru, ungu). Nilai hue dapat dikombinasikan menggunakan nilai saturation dan value yang merupakan tingkat kecerahan suatu warna. Untuk dapat menggunakan ketiga nilai tersebut, perlu dilakukan konversi ruang warna citra yang semula RGB (Red, Green, Blue) menjadi HSV (Hue, Saturation, Value) (Nahari 2010).

c. Ekstraksi fitur tekstur

Tekstur adalah frekuensi perubahan rona pada citra (Lillesand dan Kiefer 1979) atau pengulangan rona kelompok obyek yang terlalu kecil untuk dibedakan secara individual (Estes dan Simonett 1975). Tekstur merupakan bentuk atau nilai

(20)

6

pada permukaan benda atau gambar, baik itu benda nyata atau semu. suatu permukaan bisa jadi kasar, halus, keras atau bisa lunak (Sugiartha et al. 2017).

Metode yang digunakan untuk memperoleh fitur tekstur dapat dibedakan menjadi tiga golongan yaitu (Petrou dan Sevilla 2006):

1. Metode statistis menggunakan perhitungan statistika untuk membentuk fitur.

Contoh yang termasuk sebagai metode statistis yaitu GLCM dan Tamura.

2. Metode structural mengambarkan susunan elemen ke dalam tekstur. Contoh teknik struktural yaitu Shape Grammar.

3. Metode spectral adalah teknik yang berdasarkan pada domain frekuensi-spasial.

Contoh metode spectral yaitu distribusi energi domai Fourier, Gabor, dan filter Laws.

2.3 Principal Component Analysis (PCA)

Principal Component Analysis (PCA) pertama kali ditemukan oleh Turk dan Pentland (1991) yang digunakan untuk pengenalan citra wajah. Dalam metode PCA informasi yang paling baik mendeskripsikan wajah diperoleh dari citra wajah secara keseluruhan. Kegunaan dari PCA adalah dapat mengkompres data dengan cara ekstraksi fitur data tanpa menghilangkan informasi-informasi dalam data tersebut (Anandita 2007).

PCA lebih banyak dipergunakan untuk keperluan ekstraksi fitur citra, dimana jumlah piksel berasal citra jauh lebih besar dibandingkan dengan jumlah data sampel yang digunakan. Untuk melakukan proyeksi sampel matriks asal citra pelatihan, setiap citra pelatihan disusun dalam bentuk vector baris (Soesanto 2010).

Proyeksi pada PCA adalah pengambaran representasi himpunan data 𝑋 ke dalam bentuk vector eigen dari matrik varian-kovarian dari 𝑋. Vektor eigen dengan nilai eigen yang besar mempunyai peranan penting dalam proses perubahan pada nilai matrik piksel dengan cara membuang nilai eigen yang mendekati nol tidak akan membuat kehilangan informasi data atau kehilangan informasi yang tidak signifikan (Farida 2014).

PCA memerlukan masukan data yang mempunyai sifat zero-mean pada setiap fiturnya. Sifat zero-mean pada masing-masing fitur data bisa didapatkan dengan mengurangkan semua nilai dengan rata-ratanya. Set data 𝑋 dengan dimensi 𝑀 × 𝑁, dimana 𝑀 adalah baris dan 𝑁 kolom akan tampak seperti berikut (Mishra et al.

2017):

𝑋 = [

𝑥₁₁ 𝑥₁₂ ⋯ 𝑥_1𝑛 𝑥₂₁ 𝑥₂₂ ⋯ 𝑥_2𝑛

⋮ ⋮ ⋮ ⋮

𝑥_𝑚1 𝑥_𝑚2 ⋯ 𝑥_𝑚𝑛

] (1)

Untuk fitur ke-𝑗, semua nilai pada kolom tersebut dikurangi dengan rata- ratanya diformulasikan pada Persamaan 2 (Mishra et al. 2017):

𝑥′

ij

= 𝑥

ij

- 𝑥̅

j (2)

dengan 𝑋′ = [𝑥𝑖𝑗] 𝑖 = 1,2, …, 𝑀 𝑗 = 1,2, …, 𝑁

𝑥̅𝑗= nilai rata-rata kolom ke – 𝑗

(21)

7 Selanjutnya dilakukan proses untuk mendapatkan matriks kovarian dari matriks 𝑋′, yaitu 𝐶, dengan menggunakan formula pada Persamaan 3 (Mishra et al.

2017):

𝐶 = 1

𝑀𝑋^′. 𝑋′^𝑇 (3)

𝑋′^𝑇adalah matriks transpose dari 𝑋′.

Pada matriks 𝐶, elemen ke-𝑖, 𝑗 adalah hasil kali elemen baris matriks 𝑋′

dengan kolom matriks 𝑋′^𝑇. Sifat-sifat yang dimiliki oleh matriks 𝐶 adalah sebagai berikut:

1. 𝐶 adalah matriks simetris bujur sangkar berukuran 𝑀 × 𝑀.

2. Bagian diagonal utama (dari kiri atas ke kanan bawah) adalah nilai varian masing-masing fitur sesuai dengan indeks kolomnya.

3. Bagian selain diagonal utama adalah kovarian di antara pasangan dua fitur yang berkesesuaian.

Matriks 𝐶 merepresentasikana kovarian di antara semua pasangan yang mungkin dari fitur data setamatriks 𝑋′. Nilai kovarian merefleksikan noise pada fitur. Nilai eigen dan vector eigen dari matriks kovarian dihitung dengan menggunakan persamaan karakteristik berikut ini (Mishra et al. 2017):

𝐶 − 𝜆𝐼 = 0 (4)

(𝐶 − 𝜆𝐼) 𝑣 = 0 (5)

Dengan 𝐶 adalah matriks kovarian, 𝐼 adalah matriks Identitas, 𝜆 adalah nilai eigen dan 𝑣 adalah vector eigen.

Nilai eigen yang terbesar yang berkorespondensi terhadap nilai vector eigen yang terbesar dipilih menjadi Principal Component. Vektor eigen yang disusun dari yang terbesar ke yang terkecil dipilih menjadi vektor fitur (Mishra et al. 2017).

𝑉𝑒𝑘𝑡𝑜𝑟 𝐹𝑖𝑡𝑢𝑟 = (𝑒𝑖𝑔1, 𝑒𝑖𝑔2, 𝑒𝑖𝑔3 … 𝑒𝑖𝑔𝑛) (6) Untuk mencari Principal Component dengan 𝑋′ sebagai rata-rata dihitung pada Persamaan 7 (Mishra et al. 2017):

𝑃𝐶 = 𝑋′ × 𝑣 (7)

Langkah berikutnya melakukan transformasi data untuk menghasilkan data PCA dengan 𝑋 sebagai data awal pada Persamaan 8 (Mishra et al. 2017).

𝑃𝐶𝐴 𝑑𝑎𝑡𝑎 = 𝑃𝐶′^𝑇× 𝑋′^𝑇 (8) 2.4 Clustering

Clustering adalah prosedur statistik multivariat yang dimulai dengan kumpulan data yang berisi informasi tentang sampel entitas dan upaya untuk mengatur ulang entitas tersebut menjadi kelompok yang relatif homogen. (Jiu et al.

2005). Clustering merupakan sebuah proses untuk mengelompokan data ke dalam beberapa cluster atau kelompok sehingga data dalam satu cluster memiliki tingkat kemiripan yang maksimum dan data antar cluster memiliki kemiripan yang minimum (Tan et al. 2006).

Objek yang di dalam cluster memiliki kemiripan karakteristik antar satu sama lainnya dan berbeda dengan cluster yang lain. Partisi tidak dilakukan secara manual melainkan dengan suatu algoritma clustering. Oleh karena itu, clustering sangat berguna dan bisa menemukan group atau kelompok yang tidak dikenal didalam

(22)

8

data (Han et al. 2012). Clustering bekerja menemukan dalam koleksi data yang tidak ada pada label serta mengelompokannya ke dalam pengelompokkan yang saling mempunyai kesamaan (Madhulatha 2012).

2.5 Algoritme K-Means Clustering

Algoritme K-Means ditemukan oleh MacQueen tahun 1967, K-Means merupakan salah satu algoritme sederhana dalam memecahkan masalah pengelompokan. MacQueen menjelaskan dalam algoritme k-means, dataset dibagi ke dalam beberapa cluster, dan satu data hanya dapat menjadi satu anggota cluster tertentu (MacQueen 1967). K-means adalah salah satu metode pengelompokan data non-hierarchical yang berusaha untuk mempartisi data yang ada dalam bentuk satu atau lebih cluster (Hruschka dan Ebecken 2003). Metode non-heuristic berbasis pendekatan lokal digunakan untuk pengelompokan k-means dan membuktikannya melalui studi empiris. Jadi, centroid clustering awal yang baik dapat digunakan dengan metode lainnya. K-means clustering meningkatkan centroid clustering yang optimal (Kumar et al. 2010).

Tujuan dari algoritme k-means clustering adalah meminimumkan suatu fungsi objektif yang didefinisikan pada Persamaan 9 (Wu 2012):

min

{𝑚_𝑘}, 1 ≤ 𝑘 ≤ 𝐾 ∑ ∑ 𝜋^𝑥 𝑑𝑖𝑠𝑡(𝑥, 𝑚_𝑘)

𝑥∈𝐶_𝑘 𝐾

𝑘=1

(9) Dimana πx adalah bobot dari x, nk adalah jumlah objek data yang ditugaskan ke cluster Ck, 𝑚_𝑘 = ∑ ^𝜋^𝑥^𝑥

𝑛_𝑘

𝑥∈𝐶_𝑘 adalah centroid dari cluster, K adalah jumlah cluster yang ditetapkan oleh pengguna dan fungsi “dist” menghitung jarak antara objek x dengan centroid mk, 1 ≤ 𝑘 ≤ 𝐾. Sementara pemilihan fungsi jarak bersifat opsional dan jarak Euclidean kuadrat yaitu ‖𝑥 − 𝑚‖² (Wu 2012).

Dengan dist (x, mk) adalah Euclidean Distance yang dapat didefinisikan pada Persamaan 10 (Wu 2012):

𝐷𝑖𝑠𝑡 (𝑥, 𝑚_𝑘) = √∑(𝑥_𝑖𝑗

𝑃

𝑗=1

− 𝑚_𝑘𝑗)²

(10) Keterangan:

x = data

mk = centroid ke-k P = jumlah dimensi i = indeks data k= indeks cluster j= indeks dimensi

Tahapan yang dilakukan pada clustering data menggunakan metode k- means adalah sebagai berikut (Wu 2012):

1. Tentukan nilai k sebanyak jumlah cluster atau kelompok yang diinginkan.

2. Pilih sebanyak k data dari set data sebagai pusat cluster (centroid) secara acak.

3. Menghitung jarak antara titik pusat cluster (centroid) dengan titik tiap objek.

Untuk menghitung jarak digunakan rumus Euclidean Distance seperti pada Persamaan 10.

4. Mengelompokkan objek berdasarkan jarak terdekat dengan centroid.

(23)

9 5. Menentukan centroid baru dengan menggunakan rumus pada Persamaan 11 (Wu

2012):

𝑚_𝑘= 1 𝑛_𝑘∑ 𝑥_𝑖

𝑛_𝑘

𝑖=1

(11) Keterangan:

mk = centroid baru pada cluster ke-k nk = jumlah data pada cluster ke-k k = indeks cluster

x =data i = indeks data

6. Pengelompokan objek

Untuk menentukan anggota cluster digunakan perhitungan jarak minimum objek. Nilai yang didapatkan dalam keanggotaan data pada distance matrik adalah 0 atau 1, dimana nilai 1 digunakan untuk data yang dialokasikan ke cluster dan nilai 0 untuk data yang di alokasikan ke cluster yang lain (Kuntjoro et al. 2018).

Kemudian kembali ke tahap 3, lakukan perulangan hingga didapatkan centroid yang dihasilkan bernilai tetap dan anggota cluster tidak berubah dan berpindah ke cluster yang lain (Kuntjoro et al. 2018).

Adapun proses mengenai metode pada Algoritme K-Means dapat dilihat pada Gambar 3.

Gambar 3 Proses pada metode K-Means Clustering (Priya 2013) 2.6 Silhouette Coefficient

Metode Silhouette Coefficient merupakan metode validasi cluster yang menggabungkan metode cohesion dan separation, penggunaan metode ini untuk menilai kualitas serta kekuatan cluster. Silhouette Coefficient dari tiap objek dalam suatu cluster adalah suatu ukuran yang menunjukkan seberapa ketat data dikelompokkan dalam cluster tersebut. Dalam hal ini ditinjau pula seberapa baik suatu objek ditempatkan dalam suatu cluster tertentu (Kaufman dan Rousseeuw 1990). Tampilan Silhouette yang diperkenalkan oleh Rousseeuw (1987), setiap cluster diwakili oleh satu Silhouette yang menunjukkan objek yang mana terletak dengan baik di dalam cluster dan objek mana yang hanya memiliki perantara posisi (Kaufman dan Rousseeuw 1990).

(24)

10

Adapun langkah-langkah metode Silhouette Coefficient adalah sebagai berikut (Struyf et al.1997):

1. Hitung rata-rata jarak dari suatu data dengan semua data lain yang berada dalam satu cluster pada Persamaan 12 (Struyf et al.1997):

𝑎(𝑖) = 1

|𝐴| − 1∑ 𝑑(𝑖, 𝑗)

𝑗∈𝐴,𝑖≠𝑗

(12)

dimana |𝐴| adalah jumlah data dalam cluster A, j adalah data lain dalam satu cluster A dan d (i, j) adalah jarak antara data i dengan dimensi j.

2. Hitung rata-rata jarak dari data i dengan semua data di cluster lain dan diambil nilai terkecilnya pada Persamaan 13 (Struyf et al.1997):

𝑑(𝑖, 𝐶) = 1

|𝐴| ∑ 𝑑(𝑖, 𝑗)

𝑗∈𝐶

(13)

dimana d (i, C) adalah jarak rata-rata data i dengan semua objek pada cluster lain C dimana A ≠ C pada Persamaan 14 (Struyf et al.1997).

𝑏(𝑖) = min 𝐶 ≠ 𝐴 𝑑(𝑖, 𝐶) (14) 3. Nilai Silhouette Coefficientnya adalah pada Persamaan 15 (Anggara 2016):

𝑠(𝑖) = 𝑏(𝑖) − 𝑎(𝑖) max (𝑎(𝑖), 𝑏(𝑖))

(15) Keterangan:

s(i) = Silhouette Coefficient.

a(i) = rata-rata jarak dari data i dengan seluruh objek yang berada pada clusters yang sama.

b(i) = nilai terkecil dari rata-rata jarak data i dengan objek lain pada cluster yang berbeda.

Nilai Silhouette Coefficient berada pada rentang (-1) hingga 1. Semakin tinggi nilainya maka semakin bagus pula kualitas cluster. Ukuran nilai Silhouette Coefficient menurut Kaufman dan Rousseeuw (1990) adalah seperti ditunjukkan pada Tabel 1.

Tabel 1 Ukuran Nilai Silhouette (Kaufman dan Rousseeuw 1990) Nilai Silhouette Coefficient Keterangan

0,7 < SC ≤ 1 Strong Structure

(Struktur yang dihasilkan kuat)

0,5 < SC ≤ 0,7 Medium Structure

(Struktur yang dihasilkan baik)

0,25 < SC ≤ 0,5 Weak Structure

(Struktur yang dihasilkan lemah)

SC ≤ 0,25 No Structure

(Tidak tersruktur) 2.7 Algoritme Fuzzy C-Means Clustering

Algoritme Fuzzy C-Means ditemukan oleh Bezdek pada tahun 1981. Fuzzy C-Means adalah metode pengelompokkan data dimana keberadaan di setiap titik data dikelompokkan dalam suatu cluster dengan derajat keanggotaan tertentu.

(25)

11 Pengelompokkan data dengan Fuzzy C-Means menghasilkan keluaran berupa daftar pusat cluster dan beberapa fungsi keanggotaan untuk tiap data. Data ini digunakan dalam mengkarakterisasi fungsi-fungsi keanggotaan untuk mempresentasikan nilai fuzzy dari tiap-tiap cluster (Miyamoto et al. 2008).

Adapun langkah-langkah algoritme dari Fuzzy C-Means adalah sebagai berikut (Struyf et al.1997):

1. Memasukkan data yang akan dikelompokkan ke dalam sebuah matriks X, dimana matriks berukuran m x n, dengan m adalah jumlah data yang akan di cluster dan n adalah jumlah dimensi (atribut) setiap data. Contoh Xij = data ke-i (i=1,2,..,m), pada atribut ke-j (1,2,…,n).

2. Menentukan jumlah cluster yang akan dibentuk (1< 𝑘 < N), weigthing exponent (𝑤 > 1), maksimum iterasi (MaxIter), error terkecil yang diharapkan (𝜀 > 0) , fungsi objektif awal (P0 = 0), dan iterasi awal (t=1).

3. Membangkitkan bilangan acak µik, (dengan i = 1, 2,..,m, dan k = 1,2,..,c) sebagai elemen matrik partisi awal U0 pada Persamaan 16 (Struyf et al.1997):

∑ 𝜇_𝑖𝑘

𝑐

𝑖=1

= 1 (16)

4. Menghitung pusat cluster ke- k, Vkj dengan k =1,2,…, c dan j=1,2,…,n pada Persamaan 17 (Struyf et al.1997).

𝑉_𝑘𝑗 = ∑^𝑛_𝑖=1((𝜇_𝑖𝑘)^𝑤. 𝑥_𝑖𝑗)

∑^𝑛_𝑖=1(𝜇_𝑖𝑘)^𝑤 (17)

Keterangan:

n = jumlah data

w = weighting exponent

𝜇_𝑖𝑘= nilai keanggotaan untuk data ke-i pada cluster ke-k Vkj = pusat cluster ke-k pada dimensi ke-j

xij = data ke i pada dimensi ke- j

5. Menghitung fungsi objektif pada iterasi ke-t pada Persamaan 18 (Struyf et al.1997):

𝑃_𝑡= ∑ ∑ ([∑(𝑋_𝑖𝑗− 𝑉_𝑘𝑗)²

𝑚

𝑗=1

] (𝜇_𝑖𝑘)^𝑤)

𝑐

𝑘=1 𝑛

𝑖=1

(18) Keterangan:

n = jumlah data C = jumlah cluster

𝜇_𝑖𝑘= nilai keanggotaan untuk data ke-i pada cluster ke-k w = weighting exponent

Vkj = pusat cluster ke-k pada dimensi ke-j Xij = data ke i pada dimensi ke- j

6. Menghitung perubahan membership degree setiap data pada cluster (perbaiki matriks partisi U) pada Persamaan 19 (Struyf et al.1997):

𝜇_𝑖𝑘 = [∑^𝑚_𝑗=1(𝑥_𝑖𝑗− 𝑣_𝑘𝑗)²]

−1 𝑤−1

∑ [∑^𝑚_𝑗=1𝑥_𝑖𝑗− 𝑣_𝑘𝑗)²]

−1 𝑐 𝑤−1

𝑘=1

(19) Keterangan:

C = jumlah cluster

(26)

12

w = weighting exponent

vkj = pusat cluster ke-k pada dimensi ke-j xij = data ke i pada dimensi ke- j

7. Cek kondisi berhenti:

a. Jika (| Pt - Pt-1 | < 𝜀 ) atau t > Maxiter maka berhenti;

b. Jika tidak: t = t - 1, ulangi Langkah 4.

2.8 Partition Coefficient

Bedzek (1981) mengusulkan validasi Fuzzy C- Means dengan menghitung Partition Coefficient sebagai evaluasi nilai keanggotaan data pada setiap cluster.

Nilai Fuzzy Partition Coefficient (FPC) hanya mengevaluasi nilai derajat keanggotaan, tanpa memandang vector (data) yang biasanya mengandung informasi geometrik. Nilai coefficient dalam rentang [0,1], nilai yang semangkin besar mendekati 1 mempunyai arti bahwa kualitas cluster yang didapat semakin baik. Berikut rumus validasi Partition Coefficient (David et al. 2020):

𝑃𝐶 = 1

𝑁 ∑ ∑ 𝜇_𝑖𝑗²

𝐾 𝑗=1 𝑁

𝑖=1

(20) Keterangan:

PC = Partition Coefficient N = jumlah data dalam set data K = jumlah cluster

µij = nilai keanggotaan data ke-i pada dimensi ke-j.

(27)

13

III METODE

3.1 Data Penelitian

Dalam penelitian ini, dataset yang digunakan meliputi data citra daun melon golden alisha F1. Tanaman melon tersebut ditumbuhkan di greenhouse IPB University menggunakan sistem hidroponik. Pengambilan data citra dilakukan menggunakan kamera handphone resolusi HD 48 MP, proses pengambilan citra dilakukan dengan memotret daun melon sebanyak 160 (seratus enam puluh) data citra daun.

3.2 Peralatan Penelitian

Penelitian yang dilakukan menggunakan perangkat keras dan perangkat lunak sebagai berikut:

1. Perangkat keras berupa Komputer dengan spesifikasi:

a. Intel® Core™ i3-4030U CPU 1.90 GHz.

b. RAM 8 GB DDR4.

c. Hard disk internal 500 GB SSD PCle Gen3.

d. Graphics Nvidea GeForce MX350s.

e. Kamera Handphone resolusi HD 48 MP.

2. Perangkat lunak yang digunakan:

a. Sistem Operasi Windows 10 64-bit.

b. Bahasa pemrogramman Phyton versi 3.9.7 untuk visualisasi model clustering dan image processing.

3.3 Tahapan Penelitian

Langkah-langkah yang dilakukan pada penelitian ini terdiri atas beberapa tahapan yaitu pengumpulan data, praproses data, ektraksi fitur, clustering menggunakan Algoritme K-Means, Algoritme Fuzzy C-Means serta pengujian dan evaluasi. Gambar 4 menunjukkan tahapan penelitian:

(28)

14

Mulai Mulai

Praproses Data Praproses Data

Ekstraksi Fitur

Menggunakan Principal Component Analysis (PCA)

Ekstraksi Fitur

Menggunakan Principal Component Analysis (PCA)

Clustering Menggunakan K-Means Algorithm Clustering Menggunakan

K-Means Algorithm

Selesai Selesai

Pengujian dan Evaluasi Hasil Cluster Pengujian dan Evaluasi

Hasil Cluster

Clustering Menggunakan Fuzzy C-Means Algorithm

Clustering Menggunakan Fuzzy C-Means Algorithm Pengumpulan Data

Pengumpulan Data

Gambar 4 Tahapan penelitian 3.4 Pengumpulan Data

Data yang digunakan adalah data berupa citra daun melon yang diambil dari greenhouse iSurf Departemen Ilmu Komputer FMIPA IPB University. Data gambar berasal dari tanaman-tanaman dengan kondisi yang bervariasi dengan posisi pengambilan gambar yang berbeda-beda dengan umur tanaman melon sekitar 40 hari. Pengambilan data menggunakan handphone menghasilkan sebanyak 160 (seratus enam puluh) data citra daun melon.

Gambar 5 Data daun melon (Greenhouse iSurf Departemen Ilmu Komputer IPB University)

(29)

15 3.5 Praproses Data

Pada tahap praproses data pada gambar citra daun adalah dengan mengubah data citra daun yang telah dikumpulkan agar dapat menjadi informasi yang akan digunakan untuk pengolahan selanjutnya. Tujuan dari tahap ini adalah citra diproses untuk mendapatkan hasil yang lebih baik agar mempermudah dalam ekstraksi fitur.

Adapun tahapan praproses data yang akan dilakukan yaitu:

1. Melakukan teknik cropping yaitu memotong sebagian objek pada bidang gambar untuk memisahkan objek yang satu dengan lainnya dengan menyisakan hanya objek daunnya saja.

2. Menghilangkan background di sekitar citra daun dengan latar belakang putih agar objek citra dapat dikenali sehingga citra akan digunakan selanjutnya.

3. Setelah itu melakukan resize yaitu mengubah resolusi suatu data citra dengan mengubah ukuran pixel menjadi lebih kecil agar pada saat pemrosesan citra akan lebih cepat dan tidak banyak menghabiskan memori penyimpanan.

Gambar 6 Tahapan praproses data 3.6 Ekstraksi Fitur

Setelah tahapan praproses data citra akan diekstraksi ciri fitur untuk mendapatkan ciri yang akan digunakan. Ekstraksi Fitur merupakan proses untuk mengambil atau melihat nilai-nilai ciri yang terdapat dalam suatu citra, fitur yang digunakan pada ekstraksi fitur adalah fitur ukuran, warna dan tekstur. Ekstraksi fitur menghasilkan nilai yang telah diekstrak akan digunakan untuk proses pelatihan (training) dengan metode clustering. Adapun tahapan-tahapan untuk mendapatkan hasil dari ektrasi fitur adalah sebagai berikut:

a. Ektraksi fitur Ukuran

Untuk membedakan ukuran objek satu dengan objek lainnya dapat menggunakan parameter luas dan keliling. Luas merupakan banyaknya piksel yang menyusun suatu objek. Sedangkan keliling merupakan banyaknya piksel yang mengelilingi suatu objek (Nixon dan Aguado 2002). Cara menghitung luas dan keliling suatu citra yaitu dengan menghitung luas pada Persamaan 21 (Nixon dan Aguado 2002):

Luas = p x l (21)

Keterangan:

p = panjang l = lebar

(30)

16

Sedangkan untuk menghitung keliling suatu citra pada Persamaan 22 (Nixon dan Aguado 2002):

Keliling = 2x (p+l) (22)

Keterangan:

p= panjang l = lebar

Gambar 7 Ukuran daun melon b. Ektraksi Fitur warna

Citra warna (RGB) adalah sebuah citra yang setiap pikselnya merupakan gabungan dari tiga komponen warna yaitu merah (red), hijau (green), dan biru (blue). Masing-masing komponen memiliki rentang warna antara 0 – 255 untuk mempresentasikan tingkatan warna masing-masingnya (Sengupta et al. 2014).

Untuk menghitung nilai RGB pada Persamaan 23 (Sengupta et al. 2014):

RGB = (((R*256) + G) *256) + B (23)

Keterangan:

B = RGB Modulus 256

G = (Pembulatan kebawah (RGB / 256)) Modulus 256 R = Pembulatan kebawah (RGB / 65536)

Gambar 8 RGB colorspace (Maia dan Trindade 2016) c. Ektraksi Fitur Tekstur

Tekstur adalah frekuensi perubahan rona pada citra (Lillesand dan Kiefer 1979) atau pengulangan rona kelompok obyek yang terlalu kecil untuk dibedakan secara individual (Estes dan Simonett 1975). Penelitian ini menggunakan Gray

(31)

17 Level oCcurance Matrix (GLCM) sebagai matrik pengambilan nilai keabuan dari sebuah gambar. Fitur GLCM yang digunakan untuk penelitian ini ada 5 fitur yaitu contras, energy, homogeneity, correlation, dan dissimilarity. Untuk mendapatkan 5 fitur ekstur menggunakan rumus sebagai berikut (Park dan Guldmann 2020):

1. Contrast menunjukkan nilai intensitas lokal dalam matriks co-occurrence yang didefinisikan pada Persamaan 24 (Park dan Guldmann 2020):

𝐶𝑜𝑛𝑡𝑟𝑎𝑠𝑡 = ∑ ∑ (𝑖 − 𝑗)². 𝑔²(𝑖, 𝑗)

𝑁_𝑔−1 𝑗=0 𝑁_𝑔−1

𝑖=0

(24) 2. Energy menunjukkan tingkat keseragaman tekstur, yang didefinisikan pada

Persamaan 25 (Park dan Guldmann 2020):

𝐸𝑛𝑒𝑟𝑔𝑦 = √∑ ∑ 𝑔²

𝑁_𝑔−1 𝑗=1 𝑁_𝑔−1 𝑖=1

(𝑖, 𝑗)

(25) 3. Homogeneity menunjukkan ukuran perulangan struktur tekstur yang bobot

nilainya merupakan nilai invers dari contrast yang didefinisikan pada Persamaan 26 (Park dan Guldmann 2020):

𝐻𝑜𝑚𝑜𝑔𝑒𝑛𝑒𝑖𝑡𝑦 = ∑ ∑ 1

1 + (𝑖 − 𝑗)²

𝑁_𝑔−1 𝑗=0 𝑁_𝑔−1 0

. 𝑔(𝑖, 𝑗) (26) 4. Correlation mengukur ketergantungan linier dari tingkat abu-abu dari piksel

tetangga pada posisi tertentu yang didefinisikan pada Persamaan 27 (Park dan Guldmann 2020):

𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 = ∑ ∑ (𝑖 − µ). (𝑗 − µ)(𝑖, 𝑗)

𝑁_𝑔−1 𝑗=0 𝑁_𝑔−1

𝑖=0 /𝜎² (27)

5. Dissimiliraity menunjukkan ukuran yang mendefinisikan variasi tingkat intensitas pasangan piksel dalam citra yang didefinisikan pada Persamaan 28 (Park dan Guldmann 2020):

𝐷𝑖𝑠𝑠𝑖𝑚𝑖𝑙𝑖𝑟𝑎𝑖𝑡𝑦 = ∑ ∑ 𝑔(𝑖, 𝑗). |𝑖 − 𝑗|

𝑁_𝑔−1 𝑗=0 𝑁_𝑔−1

𝑖=0

(28) Keterangan:

Ng = jumlah tingkat keabuan

g(i,j) = input dari matrik (i,j) di GLCM μ = rata-rata GLCM

σ²= varian GLCM

(32)

18

Gambar 9 Ilustrasi menghitung indeks GLCM pada sebuah gambar (Park dan Guldmann 2020)

Gambar 9 menunjukkan konstruksi GLCM pada gambar skala abu-abu dalam bentuk matriks di diskritisasi menjadi matriks bilangan bulat dengan membagi rentang nilai piksel berkelanjutan menjadi N, setara dengan lebar yang sama yang disebut tingkat keabuan dan nilai dalam sebuah gambar dipetakan ke satu tingkat keabuan. Elemen GLCM dihitung berdasarkan peta diskrit dengan menghitung seberapa sering pasangan piksel dengan tingkat keabuan tertentu dan dalam hubungan spasial tertentu terjadi dalam matriks (Park dan Guldmann 2020).

3.7 Reduksi Dimensi Data

Principal Component Analysis (PCA) merupakan sebuah metode yang membentuk suatu variabel-variabel yang baru dengan jumlah tidak lebih dari variable lama serta merupakan kombinasi linier dari variabel-variabel lama. PCA dipergunakan buat kebutuhan ekstraksi fitur pada citra dimana bisa terjadi jumlah ukuran citra jauh lebih besar dari pada beberapa banyak jumlah data contoh yang dipergunakan (Purnomo dan Muntasa 2010). Nilai principal component dari dua variable baru (principal component) utama dapat digunakan sebagai masukan variable untuk data clustering.

3.8 K-Means Clustering

K-Means melakukan pekerjaan dengan mengumpulkan data-data dalam beberapa kelompok, sebuah data digabungkan pada satu kelompok sesuai dengan

(33)

19 kesamaan ataupun kedekatan ciri dengan data yang berbeda yang ada di dalam kelompok tersebut (Agusta 2007). Cara kerja dari K-Means yaitu pertama harus menentukan jumlah cluster yang akan di hitung, kemudian tentukan titik pusat cluster, ketiga mulai hitung jarak objek ke centroid, keempat akan tampil kelompok objek berdasarkan jarak minimum, yang terakhir apakah objek yang berpindah jika ada objek yang berpindah maka akan mengulangi langkah ke 2 sampai tidak ada objek yang berpindah.

3.9 Fuzzy C-Means Clustering

Fuzzy C-Means merupakan metode clustering dimana membolehkan satu bagian data mempunyai dua atau lebih kelompok (Dunn et al. 1973). Cara kerja dari Fuzzy C-Means yaitu pertama memasukkan data yang akan dimasukkan ke sebuah matrix, kedua menentukan jumlah cluster yang akan dibentuk, ketiga membangkitkan bilangan acak, keempat menghitung pusat cluster, kelima menghitung fungsi objekstif, dan yang keenam menghitung perubahan membership degree setiap data pada cluster. Output yang dihasilkan Fuzzy C-Means merupakan centroid cluster dan derajat keanggotaan untuk tiap-tiap objek

3.10 Pengujian dan Evaluasi

Pada tahap pengujian dilakukan dengan membandingkan kinerja K-Means dengan Fuzzy C-Means. K-Means Clustering dievaluasi menggunakan rumus Silhoutte Coefficient pada persamaan (15). Nilai Silhouette Coefficient berada pada rentang (-1) hingga 1. Semakin tinggi nilainya, maka semakin bagus pula kualitas cluster.

Fuzzy C-Means Clustering dievaluasi menggunakan rumus Partition Coefficient pada persamaan (20). Nilai Partition Coefficient mempunyai nilai batas 0 sampai 1, nilai yang mendekati angka 1(satu) artinya memiliki keunggulan cluster yang dihasilkan akan sangat bagus.

(34)

20

IV HASIL DAN PEMBAHASAN

Dalam penelitian ini, percobaan yang dilakukan yaitu melakukan clustering dengan menggunakan algoritme Fuzzy C-Means Clustering dan K-Means Clustering. Adapun hasil percobaan yang telah dilakukan adalah sebagai berikut:

4.1 Praproses Data

Langkah awal dalam praproses data adalah mengenali objek citra daun yang akan digunakan, konversi yang digunakan yaitu putih untuk latar belakang gambar dan gambar yang diperkecil untuk objek citra daun yang diolah informasinya.

Gambar 10 Hasil praproses data citra daun melon

Gambar 10 menunjukkan hasil praproses data citra daun melon dengan penskalaan citra dari 6000 x 8000 pixel ke 700 x 582 pixel. Hal ini bertujuan agar kontur daun primer dapat terekstraksi dengan baik sehingga dapat mengurangi ukuran citra yang akan diunggah dan dapat mengurangi beban memory pada saat melakukan proses selanjutnya.

4.2 Hasil Ekraksi Fitur

Citra hasil praproses data diekstrak sehingga menghasilkan nilai yang muncul dan selanjutnya dipakai untuk data pengelompokkan. Hasil dari ekstraksi fitur akan diperoleh nilai-nilai dari fitur ukuran, fitur warna dan fitur tekstur selanjutnya akan diproses reduksi dimensi data menggunakan metode PCA. Hasil ekstraksi fitur dapat ditunjukkan pada Tabel 2.

Tabel 2 Hasil ekstraksi fitur dari citra daun melon

Panjang X

Panjang Y

Luas Keliling R G B contrast energy homogeneity correlation dissimilarity 0

573 636 364428 2418 199 215 191 0,007518 0,707356 0,996240791 0,98472444 0,00751842 1 661 693 458073 2708 203 221 193 0,020364 0,693683 0,989818051 0,95917871 0,0203639 2

643 657 422451 2600 165 195 137 0,010992 0,702426 0,994504117 0,97782695 0,01099177 3

587 566 332242 2306 179 198 153 0,009536 0,700804 0,995231768 0,98090523 0,00953646 4

561 565 316965 2252 194 211 170 0,008091 0,712875 0,995954617 0,98327609 0,00809077 5

621 701 435321 2644 195 211 177 0,009448 0,701489 0,995275904 0,98104884 0,00944819

(35)

21 4.3 Hasil Reduksi dimensi data

Hasil reduksi dimensi data PCA pada ekstraksi fitur yaitu dua variabel baru yaitu pca_0 dan pca_1 yang selanjutnya digunakan untuk pembentukan clustering seperti pada Tabel 3.

Tabel 3 Hasil reduksi dimensi data PCA

Daun_Id pca_0 pca_1

0 -12564,6708 55,80216

1 81080,8167 4,37147

2 45458,6404 -12,5540

3 -44750,9033 -1,80837

4.4 K-Means Clustering

Adapun hasil pengujian algoritme K-Means dapat ditunjukkan pada Gambar 11.

Gambar 11 Hasil visualisasi PCA

Gambar 11 menunjukkan visualisasi data dalam bentuk scatter plot, yaitu penyebaran data sebelum terbentuknya pengelompokkan pada K-Means Clusering.

4.5 Hasil Sillhoutte Coefficient

Silhouette Coefficient digunakan untuk melihat kualitas dan kekuatan cluster, seberapa baik atau buruknya suatu obyek ditempatkan pada suatu cluster (Kodinariya dan Makwana 2013).Percobaan Sillhoette Coefficient digunakan untuk dapat menentukan cluster dengan kualitas yang baik dengan melihat jarak data dalam kelompok yang sama dan menggunakan jarak data pada kelompok yang berbeda.

(36)

22

Gambar 12 Grafik pengujian nilai Sillhoutte Coefficient

Hasil perhitungan Silhouette Coefficient untuk beberapa jumlah cluster ditunjukkan pada Gambar 12. Pada pengujian Silhouette Coefficient mendapatkan hasil analisis dengan nilai yaitu 0,5793 pada grafik tertinggi di cluster ke 2 sehingga mendapatkan hasil cluster terbaik yang terbentuk pada k = 2.

Gambar 13 Visualisasi Hasil K-Means Clustering k=2

Gambar diatas menunjukkan visualisasi hasil K-Means Clustering dari metode Sillhoutte Coefficient mendapatkan 2 cluster yang terbaik.

(37)

23 4.6 Fuzzy C-Means Clustering

Adapun hasil pengujian algoritme Fuzzy C-Means dapat ditunjukkan pada Gambar 14.

Gambar 14 Hasil visualisasi PCA

Gambar di atas menunjukkan visualisasi data dalam bentuk scatter plot, yaitu penyebaran data sebelum terbentuknya pengelompokkan pada Fuzzy C-Means Clusering.

4.7 Hasil Fuzzy Partition Coefficient (FPC)

Validasi Fuzzy Partition Coefficient, yaitu menilai Partition Coefficient menjadi evaluasi nilai tingkat keanggotaan data di setiap kelompok tanpa melihat nilai vektor pada umumnya berisi data geometrik (Widiyanto 2019).

(38)

24

Gambar 15 Grafik Fuzzy Partition Coefficient (FPC)

Gambar diatas menunjukkan validitas Partition Coefficient sebagai evaluasi nilai derajat keanggotaan data pada setiap cluster. Pada Gambar 15 terlihat bahwa validitas cluster pada nilai ekstraksi fitur dengan menggunakan Fuzzy C-Means menunjukkan angka 0,8359 dengan hasil cluster terbaik yang terbentuk pada k = 2.

Gambar 16 Visualisasi hasil Fuzzy C-Means Clustering k=2

Gambar diatas menunjukkan hasil Fuzzy C-Means Clustering dari metode Fuzzy Partition Coefficient (FPC) dengan 2 cluster yang terbaik.

(39)

25 4.8 Evaluasi

Berdasarkan evaluasi nilai Silhouette Coefficient dan Fuzzy Partition Coefficient (FPC) yang telah dilakukan, dapat disimpulkan bahwa Fuzzy C-Means menghasilkan nilai validasi lebih baik dibandingkan dengan metode K-Means Clustering. Jumlah cluster yang terbaik adalah 2 cluster dengan nilai FPC = 0,8359 yang mendekati nilai 1 (satu) yang menunjukkan bahwa hasil kualitas cluster tersebut semakin baik.

(40)

26

V SIMPULAN DAN SARAN

5.1 Simpulan

Berdasarkan hasil penelitian yang telah dilakukan, maka diperoleh kesimpulan yaitu:

1. Hasil Clustering menggunakan K-Means dengan menggunakan Silhouette Coefficient diperoleh cluster terbaik pada k= 2.

2. Hasil Clustering menggunakan Fuzzy C-Means dengan menggunakan Fuzzy Partition Coefficient diperoleh cluster terbaik pada k = 2.

3. Berdasarkan hasil perbandingan nilai validasi algoritme K-Means dan Fuzzy C- Means, maka diperoleh nilai validasi pada metode K-Means bernilai 0,5793.

Sedangkan nilai validasi pada metode Fuzzy C-Means bernilai 0,8359, maka dapat disimpulkan bahwa metode Fuzzy C-Means Clustering lebih baik dari pada metode K-Means Clustering .

5.2 Saran

Adapun saran yang dapat dilakukan untuk penelitian selanjutnya adalah data citra daun untuk setiap spesies daun sebaiknya ditambah jenis daun yang lain untuk mengelompokkan citra daun sehingga Clustering dan validasi yang dihasilkan bisa semakin meningkat dan selanjutnya dapat melakukan klasifikasi jenis penyakit daun dan buah pada tanaman melon dengan metode Clustering serta menggunakan metode optimasi untuk mendapat hasil yang lebih baik dan akurat.

(41)

27

DAFTAR PUSTAKA

Arthur, D. dan Vassilvitskii, S. 2006. How Slow is the k-Means Method, Stanford University, Stanford, CA.

Agusta Y. 2007. K-Means-penerapan, permasalahan dan Metode Terkait. Jurnal Sistem dan Informatika Vol.3: 47- 60.

Anindita KA. 2009. Variasi Fenotipe dan Pembentukan Warna buah Melon (Cucumis melo L.) kultivar Melodi Gama 1. Yogyakarta: Fakultas Biologi Universitas Gajah Mada. hal 1.

Anggraeny FT, Munir MS, Atmojo UW. 2019. Segmentasi K-means Clustering pada Citra Warna Daun Tunggal Menggunakan Model Warna l*a*b. ISSN:

1978-0087 - SCAN VOL. XIV NOMOR 2.

Asih NM, Sanjaya N, Badriah S, Rozikin C. 2020. Optimalisasi Metode Grabcut pada Sure dan Probable Background pada Citra Daun Melon. jurnal informatika vol 09, no 1.

Andika TH, Anisa NS. 2019. Sistem Identifikasi Citra Daun Berbasis Segmentasi dengan Menggunakan Metode K-Means Clustering. Aisyah Journal of Informatics and Electrical Engineering. Volume 2 Issue 1.

Andika TH, Hafis A. 2018. Analisis Perbandingan Segmentasi Citra Menggunakan Metode K-Means Dan Fuzzy C-Means. Seminar Nasional Teknologi dan Bisnis.

Anandita. 2007. Face Expression Recognition InTwo Dimensional Image by Using Neural Network Algorithm Backpropagation. Fakultas Ilmu Komputer, Universitas Gunadarma.

Bezdek JC.1981. Pattern Recognition with Fuzzy Objective Function Algorithm.

Plenum Press: New York. Utah State University. ISBN 978-1-4757-0450-1.

David, Lauro MD, Herwindiati DE. 2020. Sistem Prediksi Customer Loyalty dengan Metode Rfm dan Fuzzy C-Means. Journal of Computer Science and Information Systems. Volume 4, no 1.

Dunn JC. 1973). A Fuzzy Relative of the ISODATA Process and Its Use in Detecting Compact Well-Separated Clusters. Journal of Cybernetics, 3, 32- 57.

Estes JE, Simonett DS. 1975. Fundamnetals of Image Interpretation, in Manual of Remoet sensing. Falls Chruch, Virginia: The American Society of Photogrametri.

Farida. 2014. Pengklasifikasian Gender Dengan Menentukan Titik-Titik Penting Pada Sistem Pengenalan Wajah Menggunakan Matlab 6.5.

Han J, Kamber M, Pei J. 2012. Data Mining Concept and Techniques, 3rd ed.

Morgan Kaufmann-Elsevier, Amsterdam.

Hruschka ER, Ebecken NFF. 2003. A Genetic Algorithm for Cluster Analysis.

Intelligent Data Analysis 7 (2003) 15–25.

[IPB] IPB University. 2019. IPB Inaugurates Smart Urban Farming Laboratory.

[internet] tersedia : https://ipb.ac.id/news/index/2019/06/ipb-inaugurates- smart-urban-farming-laboratory/ 21465b1a2c18b484632aa177eb02dbff.

Jansen SMH. 2007. Customer Segmentation and Customer Profiling for a Mobile Telecommunications Company Based on Usage Behavior: A Vodafone Case Study. University of Maastricht: Maastricht.