• Tidak ada hasil yang ditemukan

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

N/A
N/A
Protected

Academic year: 2022

Membagikan "BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI"

Copied!
14
0
0

Teks penuh

(1)

5 BAB II

TINJAUAN PUSTAKA DAN LANDASAN TEORI

2.1.Tinjauan Studi

Penelitian ini dilakukan tidak terlepas dari penelitian-penelitian yang telah dilakukan terdahulu dengan tujuan untuk bahan perbandingan dan kajian. Adapun penelitian yang dijadikan perbandingan tidak terlepas dari topik penelitian yaitu K-Means Clustering pasien diabetes berdasarkan usia, gender, dan insulin menggunakan metode penghitungan jarak Euclidean Distance, Manhattan Distance dan Canberra Distance.

Berdasarkan penelitian yang dilakukan oleh Perani Rosyani yang membahas mengenai pengoptimalan mereduksi dimensi menggunakan metode PCA menggunakan metode penghitungan jarak Canberra Distance untuk mengetahui tingkat kesamaan dalam proses pengenalan wajah. Hasil yang didapatkan pada penelitian tersebut setelah dilakukan proses reduksi dan ekstraksi menggunakan PCA adalah nilai rata-rata yang untuk Canberra Distance adalah 77,59 [8].

Berdasarkan penelitian yang dilakukan oleh M. Nishom yang membahas mengenai komparasi antara 3 metode penghitungan jarak Euclidean Distance, Manhattan Distance dan Minkowski Distance menggunakan algoritma K-Means Clustering berbasis Chi-Square. Penelitian ini bertujuan untuk mengetahui status disparitas kebutuhan guru di kota Tegal. Hasil yang didapatkan pada penelitian tersebut adalah dari ketiga metode penghitungan jarak Euclidean Distance memiliki tingkat akurasi yang paling tinggi yaitu 84,47%, sedangkan Manhattan Distance, dan Minkowski Distance memiliki tingakt akurasi yang sama yaitu 83,85% [9].

Berdasarkan penelitian yang dilakukan oleh Mario Anggara, dkk yang membahas mengenai perbandingan 3 metode penghitung jarak yaitu Manhattan Distance dan Euclidean Distance, dan Chebysev Distance menggunakan algoritma K-Means Clustering. Hasil yang didapatkan pada penelitian tersebut adalah Chebysev Distance

(2)

6 merupakan distance measure yang paling optimal dengan hasil 0,242821 selanjutnya Manhattan Distance dengan hasil 0,240016 dan Euclidean Distance dengan hasil 0,232149 [10].

Berdasarkan penelitian yang dilakukan oleh Esau Bakker yang membahas mengenai clustering data perpustakaan menggunakan algoritma K-Means untuk memudahkan proses analisis data peminjaman buku dan untuk membantu petugas perpustakaan dalam pengambilan keputusan penambahan koleksi buku perpustakaan agar kebutuhan peminjam terpenuhi. Dalam perancangan sistem tersebut dibuat berbasis website menggunakan Bahasa pemrograman PHP dan database MySql. Hasil pengujian aplikasi pada penelitian ini menunjukkan sistem dapat berjalan dengan baik. [11].

Berdasarkan penelitian yang dilakukan oleh Yusup Miftahuddin, dkk yang membahas mengenai perbandingan 3 metode berdasarkan tingkaat keakurasian dan waktu yaitu Manhattan Distance, Haversine Formula dan Euclidean Distance. Hasil yang didapatkan pada penelitian tersebut yaitu Manhattan memiliki rata-rata selisih jarak dengan perhitungan sebenarnya sebesar 6,67 meter, sedangkan Haversine dan Euclidean memiliki rata-rata selisih jarak dengan perhitungan sebenarnya yaitu 0,5 meter. Hal tersebut membuktikan bahwa metode perhitungan jarak yang paling optimal untuk diimplementasikan pada sistem identifikasi lokasi karyawan adalah Haversine dan Euclidean [12].

2.1.1. Review Tinjauan Studi

Berdasarkan penelitian terkait, dapat dirangkum pada tabel penelitian seperti berikut:

Tabel 2.1 Review Tinjauan Studi

No Nama Judul Metode Hasil

1. Perani Rosyani (2017)

Pengenalan Wajah

Principal Component

Hasil yang didapatkan pada penelitian tersebut

(3)

7

No Nama Judul Metode Hasil

Menggunakan Metode Principal Component Analysis (PCA) dan Canberra Distance

Analysis (PCA) dan Canberra Distance

setelah dilakukan proses reduksi dan ekstraksi menggunakan PCA mendapatkan nilai rata- rata untuk Canberra Distance adalah 77,59

2. M. Nishom (2019)

Perbandingan Akurasi Euclidean Distance, Minkowski Distance, dan Manhattan Distance pada Algoritma K- Means Clustering berbasis Chi- Square

Euclidean Distance, Manhattan Distance, dan Minkowski Distance menggunakan algoritma K- Means Clustering berbasis Chi- Square

Hasil yang didapatkan pada penelitian tersebut adalah dari ketiga metode penghitungan jarak yang digunakan, metode Euclidean Distance memiliki tingkat akurasi yang paling tinggi yaitu 84,47%, sedangkan Manhattan Distance, dan Minkowski Distance memiliki tingakt akurasi yang sama yaitu 83,85%.

3. Mario Anggara, dkk (2016)

Perbandingan Akurasi Euclidean Clustering menggunakan silhouette coefficient

Manhattan Distance, Euclidean Distance dan Chebysev Distance menggunakan

Hasil yang didapatkan pada penelitian tersebut adalah Chebysev Distance merupakan distance measure yang paling optimal dengan hasil silhouette coefficient

(4)

8

No Nama Judul Metode Hasil

sebagai metode pengujian

algoritma K- Means

Clustering serta silhouette coefficient sebagai metode pengujian

0,242821 selanjutnya Manhattan Distance dengan hasil0,240016 dan Euclidean Distance dengan hasil 0,232149

4. Esau Bakker (2020)

Implementasi Data Mining Clustering Data

Perpustakaan Menggunakan Algoritma K- Means untuk Menentukan Penambahan Koleksi Buku di

Perpustakaan UPY

Clustering Algoritma K- Means

Penelitian ini dilakukan menggunakan metode clustering pada data perpustakaan dengan algoritma K-Means untuk memudahkan proses analisis data, peminjaman buku dan juga untuk membantu petugas perpustakaan dalam pengambilan keputusan penambahan koleksi buku agar kebutuhan peminjam terpenuhi. Dalam

perancangan sistem tersebut dibuat berbasis website menggunakan Bahasa pemrograman PHP dan database MySql. Hasil pengujian aplikasi pada penelitian

(5)

9

No Nama Judul Metode Hasil

ini menunjukkan sistem dapat berjalan dengan baik.

5. Yusup Miftahuddin, dkk (2020)

Perbandingan Metode Perhitungan Jarak Euclidean, Haversine Formula, dan Manhattan Dalam Penentuan Posisi Keryawan (Studi Kasus:

Institut Teknologi Bandung)

Euclidean Distance, Haversine Formula, dan Manhattan Distance

Hasil yang didapatkan pada penelitian tersebut adalah dari ke tiga

metode perhitungan jarak yang digunakan, metode Haversine dan Euclidean merupakan metode perhitungan jarak yang paling optimal untuk diimplementasikan pada system identifikasi lokasi karyawan.

6. Shella Intia (2020)

Analisis Perbandingan Algoritma K- Means Clustering Menggunakan Rumus

Perbandingan Jarak

Euclidean Distance, Manhattan Distance, dan Canberra Distance

Hasil yang didapatkan pada penelitian tersebut adalah dari ke tiga

metode perhitungan jarak yang digunakan, metode Euclidean Distance merupakan metode perhitungan jarak yang paling optimal untuk

(6)

10

No Nama Judul Metode Hasil

Euclidean Distance, Manhattan Distance, dan Canberra Distance Pada Data Pasien Diabetes

diimplementasikan dalam algoritma K-Means Clustering pada data pasien diabetes.

Perbandingan penelitian ini dengan penelitian-penelitian yang telah dilakukan sebelumnya adalah dari penelitian yang telah dilakukan oleh Perani Rosyani didapatkan informasi mengenai rumus jarak Canberra Distance, dari penelitian yang telah dilakukan oleh M.Nishom dan Yusup Miftahuddin, dkk didapatkan informasi mengenai K-Means Clustering dapat dibandingkan dengan rumus jarak yang berbeda, dari penelitian yang telah dilakukan oleh Mario Anggara, dkk didapatkan informasi mengenai perbandingan K-Means Clustering dengan rumus jarak yang berbeda dapat dilakukan pengujian menggunakan silhouette coefficient sebagai tolak ukur kualitas cluster, dan dari penelitian yang telah dilakukan oleh Esau Bakker didapatkan informasi bahwa K-Means Clustering dapat diimplementasikan pada banyak kemungkinan studi kasus seperti penentuan penambahan koleksi buku di perpustakaan.

Penelitian ini didapatkan hasil yang sama dengan penelitian-penelitian sebelumnya yaitu dibandingkan metode Manhattan Distance, metode Euclidean Distance merupakan metode penghitung jarak yang memiliki tingkat akurasi lebih tinggi.

2.2.Landasan Teori 2.2.1. Data Mining

Data mining merupakan suatu proses mencari pola atau informasi menarik dari sekumpulan data yang sangat besar dengan menggunakan teknik atau metode tertentu.

Data mining juga sering disebut sebagai suatu rangkaian proses yang bertujuan untuk

(7)

11 mengeksplorasi dan menganalisis nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara manual pada suatu kumpulan data [13].

Dari pengertian diatas mengenai data mining, maka dapat ditarik kesimpulan mengenai data mining. Data mining merupakan suatu proses pencarian pola atau informasi dari keseluruhan data (database) yang tersembunyi, dengan menggunakan metode atau teknik tertentu dari suatu data yang mungkin selama ini tidak diketahui dan dianggap tidak penting untuk selanjutnya diimplementasikan dalam bentuk grafik, diagram serta jenis dan bentuk lainnya yang mempunyai inti berisikan pengetahuan dan informasi berguna bagi penggunanya.

2.2.2. Metode Clustering

Pada penelitian ini akan dilakukan perbandingan algoritma K-Means Clustering menggunakan rumus perhitungan jarak Euclidean Distance, Manhattan Distance, dan Canberra Distance. Metode Clustering itu sendiri adalah suatu metode pengelompokkan data. Menurut Ronald dalam bukunya menuliskan bahwa analisis cluster merupakan suatu Teknik lain yang dapat digunakan pada proses pengambilan keputusan [14]. Dari penjelasan diatas dapat disimpulkan bahwa clustering merupakan suatu proses yang memiliki tujuan untuk menempatkan sekumpulan objek-objek data yang memiliki kesamaan data yang semirip mungkin satu sama lain ditemoatkan kedalam satu cluster yang sama dan membuat jarak terhadap objek-objek yang berbeda cluster.

Kesamaan pada objek biasanya didapatkan dari nilai-nilai atribut terhadap dua buah objek. Nilai kesamaan tersebut akan semakin tinggi jika kedua objek yang dibandingkan memiliki kemiripan yang banyak, begitupun sebaliknya. Objek-objek pada data tersebut biasanya ditampilkan sebagai sebuah titik pada ruang multidimensi.

Metode clustering dapat mengklasifikasikan daerah yang padat, untuk menemukan pola tersembunyi pada data yang sedang diteliti. Secara garis besar terdapat berbagai metode yang dapat digunakan untuk mengklasifikasi data. Pemilihan metode tersebut bergantung pada tipe data dan tujuan dilakukannya clustering itu sendiri [3].

(8)

12 2.2.3. Algoritma K-Means

Dalam melakukan perbandingan akurasi perhitungan jarak, akan digunakan algoritma pengolahan data K-Means Clustering. K-Means itu sendiri merupakan salah satu metode clustering berbasis jarak yang membagi data kedalam satu atau lebih cluster atau kelompok, algoritma K-Means hanya dapat bekerja pada atribut numeric. Adapun Tujuan dari algoritma ini adalah untuk menemukan cluster dalam suatu data, dengan jumlah cluster yang diwakilkan oleh variable K, dimana variable K merupakan jumlah cluster yang diinginkan. Alasan penggunaan algoritma K-Means ialah karena algoritma ini memiliki ketelitian yang cukup tinggi terhadap ukuran objek, sehingga algoritma K-Means relative lebih terukur dan efisien untuk melakukan cluster data dalam jumlah besar dengan sangat cepat, selain itu kelebihan algoritma K-Means adalah tidak terpengaruh oleh urutan objek.

Algoritma K-Means merupakan salah satu metode clustering non-hirarki yang melakukan pengelompokkan data dalam bentuk satu atau lebih cluster. Pada awalnya untuk memproses data algoritma K-Means dimulai dari mengambil kelompok pertama centroid yang dipilih secara acak untuk dijadikan pusat cluster awal, kemudian K- Means menguji masing-masing komponen populasi data dan selanjutnya komponen tersebut ditandai pada salah satu pusat cluster yang telah diidefinisikan sebelumnya bergantung pada jarak minimum antar komponen pada tiap cluster. Posisi pusat cluster selanjutnya akan dihitung kembali hingga semua komponen data digolongkan dalam tiap pusat cluster, terakhir akan terbentuk posisi pusat cluster yang baru [16]. Langkah – langkah perhitungan K-Means tersebut dapat dilihat pada Gambar 2.1.

(9)

13 Gambar 2.1 Flowchart Analisis K-Means

Berikut merupakan langkah-langkah proses analisis clustering menggunakan algoritma K-Means:

(10)

14 1. Menentukan banyaknya cluster k yang akan digunakan.

2. Menentukan centroid awal yang akan digunakan sebagai acuan.

3. Hitung jarak dengan centroid menggunakan Euclidean Distance, Manhattan Distance dan Canberra Distance.

4. Mencari nilai pusat yang baru, yaitu dengan cara menghitung rata-rata dari data yang sudah didapatkan pada tahap 3.

- Untuk masuk cluster 1 dapat dilihat pada rumus 2.1

If (𝐷𝑖 ≤ 𝐷𝑦 𝐴𝑛𝑑 ≤ 𝐷𝑧) ... (2.1) Jika syarat di atas terpenuhi maka termasuk cluster 1.

- Untuk masuk cluster 2 dapat dilihat pada rumus 2.2

If (𝐷𝑦 ≤ 𝐷𝑖 𝐴𝑛𝑑 ≤ 𝐷𝑧) ... (2.2) Jika syarat di atas terpenuhi maka termasuk cluster 2.

- Untuk masuk cluster 3 dapat dilihat pada rumus 2.3

If (𝐷𝑧 ≤ 𝐷𝑦 𝐴𝑛𝑑 ≤ 𝐷𝑖) ... (2.3) Jika syarat di atas terpenuhi maka termasuk cluster 3.

Dengan:

Di = Jarak objek i dengan centroid cluster 1 Dy = Jarak objek y dengan centroid cluster 2 Dz = Jarak objek z dengan centroid cluster 3 i,y,z = Banyaknya objek data

5. Lakukan langkah 3 kembali menggunakan nilai pusat yang baru (sudah dihitung pada tahap 4). Lakukan tahap-tahap tersebut hingga nilai pusat yang baru dengan sebelumnya sama (tidak berubah) maka clustering bisa diberhentikan.

2.2.4. Metode Elbow

Metode elbow merupakan suatu metode yang digunakan untuk menentukan jumlah k cluster dengan cara melihat hasil perbandingan antara jumlah cluster yang akan

(11)

15 membentuk siku pada suatu titik. Dalam mendapatkan nilai perbandingan antar jumlah cluster adalah dengan cara menghitung SSE (Sum of Square Error) pada masing- masing cluster. Untuk menghitung SSE pada K-Means dapat dilihat pada rumus 2.4 [5].

𝑆𝑆𝐸 = ∑𝐾𝑘=1∑ ‖𝑥𝑥𝑖 𝑖− 𝑐𝑘2 ... (2.4) Dengan:

K = jumlah cluster Xi = Data ke-i

Ck = Centroid cluster

Berikut merupakan langkah-langkah proses metode elbow dalam menentukan jumlah k cluster:

1. Inisialisasi nilai k awal 2. Naikkan nilai k

3. Hitung hasil Sum of Square Error pada masing-masing nilai k

4. Analisis hasil Sum of Square Error yang mengalami penurunan drastis 5. Penentapan nilai k yang berbentuk siku

2.2.5. Euclidean Distance

Euclidean Distance merupakan salah satu metode pengukuran jarak yang digunakan antar data yang meliputi bidang Euclidean dua dimensi, tiga dimensi, atau lebih. Pada metode pengukuran jarak ini menggunakan konsep perhitungan Pythagoras. Rumus Euclidean Distance digunakan untuk mengukur tangkat kemiripan data yang dapat dilihat pada rumus 2.5 [7].

𝑑(𝑥, 𝑦) = ‖𝑥 − 𝑦‖ = √∑𝑛𝑖=1(𝑥𝑖− 𝑦𝑖)2 ; 𝑖 = 1,2,3 … 𝑛 ... (2.5) Dengan:

d = Jarak antara x dan y x = Data pusat cluster y = Data pada atribut

(12)

16 i = Setiap data

n = Banyaknya objek

𝑥𝑖 = Data pada pusat cluster ke i 𝑦𝑖 = Data pada setiap data ke i

2.2.6. Manhattan Distance

Selain Euclidean Distance pada penelitian ini menggunakan Manhattan Distance sibagai perbandingan. Manhattan Distance merupakan metode pengukuran jarak yang digunakan untuk menghitung perbedaan mutlak antara koordinat dua buah objek.

Rumus Manhattan Distance dapat dilihat pada rumus 2.6 [9].

𝑑(𝑥, 𝑦) = ∑𝑛𝑖=1|𝑥𝑖− 𝑦𝑖|... (2.6) Dengan:

d = Jarak antara x dan y x = Data pusat cluster y = Data pada atribut i = Setiap data n = Jumlah data,

𝑥𝑖 = Data pada pusat cluster ke i 𝑦𝑖 = Data pada setiap data ke i

2.2.7. Canberra Distance

Selain Euclidean Distance dan Manhattan Distence pada penelitian ini juga menggunakan Canberra Distance sebagai perbandingan. Canberra Distance merupakan metode pengukuran jarak yang digunakan untuk mendapatkan jarak dari dua buah titik dimana data yang digunakan merupakan data asli dan berada dalam ruang vector. Rumus Canberra Distance dapat dilihat pada rumus 2.7 [8].

𝑑(𝑥, 𝑦) = ∑ |𝑥𝑖−𝑦𝑖|

|𝑥𝑖|+|𝑦𝑖|

𝑛𝑖−1 ... (2.7)

Dengan:

d = Jarak antara x dan y

(13)

17 x = Data pusat cluster

y = Data pada atribut i = Setiap data n = Jumlah data,

𝑥𝑖 = Data pada pusat cluster ke i 𝑦𝑖 = Data pada setiap data ke i

2.2.8. Silhouette Coefficient

Metode evaluasi dalam penelitian ini menggunakan Silhouette Coefficient yang bertujuan untuk mendapatkan informasi mengenai seberapa dekat antara satu objek dengan objek lainnya yang terdapat pada satu cluster yang sama dan juga seberapa jauh antara satu cluster dengan cluster lainnya. Metode ini merupakan metode gabungan dari dua metode lainnya yaitu metode Cohesion yang digunakan untuk mengukur sedekat apa antara satu objek dengan objek lainnya dan metode Separation yang digunakan untuk menghitung seberapa jauh antara satu cluster dengan cluster lainnya.

Berikut merupakan tahapan perhitungan Silhouette Coeffisien [17]:

1. Hitung rata-rata jarak antara satu objek ke-i dengan objek lainnya dalam satu cluster yang sama dengan menggunakan persamaan 2.8.

𝑎(𝑖) = ∑ 𝐷(𝑖 ,𝑗)

|𝐴|−1 ... (2.8) Dengan:

a(i) = Rata-rata jarak objek ke-i dengan semua objek pada satu cluster yang sama A = Konstanta

2. Hitung rata-rata jarak suatu data ke-i dengan semua objek-objek pada cluster lain pada persamaan 2.9 yang disebut bi.

𝑏(𝑖) = 𝑚𝑖𝑛 (𝐷(𝐼, 𝐶)) ... (2.9) Dengan:

b(i) = Rata-rata jarak objek ke-i dengan semua objek pada cluster yang berbeda D = Jarak

C = Cluster

(14)

18 3. Menghitung nilai Silhouette coefficient untuk suatu titik pada persamaa 2.10.

𝑆𝑖= (𝑏𝑖−𝑎𝑖)

𝑚𝑎𝑥 (𝑎𝑖,𝑏𝑖) ... (2.10) Dimana:

Si = Nilai Silhouette coefficient pada data ke-i

a(i) = Rata-rata jarak objek ke-i dengan semua objek pada satu cluster yang sama b(i) = Rata-rata jarak objek ke-i dengan semua objek pada cluster yang berbeda

Nilai Silhoutte Coeffisien merupakan nilai rata-rata dari setiap data pada sebuah cluster.

Silhoutte Coeffisien merupakan suatu ukuran yang menunjukkan seberapa ketat objek- objek yang dimasukkan pada suatu cluster tertentu. Berikut adalah Silhoutte Coeffisien menurut Kaufman dan Rousseeuw (2005) [18].

0.7 < SC <= 1 merupakan cluster Strong stucture 0.5 < SC <= 0.7 merupakan cluster Medium structure 0.25 < SC <= 0.5 merupakan cluster Weak structure SC <= 0.25 merupakan cluster No structure

Gambar

Tabel 2.1 Review Tinjauan Studi

Referensi

Dokumen terkait

• Secara prinsip: tiap atom yang berbeda secara kimia di dalam molekul akan memiliki frekuensi absorpsi (resonansi) jika inti berada dalam momen magnet.. • Bidang analitik

Tujuan Penelitian ini adalah mengetahui tingkat keterlaksanaan Program Pendidikan Sistem Ganda (PSG) pada tahapan 1) masukan (antecedents), 2) proses (transactions), 3)

Akan tetapi jika ketahanan rotan tersebut dinilai berdasarkan persentase jumlah bubuk yang hidup (Lampiran 3), maka dari 16 jenis rotan yang diamati, sebanyak 4 jenis (25%),

Kadar gluten dalam tepung terigu dapat mencapai 80% dari jumlah protein yang ada pada tepung terigu.. Gluten dapat membuat adonan menjadi kenyal dan dapat mengembang karena

Kawasan Kota Lama Semarang merupakan objek wisata sejarah yang mempunyai peluang untuk dikembangkan potensi wisatanya karena memiliki nilai historis yang berkaitan

Harga Eceran Tertinggi Obat Generik Tahun 2012, selanjutnya disingkat HET adalah harga jual tertinggi obat generik di apotek, rumah sakit dan fasilitas pelayanan kesehatan lainnya

Pada Foto hasil Elektroforesis polyacrilamide terlihat bahwa jarak antara Band – Band DNA sangat dekat.Hal tersebut dapat disebabkan karena waktu yang digunakan untuk

Uji coba sistem KSA dilakukan di seluruh kecamatan di kabupaten Indramayu dan Kabupaten Garut, Provinsi Jawa Barat, dengan jumlah sampel masing-masing sebanyak