BAB III PERANCANGAN DAN IMPLEMENTASI SISTEM. 3.1.Diagram Alir Penelitian Penelitian ini memiliki alur kerja seperti pada gambar 3.1.

(1)

19 BAB III

PERANCANGAN DAN IMPLEMENTASI SISTEM

3.1.Diagram Alir Penelitian

Penelitian ini memiliki alur kerja seperti pada gambar 3.1.

Gambar 3.1 Diagram Alir Penelitian

(2)

20 Pada Gambar 3.1, alur penelitian yang merupakan tahap-tahap yang dilalui oleh peneliti mulai dari awal penelitian sampai selesainya penelitian, yang dibentuk menjadi sebuah alur yang sistematis. Diagram alir penelitian ini digunakan sebagai pedoman peneliti dalam melakukan pelaksanaan penelitian ini agar mendapatkan hasil yang tidak menyimpang dari tujuan awal yang telah ditentukan sebelumnya.

Berikut merupakan penjelasannya.

3.1.1. Menentukan Tujuan

Tahap penentuan tujuan merupakan penjelasan tentang sasaran dari penelitian ini seperti melakukan analisis perbandingan algoritma K-Means clustering menggunakan Euclidean Distance, Manhattan Distance dan Canberra Distance yang merupakan suatu penelitian yang dapat mendukung penarikan kesimpulan metode penghitungan jarak paling baik dalam melakukan pengolahan data pasien diabetes menggunakan algoritma K-Means Clustering dengan metode elbow untuk menentukan jumlah k cluster yang akan dibentuk dan Silhouette Coefficient sebagai metode pengujian..

3.1.2. Studi Literatur

Studi literatur dibuat dengan tujuan untuk mendapatkan dasar-dasar referensi yang kuat untuk mengetahui metode apa yang sebaiknya digunakan dalam menyelesaikan permasalahan yang akan diteliti. Dasar-dasar referensi tersebut diambil melalui buku, jurnal, penelitian sebelumnya, e-book, dan lain-lain.

3.1.3. Mengumpulkan Data

Setelah mempelajari bahan referensi yang diperlukan, selanjutnya adalah proses pengumpulan data. Pada tahap ini dilakukan pengambilan data pasien diabetes.

Data pasien diabetes tersebut nantinya akan diolah ke dalam sistem menggunakan algoritma K-Means Clustering menggunakan Euclidean Distance, Manhattan Distance dan Canberra Distance dan Silhouette Coefficient sebagai metode

(3)

21 pengujian sehingga dapat diperoleh penarikan kesimpulan metode penghitungan jarak terbaik dalam melakukan pengolahan data pasien diabetes.

Untuk contoh beberapa data yang digunakan dalam penelitian ini dapat dilihat pada Tabel 3.1.

Tabel 3.1 Contoh Data Penelitian

Encounter_id Patient_nbr Race Gender Age Insulin 2278392 8222157 Caucasian Female [0-10) No

149190 55629189 Caucasian Female [10-20) Up

64410 86047875 African

American Female [20-30) No 500364 82442376 Caucasian Male [30-40) Up

16680 42519267 Caucasian Male [40-50) Steady

Setelah data didapatkan selanjutnya akan dilakukan tahap pengolahan data untuk mempermudah dalam proses data mining. Tahapan pengolahan data tersebut adalah sebagai betikut:

1. Pemilihan Data

Pemilihan data dari dataset yang dimiliki untuk dijadikan atribut data pada proses data mining nantinya.

2. Preprocessing Data

Pada tahap preprocessing data pada penelitian ini, dilakukan pensortiran atau pemilihan data pasien diabetes yang telah diperoleh sebelumnya. Adapun tujuan dari proses ini adalah untuk memisahkan data pasien diabetes yang tidak dapat diproses untuk perhitungan.

3. Transformation Data

Mengelompokkan data-data tersebut menjadi satu tabel seperti pada tabel 3.2 berikut:

(4)

22 Tabel 3.2 Atribut Terpilih

Gender Age Insulin

Female [0-10) No

Female [10-20) Up

Female [20-30) No

Male [30-40) Up

Male [40-50) Steady

Data yang berjenis nominal seperti gender dan insulin harus dilakukan proses inisialisasi data terlebih dahulu dalam bentuk angka (numeric) [19], dan untuk atribut age akan dilakukan perhitungan nilai tengah pasien diabetes agar dapat dilakukan proses perhitungan K-Means Clustering. Inisialisasi tersebut dapat dilakukan sebagai berikut:

1. Pada atribut gender dilakukan perhitungan frekuensi pada data pasien diabetes berdasarkan jenis kelamin yang selanjutnya diurutkan dari data terbesar ke terkecil seperti pada tabel 3.3.

Tabel 3.3 Insialisasi Data Gender Gender Frekuensi Inisial

Female 26 1

Male 24 2

2. Pada atribut age dilakukan perhitungan nilai tengah usia pada data pasien diabetes seperti pada tabel 3.4.

Tabel 3.4 Perhitungan Nilai Tengah Usia

Age Nilai Tengah

[0-10) 5

[10-20) 15

[20-30) 25

(5)

23

Age Nilai Tengah

[30-40) 35

[40-50) 45

[50-60) 55

[60-70) 65

[70-80) 75

[80-90) 85

[90-100) 95

3. Untuk atribut insulin dilakukan perhitungan frekuensi pada data pasien diabetes berdasarkan tingkat insulin yang selanjutnya diurutkan dari data terbesar ke terkecil seperti pada tabel 3.5.

Tabel 3.5 Insialisasi Data Insulin Insulin Frekuensi Inisial

Steady 29 1

No 9 2

Down 8 3

Up 4 4

3.1.4. Analisis Metode 3.1.4.1.Analisis Clustering

Analisis cluster merupakan suatu analisis statistic perubah ganda (multivariant) yang memiliki tujuan utama untuk mengelompokkan objek-objek berdasarkan karakteristik yang dimilikinya [20]. Analisis cluster bertujuan untuk mengklasifikasi objek sehingga setiap objek yang memiliki sifat yang mirip (paling dekat kesamaannya) akan dikelompokkan menjadi satu cluster yang sama.

(6)

24 3.1.4.2.Analisis K-Means

Algoritma K-Means yaitu algoritma yang menggunakan centroid untuk membuat cluster, centroid juga digunakan untuk menghitung jarak objek data terhadap centroid. Suatu objek data akan masuk ke dalam suatu cluster apabila memiliki jarak terpendek terhadap centroid cluster tersebut. Langkah-langkah proses analisis clustering menggunakan algoritma K-Means yang dilakukan secara manual dengan diambil sampel data secara acak berjumlah 50 sampel data.

3.1.4.3.Analisis Metode Elbow

Metode elbow merupakan suatu metode yang digunakan untuk menentukan jumlah k cluster dengan cara melihat hasil perbandingan antara jumlah cluster yang akan membentuk siku pada suatu titik. Hasil perbandingan tersebut ditunjukkan dengan sebuah gambar grafik sebagai sumber informasi yang dapat memudahkan dalam mendapatkan nilai k. Grafik yang menunjukkan penurunan paling besar merupakan nilai k cluster terbaik [5].

3.1.4.4.Analisis Euclidean Distance

Euclidean Distance merupakan rumus pengukur jarak yang menggunakan konsep Pythagoras. Rumus Euclidean umumnya digunakan untuk mengukur tingkat kemiripan data [7]. Berikut merupakan tahapan-tahapan dalam melakukan penghitungan jarak Euclidean Distance dengan menggunakan metode pengujian silhouette coefficient:

1. Perihitungan jarak dengan centroid menggunakan Euclidean Distance dengan menggunakan persamaan 3.1.

𝑑(𝑥, 𝑦) = ‖𝑥 − 𝑦‖ = √∑^𝑛_𝑖=1(𝑥_𝑖− 𝑦_𝑖)² ; 𝑖 = 1,2,3 … 𝑛 ... (3.1) Dengan:

d = Jarak antara x dan y x = Data pusat cluster y = Data pada atribut

(7)

25 i = Setiap data

n = Banyaknya objek

𝑥_𝑖= Data pada pusat cluster ke i 𝑦_𝑖 = Data pada setiap data ke i

2. Tahap pengujian dilakukan dengan tujuan untuk mengukur nilai metode penghitung jarak yang paling optimal. Pengujian dilakukan menggunakan algoritma Silhouette Coeffisien pada masing-masing hasil jarak. Adapun langkah-langkah pengujian tersebut adalah sebagai berikut:

- Hitung rata-rata jarak terhadap semua dokumen yang berada dalam satu cluster, yang kemudian disebut dengan a(i). Rumus a(i) dapat dilihat pada persamaan 3.2.

𝑎(_𝑖) = ^{∑ 𝐷(𝑖,𝑗)}

|𝐴|−1 ... (3.2) Dengan:

a(i) = Rata-rata jarak objek ke-i dengan semua objek pada satu cluster yang sama

A = Konstanta

- Hitung rata-rata jarak suatu data ke-i dengan semua objek-objek pada cluster lain pada persamaan 3.3 yang disebut bi.

𝑏(_𝑖) = 𝑚𝑖𝑛 (𝐷(𝐼, 𝐶)) ... (3.3) Dengan:

b(i) = Rata-rata jarak objek ke-i dengan semua objek pada cluster yang berbeda

D = Jarak C = Cluster

- Menghitung nilai Silhouette Coeffisien untuk suatu titik pada persamaa 3.4.

𝑆_𝑖= _{𝑚𝑎𝑥 (𝑎}^(𝑏^𝑖^−𝑎^𝑖⁾

𝑖,𝑏_𝑖) ... (3.4) Dengan:

(8)

26 Si = Nilai Silhouette Coeffisien pada data ke-i

3.1.4.5.Analisis Manhattan Distance

Manhattan Distance merupakan metode pengukuran jarak yang digunakan untuk menghitung perbedaan mutlak antara koordinat dua buah objek [9]. Berikut merupakan tahapan-tahapan dalam melakukan penghitungan jarak Manhattan Distance dengan menggunakan metode pengujian silhouette coefficient:

1. Perihitungan jarak dengan centroid menggunakan Manhattan Distance dengan menggunakan persamaan 3.5.

𝑑(𝑥, 𝑦) = ∑^𝑛_𝑖=1|𝑥_𝑖− 𝑦_𝑖| ... (3.5) Dengan:

d = Jarak antara x dan y x = Data pusat cluster y = Data pada atribut i = Setiap data n = Jumlah data,

𝑥_𝑖= Data pada pusat cluster ke i 𝑦_𝑖 = Data pada setiap data ke i

2. Tahap pengujian ini dilakukan dengan tujuan untuk mengukur nilai metode penghitung jarak yang paling optimal. Pengujian dilakukan menggunakan algoritma Silhouette Coeffisien pada masing-masing hasil jarak. Adapun langkah-langkah pengujian tersebut adalah sebagai berikut:

(9)

27 𝑎(_𝑖) = ^{∑ 𝐷(}^𝑖^,^𝑗⁾

|𝐴|−1 ... (3.6) Dengan:

A = Konstanta

- Hitung rata-rata jarak suatu data ke-i dengan semua objek-objek pada cluster lain pada persamaan 3.7 yang disebut b(i).

𝑏(_𝑖) = 𝑚𝑖𝑛 (𝐷(𝐼, 𝐶)) ... (3.7) Dengan:

D = Jarak C = Cluster

𝑆_𝑖= ^(𝑏^𝑖^−𝑎^𝑖⁾

𝑚𝑎𝑥 (𝑎_𝑖,𝑏_𝑖) ... (3.8) Dengan:

Si = Nilai Silhouette Coeffisien pada data ke-i

3.1.4.6.Analisis Canberra Distance

Canberra Distance merupakan metode pengukuran jarak yang digunakan untuk mendapatkan jarak dari dua buah titik dimana data yang digunakan merupakan data asli dan berada dalam ruang vector [8]. Berikut merupakan tahapan-tahapan dalam melakukan penghitungan jarak Canberra Distance dengan menggunakan metode pengujian silhouette coefficient:

(10)

28 1. Perihitungan jarak dengan centroid menggunakan Canberra Distance dengan

menggunakan persamaan 3.9.

𝑑(𝑥, 𝑦) = ∑ _|𝑥^|𝑥^𝑖^−𝑦^𝑖^|

𝑖|+|𝑦_𝑖|

𝑛𝑖−1 ... (3.9)

Dengan:

d = Jarak antara x dan y x = Data pusat klaster y = Data pada atribut i = Setiap data n = Jumlah data,

𝑥_𝑖= Data pada pusat klaster ke i 𝑦_𝑖 = Data pada setiap data ke i

2. Tahap pengujian ini dilakukan dengan tujuan untuk mengukur nilai metode penghitung jarak yang paling optimal. Pengujian dilakukan menggunakan algoritma Silhouette Coeffisien pada masing-masing hasil jarak. Adapun langkah-langkah pengujian tersebut adalah sebagai berikut:

𝑎(_𝑖) = ^{∑ 𝐷(}^𝑖^,^𝑗⁾

|𝐴|−1 ... (3.10) Dengan:

A = Konstanta

- Hitung rata-rata jarak suatu data ke-i dengan semua objek-objek pada cluster lain pada persamaan 3.11 yang disebut b(i).

𝑏(_𝑖) = 𝑚𝑖𝑛 (𝐷(𝐼, 𝐶)) ... (3.11) Dengan:

(11)

29 D = Jarak

C = Cluster

𝑆_𝑖= ^(𝑏^𝑖^−𝑎^𝑖⁾

𝑚𝑎𝑥 (𝑎_𝑖,𝑏_𝑖) ... (3.12) Dengan:

Si = Nilai Silhouette Coeffisien pada data ke-i

3.1.5. Perancangan Program dan Implementasi

Pada tahap ini dilakukan perancangan program dan implementasi dari penelitian yang dilakukan. Dalam melakukan perhitungan secara manual dilakukan menggunakan excel dan dalam melakukan perhitungan lainnya menggunakan bahasa pemrograman python yang merupakan bahasa pemrograman untuk melakukan pengolahan data. Dengan menggunakan python dapat mempermudah melakukan perhitungan dengan data yang sangat banyak.

3.1.6. Pengujian

Tahapan kelima dalam metode penelitian ini adalah tahapan pengujian yang dilakukan terhadap keseluruhan perhitungan yang telah dilakukan menggunakan metode penghitung jarak Euclidean Distance, Manhattan Distance dan Canberra Distance. Untuk mengetahui perbandingan ketiga metode penghitung jarak tersebut dilakukan evaluasi menggunakan metode pengujian Silhouette Coeffisien.

Penggunaan metode pengujian Silhouette Coeffisien dengan tujuan untuk mengukur nilai metode penghitung jarak yang paling optimal.

(12)

30 3.1.7. Pembahasan

Pada tahap ini dilakukan pembahasan terhadap beberapa pengujian yang telah dilakukan sebelumnya. Tujuan dari tahapan ini adalah untuk mengetahui sejauh mana sistem yang telah dibuat mampu menyelesaikan permasalahan yang telah ditentukan sebelumnya. Pada tahap ini juga dapat digunakan sebagai tahapan untuk menghasilkan kesimpulan metode yang paling baik dalam melakukan pengolahan data pasien diabetes.

3.1.8. Penarikan Kesimpulan

Tahapan terakhir adalah pengambilan kesimpulan, tahapan kesimpulan digunakan untuk menyimpulkan suatu hasil yang didapatkan dari tahapan pembahasan.