• Tidak ada hasil yang ditemukan

IMPLEMENTASI DATA MINING DALAM PENGELOMPOKAN PEMAIN SEPAKBOLA MENGGUNAKAN ALGORITMA AGGLOMERATIVE HIERARCHICAL CLUSTERING SKRIPSI.

N/A
N/A
Protected

Academic year: 2022

Membagikan "IMPLEMENTASI DATA MINING DALAM PENGELOMPOKAN PEMAIN SEPAKBOLA MENGGUNAKAN ALGORITMA AGGLOMERATIVE HIERARCHICAL CLUSTERING SKRIPSI."

Copied!
86
0
0

Teks penuh

(1)

I IMPLEMENTASI DATA MINING DALAM PENGELOMPOKAN

PEMAIN SEPAKBOLA MENGGUNAKAN ALGORITMA AGGLOMERATIVE HIERARCHICAL CLUSTERING

SKRIPSI

Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer Program Studi Informatika

Oleh:

IKHSANUDIN NUGRAHA 175314026

Program Studi Informatika Fakultas Sains dan Teknologi

Universitas Sanata Dharma Yogyakarta

2022

(2)

IMPLEMENTATION OF DATA MINING IN GROUPING FOOTBALL PLAYERS USING THE AGGLOMERATIVE HIERARCHICAL

CLUSTERING ALGORITHM

THESIS

Presented as Partial Fulfillment of Requirements For the Degree of Sarjana Komputer

in Informatics Study Program

By:

IKHSANUDIN NUGRAHA 175314026

INFORMATICS STUDY PROGRAM FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY YOGYAKARTA

2022

(3)
(4)
(5)
(6)
(7)

V Abstrak

Sepak Bola adalah cabang olahraga yang umumnya dimainkan oleh dua tim yang masing-masing beranggotakan 11 (sebelas) orang pemain inti dan beberapa pemain cadangan. Sepak bola bertujuan untuk mencetak gol sebanyak-banyaknya dengan memasukan bola ke gawang lawan. Dalam berjalanya sebuah pertandingan terdapat aturan aturan yang diterapkan dan diadili oleh seorang wasit. Peraturan pertandingan secara umum diperbarui setiap tahunnya oleh induk organisasi sepak bola internasional (FIFA). FIFA merupakan induk organisasi sepak bola internasional yang membawahi seluruh federasi – federasi di setiap negara di dunia, contohnya adalah PSSI ( Persatuan Sepak Bola Seluruh Indonesia ). Selain itu FIFA juga menyelenggarakan Piala Dunia setiap empat tahun sekali.

Penelitian ini akan menggunakan 3 pendekatan Agglomerative Hierarchical Clustering dengan tujuan mengetahui tingkat keakuratan hasil evaluasi dari metode ini. Data set skill dan kemampuan pemain dari game Pro Evolution Soccer 2020 akan dieksekusi menggunakan Silhouette Index. Penggunaan metode Agglomerative Hierarchical Clustering menggunakan 15.035 data menghasilkan akurasi terbaik sebesar 0,956.

Kata Kunci : Pengelompokan, metode Agglomerative Hierarchical Clustering

(8)

VI Abstract

Football is a sport that is generally played by two teams, each consisting of 11 (eleven) core players and several reserve players. Football aims to score as many goals as possible by entering the ball into the opponent's goal. In the course of a match there are rules that are applied and judged by a referee. The general rules of the game are updated annually by the parent organization of international football (FIFA). FIFA is the parent organization of international football that oversees all federations in every country in the world, for example, PSSI (Indonesian Football Association). In addition, FIFA also organizes the World Cup every four years.

This study will use 3 Agglomerative Hierarchical Clustering approaches with the aim of knowing the level of accuracy of the evaluation results of this method. The data set of player skills and abilities from the Pro Evolution Soccer 2020 game will be executed using the Silhouette Index. The use of the Agglomerative Hierarchical Clustering method using 15,035 data produces the best accuracy of 0.956.

Keywords: Grouping, Agglomerative Hierarchical Clustering method

(9)

VII

KATA PENGANTAR

Puji syukur kehadirat Allah SWT karena dengan berkat rahmatnya penulis diberikan berkat, kekuatan, kasih dan rahmatNYA, sehingga penulis dapat menyelesaikan penelitian dan penyusunan skripsi yang berjudul

“IMPLEMENTASI DATA MINING DALAM PENGELOMPOKAN PEMAIN

SEPAKBOLA MENGGUNAKAN ALGORITMA AGGLOMERATIVE

HIERARCHICAL CLUSTERING”, untuk memenuhi sebagian persyaratan untuk mendapatkan gelar Sarjana komputer pada jurusan Informatika Fakultas Sains dan Teknologi Universitas Sanata Dharma. Selesainya skripsi ini, tidak terlepas dari dukungan, bimbingan, dan bantuan dari berbagai pihak. Oleh karena itu pada kesempatan ini penulis dengan segala kerendahan hati dan penuh rasa hormat mengucapkan terimakasih kepada semua pihak yang telah memberikan dukungan, bimbingan, serta bantuan baik secara langsung maupun tidak langsung kepada penulis dalam penyusunan skripsi ini, yaitu kepada:

1. Tuhan Yang Maha Esa, yang selalu memberikan penguatan, ketabahan, ketekunan serta kelancaran dalam menyelesaikan tugas akhir ini

2. Ibu Dr. Anastasia Rita Widiarti, selaku dosen pembimbing yang telah memberikan kritikan, saran, bimbingan serta arahan dan motivasi yang sangat berguna dalam penyusunan skripsi ini.

3. Segenap dosen dan karyawan di lingkungan Fakultas Sains dan Teknologi Universitas Sanata Dharma, khususnya program studi informatika yang telah membantu saya sebagai mahasiswa untuk dapat melaksanakan studi.

4. Teristimewah kepada orangtua penulis Bapak Mujiyana dan ibu Tri Haryanti,

adik saya Hanifah Fathin Nugraheni dan keluarga tercinta yang selalu memberikan dukungan dan doa, serta masukan untuk menyelesaikan skripsi ini.

5. Rekan-rekan mahasiswa angkatan 2017 program studi Informatika atas kerjasama dan bantuannya.

(10)
(11)

IX

DAFTAR ISI

HALAMAN PERSETUJUAN……….I HALAMAN PENGESAHAN……….II LEMBAR PERNYATAAN KEASLIAN KARYA………...III LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH..IV ABSTRAK………..V ABSTACT……….VI KATA PENGANTAR ... .VII DAFTAR ISI ... ..IX DAFTAR TABEL……….………XI DAFTAR GAMBAR………...XII

BAB I PENDAHULUAN ... ….1

1.1 Latar Belakang ... 1

1.2 Rumusan Masalah ... 3

1.3 Tujuan ... 3

1.4 Batasan Masalah ... 3

1.5 Manfaat Penelitian ... 4

1.6 Metodologi Penelitian ... 4

1.7 Sistematika Penulisan ... 5

BAB II LANDASAN TEORI ... ….6

2.1 Posisi Pemain Sepak Bola ... 6

2.2 Data Mining ... 7

2.3 Clustering ... 9

2.4 Agglomerative Hierarchical Clustering(AHC) ... 10

2.5 Preprocessing Data ... 12

2.5.1 Data Selection………... 12

2.5.2 Normalisasi Min-Max………12

2.5.3 Metode Z-Score……….13

2.6Silhouette Index ... 13

BAB III METODE PENELITIAN ... ...16

3.1.Data... 16

(12)

X

3.2.Design Pembuatan Alat Uji ... 20

3.3.Preprocessing ... 21

3.3.1 Data Selection………...21

3.3.2 Normalisasi data……… 22

3.4.Agglomerative Hierarchical Clustering ... 23

3.5.Uji Validasi Cluster ... 27

3.6. Perancangan Antar Muka Sistem ... 32

3.7. Spesifikasi Alat ... ….34

3.8.Skenario Pengujian ... 33

BAB IV IMPLEMENTASI DAN ANALISIS ... ...35

4.1.Input Data ... 35

4.2.Preprocessing data ... 37

4.3.Memilih Jumlah Atribut ... 40

4.4.Modeling Perhitungan jarak menggunakan Euclidean Distance dan Manhattan Distance... 40

4.5.Agglomerative Hierarchical Clustering ... 41

4.6.Uji Validasi Cluster ... 45

BAB V PENUTUP ... ...68

5.1.Kesimpulan ... 68

5.2.Saran ... 69

5.3.Spesifikasi Alat ... 33

Daftar Pustaka ... ...70

(13)

XI

DAFTAR TABEL

Tabel 3.1 Data atribut ... 17

Tabel 3.2 Selection Attribute ... 22

Tabel 3.3 Hasil normalisasi Min-Max ... 23

Tabel 3.4 Hasil normalisasi Z-score ... 24

Tabel 3.5 Hasil SI untuk cluster 1 ... 31

Tabel 3.6 Hasil SI untuk cluster 2 ... 32

Tabel 3.7 Hasil Perhitungan Silhouette Index dari sebuah cluster ... 32

Tabel 4.1 Hasil 18 percobaan ... 65

(14)

XII

DAFTAR GAMBAR

Gambar 3.1 Gambaran Umum Sistem ... 21

Gambar 3.2 Selection Attribute ... 22

Gambar 3.3 Data ... 19

Gambar 3.4 Perhitungan jarak Euclidean Distance ... 20

Gambar 3.5 Perhitungan Single Linkage ... 25

Gambar 3.6 Hasil iterasi 6 ... 26

Gambar 3.7 Perhitungan Complete Linkage ... 26

Gambar 3.8 Hasil iterasi 6 ... 27

Gambar 3.9 Perhitungan Average Linkage. ... 27

Gambar 3.10 Hasil iterasi 6 ... 27

Gambar 3.11 Hasil Euclidean Distance untuk Cluster 1 ... 28

Gambar 3.12 Hasil Euclidean Distance untuk Cluster 2 ... 28

Gambar 3.13 Hasil 𝑎1 untuk cluster 1 ... 29

Gambar 3.14 Hasil 𝑎1 untuk cluster 2 ... 29

Gambar 3.15 Hasil hitung jarak dari cluster 1 ke cluster 2... 29

Gambar 3.16 Hasil hitung jarak dari cluster 2 ke cluster 1... 30

Gambar 3.17 Hasil 𝑏1 untuk cluster 1 ... 30

Gambar 3.18 Hasil 𝑏1 untuk cluster 2 ... 30

Gambar 3.19 Perancangan antar muka sistem ... 33

Gambar 4.1 Listing program Input Data ... 36

Gambar 4.2 Tampilan Data yang diuji ... 37

Gambar 4.3 Listing program min-max normalitation ... 38

Gambar 4.4 Tampilan Data Preprocessing min-max ... 39

Gambar 4.5 Tampilan Data Preprocessing Z-score ... 40

Gambar 4.6 Listing program pilih jumlah atribut... 41

Gambar 4.7 Listing program Euclidean Distance & Manhattan Distance ... 42

Gambar 4.8 Listing program Single Linkage ... 43

Gambar 4.9 Listing program lanjutan Single Linkage ... 43

(15)

XIII

Gambar 4.10 Listing program Complete Linkage ... 44

Gambar 4.11 Listing program lanjutan Complete Linkage ... 44

Gambar 4.11 Listing program Input Data ... 45

Gambar 4.12 Listing program Average Linkage ... 45

Gambar 4.13 Listing program Average Linkage ... 48

Gambar 4.14 Hasil data non normalisasi, 27 atribut,single linkage ... 46

Gambar 4.15 Hasil akurasi data non normalisasi, 27 atribut,single linkage ... 47

Gambar 4.16 Hasil akurasi data min-max normalisasi, 27 atribut,Euclidean distance, single linkage ... ….48

Gambar 4.17 Hasil akurasi data z-score normalisasi, 27 atribut,Euclidean distance, single linkage ... 49

Gambar 4.18 Hasil akurasi data non normalisasi, 27 atribut, Manhattan distance, single linkage……….50

Gambar 4.19 Hasil akurasi data min-max normalisasi, 27 atribut, Manhattan distance, single linkage………..51

Gambar 4.20 Hasil akurasi data z-score normalisasi, 27 atribut, Manhattan distance, single linkage. ... 52

Gambar 4.21 Hasil akurasi data non normalisasi, 27 atribut, euclidean distance, complete linkage……….53

Gambar 4.22 Hasil akurasi data min-max normalisasi, 27 atribut, euclidean distance, complete linkage………..54

Gambar 4.23 Hasil akurasi data z-score normalisasi, 27 atribut, euclidean distance, complete linkage. ... 55

Gambar 4.24 Hasil akurasi data non normalisasi, 27 atribut, manhattan distance, complete linkage. ... 56

Gambar 4.25 Hasil akurasi data min-max normalisasi, 27 atribut, manhattan distance, complete linkage ... 57

Gambar 4.26 Hasil akurasi data z-score normalisasi, 27 atribut, manhattan distance, complete linkage……….58

Gambar 4.27 Hasil akurasi data non normalisasi, 27 atribut, euclidean distance, average linkage………..59

(16)

XIV

Gambar 4.28 Hasil akurasi data min-max normalisasi, 27 atribut, euclidean

distance, average linkage... 60

Gambar 4.29 Hasil akurasi data z-score normalisasi, 27 atribut, euclidean distance, average linkage………...61

Gambar 4.30 Hasil akurasi data non normalisasi, 27 atribut, manhattan distance, average linkage………..62

Gambar 4.31 Hasil akurasi data min-max normalisasi, 27 atribut, manhattan distance, average linkage... 63

Gambar 4.32 Hasil akurasi data z-score normalisasi, 27 atribut, manhattan distance, average linkage ... 64

Gambar 4.33 Listing validasi cluster ... 66

Gambar 4.34 Listing lanjutan validasi cluster ... 66

Gambar 4.35 Listing lanjutan validasi cluster ... 67

(17)

1 BAB I PENDAHULUAN

PENDAHULUAN

1.1 Latar Belakang

Sepak Bola adalah cabang olahraga yang umumnya dimainkan oleh dua tim yang masing-masing beranggotakan 11 (sebelas) orang pemain inti dan beberapa pemain cadangan. Sepak bola bertujuan untuk mencetak gol sebanyak-banyaknya dengan memasukkan bola ke gawang lawan. Dalam berjalannya sebuah pertandingan terdapat aturan aturan yang diterapkan dan diadili oleh seorang wasit.Peraturan pertandingan secara umum diperbarui setiap tahunnya oleh induk organisasi sepak bola internasional (FIFA).

FIFA merupakan induk organisasi sepak bola internasional yang membawahi seluruh federasi – federasi di setiap negara di dunia, contohnya adalah PSSI ( Persatuan Sepak Bola Seluruh Indonesia ). Selain itu FIFA juga menyelenggarakan Piala Dunia setiap empat tahun sekali.

Tim sepak bola akan berkompetisi dalam sebuah liga guna mendapatkan gelar juara, gelar juara didapatkan dengan mengumpulkan poin dalam tiap pertandingan dan akan dikalkulasikan ke dalam klasemen.

Banyak faktor yang menentukan keberhasilan sebuah tim untuk meraih kemenangan, mulai dari potensi pemain, strategi pelatih, dan faktor kesehatan. Pelatih memegang peranan yang sangat penting. Pada faktanya banyak pelatih yang menjalankan tugas dengan ego sendiri tanpa mempertimbangkan data skill dan kemampuan pemain. Kasus tersebut yang membuat sebuah tim mengalami kekalahan seiring berjalanya kompetisi , karena penempatan pemain tidak cocok dan tidak sesuai dengan data skill dan kemampuan pemainya. Dengan adanya kasus tersebut, penulis mencoba membuat sebuah sistem pengelompokan posisi pemain menggunakan data set skill dan kemampuan pemain dari game PES 2020

Dalam pengelompokan dan penentuan posisi pemain sepak bola ini, metode yang digunakan oleh penulis adalah Data mining. Data mining

(18)

2 adalah suatu proses pengerukan atau pengumpulan informasi penting dari suatu data yang besar. Teknik data mining terdiri dari: asosiasi, klasifikasi, dan clustering. Clustering menganalisis objek data dimana label kelas tidak diketahui. Clustering dapat digunakan untuk menentukan label kelas tidak diketahui dengan cara mengelompokkan data untuk membentuk kelas baru.

Metode Agglomerative Hierarchical Clustering (AHC) biasanya digunakan apabila belum ada informasi jumlah kelompok yang akan dipilih. Arah pengelompokan bisa bersifat divisive (top to down) artinya dari 1 cluster sampai menjadi k buah cluster atau bersifat agglomerative (bottom up) artinya dari n cluster (dari n-buah data yang ada) menjadi k buah cluster.

Teknik hirarkhis (hierarchical methods) adalah teknik clustering membentuk konstruksi hirarkhis atau berdasarkan tingkatan tertentu seperti struktur pohon. Dengan demikian proses pengelompokannya dilakukan secara bertingkat atau bertahap. Hierarchical Clusstering adalah salah satu algoritma clustering yang dapat digunakan untuk meng-cluster dokumen (document clustering). Dari teknik Hierarchical Clustering, dapat dihasilkan suatu kumpulan partisi yang berurutan (Herny & Dwi, 2017).

Penelitian dengan topik ini diambil karena dataset pemain sepak bola dari game Pro Evolution Soccer 2020 yang telah diolah. Dapat membantu pelatih pada dunia nyata untuk menentukan posisi pemain dengan proses clustering menggunakan metode Agglomerative Hierarchical Clustering (AHC). Maka dibuatlah sebuah sistem yang menjadi pertimbangan pelatih dalam menentukan posisi ideal dalam pertandingan nyata. Game Pro Evolution Soccer menjadi rekomendasi penulis untuk pengelompokan posisi pemain karena game Pro Evolution Soccer 2020 dan sejenisnya menggunakan data real dan bahkan memiliki lisensi asli dari club, liga, federasi dari seluruh team sepak bola di dunia.

(19)

3

1.2 Rumusan Masalah

Berdasarkan latar belakang yang ada dapat dirumuskan beberapa masalah antara lain :

1. Apakah metode Agglomerative Hierarchical Clustering dapat mengelompokan pemain sepakbola pada data game Pro Evolution Soccer 2020 dan mendapatkan hasil evaluasi yang baik?

2. Apakah dengan normalisasi non-normalisasi, min-max normalitation dan z-score normalitation dapat meningkatkan hasil evaluasi?

3. Berapakah nilai akurasi metode AHC (Agglomerative Hierarchical Clustering) untuk menentukan posisi pemain dalam olahraga sepakbola?

1.3 Tujuan

Adapun tujuan dari penelitian ini sebagai berikut :

1. Mengetahui hasil evaluasi pengelompokan pemain sepak bola menggunakan metode Agglomerative Hierarchical Clustering.

2. Mengetahui perbedaan hasil evaluasi normalisasi non normalisasi, min- max normalitation dan z-score normalitation.

3. Mengetahui nilai akurasi metode AHC (Agglomerative Hierarchical Clustering) dalam menentukan posisi pemain dalam olahraga sepakbola.

1.4 Batasan Masalah

Pada batasan masalah ini, penulis membatasu masalah yang perlu yaitu : 1. Data yang digunakan adalah data set Pro Evolution Soccer 2020.

2. Data yang digunakan memiliki Jumlah 122 atribut dan diseleksi menjadi 27 atribut dikarenakan tidak semua atribut dapat digunakan, data ini berasal dari game Pro Evolution Soccer 2020 (PES 2020).

(20)

4 3. Normalisasi yang akan diuji menggunakan rumus min-max dan rumus

z-score.

4. Perhitungan jarak akan menggunakan rumus Manhattan distance dengan rumus Euclidean distance.

5. Menghitung akurasi menggunakan Silhouette Index.

1.5 Manfaat Penelitian

Manfaat dari penelitian ini sebagai berikut :

1. Menambah pengalaman dan pengetahuan mengenai pengelompokan posisi pemain sepak bola dari data game Pro Evolution Soccer 2020 (PES 2020).

2. Penelitian ini diharapkan menjadi rujukan untuk penelitian yang berkaitan dengan metode clustering menggunakan Agglomerative Hierarchical Clustering

1.6 Metodologi Penelitian

1. Identifikasi masalah

Peneliti melakukan identifikasi masalah yang diambil untuk dijadikan topik penelitian.

2. Study literatur

Peneliti akan mempelajari clustering lebih dalam sesuai dengan metode yang digunakan yaitu pengelompokan menggunakan Agglomerative Hierarchical Clustering.

3. Pembuatan alat uji

Merancang design dan implementasi system yang digunakan untuk menguji metode pada penelitian ini.

(21)

5 4. Analisis Hasil

Pada tahap ini akan dilakukan analisis hasil di mana untuk mengetahui hasil keakuratan metode menggunakan confusion matrix.

1.7 Sistematika Penulisan

Dalam penulisan tugas akhir ini dibagi dalam beberapa bagian utama yang dirincikan sebagai berikut:

1. BAB I PENDAHULUAN

Bagian ini berisi tentang deskripsi umum tugas akhir yang meliputi latar belakang masalah, rumusan masalah, tujuan penelitian, batasan penelitian, serta sistematika penulisan.

2. BAB II TINJAUAN PUSTAKA

Pada bab ini diuraikan landasan teori dan masalah yang berhubungan dengan metode data mining terutama AHC (Agglomerative Hierarchical Clustering ) untuk mengclustering penempatan posisi pemain sepak bola.

3. BAB III METODOLOGI PENELITIAN

Bagian ini menjelaskan tentang metodologi penelitian, identifikasi masalah, teknik pengumpulan data, analisis algoritma dan alat bantu dalam penelitian.

4. BAB IV IMPLEMENTASI DAN ANALISIS SISTEM Bagian ini membahas analisis terhadap masalah penelitian dan preprocessing data, desain interface, pengujian dan pengukuran akurasi.

5. BAB V PENUTUP

Bab ini berisikan kesimpulan dan saran untuk pengembangan system lebih lanjut.

(22)

6 BAB II LANDASAN TEORI

LANDASAN TEORI

2.1 Posisi Pemain Sepak Bola

Posisi pemain sepak bola merupakan hal yang sangat penting bagi seorang pemain maupun tim. Kesalahan dan kurang optimalnya posisi pemain dapat menjadi faktor kekalahan dalam sebuah pertandingan. Oleh karena itu penentuan posisi pemain menjadi faktor yang sangat penting dalam permainan sepak bola ( Pratama, Santoso., dan Sari. (2018).

Penulis Menentukan posisi pemain sepak bola menjadi 4 cluster yang terdiri dari penyerang (striker), gelandang (midfielder), bertahan (defender), kiper (goalkeeper). Penyerang merupakan posisi pemain sepak bola yang berposisi di lini depan pertahanan lawan, penyerang bertugas untuk mencetak gol di gawang lawan. Gelandang merupakan posisi pemain yang berposisi di tengah lapangan, yang mempunyai tugas untuk menahan serangan striker lawan dan menyuplai bola untuk penyerang. Deffender adalah posisi pemain sepak bola yang berada di garis pertahanan, defender bertugas untuk menghalau serangan dari striker lawan. Kiper merupakan posisi pemain sepak bola yang berposisi menjaga gawang, kiper mempunyai tugas untuk menangkap segala tendangan dari striker lawan agar tidak terjadinya gol.

Posisi pemain sepak bola sangat penting dalam berjalanya pertandingan, karena penempatan posisi pemain menentukan berjalan baik tidaknya sebuah pertandingan. Dengan penempatan posisi pemain yang baik dan tepat akan mempermudah sebuah tim untuk meraih kemenangan.

(23)

7

2.2 Data Mining

Data mining adalah suatu istilah yang digunakan untuk menguraikan penemuan pengetahuan di dalam database. Data mining adalah proses yang menggunakan teknik statistic, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar (Turban, dkk. 2005).

Data mining mengacu pada mining knowledge dari data dalam jumlah besar (Han & Kamber, 2006). Secara umum data mining dikenal dengan proses Knowledge Discovery from Data (KDD). Proses KDD sebagai berikut:

1. Pembersihan data (Data Cleaning)

Proses pembersihan data atau data cleaning dilakukan untuk menghilangkan noise dan data yang tidak konsisten.

2. Integrasi data (Data Integration)

Proses data integrasi adalah proses menggabungkan data dari sumber data yang berbeda.

3. Seleksi data ( Data Selection)

Seleksi data atau data selection adalah proses memilih data atau atribut yang relevan untuk atribut ini. Pada tahap ini dilakukan analisis korelasi atribut data. Atribut – atribut data tersebut dicek apakah relevan untuk dilakukan penambangan data.

4. Transformasi data (Data Transformation)

Transformasi atau data transformation proses menggabungkan data ke dalam bank yang sesuai untuk ditambang.

5. Penambangan data (Data Mining)

Langkah ini adalah langkah paling penting yaitu melakukan pengaplikasian metode yang tepat untuk pola data.

(24)

8 6. Evaluasi pola (Pattern Evaluation)

Pada langkah ini dilakukan identifikasi pola dalam bentuk pengetahuan berdasarkan beberapa pengukuran yang penting.

7. Presentasi pengetahuan (Knowledge Presentation)

Pada langkah ini dilakukan proses penyajian pengetahuan dari hasil penambangan data. hasil klasifikasi data nasabah akan ditampilkan ke dalam bentuk yang mudah dipahami user/pengguna.

Menurut (Larose, 2005) data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan, yaitu:

a. Deskripsi

Terkadang peneliti dan analisis secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data.

b. Estimasi

Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi lebih ke arah numerik dari pada ke arah kategori.

c. Prediksi

Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa mendatang.

d. Klasifikasi

Dalam klasifikasi, terdapat target variabel kategori. Model data mining memeriksa serangkaian record yang besar, masing-masing record berisi informasi tentang target variabel serta rangkaian input atau prediktor variabel.

e. Pengklusteran

Clustering merupakan suatu metode untuk mencari dan mengelompokkan data yang memiliki kemiripan karakteristik (similarity) antara satu data dengan data yang lain. Clustering merupakan salah satu metode data mining yang bersifat tanpa arahan (unsupervised).

(25)

9 f. Asosiasi

Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam suatu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja.

2.3 Clustering

Clustering merupakan salah satu metoda dalam data mining yang dapat digunakan untuk memetakan data kedalam kelompok kelompok yang lebih kecil berdasarkan kesamaan karakteristik yang dimilikinya (Perim, Wandekokem, & Varejão, 2008).

Menurut Han dan Kamber, 2012, syarat sekaligus tantangan yang harus dipenuhi oleh suatu algoritma clustering adalah:

1. Skalabilitas

Suatu metode clustering harus mampu menangani data dalam jumlah yang besar. Saat ini data dalam jumlah besar sudah sangat umum digunakan dalam berbagai bidang misalnya saja suatu database.

Tidak hanya berisi ratusan objek, suatu database dengan ukuran besar bahkan berisi lebih dari jutaan objek.

2. Kemampuan analisa beragam bentuk data

Algoritma klasterisasi harus mampu diimplementasikan pada berbagai macam bentuk data seperti data nominal, ordinal maupun gabungannya.

3. Menemukan cluster dengan bentuk yang tidak terduga

Banyak algoritma clustering yang menggunakan metode Euclidean atau Manhattan yang hasilnya berbentuk bulat. Padahal hasil clustering dapat berbentuk aneh dan tidak sama antara satu dengan yang lain. Karenanya dibutuhkan kemampuan untuk menganalisa cluster dengan bentuk apapun pada suatu algoritma clustering.

(26)

10 4. Kemampuan untuk dapat menangani noise

Data tidak selalu dalam keadaan baik. Ada kalanya terdapat data yang rusak, tidak dimengerti atau hilang. Karena system inilah, suatu algortima clustering dituntut untuk mampu menangani data yang rusak.

5. Sensitivitas terhadap perubahan input

Perubahan atau penambahan data pada input dapat menyebabkan terjadi perubahan pada cluster yang telah ada bahkan bisa menyebabkan perubahan yang mencolok apabila menggunakan algoritma clustering yang memiliki tingkat sensitivitas rendah.

6. Mampu melakukan clustering untuk data dimensi tinggi

Suatu kelompok data dapat berisi banyak dimensi ataupun atribut.

Untuk itu diperlukan algoritma clustering yang mampu menangani data dengan dimensi yang jumlahnya tidak sedikit.

7. Interpretasi dan kegunaan

Hasil dari clustering harus dapat diinterpretasikan dan berguna.

2.4 Agglomerative Hierarchical Clustering(AHC)

Agglomerative Hierarchical Clustering(AHC) adalah Clustering dengan pendekatan hirarki akan mengelompokan data yang mirip dalam hirarki yang sama dan yang tidak mirip di hirarki yang agak jauh.

Terdapat dua metode yang sering digunakan yaitu agglomerative hierarchical clustering dan divisive hierarchical clustering. Agglomerative melakukan clustering dari N cluster menjadi satu kesatuan cluster, dimana N adalah jumlah data, sebaliknya divisive melakukan proses clustering dari satu cluster menjadi N cluster (Everitt dkk., 2011).

(27)

11 a) Single Linkage

Metode Single Linkage clustering (SL) juga disebut pencarian partner berdasarkan jarak terdekat (SL). Asumsikan G dan H adalah dua cluster yang akan digabungkan bersama. Kemudian hitung jarak dsl (G, H) dengan membandingkan pertidaksamaan jarak antara setiap anggota kelompok dan 𝐺𝑖 dan jarak antara setiap anggota kelompok dan 𝐻𝑖, kemudian dicari pasangan terdekat.

𝑑𝑠𝑙(𝐺, 𝐻) = min⁡(𝑑𝑖𝑖); I ∈ G ; I’ ∈ H (2.1) b) Complete Linkage

Metode complete link clustering (CL) juga disebut metode teknik furthest neighbor technique. Secara umum tahapan metode ini hampir sama dengan metode single link, namun pada pencarian berpasangan, metode full link menemukan pasangan yang terjauh dari pengamatan.

𝑑𝐶𝐿(𝐺, 𝐻) = max(𝑑𝑖𝑖) ; 𝑖 ∈ G; 𝑖⁡ ∈ 𝐻⁡ (2.2) c) Average Linkage

Metode Average Linkage sering juga disebut sebagai Group Average (GA). Metode ini dalam prosesnya yaitu mencari pasangan ditentukan dengan melihat rata-rata jarak setiap nilai observasinya.

𝑑𝐺𝐴(𝐺, 𝐻) = 1

𝑁𝐺𝑁𝐻+ ∑ 𝑖⁡ ∈ G⁡ ∑ 𝑖 ∈ 𝐻⁡ 𝑑𝑖𝑖′ (2.3)

Hierarchical clustering dapat digambarkan melalui dendogram dengan membuat matriks kesamaan yang berisi kesamaan antar data yang dikelompokkan. Berbagai cara seperti jarak dari Manhattan dapat digunakan untuk menghitung kemiripan. Jarak yang dihitung dari jarak Manhattan dan jarak Euclidean ditampilkan pada rumus (2.4) dan (2.5)

a. Manhattan Distance 𝐷𝑚𝑎𝑛(𝑥, 𝑦) = ∑ |𝑥𝑗−

𝑑 𝑗=1

𝑦𝑗| (2.4)

(28)

12 b. Euclidean Distance

𝐷(𝑋2,𝑥1)= √∑𝑑𝑗=1|𝑥2𝑗− ⁡ 𝑥1𝑗|2 (2.5) Dibawah ini merupakan contoh perhitungan data menggunakan metode Agglomerative Hierarchical Clustering dengan pendekatan Single-Linkage. Dengan perhitungan jarak Euclidean.

2.5 Preprocessing Data

2.5.1 Data Selection

Pada tahap ini penulis hanya menggunakan atribut yang penulis butuhkan. Jumlah atribut ada 122 atribut dan diseleksi menjadi 27 atribut dikarenakan tidak semua atribut dapat digunakan, karena data ini berasal dari game Pro Evolution Soccer 2020 (PES 2020). Pemilihan atribut ini berdasarkan rekomendasi rekomendasi Reza Furqoni, mantan pemain PSS Sleman 2015-2016 yang sekarang melatih di SSB CMB mengenai nilai yang menentukan posisi seorang pemain berada di posisi yang tepat.

2.5.2 Normalisasi Min-Max

Metode Min-Max merupakan metode normalisasi dengan rumus : 𝑋𝑛𝑜𝑟𝑚 = ⁡ 𝑋−⁡𝑀𝑖𝑛𝑥

𝑀𝑎𝑥𝑥−⁡𝑀𝑖𝑛𝑥(𝑀𝑎𝑥𝑛𝑒𝑤− 𝑀𝑖𝑛𝑛𝑒𝑤) + 𝑀𝑖𝑛𝑛𝑒𝑤 (2.6) Keterangan :

X = data awal

Xnorm = data hasil normalisasi Min_x = nilai minimum dari data Max_x = nilai maksimum dari data

Max_new = skala maksimum yang kita berikan Min_new = skala minimum yang kita berikan

(29)

13 Langkah awal normalisasi min-max yaitu menentukan nilai minimum(MIN) dan menentukan nilai maksimum(MAX) dari semua atribut data yang akan diolah. Hasil contoh data yang diolah menggunakan Min-Max sebagai berikut :

2.5.3 Metode Z-Score

merupakan metode normalisasi dengan rumus :

𝑥

=⁡𝑋−𝑚𝑒𝑎𝑛(𝑥)

𝑆𝐷(𝑋) (2.7)

Keterangan:

X* = data hasil proses normalisasi

X = data yang akan dilakukan proses normalisasi Mean(X) = nilai rata-rata data yang akan dilakukan proses normalisasi

SD(X) = nilai standar deviasi dari data yang akan dilakukan proses normalisasi

2.6 Silhouette Index

a. Silhouette index

Penulis menggunakan Silhouette index untuk menghitung keakuratan suatu data pada cluster-nya. Data yang ditampilkan berupa angka, ketika hasil data mendekati satu maka semakin baik akurasi pada clusternya. Di dalam silhouette index (koefisien siluet) yaitu metode pengukuran yang mengkombinasikan kohesi dan separasi. Penghitungan koefisien siluet untuk suatu titik tunggal melalui proses tiga tahap

1. Pada objek ke i, dihitung jarak rata - rata terhadap semua objek yang lain dalam klaster

𝑎1 = 1

𝑚𝑗−1𝑚𝑗𝑟=1𝑑

𝑟=1

(𝑥𝑖𝑗, 𝑥𝑟𝑗) (2.8)

(30)

14 Keterangan : j = cluster

i =index data

𝑚𝑗 =jumlah data dalam cluster j 𝑑(𝑥𝑖𝑗, 𝑥𝑟𝑖) =jarak data ke-I dengan ke-r 𝑥𝑖𝑗 =rata rata jarak data-

Iterhadap semua data lainya dalam satu cluster

2. Pada objek ke i, dihitung jarak rata - rata terhadap semua objek lain di klaster lain, yang kemudian disebut dengan

𝑏1 = 𝑚𝑖𝑛{ 1

𝑚𝑛𝑚𝑗𝑟=1𝑑

𝑟=1

(𝑥𝑖𝑗, 𝑥𝑟𝑗)} (2.9)

Keterangan : j = cluster i = index data n = cluster lain

𝑚𝑛 = jumlah data dalam cluster j 𝑑(𝑥𝑖𝑗, 𝑥𝑟𝑖) = jarak data ke-I dengan ke-r 𝑏1 = nilai terkecil dari rata rata ke-i

3. Menghitung nilai Silhouette Index data ke-I.

𝑆𝐼𝑖𝑗 = 𝑏𝑖

𝑗−𝑎𝑖𝑗

max⁡{𝑏𝑖𝑗,𝑎𝑖𝑗} (2.10)

Keterangan : 𝑆𝐼𝑖𝑗 = Silhouette Index dari data ke-i 𝑏𝑖𝑗 = nilai terkecil dari rata rata jarak ke-i ⁡𝑎𝑖𝑗 = rata rata jarak data ke-i

(31)

15 4. Menghitung Si sebuah cluster

𝑆𝐼𝐽 = 1

𝑚𝐽𝑚𝑖=1𝑗 𝑆𝐼𝑚𝑗 (2.11)

Keterangan : 𝑆𝐼𝑖 = rata rata nilaiSilhouette Index cluster j 𝑏𝑖𝑗 = jumlah data dalam cluster ke-j

⁡𝑎𝑖𝑗 = Silhourtte Index dari data ke-i

5. Menghitung SI global 𝑆𝐼 = 1

𝑚𝐽𝑘𝑗=1𝑆𝐼𝑗 (2.12)

Keterangan : 𝑆𝐼𝑖𝑗 = rata rata Silhouette Index dari data set tersebut

𝑆𝐼𝐽 = rata rata Silhouette Index cluster j ⁡𝐾 = jumlah cluster

6. Menghitung Silhouette Coefficient

SC=𝑀𝑎𝑥𝑘SI(k) (2.13)

Keterangan : SC = Silhouette Coefficient SI = Silhouette index K = Jumlah cluster

Koefisien siluet untuk suatu titik didapatkan dengan : s = 1 -a/b jika a < b

s= b/a –1 jika a ≥ b

Nilai koefisien siluet bervariasi antara - 1 dan 1. Nilai negatif tidak diinginkan sebab nilai ai adalah rata-rata jarak dari titik ke klaster. Nilai koefisien rata- rata setiap titik yang paling baik adalah yang semakin mendekati angka 1. (Sumadyo. M, 2017).

(32)

16 BAB III METODE PENELITIAN METODE PENELITIAN

3.1. Data

Dalam penelitian ini, data yang digunakan adalah data game pro evolution soccer 2020 yang diperoleh dari www.konami.com. Data yang diperoleh sebanyak 15036 data. Pada tahap ini penulis hanya menggunakan atribut yang dibutuhkan. Jumlah atribut ada 122 atribut dan diseleksi menjadi 27 atribut dikarenakan tidak semua atribut dapat digunakan, data ini berasal dari game Pro Evolution Soccer 2020 (PES 2020). Pemilihan atribut ini berdasarkan rekomendasi ahli mengenai nilai yang menentukan posisi seorang pemain berada di posisi yang tepat. Berikut adalah penjelasan dari masing-masing atribut.

(33)

17 Tabel 3.1 Data atribut

No. Atribut Keterangan nilai

1 Offensive awareness

Menunjukkan seberapa cepat pemain bisa merespon bola saat menyerang. 88

2 Ball control

Menunjukkan seberapa mahir seorang pemain dalam mengontrol bola secara umum. Memengaruhi perangkap dan tipuan.

91

3 Dribbling

Menunjukkan seberapa mahir pemain dalam mempertahankan penguasaan bola sambil menggiring bola dengan cepat.

96

4 Tight

possession

Menunjukkan seberapa terampil seorang pemain dalam melakukan belokan sambil menggiring bola dengan kecepatan rendah.

92

5 Low pass

Menunjukkan seberapa akurat seorang pemain saat memainkan

operan rendah di sepanjang tanah. 86

6 Lofted pass

Menunjukkan keakuratan umpan

pemain yang di-loft. 84

7 Finishing

Menunjukkan akurasi tembakan

pemain. 86

(34)

18 8 Heading

Menunjukkan keakuratan header

pemain. 67

9 Place

kicking

Menunjukkan akurasi pemain dari bola mati termasuk tendangan bebas

dan penalti. 90

10 Curl

Menunjukkan seberapa banyak curl yang bisa dilakukan pemain pada

bola. 89

11 Speed

Mengidentifikasi seberapa cepat pemain berlari dan saat kehilangan

bola. 89

12 Acceleration

Menunjukkan seberapa cepat pemain dapat mencapai kecepatan lari

puncaknya. 93

13 Kicking power

Menunjukan seberapa kuat

tendanganya 80

14 Jump

Menunjukkan seberapa tinggi pemain

bisa melompat. 66

15 Physical contact

Semakin tinggi nilainya, semakin baik pemain tersebut dalam

memenangkan tantangan dan tidak kehilangan keseimbangan saat bersentuhan dengan pemain lain.

63

(35)

19 16 Balance

Semakin tinggi nilainya, semakin baik pemain tersebut menghindari tekel dan menjaga keseimbangannya saat bersentuhan dengan pemain lain.

91

17 Stamina

Menunjukkan tingkat kebugaran dan

daya tahan pemain. 82

18 Defensive awareness

Menunjukan seberapa cepat respon

pemain bertahan. 48

19 Ball win

Semakin tinggi nilainya, semakin baik pemain tersebut untuk mendapatkan bola dan mempertahankanya.

49

20 Aggression

Menunjukkan seberapa agresif pemain akan mencoba mencuri bola

selama tantangan. 58

21 Gk

awareness

Menunjukkan seberapa cepat pemain dapat merespon bola saat bermain di gawang.

40

22 Gk catching

Menunjukkan kemampuan penjaga gawang untuk menangkap bola. Nilai yang lebih tinggi berarti kiper dapat menangkap tembakan yang lebih kuat.

40

23 Gk clearing

Menunjukkan kemampuan penjaga gawang untuk menjatuhkan bola ke

area aman. 40

(36)

20 24 Gk reflexes

Menunjukkan kemampuan penjaga gawang untuk melakukan

penyelamatan dengan cepat. 40

25 Gk reach

Menunjukkan jangkauan kiper atas gawang dan ukuran area di mana dia

bisa melakukan penyelamatan 40

26 Height Menunjukan tinggi badan pemain. 175 27 Weight Menunjukan berat badan pemain. 68

3.2. Design Pembuatan Alat Uji

Pada penelitian ini dilakukan pengujian apakah metode Agglomerative Hierarchical Clustering akurat mendapatkan akurasi dengan alat uji yang disajikan dalam bentuk diagram blok.

Gambar 3.1 Gambaran Umum Sistem

Gambar 3.1 diatas menjelaskan Proses data dipanggil dan diolah pada tahap preprosessing. Tahap ini dimulai dari transformasi, normalisasi, dan data selection. Tahap selanjutnya yaitu perhitungan jarak menggunakan manhattan distance dan euclidean distance. Selanjutnya data akan masuk ke proses cluster dengan menggunakan metode agglomerative hierarchical clustering yang memiliki 3 metode yaitu single linkage, complete linkage, dan average linkage. Hasil dari metode tersebut akan menghasilkan output berupa dendogram dan akurasi.

(37)

21 3.3. Preprocessing

Tahap preprocessing dilakukan sesuai dengan aturan Knowledge Discovery in Database atau dikenal dengan istilah KDD. Pada proses ini aturan KDD yang dilakukan untuk data dalam penelitian ini adalah data selection. Berikut adalah proses aturan KDD yang dilakukan pada data:

3.3.1 Data Selection

Pada tahap ini penulis hanya menggunakan atribut yang penulis butuhkan. Jumlah atribut ada 122 atribut dan diseleksi menjadi 27 atribut dikarenakan tidak semua atribut dapat digunakan, karena data ini berasal dari game Pro Evolution Soccer 2020 (PES 2020). Pemilihan atribut ini berdasarkan rekomendasi Reza Furqoni, mantan pemain PSS Sleman 2015-2016 yang sekarang melatih di SSB Amtri, mengenai nilai-nilai yang menentukan posisi seorang pemain sepakbola berada di posisi yang tepat.

Hasil dari selection attribute disajikan dalam Tabel 3.2.

Tabel 3.2 Atribut yang digunakan dalam penelititan menurut rekomendasi ahli

1 height 2 weight

3 offensive_awareness 4 ball_control

5 dribbling

6 tight_possession 7 low_pass

8 lofted_pass 9 finishing 10 heading 11 place_kicking

(38)

22 12 curl

13 speed 14 acceleration 15 kicking_power 16 jump

17 physical_contact 18 balance

19 stamina

20 defensive_awareness 21 ball_winning

22 aggression 23 gk_awareness 24 gk_catching 25 gk_clearing 26 gk_reflexes 27 gk_reach

3.3.2 Normalisasi data

Pada tahap ini dilakukan proses normalisasi data, yaitu mengolah data mentah menjadi data baru guna melihat perbedaan hasil dan kualita cluster yang terbentuk pada jenis data. Pada tahap ini penulis menggunakan normalisasi Min-Max dan Z-score.

A. Normalisasi Min-Max

Langkah awal normalisasi min-max yaitu menentukan nilai minimum(MIN) dan menentukan nilai maksimum(MAX) dari semua atribut data yang akan diolah. Hasil contoh data yang diolah menggunakan Min-Max dengan menggunakan persamaan (2.6) sebagai berikut :

(39)

23 Tabel 3.3 Hasil normalisasi Min-Max

B. Normalisasi Z-Score

Hasil contoh data yang diolah menggunakan Z-Score dengan menggunakan persamaan (2.7) sebagai berikut :

Tabel 3.4 Hasil normalisasi Z-Score

3.4. Agglomerative Hierarchical Clustering

Setelah proses perhitungan jarak dilakukan, maka tahap selanjutnya melakukan pengolahan data dengan Agglomerative Hierarchical Clustering.

Pendekatan yang dilakukan menggunakan metode single linkage, complete linkage, Average linkage.

Adapun langkah pengerjaanya sebagai berikut:

1. Menghitung jarak antar data menggunakan pendekatan Euclidean distance menggunakan persamaan (2.5)

2. Menggabungkan 2 kelompok terdekat berdasarkan parameter kedekatan yang ditentukan.

3. Memperbaharui matrik jarak antar data untuk mempresentasikan kedekatan diantara kelompok baru dan kelompok masih tersisa.

1 2 3 4 5 6 7 8 9 10

1 0.317 1

0.266

7 1 0.979

6 1 1 0.977

3

0.907 0

0.978 7

0.447 4 2

0.756 1

0.800 0

0.062 5

0.510 2

0.303 6

0.200 0

0.522 7

0.697 7

0.021 3

0.526 3 3

0.390 2

0.466 7

0.458 3

0.571 4

0.410 7

0.380 0

0.613 6

0.488 4

0.255 3

0.526 3

1 2 3 4 5 6 7 8 9 10

1 - 1.001 7

- 1.103 3

2.218 7

2.650 2

2.998 6

2.773 4

2.436 9

2.372 8

2.407 7

- 0.165 5

2 1.751 1

2.490 5

- 2.030 1

- 0.134 0

- 1.115 6

- 1.482 0

- 0.403 0

1.039 5

- 2.055 0

0.258 3

3 - 0.542 9

0.244 3

- 0.236 2

0.229 2

- 0.482 6

- 0.524 6

0.165 0

- 0.293 7

- 0.964 1

0.258 3

(40)

24 4. Mengulangi langkah 2 dan 3 hingga hanya satu kelompok yang

tersisa.

Contoh Data ditampilkan pada Gambar 3.3 sebagai berikut:

Gambar 3.3 Data

menghitung jarak antar data sampel dengan persamaan eucludien distance (2.5) ditampikan pada Gambar 3.4 sebagai berikut :

Gambar 3.4 Perhitungan jarak Euclidean Distance

A. Menerapkan salah satu dari 3 metode pendekatan agglomerative hierarchical clustering , yaitu single linkage dengan persamaan (2.1). Setelah dihitung secara manual terdapat 6 iterasi. Pada iterasi ke 6 yang ditunjukan pada Gambar 3.5 dibawah :

A B C D E F

1 175 68 88 91 96 92

2 193 92 43 68 57 52

3 178 77 62 71 63 61

4 184 73 51 62 60 58

5 183 74 62 65 67 61

6 183 77 58 68 62 66

7 186 85 40 64 57 46

8 190 83 55 65 58 58

DISTANCE MATRIX(EUCLIDEAN DISTANCE)

P1 P2 P3 P4 P5 P6 P7 P8

P1 0 70,81666 47,81213 60,38212 48,20788 52,49762 70,78135 60,77006 P2 70,81666 0 29,10326 23,34524 29,74895 23,68544 11,35782 15,42725 P3 47,81213 29,10326 0 16,30951 9,273618 6,78233 26,68333 17,11724 P4 60,38212 23,34524 16,30951 0 13,34166 9,899495 17,14643 12,84523 P5 48,20788 29,74895 9,273618 13,34166 0 7,348469 27,01851 16,21727 P6 52,49762 23,68544 6,78233 9,899495 7,348469 0 21,40093 11,26943 P7 70,78135 11,35782 26,68333 17,14643 27,01851 21,40093 0 15,32971 P8 60,77006 15,42725 17,11724 12,84523 16,21727 11,26943 15,32971 0

(41)

25 Gambar 3.5 Perhitungan Single Linkage

Dengan membandingkan mana nilai terkecil dari P2 dengan P7P8P4P5P3P6 maka menghasilkan cluster baru P2P7P8P4P5P3P6 sebagai berikut :

Gambar 3.6 Hasil iterasi 6

Iterasi berhenti ketika tidak ada nilai yang dapat dibandingkan lagi, seperti tabel diatas. Berdasarkan perhitungan diatas diperoleh 2 cluster dimana cluster pertama berisi P1 dan cluster kedua berisi P2P7P8P4P5P3P6.

B. Menerapkan salah dua dari 3 metode pendekatan agglomerative hierarchical clustering , yaitu complete linkage dengan persamaan (2.2). Setelah dihitung secara manual terdapat 6 iterasi. Pada iterasi ke 6 yang ditunjukan pada Gambar 3.7 dibawah :

Gambar 3.7 Perhitungan Complete Linkage ITERASI 6

P1 P2 P7P8P4P5P3P6 P2P7P8P4P5P3P6

P1 0 70,81666 47,81213235 47,81213235

P2 70,81666 0 11,35781669 0

P7P8P4P5P3P6 47,81213 11,35782 0 0

P2P7P8P4P5P3P6 47,81213 0 0 0

HASIL ITERASI 6

P1 P2P7P8P4P5P3P6

P1 0 47,81213235

P2P7P8P4P5P3P6 47,81213 0

ITERASI 6

P3 P5 P1P2P7P4P8P6 P1P2P7P4P8P6P5

P3 0 9,273618 47,81213235 47,81213235

0 0

P5 9,273618 0 48,20788317 48,20788317

P1P2P7P4P8P6 47,81213 48,20788 70,81666471 70,81666471 P1P2P7P4P8P6P5 47,81213 48,20788 70,81666471 70,81666471

(42)

26 Dengan membandingkan mana nilai maksimal dari P5 dengan P1P2P7P4P8P6 maka menghasilkan cluster baru P1P2P7P4P8P6P5.

Gambar 3.8 Hasil Iterasi 6

Iterasi berhenti ketika tidak ada nilai yang dapat dibandingkan lagi, seperti tabel diatas. Berdasarkan perhitungan diatas diperoleh 2 cluster dimana cluster pertama berisi P3 dan cluster kedua berisi P1P2P7P4P8P6P5.

C. Menerapkan perhitungan yang ke 3 yaitu metode pendekatan agglomerative hierarchical clustering average linkage dengan persamaan (2.3). Setelah dihitung secara manual terdapat 6 iterasi. Pada iterasi ke 6 yang ditunjukan pada Gambar 3.9 dibawah:

Gambar 3.9 Perhitungan Average Linkage.

Dengan membandingkan mana nilai rata-rata dari P2 dengan P3P6P5P4P8P7 maka menghasilkan cluster baru P3P6P5P4P8P7P2

ITERASI 6

P3 P1P2P7P4P8P6P5

P3 0 47,81213235

P1P2P7P4P8P6P5 47,81213235 70,81666471

ITERASI 6

P1 P2 P3P6P5P4P8P7 P3P6P5P4P8P7P2

P1 0 70,81666 64,27862834 67,54764652

P2 70,81666 0 15,9628312 7,9814156

P3P6P5P4P8P7 64,27863 15,96283 11,41157786 13,68720453 P3P6P5P4P8P7P2 67,54765 7,981416 13,68720453 10,83431007

(43)

27 Gambar 3.10 Hasil iterasi ke 6.

Iterasi berhenti ketika tidak ada nilai yang dapat dibandingkan lagi, seperti tabel diatas. Berdasarkan perhitungan diatas diperoleh 2 cluster dimana cluster pertama berisi P1 dan cluster kedua berisi P3P6P5P4P8P7P2.

3.5. Uji Validasi Cluster

Penulis menggunakan Silhouette index untuk menghitung keakuratan suatu data pada cluster-nya.

1. Langkah pertama

Menghitung terlebih dahulu jarak kedekatan tiap cluster menggunakan euclidean distance dengan persamaan (2.1).

Gambar 3.11, 3.12, memperlihatkan hasil perhitungan jarak menggunakan euclidean distance untuk cluster 1 dan 2.

Gambar 3.11 Hasil Euclidean Distance untuk Cluster 1

Gambar 3.12 Hasil Euclidean Distance untuk Cluster 2 ITERASI 6

P1 P3P6P5P4P8P7P2

P1 0 67,54764652

P3P6P5P4P8P7P2 67,54765 10,83431007

P2 P4 P5 P7 P8

P2 0 23,34524 29,74895 11,35782 15,42725 P4 23,34524 0 13,34166 17,14643 12,84523 P5 29,74895 13,34166 0 27,01851 16,21727 P7 11,35782 17,14643 27,01851 0 15,32971 P8 15,42725 12,84523 16,21727 15,32971 0

P1 P3 P6

P1 0 47,81213 52,49762

P3 47,81213 0 6,78233

P6 52,49762 6,78233 0

(44)

28 2. Langkah kedua

Menghitung nilai 𝑎1 untuk kedua cluster menggunakan persamaan (2.1)

Berikut contoh menghitung 𝑎1 pada cluster 1:

𝑎𝑝21 = 1

𝑚𝑗− 1(𝑑(𝑥𝑃21 , 𝑥𝑃41 ) + 𝑑(𝑥𝑃21 , 𝑥𝑃51 )+ 𝑑(𝑥𝑃21 , 𝑥𝑃71 )+ 𝑑(𝑥𝑃21 , 𝑥𝑃81 )) = 1

6−1∑(23,345 + 29,748 + 11,357 + 15,975) = 16,085 𝑎𝑝41 = 1

𝑚𝑗− 1(𝑑(𝑥𝑃41 , 𝑥𝑃21 ) + 𝑑(𝑥𝑃41 , 𝑥𝑃51 )+ 𝑑(𝑥𝑃41 , 𝑥𝑃71 )+ 𝑑(𝑥𝑃41 , 𝑥𝑃81 )) = 1

6−1∑(23,345 + 13,341 + 17,146 + 12,845) = 13,334 𝑎𝑝51 = 1

𝑚𝑗− 1(𝑑(𝑥𝑃51 , 𝑥𝑃21 ) + 𝑑(𝑥𝑃51 , 𝑥𝑃41 )+ 𝑑(𝑥𝑃51 , 𝑥𝑃71 )+ 𝑑(𝑥𝑃21 , 𝑥𝑃81 )) = 1

6−1∑(29,748 + 13,341 + 27,018 + 16,217) = 17,264 𝑎𝑝71 = 1

𝑚𝑗− 1(𝑑(𝑥𝑃71 , 𝑥𝑃21 ) + 𝑑(𝑥𝑃71 , 𝑥𝑃41 )+ 𝑑(𝑥𝑃71 , 𝑥𝑃51 )+ 𝑑(𝑥𝑃71 , 𝑥𝑃81 )) = 1

6−1∑(11,357 + 17,146 + 27,018 + 15,329) =14,170 𝑎𝑝81 = 1

𝑚𝑗− 1(𝑑(𝑥𝑃81 , 𝑥𝑃21 ) + 𝑑(𝑥𝑃81 , 𝑥𝑃41 )+ 𝑑(𝑥𝑃81 , 𝑥𝑃51 )+ 𝑑(𝑥𝑃81 , 𝑥𝑃71 )) = 1

6−1∑(15,427 + 12,845 + 16,217 + 15,329) = 11,963

Hasil 𝑎1 dari setiap cluster-nya dapat dilihat pada Gambar 3.13, 3.14 untuk cluster 1 dan 2.

16,085 13,334 17,264 14,170 11,963 Gambar 3.13 Hasil 𝑎1 untuk cluster 1

20,06 10,910 11,855

Gambar 3.14 Hasil 𝑎1 untuk cluster 2 3. Langkah ke 3

Menghitung jarak pada cluster yang berbeda dengan

menggunakan Euclidean Distance menggunakan persamaan (2.1)

dan menghitung rata-rata jarak. Contoh hitung jarak dari cluster 1 ke cluster 2 dapat dilihat pada Gambar 3.15.

(45)

29 Gambar 3.15 Hasil hitung jarak dari cluster 1 ke cluster 2

Hitung jarak dari cluster 2 ke cluster 1 dapat dilihat pada gambar 3.16.

Gambar 3.15 Hasil hitung jarak dari cluster 2 ke cluster 1

4. Langkah ke 4

Menghitung nilai 𝑏1 untuk kedua cluster menggunakan persamaan (2.2).

Contoh menghitung 𝑏1 untuk cluster 1 menggunakan rumus sebagai berikut:

𝑏𝑖𝑗= min⁡(𝑚𝑒𝑎𝑛⁡𝑐𝑙𝑢𝑠𝑡𝑒𝑟⁡2)

Hasil 𝑏1 di setiap cluster-nya dapat dilihat pada Gambar 3.16

Gambar 3.16 Hasil 𝑏1 untuk cluster 1

menghitung 𝑏1 untuk cluster 1 menggunakan rumus sebagai berikut:

𝑏𝑖𝑗= min⁡(𝑚𝑒𝑎𝑛⁡𝑐𝑙𝑢𝑠𝑡𝑒𝑟⁡1)

P2 P4 P5 P7 P8

P1 70,81666 60,38212 48,20788 70,78135 60,77006 P3 29,10326 16,30951 9,273618 26,68333 17,11724 P6 23,68544 9,899495 7,348469 21,40093 11,26943 mean 41,20179 28,86371 21,60999 39,62187 29,71891

P1 P3 P6

P2 70,81666 29,10326 23,68544 P4 60,38212 16,30951 9,899495 P5 48,20788 9,273618 7,348469 P7 70,78135 26,68333 21,40093 P8 60,77006 17,11724 11,26943 mean 62,19162 19,69739 14,72075

mean 41,20179 28,86371 21,60999 39,62187 29,71891

(46)

30 Hasil 𝑏1 di setiap cluster-nya dapat dilihat pada Gambar 3.17

Gambar 3.17 Hasil 𝑏1 untuk cluster 2

5. Langkah ke 5

Menghitung nilai Silhouutte Index data ke-I menggunakan persamaan (2.1)

𝑆𝐼𝑖𝑗= 𝑏𝑖𝑗− 𝑎𝑖𝑗 max⁡{𝑏𝑖𝑗, 𝑎𝑖𝑗}

Hitung nilai SI untuk cluster 1:

𝑆𝐼𝑃21 = 𝑏𝑃21 − 𝑎𝑃21

max⁡{𝑏𝑃21 , 𝑎𝑃21 }= 41,201 − 16,085

max⁡{41,201; 16,085}= 0,609 𝑆𝐼𝑃41 = 𝑏𝑃41 − 𝑎𝑃41

max⁡{𝑏𝑃41 , 𝑎𝑃41 }= 28,863 − 13,334

max⁡{28,863; 13,334}= 0,538 𝑆𝐼𝑃51 = 𝑏𝑃51 − 𝑎𝑃51

max⁡{𝑏𝑃51 , 𝑎𝑃51 }= 21,609 − 17,264

max⁡{21,609; 17,264}= 0,201 𝑆𝐼𝑃71 = 𝑏𝑃71 − 𝑎𝑃71

max⁡{𝑏𝑃71 , 𝑎𝑃71 }= 39,621 − 14,170

max⁡{39,621; 14,170}= 0,642 𝑆𝐼𝑃81 = 𝑏𝑃81 − 𝑎𝑃81

max⁡{𝑏𝑃81 , 𝑎𝑃81 }= 29,718 − 11,963

max⁡{29,718; 11,963}= 0,597 Hitung nilai SI untuk cluster 2:

𝑆𝐼𝑃11 = 𝑏𝑃11 − 𝑎𝑃11

max⁡{𝑏𝑃11 , 𝑎𝑃11 }= 62,191 − 20,006

max⁡{62,191; 20,006}= 0,678 𝑆𝐼𝑃31 = 𝑏𝑃31 − 𝑎𝑃31

max⁡{𝑏𝑃31 , 𝑎𝑃31 }= 19,697 − 10,910

max⁡{19,697; 10,910}= 0,446 𝑆𝐼𝑃61 = 𝑏𝑃61 − 𝑎𝑃61

max⁡{𝑏𝑃61 , 𝑎𝑃61 }= 14,720 − 11,855

max⁡{14,720; 11,855}= 0,194 mean 62,19162 19,69739 14,72075

Referensi

Dokumen terkait

Setelah ditemukan bahwa ada kata umpatan dalam Pilkada Sumut 2018 yang didominai oleh pengguna Twitter berjenis kelamin laki-laki, maka langkah analisis yang dilakukan lebih

Dengan berdoa, berarti menunjukan kualitas kerja dan kemampuan untuk mempersepsi diri sehingga mempunyai asumsi atas gambaran jiwa yang tidak lain adalah salah satu bagian

Berdasarkan hasil dari penelitian yang telah dilakukan, maka dapat diambil kesimpulan bahwa penerapan pembelajaran Peer Tutoring dilengkapi macromedia flash dan

Apakah data diperoleh dari sumber langsung (data primer) atau data diperoleh dari sumber tidak langsung (data sekunder). Pengumpulan data dapat dilakukan melalui beberapa

Penelitian bertujuan mendapatkan metode untuk mengatasi masalah oksidasi fenol (pencokelatan yang berlebih) pada eksplan dan metode pembentukan kalus embriogenik dan

Glukosa merupakan zat yang sangat dibutuhkan oleh tubuh. Hal ini dikarenakan gula memiliki begitu banyak fungsi. Salah satunya yaitu sebagai sumber energi utama bagi

Dalam hal ini, Pusat Aktiviti Warga Emas (PAWE) dilihat sebagai satu alternatif kepada warga emas sebagai tempat untuk mendapatkan perkhidmatan dan menjalankan aktiviti harian

The 2007 National Asthma Education and Prevention Program’s Expert Panel Report 3, dalam tatalaksana untuk diagnosis dan manajemen asma, mendefinisikan asma sebagai suatu