I IMPLEMENTASI DATA MINING DALAM PENGELOMPOKAN
PEMAIN SEPAKBOLA MENGGUNAKAN ALGORITMA AGGLOMERATIVE HIERARCHICAL CLUSTERING
SKRIPSI
Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer Program Studi Informatika
Oleh:
IKHSANUDIN NUGRAHA 175314026
Program Studi Informatika Fakultas Sains dan Teknologi
Universitas Sanata Dharma Yogyakarta
2022
IMPLEMENTATION OF DATA MINING IN GROUPING FOOTBALL PLAYERS USING THE AGGLOMERATIVE HIERARCHICAL
CLUSTERING ALGORITHM
THESIS
Presented as Partial Fulfillment of Requirements For the Degree of Sarjana Komputer
in Informatics Study Program
By:
IKHSANUDIN NUGRAHA 175314026
INFORMATICS STUDY PROGRAM FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY YOGYAKARTA
2022
V Abstrak
Sepak Bola adalah cabang olahraga yang umumnya dimainkan oleh dua tim yang masing-masing beranggotakan 11 (sebelas) orang pemain inti dan beberapa pemain cadangan. Sepak bola bertujuan untuk mencetak gol sebanyak-banyaknya dengan memasukan bola ke gawang lawan. Dalam berjalanya sebuah pertandingan terdapat aturan aturan yang diterapkan dan diadili oleh seorang wasit. Peraturan pertandingan secara umum diperbarui setiap tahunnya oleh induk organisasi sepak bola internasional (FIFA). FIFA merupakan induk organisasi sepak bola internasional yang membawahi seluruh federasi – federasi di setiap negara di dunia, contohnya adalah PSSI ( Persatuan Sepak Bola Seluruh Indonesia ). Selain itu FIFA juga menyelenggarakan Piala Dunia setiap empat tahun sekali.
Penelitian ini akan menggunakan 3 pendekatan Agglomerative Hierarchical Clustering dengan tujuan mengetahui tingkat keakuratan hasil evaluasi dari metode ini. Data set skill dan kemampuan pemain dari game Pro Evolution Soccer 2020 akan dieksekusi menggunakan Silhouette Index. Penggunaan metode Agglomerative Hierarchical Clustering menggunakan 15.035 data menghasilkan akurasi terbaik sebesar 0,956.
Kata Kunci : Pengelompokan, metode Agglomerative Hierarchical Clustering
VI Abstract
Football is a sport that is generally played by two teams, each consisting of 11 (eleven) core players and several reserve players. Football aims to score as many goals as possible by entering the ball into the opponent's goal. In the course of a match there are rules that are applied and judged by a referee. The general rules of the game are updated annually by the parent organization of international football (FIFA). FIFA is the parent organization of international football that oversees all federations in every country in the world, for example, PSSI (Indonesian Football Association). In addition, FIFA also organizes the World Cup every four years.
This study will use 3 Agglomerative Hierarchical Clustering approaches with the aim of knowing the level of accuracy of the evaluation results of this method. The data set of player skills and abilities from the Pro Evolution Soccer 2020 game will be executed using the Silhouette Index. The use of the Agglomerative Hierarchical Clustering method using 15,035 data produces the best accuracy of 0.956.
Keywords: Grouping, Agglomerative Hierarchical Clustering method
VII
KATA PENGANTAR
Puji syukur kehadirat Allah SWT karena dengan berkat rahmatnya penulis diberikan berkat, kekuatan, kasih dan rahmatNYA, sehingga penulis dapat menyelesaikan penelitian dan penyusunan skripsi yang berjudul
“IMPLEMENTASI DATA MINING DALAM PENGELOMPOKAN PEMAIN
SEPAKBOLA MENGGUNAKAN ALGORITMA AGGLOMERATIVE
HIERARCHICAL CLUSTERING”, untuk memenuhi sebagian persyaratan untuk mendapatkan gelar Sarjana komputer pada jurusan Informatika Fakultas Sains dan Teknologi Universitas Sanata Dharma. Selesainya skripsi ini, tidak terlepas dari dukungan, bimbingan, dan bantuan dari berbagai pihak. Oleh karena itu pada kesempatan ini penulis dengan segala kerendahan hati dan penuh rasa hormat mengucapkan terimakasih kepada semua pihak yang telah memberikan dukungan, bimbingan, serta bantuan baik secara langsung maupun tidak langsung kepada penulis dalam penyusunan skripsi ini, yaitu kepada:
1. Tuhan Yang Maha Esa, yang selalu memberikan penguatan, ketabahan, ketekunan serta kelancaran dalam menyelesaikan tugas akhir ini
2. Ibu Dr. Anastasia Rita Widiarti, selaku dosen pembimbing yang telah memberikan kritikan, saran, bimbingan serta arahan dan motivasi yang sangat berguna dalam penyusunan skripsi ini.
3. Segenap dosen dan karyawan di lingkungan Fakultas Sains dan Teknologi Universitas Sanata Dharma, khususnya program studi informatika yang telah membantu saya sebagai mahasiswa untuk dapat melaksanakan studi.
4. Teristimewah kepada orangtua penulis Bapak Mujiyana dan ibu Tri Haryanti,
adik saya Hanifah Fathin Nugraheni dan keluarga tercinta yang selalu memberikan dukungan dan doa, serta masukan untuk menyelesaikan skripsi ini.
5. Rekan-rekan mahasiswa angkatan 2017 program studi Informatika atas kerjasama dan bantuannya.
IX
DAFTAR ISI
HALAMAN PERSETUJUAN……….I HALAMAN PENGESAHAN……….II LEMBAR PERNYATAAN KEASLIAN KARYA………...III LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH..IV ABSTRAK………..V ABSTACT……….VI KATA PENGANTAR ... .VII DAFTAR ISI ... ..IX DAFTAR TABEL……….………XI DAFTAR GAMBAR………...XII
BAB I PENDAHULUAN ... ….1
1.1 Latar Belakang ... 1
1.2 Rumusan Masalah ... 3
1.3 Tujuan ... 3
1.4 Batasan Masalah ... 3
1.5 Manfaat Penelitian ... 4
1.6 Metodologi Penelitian ... 4
1.7 Sistematika Penulisan ... 5
BAB II LANDASAN TEORI ... ….6
2.1 Posisi Pemain Sepak Bola ... 6
2.2 Data Mining ... 7
2.3 Clustering ... 9
2.4 Agglomerative Hierarchical Clustering(AHC) ... 10
2.5 Preprocessing Data ... 12
2.5.1 Data Selection………... 12
2.5.2 Normalisasi Min-Max………12
2.5.3 Metode Z-Score……….13
2.6Silhouette Index ... 13
BAB III METODE PENELITIAN ... ...16
3.1.Data... 16
X
3.2.Design Pembuatan Alat Uji ... 20
3.3.Preprocessing ... 21
3.3.1 Data Selection………...21
3.3.2 Normalisasi data……… 22
3.4.Agglomerative Hierarchical Clustering ... 23
3.5.Uji Validasi Cluster ... 27
3.6. Perancangan Antar Muka Sistem ... 32
3.7. Spesifikasi Alat ... ….34
3.8.Skenario Pengujian ... 33
BAB IV IMPLEMENTASI DAN ANALISIS ... ...35
4.1.Input Data ... 35
4.2.Preprocessing data ... 37
4.3.Memilih Jumlah Atribut ... 40
4.4.Modeling Perhitungan jarak menggunakan Euclidean Distance dan Manhattan Distance... 40
4.5.Agglomerative Hierarchical Clustering ... 41
4.6.Uji Validasi Cluster ... 45
BAB V PENUTUP ... ...68
5.1.Kesimpulan ... 68
5.2.Saran ... 69
5.3.Spesifikasi Alat ... 33
Daftar Pustaka ... ...70
XI
DAFTAR TABEL
Tabel 3.1 Data atribut ... 17
Tabel 3.2 Selection Attribute ... 22
Tabel 3.3 Hasil normalisasi Min-Max ... 23
Tabel 3.4 Hasil normalisasi Z-score ... 24
Tabel 3.5 Hasil SI untuk cluster 1 ... 31
Tabel 3.6 Hasil SI untuk cluster 2 ... 32
Tabel 3.7 Hasil Perhitungan Silhouette Index dari sebuah cluster ... 32
Tabel 4.1 Hasil 18 percobaan ... 65
XII
DAFTAR GAMBAR
Gambar 3.1 Gambaran Umum Sistem ... 21
Gambar 3.2 Selection Attribute ... 22
Gambar 3.3 Data ... 19
Gambar 3.4 Perhitungan jarak Euclidean Distance ... 20
Gambar 3.5 Perhitungan Single Linkage ... 25
Gambar 3.6 Hasil iterasi 6 ... 26
Gambar 3.7 Perhitungan Complete Linkage ... 26
Gambar 3.8 Hasil iterasi 6 ... 27
Gambar 3.9 Perhitungan Average Linkage. ... 27
Gambar 3.10 Hasil iterasi 6 ... 27
Gambar 3.11 Hasil Euclidean Distance untuk Cluster 1 ... 28
Gambar 3.12 Hasil Euclidean Distance untuk Cluster 2 ... 28
Gambar 3.13 Hasil 𝑎1 untuk cluster 1 ... 29
Gambar 3.14 Hasil 𝑎1 untuk cluster 2 ... 29
Gambar 3.15 Hasil hitung jarak dari cluster 1 ke cluster 2... 29
Gambar 3.16 Hasil hitung jarak dari cluster 2 ke cluster 1... 30
Gambar 3.17 Hasil 𝑏1 untuk cluster 1 ... 30
Gambar 3.18 Hasil 𝑏1 untuk cluster 2 ... 30
Gambar 3.19 Perancangan antar muka sistem ... 33
Gambar 4.1 Listing program Input Data ... 36
Gambar 4.2 Tampilan Data yang diuji ... 37
Gambar 4.3 Listing program min-max normalitation ... 38
Gambar 4.4 Tampilan Data Preprocessing min-max ... 39
Gambar 4.5 Tampilan Data Preprocessing Z-score ... 40
Gambar 4.6 Listing program pilih jumlah atribut... 41
Gambar 4.7 Listing program Euclidean Distance & Manhattan Distance ... 42
Gambar 4.8 Listing program Single Linkage ... 43
Gambar 4.9 Listing program lanjutan Single Linkage ... 43
XIII
Gambar 4.10 Listing program Complete Linkage ... 44
Gambar 4.11 Listing program lanjutan Complete Linkage ... 44
Gambar 4.11 Listing program Input Data ... 45
Gambar 4.12 Listing program Average Linkage ... 45
Gambar 4.13 Listing program Average Linkage ... 48
Gambar 4.14 Hasil data non normalisasi, 27 atribut,single linkage ... 46
Gambar 4.15 Hasil akurasi data non normalisasi, 27 atribut,single linkage ... 47
Gambar 4.16 Hasil akurasi data min-max normalisasi, 27 atribut,Euclidean distance, single linkage ... ….48
Gambar 4.17 Hasil akurasi data z-score normalisasi, 27 atribut,Euclidean distance, single linkage ... 49
Gambar 4.18 Hasil akurasi data non normalisasi, 27 atribut, Manhattan distance, single linkage……….50
Gambar 4.19 Hasil akurasi data min-max normalisasi, 27 atribut, Manhattan distance, single linkage………..51
Gambar 4.20 Hasil akurasi data z-score normalisasi, 27 atribut, Manhattan distance, single linkage. ... 52
Gambar 4.21 Hasil akurasi data non normalisasi, 27 atribut, euclidean distance, complete linkage……….53
Gambar 4.22 Hasil akurasi data min-max normalisasi, 27 atribut, euclidean distance, complete linkage………..54
Gambar 4.23 Hasil akurasi data z-score normalisasi, 27 atribut, euclidean distance, complete linkage. ... 55
Gambar 4.24 Hasil akurasi data non normalisasi, 27 atribut, manhattan distance, complete linkage. ... 56
Gambar 4.25 Hasil akurasi data min-max normalisasi, 27 atribut, manhattan distance, complete linkage ... 57
Gambar 4.26 Hasil akurasi data z-score normalisasi, 27 atribut, manhattan distance, complete linkage……….58
Gambar 4.27 Hasil akurasi data non normalisasi, 27 atribut, euclidean distance, average linkage………..59
XIV
Gambar 4.28 Hasil akurasi data min-max normalisasi, 27 atribut, euclidean
distance, average linkage... 60
Gambar 4.29 Hasil akurasi data z-score normalisasi, 27 atribut, euclidean distance, average linkage………...61
Gambar 4.30 Hasil akurasi data non normalisasi, 27 atribut, manhattan distance, average linkage………..62
Gambar 4.31 Hasil akurasi data min-max normalisasi, 27 atribut, manhattan distance, average linkage... 63
Gambar 4.32 Hasil akurasi data z-score normalisasi, 27 atribut, manhattan distance, average linkage ... 64
Gambar 4.33 Listing validasi cluster ... 66
Gambar 4.34 Listing lanjutan validasi cluster ... 66
Gambar 4.35 Listing lanjutan validasi cluster ... 67
1 BAB I PENDAHULUAN
PENDAHULUAN
1.1 Latar Belakang
Sepak Bola adalah cabang olahraga yang umumnya dimainkan oleh dua tim yang masing-masing beranggotakan 11 (sebelas) orang pemain inti dan beberapa pemain cadangan. Sepak bola bertujuan untuk mencetak gol sebanyak-banyaknya dengan memasukkan bola ke gawang lawan. Dalam berjalannya sebuah pertandingan terdapat aturan aturan yang diterapkan dan diadili oleh seorang wasit.Peraturan pertandingan secara umum diperbarui setiap tahunnya oleh induk organisasi sepak bola internasional (FIFA).
FIFA merupakan induk organisasi sepak bola internasional yang membawahi seluruh federasi – federasi di setiap negara di dunia, contohnya adalah PSSI ( Persatuan Sepak Bola Seluruh Indonesia ). Selain itu FIFA juga menyelenggarakan Piala Dunia setiap empat tahun sekali.
Tim sepak bola akan berkompetisi dalam sebuah liga guna mendapatkan gelar juara, gelar juara didapatkan dengan mengumpulkan poin dalam tiap pertandingan dan akan dikalkulasikan ke dalam klasemen.
Banyak faktor yang menentukan keberhasilan sebuah tim untuk meraih kemenangan, mulai dari potensi pemain, strategi pelatih, dan faktor kesehatan. Pelatih memegang peranan yang sangat penting. Pada faktanya banyak pelatih yang menjalankan tugas dengan ego sendiri tanpa mempertimbangkan data skill dan kemampuan pemain. Kasus tersebut yang membuat sebuah tim mengalami kekalahan seiring berjalanya kompetisi , karena penempatan pemain tidak cocok dan tidak sesuai dengan data skill dan kemampuan pemainya. Dengan adanya kasus tersebut, penulis mencoba membuat sebuah sistem pengelompokan posisi pemain menggunakan data set skill dan kemampuan pemain dari game PES 2020
Dalam pengelompokan dan penentuan posisi pemain sepak bola ini, metode yang digunakan oleh penulis adalah Data mining. Data mining
2 adalah suatu proses pengerukan atau pengumpulan informasi penting dari suatu data yang besar. Teknik data mining terdiri dari: asosiasi, klasifikasi, dan clustering. Clustering menganalisis objek data dimana label kelas tidak diketahui. Clustering dapat digunakan untuk menentukan label kelas tidak diketahui dengan cara mengelompokkan data untuk membentuk kelas baru.
Metode Agglomerative Hierarchical Clustering (AHC) biasanya digunakan apabila belum ada informasi jumlah kelompok yang akan dipilih. Arah pengelompokan bisa bersifat divisive (top to down) artinya dari 1 cluster sampai menjadi k buah cluster atau bersifat agglomerative (bottom up) artinya dari n cluster (dari n-buah data yang ada) menjadi k buah cluster.
Teknik hirarkhis (hierarchical methods) adalah teknik clustering membentuk konstruksi hirarkhis atau berdasarkan tingkatan tertentu seperti struktur pohon. Dengan demikian proses pengelompokannya dilakukan secara bertingkat atau bertahap. Hierarchical Clusstering adalah salah satu algoritma clustering yang dapat digunakan untuk meng-cluster dokumen (document clustering). Dari teknik Hierarchical Clustering, dapat dihasilkan suatu kumpulan partisi yang berurutan (Herny & Dwi, 2017).
Penelitian dengan topik ini diambil karena dataset pemain sepak bola dari game Pro Evolution Soccer 2020 yang telah diolah. Dapat membantu pelatih pada dunia nyata untuk menentukan posisi pemain dengan proses clustering menggunakan metode Agglomerative Hierarchical Clustering (AHC). Maka dibuatlah sebuah sistem yang menjadi pertimbangan pelatih dalam menentukan posisi ideal dalam pertandingan nyata. Game Pro Evolution Soccer menjadi rekomendasi penulis untuk pengelompokan posisi pemain karena game Pro Evolution Soccer 2020 dan sejenisnya menggunakan data real dan bahkan memiliki lisensi asli dari club, liga, federasi dari seluruh team sepak bola di dunia.
3
1.2 Rumusan Masalah
Berdasarkan latar belakang yang ada dapat dirumuskan beberapa masalah antara lain :
1. Apakah metode Agglomerative Hierarchical Clustering dapat mengelompokan pemain sepakbola pada data game Pro Evolution Soccer 2020 dan mendapatkan hasil evaluasi yang baik?
2. Apakah dengan normalisasi non-normalisasi, min-max normalitation dan z-score normalitation dapat meningkatkan hasil evaluasi?
3. Berapakah nilai akurasi metode AHC (Agglomerative Hierarchical Clustering) untuk menentukan posisi pemain dalam olahraga sepakbola?
1.3 Tujuan
Adapun tujuan dari penelitian ini sebagai berikut :
1. Mengetahui hasil evaluasi pengelompokan pemain sepak bola menggunakan metode Agglomerative Hierarchical Clustering.
2. Mengetahui perbedaan hasil evaluasi normalisasi non normalisasi, min- max normalitation dan z-score normalitation.
3. Mengetahui nilai akurasi metode AHC (Agglomerative Hierarchical Clustering) dalam menentukan posisi pemain dalam olahraga sepakbola.
1.4 Batasan Masalah
Pada batasan masalah ini, penulis membatasu masalah yang perlu yaitu : 1. Data yang digunakan adalah data set Pro Evolution Soccer 2020.
2. Data yang digunakan memiliki Jumlah 122 atribut dan diseleksi menjadi 27 atribut dikarenakan tidak semua atribut dapat digunakan, data ini berasal dari game Pro Evolution Soccer 2020 (PES 2020).
4 3. Normalisasi yang akan diuji menggunakan rumus min-max dan rumus
z-score.
4. Perhitungan jarak akan menggunakan rumus Manhattan distance dengan rumus Euclidean distance.
5. Menghitung akurasi menggunakan Silhouette Index.
1.5 Manfaat Penelitian
Manfaat dari penelitian ini sebagai berikut :
1. Menambah pengalaman dan pengetahuan mengenai pengelompokan posisi pemain sepak bola dari data game Pro Evolution Soccer 2020 (PES 2020).
2. Penelitian ini diharapkan menjadi rujukan untuk penelitian yang berkaitan dengan metode clustering menggunakan Agglomerative Hierarchical Clustering
1.6 Metodologi Penelitian
1. Identifikasi masalahPeneliti melakukan identifikasi masalah yang diambil untuk dijadikan topik penelitian.
2. Study literatur
Peneliti akan mempelajari clustering lebih dalam sesuai dengan metode yang digunakan yaitu pengelompokan menggunakan Agglomerative Hierarchical Clustering.
3. Pembuatan alat uji
Merancang design dan implementasi system yang digunakan untuk menguji metode pada penelitian ini.
5 4. Analisis Hasil
Pada tahap ini akan dilakukan analisis hasil di mana untuk mengetahui hasil keakuratan metode menggunakan confusion matrix.
1.7 Sistematika Penulisan
Dalam penulisan tugas akhir ini dibagi dalam beberapa bagian utama yang dirincikan sebagai berikut:
1. BAB I PENDAHULUAN
Bagian ini berisi tentang deskripsi umum tugas akhir yang meliputi latar belakang masalah, rumusan masalah, tujuan penelitian, batasan penelitian, serta sistematika penulisan.
2. BAB II TINJAUAN PUSTAKA
Pada bab ini diuraikan landasan teori dan masalah yang berhubungan dengan metode data mining terutama AHC (Agglomerative Hierarchical Clustering ) untuk mengclustering penempatan posisi pemain sepak bola.
3. BAB III METODOLOGI PENELITIAN
Bagian ini menjelaskan tentang metodologi penelitian, identifikasi masalah, teknik pengumpulan data, analisis algoritma dan alat bantu dalam penelitian.
4. BAB IV IMPLEMENTASI DAN ANALISIS SISTEM Bagian ini membahas analisis terhadap masalah penelitian dan preprocessing data, desain interface, pengujian dan pengukuran akurasi.
5. BAB V PENUTUP
Bab ini berisikan kesimpulan dan saran untuk pengembangan system lebih lanjut.
6 BAB II LANDASAN TEORI
LANDASAN TEORI
2.1 Posisi Pemain Sepak Bola
Posisi pemain sepak bola merupakan hal yang sangat penting bagi seorang pemain maupun tim. Kesalahan dan kurang optimalnya posisi pemain dapat menjadi faktor kekalahan dalam sebuah pertandingan. Oleh karena itu penentuan posisi pemain menjadi faktor yang sangat penting dalam permainan sepak bola ( Pratama, Santoso., dan Sari. (2018).
Penulis Menentukan posisi pemain sepak bola menjadi 4 cluster yang terdiri dari penyerang (striker), gelandang (midfielder), bertahan (defender), kiper (goalkeeper). Penyerang merupakan posisi pemain sepak bola yang berposisi di lini depan pertahanan lawan, penyerang bertugas untuk mencetak gol di gawang lawan. Gelandang merupakan posisi pemain yang berposisi di tengah lapangan, yang mempunyai tugas untuk menahan serangan striker lawan dan menyuplai bola untuk penyerang. Deffender adalah posisi pemain sepak bola yang berada di garis pertahanan, defender bertugas untuk menghalau serangan dari striker lawan. Kiper merupakan posisi pemain sepak bola yang berposisi menjaga gawang, kiper mempunyai tugas untuk menangkap segala tendangan dari striker lawan agar tidak terjadinya gol.
Posisi pemain sepak bola sangat penting dalam berjalanya pertandingan, karena penempatan posisi pemain menentukan berjalan baik tidaknya sebuah pertandingan. Dengan penempatan posisi pemain yang baik dan tepat akan mempermudah sebuah tim untuk meraih kemenangan.
7
2.2 Data Mining
Data mining adalah suatu istilah yang digunakan untuk menguraikan penemuan pengetahuan di dalam database. Data mining adalah proses yang menggunakan teknik statistic, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar (Turban, dkk. 2005).
Data mining mengacu pada mining knowledge dari data dalam jumlah besar (Han & Kamber, 2006). Secara umum data mining dikenal dengan proses Knowledge Discovery from Data (KDD). Proses KDD sebagai berikut:
1. Pembersihan data (Data Cleaning)
Proses pembersihan data atau data cleaning dilakukan untuk menghilangkan noise dan data yang tidak konsisten.
2. Integrasi data (Data Integration)
Proses data integrasi adalah proses menggabungkan data dari sumber data yang berbeda.
3. Seleksi data ( Data Selection)
Seleksi data atau data selection adalah proses memilih data atau atribut yang relevan untuk atribut ini. Pada tahap ini dilakukan analisis korelasi atribut data. Atribut – atribut data tersebut dicek apakah relevan untuk dilakukan penambangan data.
4. Transformasi data (Data Transformation)
Transformasi atau data transformation proses menggabungkan data ke dalam bank yang sesuai untuk ditambang.
5. Penambangan data (Data Mining)
Langkah ini adalah langkah paling penting yaitu melakukan pengaplikasian metode yang tepat untuk pola data.
8 6. Evaluasi pola (Pattern Evaluation)
Pada langkah ini dilakukan identifikasi pola dalam bentuk pengetahuan berdasarkan beberapa pengukuran yang penting.
7. Presentasi pengetahuan (Knowledge Presentation)
Pada langkah ini dilakukan proses penyajian pengetahuan dari hasil penambangan data. hasil klasifikasi data nasabah akan ditampilkan ke dalam bentuk yang mudah dipahami user/pengguna.
Menurut (Larose, 2005) data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan, yaitu:
a. Deskripsi
Terkadang peneliti dan analisis secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data.
b. Estimasi
Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi lebih ke arah numerik dari pada ke arah kategori.
c. Prediksi
Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa mendatang.
d. Klasifikasi
Dalam klasifikasi, terdapat target variabel kategori. Model data mining memeriksa serangkaian record yang besar, masing-masing record berisi informasi tentang target variabel serta rangkaian input atau prediktor variabel.
e. Pengklusteran
Clustering merupakan suatu metode untuk mencari dan mengelompokkan data yang memiliki kemiripan karakteristik (similarity) antara satu data dengan data yang lain. Clustering merupakan salah satu metode data mining yang bersifat tanpa arahan (unsupervised).
9 f. Asosiasi
Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam suatu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja.
2.3 Clustering
Clustering merupakan salah satu metoda dalam data mining yang dapat digunakan untuk memetakan data kedalam kelompok kelompok yang lebih kecil berdasarkan kesamaan karakteristik yang dimilikinya (Perim, Wandekokem, & Varejão, 2008).
Menurut Han dan Kamber, 2012, syarat sekaligus tantangan yang harus dipenuhi oleh suatu algoritma clustering adalah:
1. Skalabilitas
Suatu metode clustering harus mampu menangani data dalam jumlah yang besar. Saat ini data dalam jumlah besar sudah sangat umum digunakan dalam berbagai bidang misalnya saja suatu database.
Tidak hanya berisi ratusan objek, suatu database dengan ukuran besar bahkan berisi lebih dari jutaan objek.
2. Kemampuan analisa beragam bentuk data
Algoritma klasterisasi harus mampu diimplementasikan pada berbagai macam bentuk data seperti data nominal, ordinal maupun gabungannya.
3. Menemukan cluster dengan bentuk yang tidak terduga
Banyak algoritma clustering yang menggunakan metode Euclidean atau Manhattan yang hasilnya berbentuk bulat. Padahal hasil clustering dapat berbentuk aneh dan tidak sama antara satu dengan yang lain. Karenanya dibutuhkan kemampuan untuk menganalisa cluster dengan bentuk apapun pada suatu algoritma clustering.
10 4. Kemampuan untuk dapat menangani noise
Data tidak selalu dalam keadaan baik. Ada kalanya terdapat data yang rusak, tidak dimengerti atau hilang. Karena system inilah, suatu algortima clustering dituntut untuk mampu menangani data yang rusak.
5. Sensitivitas terhadap perubahan input
Perubahan atau penambahan data pada input dapat menyebabkan terjadi perubahan pada cluster yang telah ada bahkan bisa menyebabkan perubahan yang mencolok apabila menggunakan algoritma clustering yang memiliki tingkat sensitivitas rendah.
6. Mampu melakukan clustering untuk data dimensi tinggi
Suatu kelompok data dapat berisi banyak dimensi ataupun atribut.
Untuk itu diperlukan algoritma clustering yang mampu menangani data dengan dimensi yang jumlahnya tidak sedikit.
7. Interpretasi dan kegunaan
Hasil dari clustering harus dapat diinterpretasikan dan berguna.
2.4 Agglomerative Hierarchical Clustering(AHC)
Agglomerative Hierarchical Clustering(AHC) adalah Clustering dengan pendekatan hirarki akan mengelompokan data yang mirip dalam hirarki yang sama dan yang tidak mirip di hirarki yang agak jauh.
Terdapat dua metode yang sering digunakan yaitu agglomerative hierarchical clustering dan divisive hierarchical clustering. Agglomerative melakukan clustering dari N cluster menjadi satu kesatuan cluster, dimana N adalah jumlah data, sebaliknya divisive melakukan proses clustering dari satu cluster menjadi N cluster (Everitt dkk., 2011).
11 a) Single Linkage
Metode Single Linkage clustering (SL) juga disebut pencarian partner berdasarkan jarak terdekat (SL). Asumsikan G dan H adalah dua cluster yang akan digabungkan bersama. Kemudian hitung jarak dsl (G, H) dengan membandingkan pertidaksamaan jarak antara setiap anggota kelompok dan 𝐺𝑖 dan jarak antara setiap anggota kelompok dan 𝐻𝑖, kemudian dicari pasangan terdekat.
𝑑𝑠𝑙(𝐺, 𝐻) = min(𝑑𝑖𝑖); I ∈ G ; I’ ∈ H (2.1) b) Complete Linkage
Metode complete link clustering (CL) juga disebut metode teknik furthest neighbor technique. Secara umum tahapan metode ini hampir sama dengan metode single link, namun pada pencarian berpasangan, metode full link menemukan pasangan yang terjauh dari pengamatan.
𝑑𝐶𝐿(𝐺, 𝐻) = max(𝑑𝑖𝑖′) ; 𝑖 ∈ G; 𝑖 ∈ 𝐻 (2.2) c) Average Linkage
Metode Average Linkage sering juga disebut sebagai Group Average (GA). Metode ini dalam prosesnya yaitu mencari pasangan ditentukan dengan melihat rata-rata jarak setiap nilai observasinya.
𝑑𝐺𝐴(𝐺, 𝐻) = 1
𝑁𝐺𝑁𝐻+ ∑ 𝑖 ∈ G ∑ 𝑖′ ∈ 𝐻 𝑑𝑖𝑖′ (2.3)
Hierarchical clustering dapat digambarkan melalui dendogram dengan membuat matriks kesamaan yang berisi kesamaan antar data yang dikelompokkan. Berbagai cara seperti jarak dari Manhattan dapat digunakan untuk menghitung kemiripan. Jarak yang dihitung dari jarak Manhattan dan jarak Euclidean ditampilkan pada rumus (2.4) dan (2.5)
a. Manhattan Distance 𝐷𝑚𝑎𝑛(𝑥, 𝑦) = ∑ |𝑥𝑗−
𝑑 𝑗=1
𝑦𝑗| (2.4)
12 b. Euclidean Distance
𝐷(𝑋2,𝑥1)= √∑𝑑𝑗=1|𝑥2𝑗− 𝑥1𝑗|2 (2.5) Dibawah ini merupakan contoh perhitungan data menggunakan metode Agglomerative Hierarchical Clustering dengan pendekatan Single-Linkage. Dengan perhitungan jarak Euclidean.
2.5 Preprocessing Data
2.5.1 Data Selection
Pada tahap ini penulis hanya menggunakan atribut yang penulis butuhkan. Jumlah atribut ada 122 atribut dan diseleksi menjadi 27 atribut dikarenakan tidak semua atribut dapat digunakan, karena data ini berasal dari game Pro Evolution Soccer 2020 (PES 2020). Pemilihan atribut ini berdasarkan rekomendasi rekomendasi Reza Furqoni, mantan pemain PSS Sleman 2015-2016 yang sekarang melatih di SSB CMB mengenai nilai yang menentukan posisi seorang pemain berada di posisi yang tepat.
2.5.2 Normalisasi Min-Max
Metode Min-Max merupakan metode normalisasi dengan rumus : 𝑋𝑛𝑜𝑟𝑚 = 𝑋−𝑀𝑖𝑛𝑥
𝑀𝑎𝑥𝑥−𝑀𝑖𝑛𝑥(𝑀𝑎𝑥𝑛𝑒𝑤− 𝑀𝑖𝑛𝑛𝑒𝑤) + 𝑀𝑖𝑛𝑛𝑒𝑤 (2.6) Keterangan :
X = data awal
Xnorm = data hasil normalisasi Min_x = nilai minimum dari data Max_x = nilai maksimum dari data
Max_new = skala maksimum yang kita berikan Min_new = skala minimum yang kita berikan
13 Langkah awal normalisasi min-max yaitu menentukan nilai minimum(MIN) dan menentukan nilai maksimum(MAX) dari semua atribut data yang akan diolah. Hasil contoh data yang diolah menggunakan Min-Max sebagai berikut :
2.5.3 Metode Z-Score
merupakan metode normalisasi dengan rumus :
𝑥
∗=𝑋∗−𝑚𝑒𝑎𝑛(𝑥)𝑆𝐷(𝑋) (2.7)
Keterangan:
X* = data hasil proses normalisasi
X = data yang akan dilakukan proses normalisasi Mean(X) = nilai rata-rata data yang akan dilakukan proses normalisasi
SD(X) = nilai standar deviasi dari data yang akan dilakukan proses normalisasi
2.6 Silhouette Index
a. Silhouette indexPenulis menggunakan Silhouette index untuk menghitung keakuratan suatu data pada cluster-nya. Data yang ditampilkan berupa angka, ketika hasil data mendekati satu maka semakin baik akurasi pada clusternya. Di dalam silhouette index (koefisien siluet) yaitu metode pengukuran yang mengkombinasikan kohesi dan separasi. Penghitungan koefisien siluet untuk suatu titik tunggal melalui proses tiga tahap
1. Pada objek ke i, dihitung jarak rata - rata terhadap semua objek yang lain dalam klaster
𝑎1 = 1
𝑚𝑗−1∑𝑚𝑗𝑟=1𝑑
𝑟=1
(𝑥𝑖𝑗, 𝑥𝑟𝑗) (2.8)
14 Keterangan : j = cluster
i =index data
𝑚𝑗 =jumlah data dalam cluster j 𝑑(𝑥𝑖𝑗, 𝑥𝑟𝑖) =jarak data ke-I dengan ke-r 𝑥𝑖𝑗 =rata rata jarak data-
Iterhadap semua data lainya dalam satu cluster
2. Pada objek ke i, dihitung jarak rata - rata terhadap semua objek lain di klaster lain, yang kemudian disebut dengan
𝑏1 = 𝑚𝑖𝑛{ 1
𝑚𝑛∑𝑚𝑗𝑟=1𝑑
𝑟=1
(𝑥𝑖𝑗, 𝑥𝑟𝑗)} (2.9)
Keterangan : j = cluster i = index data n = cluster lain
𝑚𝑛 = jumlah data dalam cluster j 𝑑(𝑥𝑖𝑗, 𝑥𝑟𝑖) = jarak data ke-I dengan ke-r 𝑏1 = nilai terkecil dari rata rata ke-i
3. Menghitung nilai Silhouette Index data ke-I.
𝑆𝐼𝑖𝑗 = 𝑏𝑖
𝑗−𝑎𝑖𝑗
max{𝑏𝑖𝑗,𝑎𝑖𝑗} (2.10)
Keterangan : 𝑆𝐼𝑖𝑗 = Silhouette Index dari data ke-i 𝑏𝑖𝑗 = nilai terkecil dari rata rata jarak ke-i 𝑎𝑖𝑗 = rata rata jarak data ke-i
15 4. Menghitung Si sebuah cluster
𝑆𝐼𝐽 = 1
𝑚𝐽∑𝑚𝑖=1𝑗 𝑆𝐼𝑚𝑗 (2.11)
Keterangan : 𝑆𝐼𝑖 = rata rata nilaiSilhouette Index cluster j 𝑏𝑖𝑗 = jumlah data dalam cluster ke-j
𝑎𝑖𝑗 = Silhourtte Index dari data ke-i
5. Menghitung SI global 𝑆𝐼 = 1
𝑚𝐽∑𝑘𝑗=1𝑆𝐼𝑗 (2.12)
Keterangan : 𝑆𝐼𝑖𝑗 = rata rata Silhouette Index dari data set tersebut
𝑆𝐼𝐽 = rata rata Silhouette Index cluster j 𝐾 = jumlah cluster
6. Menghitung Silhouette Coefficient
SC=𝑀𝑎𝑥𝑘SI(k) (2.13)
Keterangan : SC = Silhouette Coefficient SI = Silhouette index K = Jumlah cluster
Koefisien siluet untuk suatu titik didapatkan dengan : s = 1 -a/b jika a < b
s= b/a –1 jika a ≥ b
Nilai koefisien siluet bervariasi antara - 1 dan 1. Nilai negatif tidak diinginkan sebab nilai ai adalah rata-rata jarak dari titik ke klaster. Nilai koefisien rata- rata setiap titik yang paling baik adalah yang semakin mendekati angka 1. (Sumadyo. M, 2017).
16 BAB III METODE PENELITIAN METODE PENELITIAN
3.1. Data
Dalam penelitian ini, data yang digunakan adalah data game pro evolution soccer 2020 yang diperoleh dari www.konami.com. Data yang diperoleh sebanyak 15036 data. Pada tahap ini penulis hanya menggunakan atribut yang dibutuhkan. Jumlah atribut ada 122 atribut dan diseleksi menjadi 27 atribut dikarenakan tidak semua atribut dapat digunakan, data ini berasal dari game Pro Evolution Soccer 2020 (PES 2020). Pemilihan atribut ini berdasarkan rekomendasi ahli mengenai nilai yang menentukan posisi seorang pemain berada di posisi yang tepat. Berikut adalah penjelasan dari masing-masing atribut.
17 Tabel 3.1 Data atribut
No. Atribut Keterangan nilai
1 Offensive awareness
Menunjukkan seberapa cepat pemain bisa merespon bola saat menyerang. 88
2 Ball control
Menunjukkan seberapa mahir seorang pemain dalam mengontrol bola secara umum. Memengaruhi perangkap dan tipuan.
91
3 Dribbling
Menunjukkan seberapa mahir pemain dalam mempertahankan penguasaan bola sambil menggiring bola dengan cepat.
96
4 Tight
possession
Menunjukkan seberapa terampil seorang pemain dalam melakukan belokan sambil menggiring bola dengan kecepatan rendah.
92
5 Low pass
Menunjukkan seberapa akurat seorang pemain saat memainkan
operan rendah di sepanjang tanah. 86
6 Lofted pass
Menunjukkan keakuratan umpan
pemain yang di-loft. 84
7 Finishing
Menunjukkan akurasi tembakan
pemain. 86
18 8 Heading
Menunjukkan keakuratan header
pemain. 67
9 Place
kicking
Menunjukkan akurasi pemain dari bola mati termasuk tendangan bebas
dan penalti. 90
10 Curl
Menunjukkan seberapa banyak curl yang bisa dilakukan pemain pada
bola. 89
11 Speed
Mengidentifikasi seberapa cepat pemain berlari dan saat kehilangan
bola. 89
12 Acceleration
Menunjukkan seberapa cepat pemain dapat mencapai kecepatan lari
puncaknya. 93
13 Kicking power
Menunjukan seberapa kuat
tendanganya 80
14 Jump
Menunjukkan seberapa tinggi pemain
bisa melompat. 66
15 Physical contact
Semakin tinggi nilainya, semakin baik pemain tersebut dalam
memenangkan tantangan dan tidak kehilangan keseimbangan saat bersentuhan dengan pemain lain.
63
19 16 Balance
Semakin tinggi nilainya, semakin baik pemain tersebut menghindari tekel dan menjaga keseimbangannya saat bersentuhan dengan pemain lain.
91
17 Stamina
Menunjukkan tingkat kebugaran dan
daya tahan pemain. 82
18 Defensive awareness
Menunjukan seberapa cepat respon
pemain bertahan. 48
19 Ball win
Semakin tinggi nilainya, semakin baik pemain tersebut untuk mendapatkan bola dan mempertahankanya.
49
20 Aggression
Menunjukkan seberapa agresif pemain akan mencoba mencuri bola
selama tantangan. 58
21 Gk
awareness
Menunjukkan seberapa cepat pemain dapat merespon bola saat bermain di gawang.
40
22 Gk catching
Menunjukkan kemampuan penjaga gawang untuk menangkap bola. Nilai yang lebih tinggi berarti kiper dapat menangkap tembakan yang lebih kuat.
40
23 Gk clearing
Menunjukkan kemampuan penjaga gawang untuk menjatuhkan bola ke
area aman. 40
20 24 Gk reflexes
Menunjukkan kemampuan penjaga gawang untuk melakukan
penyelamatan dengan cepat. 40
25 Gk reach
Menunjukkan jangkauan kiper atas gawang dan ukuran area di mana dia
bisa melakukan penyelamatan 40
26 Height Menunjukan tinggi badan pemain. 175 27 Weight Menunjukan berat badan pemain. 68
3.2. Design Pembuatan Alat Uji
Pada penelitian ini dilakukan pengujian apakah metode Agglomerative Hierarchical Clustering akurat mendapatkan akurasi dengan alat uji yang disajikan dalam bentuk diagram blok.
Gambar 3.1 Gambaran Umum Sistem
Gambar 3.1 diatas menjelaskan Proses data dipanggil dan diolah pada tahap preprosessing. Tahap ini dimulai dari transformasi, normalisasi, dan data selection. Tahap selanjutnya yaitu perhitungan jarak menggunakan manhattan distance dan euclidean distance. Selanjutnya data akan masuk ke proses cluster dengan menggunakan metode agglomerative hierarchical clustering yang memiliki 3 metode yaitu single linkage, complete linkage, dan average linkage. Hasil dari metode tersebut akan menghasilkan output berupa dendogram dan akurasi.
21 3.3. Preprocessing
Tahap preprocessing dilakukan sesuai dengan aturan Knowledge Discovery in Database atau dikenal dengan istilah KDD. Pada proses ini aturan KDD yang dilakukan untuk data dalam penelitian ini adalah data selection. Berikut adalah proses aturan KDD yang dilakukan pada data:
3.3.1 Data Selection
Pada tahap ini penulis hanya menggunakan atribut yang penulis butuhkan. Jumlah atribut ada 122 atribut dan diseleksi menjadi 27 atribut dikarenakan tidak semua atribut dapat digunakan, karena data ini berasal dari game Pro Evolution Soccer 2020 (PES 2020). Pemilihan atribut ini berdasarkan rekomendasi Reza Furqoni, mantan pemain PSS Sleman 2015-2016 yang sekarang melatih di SSB Amtri, mengenai nilai-nilai yang menentukan posisi seorang pemain sepakbola berada di posisi yang tepat.
Hasil dari selection attribute disajikan dalam Tabel 3.2.
Tabel 3.2 Atribut yang digunakan dalam penelititan menurut rekomendasi ahli
1 height 2 weight
3 offensive_awareness 4 ball_control
5 dribbling
6 tight_possession 7 low_pass
8 lofted_pass 9 finishing 10 heading 11 place_kicking
22 12 curl
13 speed 14 acceleration 15 kicking_power 16 jump
17 physical_contact 18 balance
19 stamina
20 defensive_awareness 21 ball_winning
22 aggression 23 gk_awareness 24 gk_catching 25 gk_clearing 26 gk_reflexes 27 gk_reach
3.3.2 Normalisasi data
Pada tahap ini dilakukan proses normalisasi data, yaitu mengolah data mentah menjadi data baru guna melihat perbedaan hasil dan kualita cluster yang terbentuk pada jenis data. Pada tahap ini penulis menggunakan normalisasi Min-Max dan Z-score.
A. Normalisasi Min-Max
Langkah awal normalisasi min-max yaitu menentukan nilai minimum(MIN) dan menentukan nilai maksimum(MAX) dari semua atribut data yang akan diolah. Hasil contoh data yang diolah menggunakan Min-Max dengan menggunakan persamaan (2.6) sebagai berikut :
23 Tabel 3.3 Hasil normalisasi Min-Max
B. Normalisasi Z-Score
Hasil contoh data yang diolah menggunakan Z-Score dengan menggunakan persamaan (2.7) sebagai berikut :
Tabel 3.4 Hasil normalisasi Z-Score
3.4. Agglomerative Hierarchical Clustering
Setelah proses perhitungan jarak dilakukan, maka tahap selanjutnya melakukan pengolahan data dengan Agglomerative Hierarchical Clustering.
Pendekatan yang dilakukan menggunakan metode single linkage, complete linkage, Average linkage.
Adapun langkah pengerjaanya sebagai berikut:
1. Menghitung jarak antar data menggunakan pendekatan Euclidean distance menggunakan persamaan (2.5)
2. Menggabungkan 2 kelompok terdekat berdasarkan parameter kedekatan yang ditentukan.
3. Memperbaharui matrik jarak antar data untuk mempresentasikan kedekatan diantara kelompok baru dan kelompok masih tersisa.
1 2 3 4 5 6 7 8 9 10
1 0.317 1
0.266
7 1 0.979
6 1 1 0.977
3
0.907 0
0.978 7
0.447 4 2
0.756 1
0.800 0
0.062 5
0.510 2
0.303 6
0.200 0
0.522 7
0.697 7
0.021 3
0.526 3 3
0.390 2
0.466 7
0.458 3
0.571 4
0.410 7
0.380 0
0.613 6
0.488 4
0.255 3
0.526 3
1 2 3 4 5 6 7 8 9 10
1 - 1.001 7
- 1.103 3
2.218 7
2.650 2
2.998 6
2.773 4
2.436 9
2.372 8
2.407 7
- 0.165 5
2 1.751 1
2.490 5
- 2.030 1
- 0.134 0
- 1.115 6
- 1.482 0
- 0.403 0
1.039 5
- 2.055 0
0.258 3
3 - 0.542 9
0.244 3
- 0.236 2
0.229 2
- 0.482 6
- 0.524 6
0.165 0
- 0.293 7
- 0.964 1
0.258 3
24 4. Mengulangi langkah 2 dan 3 hingga hanya satu kelompok yang
tersisa.
Contoh Data ditampilkan pada Gambar 3.3 sebagai berikut:
Gambar 3.3 Data
menghitung jarak antar data sampel dengan persamaan eucludien distance (2.5) ditampikan pada Gambar 3.4 sebagai berikut :
Gambar 3.4 Perhitungan jarak Euclidean Distance
A. Menerapkan salah satu dari 3 metode pendekatan agglomerative hierarchical clustering , yaitu single linkage dengan persamaan (2.1). Setelah dihitung secara manual terdapat 6 iterasi. Pada iterasi ke 6 yang ditunjukan pada Gambar 3.5 dibawah :
A B C D E F
1 175 68 88 91 96 92
2 193 92 43 68 57 52
3 178 77 62 71 63 61
4 184 73 51 62 60 58
5 183 74 62 65 67 61
6 183 77 58 68 62 66
7 186 85 40 64 57 46
8 190 83 55 65 58 58
DISTANCE MATRIX(EUCLIDEAN DISTANCE)
P1 P2 P3 P4 P5 P6 P7 P8
P1 0 70,81666 47,81213 60,38212 48,20788 52,49762 70,78135 60,77006 P2 70,81666 0 29,10326 23,34524 29,74895 23,68544 11,35782 15,42725 P3 47,81213 29,10326 0 16,30951 9,273618 6,78233 26,68333 17,11724 P4 60,38212 23,34524 16,30951 0 13,34166 9,899495 17,14643 12,84523 P5 48,20788 29,74895 9,273618 13,34166 0 7,348469 27,01851 16,21727 P6 52,49762 23,68544 6,78233 9,899495 7,348469 0 21,40093 11,26943 P7 70,78135 11,35782 26,68333 17,14643 27,01851 21,40093 0 15,32971 P8 60,77006 15,42725 17,11724 12,84523 16,21727 11,26943 15,32971 0
25 Gambar 3.5 Perhitungan Single Linkage
Dengan membandingkan mana nilai terkecil dari P2 dengan P7P8P4P5P3P6 maka menghasilkan cluster baru P2P7P8P4P5P3P6 sebagai berikut :
Gambar 3.6 Hasil iterasi 6
Iterasi berhenti ketika tidak ada nilai yang dapat dibandingkan lagi, seperti tabel diatas. Berdasarkan perhitungan diatas diperoleh 2 cluster dimana cluster pertama berisi P1 dan cluster kedua berisi P2P7P8P4P5P3P6.
B. Menerapkan salah dua dari 3 metode pendekatan agglomerative hierarchical clustering , yaitu complete linkage dengan persamaan (2.2). Setelah dihitung secara manual terdapat 6 iterasi. Pada iterasi ke 6 yang ditunjukan pada Gambar 3.7 dibawah :
Gambar 3.7 Perhitungan Complete Linkage ITERASI 6
P1 P2 P7P8P4P5P3P6 P2P7P8P4P5P3P6
P1 0 70,81666 47,81213235 47,81213235
P2 70,81666 0 11,35781669 0
P7P8P4P5P3P6 47,81213 11,35782 0 0
P2P7P8P4P5P3P6 47,81213 0 0 0
HASIL ITERASI 6
P1 P2P7P8P4P5P3P6
P1 0 47,81213235
P2P7P8P4P5P3P6 47,81213 0
ITERASI 6
P3 P5 P1P2P7P4P8P6 P1P2P7P4P8P6P5
P3 0 9,273618 47,81213235 47,81213235
0 0
P5 9,273618 0 48,20788317 48,20788317
P1P2P7P4P8P6 47,81213 48,20788 70,81666471 70,81666471 P1P2P7P4P8P6P5 47,81213 48,20788 70,81666471 70,81666471
26 Dengan membandingkan mana nilai maksimal dari P5 dengan P1P2P7P4P8P6 maka menghasilkan cluster baru P1P2P7P4P8P6P5.
Gambar 3.8 Hasil Iterasi 6
Iterasi berhenti ketika tidak ada nilai yang dapat dibandingkan lagi, seperti tabel diatas. Berdasarkan perhitungan diatas diperoleh 2 cluster dimana cluster pertama berisi P3 dan cluster kedua berisi P1P2P7P4P8P6P5.
C. Menerapkan perhitungan yang ke 3 yaitu metode pendekatan agglomerative hierarchical clustering average linkage dengan persamaan (2.3). Setelah dihitung secara manual terdapat 6 iterasi. Pada iterasi ke 6 yang ditunjukan pada Gambar 3.9 dibawah:
Gambar 3.9 Perhitungan Average Linkage.
Dengan membandingkan mana nilai rata-rata dari P2 dengan P3P6P5P4P8P7 maka menghasilkan cluster baru P3P6P5P4P8P7P2
ITERASI 6
P3 P1P2P7P4P8P6P5
P3 0 47,81213235
P1P2P7P4P8P6P5 47,81213235 70,81666471
ITERASI 6
P1 P2 P3P6P5P4P8P7 P3P6P5P4P8P7P2
P1 0 70,81666 64,27862834 67,54764652
P2 70,81666 0 15,9628312 7,9814156
P3P6P5P4P8P7 64,27863 15,96283 11,41157786 13,68720453 P3P6P5P4P8P7P2 67,54765 7,981416 13,68720453 10,83431007
27 Gambar 3.10 Hasil iterasi ke 6.
Iterasi berhenti ketika tidak ada nilai yang dapat dibandingkan lagi, seperti tabel diatas. Berdasarkan perhitungan diatas diperoleh 2 cluster dimana cluster pertama berisi P1 dan cluster kedua berisi P3P6P5P4P8P7P2.
3.5. Uji Validasi Cluster
Penulis menggunakan Silhouette index untuk menghitung keakuratan suatu data pada cluster-nya.
1. Langkah pertama
Menghitung terlebih dahulu jarak kedekatan tiap cluster menggunakan euclidean distance dengan persamaan (2.1).
Gambar 3.11, 3.12, memperlihatkan hasil perhitungan jarak menggunakan euclidean distance untuk cluster 1 dan 2.
Gambar 3.11 Hasil Euclidean Distance untuk Cluster 1
Gambar 3.12 Hasil Euclidean Distance untuk Cluster 2 ITERASI 6
P1 P3P6P5P4P8P7P2
P1 0 67,54764652
P3P6P5P4P8P7P2 67,54765 10,83431007
P2 P4 P5 P7 P8
P2 0 23,34524 29,74895 11,35782 15,42725 P4 23,34524 0 13,34166 17,14643 12,84523 P5 29,74895 13,34166 0 27,01851 16,21727 P7 11,35782 17,14643 27,01851 0 15,32971 P8 15,42725 12,84523 16,21727 15,32971 0
P1 P3 P6
P1 0 47,81213 52,49762
P3 47,81213 0 6,78233
P6 52,49762 6,78233 0
28 2. Langkah kedua
Menghitung nilai 𝑎1 untuk kedua cluster menggunakan persamaan (2.1)
Berikut contoh menghitung 𝑎1 pada cluster 1:
𝑎𝑝21 = 1
𝑚𝑗− 1∑(𝑑(𝑥𝑃21 , 𝑥𝑃41 ) + 𝑑(𝑥𝑃21 , 𝑥𝑃51 )+ 𝑑(𝑥𝑃21 , 𝑥𝑃71 )+ 𝑑(𝑥𝑃21 , 𝑥𝑃81 )) = 1
6−1∑(23,345 + 29,748 + 11,357 + 15,975) = 16,085 𝑎𝑝41 = 1
𝑚𝑗− 1∑(𝑑(𝑥𝑃41 , 𝑥𝑃21 ) + 𝑑(𝑥𝑃41 , 𝑥𝑃51 )+ 𝑑(𝑥𝑃41 , 𝑥𝑃71 )+ 𝑑(𝑥𝑃41 , 𝑥𝑃81 )) = 1
6−1∑(23,345 + 13,341 + 17,146 + 12,845) = 13,334 𝑎𝑝51 = 1
𝑚𝑗− 1∑(𝑑(𝑥𝑃51 , 𝑥𝑃21 ) + 𝑑(𝑥𝑃51 , 𝑥𝑃41 )+ 𝑑(𝑥𝑃51 , 𝑥𝑃71 )+ 𝑑(𝑥𝑃21 , 𝑥𝑃81 )) = 1
6−1∑(29,748 + 13,341 + 27,018 + 16,217) = 17,264 𝑎𝑝71 = 1
𝑚𝑗− 1∑(𝑑(𝑥𝑃71 , 𝑥𝑃21 ) + 𝑑(𝑥𝑃71 , 𝑥𝑃41 )+ 𝑑(𝑥𝑃71 , 𝑥𝑃51 )+ 𝑑(𝑥𝑃71 , 𝑥𝑃81 )) = 1
6−1∑(11,357 + 17,146 + 27,018 + 15,329) =14,170 𝑎𝑝81 = 1
𝑚𝑗− 1∑(𝑑(𝑥𝑃81 , 𝑥𝑃21 ) + 𝑑(𝑥𝑃81 , 𝑥𝑃41 )+ 𝑑(𝑥𝑃81 , 𝑥𝑃51 )+ 𝑑(𝑥𝑃81 , 𝑥𝑃71 )) = 1
6−1∑(15,427 + 12,845 + 16,217 + 15,329) = 11,963
Hasil 𝑎1 dari setiap cluster-nya dapat dilihat pada Gambar 3.13, 3.14 untuk cluster 1 dan 2.
16,085 13,334 17,264 14,170 11,963 Gambar 3.13 Hasil 𝑎1 untuk cluster 1
20,06 10,910 11,855
Gambar 3.14 Hasil 𝑎1 untuk cluster 2 3. Langkah ke 3
Menghitung jarak pada cluster yang berbeda dengan
menggunakan Euclidean Distance menggunakan persamaan (2.1)
dan menghitung rata-rata jarak. Contoh hitung jarak dari cluster 1 ke cluster 2 dapat dilihat pada Gambar 3.15.
29 Gambar 3.15 Hasil hitung jarak dari cluster 1 ke cluster 2
Hitung jarak dari cluster 2 ke cluster 1 dapat dilihat pada gambar 3.16.
Gambar 3.15 Hasil hitung jarak dari cluster 2 ke cluster 1
4. Langkah ke 4
Menghitung nilai 𝑏1 untuk kedua cluster menggunakan persamaan (2.2).
Contoh menghitung 𝑏1 untuk cluster 1 menggunakan rumus sebagai berikut:
𝑏𝑖𝑗= min(𝑚𝑒𝑎𝑛𝑐𝑙𝑢𝑠𝑡𝑒𝑟2)
Hasil 𝑏1 di setiap cluster-nya dapat dilihat pada Gambar 3.16
Gambar 3.16 Hasil 𝑏1 untuk cluster 1
menghitung 𝑏1 untuk cluster 1 menggunakan rumus sebagai berikut:
𝑏𝑖𝑗= min(𝑚𝑒𝑎𝑛𝑐𝑙𝑢𝑠𝑡𝑒𝑟1)
P2 P4 P5 P7 P8
P1 70,81666 60,38212 48,20788 70,78135 60,77006 P3 29,10326 16,30951 9,273618 26,68333 17,11724 P6 23,68544 9,899495 7,348469 21,40093 11,26943 mean 41,20179 28,86371 21,60999 39,62187 29,71891
P1 P3 P6
P2 70,81666 29,10326 23,68544 P4 60,38212 16,30951 9,899495 P5 48,20788 9,273618 7,348469 P7 70,78135 26,68333 21,40093 P8 60,77006 17,11724 11,26943 mean 62,19162 19,69739 14,72075
mean 41,20179 28,86371 21,60999 39,62187 29,71891
30 Hasil 𝑏1 di setiap cluster-nya dapat dilihat pada Gambar 3.17
Gambar 3.17 Hasil 𝑏1 untuk cluster 2
5. Langkah ke 5
Menghitung nilai Silhouutte Index data ke-I menggunakan persamaan (2.1)
𝑆𝐼𝑖𝑗= 𝑏𝑖𝑗− 𝑎𝑖𝑗 max{𝑏𝑖𝑗, 𝑎𝑖𝑗}
Hitung nilai SI untuk cluster 1:
𝑆𝐼𝑃21 = 𝑏𝑃21 − 𝑎𝑃21
max{𝑏𝑃21 , 𝑎𝑃21 }= 41,201 − 16,085
max{41,201; 16,085}= 0,609 𝑆𝐼𝑃41 = 𝑏𝑃41 − 𝑎𝑃41
max{𝑏𝑃41 , 𝑎𝑃41 }= 28,863 − 13,334
max{28,863; 13,334}= 0,538 𝑆𝐼𝑃51 = 𝑏𝑃51 − 𝑎𝑃51
max{𝑏𝑃51 , 𝑎𝑃51 }= 21,609 − 17,264
max{21,609; 17,264}= 0,201 𝑆𝐼𝑃71 = 𝑏𝑃71 − 𝑎𝑃71
max{𝑏𝑃71 , 𝑎𝑃71 }= 39,621 − 14,170
max{39,621; 14,170}= 0,642 𝑆𝐼𝑃81 = 𝑏𝑃81 − 𝑎𝑃81
max{𝑏𝑃81 , 𝑎𝑃81 }= 29,718 − 11,963
max{29,718; 11,963}= 0,597 Hitung nilai SI untuk cluster 2:
𝑆𝐼𝑃11 = 𝑏𝑃11 − 𝑎𝑃11
max{𝑏𝑃11 , 𝑎𝑃11 }= 62,191 − 20,006
max{62,191; 20,006}= 0,678 𝑆𝐼𝑃31 = 𝑏𝑃31 − 𝑎𝑃31
max{𝑏𝑃31 , 𝑎𝑃31 }= 19,697 − 10,910
max{19,697; 10,910}= 0,446 𝑆𝐼𝑃61 = 𝑏𝑃61 − 𝑎𝑃61
max{𝑏𝑃61 , 𝑎𝑃61 }= 14,720 − 11,855
max{14,720; 11,855}= 0,194 mean 62,19162 19,69739 14,72075