4. Analisis Hasil
Pada tahap ini akan dilakukan analisis hasil di mana untuk mengetahui hasil keakuratan metode menggunakan confusion matrix.
1.7 Sistematika Penulisan
Dalam penulisan tugas akhir ini dibagi dalam beberapa bagian utama yang dirincikan sebagai berikut:
1. BAB I PENDAHULUAN
Bagian ini berisi tentang deskripsi umum tugas akhir yang meliputi latar belakang masalah, rumusan masalah, tujuan penelitian, batasan penelitian, serta sistematika penulisan.
2. BAB II TINJAUAN PUSTAKA
Pada bab ini diuraikan landasan teori dan masalah yang berhubungan dengan metode data mining terutama AHC (Agglomerative Hierarchical Clustering ) untuk mengclustering penempatan posisi pemain sepak bola.
3. BAB III METODOLOGI PENELITIAN
Bagian ini menjelaskan tentang metodologi penelitian, identifikasi masalah, teknik pengumpulan data, analisis algoritma dan alat bantu dalam penelitian.
4. BAB IV IMPLEMENTASI DAN ANALISIS SISTEM Bagian ini membahas analisis terhadap masalah penelitian dan preprocessing data, desain interface, pengujian dan pengukuran akurasi.
5. BAB V PENUTUP
Bab ini berisikan kesimpulan dan saran untuk pengembangan system lebih lanjut.
6 BAB II LANDASAN TEORI
LANDASAN TEORI
2.1 Posisi Pemain Sepak Bola
Posisi pemain sepak bola merupakan hal yang sangat penting bagi seorang pemain maupun tim. Kesalahan dan kurang optimalnya posisi pemain dapat menjadi faktor kekalahan dalam sebuah pertandingan. Oleh karena itu penentuan posisi pemain menjadi faktor yang sangat penting dalam permainan sepak bola ( Pratama, Santoso., dan Sari. (2018).
Penulis Menentukan posisi pemain sepak bola menjadi 4 cluster yang terdiri dari penyerang (striker), gelandang (midfielder), bertahan (defender), kiper (goalkeeper). Penyerang merupakan posisi pemain sepak bola yang berposisi di lini depan pertahanan lawan, penyerang bertugas untuk mencetak gol di gawang lawan. Gelandang merupakan posisi pemain yang berposisi di tengah lapangan, yang mempunyai tugas untuk menahan serangan striker lawan dan menyuplai bola untuk penyerang. Deffender adalah posisi pemain sepak bola yang berada di garis pertahanan, defender bertugas untuk menghalau serangan dari striker lawan. Kiper merupakan posisi pemain sepak bola yang berposisi menjaga gawang, kiper mempunyai tugas untuk menangkap segala tendangan dari striker lawan agar tidak terjadinya gol.
Posisi pemain sepak bola sangat penting dalam berjalanya pertandingan, karena penempatan posisi pemain menentukan berjalan baik tidaknya sebuah pertandingan. Dengan penempatan posisi pemain yang baik dan tepat akan mempermudah sebuah tim untuk meraih kemenangan.
7
2.2 Data Mining
Data mining adalah suatu istilah yang digunakan untuk menguraikan penemuan pengetahuan di dalam database. Data mining adalah proses yang menggunakan teknik statistic, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar (Turban, dkk. 2005).
Data mining mengacu pada mining knowledge dari data dalam jumlah besar (Han & Kamber, 2006). Secara umum data mining dikenal dengan proses Knowledge Discovery from Data (KDD). Proses KDD sebagai berikut:
1. Pembersihan data (Data Cleaning)
Proses pembersihan data atau data cleaning dilakukan untuk menghilangkan noise dan data yang tidak konsisten.
2. Integrasi data (Data Integration)
Proses data integrasi adalah proses menggabungkan data dari sumber data yang berbeda.
3. Seleksi data ( Data Selection)
Seleksi data atau data selection adalah proses memilih data atau atribut yang relevan untuk atribut ini. Pada tahap ini dilakukan analisis korelasi atribut data. Atribut β atribut data tersebut dicek apakah relevan untuk dilakukan penambangan data.
4. Transformasi data (Data Transformation)
Transformasi atau data transformation proses menggabungkan data ke dalam bank yang sesuai untuk ditambang.
5. Penambangan data (Data Mining)
Langkah ini adalah langkah paling penting yaitu melakukan pengaplikasian metode yang tepat untuk pola data.
8 6. Evaluasi pola (Pattern Evaluation)
Pada langkah ini dilakukan identifikasi pola dalam bentuk pengetahuan berdasarkan beberapa pengukuran yang penting.
7. Presentasi pengetahuan (Knowledge Presentation)
Pada langkah ini dilakukan proses penyajian pengetahuan dari hasil penambangan data. hasil klasifikasi data nasabah akan ditampilkan ke dalam bentuk yang mudah dipahami user/pengguna.
Menurut (Larose, 2005) data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan, yaitu:
a. Deskripsi
Terkadang peneliti dan analisis secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data.
b. Estimasi
Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi lebih ke arah numerik dari pada ke arah kategori.
c. Prediksi
Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa mendatang.
d. Klasifikasi
Dalam klasifikasi, terdapat target variabel kategori. Model data mining memeriksa serangkaian record yang besar, masing-masing record berisi informasi tentang target variabel serta rangkaian input atau prediktor variabel.
e. Pengklusteran
Clustering merupakan suatu metode untuk mencari dan mengelompokkan data yang memiliki kemiripan karakteristik (similarity) antara satu data dengan data yang lain. Clustering merupakan salah satu metode data mining yang bersifat tanpa arahan (unsupervised).
9 f. Asosiasi
Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam suatu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja.
2.3 Clustering
Clustering merupakan salah satu metoda dalam data mining yang dapat digunakan untuk memetakan data kedalam kelompok kelompok yang lebih kecil berdasarkan kesamaan karakteristik yang dimilikinya (Perim, Wandekokem, & VarejΓ£o, 2008).
Menurut Han dan Kamber, 2012, syarat sekaligus tantangan yang harus dipenuhi oleh suatu algoritma clustering adalah:
1. Skalabilitas
Suatu metode clustering harus mampu menangani data dalam jumlah yang besar. Saat ini data dalam jumlah besar sudah sangat umum digunakan dalam berbagai bidang misalnya saja suatu database.
Tidak hanya berisi ratusan objek, suatu database dengan ukuran besar bahkan berisi lebih dari jutaan objek.
2. Kemampuan analisa beragam bentuk data
Algoritma klasterisasi harus mampu diimplementasikan pada berbagai macam bentuk data seperti data nominal, ordinal maupun gabungannya.
3. Menemukan cluster dengan bentuk yang tidak terduga
Banyak algoritma clustering yang menggunakan metode Euclidean atau Manhattan yang hasilnya berbentuk bulat. Padahal hasil clustering dapat berbentuk aneh dan tidak sama antara satu dengan yang lain. Karenanya dibutuhkan kemampuan untuk menganalisa cluster dengan bentuk apapun pada suatu algoritma clustering.
10 4. Kemampuan untuk dapat menangani noise
Data tidak selalu dalam keadaan baik. Ada kalanya terdapat data yang rusak, tidak dimengerti atau hilang. Karena system inilah, suatu algortima clustering dituntut untuk mampu menangani data yang rusak.
5. Sensitivitas terhadap perubahan input
Perubahan atau penambahan data pada input dapat menyebabkan terjadi perubahan pada cluster yang telah ada bahkan bisa menyebabkan perubahan yang mencolok apabila menggunakan algoritma clustering yang memiliki tingkat sensitivitas rendah.
6. Mampu melakukan clustering untuk data dimensi tinggi
Suatu kelompok data dapat berisi banyak dimensi ataupun atribut.
Untuk itu diperlukan algoritma clustering yang mampu menangani data dengan dimensi yang jumlahnya tidak sedikit.
7. Interpretasi dan kegunaan
Hasil dari clustering harus dapat diinterpretasikan dan berguna.
2.4 Agglomerative Hierarchical Clustering(AHC)
Agglomerative Hierarchical Clustering(AHC) adalah Clustering dengan pendekatan hirarki akan mengelompokan data yang mirip dalam hirarki yang sama dan yang tidak mirip di hirarki yang agak jauh.
Terdapat dua metode yang sering digunakan yaitu agglomerative hierarchical clustering dan divisive hierarchical clustering. Agglomerative melakukan clustering dari N cluster menjadi satu kesatuan cluster, dimana N adalah jumlah data, sebaliknya divisive melakukan proses clustering dari satu cluster menjadi N cluster (Everitt dkk., 2011).
11 a) Single Linkage
Metode Single Linkage clustering (SL) juga disebut pencarian partner berdasarkan jarak terdekat (SL). Asumsikan G dan H adalah dua cluster yang akan digabungkan bersama. Kemudian hitung jarak dsl (G, H) dengan membandingkan pertidaksamaan jarak antara setiap anggota kelompok dan πΊπ dan jarak antara setiap anggota kelompok dan π»π, kemudian dicari pasangan terdekat.
ππ π(πΊ, π») = minβ‘(πππ); I β G ; Iβ β H (2.1) b) Complete Linkage
Metode complete link clustering (CL) juga disebut metode teknik furthest neighbor technique. Secara umum tahapan metode ini hampir sama dengan metode single link, namun pada pencarian berpasangan, metode full link menemukan pasangan yang terjauh dari pengamatan.
ππΆπΏ(πΊ, π») = max(πππβ²) ; π β G; πβ‘ β π»β‘ (2.2) c) Average Linkage
Metode Average Linkage sering juga disebut sebagai Group Average (GA). Metode ini dalam prosesnya yaitu mencari pasangan ditentukan dengan melihat rata-rata jarak setiap nilai observasinya.
ππΊπ΄(πΊ, π») = 1
ππΊππ»+ β πβ‘ β Gβ‘ β πβ² β π»β‘ πππβ² (2.3)
Hierarchical clustering dapat digambarkan melalui dendogram dengan membuat matriks kesamaan yang berisi kesamaan antar data yang dikelompokkan. Berbagai cara seperti jarak dari Manhattan dapat digunakan untuk menghitung kemiripan. Jarak yang dihitung dari jarak Manhattan dan jarak Euclidean ditampilkan pada rumus (2.4) dan (2.5)
a. Manhattan Distance π·πππ(π₯, π¦) = β |π₯πβ
π π=1
π¦π| (2.4)
12 b. Euclidean Distance
π·(π2,π₯1)= ββππ=1|π₯2πβ β‘ π₯1π|2 (2.5) Dibawah ini merupakan contoh perhitungan data menggunakan metode Agglomerative Hierarchical Clustering dengan pendekatan Single-Linkage. Dengan perhitungan jarak Euclidean.
2.5 Preprocessing Data
2.5.1 Data Selection
Pada tahap ini penulis hanya menggunakan atribut yang penulis butuhkan. Jumlah atribut ada 122 atribut dan diseleksi menjadi 27 atribut dikarenakan tidak semua atribut dapat digunakan, karena data ini berasal dari game Pro Evolution Soccer 2020 (PES 2020). Pemilihan atribut ini berdasarkan rekomendasi rekomendasi Reza Furqoni, mantan pemain PSS Sleman 2015-2016 yang sekarang melatih di SSB CMB mengenai nilai yang menentukan posisi seorang pemain berada di posisi yang tepat.
2.5.2 Normalisasi Min-Max
Metode Min-Max merupakan metode normalisasi dengan rumus : πππππ = β‘ πββ‘ππππ₯
πππ₯π₯ββ‘ππππ₯(πππ₯πππ€β ππππππ€) + ππππππ€ (2.6) Keterangan :
X = data awal
Xnorm = data hasil normalisasi Min_x = nilai minimum dari data Max_x = nilai maksimum dari data
Max_new = skala maksimum yang kita berikan Min_new = skala minimum yang kita berikan
13 Langkah awal normalisasi min-max yaitu menentukan nilai minimum(MIN) dan menentukan nilai maksimum(MAX) dari semua atribut data yang akan diolah. Hasil contoh data yang diolah menggunakan Min-Max sebagai berikut :
2.5.3 Metode Z-Score
merupakan metode normalisasi dengan rumus :
π₯
β=β‘πββππππ(π₯)ππ·(π) (2.7)
Keterangan:
X* = data hasil proses normalisasi
X = data yang akan dilakukan proses normalisasi Mean(X) = nilai rata-rata data yang akan dilakukan proses normalisasi
SD(X) = nilai standar deviasi dari data yang akan dilakukan proses normalisasi
2.6 Silhouette Index
a. Silhouette indexPenulis menggunakan Silhouette index untuk menghitung keakuratan suatu data pada cluster-nya. Data yang ditampilkan berupa angka, ketika hasil data mendekati satu maka semakin baik akurasi pada clusternya. Di dalam silhouette index (koefisien siluet) yaitu metode pengukuran yang mengkombinasikan kohesi dan separasi. Penghitungan koefisien siluet untuk suatu titik tunggal melalui proses tiga tahap
1. Pada objek ke i, dihitung jarak rata - rata terhadap semua objek yang lain dalam klaster
π1 = 1
ππβ1βπππ=1π
π=1
(π₯ππ, π₯ππ) (2.8)
14
data-Iterhadap semua data lainya dalam satu cluster
2. Pada objek ke i, dihitung jarak rata - rata terhadap semua objek lain di klaster lain, yang kemudian disebut dengan
π1 = πππ{ 1
3. Menghitung nilai Silhouette Index data ke-I.
ππΌππ = ππ
15 4. Menghitung Si sebuah cluster
ππΌπ½ = 1
ππ½βππ=1π ππΌππ (2.11)
Keterangan : ππΌπ = rata rata nilaiSilhouette Index cluster j πππ = jumlah data dalam cluster ke-j
β‘πππ = Silhourtte Index dari data ke-i
5. Menghitung SI global ππΌ = 1
6. Menghitung Silhouette Coefficient
SC=πππ₯πSI(k) (2.13)
Keterangan : SC = Silhouette Coefficient SI = Silhouette index K = Jumlah cluster
Koefisien siluet untuk suatu titik didapatkan dengan : s = 1 -a/b jika a < b
s= b/a β1 jika a β₯ b
Nilai koefisien siluet bervariasi antara - 1 dan 1. Nilai negatif tidak diinginkan sebab nilai ai adalah rata-rata jarak dari titik ke klaster. Nilai koefisien rata- rata setiap titik yang paling baik adalah yang semakin mendekati angka 1. (Sumadyo. M, 2017).
16 BAB III METODE PENELITIAN METODE PENELITIAN
3.1. Data
Dalam penelitian ini, data yang digunakan adalah data game pro evolution soccer 2020 yang diperoleh dari www.konami.com. Data yang diperoleh sebanyak 15036 data. Pada tahap ini penulis hanya menggunakan atribut yang dibutuhkan. Jumlah atribut ada 122 atribut dan diseleksi menjadi 27 atribut dikarenakan tidak semua atribut dapat digunakan, data ini berasal dari game Pro Evolution Soccer 2020 (PES 2020). Pemilihan atribut ini berdasarkan rekomendasi ahli mengenai nilai yang menentukan posisi seorang pemain berada di posisi yang tepat. Berikut adalah penjelasan dari masing-masing atribut.
17 Tabel 3.1 Data atribut
No. Atribut Keterangan nilai
1 Offensive awareness
Menunjukkan seberapa cepat pemain bisa merespon bola saat menyerang. 88
2 Ball control
Menunjukkan seberapa mahir seorang pemain dalam mengontrol bola secara umum. Memengaruhi perangkap dan tipuan.
91
3 Dribbling
Menunjukkan seberapa mahir pemain dalam mempertahankan penguasaan bola sambil menggiring bola dengan cepat.
96
4 Tight
possession
Menunjukkan seberapa terampil seorang pemain dalam melakukan belokan sambil menggiring bola dengan kecepatan rendah.
92
5 Low pass
Menunjukkan seberapa akurat seorang pemain saat memainkan
operan rendah di sepanjang tanah. 86
6 Lofted pass
Menunjukkan keakuratan umpan
pemain yang di-loft. 84
7 Finishing
Menunjukkan akurasi tembakan
pemain. 86
18
Menunjukkan akurasi pemain dari bola mati termasuk tendangan bebas
dan penalti. 90
10 Curl
Menunjukkan seberapa banyak curl yang bisa dilakukan pemain pada
bola. 89
11 Speed
Mengidentifikasi seberapa cepat pemain berlari dan saat kehilangan
bola. 89
12 Acceleration
Menunjukkan seberapa cepat pemain dapat mencapai kecepatan lari
puncaknya. 93
Menunjukkan seberapa tinggi pemain
bisa melompat. 66
15 Physical contact
Semakin tinggi nilainya, semakin baik pemain tersebut dalam
memenangkan tantangan dan tidak kehilangan keseimbangan saat bersentuhan dengan pemain lain.
63
19 16 Balance
Semakin tinggi nilainya, semakin baik pemain tersebut menghindari tekel dan menjaga keseimbangannya saat bersentuhan dengan pemain lain.
91
17 Stamina
Menunjukkan tingkat kebugaran dan
daya tahan pemain. 82
18 Defensive awareness
Menunjukan seberapa cepat respon
pemain bertahan. 48
19 Ball win
Semakin tinggi nilainya, semakin baik pemain tersebut untuk mendapatkan bola dan mempertahankanya.
49
20 Aggression
Menunjukkan seberapa agresif pemain akan mencoba mencuri bola
selama tantangan. 58
21 Gk
awareness
Menunjukkan seberapa cepat pemain dapat merespon bola saat bermain di gawang.
40
22 Gk catching
Menunjukkan kemampuan penjaga gawang untuk menangkap bola. Nilai yang lebih tinggi berarti kiper dapat menangkap tembakan yang lebih kuat.
40
23 Gk clearing
Menunjukkan kemampuan penjaga gawang untuk menjatuhkan bola ke
area aman. 40
20 24 Gk reflexes
Menunjukkan kemampuan penjaga gawang untuk melakukan
penyelamatan dengan cepat. 40
25 Gk reach
Menunjukkan jangkauan kiper atas gawang dan ukuran area di mana dia
bisa melakukan penyelamatan 40
26 Height Menunjukan tinggi badan pemain. 175 27 Weight Menunjukan berat badan pemain. 68
3.2. Design Pembuatan Alat Uji
Pada penelitian ini dilakukan pengujian apakah metode Agglomerative Hierarchical Clustering akurat mendapatkan akurasi dengan alat uji yang disajikan dalam bentuk diagram blok.
Gambar 3.1 Gambaran Umum Sistem
Gambar 3.1 diatas menjelaskan Proses data dipanggil dan diolah pada tahap preprosessing. Tahap ini dimulai dari transformasi, normalisasi, dan data selection. Tahap selanjutnya yaitu perhitungan jarak menggunakan manhattan distance dan euclidean distance. Selanjutnya data akan masuk ke proses cluster dengan menggunakan metode agglomerative hierarchical clustering yang memiliki 3 metode yaitu single linkage, complete linkage, dan average linkage. Hasil dari metode tersebut akan menghasilkan output berupa dendogram dan akurasi.
21 3.3. Preprocessing
Tahap preprocessing dilakukan sesuai dengan aturan Knowledge Discovery in Database atau dikenal dengan istilah KDD. Pada proses ini aturan KDD yang dilakukan untuk data dalam penelitian ini adalah data selection. Berikut adalah proses aturan KDD yang dilakukan pada data:
3.3.1 Data Selection
Pada tahap ini penulis hanya menggunakan atribut yang penulis butuhkan. Jumlah atribut ada 122 atribut dan diseleksi menjadi 27 atribut dikarenakan tidak semua atribut dapat digunakan, karena data ini berasal dari game Pro Evolution Soccer 2020 (PES 2020). Pemilihan atribut ini berdasarkan rekomendasi Reza Furqoni, mantan pemain PSS Sleman 2015-2016 yang sekarang melatih di SSB Amtri, mengenai nilai-nilai yang menentukan posisi seorang pemain sepakbola berada di posisi yang tepat.
Hasil dari selection attribute disajikan dalam Tabel 3.2.
Tabel 3.2 Atribut yang digunakan dalam penelititan menurut rekomendasi ahli
22
Pada tahap ini dilakukan proses normalisasi data, yaitu mengolah data mentah menjadi data baru guna melihat perbedaan hasil dan kualita cluster yang terbentuk pada jenis data. Pada tahap ini penulis menggunakan normalisasi Min-Max dan Z-score.
A. Normalisasi Min-Max
Langkah awal normalisasi min-max yaitu menentukan nilai minimum(MIN) dan menentukan nilai maksimum(MAX) dari semua atribut data yang akan diolah. Hasil contoh data yang diolah menggunakan Min-Max dengan menggunakan persamaan (2.6) sebagai berikut :
23 Tabel 3.3 Hasil normalisasi Min-Max
B. Normalisasi Z-Score
Hasil contoh data yang diolah menggunakan Z-Score dengan menggunakan persamaan (2.7) sebagai berikut :
Tabel 3.4 Hasil normalisasi Z-Score
3.4. Agglomerative Hierarchical Clustering
Setelah proses perhitungan jarak dilakukan, maka tahap selanjutnya melakukan pengolahan data dengan Agglomerative Hierarchical Clustering.
Pendekatan yang dilakukan menggunakan metode single linkage, complete linkage, Average linkage.
Adapun langkah pengerjaanya sebagai berikut:
1. Menghitung jarak antar data menggunakan pendekatan Euclidean distance menggunakan persamaan (2.5)
2. Menggabungkan 2 kelompok terdekat berdasarkan parameter kedekatan yang ditentukan.
3. Memperbaharui matrik jarak antar data untuk mempresentasikan kedekatan diantara kelompok baru dan kelompok masih tersisa.
1 2 3 4 5 6 7 8 9 10
24 4. Mengulangi langkah 2 dan 3 hingga hanya satu kelompok yang
tersisa.
Contoh Data ditampilkan pada Gambar 3.3 sebagai berikut:
Gambar 3.3 Data
menghitung jarak antar data sampel dengan persamaan eucludien distance (2.5) ditampikan pada Gambar 3.4 sebagai berikut :
Gambar 3.4 Perhitungan jarak Euclidean Distance
A. Menerapkan salah satu dari 3 metode pendekatan agglomerative hierarchical clustering , yaitu single linkage dengan persamaan (2.1). Setelah dihitung secara manual terdapat 6 iterasi. Pada iterasi ke 6 yang ditunjukan pada Gambar 3.5 dibawah :
P1 0 70,81666 47,81213 60,38212 48,20788 52,49762 70,78135 60,77006 P2 70,81666 0 29,10326 23,34524 29,74895 23,68544 11,35782 15,42725 P3 47,81213 29,10326 0 16,30951 9,273618 6,78233 26,68333 17,11724 P4 60,38212 23,34524 16,30951 0 13,34166 9,899495 17,14643 12,84523 P5 48,20788 29,74895 9,273618 13,34166 0 7,348469 27,01851 16,21727 P6 52,49762 23,68544 6,78233 9,899495 7,348469 0 21,40093 11,26943 P7 70,78135 11,35782 26,68333 17,14643 27,01851 21,40093 0 15,32971 P8 60,77006 15,42725 17,11724 12,84523 16,21727 11,26943 15,32971 0
25 Gambar 3.5 Perhitungan Single Linkage
Dengan membandingkan mana nilai terkecil dari P2 dengan P7P8P4P5P3P6 maka menghasilkan cluster baru P2P7P8P4P5P3P6 sebagai berikut :
Gambar 3.6 Hasil iterasi 6
Iterasi berhenti ketika tidak ada nilai yang dapat dibandingkan lagi, seperti tabel diatas. Berdasarkan perhitungan diatas diperoleh 2 cluster dimana cluster pertama berisi P1 dan cluster kedua berisi P2P7P8P4P5P3P6.
B. Menerapkan salah dua dari 3 metode pendekatan agglomerative hierarchical clustering , yaitu complete linkage dengan persamaan (2.2). Setelah dihitung secara manual terdapat 6 iterasi. Pada iterasi ke 6 yang ditunjukan pada Gambar 3.7 dibawah :
Gambar 3.7 Perhitungan Complete Linkage ITERASI 6
P1 P2 P7P8P4P5P3P6 P2P7P8P4P5P3P6
P1 0 70,81666 47,81213235 47,81213235
P2 70,81666 0 11,35781669 0
P7P8P4P5P3P6 47,81213 11,35782 0 0
P2P7P8P4P5P3P6 47,81213 0 0 0
HASIL ITERASI 6
P3 0 9,273618 47,81213235 47,81213235
0 0
P5 9,273618 0 48,20788317 48,20788317
P1P2P7P4P8P6 47,81213 48,20788 70,81666471 70,81666471 P1P2P7P4P8P6P5 47,81213 48,20788 70,81666471 70,81666471
26 Dengan membandingkan mana nilai maksimal dari P5 dengan P1P2P7P4P8P6 maka menghasilkan cluster baru P1P2P7P4P8P6P5.
Gambar 3.8 Hasil Iterasi 6
Iterasi berhenti ketika tidak ada nilai yang dapat dibandingkan lagi, seperti tabel diatas. Berdasarkan perhitungan diatas diperoleh 2 cluster dimana cluster pertama berisi P3 dan cluster kedua berisi P1P2P7P4P8P6P5.
C. Menerapkan perhitungan yang ke 3 yaitu metode pendekatan agglomerative hierarchical clustering average linkage dengan persamaan (2.3). Setelah dihitung secara manual terdapat 6 iterasi. Pada iterasi ke 6 yang ditunjukan pada Gambar 3.9 dibawah:
Gambar 3.9 Perhitungan Average Linkage.
Dengan membandingkan mana nilai rata-rata dari P2 dengan P3P6P5P4P8P7 maka menghasilkan cluster baru P3P6P5P4P8P7P2
ITERASI 6
P1 0 70,81666 64,27862834 67,54764652
P2 70,81666 0 15,9628312 7,9814156
P3P6P5P4P8P7 64,27863 15,96283 11,41157786 13,68720453 P3P6P5P4P8P7P2 67,54765 7,981416 13,68720453 10,83431007
27 Gambar 3.10 Hasil iterasi ke 6.
Iterasi berhenti ketika tidak ada nilai yang dapat dibandingkan lagi, seperti tabel diatas. Berdasarkan perhitungan diatas diperoleh 2 cluster dimana cluster pertama berisi P1 dan cluster kedua berisi P3P6P5P4P8P7P2.
3.5. Uji Validasi Cluster
Penulis menggunakan Silhouette index untuk menghitung keakuratan suatu data pada cluster-nya.
1. Langkah pertama
Menghitung terlebih dahulu jarak kedekatan tiap cluster menggunakan euclidean distance dengan persamaan (2.1).
Gambar 3.11, 3.12, memperlihatkan hasil perhitungan jarak menggunakan euclidean distance untuk cluster 1 dan 2.
Gambar 3.11 Hasil Euclidean Distance untuk Cluster 1
Gambar 3.12 Hasil Euclidean Distance untuk Cluster 2 ITERASI 6
P1 P3P6P5P4P8P7P2
P1 0 67,54764652
P3P6P5P4P8P7P2 67,54765 10,83431007
P2 P4 P5 P7 P8
P2 0 23,34524 29,74895 11,35782 15,42725 P4 23,34524 0 13,34166 17,14643 12,84523 P5 29,74895 13,34166 0 27,01851 16,21727 P7 11,35782 17,14643 27,01851 0 15,32971 P8 15,42725 12,84523 16,21727 15,32971 0
P1 P3 P6
P1 0 47,81213 52,49762
P3 47,81213 0 6,78233
P6 52,49762 6,78233 0
28 2. Langkah kedua
Menghitung nilai π1 untuk kedua cluster menggunakan persamaan (2.1)
Berikut contoh menghitung π1 pada cluster 1:
ππ21 = 1
Hasil π1 dari setiap cluster-nya dapat dilihat pada Gambar 3.13, 3.14 untuk cluster 1 dan 2.
Menghitung jarak pada cluster yang berbeda dengan
menggunakan Euclidean Distance menggunakan persamaan (2.1)
dan menghitung rata-rata jarak. Contoh hitung jarak dari cluster 1 ke cluster 2 dapat dilihat pada Gambar 3.15.
29 Gambar 3.15 Hasil hitung jarak dari cluster 1 ke cluster 2
Hitung jarak dari cluster 2 ke cluster 1 dapat dilihat pada gambar 3.16.
Gambar 3.15 Hasil hitung jarak dari cluster 2 ke cluster 1
4. Langkah ke 4
Menghitung nilai π1 untuk kedua cluster menggunakan persamaan (2.2).
Contoh menghitung π1 untuk cluster 1 menggunakan rumus sebagai berikut:
πππ= minβ‘(ππππβ‘πππ’π π‘ππβ‘2)
Hasil π1 di setiap cluster-nya dapat dilihat pada Gambar 3.16
Gambar 3.16 Hasil π1 untuk cluster 1
menghitung π1 untuk cluster 1 menggunakan rumus sebagai berikut:
πππ= minβ‘(ππππβ‘πππ’π π‘ππβ‘1)
P2 P4 P5 P7 P8
P1 70,81666 60,38212 48,20788 70,78135 60,77006 P3 29,10326 16,30951 9,273618 26,68333 17,11724 P6 23,68544 9,899495 7,348469 21,40093 11,26943 mean 41,20179 28,86371 21,60999 39,62187 29,71891
P1 P3 P6
mean 41,20179 28,86371 21,60999 39,62187 29,71891
30 Hasil π1 di setiap cluster-nya dapat dilihat pada Gambar 3.17
Gambar 3.17 Hasil π1 untuk cluster 2
5. Langkah ke 5
Menghitung nilai Silhouutte Index data ke-I menggunakan persamaan (2.1)
ππΌππ= πππβ πππ maxβ‘{πππ, πππ}
Hitung nilai SI untuk cluster 1:
ππΌπ21 = ππ21 β ππ21
maxβ‘{ππ21 , ππ21 }= 41,201 β 16,085
maxβ‘{41,201; 16,085}= 0,609 ππΌπ41 = ππ41 β ππ41
maxβ‘{ππ41 , ππ41 }= 28,863 β 13,334
maxβ‘{28,863; 13,334}= 0,538 ππΌπ51 = ππ51 β ππ51
maxβ‘{ππ51 , ππ51 }= 21,609 β 17,264
maxβ‘{21,609; 17,264}= 0,201 ππΌπ71 = ππ71 β ππ71
maxβ‘{ππ71 , ππ71 }= 39,621 β 14,170
maxβ‘{39,621; 14,170}= 0,642 ππΌπ81 = ππ81 β ππ81
maxβ‘{ππ81 , ππ81 }= 29,718 β 11,963
maxβ‘{29,718; 11,963}= 0,597 Hitung nilai SI untuk cluster 2:
ππΌπ11 = ππ11 β ππ11
maxβ‘{ππ11 , ππ11 }= 62,191 β 20,006
maxβ‘{62,191; 20,006}= 0,678 ππΌπ31 = ππ31 β ππ31
maxβ‘{ππ31 , ππ31 }= 19,697 β 10,910
maxβ‘{19,697; 10,910}= 0,446 ππΌπ61 = ππ61 β ππ61
maxβ‘{ππ61 , ππ61 }= 14,720 β 11,855
maxβ‘{14,720; 11,855}= 0,194 mean 62,19162 19,69739 14,72075
31 Hasil SI data ke-i di setiap cluster-nya dapat dilihat pada Tabel 3.5 dan 3.6 untuk cluster 1 dan 2 dibawah:
Tabel 3.5 Hasil SI untuk cluster 1
SI P2 SI P4 SI P5 SI P7 SI P8 0,609 0,538 0,201 0,642 0,597
Tabel 3.6 Hasil SI untuk cluster 2
6. Langkah ke 6
Menghitung nilai Silhouette Index setiap cluster menggunakan persamaan (2.1)
Hasil perhitungan Silhoette Index di setiap cluster-nya dapat dilihat pada tabel 3.7
Tabel 3.7 Hasil Perhitungan Silhouette Index dari sebuah cluster
SI Cluster 1 0,517
SI Cluster 2 0,439
7. Langkah Terakhir
Untuk memperoleh Silhouette Index Global didapatkan dengan menghitung rata-rata nilai Silhouette Index dari semua cluster.
Maka persamaan Silhouette Index Global dapat dihitung menggunakan persamaan (2.1)
sebagai berikut:
SI P1 SI P3 SI P6
0,678 0,446 0,194
32 ππΌ = 0,517 + 0,439
2 = 0,478
Didapatkan hasil Silhouette Index Global sebesar 0,478, sehingga hasil clustering ini memiliki struktur cluster termasuk ke dalam struktur lemah.
3.6 Perancangan Antar Muka Sistem
Gambar 3.17 Perancangan antar muka sistem
User Interface Implementasi Data Mining Dalam Pengelompokan Pemain Sepak Bola Menggunakan Algoritma Agglomerative Hierarchical Clustering. Dalam User Interface terdapat tombol Input data yang berfungsi untuk memasukan data yang akan diolah, kemudian data akan ditampilkan pada table data. Selanjutnya user memilih preprocessing apa yang akan digunakan antara non-normalisasi atau min-max normalisasi, ketika memilih maka tabel data akan langsung berubah sesuai dengan apa yang user pilih.
User Interface Implementasi Data Mining Dalam Pengelompokan Pemain Sepak Bola Menggunakan Algoritma Agglomerative Hierarchical Clustering. Dalam User Interface terdapat tombol Input data yang berfungsi untuk memasukan data yang akan diolah, kemudian data akan ditampilkan pada table data. Selanjutnya user memilih preprocessing apa yang akan digunakan antara non-normalisasi atau min-max normalisasi, ketika memilih maka tabel data akan langsung berubah sesuai dengan apa yang user pilih.