PENUTUP - IMPLEMENTASI DATA MINING DALAM PENGELOMPOKAN PEMAIN SEPAKBOLA MENGGUNAKAN ALGORITMA A

4. Analisis Hasil

Pada tahap ini akan dilakukan analisis hasil di mana untuk mengetahui hasil keakuratan metode menggunakan confusion matrix.

1.7 Sistematika Penulisan

Dalam penulisan tugas akhir ini dibagi dalam beberapa bagian utama yang dirincikan sebagai berikut:

1. BAB I PENDAHULUAN

Bagian ini berisi tentang deskripsi umum tugas akhir yang meliputi latar belakang masalah, rumusan masalah, tujuan penelitian, batasan penelitian, serta sistematika penulisan.

2. BAB II TINJAUAN PUSTAKA

Pada bab ini diuraikan landasan teori dan masalah yang berhubungan dengan metode data mining terutama AHC (Agglomerative Hierarchical Clustering ) untuk mengclustering penempatan posisi pemain sepak bola.

3. BAB III METODOLOGI PENELITIAN

Bagian ini menjelaskan tentang metodologi penelitian, identifikasi masalah, teknik pengumpulan data, analisis algoritma dan alat bantu dalam penelitian.

4. BAB IV IMPLEMENTASI DAN ANALISIS SISTEM Bagian ini membahas analisis terhadap masalah penelitian dan preprocessing data, desain interface, pengujian dan pengukuran akurasi.

5. BAB V PENUTUP

Bab ini berisikan kesimpulan dan saran untuk pengembangan system lebih lanjut.

6 BAB II LANDASAN TEORI

LANDASAN TEORI

2.1 Posisi Pemain Sepak Bola

Posisi pemain sepak bola merupakan hal yang sangat penting bagi seorang pemain maupun tim. Kesalahan dan kurang optimalnya posisi pemain dapat menjadi faktor kekalahan dalam sebuah pertandingan. Oleh karena itu penentuan posisi pemain menjadi faktor yang sangat penting dalam permainan sepak bola ( Pratama, Santoso., dan Sari. (2018).

Penulis Menentukan posisi pemain sepak bola menjadi 4 cluster yang terdiri dari penyerang (striker), gelandang (midfielder), bertahan (defender), kiper (goalkeeper). Penyerang merupakan posisi pemain sepak bola yang berposisi di lini depan pertahanan lawan, penyerang bertugas untuk mencetak gol di gawang lawan. Gelandang merupakan posisi pemain yang berposisi di tengah lapangan, yang mempunyai tugas untuk menahan serangan striker lawan dan menyuplai bola untuk penyerang. Deffender adalah posisi pemain sepak bola yang berada di garis pertahanan, defender bertugas untuk menghalau serangan dari striker lawan. Kiper merupakan posisi pemain sepak bola yang berposisi menjaga gawang, kiper mempunyai tugas untuk menangkap segala tendangan dari striker lawan agar tidak terjadinya gol.

Posisi pemain sepak bola sangat penting dalam berjalanya pertandingan, karena penempatan posisi pemain menentukan berjalan baik tidaknya sebuah pertandingan. Dengan penempatan posisi pemain yang baik dan tepat akan mempermudah sebuah tim untuk meraih kemenangan.

2.2 Data Mining

Data mining adalah suatu istilah yang digunakan untuk menguraikan penemuan pengetahuan di dalam database. Data mining adalah proses yang menggunakan teknik statistic, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar (Turban, dkk. 2005).

Data mining mengacu pada mining knowledge dari data dalam jumlah besar (Han & Kamber, 2006). Secara umum data mining dikenal dengan proses Knowledge Discovery from Data (KDD). Proses KDD sebagai berikut:

1. Pembersihan data (Data Cleaning)

Proses pembersihan data atau data cleaning dilakukan untuk menghilangkan noise dan data yang tidak konsisten.

2. Integrasi data (Data Integration)

Proses data integrasi adalah proses menggabungkan data dari sumber data yang berbeda.

3. Seleksi data ( Data Selection)

Seleksi data atau data selection adalah proses memilih data atau atribut yang relevan untuk atribut ini. Pada tahap ini dilakukan analisis korelasi atribut data. Atribut – atribut data tersebut dicek apakah relevan untuk dilakukan penambangan data.

4. Transformasi data (Data Transformation)

Transformasi atau data transformation proses menggabungkan data ke dalam bank yang sesuai untuk ditambang.

5. Penambangan data (Data Mining)

Langkah ini adalah langkah paling penting yaitu melakukan pengaplikasian metode yang tepat untuk pola data.

8 6. Evaluasi pola (Pattern Evaluation)

Pada langkah ini dilakukan identifikasi pola dalam bentuk pengetahuan berdasarkan beberapa pengukuran yang penting.

7. Presentasi pengetahuan (Knowledge Presentation)

Pada langkah ini dilakukan proses penyajian pengetahuan dari hasil penambangan data. hasil klasifikasi data nasabah akan ditampilkan ke dalam bentuk yang mudah dipahami user/pengguna.

Menurut (Larose, 2005) data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan, yaitu:

a. Deskripsi

Terkadang peneliti dan analisis secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data.

b. Estimasi

Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi lebih ke arah numerik dari pada ke arah kategori.

c. Prediksi

Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa mendatang.

d. Klasifikasi

Dalam klasifikasi, terdapat target variabel kategori. Model data mining memeriksa serangkaian record yang besar, masing-masing record berisi informasi tentang target variabel serta rangkaian input atau prediktor variabel.

e. Pengklusteran

Clustering merupakan suatu metode untuk mencari dan mengelompokkan data yang memiliki kemiripan karakteristik (similarity) antara satu data dengan data yang lain. Clustering merupakan salah satu metode data mining yang bersifat tanpa arahan (unsupervised).

9 f. Asosiasi

Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam suatu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja.

2.3 Clustering

Clustering merupakan salah satu metoda dalam data mining yang dapat digunakan untuk memetakan data kedalam kelompok kelompok yang lebih kecil berdasarkan kesamaan karakteristik yang dimilikinya (Perim, Wandekokem, & Varejão, 2008).

Menurut Han dan Kamber, 2012, syarat sekaligus tantangan yang harus dipenuhi oleh suatu algoritma clustering adalah:

1. Skalabilitas

Suatu metode clustering harus mampu menangani data dalam jumlah yang besar. Saat ini data dalam jumlah besar sudah sangat umum digunakan dalam berbagai bidang misalnya saja suatu database.

Tidak hanya berisi ratusan objek, suatu database dengan ukuran besar bahkan berisi lebih dari jutaan objek.

2. Kemampuan analisa beragam bentuk data

Algoritma klasterisasi harus mampu diimplementasikan pada berbagai macam bentuk data seperti data nominal, ordinal maupun gabungannya.

3. Menemukan cluster dengan bentuk yang tidak terduga

Banyak algoritma clustering yang menggunakan metode Euclidean atau Manhattan yang hasilnya berbentuk bulat. Padahal hasil clustering dapat berbentuk aneh dan tidak sama antara satu dengan yang lain. Karenanya dibutuhkan kemampuan untuk menganalisa cluster dengan bentuk apapun pada suatu algoritma clustering.

10 4. Kemampuan untuk dapat menangani noise

Data tidak selalu dalam keadaan baik. Ada kalanya terdapat data yang rusak, tidak dimengerti atau hilang. Karena system inilah, suatu algortima clustering dituntut untuk mampu menangani data yang rusak.

5. Sensitivitas terhadap perubahan input

Perubahan atau penambahan data pada input dapat menyebabkan terjadi perubahan pada cluster yang telah ada bahkan bisa menyebabkan perubahan yang mencolok apabila menggunakan algoritma clustering yang memiliki tingkat sensitivitas rendah.

6. Mampu melakukan clustering untuk data dimensi tinggi

Suatu kelompok data dapat berisi banyak dimensi ataupun atribut.

Untuk itu diperlukan algoritma clustering yang mampu menangani data dengan dimensi yang jumlahnya tidak sedikit.

7. Interpretasi dan kegunaan

Hasil dari clustering harus dapat diinterpretasikan dan berguna.

2.4 Agglomerative Hierarchical Clustering(AHC)

Agglomerative Hierarchical Clustering(AHC) adalah Clustering dengan pendekatan hirarki akan mengelompokan data yang mirip dalam hirarki yang sama dan yang tidak mirip di hirarki yang agak jauh.

Terdapat dua metode yang sering digunakan yaitu agglomerative hierarchical clustering dan divisive hierarchical clustering. Agglomerative melakukan clustering dari N cluster menjadi satu kesatuan cluster, dimana N adalah jumlah data, sebaliknya divisive melakukan proses clustering dari satu cluster menjadi N cluster (Everitt dkk., 2011).

11 a) Single Linkage

Metode Single Linkage clustering (SL) juga disebut pencarian partner berdasarkan jarak terdekat (SL). Asumsikan G dan H adalah dua cluster yang akan digabungkan bersama. Kemudian hitung jarak dsl (G, H) dengan membandingkan pertidaksamaan jarak antara setiap anggota kelompok dan 𝐺_𝑖 dan jarak antara setiap anggota kelompok dan 𝐻_𝑖, kemudian dicari pasangan terdekat.

𝑑𝑠𝑙(𝐺, 𝐻) = min⁡(𝑑_𝑖𝑖); I ∈ G ; I’ ∈ H (2.1) b) Complete Linkage

Metode complete link clustering (CL) juga disebut metode teknik furthest neighbor technique. Secara umum tahapan metode ini hampir sama dengan metode single link, namun pada pencarian berpasangan, metode full link menemukan pasangan yang terjauh dari pengamatan.

𝑑_𝐶𝐿(𝐺, 𝐻) = max(𝑑_𝑖𝑖^′) ; 𝑖 ∈ G; 𝑖⁡ ∈ 𝐻⁡ (2.2) c) Average Linkage

Metode Average Linkage sering juga disebut sebagai Group Average (GA). Metode ini dalam prosesnya yaitu mencari pasangan ditentukan dengan melihat rata-rata jarak setiap nilai observasinya.

𝑑_𝐺𝐴(𝐺, 𝐻) = ¹

𝑁_𝐺𝑁_𝐻+ ∑ 𝑖⁡ ∈ G⁡ ∑ 𝑖^′ ∈ 𝐻⁡ 𝑑_𝑖𝑖′ (2.3)

Hierarchical clustering dapat digambarkan melalui dendogram dengan membuat matriks kesamaan yang berisi kesamaan antar data yang dikelompokkan. Berbagai cara seperti jarak dari Manhattan dapat digunakan untuk menghitung kemiripan. Jarak yang dihitung dari jarak Manhattan dan jarak Euclidean ditampilkan pada rumus (2.4) dan (2.5)

a. Manhattan Distance 𝐷_𝑚𝑎𝑛(𝑥, 𝑦) = ∑ |𝑥_𝑗−

𝑑 𝑗=1

𝑦_𝑗| (2.4)

12 b. Euclidean Distance

𝐷_(𝑋₂_,𝑥₁₎= √∑^𝑑_𝑗=1|𝑥_2𝑗− ⁡ 𝑥_1𝑗|² (2.5) Dibawah ini merupakan contoh perhitungan data menggunakan metode Agglomerative Hierarchical Clustering dengan pendekatan Single-Linkage. Dengan perhitungan jarak Euclidean.

2.5 Preprocessing Data

2.5.1 Data Selection

Pada tahap ini penulis hanya menggunakan atribut yang penulis butuhkan. Jumlah atribut ada 122 atribut dan diseleksi menjadi 27 atribut dikarenakan tidak semua atribut dapat digunakan, karena data ini berasal dari game Pro Evolution Soccer 2020 (PES 2020). Pemilihan atribut ini berdasarkan rekomendasi rekomendasi Reza Furqoni, mantan pemain PSS Sleman 2015-2016 yang sekarang melatih di SSB CMB mengenai nilai yang menentukan posisi seorang pemain berada di posisi yang tepat.

2.5.2 Normalisasi Min-Max

Metode Min-Max merupakan metode normalisasi dengan rumus : 𝑋_{𝑛𝑜𝑟𝑚} = ⁡ ^{𝑋−⁡𝑀𝑖𝑛}^𝑥

𝑀𝑎𝑥𝑥−⁡𝑀𝑖𝑛𝑥(𝑀𝑎𝑥_𝑛𝑒𝑤− 𝑀𝑖𝑛_𝑛𝑒𝑤) + 𝑀𝑖𝑛_𝑛𝑒𝑤 (2.6) Keterangan :

X = data awal

Xnorm = data hasil normalisasi Min_x = nilai minimum dari data Max_x = nilai maksimum dari data

Max_new = skala maksimum yang kita berikan Min_new = skala minimum yang kita berikan

13 Langkah awal normalisasi min-max yaitu menentukan nilai minimum(MIN) dan menentukan nilai maksimum(MAX) dari semua atribut data yang akan diolah. Hasil contoh data yang diolah menggunakan Min-Max sebagai berikut :

2.5.3 Metode Z-Score

merupakan metode normalisasi dengan rumus :

𝑥

^∗=⁡^𝑋^∗^{−𝑚𝑒𝑎𝑛(𝑥)}

𝑆𝐷(𝑋) (2.7)

Keterangan:

X* = data hasil proses normalisasi

X = data yang akan dilakukan proses normalisasi Mean(X) = nilai rata-rata data yang akan dilakukan proses normalisasi

SD(X) = nilai standar deviasi dari data yang akan dilakukan proses normalisasi

2.6 Silhouette Index

a. Silhouette index

Penulis menggunakan Silhouette index untuk menghitung keakuratan suatu data pada cluster-nya. Data yang ditampilkan berupa angka, ketika hasil data mendekati satu maka semakin baik akurasi pada clusternya. Di dalam silhouette index (koefisien siluet) yaitu metode pengukuran yang mengkombinasikan kohesi dan separasi. Penghitungan koefisien siluet untuk suatu titik tunggal melalui proses tiga tahap

1. Pada objek ke i, dihitung jarak rata - rata terhadap semua objek yang lain dalam klaster

𝑎₁ = ¹

𝑚𝑗−1∑^𝑚𝑗_𝑟=1𝑑

𝑟=1

(𝑥_𝑖^𝑗, 𝑥_𝑟^𝑗) (2.8)

data-Iterhadap semua data lainya dalam satu cluster

2. Pada objek ke i, dihitung jarak rata - rata terhadap semua objek lain di klaster lain, yang kemudian disebut dengan

𝑏₁ = 𝑚𝑖𝑛{ ¹

3. Menghitung nilai Silhouette Index data ke-I.

𝑆𝐼_𝑖^𝑗 = ^𝑏^𝑖

15 4. Menghitung Si sebuah cluster

𝑆𝐼_𝐽 = ¹

𝑚_𝐽∑^𝑚_𝑖=1^𝑗 𝑆𝐼_𝑚^𝑗 (2.11)

Keterangan : 𝑆𝐼_𝑖 = rata rata nilaiSilhouette Index cluster j 𝑏_𝑖^𝑗 = jumlah data dalam cluster ke-j

⁡𝑎_𝑖^𝑗 = Silhourtte Index dari data ke-i

5. Menghitung SI global 𝑆𝐼 = ¹

6. Menghitung Silhouette Coefficient

SC=𝑀𝑎𝑥_𝑘SI(k) (2.13)

Keterangan : SC = Silhouette Coefficient SI = Silhouette index K = Jumlah cluster

Koefisien siluet untuk suatu titik didapatkan dengan : s = 1 -a/b jika a < b

s= b/a –1 jika a ≥ b

Nilai koefisien siluet bervariasi antara - 1 dan 1. Nilai negatif tidak diinginkan sebab nilai ai adalah rata-rata jarak dari titik ke klaster. Nilai koefisien rata- rata setiap titik yang paling baik adalah yang semakin mendekati angka 1. (Sumadyo. M, 2017).

16 BAB III METODE PENELITIAN METODE PENELITIAN

3.1. Data

Dalam penelitian ini, data yang digunakan adalah data game pro evolution soccer 2020 yang diperoleh dari www.konami.com. Data yang diperoleh sebanyak 15036 data. Pada tahap ini penulis hanya menggunakan atribut yang dibutuhkan. Jumlah atribut ada 122 atribut dan diseleksi menjadi 27 atribut dikarenakan tidak semua atribut dapat digunakan, data ini berasal dari game Pro Evolution Soccer 2020 (PES 2020). Pemilihan atribut ini berdasarkan rekomendasi ahli mengenai nilai yang menentukan posisi seorang pemain berada di posisi yang tepat. Berikut adalah penjelasan dari masing-masing atribut.

17 Tabel 3.1 Data atribut

No. Atribut Keterangan nilai

1 Offensive awareness

Menunjukkan seberapa cepat pemain bisa merespon bola saat menyerang. 88

2 Ball control

Menunjukkan seberapa mahir seorang pemain dalam mengontrol bola secara umum. Memengaruhi perangkap dan tipuan.

3 Dribbling

Menunjukkan seberapa mahir pemain dalam mempertahankan penguasaan bola sambil menggiring bola dengan cepat.

4 Tight

possession

Menunjukkan seberapa terampil seorang pemain dalam melakukan belokan sambil menggiring bola dengan kecepatan rendah.

5 Low pass

Menunjukkan seberapa akurat seorang pemain saat memainkan

operan rendah di sepanjang tanah. 86

6 Lofted pass

Menunjukkan keakuratan umpan

pemain yang di-loft. 84

7 Finishing

Menunjukkan akurasi tembakan

pemain. 86

Menunjukkan akurasi pemain dari bola mati termasuk tendangan bebas

dan penalti. 90

10 Curl

Menunjukkan seberapa banyak curl yang bisa dilakukan pemain pada

bola. 89

11 Speed

Mengidentifikasi seberapa cepat pemain berlari dan saat kehilangan

bola. 89

12 Acceleration

Menunjukkan seberapa cepat pemain dapat mencapai kecepatan lari

puncaknya. 93

Menunjukkan seberapa tinggi pemain

bisa melompat. 66

15 Physical contact

Semakin tinggi nilainya, semakin baik pemain tersebut dalam

memenangkan tantangan dan tidak kehilangan keseimbangan saat bersentuhan dengan pemain lain.

19 16 Balance

Semakin tinggi nilainya, semakin baik pemain tersebut menghindari tekel dan menjaga keseimbangannya saat bersentuhan dengan pemain lain.

17 Stamina

Menunjukkan tingkat kebugaran dan

daya tahan pemain. 82

18 Defensive awareness

Menunjukan seberapa cepat respon

pemain bertahan. 48

19 Ball win

Semakin tinggi nilainya, semakin baik pemain tersebut untuk mendapatkan bola dan mempertahankanya.

20 Aggression

Menunjukkan seberapa agresif pemain akan mencoba mencuri bola

selama tantangan. 58

21 Gk

awareness

Menunjukkan seberapa cepat pemain dapat merespon bola saat bermain di gawang.

22 Gk catching

Menunjukkan kemampuan penjaga gawang untuk menangkap bola. Nilai yang lebih tinggi berarti kiper dapat menangkap tembakan yang lebih kuat.

23 Gk clearing

Menunjukkan kemampuan penjaga gawang untuk menjatuhkan bola ke

area aman. 40

20 24 Gk reflexes

Menunjukkan kemampuan penjaga gawang untuk melakukan

penyelamatan dengan cepat. 40

25 Gk reach

Menunjukkan jangkauan kiper atas gawang dan ukuran area di mana dia

bisa melakukan penyelamatan 40

26 Height Menunjukan tinggi badan pemain. 175 27 Weight Menunjukan berat badan pemain. 68

3.2. Design Pembuatan Alat Uji

Pada penelitian ini dilakukan pengujian apakah metode Agglomerative Hierarchical Clustering akurat mendapatkan akurasi dengan alat uji yang disajikan dalam bentuk diagram blok.

Gambar 3.1 Gambaran Umum Sistem

Gambar 3.1 diatas menjelaskan Proses data dipanggil dan diolah pada tahap preprosessing. Tahap ini dimulai dari transformasi, normalisasi, dan data selection. Tahap selanjutnya yaitu perhitungan jarak menggunakan manhattan distance dan euclidean distance. Selanjutnya data akan masuk ke proses cluster dengan menggunakan metode agglomerative hierarchical clustering yang memiliki 3 metode yaitu single linkage, complete linkage, dan average linkage. Hasil dari metode tersebut akan menghasilkan output berupa dendogram dan akurasi.

21 3.3. Preprocessing

Tahap preprocessing dilakukan sesuai dengan aturan Knowledge Discovery in Database atau dikenal dengan istilah KDD. Pada proses ini aturan KDD yang dilakukan untuk data dalam penelitian ini adalah data selection. Berikut adalah proses aturan KDD yang dilakukan pada data:

3.3.1 Data Selection

Pada tahap ini penulis hanya menggunakan atribut yang penulis butuhkan. Jumlah atribut ada 122 atribut dan diseleksi menjadi 27 atribut dikarenakan tidak semua atribut dapat digunakan, karena data ini berasal dari game Pro Evolution Soccer 2020 (PES 2020). Pemilihan atribut ini berdasarkan rekomendasi Reza Furqoni, mantan pemain PSS Sleman 2015-2016 yang sekarang melatih di SSB Amtri, mengenai nilai-nilai yang menentukan posisi seorang pemain sepakbola berada di posisi yang tepat.

Hasil dari selection attribute disajikan dalam Tabel 3.2.

Tabel 3.2 Atribut yang digunakan dalam penelititan menurut rekomendasi ahli

Pada tahap ini dilakukan proses normalisasi data, yaitu mengolah data mentah menjadi data baru guna melihat perbedaan hasil dan kualita cluster yang terbentuk pada jenis data. Pada tahap ini penulis menggunakan normalisasi Min-Max dan Z-score.

A. Normalisasi Min-Max

Langkah awal normalisasi min-max yaitu menentukan nilai minimum(MIN) dan menentukan nilai maksimum(MAX) dari semua atribut data yang akan diolah. Hasil contoh data yang diolah menggunakan Min-Max dengan menggunakan persamaan (2.6) sebagai berikut :

23 Tabel 3.3 Hasil normalisasi Min-Max

B. Normalisasi Z-Score

Hasil contoh data yang diolah menggunakan Z-Score dengan menggunakan persamaan (2.7) sebagai berikut :

Tabel 3.4 Hasil normalisasi Z-Score

3.4. Agglomerative Hierarchical Clustering

Setelah proses perhitungan jarak dilakukan, maka tahap selanjutnya melakukan pengolahan data dengan Agglomerative Hierarchical Clustering.

Pendekatan yang dilakukan menggunakan metode single linkage, complete linkage, Average linkage.

Adapun langkah pengerjaanya sebagai berikut:

1. Menghitung jarak antar data menggunakan pendekatan Euclidean distance menggunakan persamaan (2.5)

2. Menggabungkan 2 kelompok terdekat berdasarkan parameter kedekatan yang ditentukan.

3. Memperbaharui matrik jarak antar data untuk mempresentasikan kedekatan diantara kelompok baru dan kelompok masih tersisa.

1 2 3 4 5 6 7 8 9 10

24 4. Mengulangi langkah 2 dan 3 hingga hanya satu kelompok yang

tersisa.

Contoh Data ditampilkan pada Gambar 3.3 sebagai berikut:

Gambar 3.3 Data

menghitung jarak antar data sampel dengan persamaan eucludien distance (2.5) ditampikan pada Gambar 3.4 sebagai berikut :

Gambar 3.4 Perhitungan jarak Euclidean Distance

A. Menerapkan salah satu dari 3 metode pendekatan agglomerative hierarchical clustering , yaitu single linkage dengan persamaan (2.1). Setelah dihitung secara manual terdapat 6 iterasi. Pada iterasi ke 6 yang ditunjukan pada Gambar 3.5 dibawah :

P1 0 70,81666 47,81213 60,38212 48,20788 52,49762 70,78135 60,77006 P2 70,81666 0 29,10326 23,34524 29,74895 23,68544 11,35782 15,42725 P3 47,81213 29,10326 0 16,30951 9,273618 6,78233 26,68333 17,11724 P4 60,38212 23,34524 16,30951 0 13,34166 9,899495 17,14643 12,84523 P5 48,20788 29,74895 9,273618 13,34166 0 7,348469 27,01851 16,21727 P6 52,49762 23,68544 6,78233 9,899495 7,348469 0 21,40093 11,26943 P7 70,78135 11,35782 26,68333 17,14643 27,01851 21,40093 0 15,32971 P8 60,77006 15,42725 17,11724 12,84523 16,21727 11,26943 15,32971 0

25 Gambar 3.5 Perhitungan Single Linkage

Dengan membandingkan mana nilai terkecil dari P2 dengan P7P8P4P5P3P6 maka menghasilkan cluster baru P2P7P8P4P5P3P6 sebagai berikut :

Gambar 3.6 Hasil iterasi 6

Iterasi berhenti ketika tidak ada nilai yang dapat dibandingkan lagi, seperti tabel diatas. Berdasarkan perhitungan diatas diperoleh 2 cluster dimana cluster pertama berisi P1 dan cluster kedua berisi P2P7P8P4P5P3P6.

B. Menerapkan salah dua dari 3 metode pendekatan agglomerative hierarchical clustering , yaitu complete linkage dengan persamaan (2.2). Setelah dihitung secara manual terdapat 6 iterasi. Pada iterasi ke 6 yang ditunjukan pada Gambar 3.7 dibawah :

Gambar 3.7 Perhitungan Complete Linkage ITERASI 6

P1 P2 P7P8P4P5P3P6 P2P7P8P4P5P3P6

P1 0 70,81666 47,81213235 47,81213235

P2 70,81666 0 11,35781669 0

P7P8P4P5P3P6 47,81213 11,35782 0 0

P2P7P8P4P5P3P6 47,81213 0 0 0

HASIL ITERASI 6

P3 0 9,273618 47,81213235 47,81213235

0 0

P5 9,273618 0 48,20788317 48,20788317

P1P2P7P4P8P6 47,81213 48,20788 70,81666471 70,81666471 P1P2P7P4P8P6P5 47,81213 48,20788 70,81666471 70,81666471

26 Dengan membandingkan mana nilai maksimal dari P5 dengan P1P2P7P4P8P6 maka menghasilkan cluster baru P1P2P7P4P8P6P5.

Gambar 3.8 Hasil Iterasi 6

C. Menerapkan perhitungan yang ke 3 yaitu metode pendekatan agglomerative hierarchical clustering average linkage dengan persamaan (2.3). Setelah dihitung secara manual terdapat 6 iterasi. Pada iterasi ke 6 yang ditunjukan pada Gambar 3.9 dibawah:

Gambar 3.9 Perhitungan Average Linkage.

Dengan membandingkan mana nilai rata-rata dari P2 dengan P3P6P5P4P8P7 maka menghasilkan cluster baru P3P6P5P4P8P7P2

ITERASI 6

P1 0 70,81666 64,27862834 67,54764652

P2 70,81666 0 15,9628312 7,9814156

P3P6P5P4P8P7 64,27863 15,96283 11,41157786 13,68720453 P3P6P5P4P8P7P2 67,54765 7,981416 13,68720453 10,83431007

27 Gambar 3.10 Hasil iterasi ke 6.

3.5. Uji Validasi Cluster

Penulis menggunakan Silhouette index untuk menghitung keakuratan suatu data pada cluster-nya.

1. Langkah pertama

Menghitung terlebih dahulu jarak kedekatan tiap cluster menggunakan euclidean distance dengan persamaan (2.1).

Gambar 3.11, 3.12, memperlihatkan hasil perhitungan jarak menggunakan euclidean distance untuk cluster 1 dan 2.

Gambar 3.11 Hasil Euclidean Distance untuk Cluster 1

Gambar 3.12 Hasil Euclidean Distance untuk Cluster 2 ITERASI 6

P1 P3P6P5P4P8P7P2

P1 0 67,54764652

P3P6P5P4P8P7P2 67,54765 10,83431007

P2 P4 P5 P7 P8

P2 0 23,34524 29,74895 11,35782 15,42725 P4 23,34524 0 13,34166 17,14643 12,84523 P5 29,74895 13,34166 0 27,01851 16,21727 P7 11,35782 17,14643 27,01851 0 15,32971 P8 15,42725 12,84523 16,21727 15,32971 0

P1 P3 P6

P1 0 47,81213 52,49762

P3 47,81213 0 6,78233

P6 52,49762 6,78233 0

28 2. Langkah kedua

Menghitung nilai 𝑎₁ untuk kedua cluster menggunakan persamaan (2.1)

Berikut contoh menghitung 𝑎₁ pada cluster 1:

𝑎_𝑝2¹ = 1

Hasil 𝑎₁ dari setiap cluster-nya dapat dilihat pada Gambar 3.13, 3.14 untuk cluster 1 dan 2.

Menghitung jarak pada cluster yang berbeda dengan

menggunakan Euclidean Distance menggunakan persamaan (2.1)

dan menghitung rata-rata jarak. Contoh hitung jarak dari cluster 1 ke cluster 2 dapat dilihat pada Gambar 3.15.

29 Gambar 3.15 Hasil hitung jarak dari cluster 1 ke cluster 2

Hitung jarak dari cluster 2 ke cluster 1 dapat dilihat pada gambar 3.16.

Gambar 3.15 Hasil hitung jarak dari cluster 2 ke cluster 1

4. Langkah ke 4

Menghitung nilai 𝑏₁ untuk kedua cluster menggunakan persamaan (2.2).

Contoh menghitung 𝑏₁ untuk cluster 1 menggunakan rumus sebagai berikut:

𝑏_𝑖^𝑗= min⁡(𝑚𝑒𝑎𝑛⁡𝑐𝑙𝑢𝑠𝑡𝑒𝑟⁡2)

Hasil 𝑏₁ di setiap cluster-nya dapat dilihat pada Gambar 3.16

Gambar 3.16 Hasil 𝑏₁ untuk cluster 1

menghitung 𝑏₁ untuk cluster 1 menggunakan rumus sebagai berikut:

𝑏_𝑖^𝑗= min⁡(𝑚𝑒𝑎𝑛⁡𝑐𝑙𝑢𝑠𝑡𝑒𝑟⁡1)

P2 P4 P5 P7 P8

P1 70,81666 60,38212 48,20788 70,78135 60,77006 P3 29,10326 16,30951 9,273618 26,68333 17,11724 P6 23,68544 9,899495 7,348469 21,40093 11,26943 mean 41,20179 28,86371 21,60999 39,62187 29,71891

P1 P3 P6

mean 41,20179 28,86371 21,60999 39,62187 29,71891

30 Hasil 𝑏₁ di setiap cluster-nya dapat dilihat pada Gambar 3.17

Gambar 3.17 Hasil 𝑏₁ untuk cluster 2

5. Langkah ke 5

Menghitung nilai Silhouutte Index data ke-I menggunakan persamaan (2.1)

𝑆𝐼_𝑖^𝑗= 𝑏_𝑖^𝑗− 𝑎_𝑖^𝑗 max⁡{𝑏_𝑖^𝑗, 𝑎_𝑖^𝑗}

Hitung nilai SI untuk cluster 1:

𝑆𝐼_𝑃2¹ = 𝑏_𝑃2¹ − 𝑎_𝑃2¹

max⁡{𝑏_𝑃2¹ , 𝑎_𝑃2¹ }= 41,201 − 16,085

max⁡{41,201; 16,085}= 0,609 𝑆𝐼_𝑃4¹ = 𝑏_𝑃4¹ − 𝑎_𝑃4¹

max⁡{𝑏_𝑃4¹ , 𝑎_𝑃4¹ }= 28,863 − 13,334

max⁡{28,863; 13,334}= 0,538 𝑆𝐼_𝑃5¹ = 𝑏_𝑃5¹ − 𝑎_𝑃5¹

max⁡{𝑏_𝑃5¹ , 𝑎_𝑃5¹ }= 21,609 − 17,264

max⁡{21,609; 17,264}= 0,201 𝑆𝐼_𝑃7¹ = 𝑏_𝑃7¹ − 𝑎_𝑃7¹

max⁡{𝑏_𝑃7¹ , 𝑎_𝑃7¹ }= 39,621 − 14,170

max⁡{39,621; 14,170}= 0,642 𝑆𝐼_𝑃8¹ = 𝑏_𝑃8¹ − 𝑎_𝑃8¹

max⁡{𝑏_𝑃8¹ , 𝑎_𝑃8¹ }= 29,718 − 11,963

max⁡{29,718; 11,963}= 0,597 Hitung nilai SI untuk cluster 2:

𝑆𝐼_𝑃1¹ = 𝑏_𝑃1¹ − 𝑎_𝑃1¹

max⁡{𝑏_𝑃1¹ , 𝑎_𝑃1¹ }= 62,191 − 20,006

max⁡{62,191; 20,006}= 0,678 𝑆𝐼_𝑃3¹ = 𝑏_𝑃3¹ − 𝑎_𝑃3¹

max⁡{𝑏_𝑃3¹ , 𝑎_𝑃3¹ }= 19,697 − 10,910

max⁡{19,697; 10,910}= 0,446 𝑆𝐼_𝑃6¹ = 𝑏_𝑃6¹ − 𝑎_𝑃6¹

max⁡{𝑏_𝑃6¹ , 𝑎_𝑃6¹ }= 14,720 − 11,855

max⁡{14,720; 11,855}= 0,194 mean 62,19162 19,69739 14,72075

31 Hasil SI data ke-i di setiap cluster-nya dapat dilihat pada Tabel 3.5 dan 3.6 untuk cluster 1 dan 2 dibawah:

Tabel 3.5 Hasil SI untuk cluster 1

SI P2 SI P4 SI P5 SI P7 SI P8 0,609 0,538 0,201 0,642 0,597

Tabel 3.6 Hasil SI untuk cluster 2

6. Langkah ke 6

Menghitung nilai Silhouette Index setiap cluster menggunakan persamaan (2.1)

Hasil perhitungan Silhoette Index di setiap cluster-nya dapat dilihat pada tabel 3.7

Tabel 3.7 Hasil Perhitungan Silhouette Index dari sebuah cluster

SI Cluster 1 0,517

SI Cluster 2 0,439

7. Langkah Terakhir

Untuk memperoleh Silhouette Index Global didapatkan dengan menghitung rata-rata nilai Silhouette Index dari semua cluster.

Maka persamaan Silhouette Index Global dapat dihitung menggunakan persamaan (2.1)

sebagai berikut:

SI P1 SI P3 SI P6

0,678 0,446 0,194

32 𝑆𝐼 = 0,517 + 0,439

2 = 0,478

Didapatkan hasil Silhouette Index Global sebesar 0,478, sehingga hasil clustering ini memiliki struktur cluster termasuk ke dalam struktur lemah.

3.6 Perancangan Antar Muka Sistem

Gambar 3.17 Perancangan antar muka sistem

User Interface Implementasi Data Mining Dalam Pengelompokan Pemain Sepak Bola Menggunakan Algoritma Agglomerative Hierarchical Clustering. Dalam User Interface terdapat tombol Input data yang berfungsi untuk memasukan data yang akan diolah, kemudian data akan ditampilkan pada table data. Selanjutnya user memilih preprocessing apa yang akan digunakan antara non-normalisasi atau min-max normalisasi, ketika memilih maka tabel data akan langsung berubah sesuai dengan apa yang user pilih.

Dalam dokumen IMPLEMENTASI DATA MINING DALAM PENGELOMPOKAN PEMAIN SEPAKBOLA MENGGUNAKAN ALGORITMA AGGLOMERATIVE HIERARCHICAL CLUSTERING SKRIPSI. (Halaman 21-86)