i
PENERAPAN HIERARCHICAL K-MEANS
DALAM PENGELOMPOKAN NILAI UASBN SD
Oleh:
Yos Rio Puraga
165314041
PROGRAM STUDI INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
ii
APPLICATION OF HIERARCHICAL K-MEANS
IN CLUSTERING OF UASBN SD VALUE
Written By:
Yos Rio Puraga
165314041
INFORMATICS STUDY PROGRAM
DEPARTMENT OF INFORMATICS
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
2020
iii
v
HALAMAN PERSEMBAHAN
“Terkadang tak peduli seberapa pun keras usahamu, ada hal yang tidak akan berbuah manis.”
Karya ini saya persembahkan kepada: Tuhan Yesus Kristus Seluruh anggota keluarga saya, Dosen, Sahabat serta teman-teman saya Terima Kasih telah mendukung dan memberikan semangat.
viii
KATA PENGANTAR
Puji dan syukur penulis panjatkan kepada Tuhan Yang Maha Esa atas segala rahmat dan berkat yang telah diberikan sehingga penulis dapat menyelesaikan tugas akhir yang berjudul “Penerapan Hierarchical K-means Dalam Pengelompokan Nilai UASBN SD”.
Dalam penulisan karya ilmiah ini penulis juga tidak lupa mengucapkan terima kasih kepada seluruh pihak yang telah turut membantu dan juga memberi semangat dalam pengerjaan karya ini. Ucapan terima kasih penulis ucapkan kepada: 1. Tuhan Yesus Kristus yang selalu memberi berkat serta karunia-Nya yang
melimpah sehingga mempermudah dalam mengerjakan tugas akhir ini. 2. Keluarga, Bapak Yohanes Basuki, Ibu Mimin Purwanti, kakak Bondan
Yudha Pratomo, dan adik Chornael Damar Kusuma yang telah memberikan semangat yang sangat membantu penulis dalam pengerjaan, doa, dan dukungan berupa material dan non-material.
3. Bu Agnes Maria Polina S.Kom., M.Sc selaku dosen pembimbing yang telah memberikan bimbingan dan pengarahan kepada saya dalam pengerjaan tugas akhir ini.
4. Sahabat penulis Josphine Wahyu Suryakumala yang selalu memberikan waktunya dalam menghibur dan memberikan motivasi serta memberikan dukungan lainnya dalam pengerjaan skripsi maupun dalam perjalanan kuliah.
5. Norbertus Khrisna Pratama yang telah membantu saya dalam pengerjaan tugas akhir, dan juga seluruh teman-teman Informatika 2016 yang sudah membantu dan mendukung penulis dalam pengerjaan tugas akhir.
Penulis menyadari masih banyak kekurangan dalam penulisan tugas akhir ini. Semoga penelitian ini dapat berguna bagi pembaca, terutama teman-teman Informatika.
ix
ABSTRAK
Clustering merupakan metode Unsupervised Learning yang digunakan untuk pengelompokan pada data yang belum diketahui labelnya. K-means merupakan salah satu metode Clustering yang memiliki kemampuan mengelompokan data relatif cepat, tapi memiliki kesulitan menentukan Centroid awalnya. Maka fungsi dari metode Hierarchical ini untuk membantu memecahkan masalah penentuan Centroid awal dari metode K-means. Penelitian ini bertujuan untuk menerapkan kombinasi Hierarchical dan K-means untuk mengelompokan nilai UASBN SD dan mengetahui seberapa bagus hasil evaluasi dari Hierarchical K-means. Data nilai UASBN SD yang dipergunakan memiliki atribut nilai Bahasa Indonesia, Matematika dan IPA. Dengan menggunakan evaluasi Silhouette Coefficient untuk melakukan uji evaluasi terhadap metode Hierarchical K-means. Dengan menggunakan Hierarchical sebagai penentuan Centroid awal dari K-means, membuat iterasi K-means lebih singkat dan menghasilkan hasil yang baik. Hasil penelitian menunjukkan bahwa tanpa menggunakan normalisasi Min-max dan menerapkan 2 Cluster menghasilkan Silhouette Coefficient dengan nilai 0,646753 yang merupakan struktur terbaik dari berbagai percobaan.
Kata Kunci : Pengelompokan, Hierarchical means Clustering, Centroid K-means
x
ABSTRACT
Clustering is an Unsupervised Learning method used for grouping data that has not been labeled. K-means is a clustering method that has the ability to classify data relatively quickly, but has difficulty determining the centroid initially. Then the function of this Hierarchical method is to help solve the problem of determining the initial centroid from the K-means method. This study aims to apply the Hierarchical and K-means combination to classify the UASBN SD values and find out how good the evaluation results of the Hierarchical K-means are. The SD UASBN value data used have the attribute values for Bahasa Indonesia, Matematika and IPA. By using the Silhouette Coefficient evaluation to perform an evaluation test of the Hierarchical K-means method. By using Hierarchical as the initial centroid determination of K-means, making K-means iteration shorter and yielding good results. The results showed that without using Min-max normalization and applying 2 clusters, it resulted in a Silhouette Coefficient with a value of 0.646753 which is the best structure of the various experiments.
xi
DAFTAR ISI
HALAMAN PERSETUJUAN PEMBIMBING SKRIPSI ... iii
HALAMAN PENGESAHAN ... iv
HALAMAN PERSEMBAHAN ... v
PERNYATAAN KEASLIAN KARYA ... vi
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS ... vii
KATA PENGANTAR ... viii
ABSTRAK ... ix
ABSTRACT ... x
DAFTAR ISI ... xi
DAFTAR TABEL ... xiii
DAFTAR GAMBAR ... xiv
PENDAHULUAN ... 1 1.1. Latar Belakang ... 1 1.2. Rumusan Masalah ... 2 1.3. Tujuan ... 2 1.4. Batasan Masalah... 2 1.5. Manfaat Penelitian ... 3 1.6. Metodologi Penelitian ... 3 1.7. Sistematika Penulisan... 4 LANDASAN TEORI ... 5
2.1. Knowledge Discovery Database ... 5
2.2. Data Mining ... 7
2.3. Clustering ... 8
2.4. Agglomerative Hierarchical Clustering ... 8
2.5. K-means Clustering ... 17 2.6. Silhouette Coeficient ... 19 METODE PENELITIAN ... 22 3.1. Gambaran Umum ... 22 3.2. Desain Penelitian ... 22 3.2.1. Pengumpulan Data ... 22
3.2.2. Pembuatan Alat Uji ... 23
3.3. Perancangan Proses ... 24
3.3.1. Data Flow Diagram Level 0 ... 24
3.3.2. Data Flow Diagram Level 1 ... 25
3.3.3. Data Flow Diagram Level 2 Pre-processing ... 26
3.3.4. Data Flow Diagram Level 2 Hierarchical Clustering ... 27
3.3.5. Data Flow Diagram Level 2 Partitional Clustering ... 28
3.3.6. Data Flow Diagram Level 2 Evaluasi ... 29
xii
3.4.1. Baca Data ... 29
3.4.2. Pre-processing ... 29
3.4.3. Perhitungan Jarak ... 30
3.4.4. Hierarchical K-means Clustering ... 30
3.4.5. Evaluasi ... 31
3.5. User Interface ... 32
BAB IV IMPLEMENTASI SISTEM ... 33
4.1. Implementasi Sistem ... 33
4.1.1. Input Data ... 34
4.1.2. Proses Clustering ... 35
BAB V ANALISA HASIL ... 42
5.1. Uji Validasi Sistem ... 42
5.2. Perbandingan nilai silhouette coefficient pada 1000 data nilai UASBN ... 45
5.3. Perbandingan nilai silhouette coefficient pada 1500 data nilai UASBN ... 47
5.4. Perbandingan nilai silhouette coefficient pada 2000 data nilai UASBN ... 48
5.5. Perbandingan nilai silhouette coefficient pada 2500 data nilai UASBN ... 50
5.6. Perbandingan nilai silhouette coefficient pada 3000 data nilai UASBN ... 52
5.7. Perbandingan nilai silhouette coefficient pada 3500 data nilai UASBN ... 54
5.8. Perbandingan nilai silhouette coefficient pada 4000 data nilai UASBN ... 56
5.9. Perbandingan nilai silhouette coefficient pada 4500 data nilai UASBN ... 58
5.10. Perbandingan nilai silhouette coefficient pada 5000 data nilai UASBN ... 60
5.11. Perbandingan nilai silhouette coefficient pada 5500 data nilai UASBN ... 62
5.12. Perbandingan nilai silhouette coefficient pada 6000 data nilai UASBN ... 64
Tabel 5.11 Nilai silhouette dengan 6000 data ... 64
BAB VI KESIMPULAN DAN SARAN ... 69
6.1. Kesimpulan ... 69
6.2. Saran ... 70
Daftar Pustaka ... 71
xiii
DAFTAR TABEL
Tabel 2.1 Contoh Data ... 11
Tabel 2.2 Hasil Perhitungan Jarak ... 11
Tabel 2.3 Hasil Single-Linkage iterasi 1 ... 12
Tabel 2.4 Hasil Single-Linkage iterasi 2 ... 12
Tabel 2.5 Hasil Single-Linkage iterasi 3 ... 13
Tabel 2.6 Hasil Average-Linkage iterasi 1 ... 14
Tabel 2.7 Hasil Average-Linkage iterasi 2 ... 14
Tabel 2.8 Hasil Average-Linkage iterasi 3 ... 15
Tabel 2.9 Hasil Complete-Linkage iterasi 1 ... 16
Tabel 2.10 Hasil Complete-Linkage iterasi 2 ... 16
Tabel 2.11 Hasil Complete-Linkage iterasi 3 ... 17
Tabel 2.12 Contoh Data ... 18
Tabel 2.13 Penentuan Centroid awal ... 18
Tabel 2.14 Hasil perhitungan jarak ... 18
Tabel 2.15 Rentang Nilai Silhouette Coeficient ... 21
Tabel 3.1 Daftar atribut data awal ... 23
Tabel 3.2 Daftar atribut data siap olah ... 23
Tabel 3.3 Penjelasam Desain User Interface ... 32
Tabel 5.1 Nilai Silhouette dengan 1000 data ... 45
Tabel 5.2 Nilai Silhouette dengan 1500 data ... 47
Tabel 5.3 Nilai Silhouette dengan 2000 data ... 49
Tabel 5.4 Nilai Silhouette dengan 2500 data ... 51
Tabel 5.5 Nilai Silhouette dengan 3000 data ... 53
Tabel 5.6 Nilai Silhouette dengan 3500 data ... 55
Tabel 5.7 Nilai Silhouette dengan 4000 data ... 56
Tabel 5.8 Nilai Silhouette dengan 4500 data ... 58
Tabel 5.9 Nilai Silhouette dengan 5000 data ... 60
Tabel 5.10 Nilai Silhouette dengan 5500 data ... 62
Tabel 5.11 Nilai Silhouette dengan 6000 data ... 64
Tabel 5.12 Perbandingan Nilai Terbaik Silhouette ... 66
xiv
DAFTAR GAMBAR
Gambar 2.1 Proses Pengolahan Data (e.g., Fayyed et al. 1996) ... 5
Gambar 2.2 Perbedaan perhitungan jarak (Tan,Steinbach,dkk 2004) ... 8
Gambar 2.3 Hasil Dendogram Cluster Single-Linkage ... 13
Gambar 2.4 Hasil Dendogram Cluster Average-Linkage ... 15
Gambar 2.5 Hasil Dendogram Cluster Complete-Linkage ... 17
Gambar 3.1 Diagram Proses ... 22
Gambar 3.2 DFD level 0 ... 24
Gambar 3.3 DFD level 1 ... 25
Gambar 3.4 DFD level 2 Pre-processing ... 26
Gambar 3.5 DFD level 2 Hierarchical Clustering ... 27
Gambar 3.6 DFD level 2 Patitional Clustering ... 28
Gambar 3.7 DFD level 2 Evaluasi ... 29
Gambar 3.8 Desain User Interface... 32
Gambar 4.1 User Interface Sistem ... 33
Gambar 4.2 Input Data Nilai ... 34
Gambar 4.3 Listing Program Import Data ... 34
Gambar 4.4 Listing Program Normalisasi Data ... 35
Gambar 4.5 Contoh hasil Clustering Single-Linkage ... 35
Gambar 4.6 Contoh hasil Clustering Complete Linkage ... 36
Gambar 4.7 Contoh hasil Clustering Average Linkage ... 36
Gambar 4.8 Listing Program Distance Matrix ... 37
Gambar 4.9 Listing Program Clustering Single-Linkage ... 38
Gambar 4.10 Listing Program Clustering Average Linkage ... 39
Gambar 4.11 Listing Program Clustering Complete Linkage ... 40
Gambar 4.12 Listing Program Clustering K-means ... 41
Gambar 5.1 Hasil Single-linkage hitung manual ... 43
Gambar 5.2 Hasil Single-linkage dengan sistem... 43
Gambar 5.3 Hasil Centroid awal hitung manual ... 44
Gambar 5.4 Hasil Centroid awal dengan sistem ... 44
Gambar 5.5 Hasil akhir K-means hitung manual ... 44
Gambar 5.6 Hasil akhir K-means dengan sistem ... 44
Gambar 5.7 Hasil Evaluasi Tertinggi 1000 data ... 46
Gambar 5.8 Hasil Evaluasi Terendah 1000 data ... 46
Gambar 5.9 Hasil Evaluasi Tertinggi 1500 data ... 48
Gambar 5.10 Hasil Evaluasi Terendah 1500 data ... 48
Gambar 5.11 Hasil Evaluasi Tertinggi 2000 data ... 50
Gambar 5.12 Hasil Evaluasi Terendah 2000 data ... 51
Gambar 5.13 Hasil Evaluasi Tertinggi 2500 data ... 52
Gambar 5.14 Hasil Evaluasi Terendah 2500 data ... 52
Gambar 5.15 Hasil Evaluasi Tertinggi 3000 data ... 54
Gambar 5.16 Hasil Evaluasi Terendah 3000 data ... 54
Gambar 5.17 Hasil Evaluasi Tertinggi 3500 data ... 56
Gambar 5.18 Hasil Evaluasi Terendah 3500 data ... 56
xv
Gambar 5.20 Hasil Evaluasi Terendah 4000 data ... 58
Gambar 5.21 Hasil Evaluasi Tertinggi 4500 data ... 60
Gambar 5.22 Hasil Evaluasi Terendah 4500 data ... 60
Gambar 5.23 Hasil Evaluasi Tertinggi 5000 data ... 62
Gambar 5.24 Hasil Evaluasi Terendah 5000 data ... 62
Gambar 5.25 Hasil Evaluasi Tertinggi 5500 data ... 64
Gambar 5.26 Hasil Evaluasi Terendah 5500 data ... 64
Gambar 5.27 Hasil Evaluasi Tertinggi 6000 data ... 64
Gambar 5.28 Hasil Evaluasi Terendah 6000 data ... 64
1
PENDAHULUAN
1.1. Latar Belakang
Clustering merupakan salah satu metode yang ada dalam Data Mining, Clustering adalah metode Unsupervised Learning yang digunakan untuk pengelompokan pada data yang belum diketahui labelnya. Dalam penelitian ini digunakan 2 metode Clustering yaitu K-means dan Hiearrchical. K-means mempunyai kemampuan mengelompokan data dalam waktu yang relatif cepat, tapi, K-means memiliki kesulitan pada penentuan Centroid awal, hal ini menyebabkan hasil Clusternya bersifat local optimum. Pada metode K-means, terdapat kelemahan dalam pemilihan Centroid awal, penelitian ini menentukan Cluster awal dengan metode Hierarchical Clustering dan dari proses pengelompokan ini diharapkan hasil dari kombinasi kedua metode ini dapat memberikan hasil yang baik.
Penelitian dengan menggunakan kombinasi metode Hierarchical dan K-means ini sudah pernah dilakukan dengan menggunakan Single-Linkage untuk menentukan Centroid metode K-means, dan hasil penelitiannya bagus dibandingkan hanya menggunakan metode K-means pada studi kasus problem kerja praktek jurusan Teknik industry ITS (Alfina, Santosa, Ridho Barakbah, 2012).
Pada penelitian ini digunakan data yang berisi nilai UASBN sekolah dasar se-kabupaten Semarang dan hanya menggunakan 3 atribut yaitu nilai Bahasa Indonesia, Matematika dan Bahasa Inggris. Ketiga atribut tersebut dipilih dikarenakan 3 atribut ini merupakan atribut nilai, sedangkan atribut lainnya hanyalah data diri siswa seperti sekolah asal, nama dan lainnya. Dari data tersebut dilakukan metode Clustering untuk mengelompokkan nilai UASBN semua sekolah dasar di kabupaten Semarang dengan percobaan 2, 3, 4 dan 5 Cluster. Percobaan dengan 2 Cluster dapat diartikan sebagai pengelompokan siswa yang lulus dan tidak lulus, percobaan 3 Cluster dapat diartikan sebagai pengelompokan nilai yang kurang, cukup dan baik, percobaan 4 Cluster dapat diartikan sebagai pengelompokan nilai yang kurang, cukup, baik dan sangat baik, dan untuk
percobaan 5 Cluster dapat diartikan lebih kompleks seperti pengelompokan nilai yang sangat kurang, kurang, cukup, baik, dan sangat baik.
1.2. Rumusan Masalah
Dari latar belakang diatas, maka rumusan masalah penelitian ini adalah:
1. Apakah metode Hierarchical dapat membantu dalam mengatasi penentuan awal metode K-means?
2. Apakah data dengan 3 atribut yaitu Bahasa Indonesia, IPA dan Matematika dapat menghasilkan hasil evaluasi yang baik?
3. Apakah jumlah data yang berbeda bisa meningkatkan hasil evaluasi? 4. Apakah jumlah Cluster berpengaruh pada hasil evaluasi?
5. Apakah normalisasi Min-max dapat meningkatkan hasil evaluasi?
1.3. Tujuan
Adapun tujuan penelitian sebagai berikut:
1. Penerapan metode Hierarchical dalam membantu penentuan Centroid awal K-means dalam pengelompokkan nilai UASBN SD Kabupaten Semarang. 2. Mengetahui hasil evaluasi dari penggabungan kedua metode yang
digunakan pada penelitian ini.
1.4. Batasan Masalah
1. Metode Agglomerative Hierarchical Clustering yang digunakan adalah Single-Linkage, Complete-Linkage, dan Average-Linkage untuk penentuan Centroid awal metode K-means.
2. Pembagian kelompok atau Cluster menjadi 4 yaitu dengan pengelompokan yang berjumlah 2, 3, 4 dan 5.
3. Nilai UASBN SD dalam wilayah kabupaten Semarang. 4. Normalisasi yang diuji menggunakan rumus Min-max.
5. Atribut yang digunakan berjumlah 3, yaitu nilai Bahasa Indonesia, IPA dan Matematika.
6. Perhitungan jarak menggunakan rumus Euclidean Distance.
7. Data yang digunakan dalam percobaan dibagi menjadi 1000 data, 1500 data, 2000 data, 2500 data, 3000 data, 3500 data, 4000 data, 4500 data, 5000 data, 5500 data, dan 6000 data.
1.5. Manfaat Penelitian
Manfaat penelitian ini antara lain:
1. Hasil penelitian ini dapat dijadikan rujukan untuk penelitian yang berkaitan dengan Clustering ataupun yang ingin melakukan kajian mengenai kombinasi kedua metode ini.
2. Peneliti berharap dapat membantu dalam pengelompokan nilai UASBN SD.
1.6. Metodologi Penelitian
1. Identifikasi Masalah
Pada tahap pertama, peneliti melakukan identifikasi masalah yang diambil sebagai topik penelitian, peneliti berfokus untuk mencari metode yang dapat diterapkan pada data yang ada.
2. Studi Literatur
Pada tahap kedua, peneliti mempelajari metode Clustering yang berhubungan dengan topik penelitian ini dari paper maupun skripsi.
3. Pembuatan Alat Uji
Pada tahap ketiga, peneliti merancang desain dan implementasi sistem dengan matlab yang digunakan untuk menguji metode yang digunakan pada penelitian ini.
4. Pengujian dan Analisa Hasil
Tahap terakhir dilakukan pengujian dengan 3 metode tersebut dalam berbagai jumlah data, dan berbagai jumlah cluster.
1.7. Sistematika Penulisan
Sistematika penulisan yang ada dalam penelitian ini terdiri dari 6 bab, yaitu: A. BAB I Pendahuluan
Bab ini berisi mengenai latar belakang topik yang diambil, rumusan masalah, tujuan penelitian, batasan masalah, manfaat dari penelitian dan metodologi penelitian yang dipakai.
B. BAB II Landasan Teori
Bab ini berisi mengenai teori-teori dari metode yang dipakai pada penelitian ini.
C. BAB III Metode Penelitian
Bab ini menguraikan mengenai rencana langkah-langkah yang dilakukan dalam penelitian. Termasuk bagaimana cara mendapatkan data, cara mengolah data, cara membuat alat uji jika diperlukan, cara analisis data, cara pengujian, dan di bagian akhir diberikan desain alat uji serta user interface dari alat uji yang dibangun.
D. BAB IV Implementasi Sistem
Bab ini membahas mengenai implementasi sistem yang sudah dibuat dan menampilkan urutan jalannya sistem.
E. BABV Analisa Hasil
Bab ini membahas lebih rinci hal-hal yang berkaitan dengan uji validasi, hasil dan analisis yang didapatkan dari pengujian-pengujian yang telah dilakukan dari hasil pengujian serta antarmuka sistem.
F. BAB VI Kesimpulan dan Saran
Bab ini menjelaskan mengenai kesimpulan dari penelitian terkait dengan penerapan Hierarchical Kmeans pada nilai UASBN SD. Pada Bab ini juga dijelaskan saran yang diberikan pada sistem yang sudah dibuat.
5
LANDASAN TEORI
2.1. Knowledge Discovery Database
Knowledge Discovery Database (KDD) adalah suatu proses yang dibantu oleh perangkat untuk menggali dan menganalisis himpunan data dan mengekstrak informasi agar menjadi sebuah pengetahuan. Data Mining Tools memperkirakan perilaku dan tren masa depan, memungkinkan bisnis untuk membuat keputusan yang proaktif dan berdasarkan pengetahuan. Data Mining Tools mampu menjawab permasalahan bisnis yang secara tradisional terlalu lama untuk diselesaikan.
Data Mining Tools menjelajah database untuk mencari pola tersembunyi, menemukan informasi yang prediktif yang mungkin dilewatkan para pakar karena berada di luar ekspektasi mereka. Proses KDD terdiri dari 5 proses seperti terlihat pada gambar di bawah. Tetapi, dalam proses KDD yang sesungguhnya ,dapat saja terjadi iterasi atau pengulangan pada tahap tertentu.Pada setiap tahap dalam proses KDD bisa saja dapat kembali ke tahap sebelumnya. Sebagai contoh pada saat coding atau Data Mining,ada proses cleaning yang belum dilakukan dengan sempurna, kemudian menemukan informasi baru untuk memperkaya data yang sudah ada.
6 1. Data Selection
Mencipt himpunan data target , pemilihan himpunan data, atau memfokuskan pada subset variabel atau sampel data, dimana penemuan (discovery) dilakukan. Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang digunakan untuk proses Data Mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.
2. Pre-processing atau Cleaning
Pemprosesan pendahuluan dan pembersihan data merupakan operasi dasar seperti penghapusan noise dilakukan. Sebelum proses Data Mining dapat dilaksan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi). Dilakukan proses enrichment, yaitu proses “memperkaya” data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal.
3. Transformation
Pencarian fitur-fitur yang berguna untuk mempresentasikan data bergantung kepada goal yang ingin dicapai. Merupakan proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses Data Mining. Proses ini merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang dicari dalam basis data.
4. Data Mining
Pemilihan tugas Data Mining; pemilihan goal dari proses KDD misalnya klasifikasi, regresi, Clustering, dll. Pemilihan algoritma Data Mining untuk pencarian (searching). Proses Data Mining yaitu proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode
tertentu. Teknik, metode, atau algoritma dalam Data Mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.
5. Interpretation atau Evaluation
Penerjemahan pola-pola yang dihasilkan dari Data Mining. Pola informasi yang dihasilkan dari proses Data Mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya.
2.2. Data Mining
Data Mining adalah proses yang menggunakan Teknik statistik, matematika, kecerdasan buatan, machine learning untuk mengektraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar (Turban dkk. 2005). Terdapat beberapa istilah lain yang memiliki makna sama dengan Data Mining, yaitu Knowledge Discovery in databases (KDD), ekstraksi pengetahuan (knowledge extraction), Analisa data/pola (data/pattern analysis), kecerdasan bisnis(business intelligence) dan data archeology dan data dredging (Larose, 2005).
Data Mining memiliki fungsi dasar yaitu:
1. Fungsi Prediksi. Proses untuk menemukan pola dari data dengan menggunakan beberapa variabel untuk memprediksikan variabel lain yang tidak diketahui jenis atau nilainya.
2. Fungsi Deskripsi. Proses untuk menemukan suatu karakteristik penting dari data dalam suatu baris data.
3. Fungsi Klasifikasi. Klasifikasi merupakan suatu proses untuk menemukan model atau fungsi untuk menggambarkan class atau konsep
dari suatu data. Proses yang digunakan untuk mendeskripsikan data yang penting serta dapat meramalkan kecendrungan data masa depan. 4. Fungsi Asosiasi. Proses ini digunakan untuk menemukan suatu
hubungan yang terdapat pada nilai atribut dari sekumpulan data.
2.3. Clustering
Konsep Cluster yaitu menemukan kumpulan objek hingga objek-objek dalam satu kelompok sama (punya hubungan) dengan yang lain dan berbeda (tidak berhubungan) dengan objek-objek dalam kelompok lain. Tujuan dari analisa Cluster adalah meminimalkan jarak didalam Cluster dan memaksimalkan jarak antar Cluster. Tidak di perlukan label kelas untuk setiap data yang diproses karena label baru dapat diberikan ketika Cluster sudah terbentuk.
Ada beberapa pendekatan yang digunakan dalam metode Clustering. Dua pendekatan yang utama adalah Clustering dengan pendekatan partisi yang biasa disebut partition-bassed Clustering mengelomokan data dengan memilah-milah data yang dianalisa ke dalam Cluster-Cluster yang ada. Metode yang menggunakan partisi salah satunya adalah K-means. Selain itu juga terdapat pendekatan Hierarchical Clustering yaitu mengelompokan data dengan membuat suatu hirarki berupa dendogram dimana data yang mirip ditempatkan pada hirarki yang berdekatan dan yang tidak pada hirarki berjauhan (Prasetyo,2014).
2.4. Agglomerative Hierarchical Clustering
Beberapa metode Hierarchical Clustering yang sering digunakan dibed menurut cara mereka untuk menghitung tingkat kemiripan. Ada yang menggunakan Single-Linkage, Complete-Linkage, Average-Linkage. Seperti juga halnya dengan partition-based Clustering, bisa juga memilih jenis jarak yang digunakan untuk menghitung tingkat kemiripan antar data.
Salah satu cara untuk mempermudah pengembangan dendrogram untuk Hierarchical Clustering ini adalah dengan membuat similarity matrix yang memuat tingkat kemiripan antar data yang dikelompokkan. Tingkat kemiripan bisa dihitung dengan berbagai macam cara seperti dengan Euclidean distance. Berawal dari similarity matrix ini, dapat menggunakan linkage jenis mana yang digunakan untuk mengelompokkan data yang dianalisa.Berikut adalah langkah dalam pengelompokan dengan agglomerative clustering :
1) Hitung matriks jarak,jika diperlukan 2) Ulangi langkah 3 dan 4,
3) Gabungkan 2 Cluster terdekat
4) Kemudian perbarui matrix jarak antara 2 Cluster terdekat pada langkah 3 kemudian bentuk Cluster baru
5) Sampai hanya tersisa satu Cluster (Tan,Steinbach,dkk 2004)
Untuk perhitungan jarak Single-Linkage, Complete-Linkage dan Average-Linkage seperti pada rumus berikut :
a. Single-Linkage merupakan merupakan jarak minimum antara setiap data terdekat, dapat didefinisikan sebagai berikut :
𝐽𝑎𝑟𝑎𝑘(𝐴, 𝐵) = 𝑀𝑖𝑛𝑖𝑚𝑎𝑙 𝑁𝑖𝑙𝑎𝑖(𝐴𝑥, 𝐵𝑦) (2.1)
Keterangan :
- (Ax,By) merupakan jarak antara dua data x dan y masing-masing dari Cluster A dan B
b. Complete-Linkage merupakan merupakan jarak maximum antara setiap data terdekat, dapat didefinisikan sebagai berikut :
𝐽𝑎𝑟𝑎𝑘(𝐴, 𝐵) = 𝑀𝑎𝑘𝑠𝑖𝑚𝑎𝑙 𝑁𝑖𝑙𝑎𝑖(𝐴𝑥, 𝐵𝑦) (2.2)
Keterangan :
- (Ax,By) merupakan jarak antara dua data x dan y masing-masing dari Cluster A dan B
c. Average-Linkage merupakan merupakan rata-rata jarak antara setiap data terdekat, dapat didefinisikan sebagai berikut :
𝐽𝑎𝑟𝑎𝑘(𝐴, 𝐵) = 𝑅𝑎𝑡𝑎 − 𝑟𝑎𝑡𝑎 𝑁𝑖𝑙𝑎𝑖(𝐴𝑥, 𝐵𝑦) (2.3)
Keterangan :
- (Ax,By) merupakan jarak rata-rata antara dua data x dan y masing-masing dari Cluster A dan B
Dibawah ini ada contoh data untuk di simulasikan cara melakukan agglomerative Hierarchical menggunakan Single-Linkage, Complete-Linkage, dan Average-Linkage. Perhitungan jarak untuk mendapatkan distance matriks menggunakan Euclidean Distance
Distance =
√∑
𝑛𝑘=1(𝑃𝑘 − 𝑄𝑘)
2(2.4)
Keterangan : - n adalah jumlah atribut atau dimensi
Tabel 2.1 Contoh Data ID X Y Z 1 3 5 15 2 1 9 8 3 5 8 2 4 2 3 3 5 0 10 4
Dari data di atas, dihitung jarak antar objeknya lalu menghasilkan distance matriks
Tabel 2.2 Hasil Perhitungan Jarak
1 2 3 4 5 1 0 8.30662 13.4907 12.2066 12.4499 2 8.30662 0 7.28011 7.87401 4.24264 3 13.4907 7.28011 0 5.91608 5.74456 4 12.2066 7.87401 5.91608 0 7.34847 5 12.4499 4.24264 5.74456 7.34847 0
Dari distance matriks yang sudah didapat, cari nilai terkecilnya untuk dilakukan penghitungan jarak kemiripannya, dan yang nilai minimumnya adalah 4.24264 pada titik 2,5. Lalu untuk menghitung jarak kemiripannya dilakukan 3 cara seperti yang sudah dijelaskan diatas, yaitu:
a. Single-Linkage
Setelah didapat nilai jarak yang minimum yaitu 2 dan 5 kedua objek ini digabungkan menjadi Cluster (2 5), dan objek yang tersisa adalah 1, 3, 4.
Menghitung Single-Linkage: Min {1,2 dan 1,5} = 8.30662 Min {3,2 dan 3,5} = 5.74456
Min {4,2 dan 4,5} = 7.34847
Setelah mendapat nilai minimalnya hapus objek 2 atau 5 untuk membentuk 1 Cluster baru yaitu (25) maka hasilnya seperti tabel dibawah dengan Cluster baru (25).
Tabel 2.3 Hasil Single-Linkage iterasi 1
1 (2,5) 3 4 1 0 8.30662 13.4907 12.2066 (2,5) 8.30662 0 5.74456 7.34847 3 13.4907 5.74456 0 5.91608 4 12.2066 7.34847 5.91608 0
Cari nilai minimum pada distance matriks yang baru dan didapatkan Cluster (25) dan 3 dengan nilai minimum 5.74456, lalu digabungkan menjadi Cluster (253) dan Cluster yang tersisa adalah 1 dan 4.
Menghitung Single-Linkage: Min {1,(25) dan 1,3} = 8.306624
Min {4,(25) dan 4,3} = 5.91608
Setelah mendapat nilai minimalnya hapus objek (25) atau 3 untuk membentuk 1 Cluster baru yaitu (253). Maka hasilnya seperti tabel dibawah dengan Cluster baru (253).
Tabel 2.4 Hasil Single-Linkage iterasi 2
1 ((2,5),3) 4
1 0 8.306624 12.20656 ((2,5),3) 8.306624 0 5.91608 4 12.20656 5.91608 0
Cari nilai minimum pada distance matriks yang baru dan didapatkan Cluster (253) dan 4 memiliki nilai minimum 5.91608, lalu digabungkan menjadi Cluster
(2534) dengan Cluster yang tersisa adalah 1. Menghitung Single-Linkage:
Min {1,(253) dan 1,4} = 8.306624
Setelah mendapat nilai minimalnya hapus objek (253) atau 4 untuk membentuk 1 Cluster baru yaitu (2534) lalu hasilnya seperti tabel dibawah dengan Cluster baru (2534).
Tabel 2.5 Hasil Single-Linkage iterasi 3
1 (((2,5),3),4) 1 0 8.306623863 (((2,5),3),4) 8.30662 0
Setelah terbentuk 2 Cluster maka hasil dendogramnya seperti berikut:
b. Average Linkage
Setelah didapat nilai jarak yang minimum yaitu 2 dan 5 kedua objek ini digabungkan menjadi Cluster (2 5), dan objek yang tersisa adalah 1, 3, 4.
Menghitung Average-Linkage: Average {1,2 dan 1,5} = 8.30662 Average {3,2 dan 3,5} = 5.74456 Average {4,2 dan 4,5} = 7.34847
Setelah mendapat nilai rata-ratanya hapus objek 2 atau 5 untuk membentuk 1 Cluster baru yaitu (25). Maka hasilnya seperti Tabel dibawah dengan Cluster baru (25).
Tabel 2.6 Hasil Average-Linkage iterasi 1 1 (2,5) 3 4 1 0 10.3783 13.4907 12.2066 (2,5) 10.3783 0 6.51234 7.61124 3 13.4907 6.51234 0 5.91608 4 12.2066 7.61124 5.91608 0
Cari nilai minimum pada distance matriks yang baru dan didapatkan Cluster 3 dan 4 memiliki nilai minimum 5.91608, lalu digabungkan menjadi Cluster (34) dengan Cluster yang tersisa adalah 1 dan (25).
Menghitung Average-Linkage:
Average {3,1 dan 3,(25)} = 12.84865 Average {4,1 dan 4,(25)} = 7.061787
Setelah mendapat nilai rata-ratanya hapus objek 3 atau 4 untuk membentuk 1 Cluster baru yaitu (34) lalu hasilnya seperti Tabel dibawah dengan Cluster baru (34).
Tabel 2.7 Hasil Average-Linkage iterasi 2
1 (2,5) (3,4) 1 0 10.37826 12.84865 (2,5) 10.37826 0 7.061787 (3,4) 12.84865 7.061787 0
Cari nilai minimum pada distance matriks yang baru dan didapatkan Cluster (25) dan (34) memiliki nilai minimum 7.061787, lalu digabungkan menjadi Cluster (2534) dengan Cluster yang tersisa adalah 1.
Menghitung Average-Linkage:
Average {1,(25) dan 1,(34)} = 11.61345416
membentuk 1 Cluster baru yaitu (2534) lalu hasilnya seperti Tabel dibawah dengan Cluster baru (2534).
Tabel 2.8 Hasil Average-Linkage iterasi 3
1 ((2,5),(3,4)) 1 0 11.61345416 ((2,5),(3,4)) 11.6135 0
Setelah terbentuk 2 Cluster maka hasil dendogramnya seperti berikut:
Gambar 2.4 Hasil Dendogram Cluster Average-Linkage
c. Complete Linkage
Setelah didapat nilai jarak yang minimum yaitu 2 dan 5 kedua objek ini digabungkan menjadi Cluster (2 5), dan objek yang tersisa adalah 1, 3, 4.
Menghitung Complete-Linkage: Max {1,2 dan 1,5} = 12.4499 Max {3,2 dan 3,5} = 7.28011 Max {4,2 dan 4,5} = 7.87401
Setelah mendapat nilai maksimalnya hapus objek 2 atau 5 untuk membentuk 1 Cluster baru yaitu (25) lalu hasilnya seperti Tabel dibawah dengan Cluster baru (25)
Tabel 2.9 Hasil Complete-Linkage iterasi 1 1 (2,5) 3 4 1 0 12.4499 13.4907 12.2066 (2,5) 12.4499 0 7.28011 7.87401 3 13.4907 7.28011 0 5.91608 4 12.2066 7.87401 5.91608 0
Cari nilai minimum pada distance matriks baru dan didapatkan Cluster 3 dan 4 memiliki nilai minimum 5.91608, lalu digabungkan menjadi Cluster dengan Cluster yang tersisa adalah 1 dan (25).
Menghitung Complete-Linkage: Max {1,3 dan 1,4} = 13.4907 Max {(25),3 dan (25),4} = 7.87401
Setelah mendapat nilai maksimalnya hapus objek 3 atau 4 untuk membentuk 1 Cluster baru yaitu (34) lalu hasilnya seperti Tabel dibawah dengan Cluster baru (34).
Tabel 2.10 Hasil Complete-Linkage iterasi 2
1 (2,5) (3,4) 1 0 12.4499 13.49074 (2,5) 12.4499 0 7.874008 (3,4) 13.49074 7.874008 0
Cari nilai minimum pada distance matriks baru dan didapatkan Cluster (25) dan (34) memiliki nilai minimum 7.874008, lalu digabungkan menjadi Cluster dengan Cluster yang tersisa adalah 1.
Menghitung Complete-Linkage:
Max {1,(25) dan 1,(34)} = 13.4907
membentuk 1 Clusteri baru yaitu (2534) lalu hasilnya seperti Tabel dibawah dengan Cluster baru (2534).
Tabel 2.11 Hasil Complete-Linkage iterasi 3
1 ((2,5),(3,4)) 1 0 13.49073756 ((2,5),(3,4)) 13.4907 0
Setelah terbentuk 2 Cluster maka hasil dendogramnya seperti berikut:
Gambar 2.5 Hasil Dendogram Cluster Complete-Linkage
2.5. K-means Clustering
K-means merupakan salah satu metode Clustering non hirarki yang berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih Cluster. Metode ini mempartisi data ke dalam Cluster sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam satu Cluster yang sama dan data yang mempunyai karakteristik yang berbeda di kelompokkan ke dalam Cluster yang lain. K-means ditemukan oleh beberapa orang yaitu Lloyd (1957, 1982), Forgey (1965), Friedman and Rubin (1967), and McQueen (1967). Ide dari Clustering pertama kali ditemukan oleh Lloyd pada tahun 1957, namun hal tersebut baru dipublikasi pada tahun 1982. Pada tahun 1965, Forgey juga mempublikasi Teknik yang sama sehingga terkadang dikenal sebagai Lloyd-Forgy pada beberapa sumber.
Dibawah ini ada contoh perhitungan K-means Clustering dengan perhitungan jarak menggunakan Euclidean distance.
Tabel 2.12 Contoh Data
ID X Y Z 1 3 5 15 2 1 9 8 3 5 8 2 4 2 3 3 5 0 10 4
Tentukan dulu berapa pengelompokan yang dilakukan dan juga menentukan Centroid awalnya, pada contoh data diatas pengelompokan sebanyak 2 dan Centroid awal yang ditentukan adalah ID 1 dan ID 2. Maka Tabel Centroid awal seperti berikut.
Tabel 2.13 Penentuan Centroid awal
X Y Z
C1 3 5 15
C2 1 9 8
Lalu lakukan perhitungan jarak C1 dengan semua objek yang ada pada contoh data, juga C2 dengan semua objek yang ada pada contoh data. Maka dihasilkan tabel seperti berikut.
Tabel 2.14 Hasil perhitungan jarak
distC1 distC2 0 8.306624 8.306624 0 13.49074 7.28011 12.20656 7.874008 12.4499 4.242641
2.6. Silhouette Coeficient
Sillhouette Coefficient merupakan metode untuk mengukur kualitas sebuh Cluster yang menggabungkan nilai kohesi dan separasi. Dalam perhitugan nilai Sillhouette coefficient, terdapat dua komponen yaitu 𝑎𝑖 dan 𝑏𝑖. Komponen 𝑎𝑖
merupakan rata – rata jarak data ke-I terhadap semua data lainnya dalam satu Cluster, sedangkan 𝑏𝑖 adalah hasil perhitungan rata – rata jarak data ke-i, kemudian
diambil nilai terkecil. Nilai 𝑎𝑖 mengukur seberpa tingkat ketidakmiripan sebuah
data dengan Cluster yang diikutinya, nilai yang semakin kecil menunjukan semakin tepatnya data yang dimaksud berada dalam Cluster tertentu.
Nilai 𝑏𝑖 yang besar menunjukan seberapa buruknya data terhadap Cluster
yang lain. Nilai Sillhouette coefficient yang didapat berada dalam rentang -1 hingga 1. Nilai sillhouette coefficient yang mendekati 1menunjukan bahwa data tersebut semakin tepat berada di Cluster yang dimaksud. Nilai silhouette coefficient negatif menunjukan bahwa data tersebut tidak tepat berada dalam Cluster yang dimaksud. Berikut ini merupakan rumus penghitungan nilai 𝑎𝑖𝑗 :
𝑎
𝑖𝑗=
1 𝑚𝑗−1∑
𝑑(
𝑚𝑗 𝑟=1 𝑟 ≠𝑖𝑥
𝑖𝑗, 𝑥
𝑟𝑗)
(2.5) Keterangan : 𝑖 : indeks data 𝑗 : Cluster𝑚𝑗 : jumlah data dalam Cluster 𝑗
𝑑(𝑥𝑖𝑗, 𝑥𝑟𝑗) : jarak data 𝑖 dengan data 𝑟 dalam Cluster 𝑗
𝑥 : data
Berikut merupakan rumus penghitungan nilai 𝑏𝑗𝑖
𝑏
𝑖𝑗=
1 𝑚𝑛∑
𝑑(
𝑚𝑗 𝑟=1 𝑟 ≠𝑖𝑥
𝑖𝑗, 𝑥
𝑟𝑚𝑗)
(2.6) Keterangan : 𝑖 : indeks data𝑗 : Cluster
𝑚𝑗 : jumlah Cluster
𝑚𝑛 : jumlah data dalam satu Cluster
𝑑(𝑥𝑖𝑗, 𝑥𝑟𝑚𝑗) : jarak data 𝑖 pada Cluster 𝑗 dengan data 𝑟 pada Cluster 𝑚𝑗
𝑥 : data
Sedangkan dalam penghitungan nilai silhouette coefficient data ke-i menggunakan rumus berikut :
𝑆𝐶
𝑖𝑗 𝑏𝑖 𝑗 − 𝑎𝑖𝑗 𝑚𝑎𝑥 {𝑎𝑖𝑗,𝑏𝑖𝑗} (2.7) Keterangan :𝑎𝑖𝑗 : rata – rata jarak data ke-i terhadap semua data lainya dalam satu Cluster j
𝑏𝑗𝑖 : nilai minimum rata – rata jarak data ke-i terhadap semua data dari Cluster lain selain custer j.
max {𝑎𝑖𝑗, 𝑏𝑖𝑗} : nilai maksimum dari nilai 𝑎𝑖𝑗 dan 𝑏𝑗𝑖 dari satu data.
Nilai silhouette coefficient dari sebuah Cluster ditentukan dengan menghitung rata – rata nilai silhouette coefficient semua data yang tergabung dalm Cluster tersebut dengan rumus : 𝑆𝐶𝑗 = 1 𝑚𝑗
∑
𝑆𝐶𝑖 𝑗 𝑘 𝑗=1 (2.8) Keterangan : i : indeks j : Cluster𝑚𝑗 : jumlah data dalam Cluster j
Sementara nilai silhouette coefficient global ditentukan dengan menghitung rata – rata nilai silhouette coefficient dari semua Cluster dengan rumus berikut :
𝑆𝐶𝑔 = 1
𝑘∑ 𝑆𝐶𝑗 𝑘
Keterangan :
k : jumlah Cluster
j : Cluster
𝑆𝐶𝑗 : Sillhouette Coefficient Cluster j
Kriteria penilaian atau pengukuran baik tidaknya hasil Clustering berdasarkan Silhouette Coefficient disajikan dalam tabel berikut :
Tabel 2.15 Rentang Nilai Silhouette Coeficient
Nilai Silhouette Coefficient Penilaian
0.71 – 1.00 Struktur kuat
0.51 – 0.70 Struktur baik
0.26 – 0.50 Struktur lemah
22
METODE PENELITIAN
3.1. Gambaran Umum
Pada penelitian ini dilakukan pengujian apakah metode Hierarchical K-means bagus dalam pengelompokan nilai UASBN SD, berikut diagram proses yang dibangun:
Gambar 3.1 Diagram Proses
Pada penelitian ini data yang digunakan adalah data nilai-nilai UASBN SD se-kabupaten Semarang. Data ini di dapatkan dari guru SD yang ada di kabupaten Semarang yang memiliki data yang berisi nilai UASBN, dan data yang didapat berupa softcopy file berupa excel.
3.2. Desain Penelitian
3.2.1. Pengumpulan Data
Tahap 1 Pemerolehan Data Nilai UASBN SD
Pada tahap ini, data diperoleh dari seorang guru di salah satu sekolah dasar yang memiliki data nilai berupa file berbentuk excel.
Tahap 2 Pemilihan Attribut
Pada tahap ini, data yang sudah didapat harus dipilah lagi attribut yang akan dipakai, pada penelitian ini digunakan 3 attribut utama yaitu nilai bahasa indonesia, matematika, dan IPA.
Berikut atribut-atribut yang masih belum dilakukan pemilihan atribut:
23
Tabel 3.1 Daftar atribut data awal
No Peserta Tempat Lahir MAT NISN Tgl Lahir IPA Nama Peserta BIN Jumlah
Setelah di pilah atribut yang digunakan untuk diolah adalah seperti berikut:
Tabel 3.2 Daftar atribut data siap olah
Atribut Penjelasan
BIN Nilai UASBN Bahasa Indonesia
MAT Nilai UASBN Matematika
IPA Nilai UASBN Ilmu Pengetahuan Alam
3.2.2. Pembuatan Alat Uji
Dalam penelitian ini menggunakan metodologi waterfall, metode waterfall memiliki beberapa tahapan yang berurut yaitu: requirement (analisis kebutuhan), design system (desain sistem), Coding (pengkodean) & Testing (pengujian), Penerapan Program.
A. Analisa Kebutuhan Pengguna
Pada tahap ini kebutuhan pengguna dalam menyelesaikan masalah dengan alat uji, seperti mendapatkan hasil evaluasi metode yang digunakan dalam penelitian ini.
B. Desain
Pada tahap ini, dikembangkan sebuah tampilan atau interface yang dapat memperlihatkan hasil akhir dari masalah yang diselesaikan.
C. Pengkodean
Pada tahap ini, perancangan yang sudah dibuat untuk menyelesaikan masalah diterapkan pada pengkodean untuk membuat alat uji agar bisa mendapatkan nilai evaluasi dari metode yang digunakan.
D. Pengujian
Pada tahap ini dilakukan pengujian apakah sistem sudah mampu memenuhi kebutuhan pengguna untuk menyelesaikan masalah.
3.3. Perancangan Proses
3.3.1. Data Flow Diagram Level 0
Gambar 3.2 DFD level 0
Gambar diatas merupakan data flow diagram level 0 yang merupakan level tertinggi dari data flow diagram. Pada data flow diagram level 0 ini, seorang pengguna yang memberi inputan data bisa memilih normalisasi dan perhitungan jarak untuk diuji, dan kemudian sistem menampilkan hasil evaluasi.
3.3.2. Data Flow Diagram Level 1
Gambar 3.3 DFD level 1
Gambar diatas adalah data flow diagram level 1, yang merupakan bagian dari data flow diagram level 0.
Pertama, user memilih menggunakan normalisasi atau tidak pada proses pre-processing, setelah itu dilakukan Hierarchical Clustering dengan hasil keluaran Single-Linkage, Average-Linkage dan Complete-Linkage.
Kedua, user menentukan berapa jumlah Cluster atau kelompok yang diuji pada proses partitional Clustering, dari proses partitional Clustering menghasil 3 hasil Cluster dari masing-masing metode dari proses Hierarchical Clustering.
3.3.3. Data Flow Diagram Level 2 Pre-processing
Gambar 3.4 DFD level 2 Pre-processing
Gambar diatas merupakan data flow diagram level 2 untuk proses pre-processing, prosesnya hanya satu yaitu menghitung normalisasi dengan menggunakan normalisasi Min-max, setelah melewati proses normalisasi maka data hasil normalisasi dimasukan ke dalam excel baru.
3.3.4. Data Flow Diagram Level 2 Hierarchical Clustering
Gambar 3.5 DFD level 2 Hierarchical Clustering
Gambar diatas merupakan data flow diagram level 2 dari proses Hierarchical Clustering, terdapat 3 proses.
Pertama, ada 2 data uji yang asli dan sudah normalisasi tergantung pilihan user sebelumnya memilih normalisasi atau tidak, lalu dilakukan proses menghitung jarak dan menghasilkan matriks jarak.
Kedua, matriks hitung jarak digunakan untuk melakukan proses Single-Linkage, Average-Single-Linkage, dan Complete-Linkage dan selanjutnya masing-masing hasil Cluster di masukan ke dalam excel baru.
3.3.5. Data Flow Diagram Level 2 Partitional Clustering
Gambar 3.6 DFD level 2 Patitional Clustering
Gambar diatas merupakan data flow diagram level 2 dari proses partitional Clustering, yang terdapat 1 proses dimana metode Clustering yang digunakan adalah K-means Clustering. Dari data hasil setiap Cluster sebelumnya dimasukan ke dalam proses K-means Cluster lalu user memasukan jumlah Cluster, dan di dapat hasil Cluster dari proses K-means Clustering.
3.3.6. Data Flow Diagram Level 2 Evaluasi
Gambar 3.7 DFD level 2 Evaluasi
Gambar diatas merupakan data flow diagram level 2 dari proses evaluasi, terdapat 2 proses. Data hasil Cluster K-means dihitung dengan proses silhouette coefficient lalu mengirimkan hasil evaluasi kepada user
3.4. Penjelasan Proses
3.4.1. Baca Data
Pada tahap ini setelah data nilai UASBN SD yang sudah di pilah atribut dan datanya, lalu di masukan ke dalam file excel yang baru dan data sudah siap untuk dilakukan pre-processing.
3.4.2. Pre-processing
Setelah data berhasil di baca, data di normalisasi dengan metode normalisasi Min-max dengan range [0-1] pada atribut nilai Bahasa Indonesia, matematika, dan ipa.
Berikut langkah-langkah untuk normalisasi Min-max: 1. Masukan data nilai UASBN
2. Lakukan perulangan untuk langkah 3 dan 4
3. Menghitung rumus Min-max seperti berikut, norm=(data awal – nilai maks baru) * (nilai maks baru – nilai min baru) / (nilai maks – nilai min) + nilai maks.
5. Hasil akhir berupa matriks
3.4.3. Perhitungan Jarak
Metode perhitungan jarak yang digunakanpada penelitian ini dengan euclidean distance.
Langkah-langkahnya seperti berikut:
1. Masukkan data yang sudah di normalisasi 2. Lakukan perulangan sebanyak kolom data 3. Lakukan perulangan sebanyak baris data
4. Lakukan perhitungan euclidean distance dengan rumus
√∑
𝑛(𝑃𝑘 − 𝑄𝑘)
2 𝑘=15. Setelah perulangan selesai, di dapatkan matriks jarak
3.4.4. Hierarchical K-means Clustering
Pada tahap Clustering ini penggabungan dari metode Hierarchical dan K-means menggunakan langkah-langkah seperti berikut:
1. Masukan matriks jarak yang sudah di hitung sebelumnya
2. Lakukan perulangan langkah 3 dan 4 sampai satu kelompok tersisa 3. Menggabungkan dua kelompok atau objek terdekat berdasarkan
parameter kedekatan yang ditentukan a. Dengan menggunakan Single-Linkage:
i. Mencari jarak terdekat antar Cluster.
ii. Gabungkan kedua Cluster yang sudah didapat, lalu perbarui matriks jarak.
iii. Ulangi langkah ini hingga matriks jarak berjumlah 2 x 2. b. Dengan menggunakan Complete-Linkage:
ii. Gabungkan kedua Cluster yang sudah didapat, lalu perbarui matriks jarak.
iii. Ulangi langkah ini hingga matriks jarak berjumlah 2 x 2. c. Dengan menggunakan Average-Linkage:
i. Mencari rata-rata antar Cluster.
ii. Gabungkan kedua Cluster yang sudah didapat, lalu perbarui matriks jarak.
iii. Ulangi langkah ini hingga matriks jarak berjumlah 2 x 2. 4. Tentukan jumlah Cluster
5. Tentukan Centroid awal dengan menghitung nilai rata-rata dari hasil Cluster Hierarchical sebelumnya sesuai jumlah Cluster yang digunakanakan
6. Hitung jarak setiap data ke masing-masing Centroid 7. Setiap data memilih Centroid yang terdekat
8. Tentukan Centroid baru dengan menghitung nilai rata-rata dari data-data yang terletak pada Centroid yang sama
9. Kembali ke langkah 6
10. Jika anggota Cluster baru sama dengan anggota Cluster lama maka berhenti
3.4.5. Evaluasi
Pada tahap evaluasi ini, merupakan tahap terakhir dari penelitian dimana hasil akhirnya merupakan hasil evaluasi. Uji evaluasi yang digunakan adalah dengan metode silhouette coefficient menggunakan function yang sudah ada pada matlab.
3.5. User Interface
Gambar 3.8 Desain User Interface
Pertama, di bagian sebelah kiri user menekan tombol ‘Import Data’ untuk membaca file excel, lalu memilih untuk menggunakan normalisasi atau tidak, memilih jumlah Cluster lalu memilih metode agglomerative yang digunakanakan. Setelah itu menekan tombol ‘Cluster’ untuk memulai melakukan Clustering. Di bagian sebelah kanan muncul hasil Cluster berupa grafik di kolom putih dengan nilai optimal silhouette dibawah grafik evaluation.
Tabel 3.3 Penjelasan Desain User Inteface
No Nama Fungsi
1 Tombol Import Data Membaca data nilai UASBN
SD. 2 Grup Button Normalize:
- Radio Button Non-Normalization - Radio Button Min-max
Memilih untuk melakukan normalisasi atau tidak menggunakan normalisasi. 3 Grup Button Number of Cluster Memilih pengujian
menggunakan beberapa jumlah Cluster.
4 Grup Button Agglomerative Hierarchical
Memilih pengujian
menggunakan Single-Linkage, Average-Linkage dan Complete-Linkage.
5 Tombol Cluster Mengeksekusi program untuk
33
BAB IV
IMPLEMENTASI SISTEM
Bab ini membahas mengenai implementasi sistem yang sudah dibuat dan menampilkan urutan jalannya sistem.
4.1. Implementasi Sistem
Dalam pembuatan sistem Hierarchical Kmeans yang diuji dengan data nilai UASBN dan 11 jumlah data yang berbeda, peneliti menggunakan Matlab R2016b. Gambar 4.1 merupakan User Interface dari sistem yang sudah dibentuk menggunakan matlab.
Gambar 4.1 User Interface Sistem
Dalam sistem yang dibuat langkah-langkah yang harus dilakukan adalah menginput data, memilih normalisasi atau tidak, berapa Cluster yang ingin dicoba, dan jenis linkage apa yang dipilih.
34
4.1.1. Input Data
Pada langkah ini, user menekan tombol “Import data” yang ada di sebelah kiri, dan muncul jendela yang meminta memilih file untuk dimasukan dengan format file excel beresktensi *.xls. Lalu, setelah selesai menginput data ditampilkan pada tabel sebelah kiri seperti pada gambar 4.2
Gambar 4.2 Input Data Nilai
4.1.1.1. Listing Program
Gambar 4.4 Listing Program Normalisasi Data
4.1.2. Proses Clustering
Langkah selanjutnya adalah proses melakukan Clustering, setelah user menginput data dan data sudah berhasil muncul pada tabel, user memilih untuk melakukan normalisasi dengan Min-max atau tidak melakukan normalisasi, lalu memilih berapa banyak Cluster yang dilakukan, dan yang terakhir memilih jenis linkage yang dilakukan pada algoritma Hierarchical, dan user menekan tombol “Cluster”. Lalu hasil muncul berupa dendrogram dan juga evaluasi silhouette coefficient serta nilai optimalnya, seperti di gambar 4.3, gambar 4.4 dan gambar 4.5.
4.1.2.1. Hasil Running Program
Gambar 4.6 Contoh hasil Clustering Complete Linkage
4.1.2.2. Listing Program
42
BAB V
ANALISA HASIL
Bab ini membahas lebih rinci hal-hal yang berkaitan dengan uji validasi sistem, hasil dan analisis yang didapatkan dari pengujian-pengujian yang telah dilakukan dari hasil pengujian serta antarmuka sistem. Pada tahap pengujian sistem, data yang telah digunakan untuk pengujian metode Hierarchical Kmeans ada 11 data nilai UASBN berisi 3 atribut dengan masing-masing data yang digunakan berjumlah 1000, 1500, 2000, 2500, 3000, 3500, 4000, 4500, 5000, 5500, 6000 baris data untuk diuji apakah banyaknya baris data yang berbeda berpengaruh pada hasil evaluasi Hierarchical Kmeans.
Selain menggunakan perbandingan jumlah data, diuji juga hasil evaluasi dengan menggunakan normalisasi Min-max dan yang tidak menggunakan normalisasi. Jumlah Cluster juga diuji untuk melihat hasil evaluasi dengan menggunakan 2, 3, 4, dan 5 Cluster, dan pengujian yang terakhir dengan menggunakan 3 metode Hierarchical seperti Single-Linkage, average linakge dan Complete Linkage.
5.1. Uji Validasi Sistem
Sistem Hierarchical K-means ini dibuat tanpa menggunakan library dari matlab sehingga diperlukannya uji validasi kecocokan sistem dengan hitungan manual yang sudah dibuat dalam bentuk excel. Digunakan 20 data sebagai uji validasi antara sistem dan hitungan manual, dengan metode yang dicobakan adalah tanpa menggunakan normalisasi, menggunakan Single-linkage dan 4 Cluster. Pada percobaan yang telah dibuat akan dicocokan apakah hasil Single-linkage, Centroid, dan hasil akhir K-means yang berbentuk matrik yang didapat dari hitung manual dan sistem sama. Berikut akan dijabarkan hasil uji validasi yang telah dilakukan:
Gambar 5.1 dan gambar 5.2 menunjukan hasil dari perhitungan Hierarchical Clustering menggunakan metode Single-linkage. Pada gambar 5.1 merupakan hasil hitungan manual yang telah dikerjakan, atribut A, B, C merupakan nilai pada data tersebut, sedangkan atribut T adalah penempatan kelompok setiap data, seperti contohnya data yang bernomorkan 1,4-16,18 dan 20 masuk ke dalam kelompok 1, data yang bernomorkan 2 dan 19 masuk ke dalam kelompok 2, data yang bernomorkan 3 masuk ke dalam kelompok 3 dan data yang bernomorkan 17 masuk ke dalam kelompok 4. Lalu, pada gambar 5.2 variabel T yang ditampilkan merupakan hasil Single-linkage menggunakan sistem, angka-angka yang dihasilkan merupakan penempatan kelompok untuk setiap data ke-i dan urutan data ke-i sesuai dengan data yang dimasukan. Setelah mendapatkan hasil dari sistem lalu dicocokan dengan hitungan manual, dan hasil kecocokannya sama persis yang berarti untuk sistem perhitungan Single-linkage sudah benar.
Gambar 5.1 Hasil Single-linkage hitung manual
Gambar 5.2 Hasil
Single-linkage
Gambar 5.3 dan gambar 5.4 merupakan hasil Centroid yang diperoleh dari perhitungan Hierarchical. Gambar 5.3 menunjukan Centroid yang dihitung secara manual dan memiliki hasil yang sama dengan gambar 5.4 yang merupakan Centroid hasil perhitungan dengan sistem.
Gambar 5.5 dan gambar 5.6 merupakan hasil matriks iterasi terakhir dari metode K-means, pada perhitungan manualnya iterasi K-means berhenti pada
Gambar 5.3 Hasil Centroid awal
hitung manual Gambar 5.4 Hasil Centroid awal dengan sistem
Gambar 5.5 Hasil akhir K-means hitung manual
Gambar 5.6 Hasil akhir K-means dengan sistem
iterasi ke-6 dan pada sistem juga berhenti di iterasi ke-6 juga. Lalu, pada matriks terakhir yang ada pada gambar 5.5 dan gambar 5.6 setelah diperiksa keduanya memiliki hasil yang sama persis antara hitung manual dan juga sistem.
Jadi, untuk pengujian validasi sistem dengan menggunakan 20 data dummy ini menunjukan sistem yang telah dibuat sama dengan perhitungan manual yang sudah dikerjakan.
5.2. Perbandingan nilai silhouette coefficient pada 1000 data nilai UASBN
Dari seluruh percobaan dengan menggunakan 1000 data dan variasi lainnya, hasil evaluasi menunjukan bahwa nilai silhouette coefficient tertinggi adalah tanpa menggunakan normalisasi Min-max dan 3 jumlah cluster dengan hasil silhouette coefficient 0,629684 yang berarti memiliki struktur yang baik. Untuk metode Single-Linkage, Average Linkage, Complete-Linkage sendiri tidak berpengaruh terlalu besar dalam hasil evaluasi. Kemudian nilai silhouette coefficient yang buruk adalah normalisasi Min-max, menggunakan 5 cluster dengan metode Complete-Linkage dengan nilai silhouette coefficientnya adalah 0,438671 yang berarti struktunya lemah.
Tabel 5.1 Nilai Silhouette dengan 1000 data
Metode Normalisasi Cluster Silhouette Coefficient
Single-Linkage Tidak 2 0,625284 Average-Linkage Tidak 2 0,625284 Complete-Linkage Tidak 2 0,625284 Single-Linkage Min-max 2 0,623605 Average-Linkage Min-max 2 0,623605 Complete-Linkage Min-max 2 0,623605 Single-Linkage Tidak 3 0,629684 Average-Linkage Tidak 3 0,629684 Complete-Linkage Tidak 3 0,629684 Single-Linkage Min-max 3 0,627642 Average-Linkage Min-max 3 0,627498 Complete-Linkage Min-max 3 0,627498 Single-Linkage Tidak 4 0,52506
Average-Linkage Tidak 4 0,517493 Complete-Linkage Tidak 4 0,517172 Single-Linkage Min-max 4 0,528769 Average-Linkage Min-max 4 0,53103 Complete-Linkage Min-max 4 0,53103 Single-Linkage Tidak 5 0,441455 Average-Linkage Tidak 5 0,441455 Complete-Linkage Tidak 5 0,441217 Single-Linkage Min-max 5 0,438671 Average-Linkage Min-max 5 0,438671 Complete-Linkage Min-max 5 0,438671
Dari hasil pengujian pada 1000 data yang terdapat pada tabel 5.1, dengan menggunakan 2, 3 dan 4 cluster menghasilkan nilai silhouette dengan struktur yang kuat dan nilai yang terbaik ada pada pengujian menggunakan 3 cluster. Sedangkan pengujian menggunakan 5 cluster menghasilkan nilai silhouette yang lemah. Pengujian Min-max dengan nilai minimal 0 dan nilai maksimal 1 disetiap atribut yang ada pada 1000 data nilai UASBN ini juga tidak berpengaruh terlalu besar pada hasil silhouette, bahkan nilai terbaik adalah dengan tidak menggunakan normalisasi Min-max. Pengujian menggunakan 3 metode yaitu Single-Linkage, Average-Linkage dan Complete-Average-Linkage juga tidak berpengaruh pada nilai silhouette, bisa dilihat pada tabel 5.1 bahwa 3 metode tersebut tidak merubah nilai silhouette. Gambar 5.7 menunjukan hasil evaluasi tertinggi dari 24 percobaan, sedangkan gambar 5.8 menunjukan hasil evaluasi terendah.
Gambar 5.7 Hasil Evaluasi Tertinggi 1000 data
Gambar 5.8 Hasil Evaluasi Terendah 1000 data
5.3. Perbandingan nilai silhouette coefficient pada 1500 data nilai UASBN
Dari seluruh percobaan dengan menggunakan 1500 data dan variasi lainnya, hasil evaluasi menunjukan bahwa nilai silhouette coefficient tertinggi adalah tanpa menggunakan normalisasi Min-max dan 2 jumlah cluster dengan hasil silhouette coefficient 0,646753 yang berarti memiliki struktur yang baik. Untuk metode Single-Linkage, Average Linkage, Complete-Linkage sendiri tidak berpengaruh terlalu besar dalam hasil evaluasi. Kemudian nilai silhouette coefficient yang buruk adalah normalisasi Min-max, menggunakan 5 cluster dengan metode Complete-Linkage dengan nilai silhouette coefficientnya adalah 0,441363 yang berarti struktunya lemah.
Tabel 5.2 Nilai Silhouette dengan 1500 data
Metode Normalisasi Cluster Silhouette Coefficient
Single-Linkage Tidak 2 0,646753 Average-Linkage Tidak 2 0,646753 Complete-Linkage Tidak 2 0,646753 Single-Linkage Min-max 2 0,639548 Average-Linkage Min-max 2 0,639548 Complete-Linkage Min-max 2 0,645293 Single-Linkage Tidak 3 0,534556 Average-Linkage Tidak 3 0,534556 Complete-Linkage Tidak 3 0,534556 Single-Linkage Min-max 3 0,534354 Average-Linkage Min-max 3 0,534354 Complete-Linkage Min-max 3 0,534518 Single-Linkage Tidak 4 0,466924 Average-Linkage Tidak 4 0,46892 Complete-Linkage Tidak 4 0,463976 Single-Linkage Min-max 4 0,458864 Average-Linkage Min-max 4 0,458864 Complete-Linkage Min-max 4 0,458864 Single-Linkage Tidak 5 0,449131 Average-Linkage Tidak 5 0,452881 Complete-Linkage Tidak 5 0,448644
Single-Linkage Min-max 5 0,438421
Average-Linkage Min-max 5 0,449177
Complete-Linkage Min-max 5 0,441363
Dari hasil pengujian pada 1500 data yang terdapat pada tabel 5.2, dengan menggunakan 2 dan 3 cluster menghasilkan nilai silhouette dengan struktur yang kuat dan nilai yang terbaik ada pada pengujian menggunakan 2 cluster. Sedangkan pengujian menggunakan 4 dan 5 cluster menghasilkan nilai silhouette yang lemah dan nilai terburuk ada pada penggunaan 5 cluster. Pengujian Min-max dengan nilai minimal 0 dan nilai maksimal 1 disetiap atribut yang ada pada 1500 data nilai UASBN ini juga tidak berpengaruh terlalu besar pada hasil silhouette, bahkan nilai terbaik adalah dengan tidak menggunakan normalisasi Min-max. Pengujian menggunakan 3 metode yaitu Single-Linkage, Average-Linkage dan Complete-Linkage juga tidak berpengaruh pada nilai silhouette, bisa dilihat pada tabel 5.2 bahwa 3 metode tersebut tidak merubah nilai silhouette. Gambar 5.9 menunjukan hasil evaluasi tertinggi dari 24 percobaan, sedangkan gambar 5.10 menunjukan hasil evaluasi terendah.
5.4. Perbandingan nilai silhouette coefficient pada 2000 data nilai UASBN
Dari seluruh percobaan dengan menggunakan 2000 data dan variasi lainnya, hasil evaluasi menunjukan bahwa nilai silhouette coefficient tertinggi adalah tanpa
Gambar 5.9 Hasil Evaluasi Tertinggi 1500 data
Gambar 5.10 Hasil Evaluasi Terendah 1500 data
menggunakan normalisasi Min-max dan 3 jumlah cluster dengan hasil silhouette coefficient 0,622954 yang berarti memiliki struktur yang baik. Untuk metode Single-Linkage, Average Linkage, Complete-Linkage sendiri tidak berpengaruh terlalu besar dalam hasil evaluasi. Kemudian nilai silhouette coefficient yang buruk adalah normalisasi Min-max, menggunakan 5 cluster dengan metode Single-Linkage yang nilai silhouette coefficientnya adalah 0,427982 yang berarti struktunya lemah.
Tabel 5.3 Nilai silhouette dengan 2000 data
Metode Normalisasi Cluster Silhouette Coefficient
Single-Linkage Tidak 2 0,620846 Average-Linkage Tidak 2 0,620846 Complete-Linkage Tidak 2 0,620846 Single-Linkage Min-max 2 0,618656 Average-Linkage Min-max 2 0,618656 Complete-Linkage Min-max 2 0,618656 Single-Linkage Tidak 3 0,622954 Average-Linkage Tidak 3 0,622954 Complete-Linkage Tidak 3 0,513066 Single-Linkage Min-max 3 0,62081 Average-Linkage Min-max 3 0,62081 Complete-Linkage Min-max 3 0,620715 Single-Linkage Tidak 4 0,514992 Average-Linkage Tidak 4 0,514992 Complete-Linkage Tidak 4 0,514992 Single-Linkage Min-max 4 0,512984 Average-Linkage Min-max 4 0,512984 Complete-Linkage Min-max 4 0,512984 Single-Linkage Tidak 5 0,43475 Average-Linkage Tidak 5 0,43475 Complete-Linkage Tidak 5 0,43475 Single-Linkage Min-max 5 0,427982 Average-Linkage Min-max 5 0,428759 Complete-Linkage Min-max 5 0,428759
Dari hasil pengujian pada 2000 data yang terdapat pada tabel 5.3, dengan menggunakan 2, 3 dan 4 cluster menghasilkan nilai silhouette dengan struktur yang
kuat dan nilai yang terbaik ada pada pengujian menggunakan 3 cluster. Sedangkan pengujian menggunakan 5 cluster menghasilkan nilai silhouette yang lemah dengan menggunakan metode Single-Linkage. Pengujian Min-max dengan nilai minimal 0 dan nilai maksimal 1 di setiap atribut yang ada pada 2000 data nilai UASBN ini juga tidak berpengaruh terlalu besar pada hasil silhouette, bahkan nilai terbaik adalah dengan tidak menggunakan normalisasi Min-max. Pengujian menggunakan 3 metode yaitu Single-Linkage, Average-Linkage dan Complete-Linkage juga tidak berpengaruh banyak pada nilai silhouette, bisa dilihat pada tabel 5.3 bahwa 3 metode tersebut hasil evaluasinya sama. Gambar 5.11 menunjukan hasil evaluasi tertinggi dari 24 percobaan, sedangkan gambar 5.12 menunjukan hasil evaluasi terendah.
5.5. Perbandingan nilai silhouette coefficient pada 2500 data nilai UASBN
Dari seluruh percobaan dengan menggunakan 2500 data dan variasi lainnya, hasil evaluasi menunjukan bahwa nilai silhouette coefficient tertinggi adalah tanpa menggunakan normalisasi Min-max dan 3 jumlah cluster dengan hasil silhouette coefficient 0,622768 yang berarti memiliki struktur yang baik. Untuk metode Single-Linkage, Average Linkage, Complete-Linkage sendiri tidak berpengaruh
Gambar 5.11 Hasil Evaluasi Tertinggi 2000 data
Gambar 5.12 Hasil Evaluasi Terendah 2000 data