PEMBOBOTAN ATTRIBUT MENGGUNAKAN GAIN RATIO PADA ALGORITMA KMEANS TESIS RYAN DHIKA PRIYATNA

Teks penuh

(1)PEMBOBOTAN ATTRIBUT MENGGUNAKAN GAIN RATIO PADA ALGORITMA KMEANS. TESIS. RYAN DHIKA PRIYATNA 167038033. PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2020. Universitas Sumatera Utara.

(2) PEMBOBOTAN ATTRIBUT MENGGUNAKAN GAIN RATIO PADA ALGORITMA KMEANS. TESIS Diajukan sebagai salah satu syarat untuk memperoleh ijazah Magister Teknik Informatika. RYAN DHIKA PRIYATNA 167038033. PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2020. Universitas Sumatera Utara.

(3) iii. PERSETUJUAN. Judul. : PEMBOBOTAN ATTRIBUT MENGGUNAKAN GAIN RATIO PADA ALGORITMA KMEANS. Kategori. : TESIS. Nama. : RYAN DHIKA PRIYATNA. Nomor Induk Mahasiswa : 167038033 Program Studi. : MAGISTER (S-2) TEKNIK INFORMATIKA. Fakultas. : ILMU. KOMPUTER. DAN. TEKNOLOGI. INFORMASI. UNIVERSITAS SUMATERA UTARA. Komisi Pembimbing. :. Pembimbing 2. Pembimbing 1. Prof. Dr. Muhammad Zarlis. Prof. Dr. Tulus. Diketahui/disetujui oleh Program Studi Magister (S2) Teknik Informatika Ketua,. Prof. Dr. Muhammad Zarlis NIP. 19570701 198601 1 003. Universitas Sumatera Utara.

(4) iv. PERNYATAAN. PEMBOBOTAN ATTRIBUT MENGGUNAKAN GAIN RATIO PADA ALGORITMA KMEANS. TESIS. Saya mengakui semua tesis ini adalah hasil karya saya sendiri kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.. Medan, 28 Januari 2020. Ryan Dhika Priyatna 167038033. Universitas Sumatera Utara.

(5) v. PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS. Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan di bawah ini :. Nama. : Ryan Dhika Priyatna. NIM. : 167038033. Program Studi. : Magister (S-2) Teknik Informatika. Jenis Karya Ilmiah. : Tesis. Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalty Free Right) atas tesis saya yang berjudul :. PEMBOBOTAN ATTRIBUT MENGGUNAKAN GAIN RATIO PADA ALGORITMA KMEANS. Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non-Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat, mengelola dalam bentuk database, merawat dan mempublikasikan tesis saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan sebagai pemegang dan/atau sebagai pemilik hak cipta.. Demikian pernyataan ini dibuat dengan sebenarnya.. Medan, 28 Januari 2020. Ryan Dhika Priyatna 167038033. Universitas Sumatera Utara.

(6) vi. Telah diuji pada Tanggal : 28 Januari 2020. PANITIA PENGUJI TESIS Ketua. : Prof. Dr. Tulus. Anggota. : 1. Prof. Dr. Muhammad Zarlis 2. Prof. Dr. Opim Salim Sitompul 3. Dr. Erna Budiarti Nababan, M.IT. Universitas Sumatera Utara.

(7) vii. RIWAYAT HIDUP. DATA PRIBADI. Nama Lengkap berikut gelar : Ryan Dhika Priyatna, S.Kom Tempat dan Tanggal Lahir. : Binjai, 7 Agustus 1992. Alamat Rumah. : JL.KH.Akhmad Dahlan No. 5 Kota Pematangsiantar. Telp/HP. : 08116070699. Email. : [email protected]. DATA PENDIDIKAN. SD. : SD Taman Asuhan. TAMAT : 2004. SMP. : SMP Yayasan Perguruan Keluarga. TAMAT : 2007. SMA : SMA Negeri 4 Kota Pematangsiantar. TAMAT : 2010. D3. : Teknik Informatika USU. TAMAT : 2013. S1. : Ilmu Komputer USU. TAMAT : 2015. S2. : Teknik Informatika USU. TAMAT : 2020. Universitas Sumatera Utara.

(8) viii. UCAPAN TERIMA KASIH. Alhamdulillah segala puji dan syukur atas nikmat yang luas kepada Allah Yang Maha Esa sehingga penulis dapat menyelesaikan penyusunan tesis ini, sebagai syarat untuk memperoleh gelar Magister Komputer pada Program Magister (S-2) Ilmu Komputer Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.. Ucapan terima kasih Penulis sampaikan kepada semua pihak yang telah membantu Penulis dalam menyelesaikan tesis ini baik secara langsung maupun tidak langsung, teristimewa orangtua penulis yang sangat mengasihi dan menyayangi penulis dan memberi dukungan tiada henti. Pada kesempatan ini penulis ingin mengucapkan terima kasih yang sebesar-besarnya kepada:. 1. Bapak Prof. Dr. Runtung Sitepu, S.H., M.Hum. selaku Rektor Universitas Sumatera Utara.. 2. Bapak Prof. Dr. Opim Salim Sitompul selaku Dekan Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.. 3. Bapak Prof. Dr. Muhammad Zarlis selaku Ketua Program Studi Magister Teknik Informatika Universitas Sumatera Utara.. 4. Bapak Syahril Efendi, S.Si., M.IT selaku Sekretaris Program Studi Magister Teknik Informatika Universitas Sumatera Utara.. 5. Bapak Prof. Dr. Tulus selaku Dosen Pembimbing I yang telah memberikan kritik, saran dalam penyempurnaan tesis ini.. 6. Bapak Prof. Dr. Muhammad Zarlis selaku Dosen Pembimbing II yang telah memberikan memberikan kritik, saran dalam penyempurnaan tesis ini.. Universitas Sumatera Utara.

(9) ix. 7. Semua dosen dan semua pegawai di Program Studi Magister (S-2) Teknik Informatika Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.. 8. Buat Keluarga besar penulis, Orang tua yang senantiasa mendoakan dan mendukung serta kakak dan adik tersayang Prana Citra Puspita Adelia, Azalia Fawnia Adriesty. 9. Seluruh rekan-rekan seperjuangan mahasiswa Magister Teknik Informatika Kom B 2016. 10. Team Bank CIMB Niaga Syariah yang senantiasa mendukung, Muhammad Rival, Lefvana, Kak Irma Pratiwi , Kak Zahri Nura, Kak Tia, Kak Ayu, Bang Andri Rahmat, Bang Heru, Bang Fahri, Bang Abdul Basith, teman penulis Adli Abdillah Nababan, Khairul Umam, Miftahul Jannah dan terima kasih kepada Tri Lestari yang telah mendukung penulis dalam menyelesaikan tesis ini. 11. Semua pihak yang terlibat langsung ataupun tidak langsung yang tidak dapat penulis ucapkan satu per satu yang telah membantu penyelesaian tesis ini.. Semoga Allah SWT memberikan rahmat, kasih sayang, dan balasan kepada semua pihak yang telah memberikan bantuan, masukan, dan semangat kepada penulis untuk menyelesaikan tesis ini. Penulis berharap tesis ini dapat bermanfaat kepada penulis dan pembaca.. Medan, 28 Januari 2020. (Ryan Dhika Priyatna). Universitas Sumatera Utara.

(10) x. ABSTRAK. K-Means merupakan salah satu metode dalam data mining yang bisa digunakan untuk melakukan pengelompokan / clustering suatu data .Tujuan algoritma ini yaitu untuk membagi data menjadi beberapa kelompok. Metode ini menerima masukan berupa data tanpa label kelas. Kendala pada metode ini, apabila titik cluster dipilih secara acak sehingga data yang dihasilkan dapat berbeda-beda. Jika nilai tersebut kurang baik, maka pengelompokan yang. dihasilkan kurang optimal. Pembobotan attribut dengan menggunakan gain ratio terbukti mampu meningkatkan hasil akurasi pada proses clustering dengan menggunakan metode kmeans terhadap seluruh dataset yang digunakan, dimana peningkatan rata-rata terhadap seluruh dataset yang digunakan adalah sebsar 4.67% tanpa sekalipun mengalami penurunan hasil akurasi. Hal ini juga membuktikan bahwa bobot attribute yang diberikan berdasarkan gain ratio telah tepat. gain ratio secara jelas mampu memberikan peningkatan hasil akurasi pada proses clustering dengan menggunakan metode k-means, dimana peningkatan hasil akurasi yang tertinggi terjadi pada dataset hayes-roth, yaitu sebesar 6.25%, sedangkan peningkatan terendah terjadi pada dataset iris, yaitu sebesar 3.33%.. Kata kunci : Clustering,Outliers, K-Means,Hayes –Roth,Iris, Gain Ratio. Universitas Sumatera Utara.

(11) xi. ATTRIBUT WEIGHTING USING GAIN RATIO IN KMEANS ALGORITHM. ABSTRACT. K-Means is a method in data mining that can be used to group / cluster a data. The purpose of this algorithm is to divide data into several groups. This method accepts input in the form of data without class labels. Constraints on this method, if the cluster point is chosen randomly so that the data generated can vary. If the value is not good, then the resulting groupings are less than optimal. Attribute weighting using the gain ratio is proven to be able to improve the accuracy of the clustering process by using the k-means method for all datasets used, where the average increase of all datasets used is 4.67% without even decreasing the accuracy results. This also proves that the attribute weights given based on the gain ratio are correct. the gain ratio is clearly able to provide an increase in the accuracy of the clustering process using the k-means method, where the highest increase in accuracy results occurs in the hayesroth dataset, which is 6.25%, while the lowest increase occurs in the iris dataset, amounting to 3.33%. Keyword : Clustering,Outliers, K-Means,Hayes –Roth,Iris, Gain Ratio. Universitas Sumatera Utara.

(12) xii. DAFTAR ISI. Halaman. Halaman Judul Persetujuan Pernyataan Orisinalitas Persetujuan Publikasi Panitia Penguji Riwayat Hidup Ucapan Terima Kasih Abstrak Abstract Daftar Isi Daftar Tabel Daftar Gambar Daftar Lampiran. i ii iii iv v vi vii ix x xi xiii xv xvi. BAB 1 PENDAHULUAN 1.1. Latar Belakang 1.2. Rumusan Masalah 1.3. Tujuan Penelitian 1.4. Manfaat Penelitian 1.5. Batasan Ruang Lingkup Penelitian. 1 2 3 3 3 3. BAB 2 LANDASAN TEORI 2.1. Data Mining 2.2. Clustering 2.3. Kmeans 2.4. Gain Ratio 2.5. Analisis Cluster Pengelompokan 2.6. Teknik Evaluasi Data 2.7. Penelitian Sebelumnya. 4 4 7 7 8 9 11 12. BAB 3 METODOLOGI PENELITIAN 3.1. Data Yang Digunakan 3.2. Metode Yang Diusulkan 3.2.1. Pembobotan Atribut Berdasarkan Gain Ratio 3.2.2. Perhitungan Menggunakan Metode KMeans 3.2.3. Proses Clustering 3.3. Proses Penyelesaian. 14 15 15 16 16 18 18. Universitas Sumatera Utara.

(13) xiii BAB 4 HASIL DAN PEMBAHASAN 4.1. Hasil 4.2. Pengujian 4.2.1. Pengujian Terhadap Data Set Ionosphare 4.2.2. Pengujian Terhadap Data Set Iris 4.2.3. Pengujian Terhadap Data Set Hayes-Roth 4.2.4. Pengujian Terhadap Data Set Parkinson Multiple Sound 4.3. Pembahasan. 21 21 23 23 28 32 37 42. BAB 5 KESIMPULAN DAN SARAN 5.1. Kesimpulan 5.2. Saran. 44 44 44. DAFTAR PUSTAKA LAMPIRAN. 45. Universitas Sumatera Utara.

(14) xiv DAFTAR TABEL. Halaman. Tabel 2.1. Tabel 2.2. Tabel 3.1. Tabel 3.2. Tabel 3.2. Tabel 3.3. Tabel 3.4. Tabel 3.5. Tabel 3.6. Tabel 4.1. Tabel 4.2. Tabel 4.3. Tabel 4.4. Tabel 4.5. Tabel 4.6. Tabel 4.7. Tabel 4.8. Tabel 4.9. Tabel 4.10. Tabel 4.11. Tabel 4.12. Tabel 4.13. Tabel 4.14. Tabel 4.15. Tabel 4.16. Tabel 4.17. Tabel 4.18. Tabel 4.19. Tabel 4.20. Tabel 4.21. Tabel 4.21. Tabel 4.22. Tabel 4.23. Tabel 4.24.. Daftar Penelitian Yang Telah Dilakukan Daftar Penelitian Yang Telah Dilakukan ( Lanjutan ) Rincian Data Yang Digunakan Rincian Data Rincian Data ( Lanjutan ) Hasil Perhitungan Bobot Untuk Setiap Atribut Centroid Dari Metode Kmeans Jarak Antara Centroid Dan Data Uji Kelas Prediksi Data Uji Informasi Attribut Dataset Ionosphare Rincian Data Ionosphare Rincian Data Latih Ionosphare Rincian Data Testing Ionosphare Rincian Nilai Bobot Dataset Ionosphare Centroid Dataset Ionosphare Jarak Antara Centroid dan Data Testing Ionosphare Informasi Attribut Dataset Iris Rincian Data Iris Rincian Data Latih Iris Rincian Data Testing Iris Rincian Nilai Bobot Dataset Iris Centroid Dataset Iris Jarak Antara Centroid dan Data Testing Iris Informasi Attribut Dataset Hayes-Roth Rincian Data Hayes-Roth Rincian Data Latih Hayes-Roth Rincian Data Testing Hayes-Roth Rincian Nilai Bobot Dataset Hayes-Roth Centroid Dataset Hayes-Roth Jarak Antara Centroid dan Data Testing Hayes-Roth Jarak Antara Centroid dan Data Testing Hayes-Roth (Lanjutan) Informasi Attribut Dataset Parkinson Multiple Sound Recording Rincian Data Parkinson Multiple Sound Recording Rincian Data Latih Parkinson Multiple Sound Recording. 13 14 15 18 19 19 20 20 20 24 24 25 25 26 26 27 27 27 28 28 29 29 30 30 30 31 31 31 32 33 33 33 34 34. Universitas Sumatera Utara.

(15) xv. Tabel 4.24. Tabel 4.25. Tabel 4.26. Tabel 4.26. Tabel 4.27. Tabel 4.28. Tabel 4.28.. Rincian Data Latih Parkinson Multiple Sound Recording (Lanjutan) Rincian Data Testing Parkinson Multiple Sound Recording Rincian Nilai Bobot Dataset Parkinson Multiple Sound Recording Rincian Nilai Bobot Dataset Parkinson Multiple Sound (Lanjutan) Centroid Dataset Parkinson Multiple Sound Recording Jarak Antara Centroid Dan Data Testing Parkinson Multiple Sound Jarak Antara Centroid Dan Data Testing Parkinson (Lanjutan). 34 35 35 35 36 36 36. Universitas Sumatera Utara.

(16) xvi DAFTAR GAMBAR. Halaman Gambar 2.1. Gambar 2.2. Gambar 3.1. Gambar 3.2. Gambar 3.3. Gambar 4.1. Gambar 4.2. Gambar 4.3. Gambar 4.4. Gambar 4.5. Gambar 4.6. Gambar 4.7. Gambar 4.8. Gambar 4.9.. Proses Clustering Ilustrasi Perhitungan Jarak Keterkaitan Antar Kelompok Metode Yang Diusulkan Proses Pembobotan Tahapan Perhitungan Dengan Metode Kmeans Output Program Bobot Attribut Dataset Ionosphare Output Program Bobot Attribut Dataset Iris Output Program Bobot Attribut Dataset Hayes-Roth Output Program Bobot Attribut Dataset Parkinson Multiple Sound Output Program Akurasi Pengujian Pada Dataset Ionosphare Output Program Akurasi Pengujian Pada Dataset Iris Output Program Akurasi Pengujian Pada Dataset Hayes-Roth Output Program Akurasi Pengujian Pada Dataset Parkinson Peningkatan Akurasi. 6 11 15 16 17 21 22 22 22 22 23 23 23 42. Universitas Sumatera Utara.

(17) xvi. DAFTAR LAMPIRAN. Lampiran 1.. Listing Program. 45. Universitas Sumatera Utara.

(18) BAB 1. PENDAHULUAN. 1.1. Latar Belakang Masalah. Pengolahan data yang akurat dapat dilakukan dengan mengolah sumber data, data mining dapat digunakan untuk data yang benar dengan menyediakan alat untuk menemukan pengetahuan (Han & Kamber, 2012), dan setiap kumpulan atau gudang data dapat memberikan pengetahuan penting yang menjadi informasi yang sangat berharga bagi suatu organisasi, seperti pada organisasi pendidikan (Wahyudi, 2017). Salah satu bagian dari metode data mining adalah K-Means. K-Means merupakan salah satu metode dalam data mining yang bisa digunakan untuk melakukan pengelompokan / clustering suatu data (Winda, 2015).. Tujuan algoritma ini yaitu untuk membagi data menjadi beberapa kelompok. Metode ini menerima masukan berupa data tanpa label kelas. Kendala pada metode ini, apabila titik cluster dipilih secara acak sehingga data yang dihasilkan dapat berbeda-beda (Han & Kamber, 2012). Jika nilai tersebut kurang baik, maka pengelompokan yang dihasilkan kurang optimal. Selanjutnya kegagalan untuk pendeksian outliers dalam proses pengelompokan data termasuk menentukan apakah suatu data item merupakan outliers dari suatu cluster tentu dan apakah data dalam jumlah kecil membentuk cluster tersendiri (Agusta, 2007). Algoritma ini menerima masukan data yang bertipe array dan melakukan perulangan dengan membuat menjadi sub-sub yang lebih kecil yang berdasarkan data yang diolah. Dalam penentuan nilai centroid maka data vektor x dan y akan diurutkan, dikelompokan dan dibagi berdasarkan jumlah cluster yang ingin dibentuk. Sehingga akan mendapatkan nilai tengah dari array yang akan digunakan sebagai titik pusat centroid.. 1. Universitas Sumatera Utara.

(19) 2. Duneja & Puyalnithi (2017) dalam penelitiannya menggunakan Gain Ratio sebagai dasar pembobotan atribut pada KNN. Dari penelitian mereka terlihat bahwa KNN dengan menggunakan Gain Ratio dinilai lebih intuitif dan mudah untuk dipahami. Adapun hasil yang diperoleh dalam penelitian tersebut, pembobotan atribut dengan menggunakan Gain Ratio mampu meningkatkan akurasi tertinggi sebesar 5%.. Menurut Priyadarsini et al. (2011) Gain Ratio merupakan modifikasi dari Information Gain yang mengurangi biasnya. Gain Ratio memperbaiki Information Gain dengan mengambil informasi intrinsik dari setiap atribut. Oleh sebab itu pada penelitian ini akan memanfaatkan Gain Ratio dalam pemberian bobot terhadap atribut. Diharapkan hal ini dapat meningkatkan nilai akurasi klasifikasi pada K-Nearest Neighbor (KNN).. Adapun penelitian-penelitian terdahulu yang terkait dengan menggunakan metode KMeans untuk menentukan status gizi balita yang memberikan keakuratan 34.00% (Mega & Dhuhita, 2015), dan penerapan metode clustering dengan algoritma K-Means untuk prediksi kelulusan mahasiswa jurusan teknik informatika di Universitas Muhammadiyah Jember memiliki akurasi 60.00% ( Jannah,2017), dan penelitian (Martiano, 2016) Analisis Perbandingan Kinerja Metode K-Means Dengan Modifikasi Metode K-Means menghasilkan dengan metode K-Means yang dimodifikasi memiliki tingkat akurasi yang lebih baik daripada hanya menggunakan metode K-Means tanpa di modifikasi , dan penelitian (Adli Abdillah,2017) Attribute Weighting Pada K-Nearest Neighbor Menggunakan Gain Ratio menghasilkan nilai akurasi dari metode K-Nearest Neighbor (KNN) dengan cara memberikan pembobotan pada setiap atribut dengan memanfaatkan Gain Ratio.. Berdasarkan permasalahan yang telah diuraikan, dapat disimpulkan bahwa metode KMeans memiliki kekurangan. Sehingga hal ini mendorong penulis untuk melakukan modifikasi terhadap perhitungan K-Means dalam menentukan nilai pusat centroid dengan memanfaatkan gain rasio.. Universitas Sumatera Utara.

(20) 3. 1.2 Rumusan Masalah Metode K-Means yang digunakan sebagai dasar dalam menentukan kelas data dinilai masih memiliki hasil akurasi yang kurang baik. Hal ini salah satunya disebabkan karena metode jarak memberikan pengaruh yang sama terhadap setiap attribut, sehingga attribut yang kurang relevan juga memiliki pengaruh yang sama terhadap penentuan jarak antar data.. 1.3 Tujuan Penelitian Adapun tujuan penelitian ini adalah meningkatkan nilai akurasi dari pada proses clustering, dengan menggunakan metode K-Means dengan cara memberikan pembobotan pada setiap atribut menggunakan Gain ratio.. 1.4 Manfaat Penelitian Manfaat dilakukannya penelitian ini ialah : 1. Dapat menjadi acuan dalam pembobotan dari atribut dengan memanfaatkan Gain ratio pada proses dengan menggunakan metode K-Means. 2. Menghasilkan hasil analisis kinerja antara metode K-Means dan pemanfaatan menggunakan Gain ratio. 1.5 Batasan Masalah Dalam menganalisis kinerja metode K-Means dengan pemanfaatan menggunakan Gain Ratio. 1. Data yang digunakan bersumber dari data set yang diperoleh dari UCI Machine Learning Repository. 2. Penelitian ini mengukur kinerja berdasarkan tingkat akurasi yang dihasilkan.. Universitas Sumatera Utara.

(21) BAB 2. LANDASAN TEORI. Pada bab ini dijelaskan bahwa data mining yaitu satu proses menggali sesuatu yang bermakna dengan cara memilah-milah data yang berukuran besar. Dalam data mining terdapat suatu proses yaitu Clustering. Clustering merupakan suatu metode penganalisaan data yang memiliki tujuan mengelompokan data yang memiliki karakteristik yang sama.(Martiano,2016) Salah satu metode yang mengunakan Clustering yaitu K-Means. KMeans merupakan metode penganalisaan data yang berusaha untuk mengelompokan data kedalam beberapa kelompok. Namun K-Means Memiliki kelemahan dalam menentukan titik awal cluster yang dipilih secara acak (Random), yang menyebabkan nilai keangotaan akan selalu berubah-ubah jika dilakukan perhitungan ulang. Hal ini membuat peneliti tertarik untuk melakukan penelitian terhadap metode K-Means .Dalam penelitian ini mengunakan dua metode/algoritma yaitu K-Means dan Gain Rasio dari. kedua. metode. tersebut. menghasilkan perbandingan kinerja,. 2.1. Data Mining Data mining adalah suatu serangkaian proses untuk mengali suatu informasi dari suatu tumpukan data, yang informasi tersebut belum diketahui. Data mining dapat memenuhi kebutuhan data dengan menyediakan alat untuk menemukan pengetahuan (Han, 2012). Proses pencarian pengetahuan ini menggunakan berbagai teknik-teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksikannya. Data mining merupakan proses pencarian pola-pola yang menarik dan tersembunyi (hidden pattern) dari suatu kumpulan data yang berukuran besar yang tersimpan dalam suatu basis data, data warehouse, atau tempat.. 4 Universitas Sumatera Utara.

(22) 5. penyimpanan data lainnya (Larose, 2005). Bila data alam dianggap sebagai konteks dalam proses penambangan, hasil yang ditambang dapat dibuat lebih berarti (Ong, 2010).. Berdasarkan tugasnya, data mining dikelompokan menjadi deksripsi, estimasi, prediksi, klasifikasi, Clustering (Larose, 2005). Proses dalam tahap data mining terdiri dari tiga langkah utama (Sumathi, 2006) yaitu:. a. Data Preparation Pada langkah ini, data dipilih, dibersihkan, dan dilakukan preprocessed mengikuti pedoman dan knowledge dari ahli domain yang menangkap dan mengintegrasikan data internal dan eksternal ke dalam tinjauan organisasi secara menyeluruh.. b. Algoritma data mining Penggunaan algoritma data mining dilakukan pada langkah ini untuk menggali data yang terintegrasi untuk memudahkan identifikasi informasi bernilai.. c. Fase analisa data Keluaran dari data mining dievaluasi untuk melihat apakah knowledge domain ditemukan dalam bentuk rule yang telah diekstrak pada jaringan.. 2.2 Clustering Clustering adalah suatu metode pengelompokan berdasarkan ukuran kedekatan (kemiripan). Clustering menganalisis data objek tanpa memberi tahu label kelas. Dalam banyak kasus, data berlabel kelas mungkin sama sekali tidak ada di awal. Clustering. dapat. digunakan untuk menghasilkan label kelas untuk sekelompok data (Han & Kamber, 2005).. Menurut (Fauziah & Zarlis. M. 2017) Data Masukan (input) untuk sistem analisis cluster adalah seperangkat data dan kesamaan ukuran (atau perbedaan) antara dua data. Sedangkan keluaran (output) dari analisis cluster adalah sejumlah kelompok yang membentuk sebuah partisi atau struktur partisi dari kumpulan data. Salah satu hasil tambahan dari analisis cluster adalah deskripsi umum dari setiap cluster dan hal itu sangat penting untuk analisis lebih dalam dari karakteristik data set tersebut.. Universitas Sumatera Utara.

(23) 6. Dalam Clustering dikenal empat tipe data yaitu 1. Variabel bersekala interval, 2. Variabel biner, 3. Varibel nominal, Ordinal, dan rasio, 4. Variabel dengan tipe data lainnya. Pada Gambar 2.1 menunjukkan contoh sederhana dari proses Clustering, dimana 3 cluster di dalam data dapat teridentifikasi dengan mudah. Kriteria kemiripan yang digunakan dalam kasus ini adalah jarak (dalam kasus ini jarak geometris). Proses ini disebut distance-based Clustering . Cara lain untuk melakukan Clustering. adalah conceptual Clustering. Dalam. conceptual Clustering, objek dikelompokkan berdasarkan kecocokannya menurut konsep deskriptif (Nugraheni, 2011).. Gambar 2.1. Proses Clustering (Jansen, 2007). Dalam menganalisis metode Clustering memilki persyaratan yang khusus dalam pengelompokan data (Han & Kamber, 2012) yaitu: 1. Skalabilitas : Banyak algoritma pengelompokan bekerja dengan baik pada kumpulan data kecil yang berisi beberapa ratus data objek, namun pada database besar yang berisi jutaan bahkan milyaran objek, terutama pada skenario pencarian web. Clustering hanya pada sampel kumpulan data besar yang diberikan dapat menyebabkan hasil yang bias. Oleh karena itu algoritma clustering sangat dibutuhkan. 2. Kemampuan untuk menangani berbagai jenis atribut: Banyak algoritma dirancang pada data cluster numerik (interval-based). Namun, dalam pengalikasiannya. memerlukan pengelompokan tipe data lainnya, seperti data. biner, nominal (kategoris), dan ordinal atau campuran tipe data lainnya. Semakin banyak aplikasi membutuhkan teknik clustering untuk tipe data yang kompleks seperti grafik, urutan, gambar, dan dokumen Universitas Sumatera Utara.

(24) 7. 3. Penemuan cluster dengan bentuk acak: Banyak algoritma clustering menentukan cluster berdasarkan pengukuran jarak yang jau Euclidean atau manhattan. Dalam pengukuran data cendrung menemukan data yang sama tetapi bisa dengan bentuk cluster yang lain. 4. Persyaratan mememukan Domain Knowledge untuk menentukan parameter input: Banyak algoritma clustering mengharuskan pengguna memberikan jumlah cluster yang diinginkan. Akibatnya pengelompokan menjadi sangat sensitif pada parameter yang diberikan. Terutama pada data set yang berdimensi tinggi dimana pengguna belum memahami dan mendalami data yang akan diolah. 5. Kemampuan untuk menangani data noisy: Sebagian besar kumpulan data mengandung outliner (hilang), oleh karena itu algoritma clustering sangat sensitif terhadap noisy dan dapat menghasilkan kualitas yang buruk. 6. Pengelompokan dan ketidakpekaan terhadap data yang baru: Pembaharuan terhadap data hal yang layak terjadi. Tetapi dalam metode pengelompokan data, data yang baru harus dihitung ulang sehingga hasil sangat tergantung pada urutan objek yang disajikan. 7. Kemampuan pengelompokkan data berdimensi tinggi: Kumpulan data dapat berisi banyak dimensi atau atribut. Saat mengelompokkan dokumen,. misalnya. setiap. kata. kunci. dapat. dianggap sebagai dimensi, Dan. seringkali ada ribuan kata kunci. Algoritma Clustering yang bagus dalam menangani data berdimensi rendah seperti kumpulan data hanya melibatkan dua atau tiga dimensi. Menemukan kumpulan objek data dalam ruang berdimensi tinggi sangat menantang, terutama mengingat data semacam itu bisa sangat jarang dan sangat condong. 8. Kendala berbasis Clustering : Aplikasi dunia nyata mungkin perlu melakukan pengelompokan berdasarkan berbagai jenis kendala. Misalkan pekerjaan Anda adalah memilih lokasi sejumlah mesin teller otomatis baru (ATM) di sebuah kota. Untuk memutuskan hal ini, Anda mungkin mengelompokkan rumah tangga sambil mempertimbangkan kendala seperti jaringan gelombang dan jalan raya kota dan jenis dan jumlah pelanggan per-gugus.. Universitas Sumatera Utara.

(25) 8. 2.3 K-Means K-means merupakan salah satu dari metode clustering. Cluster sepenuhnya bergantung pada pemilihan kelompok sentris awal. Elemen data K dipilih sebagai pusat awal; Maka jarak semua data Elemen dihitung dengan rumus jarak Euclidean. Elemen data kurang dari jarak centroids dipindahkan ke cluster yang sesuai. Prosesnya dilanjutkan sampai tidak ada lagi perubahan terjadi dalam kelompok [k-1]. Pengelompokkan partisi ini adalah teknik yang paling populer dan mendasar (Han,Chamber 2012). Berikut adalah langkahlangkah dari algoritma K-Means (Rahmawati, 2016): 1. Menentukan banyak k-cluster yang ingin dibentuk. 2. Membangkitkan nilai random untuk pusat cluster awal (centroid) sebanyak kcluster. 3. Menghitung jarak setiap data input terhadap masing-masing centroid menggunakan rumus jarak eucledian (Eucledian Distance) hingga ditemukan jarak yang paling dekat dari setiap data dengan centroid. Berikut adalah persamaan Eucledian Distance :. (2.1) Dengan. adalah jarak antara cluster. antara cluster. dengan pusat cluster. dengan pusat cluster. pada kata ke i , dan jarak. pada kata ke i.. 4. Mengklasifikasikan setiap data berdasarkan kedekatannya dengan centroid (jarak terkecil). 5. Mengupdate nilai centroid,nilai centroid diperoleh dari rata-rata cluster yang bersangkutan menggunakan rumus :. (2.2). Universitas Sumatera Utara.

(26) 9. dimana : = nilai cluster = jumlah data dalam cluster = jumlah dari nilai jarak yang masuk kedalam cluster. 6. Melakukan perulangan dari langkah 2 hingga 5 hingga anggota tiap cluster tidak ada yang berubah. 7. Jika langkah 6 telah terpenuhi, maka nilai rata-rata pusat cluster (μj) pada iterasi terakhir akan digunakan sebagai parameter untuk menentukan klasifikasi data.. 2.4. Gain Ratio Algoritma C4.5 merupakan sebuah metode pohon keputusan dimana dalam pemilihan atributnya berdasarkan dari Gain Ratio. Gain Ratio (GR) merupakan modifikasi dari Information Gain yang mengurangi biasnya. Gain Ratio memperbaiki information gain dengan mengambil informasi intrinsik dari setiap atribut (Priyadarsini et al. 2011). Adapun langkah-langkah dalam penentuan Gain Ratio adalah sebagai berikut : Hitung nilai Entropy pada masing – masing atribut, dengan persamaan :. a.. ………………………………………........(2.3) Dimana: S. = Himpunan Kasus. n. = Jumlah Partisi S. pi. = Proporsi dari Si terhadap S. b. Hitung nilai information gain pada masing-masing atribut dengan persamaan : ………...(2.4) Dimana : S. = Keseluruhan Dataset. A. = Atribut Subset. N. = Jumlah Partisi Atribut A. | Si |. = Ukuran Subset dari Dataset yang dimiliki atribut pada A partisi ke-i. |S|. = Ukuran Jumlah Kasus dalam Dataset. Universitas Sumatera Utara.

(27) 10 1 0. c.. Hitung nilai Split Information untuk masing-masing atribut dengan persamaan 2.5. dibawah ini : ……………………………….(2.5) Dimana : D. = Keseluruhan Dataset. A. = Atribut Subset. v. = Jumlah Partisi Atribut A. | Dj |. = Ukuran Subset dari Dataset yang dimiliki atribut pada A partisi ke-j. |D|. = Ukuran Jumlah Kasus dalam Dataset. d.. Hitung Gain Ratio dari setiap atribut dengan persamaan : …………………………………………………(2.6) Gain Ratio ditemukan pada algoritma C4.5, dimana gain ratio digunakan untuk. menghitung pengaruh atribut terhadap target dari suatu data (Mitchell, 1997). Gain Ratio merupakan pengembangan dari information gain, dimana gain ratio menghilangkan nilai bias dari setiap atribut.. 2.5 Analisis Cluster (Pengelompokan) Analisis cluster merupakan analisis yang memisahkan objek-objek atau varibel kedalam beberapa kelompok yang mempunyai sifat berbeda pada tiap kelompoknya. Tiap-tiap kelompok yang telah dianalisis bersifat homogeny (Kesamaan). Pembentukan cluster didasarkan pada kuat atau tidaknya homogeny antar varibel. Terdapat 4 metode dalam analisis cluster (Han & Kamber, 2012) : 1. Metode Partitional Merupakan pengelompokan variabel kedalam sejumlah cluster tanpa adanya hirarki antara satudengan yang lainnya. Pada umumnya metode ini memilki pusat cluster dan memiliki tujuan meminimunkan jarak varibel-varibel dari pusat cluster.. Universitas Sumatera Utara.

(28) 1 11 1 2. Metode Hirarki Metode hirarki merupakan penglompokan varibel-varibel yang memiliki hubungan yang paling dekat antara variabel satu dengan yang lainnya. Sehingga membentuk suatu kesimpulan dimana ada hirarki yang paling mirip sampai yang tidak mirip yang membentuk suatu cluster .. Jarak Euclidean merupakan metode yang mencari nilai kedekatan jarak dari dua varibel, contohnya pada teorema pyhtagoras pada segitiga siku-siku. Pada sisi miring dan. dapat dihitung dengan mengkuadratkan sisi horizontal ke sisi vertical. dan. .. Sehingga dapat menghasilkan jarak terpendek dengan jarak yang dibandingkan . Berikut ini merupakan rumus perhitungan jarak :. (2.7) Setelah jarak minimum diperoleh. Selanjutnya akan dihitung rata-rata keterkaitan antar kelompok. Saat kita menghitung jarak keterkaitan antar kelompok contohnya terdiri atas dua cluster (Spencer, 2014) seperti gambar berkut.. Gambar 2.2 Ilustrasi Perhitungan Jarak Keterkaitan Antar Kelompok Dimana setiap keterkaitan varibel akan dicari rata-ratanya antar dua cluster yang telah ditentukan. Berikut formulasi yang digunakan adalah. Universitas Sumatera Utara.

(29) 12 1 2 (2.8). dimana : = jumlah data dalam cluster = jumlah dari nilai jarak yang masuk dalam masing-masing cluster Selanjutnya nilai tersebut akan menjadi titik pusat cluster yang akan dibandingkan kembali.sarat selesainya perhitungan jarak ini yaitu hingga kelompok keangotaan tidak berubah dan jumlah iterasi (perulangan) yang sebelumnya sama dengan nilai iterasi yang sekarang. 2.6 Teknik Evaluasi Data Teknik elavuasi data merupakan suatu teknik dalam mengukur validitas suatu data. Salah satu teknik yang digunakan yaitu Mean Square of Error. Means Square of Error digunkan untuk mengukur dan estimasi dan memprediksi. Dimana dibutuhkan suatu perkiraan (Prediction). varibel y dari varibel nilai y sebenarnya.. Bertujuan untuk. memeriksa estimasi residual |y-yi| (Larose,2005). Umumnya untuk menentukan nilai mean square of error digunakan (Rougier,2016);. (2.9). Dimana : = Nilai sebenarnya = Nilai yang tercapai n. = Jumlah data. Universitas Sumatera Utara.

(30) 1 13 3. 2.7 Penelitian Sebelumnya Algoritma yang terkait dengan penelitian ini dapat dijabarkan dalam tabel berikut ini: Tabel 2.1 Daftar Penelitian Yang Telah Dilakukan Dan Berkaitan Dengan Penelitian. No 1. Nama. Tahun Judul Penelitian. Hasil dan Kesimpulan. Mega &. 2015. Clustering. Clustering menggunakan metode K-. Menggunakan. Means untuk menentukan status gizi. Dhuhita. Metode K-Means balita yaitu sebesar keakuratan 34% Untuk menentukan Status Gizi Balita 2. Rohan. 2015. Analisa. Hasil Clustering. Clustering. adanya. Menggunakan. yangmerepresentasikan kemiripan antar. dokumen. menunjukkan yang. sejenis,. Metode K-Means dokumen. Akan tetapi, penggunaan Dan Hierarchical semua kata pada bagian abstrak kurang Clustering. tepat. Penggunaan seluruh kata pada dokumen. bisa. mengakibatkan. masuknya dokumen- dokumen berbeda. tema. yang. ke dalam satu cluster. karena yang diproses adalah kata yang tidak signifikan.. Universitas Sumatera Utara.

(31) 14 1 4. Tabel 2.2 Daftar Penelitian Yang Telah Dilakukan Dan Berkaitan Dengan Penelitian (Lanjutan). Jannah. 2017. 4. Penerapan Metode dengan Hasil. prediksi. algoritma K-means untuk dengan. menerapkan. prediksi kelulusan. kelulusan metode. K-Means dapat berjalan sesuai. mahasiswa jurusan teknik dengan. harapan.. Dengan. informatika di universitas. sampling data pada pembahasan. muhammadiyah jember. didapat 108 mahasiswa dengan kelulusan cepat, 107 mahasiswa dengan kelulusan tepat, dan 50 mahasiswa dengan kelulusan lambat.. Sehingga. hasil. keakuratan diperoleh mencapai 60.00% 5 Putra. 2016. Deriving. Divide. Conquer. and Menyediakan DSL yang lebih Dynamic baik. Programming. yang. menawarkan. pengguna kemampuan. untuk. Algorithms using Solver menulis program tingkat tinggi Aided Transformations 6 Adli Abdillah. 2016. tanpa mengorbankan kinerja. Attribute Weighting Pada K- Gain. Ratio. Nearest Neighbor. meningkatkan. Menggunakan Gain Ratio. KNN,. terbukti. dapat. akurasi. pada. dimana. peningkatan. akurasi tertinggi diperoleh pada data set. hayes-roth. sebesar. 12,73%, sedangkan peningkatan akurasi terendah diperoleh pada data set abalone sebesar 0,07%. Hasil. rata-rata. peningkatan. akurasi pada seluruh dataset adalah sebesar 4,09%. Universitas Sumatera Utara.

(32) BAB 3. METODOLOGI PENELITIAN. 3.1. Data Yang Digunakan. Penelitian ini menggunakan data set yang didapat dari UCI Machine Learning Repository dan KEEL-Dataset Repository diantaranya ionosphere, iris, hayes-roth, parkinson multiple sounds recording. Adapun rincian dari data yang digunakan dapat dilihat pada tabel 3.1. Tabel 3.1 Rincian Data Yang Digunakan No. 3.2. Data Set. Atribut Kelas Total Data. 1. ionosphere. 34. 2. 351. 2. iris. 4. 3. 150. 3. hayes-roth. 4. 3. 160. 4. parkinson multiple sounds recording. 28. 2. 1040. Metode yang Diusulkan. Penelitian ini akan menggunakan gain ratio sebagai alat ukur untuk melihat korelasi dari atribut pada data set, dimana gain ratio tersebut akan dijadikan dasar pembobotan terhadap setiap atribut. Diharapkan dengan memberikan bobot pada setiap atribut dapat mengurangi pengaruh dari atribut yang tidak relevan terhadap hasil clustering menggunakan metode KMeans, sehingga mampu untuk meningkat akurasi dari proses clustering tersebut. Gambaran secara umum tahapan dari metode yang diusulkan dalam penelitian ini akan dijelaskan pada gambar 3.1.. Data Set. Clustering Klasifikasi Dengan K-Means dengan KNN. Pembobotan Atribut berdasarkan Gain Ratio. Hasil. 15 Universitas Sumatera Utara.

(33) 16. Gambar 3.1 Metode Yang Diusulkan 3.2.1 Pembobotan Atribut berdasarkan Gain Ratio Pada penelitian ini gain ratio akan digunakan sebagi parameter untuk melihat korelasi antara atribut dan kelas data (target). gain ratio juga akan digunakan sebagai dasar pembobotan terhadap atribut dari data. Adapun proses pembobotan dapat dilihat pada gambar 3.2.. Hitung Nilai Gain Ratio Dari Setiap Atribut. Hitung Bobot Berdasarkan Gain Ratio. Gambar 3.2 Proses Pembobotan. Berdasarkan gambar 3.2, tahapan dari proses pembobotan dapat dijelaskan sebagai berikut : a.. Hitung nilai gain ratio dari setiap atribut. Adapun tahapan untuk menentukan gain ratio adalah sebagai berikut : i. Hitung entropy menggunakan persamaan (2.3) ii. Hitung gain menggunkan persamaan (2.4) iii. Hitung Split Information menggunakan persamaan (2.5) iv. Hitung Gain ratio dari setiap atribut dengan persamaan (2.6). b.. Hitung bobot berdasarkan gain ratio. Bobot dihitung menggunakan persamaan normalisasi min-max (Saranya & Manikandan, 2013), dimana bobot terendah setelah dinormalisasi adalah 0.1 dan bobot tertinggi setelah dinormalisasi adalah 1. Adapun persamaan yang digunakan adalah : (3.1) Dimana : adalah bobot atribut ke-i adalah Gain Ratio ke-i adalah nilai terendah dari gain ratio adalah nilai tertinggi dari gain ratio. 3.2.2 Perhitungan dengan Mengunakan Metode K-Means. Universitas Sumatera Utara.

(34) 17. Setelah data sumber diperoleh ,selanjutnya melakukan pengolahan data dengan mengunakan metode K-Means :. Mulai. Gambar 3.3 Tahapan Perhitungan dengan Metode K-Means. Berkut ini merupakan langkah-langkah K-Means yaitu: 1. Menentukan banyak K-cluster yang ingin dibentuk. 2. Membangkitkan nilai random untuk pusat cluster awal (centroid) sebanyak kcluster. 3. Menghitung jarak setiap data input terhadap masing-masing centroid menggunakan rumus jarak eucledian (Eucledian Distance) hingga ditemukan jarak yang paling dekat dari setiap data dengan centroid. Berikut adalah persamaan Eucledian Distance:. Dengan. adalah jarak antara cluster. antara cluster. dengan pusat cluster. dengan pusat cluster. pada kata ke i , dan jarak. pada kata ke i.. 4. Cluster setiap data berdasarkan kedekatannya dengan centroid (jarak terkecil). 5. Mengupdate nilai centroid,nilai centroid diperoleh dari rata-rata cluster. yang. bersangkutan menggunakan rumus. Universitas Sumatera Utara.

(35) 18. dimana : = jumlah data dalam cluster = jumlah dari nilai jarak yang masuk kedalam cluster 3.2.3 Proses Clustering Setelah proses cluster selesai selanjutnya dilakukan proses clustering dengan cara menghitung kemiripan antara centroid dan data baru. Berkut ini merupakan langkah-langkah pada proses klasifikasi. 1.. Hitung jarak antara centroid dan data testing dengan persamaan 3.2.. (3.2). Dimana : = jarak data uji dan data latih, y. = jumlah atribut, = bobot atribut dan. 2.. = nilai atribut dari data uji dan data latih.. Jadikan kelas centroid dengan jarak terdekat sebagai kelas bagi data baru.. 3.3. Proses Penyelesaian. Terdapat sebuah data set dengan jumlah data sebanyak 10 record, yang mana data tersebut memiliki 4 atribut dan 2 kelas, 80% dari data dijadikan sebagai data latih, sisanya sebanyak 20% dijadikan data uji dan akan ditentukan kelasnya. Adapun rincian dari data dapat dilihat pada tabel 3.2. Tabel 3.2 Rincian Data X3 X4 Kelas. ID. X1. X2. Keterangan. 1. 2. 2. 4. 2. Class 3. Data Latih 1. 2. 4. 1. 1. 3. Class 3. Data Latih 2. 3. 2. 1. 1. 3. Class 2. Data Latih 3. 4. 2. 3. 1. 3. Class 2. Data Latih 4. 5. 4. 3. 4. 2. Class 3. Data Latih 5. 6. 1. 2. 2. 1. Class 1. Data Latih 6. Universitas Sumatera Utara.

(36) 19. 7. 1. 1. 2 1 Class 1 Tabel 3.2 Rincian Data (Lanjutan) X3 X4 Kelas. Data Latih 7. ID. X1. X2. 8. 4. 2. 2. 3. Class 3. Data Latih 8. 9. 1. 1. 1. 2. Class 1. Data Uji 1. 10. 2. 2. 1. 2. Class 2. Data Uji 2. Keterangan. Proses selanjutnya dalam penelitian ini adalah penentuan bobot atribut, dengan cara menghitung nilai entropy dari data latih, selanjutnya dilakukan perhitungan nilai information gain dan dilanjutkan dengan menghitung nilai Gain Ratio. Kemudian hitunglah bobot berdasarkan gain ratio dengan persamaan 2.3. Adapun proses perhitungan bobot atribut adalah sebagai berikut Entropy Class 1. = - (3/10) x Log2 (3/10) = 0.52109. Entropy Class 2. = - (3/10) x Log2 (3/10) = 0.52109. Entropy Class 3. = - (4/10) x Log2 (4/10) = 0.52877. Entropy (Seluruh Kelas) = (Entropy Class 1) + (Entropy Class 2) + (Entropy Class 3) = 1.571 Entropy X11 = - (2/2) x Log2(2/2) - (0/2) x Log2(0/2) = 0 Entropy X12 = - (1/3) x Log2(1/3) - (2/3) x Log2(2/3) = 0.91 Entropy X14 = - (1/3) x Log2(1/3) - (2/3) x Log2(2/3) = 0.91 Informasi Gain (X1). = Entropy (Seluruh Kelas) – = 1 – 0.689 = 0.311. Gain Ratio (X1). = Informasi Gain/Split Info = 0.311/0.810 = 0.384. Selanjutnya dilakukan perhitungan bobot dengan menggunakan persamaan 3.1. Adapun proses perhitungannya dapat dilihat dibawah ini : Bobot (X1) = (0.311-0.311)/(0.575-0.311) x (0.9) + 0.1 = 0.1 Adapun hasil dari perhitungan bobot untuk setiap atribut dapat dilihat pada tabel 3.3 : Tabel 3.3 Hasil Perhitungan Bobot Untuk Setiap Atribut X1. X2. X3. X4. InfoGain. 0.311. 0.549. 0.311. 0.311. Gain Ratio. 0.384. 0.575. 0.384. 0.384. Bobot. 0.100. 1.000. 0.100. 0.100. Universitas Sumatera Utara.

(37) 20. Setelah bobot attribut didapatkan, selanjutnya dilakukan proses pencarian centroid dengan menggunakan metode k-means, adapun hasil centroid dari metode k-means dapat dilihat pada tabel 3.4. Tabel 3.4 Centroid dari metode k-means X1. X2. X3. X4. Class. Centroid 1. 3.00. 1.75. 1.25. 3.00. Kelas 1. Centroid 2. 2.00. 2.00. 3.00. 1.50. Kelas 2. Selanjutnya dilakukan proses klasifikasi, dimana proses klasifikasi dilakukan dengan cara menghitung nilai jarak antara centroid dari setiap kelasn terhadap data uji dengan menggunakan persamaan persamaan 3.2. Adapun jarak antara centroid dan data uji dapat dilihat pada tabel 3.5. Tabel 3.5 Jarak antara centroid dan data uji Centroid 1. Centroid 2. Data Uji 1. 1.03. 0.78. Data Uji 2. 0.21. 0.29. Tahapan terakhir adalah tentukan kelas prediksi bagi data uji berdasarkan jarak terdekat pada setiap centroid kelas data. Berdasarkan tabel 3.5 dapat dilihat bahwa data uji 1 berada pada kelas 2 dan data uji 2 berada pada kelas 1. Adapun kelas prediksi dari setiap data uji dapat dilihat pada tabel 3.6. Tabel 3.6 Kelas Prediksi Data Uji Centroid 1. Centroid 2. Kelas Prediksi. Kelas Aktual. Data Uji 1. 1.03. 0.78. Kelas 2. Kelas 2. Data Uji 2. 0.21. 0.29. Kelas 1. Kelas 1. Berdasarkan tabel 3.6 terlihat bahwa kelas prediksi yang dihasilkan sama dengan kelas aktual, sehingga hasil akurasi dari metode yang diusulkan adalah sebesar 100%.. Universitas Sumatera Utara.

(38) 21. BAB 4. HASIL DAN PEMBAHASAN. 4.1. Hasil. Pada bagian ini, penulis menyajikan hasil dan pembahasan dari penelitian yang dilakukan mengenai pengaruh gain ratio terhadap kinerja dari metode k-means dengan menggunakan dataset dari UCI, yaitu ionosphere, iris, hayes-roth dan parkinson multiple sound recording. Penelitian ini bertujuan untuk mengukur kinerja metode k-means dalam melakukan clustering terhadap data dengan cara menghitung nilai jarak terdekat terhadap setiap centroid dari kelas data. Untuk mempermudah proses perhitungan pada penelitian ini maka digunakan bantuan dari software MATLAB® dalam melakukan proses pengujian terhadap seluruh data. Adapun output perhitungan bobot attribute untuk data set ionosphare dapat dilihat pada gambar 4.1, untuk iris dapat dilihat pada gambar 4.2, untuk hayes-roth dapat dilihat pada gambar 4.3 dan untuk parkinson multiple sound recording dapat dilihat pada gambar 4.4.. Gambar 4.1 Output Program bobot attribut dataset ionosphare. 21 Universitas Sumatera Utara.

(39) 22. Gambar 4.2 Output Program bobot attribut dataset iris. Gambar 4.3 Output Program bobot attribut dataset hayes-roth. Gambar 4.3 Output Program bobot attribute dataset Parkinson multiple sound recording Adapun output program dalam perhitungan akurasi dari dataset ionosphare dapat dilihat pada gambar 4.5, untuk dataset iris dapat dilihat pada gambar 4.6, untuk dataset hayesroth dapat dilihat pada gambar 4.7, dan untuk dataset parkinson multiple sound recording dapat dilihat pada gambar 4.8.. Gambar 4.5 Output Program Akurasi Pengujian Pada Dataset ionosphere. 22 Universitas Sumatera Utara.

(40) 23. Gambar 4.6 Output Program Akurasi Pengujian Pada Dataset iris. Gambar 4.7 Output Program Akurasi Pengujian Pada Dataset hayes-roth. Gambar 4.8 Output Program Akurasi Pengujian Pada Dataset Parkinson multiple sound recording. 4.2. Pengujian. Pengujian dilakukan menggunakan dataset yang diperoleh dari UCI Machine Learning Repository diantaranya ionosphere, iris, hayes-roth dan parkinson multiple sound recording. Pengujian ini menggunakan metode validasi hold out, dimana data dibagi kedalam 2 partisi. Partisi pertama berjumlah 80% dari seluruh data yang akan digunakan sebagai data latih, sedangkan sisanya sebesar 20% dari seluruh data digunakan sebagai data uji.. 4.2.1 Pengujian Terhadap Dataset Ionosphare Pengujian pertama akan menggunakan dataset ionosphare dimana data ini berjumlah 351 instance memiliki 34 attribut, dan terdapat 2 kelas yaitu good condition dan bad condition 23 Universitas Sumatera Utara.

(41) 24. (Dua, D. dan Graff, C, Akses 2019). Adapun rincian informasi attribut dari data ionosphare dapat dilihat pada Tabel 4.1 dan rincian data dapat dilihat pada Table 4.2.. Tabel 4.1 Informasi Attribut Dataset Ionosphare No. Nama Attribut Range Nilai. Type. 2. Attribut-2. [0 s/d 1]. Real. 3. Attribut-3. [-1 s/d 1]. Real. 4. Attribut-4. [-1 s/d 1]. Real. 5. Attribut-5. [-1 s/d 1]. Real. 6. Attribut-6. [-1 s/d 1]. Real. 7. Attribut-7. [-1 s/d 1]. Real. 8. Attribut-8. [-1 s/d 1]. Real. 9. Attribut-9. [-1 s/d 1]. Real …. Real. …. [0 s/d 1]. …. Attribut-1. …. 1. 34. Attribut-34. [-1 s/d 1]. Real. Class. [good,bad]. Binominal. Tabel 4.2 Rincian Data Ionosphare. 1. 1.000. 0.000. 0.995. -0.059. 0.852. 0.023. 0.834. …. -0.453. good. 2. 1.000. 0.000. 1.000. -0.188. 0.930. -0.362. -0.109. …. -0.024. bad. 3. 1.000. 0.000. 1.000. -0.034. 1.000. 0.005. 1.000. …. -0.382. good. 4. 1.000. 0.000. 1.000. -0.452. 1.000. 1.000. 0.712. …. 1.000. bad. 5. 1.000. 0.000. 1.000. -0.024. 0.941. 0.065. 0.921. …. -0.657. good. 6. 1.000. 0.000. 0.023. -0.006. -0.099. -0.119. -0.008. …. 0.120. bad. 7. 1.000. 0.000. 0.976. -0.106. 0.946. -0.208. 0.928. …. -0.810. good. 8. 0.000. 0.000. 0.000. 0.000. 0.000. 0.000. 1.000. …. 0.000. bad …. Class. …. Att34. …. …. …. Att7. …. Att6. …. Att5. …. Att4. …. Att3. …. Att2. …. Att1. …. No. 351. 1.000. 0.000. 0.847. 0.135. 0.736. -0.062. 0.879. …. -0.062. good. 24 Universitas Sumatera Utara.

(42) 25. Tahapan pertama pada penelitian ini adalah membagi dataset yang digunakan menjadi 2 partisi atau biasa disebut dengan metode hold out, dimana 80% dari data digunakan sebagai data latih dan 20% sisanya digunakan sebagai data uji. Adapun rincian data latih dan data uji dapat dilihat pada tabel 4.3 dan tabel 4.4. Tabel 4.3 Rincian Data Latih Ionosphare. 1. 1.000. 0.000. 0.904. -0.016. 1.000. 0.080. 1.000. …. 0.064. good. 2. 1.000. 0.000. 0.882. 0.306. 0.732. 0.578. 0.341. …. -0.817. good. 3. 1.000. 0.000. 0.898. 0.352. 0.673. 0.622. 0.439. …. 0.133. good. 4. 1.000. 0.000. 0.766. 0.211. 0.639. 0.381. 0.484. …. -0.272. good. 5. 1.000. 0.000. 1.000. -0.452. 1.000. 1.000. 0.712. …. 1.000. bad. 6. 1.000. 0.000. 0.020. 0.007. 0.041. -0.008. 0.021. …. 0.000. bad. 7. 1.000. 0.000. 0.847. -0.034. 0.864. -0.085. 0.820. …. -0.248. good. 8. 1.000. 0.000. 0.901. 0.166. 0.793. 0.374. 0.730. …. -0.199. good. 9. 1.000. 0.000. 0.850. 0.018. 0.922. 0.015. 0.920. …. 0.107. good …. Class. …. Att34. …. …. …. Att7. …. Att6. …. Att5. …. Att4. …. Att3. …. Att2. …. Att1. …. No. 281. 0.000. 0.000. 0.000. 0.000. 0.000. 0.000. 0.000. …. 0.000. bad. Tabel 4.4 Rincian Data Testing Ionosphare. 1. 1.000. 0.000. 0.745. 0.106. 0.887. 0.010. 1.000. …. 0.885. good. 2. 1.000. 0.000. 1.000. -1.000. 1.000. 1.000. 1.000. …. 1.000. bad. 3. 1.000. 0.000. 0.738. 0.833. -0.762. -0.238. 1.000. …. 0.333. bad. 4. 1.000. 0.000. 0.627. -0.078. 0.725. 0.000. 1.000. …. 0.608. bad. 5. 1.000. 0.000. -0.006. -0.500. 0.000. 0.000. 1.000. …. -0.019. bad. 6. 1.000. 0.000. 0.347. 0.204. 0.469. 0.245. 1.000. …. 0.408. good. 7. 1.000. 0.000. 0.438. 0.042. 0.583. -0.104. 1.000. …. 0.396. good. 8. 1.000. 0.000. 0.901. 0.018. 1.000. -0.018. 1.000. …. 0.901. good. 9. 1.000. 0.000. 0.881. 0.000. 0.948. -0.027. 1.000. …. 0.936. good …. Class. …. Att34. …. …. …. Att7. …. Att6. …. Att5. …. Att4. …. Att3. …. Att2. …. Att1. …. No. 70. 1.000. 0.000. 0.956. -0.002. 0.864. -0.132. 1.000. …. 0.950. good. 25 Universitas Sumatera Utara.

(43) 26. Setelah dilakukan proses hold out, maka tahapan selanjutnya adalah menghitung bobot attribut dari data latih dengan menggunakan gain ratio, adapun nilai bobot untuk tiap attribut didapati dengan persamaan 3.1. Adapun nilai bobot untuk setiap attribut dapat dilihat pada tabel 4.5. Tabel 4.5 Rincian Nilai Bobot Dataset Ionosphare No. Nama Attribut Gain ratio Bobot. 2. Attribut-2. 0.000. 0.100. 3. Attribut-3. 0.451. 0.933. 4. Attribut-4. 0.316. 0.684. 5. Attribut-5. 0.487. 1.000. 6. Attribut-6. 0.300. 0.654. 7. Attribut-7. 0.369. 0.781. 8. Attribut-8. 0.305. 0.664. 9. Attribut-9. 0.255. 0.571. 10. Attribut-10. 0.261. 0.582. …. 0.771. …. 0.363. …. Attribut-1. …. 1. 34. Attribut-34. 0.181. 0.649. Selanjutnya dilakukan proses kmeans untuk mendapatkan pusat cluster (centroid) yang nantinya digunakan sebagai patokan untuk melakukan klasifikasi pada data testing. Tahapan pertama tentukan nilai centroid awal sebanyak kelas data, adapun nilai centroid awal dapat dilihat pada tabel 4.6. Tabel 4.6 Centroid Awal Ionosphare No. Att1. Att2. Att3. Att4. Att5. Att6. Att7. …. Att34. Class. 1. 1.000. 0.000. 1.000. 0.515. 0.455. 0.333. 0.061. -0.011. bad. 2. 1.000. 0.000. 1.000. 0.162. 1.000. -0.05. 1.000. … …. 0.125. good. Selanjutnya dilakukan perhitungan jarak dari setiap data latih ke setiap pusat centroid dari masing-masing kelas, adapun jarak yang dihasilkan dapat dilihat pada tabel 4.7.. 26 Universitas Sumatera Utara.

(44) 27. Tabel 4.7 Jarak Data Latih dan Centroid Data Latih Centroid 1. 2. 3. 4. 5. 6. 7. …. 281. bad. 0.000. 4.287. 5.079. 2.347. 3.337. 5.166. 4.446. -0.011. good. 4.287. 0.000. 4.461. 3.428. 5.797. 4.988. 3.967. … …. 0.125. Selanjutnya akan ditentukan nilai centroid baru berdasarkan anggota pada setiap cluster. Adapun nilai centroid baru yang didapatkan dapat dilihat pada table 4.8.. Tabel 4.8 Centroid Baru untuk data Ionosphare Data Latih. Centroid Baru. 1. 2. 3. 4. 5. 6. 7. …. 281. bad. 1.000. 0.000. 1.000. -0.542. 1.000. -1.000. 1.000. …. -1.000. good. 1.000. 0.000. 0.671. 0.025. 0.666. 0.050. 0.572. …. 0.33036. Kemudian akan dilakukan kembali perhitungan jarak untuk setiap data latih terhadap nilai centroid dan kembali dilakukan penentuan untuk nilai centroid yang baru, proses pencarian centroid akan berhenti apabila tidak ada data latih yang berpindah cluster. Adapun nilai centroid akhir untuk setiap kelas data dapat dilihat pada tabel 4.9.. Tabel 4.9 Centroid Akhir Ionosphare No. Att1. Att2. Att3. Att4. Att5. Att6. Att7. …. Att34. Class. 1. 0.723. 0.000. 0.271. -0.022. 0.198. 0.038. 0.265. …. 0.125. bad. 2. 1.000. 0.000. 0.840. 0.088. 0.803. 0.170. 0.718. …. -0.011. good. Tahapan selanjutnya melakukan clustering berdasarkan centroid yang didapat dari proses kmeans, dengan cara menghitung kemiripan antara data testing dengan centroid menggunakan persamaan 3.2. Adapun jarak antara data testing dan centroid dapat dilihat pada tabel 4.10.. 27 Universitas Sumatera Utara.

(45) 28. Tabel 4.10 Jarak Antara Centroid dan Data Testing Ionosphare No Centroid 1 Centroid 2 Class Prediction 2. 2.796. 2.459. good. 3. 1.608. 2.040. bad. 4. 0.981. 0.603. good. 5. 1.548. 2.048. bad. 6. 1.484. 1.630. bad. 7. 0.688. 0.709. bad. 8. 1.637. 0.880. good. 9. 1.617. 0.870. good …. good. …. 0.717. …. 1.426. …. 1. 70. 1.595. 0.956. good. Adapun perbandingan hasil akurasi yang didapati dengan metode kmeans konvensional hanya sebesar 68.57%, sedangkan hasil akurasi dengan menggunakan metode kmeans+gain ratio mampu mencapai nilai sebesar 74.28%. Adapun peningkatan yang terjadi sebesar 5.71%.. 4.2.2 Pengujian Terhadap Dataset Iris Pengujian pertama akan menggunakan dataset iris dimana data ini berjumlah 150 instance memiliki 4 attribut, dan terdapat 3 kelas yaitu setosa, virginica, dan versicolor. Adapun rincian informasi attribut dari data iris dapat dilihat pada Tabel 4.11 dan rincian data dapat dilihat pada Table 4.12. Tabel 4.11 Informasi Attribut Dataset Iris No.. Attribut. Nilai. 1. Sepal length. [4.3 s/d 7.9]. 2. Sepal width. [2.0 s/d 4.4]. 3. Petal length. [1.0 s/d 6.9]. 4. Petal width. [0.1 s/d 2.5]. 5. class. [setosa, virginica, versicolor]. 28 Universitas Sumatera Utara.

(46) 29. Tabel 4.12 Rincian Data Iris No. Sepal length Sepal width Petal length Petal width. Class. 2. 4.900. 3.000. 1.400. 0.200. setosa. 3. 4.700. 3.200. 1.300. 0.200. setosa. 4. 4.600. 3.100. 1.500. 0.200. setosa. 5. 5.000. 3.600. 1.400. 0.200. setosa. 6. 5.400. 3.900. 1.700. 0.400. setosa. 7. 4.600. 3.400. 1.400. 0.300. setosa. 8. 5.000. 3.400. 1.500. 0.200. setosa. 9. 4.400. 2.900. 1.400. 0.200. setosa …. setosa. …. 0.200. …. 1.400. …. 3.500. …. 5.100. …. 1. 150. 5.900. 3.000. 5.100. 1.800. virginica. Tahapan pertama pada penelitian ini adalah membagi dataset yang digunakan menjadi 2 partisi atau biasa disebut dengan metode hold out, dimana 80% dari data digunakan sebagai data latih dan 20% sisanya digunakan sebagai data uji. Adapun rincian data latih dan data uji dapat dilihat pada tabel 4.13 dan tabel 4.14. Tabel 4.13 Rincian Data Latih Iris No. Sepal length Sepal width Petal length Petal width. Class. 2. 6.400. 2.800. 5.600. 2.100. virginica. 3. 6.200. 2.200. 4.500. 1.500. versicolor. 4. 6.100. 3.000. 4.600. 1.400. versicolor. 5. 6.300. 2.300. 4.400. 1.300. versicolor. 6. 6.400. 2.900. 4.300. 1.300. versicolor. 7. 6.700. 3.100. 5.600. 2.400. virginica. 8. 5.300. 3.700. 1.500. 0.200. setosa …. versicolor. …. 1.400. …. 3.900. …. 2.700. …. 5.200. …. 1. 120. 5.500. 2.400. 3.800. 1.100. versicolor. 29 Universitas Sumatera Utara.

(47) 30. Tabel 4.14 Rincian Data Testing Iris No Sepal length Sepal width Petal length Petal width. Class. 2. 5.100. 3.700. 1.500. 0.400. setosa. 3. 6.500. 3.000. 5.800. 2.200. virginica. 4. 4.500. 2.300. 1.300. 0.300. setosa. 5. 5.000. 3.000. 1.600. 0.200. setosa. 6. 4.900. 3.000. 1.400. 0.200. setosa …. setosa. …. 0.400. …. 1.900. …. 3.800. …. 5.100. …. 1. 30. 5.100. 3.300. 1.700. 0.500. setosa. Setelah dilakukan proses hold out, maka tahapan selanjutnya adalah menghitung bobot attribut dari data latih dengan menggunakan gain ratio, adapun nilai bobot untuk tiap attribut didapati dengan persamaan 3.1. Adapun nilai bobot untuk setiap attribut dapat dilihat pada tabel 4.15. Tabel 4.15 Rincian Nilai Bobot Dataset Iris No. Nama Attribut Gain ratio Bobot 1. Sepal length. 0.589. 0.367. 2. Sepal width. 0.416. 0.100. 3. Petal length. 1.000. 1.000. 4. Petal width. 1.000. 1.000. Selanjutnya dilakukan proses kmeans untuk mendapatkan pusat cluster (centroid) dari setiap kelas data. Tahapan awal dari proses kmeans dimulai dengan menentukan nilai centroid awal sebanyak kelas data, adapun nilai centroid awal dapat dilihat pada tabel 4.16. Tabel 4.16 Centroid Awal Iris No. Att1. Att2. Att3. Att4. Class. 1. 5.994. 2.769. 4.530. 1.441 versicolor. 2. 6.795. 3.129. 5.648. 2.152. virginica. 3. 5.004. 3.387. 1.533. 0.271. setosa. 30 Universitas Sumatera Utara.

(48) 31. Selanjutnya dilakukan perhitungan jarak dari setiap data latih ke setiap pusat centroid dari masing-masing kelas, adapun jarak yang dihasilkan dapat dilihat pada tabel 4.17.. Tabel 4.17 Jarak Data Latih Iris dan Centroid Awal Iris Centroid. Data Latih 1. 2. 3. 4. 5. 6. 7. …. 120. versicolor. 3.559. 0.540. 1.683. 1.160. 0.643. 0.575. 0.987. …. 2.394. virginica. 4.987. 2.105. 3.231. 0.550. 2.137. 1.088. 0.724. 0.844. setosa. 0.282. 3.018. 2.606. 4.583. 2.963. 3.991. 4.496. … …. 5.654. Selanjutnya akan ditentukan nilai centroid baru berdasarkan anggota pada setiap cluster. Adapaun nilai centroid baru yang didapatkan dapat dilihat pada table 4.18.. Tabel 4.18 Centroid Baru untuk data Iris No. Att1. Att2. Att3. Att4. Class. 1. 5.909. 2.755. 4.423. 1.421 versicolor. 2. 6.800. 3.088. 5.629. 2.075. virginica. 3. 5.005. 3.430. 1.458. 0.235. setosa. Kemudian akan dilakukan kembali perhitungan jarak untuk setiap data latih terhadap nilai centroid dan kembali dilakukan penentuan nilai centroid yang baru, proses pencarian centroid akan berhenti apabila tidak ada data latih yang berpindah cluster. Adapun nilai centroid akhir untuk setiap kelas data dapat dilihat pada tabel 4.19.. Tabel 4.19 Centroid Akhir Dataset Iris No. Att1. Att2. Att3. Att4. Class. 1. 5.925. 2.762. 4.417. 1.457. versicolor. 2. 6.839. 3.082. 5.745. 2.079. virginica. 3. 5.041. 3.509. 1.438. 0.226. setosa. 31 Universitas Sumatera Utara.

(49) 32. Tahapan selanjutnya melakukan klasifikasi berdasarkan centroid yang didapat dari proses kmeans, dengan cara menghitung kemiripan antara data testing dengan centroid menggunakan persamaan 3.2. Adapun jarak antara data testing dan centroid dapat dilihat pada tabel 4.20. Tabel 4.20 Jarak Antara Centroid dan Data Testing Iris No Centroid 1 Centroid 2 Centroid 3 Class Prediction setosa. 2. 3.119. 4.610. 0.186. setosa. 3. 1.584. 0.182. 4.818. virginica. 4. 3.366. 4.865. 0.280. setosa. 5. 3.103. 4.601. 0.172. setosa. 6. 3.290. 4.787. 0.086. setosa. 7. 3.316. 4.818. 0.247. setosa. 8. 0.296. 1.276. 3.489. versicolor. 9. 3.257. 4.755. 0.131. setosa. 0.380. setosa. 30. 2.897. 4.389. …. 0.495. …. 4.245. …. 2.748. …. 1. Adapun perbandingan hasil akurasi yang didapati dengan metode kmeans konvensional hanya sebesar 93.33%, sedangnkan hasil akurasi dengan menggunakan metode kmeans+gain ratio mampu mencapai nilai sebesar 96.67%. Adapun peningkatan yang terjadi sebesar 3.33%.. 4.2.3 Pengujian Terhadap Dataset Hayes-roth Pengujian pertama akan menggunakan dataset hayes-roth dimana data ini berjumlah 160 instance memiliki 4 attribut, dan terdapat 3 kelas yaitu kelas 1, kelas 2 dan kelas 3. Adapun rincian informasi attribut dari data hayes-roth dapat dilihat pada Tabel 4.21 dan rincian data dapat dilihat pada Table 4.22.. 32 Universitas Sumatera Utara.

(50) 33. Tabel 4.21 Informasi Attribut Dataset hayes-roth No. Attribut. Nilai. 1. Att-1. [1 s/d 3]. 2. Att-2. [1 s/d 4]. 3. Att-3. [1 s/d 4]. Tabel 4.21 Informasi Attribut Dataset hayes-roth (Lanjutan) No. Attribut. Nilai. 4. Att-4. [1 s/d 4]. 5. class. [kelas 1,kelas 2, kelas3]. Tabel 4.22 Rincian Data hayes-roth. 1. 2. 1. 1. 2. Kelas 1. 2. 2. 1. 3. 2. Kelas 2. 3. 3. 1. 4. 1. Kelas 3. 4. 2. 4. 2. 2. Kelas 3. 5. 1. 1. 3. 4. Kelas 3. 6. 1. 1. 3. 2. Kelas 2. 7. 3. 1. 3. 2. Kelas 2. 8. 3. 4. 2. 4. Kelas 3. 9. 2. 2. 1. 1. Kelas 1. 10. 1. 2. 1. 0. Kelas 1. …. …. …. …. Class. …. Att-1 Att-2 Att-3 Att-4. …. No. 160. 1. 4. 4. 4. Kelas 3. Tahapan pertama pada penelitian ini adalah membagi dataset yang digunakan menjadi 2 partisi atau biasa disebut dengan metode hold out, dimana 80% dari data digunakan sebagai data latih dan 20% sisanya digunakan sebagai data uji. Adapun rincian data latih dan data uji dapat dilihat pada tabel 4.23 dan tabel 4.24.. 33 Universitas Sumatera Utara.

(51) 34. Tabel 4.23 Rincian Data Latih hayes-roth. 1. 1. 1. 1. 3. Kelas 1. 2. 3. 2. 1. 1. Kelas 1. 3. 2. 2. 2. 1. Kelas 2. 4. 1. 1. 3. 4. Kelas 3. 5. 2. 2. 1. 2. Kelas 2. 6. 2. 1. 1. 2. Kelas 1. 7. 2. 2. 4. 1. Kelas 3. 8. 1. 3. 2. 2. Kelas 2. 9. 1. 1. 2. 1. Kelas 1. 10. 2. 1. 2. 2. Kelas 2. …. …. …. …. Class. …. Att-1 Att-2 Att-3 Att-4. …. No. 128. 3. 1. 3. 2. Kelas 2. Tabel 4.24 Rincian Data Testing hayes-roth. 1. 2. 2. 4. 3. Kelas 3. 2. 2. 1. 3. 1. Kelas 1. 3. 2. 2. 1. 3. Kelas 1. 4. 2. 2. 2. 1. Kelas 2. 5. 1. 2. 1. 3. Kelas 1. 6. 1. 1. 2. 3. Kelas 1. 7. 1. 1. 1. 2. Kelas 1. 8. 1. 1. 2. 1. Kelas 1. …. …. …. …. …. Class. …. No Att-1 Att-2 Att-3 Att-4. 32. 2. 1. 3. 2. Kelas 2. Setelah dilakukan proses hold out, maka tahapan selanjutnya adalah menghitung bobot attribut dari data latih dengan menggunakan gain ratio, adapun nilai bobot untuk tiap attribut didapati dengan persamaan 3.1. Adapun nilai bobot untuk setiap attribut dapat dilihat pada tabel 4.25. 34 Universitas Sumatera Utara.

(52) 35. Tabel 4.25 Rincian Nilai Bobot Dataset hayes-roth No. Nama Attribut Gain ratio Bobot 1. Att-1. 0.005. 0.100. 2. Att-2. 0.500. 0.932. 3. Att-3. 0.520. 0.966. 4. Att-4. 0.540. 1.000. Selanjutnya dilakukan proses kmeans untuk mendapatkan pusat cluster (centroid) yang nantinya digunakan sebagai patokan untuk melakukan clustering pada data testing. Tahapan awal dari proses kmeans dimulai dengan menentukan nilai centroid awal sebanyak kelas data, adapun nilai centroid awal dapat dilihat pada tabel 4.26. Tabel 4.26 Centroid Awal Hayes-roth No. Att1. Att2. Att3. Att4. Class. 1. 1.827. 1.692. 1.615. 1.635. 1. 2. 1.896. 1.896. 1.938. 1.938. 2. 3. 2.000. 2.679. 2.714. 2.857. 3. Selanjutnya dilakukan perhitungan jarak dari setiap data latih ke setiap pusat centroid dari masing-masing kelas, adapun jarak yang dihasilkan dapat dilihat pada tabel 4.27.. Tabel 4.27 Jarak Data Latih Hayes-roth dan Centroid Awal Iris Centroid. Data Latih 1. 2. 3. 4. 5. 6. 7. …. 128. 1. 1.846. 1.501. 0.822. 2.945. 0.798. 1.011. 2.493. …. 1.976. 2. 1.901. 1.729. 0.951. 2.643. 0.951. 1.302. 2.270. 1.776. 3. 2.603. 2.801. 2.102. 2.282. 2.033. 2.548. 2.358. … …. 2.153. Selanjutnya akan ditentukan nilai centroid baru berdasarkan anggota pada setiap cluster. Adapun nilai centroid baru yang didapatkan dapat dilihat pada table 4.28.. 35 Universitas Sumatera Utara.

(53) 36. Tabel 4.28 Centroid Baru untuk data Hayes-roth No. Att1. Att2. Att3. Att4. Class. 1. 1.810. 1.569. 1.448. 1.483. 1. 2. 2.026. 1.947. 2.184. 2.026. 2. 3. 1.875 2.781 2.688 2.969 3 Kemudian akan dilakukan kembali perhitungan jarak untuk setiap data latih terhadap nilai centroid dan kembali dilakukan penentuan nilai centroid yang baru, proses pencarian centroid akan berhenti apabila tidak ada data latih yang berpindah cluster. Adapun nilai centroid untuk setiap kelas data dapat dilihat pada tabel 4.29. Tabel 4.29 Centroid Akhir Dataset hayes-roth No. Att1. Att2. Att3. Att4. Class. 1. 1.827. 1.692. 1.615. 1.635. Kelas 1. 2. 1.896. 1.896. 1.938. 1.938. Kelas 2. 3. 2.000. 2.679. 2.714. 2.857. Kelas 3. Tahapan selanjutnya melakukan klasifikasi berdasarkan centroid yang didapat dari proses kmeans, dengan cara menghitung kemiripan antara data testing dengan centroid menggunakan persamaan 3.2. Adapun jarak antara data testing dan centroid dapat dilihat pada tabel 4.30. Tabel 4.30 Jarak Antara Centroid dan Data Testing hayes-roth No Centroid 1 Centroid 2 Centroid 3 Class Prediction 1. 2.693. 2.260. 1.401. Kelas 3. 2. 1.615. 1.622. 2.444. Kelas 1. 3. 1.517. 1.399. 1.778. Kelas 2. 4. 0.790. 0.945. 2.080. Kelas 1. 5. 1.519. 1.402. 1.781. Kelas 2. 6. 1.557. 1.356. 1.719. Kelas 2. 7. 0.954. 1.237. 2.436. Kelas 1. 8. 0.982. 1.260. 2.526. Kelas 1. 9. 0.919. 1.310. 2.569. Kelas 1. 10. 1.424. 1.393. 2.004. Kelas 2. 36 Universitas Sumatera Utara.

(54) …. …. 32. 1.529. 1.325. …. …. 37. Kelas 2. 1.805. Adapun perbandingan hasil akurasi yang didapati dengan metode kmeans konvensional hanya sebesar 56.25%, sedangnkan hasil akurasi dengan menggunakan metode kmeans+gain ratio mampu mencapai nilai sebesar 62.5%. Adapun peningkatan yang terjadi sebesar 6.25%.. 4.2.4 Pengujian Terhadap Dataset Parkinson Multiple Sound Recording Pengujian pertama akan menggunakan dataset parkinson multiple sound recording dimana data ini berjumlah 1040 instance memiliki 28 attribut, dan terdapat 2 kelas yaitu kelas 0 dan kelas 1. Adapun rincian informasi attribut dari data parkinson multiple sound recording dapat dilihat pada Tabel 4.31 dan rincian data dapat dilihat pada Table 4.32. Tabel 4.31 Informasi Attribut Dataset parkinson multiple sound recording. 1. Att-1. [1.00 s/d 40.00]. 2. Att-2. [0.19 s/d 14.38]. 3. Att-3. [0.0000065 s/d 0.00078]. 4. Att-4. [0.06 s/d 8.02]. 5. Att-5. [0.08 s/d 13.54]. 6. Att-6. [0.19 s/d 24.05]. 7. Att-7. [1.19 s/d 41.14]. 8. Att-8. [0.10 s/d 2.72]. 9. Att-9. [0.50 s/d 25.82]. …. Nilai. …. Attribut. …. No.. 28. Att-28. [1.00 s/d 55.00]. 29. Class. [kelas 0, kelas 1]. 37 Universitas Sumatera Utara.

(55) 38. Tabel 4.32 Rincian Data parkinson multiple sound recording No. Att-1. Att-2. Att-3. Att-4 Att-5 Att-6. Att-7. Att-8 …. Class. 1. 24.000 2.754 0.000262 0.850 0.937 2.551 15.908 1.416 … Kelas 0. 2. 18.000 1.564 0.000189 1.003 1.533 3.009 19.713 1.631 … Kelas 1. 3. 5.000. 2.005 0.000202 1.122 1.325 3.365 17.620 1.586 … Kelas 1. Tabel 4.32 Rincian Data parkinson multiple sound recording (Lanjutan). 4. 18.000 9.861 0.000218 4.613 5.640 13.840 24.235 1.875. …. Kelas 1. 5. 34.000 3.530 0.000264 1.587 1.816. 4.760. 15.184 1.533. …. Kelas 0. 6. 30.000 1.867 0.000104 0.229 0.267. 0.688. 7.683. 0.731. …. Kelas 0. 7. 4.000. 1.344 0.000054 0.620 0.543. 1.859. 9.363. 0.851. …. Kelas 1. 8. 29.000 2.914 0.000218 1.266 1.405. 3.799. 8.840. 0.806. …. Kelas 0. 9. 7.000. 2.818 0.000185 1.071 1.850. 3.213. 12.106 1.224. …. Kelas 1. 10. 13.000 1.186 0.000065 0.559 0.706. 1.678. 13.198 1.171. …. Kelas 1. Att-7. …. 0.000120 1.041 1.148. Att-6. …. …. … 2.30. Att-4 Att-5. …. … 28.00. …. … 1040. Att-3. 3.123. 14.581 1.377. …. Class. Att-2. …. …. Att-1. …. Att-8. No. …. Kelas 0. Tahapan pertama pada penelitian ini adalah membagi dataset yang digunakan menjadi 2 partisi atau biasa disebut dengan metode hold out, dimana 80% dari data digunakan sebagai data latih dan 20% sisanya digunakan sebagai data uji. Adapun rincian data latih dan data uji dapat dilihat pada tabel 4.33 dan tabel 4.34. Tabel 4.33 Rincian Data Latih parkinson multiple sound recording Att-8. …. 18.000 3.648 0.000224 2.097 1.968 6.291 21.722 1.690. …. Class Kelas 1. 2. 34.000 1.251 0.000074 0.542 0.474 1.627. 0.579. …. Kelas 0. 3. 10.000 2.889 0.000238 1.220 1.520 3.659 15.262 1.480. …. Kelas 1. 4. 3.000. 3.432 0.000164 1.771 1.986 5.312 22.287 1.941. …. Kelas 1. 5. 35.000 2.998 0.000129 1.284 1.403 3.851 13.309 1.332. …. Kelas 0. 6. 17.000 0.509 0.000033 0.275 0.252 0.825. …. Kelas 1. No 1. Att-1. Att-2. Att-3. Att-4 Att-5 Att-6. Att-7. 4.439. 2.981. 0.290. 38 Universitas Sumatera Utara.

(56) 39. 0.696. …. Kelas 0. 8. 34.000 2.473 0.000183 1.188 1.352 3.563 13.467 1.215. …. Kelas 0. 9. 22.000 1.661 0.000150 0.776 0.960 2.327 10.842 0.887. …. Kelas 0. 10. 7.000. …. Kelas 1. 7.651. …. …. …. …. …. …. …. …. …. 5.049 0.000416 2.576 3.029 7.728 17.808 1.490. …. 27.000 1.364 0.000125 0.603 0.503 1.809. …. 7. 832. 39.00. 1.74. No. Att-1. Att-2. Att-4 Att-5. Att-6. Att-7. Att-8. …. Class. 1. 4.000. 1.297 0.000056 0.709 0.724. 2.126. 9.039. 0.853. …. Kelas 1. 2. 38.000 3.007 0.000197 1.077 1.345. 3.231. 10.020 1.060. …. Kelas 0. 3. 34.000 2.263 0.000173 1.115 1.451. 3.346. 10.785 1.051. …. Kelas 0. 4. 11.000 0.966 0.000057 0.441 0.611. 1.324. 9.262. 1.070. …. Kelas 1. 5. 29.000 3.622 0.000289 1.519 1.569. 4.557. 15.818 1.486. …. Kelas 0. 6. 18.000 3.074 0.000159 1.818 1.840. 5.455. 14.213 1.345. …. Kelas 1. 7. 20.000 1.909 0.000103 0.786 0.577. 2.357. 8.885. 0.833. …. Kelas 1. 8. 20.000 6.736 0.000334 3.084 4.667. 9.251. 18.874 1.531. …. Kelas 1. 9. 18.000 8.441 0.000415 5.753 6.814 17.259 32.644 2.689. …. Kelas 1. 10. 3.000. …. Kelas 1. … Kelas 0 Tabel 4.34 Rincian Data Testing parkinson multiple sound recording. 12.524 1.208. …. …. 0.000067 0.463 0.534. 2.408. …. 1.24. …. …. 37.00. …. …. 208. …. …. 1.871 0.000087 0.803 1.011. …. Att-3. …. 0.000097 0.696 0.709 2.089 11.185 1.069. 1.390. 8.983. 0.941. …. Kelas 0. Setelah dilakukan proses hold out, maka tahapan selanjutnya adalah menghitung bobot attribut dari data latih dengan menggunakan gain ratio, adapun nilai bobot untuk tiap attribut didapati dengan persamaan 3.1. Adapun nilai bobot untuk setiap attribut dapat dilihat pada tabel 4.35. Tabel 4.35 Rincian Nilai Bobot Dataset parkinson multiple sound recording No. Attribut Gain ratio Bobot 1. Att-1. 1.000. 1.000. 2. Att-2. 0.111. 0.121. 3. Att-3. 0.099. 0.110. 39 Universitas Sumatera Utara.

(57) 40. 4. Att-4. 0.111. 0.121. 5. Att-5. 0.115. 0.125. 6. Att-6. 0.111. 0.121. 7. Att-7. 0.115. 0.125. 8. Att-8. 0.111. 0.121. Tabel 4.35 Rincian Nilai Bobot Dataset parkinson multiple sound recording (Lanjutan) No.. Attribut Gain ratio Bobot. 10. Att-10. 0.106. 0.116. …. 0.125. …. 0.115. …. Att-9. …. 9. 28. Att-28. 1.000. 1.00. Selanjutnya dilakukan proses kmeans untuk mendapatkan pusat cluster (centroid) yang nantinya digunakan sebagai patokan untuk melakukan klasifikasi pada data testing. Tahapan awal dari proses kmeans dimulai dengan menentukan nilai centroid awal sebanyak kelas data, adapun nilai centroid awal dapat dilihat pada tabel 4.36. Tabel 4.36 Centroid Awal parkinson multiple sound recording No. Att-1. Att-2. Att-3. Att-4. Att-5. Att-6. …. Att-28. Class. 1. 22.822. 3.957. 0.000. 1.903. 2.047. 5.710. …. 10.622. 0. 2. 19.923. 2.438. 0.000. 1.137. 1.226. 3.410. …. 13.069. 1. Selanjutnya dilakukan perhitungan jarak dari setiap data latih ke setiap pusat centroid dari masing-masing kelas, adapun jarak yang dihasilkan dapat dilihat pada tabel 4.37.. Tabel 4.37 Jarak Data Latih parkinson multiple sound recording dan Centroid Awal Centroid. Data Latih 1. 2. 3. 4. 5. 6. 7. …. 832. 1. 318.5. 299.8. 170.1. 109.7. 210.8. 335.0. 420.6. …. 309.3. 2. 117.2. 69.5. 350.9. 348.5. 185.2. 48.8. 175.9. …. 161.2. 40 Universitas Sumatera Utara.

(58) 41. Selanjutnya akan ditentukan nilai centroid baru berdasarkan anggota pada setiap cluster. Adapaun nilai centroid baru yang didapatkan dapat dilihat pada table 4.38. Tabel 4.38 Centroid Baru untuk data parkinson multiple sound recording No. Att-1. Att-2. Att-3. Att-4. Att-5. Att-6. …. Att-28. Class. 1. 20.777. 1.476. 0.000. 0.715. 0.760. 2.146. …. 10.904. 0. 2 20.344 2.838 0.000 1.331 1.436 3.992 … 12.897 1 Kemudian akan dilakukan kembali perhitungan jarak untuk setiap data latih terhadap nilai centroid dan kembali dilakukan penentuan nilai centroid yang baru, proses pencarian centroid akan berhenti apabila tidak ada data latih yang berpindah cluster. Adapun nilai centroid untuk setiap kelas data dapat dilihat pada tabel 4.39. Tabel 4.39 Centroid Akhir Dataset parkinson multiple sound recording No. Att1. Att2. Att3. Att4. Att5. Att6. …. Att28. Class. 1. 22.519. 3.072. 0.000142. 1.488. 1.603. 4.464. …. 10.365. kelas 0. 2. 19.566. 2.533. 0.000178. 1.173. 1.265. 3.519. …. 13.569. kelas 1. Tahapan selanjutnya melakukan clustering berdasarkan centroid yang didapat dari proses kmeans, dengan cara menghitung kemiripan antara data testing dengan centroid menggunakan persamaan 3.2. Adapun jarak antara data testing dan centroid dapat dilihat pada tabel 4.40.. Tabel 4.40 Jarak Antara Centroid dan Data Testing parkinson multiple sound recording No. Centroid 1 Centroid 2 Class Prediction. 1. 28.023. 35.035. kelas 1. 2. 22.439. 45.892. kelas 1. 3. 19.697. 45.144. kelas 1. 4. 14.539. 44.137. kelas 1. 5. 18.294. 45.703. kelas 1. 6. 46.115. 37.149. kelas 0. 7. 34.452. 54.738. kelas 1. 8. 35.851. 54.304. kelas 1. 9. 47.156. 47.357. kelas 1. 41 Universitas Sumatera Utara.

(59) 42. kelas 1. …. …. 45.969. …. 35.593. …. 10. 208. 23.629. 41.18. kelas 1. Adapun perbandingan hasil akurasi yang didapati dengan metode kmeans konvensional hanya sebesar 54.81%, sedangkan hasil akurasi dengan menggunakan metode kmeans+gain ratio mampu mencapai nilai sebesar 58.17%. Adapun peningkatan yang terjadi sebesar 3.36%.. 4.3. Pembahasan. Untuk mengetahui lebih jelas pengaruh dari gain ratio terhadap proses clustering dengan menggunakan metode kmeans terhadap seluruh data yang digunakan dapat dilihat pada gambar 4.1. 120,00%. 62,50%. 20,00%. 54,81%. 56,25%. 40,00%. 68,57%. 60,00%. 93,33%. 74,28%. 80,00%. 58,17%. 96,67%. 100,00%. 0,00% Ionosphare. Iris K-Means. Hayes-roth. Parkinson Multiple Sounds Recording. K-Means+GR. Gambar 4.1 Peningkatan Akurasi. 42 Universitas Sumatera Utara.

(60) 43. Berdasarkan gambar 4.1 terlihat bahwa Gain ratio mampu meningkatkan kinerja pada proses clustering dengan menggunakan metode k-means, dimana pada setiap pengujian dengan menggunakan 4 dataset selalu terjadi peningkatan hasil akurasi.. Adapun peningkatan hasil akurasi tertinggi terjadi pada dataset hayes-roth, yaitu sebesar 6.25%, sedangkan peningkatan hasil akurasi terendah terjadi pada dataset iris, yaitu sebesar 3.33%. Berdasarkan pengujian yang telah dilakukan dapat disimpulkan bahwa gain ratio mampu meningkatkan kinerja pada proses clustering dengan menggunakan metode k-means dimana peningkatan rata-rata untuk seluruh dataset yang digunakan adalah sebesar 4.67% dan sekalipun tidak pernah mengalami penurunan kinerja dari hasil akurasi pada setiap dataset yang digunakan.. 43 Universitas Sumatera Utara.

(61) 44. BAB 5 KESIMPULAN DAN SARAN. 5.1. Kesimpulan 1.. Gain ratio secara jelas mampu memberikan peningkatan hasil akurasi pada proses clustering dengan menggunakan metode K-means, dimana peningkatan hasil akurasi yang tertinggi terjadi pada dataset hayes-roth, yaitu sebesar 6.25%, sedangkan peningkatan terendah terjadi pada dataset iris, yaitu sebesar 3.33%. 2.. Pembobotan. attribut. dengan. menggunakan. Gain. ratio. terbukti. mampu. meningkatkan hasil akurasi pada proses clustering dengan menggunakan metode Kmeans terhadap seluruh dataset yang digunakan, dimana peningkatan rata-rata terhadap seluruh dataset yang digunakan adalah sebesar 4.67% tanpa sekalipun mengalami penurunan hasil akurasi. Hal ini juga membuktikan bahwa bobot attribute yang diberikan berdasarkan gain ratio telah tepat.. 5.2. Saran 1.. Penelitian selanjutnya diharapkan mampu meningkatkan hasil akurasi dari metode yang telah diusulkan secara signifikan dengan menggukan metode pembobotan lainnya.. 2.. Melakukan pengujian terhadap dataset dengan ukuran yang bervariasi dan membandingkannya dengan metode yang lain.. 3.. Menganalisa apakah centroid yang didapatkan sudah optimal untuk dijadikan acuan pada proses clustering.. 44 Universitas Sumatera Utara.