BAB 1 : PENDAHULUAN
1.5. Manfaat Penelitian
Adapun manfaat yang diperoleh dari penelitian ini, antara lain:
1. Penelitian ini dapat menjadi sumber belajar dan referensi bagi mahasiswa dan peneliti lainnya dalam menangani permasalahan yang berkaitan dengan penelitian ini.
2. Penelitian ini dilakukan untuk mengetahui kinerja dari algoritma FCM (fuzzy c-means clustering) dan Pearson correlation untuk mereduksi data, sehingga dapat meningkatkan hasil akurasi klasifikasi data pada algoritma kNN.
5 BAB 2
LANDASAN TEORI
2.1. Data Mining
Data mining merupakan metode atau teknik yang digunakan untuk mendapatkan pengetahuan yang tersembunyi pada sekumpulan data dengan dimensi yang tinggi.
Teknik tersebut dilakukan untuk menggali informasi berupa pengetahuan dari sekumpulan data yang diuji. Di dalam data mining akan dilakukan proses menganalisis dari pemeriksaan sekumpulan data untuk memperoleh hubungan-hubungan yang tidak terduga serta merangkum data tersebut dengan cara yang lain dari sebelumnya, sehingga dapat dengan mudah untuk dimengerti dan memiliki manfaat (Larose, 2005).
Metode data miningmemiliki manfaatseperti dikemukakan oleh Turban et al., (2010) mengatakan bahwa data mining merupakan teknik yang diterapkan untuk mengemukakan temuan berupa pengetahuan atau informasi penting pada suatu database. Data mining pada dasarnya merupakan teknik gabungan berbagai bidang ilmu, seperti: matematika, statistik, machine learning dan artificial intelligence untuk mengekstraksi dan mengetahui informasi yang bernilai atau pemahaman yang berkaitan dengandatabase. Database sendiri merupakan kumpulan data yang terdapat pada sebuah sistem informasi yang disimpan dengan teknik dan fungsi tertentu. Data ini akan diolah dan dipelajari dengan teknik data mining sehingga dihasilkan informasi baru yang mudah dipahami dan dianalisis oleh pemilik data tersebut atau orang lain.
Berdasarkan penjelasan sebelumnya, maka data mining merupakan pengetahuan atau informasi yang tersembunyi di dalam database atau sekumpulan data dengan dimensi yang tinggi dalam menemukan pola dengan teknik berbagai cabang keilmuan, seperti: matematika, statistik, machine learning dan artificial intelligence untuk mengekstraksi dan mengetahui informasi yang bernilai atau pemahaman yang berkaitan dengan database tersebut.
Adapun berbagai bidang keilmuan di dalam data mining dapat diperlihatkan pada Gambar 2.1 berikut.
Gambar 2.1. Akar Ilmu Data Mining
Data mining adalah proses menganalisis dan menemukan informasi pada data yang besar agar didapatkan kebenaran, informasi yang baru serta mempunyai manfaat sampai dengan memperoleh pola di dalam data tersebut. Proses penemuan informasi pada data mining dengan menerapkan iterasi atau perulangan sampai mendapatkan hasil suatu pola atau model yang memiliki fungsi sesuai dengan tujuan. Data mining dapat dibagi menjadi dua kategori, yaitu (Tan et al, 2006):
1. Predictive mining adalah teknik untuk memperoleh suatu pola atau model pada data dengan melibatkan beberapa variabel yang bertujuan untuk memperkirakan variabel lain pada waktu selanjutnya. Teknik yang tergolong dalam predictive mining, yaitu: klasifikasi, deviasi dan regresi.
2. Descriptive mining adalah teknik untuk memperoleh ciri-ciri penting di dalam data pada suatu database. Teknik yang tergolong dalam descriptive mining, yaitu: clustering, association dan sequential mining.
2.2. Knowledge Discovery in Database (KDD)
Terdapat istilah lain pada data mining dengan pengertian yang sama, yaitu knowledge discovery in database (KDD). Data mining yaitu salah satu bagian dari teknik di dalam knowledge discovery in database (KDD). KDD merupakan teknik untuk menemukan informasi yang lebih bermanfaat, lebih mudah dimaknai serta baru dari penyimpanan data dengan dimensi yang tinggi atau kompleks. Proses KDD memaknai
Artificial
Intelligence Statistik
Machine Learning
Informasi
DATABASE
Matematika Data
Mining
7
bahwahasil yang didapatkan dengan menggabungkan ilmu lainnya dan dimulai dari menentukan tujuan dan diakhiri dengananalisis (Tomar & Agarwal, 2013).
Teknik data mining dapat membantu mengatasi banyak permasalahan dalam pengolahan data dengan ukuran yang besar. Peran utama data mining dengan menerapkan berbagai prosedur dan algoritma untuk mengambil pola dari data yang diolah. Data dapat diambil dan diolah dari berbagai jenis dataset dalam berbagai format, seperti: gambar, teks, audio, video dan sebagainya. Data yang telah dikumpulkan dari berbagai sumbermemerlukan proses analisis data yang tepat untuk pengambilan keputusan yangefisien (Sumathi et al, 2016). Adapun tahapan-tahapan dari KDD dapat diperlihatkan padaGambar 2.2 berikut.
Gambar 2.2. Tahapan-Tahapan KDD
Pada Gambar 2.2, tahapan-tahapan knowledge discovery in database (KDD) memiliki beberapa tingkatan proses,antara lain:
a. Selection
Selection merupakan teknik penyeleksian data dari suatu kumpulan data sebelum melalui tahap menemukan informasi di dalam knowledge discovery database (KDD). Data yang telah diseleksi akan digunakan untuk pengolahan di dalamdata mining dan akan disimpan secara terpisah.
Data Target Data
Preprocessed Data
Transformed Data
Patterns
Knowledge
Selection
Preprocessing
Transformation
Data Mining
Interpretation/
Evaluation
b. Preprocessing
Proses preprocessing yaitu proses untuk menghilangkan data yang sama, memverifikasi data yang tidak konsisten dan membenarkan kesalahan pada data. Proses ini juga melakukan enrichment, yaitu proses untuk menambah data yang ada dengan informasi lainnya yang bermakna dan diperlukan.
Sebagai contoh proses enrichment, seperti informasi eksternal.
c. Transformation
Proses transformation yaitu proses untuk merubah wujud data yang belum mempunyai entitas yang jelas ke wujud data yang benar dan siap dipakai pada proses data mining. Salah satu contoh tahap transformasi tersebut adalah normalisasi data. Normalisasi digunakan untuk merubah sebuah atribut yang berisi nilai numerik menjadi skala dalam rentang nilai yang lebih kecil, seperti 0 sampai dengan 1. Teknik yang sering dipakai untuk normalisasi data adalah min-max normalization. Adapun persamaan untuk proses normalisasi menggunakan metode min-max dapat dilihat pada persamaan (2.1) sebagai berikut:
𝑁𝑜𝑟𝑚𝑎𝑙𝑖𝑠𝑎𝑠𝑖 =𝐷𝑎𝑡𝑎𝐷𝑎𝑡𝑎𝑥−𝐷𝑎𝑡𝑎𝑚𝑖𝑛
𝑚𝑎𝑥−𝐷𝑎𝑡𝑎𝑚𝑖𝑛 (2.1)
Keterangan :
Datax : data yang akan ditransformasi Datamin : data terkecil pada kolom Datax Datamax : data terbesar pada kolom Datax d. Data Mining
Data mining merupakan proses yang digunakan untuk menerapkan metode pencarian informasi atau pengetahuan di dalam kumpulan data.
e. Interpretation/Evaluation
Proses ini dilakukan untuk pembentukan output yang mudah dimaknai dari proses data mining. Teknik data mining dapat dilakukan untuk mendeteksi persoalan yang ditemui, seperti: clustering, klasifikasi, asosiasi, outlier dan masih banyak lagi. Klasifikasimerupakan teknik atau metode yang dilakukan untuk menentukan kelompok sejumlah data yang mempunyai struktur data yang hampir sama atau serupa akan menghasilkan klasifikasi yang sama.
Klasifikasi merupakan metode di dalam data mining yang banyak diterapkan diberbagai bidang (Sung et al, 2015).
9
2.3. Klasifikasi
Beberapa permasalahan yang dapat ditangani dengan teknik data mining, yaitu:
prediction, estimation, clustering, classificationdan association. Berdasarkan metode pembelajarannya data mining dapat dibagi menjadi 2 kategori, yaitu: supervised learning dan unsupervised learning (Santosa, 2007). Pada supervised learning harus mempunyai data training yang digunakan pada proses pembelajaran algoritma yang digunakan, sedangkan pada unsupervised learning tidak memerlukan data training.
Salah satu contohteknik supervised learning pada data mining adalah klasifikasi.
Klasifikasi adalah teknik untuk menemukan suatu model di dalam data serta mengelompokkan data tersebut ke dalam kelas-kelas data. Tujuan klasifikasi adalah agar model yang terbentuk nantinya dapat diterapkan untuk memprediksi kelas dari objek yang belum diketahui label kelasnya. Model yang diperoleh tersebut berdasarkan pada proses menganalisis data pelatihan atau data yang telah memiliki labelkelasnya. Proses pengelompokan dilakukan dengan membelajarkan data training menggunakansalah satualgoritma klasifikasi untuk mengenali pola tertentu pada data training terhadaptarget kelas. Selanjutnya, pola yang dihasilkan memungkinkan untuk melakukan prediksi target kelas pada data di luar data training atau disebut juga dengan data testing (Han & Kamber, 2006). Proses klasifikasi terdiri dari dua tahap, yaitu (Annasaheb & Verma, 2016):
1. Tahap Pembangunan Model atau Pola Klasifikasi
Pada tahap ini akan dibangun model klasifikasi berdasarkan data training yang disiapkan dan telah memiliki target kelas. Data training tersebut dikatakan sebagai data pembelajaran di dalam algoritma klasifikasi. Proses ini dikatakan sebagai proses induksi seperti pada Gambar 2.3 berikut.
Gambar 2.3. Tahap Pembangunan Model Klasifikasi Training Set
Algoritma Klasifikasi
Model Klasifikasi
Membangun Aturan
2. Tahap Penggunaan Model atau Pola klasifikasi
Pada tahap akan digunakan model yang telah dibangun untuk data yang tidak diketahui atau belum memiliki label kelasnya. Proses penggunaan model tersebut dilakukan untuk memprediksikan label kelas dari data testing atau data di luar data training. Proses ini disebut deduksi seperti pada Gambar 2.4 berikut.
Gambar 2.4. Tahap Penggunaan Model klasifikasi 2.4. K-Nearest Neighbour (KNN)
Algoritma k-Nearest Neighbour (kNN) adalah metode yang diterapkan untuk mengklasifikasi data (Cover & Hart, 1967). Algoritma kNN adalah metode untuk menghitung jarak kesesuaian antara data baru dengan sekumpulan data lama berdasarkan pada proses pencocokan bobot dari sejumlah atribut yang dimilikinya (Kusrini & Taufiq 2009). Tujuan utama dari algoritma kNN adalah untuk memprediksi suatu objek atau data, kemudian menggolongkan objek atau data tersebut ke dalam satu kelompok golongan tertentu. Parameter k pada algoritma kNN adalah banyaknya tetangga terdekat yang akan diambil untuk menentukan keputusan atau kelompok dari data yang ingin dicari labelnya.
Algoritma kNN merupakan upaya dalam melakukan pengelompokkan pada suatu data berdasarkan data training yang paling mendekati dengan data tersebut.
Keakuratan hasil pada algoritma kNN sangatditentukan dengan ada atau tidak atribut-atribut yang bersesuaian atau bobotatribut yang serupa dengan relevansinya terhadap pengelompokkan. Penelitian pada kNN sering kali membahas bagaimana dalam memilih ataupun memberi bobot pada atribut data agar kinerja klasifikasi menjadi lebih akurat. Menurut Wu (2007) mengatakan bahwa kNN adalah teknik lazy learning, yaitu teknik yang melakukan prosesnya sampai terdapat data input baru (query) agar dilakukan proses pembelajaran dengan data training.
Training Set
Model Klasifikasi
Unseen Data
Klasifikasi Data yang Belum Diketahui Kelasnya
11
Algoritma kNN dapat diartikan juga sebagai pendekatan untuk mencari kelompok data pada data baru melalui proses menghitung kedekatannya dengan data yang lamaberdasarkan pencocokan dari sejumlah atribut. Nilai kedekatan biasaberada pada rentang nilai 0 sampai dengan 1. Nilai 0 berarti bahwa kedua data tersebut mutlak tidak memiliki kemiripan, sedangkan nilai 1 data tersebut mutlak memiliki kemiripan (Kusrini & Taufiq, 2009). Proses perhitungan kedekatan dilakukan dengan persamaan Euclidean distance. Euclidean distance berfungsi untuk mencari ukuran kedekatan jarak antara dua objek atau data dengan menerapkan persamaan berikut:
𝐷(𝑎, 𝑏) = 𝑑(𝑋𝑗 − 𝑌𝑗)2 (2.2)
𝑎 = [𝑋1, 𝑋2, … , 𝑋𝑗] dan 𝑏 = [𝑌1, 𝑌2, … , 𝑌𝑗] (2.3) atau,
𝐷(𝑥,𝑦)2 = (𝑋1− 𝑌1)2+ (𝑋2− 𝑌2)2+ ⋯ + (𝑋𝑗− 𝑌𝑗)2 (2.4) Keterangan :
D : jarak kedekatan atau kemiripan antara vektor a dan b a/x : vektor pada data baru
b/y : vektor pada data lama
d : matriks dengan ukuran d dimensi X : atribut pada data baru
Y : atribut pada data lama
Saat nilai D semakin besar, maka tingkat kemiripan antara kedua data tersebut semakin jauh. Sebaliknya saat nilai D semakin kecil, maka tingkat kemiripan antara kedua data tersebut semakin dekat.
Nilai parameter k terbaik pada algoritma kNN tergantung kepada dataset yang akan digunakan. Nilai k yang besar dapat mengurangi efek noise pada proses klasifikasi, tetapi akan mengakibatkan batasannya semakin kabur. Nilai k yang baik dapat dilakukan pemilihan dengan menggunakan metode optimasi parameter, seperti menerapkan metode cross-validation. Pada masalah tertentu dimana klasifikasi diprediksikan berdasarkan data training yang paling dekat atau k=1, disebut juga algoritma Nearest Neighbor. Langkah-langkah untuk proses klasifikasi menggunakan algoritma k-Nearest Neighbor dapat dilakukan sebagai berikut:
1. Menentukan nilai k (banyaknya tetangga terdekat dengan data testing).
2. Menyiapkan data training sebagai data pembelajaran dan data yang akan dicari label kelasnya (data testing).
3. Menghitung kedekatan jarak menggunakan persamaan Euclidean distance antara setiap data testing dengan data training.
𝑑𝑒𝑢𝑐𝑙𝑖𝑑𝑒𝑎𝑛(𝑥, 𝑦) = √∑ (𝑥𝑖 𝑖− 𝑦𝑖)2 (2.5)
Keterangan :
i : banyaknya data x : data testing y : data training
4. Melakukan pengurutan pada data training yang telah ditentukan kelasnya ke dalam kelompok yang memiliki hasil perhitungan jarak Euclidean terkecil.
5. Melakukan voting atau pemilihan kelas pada data testing yang masuk peringkat sejumlah nilai k.
6. Menentukan hasil klasifikasi berdasarkan tahap kelima yang terbanyak.
2.5. Fuzzy C-Means Clustering (FCM)
Fuzzy c-means clustering (FCM) adalah teknik di dalam data mining dan termasuk ke dalam salah satu teknik clustering data. Teknik clustering adalah sebuah metode komputasi pada bidang matematika yang dapat diterapkan dalam menentukan model terkait kemiripan atau kesesuaian pada satu atau lebih data di dalam suatu kelompok.
Data akan dikelompokkan ke dalam satu cluster berdasarkan tingkat kemiripan yang identik. Metode FCM memperbolehkan tiap vektor pada atribut data dapat dimiliki lebih dari sebuah cluster dengan derajat keanggotaan yang berbeda. Derajat keanggotaan dibentuk menggunakan bilangan dengan rentang nilai 0 - 1.
Metode FCM dapat beroperasi dalam mengklasifikasi data dengan menghitung tingkat kemiripan diantara pasangan kelompok data. Data yang memiliki kemiripan satu dengan yang lainnya akan mempunyai nilai derajat keanggotaan yang besar dan masuk pada cluster yang serupa. Konsep dasar metode FCM dengan menetapkan titik pusat cluster data dengan mengenali wilayah rata-rata untuk tiap cluster. Proses ini dapat dilakukan dengan cara memperbaiki titik pusat cluster data dan nilai derajat keanggotaan setiap titik data secara iterasi atau berulang-ulang, sehingga dapat dilihat bahwa titik pusat cluster akan melaju menuju lokasi yang sesuai. Perulangan ini dilakukan berdasarkan nilai minimal dari fungsi objektif yang ditentukan sebelumnya dengan menggambarkan jarak titik data yang diberikan ke titik pusat cluster data yang diberi bobot oleh nilai derajat keanggotaan titik data tersebut.
13
Hasil atau output metode FCM tersebut bukan merupakan fuzzy inference system, namun sederetan titik pusat cluster data dan nilai derajat keanggotaan untuk tiap-tiap data. Informasi yang diperoleh dapat diterapkan untuk membangun fuzzy inference system. Adapun prosedur yang dilakukan dalam penggunaan metode FCM dapat dijelaskan sebagai berikut:
1. Menyiapkan sejumlah data yang akan dilakukan proses clustering. Misalnya, sebuah dataset berupa matriks X dengan data yang berukuran i x j (i = banyaknya data dan j = banyaknya atribut).
[
Gambar 2.5. Data Matrik Berukuran i x j 2. Menentukan beberapa parameter sebagai berikut:
a. Jumlah cluster yang diinginkan (i > c ≥ 2) b. Bobot pada FCM (w ≥ 2)
c. Iterasi Maksimum (max i) d. Nilai treshold (ɛ)
e. Fungsi obyektif awal (P0)
3. Menginisialisasi matriks partisi awal atau u (nilai derajat keanggotaan) untuk tiap cluster dengan ukuran i x k, dengan i = banyaknya data dan k = banyaknya
Gambar 2.6. Data Matrik u Berukuran i x k
4. Menghitung titik pusat cluster (C) data untuk setiap cluster, menggunakan
Xij = Data
w = Bobot FCM
5. Menghitung nilai obyektif (Pn) dengan persamaan (2.7) sebagai berikut.
𝑃𝑛 = ∑𝑛𝑖=1∑𝑚𝑘=1(𝜇𝑘𝑖)𝑤(𝑑𝑘𝑖)2 (2.7)
Keterangan :
μki = Data partisi (u) dki = Jarak Euclidean w = Bobot FCM Pn = Nilai obyektif
6. Memperbaiki nilai derajat keanggotaan untuk tiap data pada tiap cluster. Proses tersebut dapat dilakukan menggunakan persamaan (2.8) dan (2.9) berikut :
𝜇𝑘𝑖 = [∑ (𝑑𝑑𝑘𝑖
𝑗𝑖)2/(𝑤−1)
𝑚𝑗=1 ]
−1
(2.8) Dengan,
𝑑𝑖𝑘 = 𝑑(𝑋𝑖 − 𝐶𝑘) = [∑𝑚𝑗=1(𝑋𝑖𝑗 − 𝐶𝑘𝑗)2]1/2 (2.9) Keterangan :
μki = Data partisi (u) dki = Jarak Euclidean dji = Jarak Euclidean w = Bobot FCM Xij = Data
7. Menghentikan proses iterasi jika titik pusat cluster data tidak berubah lagi.
Alternatif penghentian lain, jika perubahan nilai error kurang dari treshold |Pn - Pn-1| < ɛ. Selain itu, dapat juga menggunakan kriteria ketika perulangan melebihi maksimum iterasi ( I > max i). Jika iterasi belum berhenti, maka proses harus kembali ke langkah 4.
8. Menentukan titik pusat cluster data tiap-tiap data jika iterasi berhenti. Titik pusat cluster data dipilih dari perolehan nilai matriks partisi terbesar.
2.6. Pearson Correlation
Setiap objek pada dasarnya antara satu dengan lainnya dapat diklasifikasikan ke dalam jenis yang sama ataupun berbeda berdasarkan nilai kemiripan yang dimilikinya. Nilai kemiripan suatu objek merupakan komponen yang mendasari hasil suatu metode
15
untuk mencocokkan antara data testing dengan data training. Ketepatan perhitungan nilai kemiripan memutuskan apakah antara data testing memiliki kemiripan dengan data training. Proses pencocokan kemiripan suatu data tersebut dilakukan dengan menerapkan metode pengukuran jarak. Metode tersebut adalah komponen penting dalam pembangunan metode untuk klasifikasi. Sebelum dilakukannya tahap pengklasifikasian data, terlebih dahulu dihitung ukuran jarak kedekatan antara elemen data tersebut.
Salah satu metode pengukuran jarak kemiripan antara satu data dengan data lainnya adalah Pearson correlation. Metode ini merupakan cara yang dilakukan untuk menghitung tingkat probabilitas bahwa terdapat korelasi linear antara dua kuantitas atau objek yang diukur. Karl Pearson mendefinisikan bahwa koefisien korelasi merupakan ukuran korelasi formal pertama dan secara luas banyak digunakan dalam analisis statistik, pengenalan pola dan pemrosesan citra digital (Kaur et al, 2012).
Nilai coefficient correlation antara dua buah objek atau data yang dihitung menggunakan persamaan sebagai berikut. (Thanuja & Shreedevi, 2013).
𝑟𝑥𝑦 =∑ 𝑥(𝑛−1)𝑠𝑖𝑦𝑖−𝑛𝑥̅𝑦̅
𝑥𝑠𝑦 = 𝑛 ∑ 𝑥𝑖𝑦𝑖−∑ 𝑥𝑖∑ 𝑦𝑖
√𝑛 ∑ 𝑥𝑖2−(∑ 𝑥𝑖)2√𝑛 ∑ 𝑦𝑖2−(∑ 𝑦𝑖)2 (2.10) Keterangan:
r = nilai coefficient correlation x = data objek pertama
y = data objek kedua
sx = standar deviasi objek pertama sy = standar deviasi objek kedua n = jumlah data
Hasil dari coefficient correlation memiliki nilai antara -1 s/d 1, sehingga jika hasilnya lebih besar dari 1 atau lebih kecil dari -1 dapat ditetapkan ada kesalahan di dalam proses perhitungan. Nilai coefficient correlation sama dengan -1 menunjukkan bahwa kedua variabel bergerak ke arah yang berlawanan, nilai coefficient correlation sama dengan 1 menunjukkan kedua variabel memiliki hubungan atau korelasi yang sempurna, sedangkan nilai koefisien korelasi yang bernilai 0 menunjukkan bahwa kedua variabel tidak memiliki korelasi atau tidak berhubungan sama sekali (Thanuja
& Shreedevi, 2013).
Pada algoritma kNN, proses ini diperlukan pada tahap pre-processing data untuk mempertahankan data dengan tingkat korelasi tertinggi. Sedangkan, data dengan tingkat korelasi terkecil akan direduksi atau dihilangkan. Data yang digunakan sebagai data pembanding diperoleh dari hasil clustering data yang sebelumnya dilakukan menggunakan algoritma FCM.
2.7. Penelitian-Penelitian Terkait
Beberapa penelitian yang berkaitan dengan penelitian pada tulisan ini telah dilakukan oleh peneliti-peneliti sebelumnya dan dapat dilihat pada Tabel 2.1 sebagai berikut:
Tabel 2.1: Penelitian-Penelitian Terkait No. Nama Peneliti Metode yang
Digunakan Hasil
Hasil yang diperoleh melalui uji coba dilakukan pada lima datasets dari
17
5. Li (2019) Tree Pruning-kNN model (TPKNN) untuk teknologi pemangkasan data
Metode ini dapat mengurangi data asli dan waktu yang berjalan dalam proses klasifikasi. Selain itu, TPKNN sangat mudah diimplementasikan dan dapat
dianggap sebagai preprocessing dari beberapa algoritma klasifikasi.
6. Tang et al., (2018)
PCA and kNN PCA dengan kNN yang digunakan tidak hanya dapat mengurangi dimensi data untuk mempercepat perhitungan kNN, tetapi juga mengurangi informasi redundansi.
Informasi yang tersisa tetap efektif meningkatkan kinerja prediksi kNN.
Pada penelitian ini akan dilakukan pengujian reduksi data pada algoritma kNN menggunakan algoritma FCM dan Pearson correlation. Algoritma FCM digunakan untuk proses clustering data dengan perolehan titik pusat cluster data. Selanjutnya, akan dilakukan pemilihan berdasarkan ukuran korelasi atau kemiripan pada data pelatihan untuk proses reduksi data menggunakan Pearson correlation. Hasil dari kedua metode tersebut berupa data hasil reduksi yang selanjutnya akan dijadikan data pelatihan dengan dimensi yang lebih kecil untuk proses klasifikasi pada algoritma kNN. Penggunaan metode ini diharapkan dapat meningkatkan kinerja algoritma kNN baik dari segi waktu ataupun hasil klasifikasi data.
18 3.1. Tahapan-Tahapan Penelitian
Metodologi adalah proses menguraikan konsep-konsep ke dalam bagian-bagian yang lebih sederhana, sehingga struktur logisnya menjadi lebih jelas. Proses ini dilakukan untuk menguji, menilai serta memahami sistem pemikiran yang kompleks dengan memecahnya ke dalam bagian unsur-unsur yang lebih sederhana, sehingga hubungan antar unsur-unsur tersebut menjadi jelas. Adapun metodologi yang dilakukan dalam penelitian ini, yaitu:
a) Studi pustaka
Mencari referensi yang berkaitan dengan permasalahan pada penelitian ini.
Proses pencarian tersebut dimulai dari mencari buku-buku, jurnal maupun artikel-artikel yang terdapat di internet yang berhubungan dengan data reduction pada algoritma kNN.
b) Pengumpulan data
Mencari kumpulan dataset klasifikasi yang terdapat pada laman internet dengan alamat https://archive.ics.uci.-edu/ml. Data yang dipakai pada penelitian ini terdiri dari 3 dataset klasifikasi yang berbeda dimensinya. Hal ini dilakukan untuk melihat sejauhmana metode yang diusulkan dapat mereduksi data yang tidak relevan dan tidak berpengaruh terhadap hasil klasifikasi menggunakan algoritma kNN.
c) Uji Coba
Dataset yang diperoleh akan dinormalisasi dan dihilangkan redundansinya.
Kemudian, dataset akan diujicobakan menggunakan algoritma kNN tanpa melakukan reduksi data. Hasil akurasinya akan disimpan sebagai bahan perbandingan dengan metode reduksi data yang diusulkan. Langkah selanjutnya, akan dilakukan reduksi data menggunakan metode fuzzy c-means clustring dan Pearson correlation.
19
d) Analisis
Proses reduksi data menggunakan metode FCM dan Pearson correlation pada algoritma kNN yang diusulkan akan dibandingkan dengan algoritma kNN tanpa reduksi data dan dianalisis serta dilihat persentase akurasi dari masing-masing metode tersebut.
e) Penarikan Kesimpulan
Pada tahap ini peneliti akan menyimpulkan hasil analisis penggunaan metode fuzzy c-means clustering dan Pearson correlation untuk reduksi data pada algoritma kNN. Hasil reduksi data dapat dilihat dari persentase sebelum dan sesudah dilakukannya reduksi harus mendekati atau terjadi peningkatan akurasi. Hal ini memiliki pengertian bahwa data yang direduksi dapat menyebabkan hasil klasifikasi yang tidak sesuai atau tidak memiliki pengaruh yang besar terhadap hasil klasifikasi data sehingga dapat dihilangkan.
3.2. Data yang Digunakan
Dalam menganalisis akurasi reduksi data pada algoritma kNN menggunakan metode FCM dan Pearson correlation dipilih data sebanyak 3 buah dataset yang diperoleh dari laman internet dengan alamat: https://archive.ics.uci.edu/ml/datasets/ dan dapat dilihat pada Tabel 3.1 sebagai berikut.
Tabel 3.1. Dataset yang Digunakan
Setiap dataset pada Tabel 3.1 di atas akan dibagi menjadi 2 bagian, yaitu data training dan data testing dengan persentase pembagian sebesar 70 : 30. Data training
Setiap dataset pada Tabel 3.1 di atas akan dibagi menjadi 2 bagian, yaitu data training dan data testing dengan persentase pembagian sebesar 70 : 30. Data training