Perhitungan Algoritma kNN - : METODOLOGI PENELITIAN

BAB 3 : METODOLOGI PENELITIAN

3.7. Perhitungan Algoritma kNN

Perhitungan algoritma kNN diperlukan untuk mengetahui hasil klasifikasi data. Pada dasarnya penentuan jarak dilakukan menggunakan persamaan Euclidean distance sebagai cara yang digunakan untuk mengukur kedekatan antara atribut data. Data dengan kemiripan terdekat akan dikelompokkan ke dalam suatu kelas yang sama dan sebalikanya demikian. Adapun proses perhitungan algoritma kNN dapat dilihat pada langkah-langkah sebagai berikut.

1. Menyiapkan data pelatihan baru dari proses reduksi sebelumnya dan data pengujian yang akan dicari kelasnya. Diketahui data sebagai berikut.

Tabel 3.16. Data Pelatihan dan Data Pengujian

No. X₁ X₂ X₃ Kelas

1. 0.08 0.47 0.00 1

2. 0.21 1.00 0.06 1

3. 0.00 0.60 0.00 1

4. 0.29 0.93 0.03 1

5. 0.17 0.67 0.00 1

6. 1.00 0.60 0.94 2

7. 0.96 0.53 1.00 2

8. 0.38 0.00 0.74 ….

9. 0.79 0.33 0.91 ….

2. Menghitung kedekatan jarak antara atribut data pelatihan dengan data pengujian. Adapun langkah-langkahnya sebagai berikut.

1. Tektukan nilai k = 3.

2. Hitung jarak data pengujian terhadap data pelatihan menggunakan persamaan Euclidean distance pada persamaan (2.5), hasilnya sebagai berikut.

Data Uji 1 (Data ke-8) :

Dist₈₋₁= √(0.38 − 0.08)²+ (0 − 0.47)²+ (0.74 − 0)²= 0.92 Dist₈₋₂= √(0.38 − 0.21)²+ (0 − 1)²+ (0.74 − 0.06)²= 1.22 Dist₈₋₃= √(0.38 − 0)²+ (0 − 0.60)²+ (0.74 − 0)²= 1.03 Dist₈₋₄= √(0.38 − 0.29)²+ (0 − 0.93)²+ (0.74 − 0.03)²= 1.18 Dist₈₋₅= √(0.38 − 0.17)²+ (0 − 0.67)²+ (0.74 − 0)²= 1.02 Dist₈₋₆= √(0.38 − 1)²+ (0 − 0.60)²+ (0.74 − 0.94)²= 0.89 Dist₈₋₇= √(0.38 − 0.96)²+ (0 − 0.53)²+ (0.74 − 1)²= 0.83

Data Uji 2 (Data ke-9) :

Dist₉₋₁ = √(0.79 − 0.08)²+ (0.33 − 0.47)²+ (0.91 − 0)² = 1.16 Dist₉₋₂ = √(0.79 − 0.21)²+ (0.33 − 1)²+ (0.91 − 0.06)²= 1.23 Dist₉₋₃ = √(0.79 − 0)²+ (0.33 − 0.60)²+ (0.91 − 0)²= 1.24 Dist₉₋₄ = √(0.79 − 0.29)²+ (0.33 − 0.93)²+ (0.91 − 0.03)²= 1.18

Dist₉₋₅ = √(0.79 − 0.17)²+ (0.33 − 0.67)²+ (0.91 − 0)² = 1.16 Dist₉₋₆ = √(0.79 − 1)²+ (0.33 − 0.60)²+ (0.94 − 0.94)²= 0.34 Dist₉₋₇ = √(0.79 − 0.96)²+ (0.33 − 0.53)²+ (0.91 − 1)² = 0.27

3. Mengurutkan data mulai dari nilai jarak terendah hingga tertinggi (urutkan sebanyak 3 data, karena k = 3). Hasil pengurutan data dapat dilihat pada Tabel 3.17 sebagai berikut.

Tabel 3.17. Hasil Perhitungan Jarak Data No. X1 X2 X3 Data Uji 1

4. Menentukan kelas data pengujian berdasarkan label kelas yang paling banyak.

Pada contoh di atas, data uji 1 memiliki kelas dengan label 2 berjumlah 2 buah dan label 1 berjumlah 1 buah, sehingga data uji 1 dapat diklasifikasikan ke dalam kelas 2 karena Kelas2(2) > Kelas1(1). Data uji 2 memiliki kelas dengan label 2 berjumlah 2 buah dan label 1 berjumlah 1 buah, sehingga data uji 2 dapat diklasifikasikan ke dalam kelas 2 karena Kelas2(2) > Kelas1(1). Hasil klasifikasi dapat dibuat ke dalam bentuk Tabel 3.18 sebagai berikut.

Tabel 3.18. Hasil Klasifikasi Data Pengujian dengan kNN

No. X1 X2 X3 Kelas

8. 0.38 0.00 0.74 2 9. 0.79 0.33 0.91 2 3.8. Perhitungan Akurasi Klasifikasi Data

Akurasi adalah proses perhitungan tingkat kesamaan atau pencocokan antara kelas data sebenarnya dengan kelas data prediksi. Kelas data sebenarnya adalah kelas yang diperoleh dari data pengujian sebenarnya saat melakukan pengamatan secara langsung. Kelas data yang diperoleh dijadikan sebagai bahan perbandingan untuk pengujian algoritma yang diusulkan. Sedangkan, kelas data prediksi merupakan kelas

yang dihasilkan pada saat proses pengujian algoritma. Dalam hal ini, kelas data tersebut dihasilkan dari perhitungan algoritma kNN untuk proses klasifikasi data.

Adapun persamaan yang digunakan untuk menghitung nilai akurasi dalam dilihat sebagai berikut.

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 (%) =𝐽𝑢𝑚𝑙𝑎ℎ 𝐷𝑎𝑡𝑎 𝑦𝑎𝑛𝑔 𝐵𝑒𝑛𝑎𝑟

𝐽𝑢𝑚𝑙𝑎ℎ 𝑆𝑒𝑙𝑢𝑟𝑢ℎ 𝐷𝑎𝑡𝑎 𝑥100% (3.1)

Berdasarkan hasil yang diperoleh dari perhitungan algoritma kNN sebelumnya, dapat dilihat hasil kesamaan antara hasil klasifikasi sebenarnya dengan hasil klasifikasi dari perhitungan algoritma kNN seperti yang terdapat pada Tabel 3.19 sebagai berikut.

Tabel 3.19. Kesamaan Hasil Klasifikasi Data Pengujian Kelas

Sebenarnya

Kelas Pengujian

Hasil Kecocokan

Data 8 2 2 1

Data 9 2 2 1

Jumlah 2

Pada Tabel 3.19, dapat dilihat bahwa hasil klasifikasi data yang benar sebanyak 2 buah. Nilai akurasi dapat dihitung dengan menggunakan persamaan (3.1) dan memperoleh hasil sebagai berikut.

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =2

2 𝑥 100% = 100%

33 BAB 4

HASIL DAN PEMBAHASAN

4.1. Pendahuluan

Pada penelitian ini akan dilakukan pengujian terhadap metode yang diusulkan, yaitu metode fuzzy c-means clustering dan Pearson correlation untuk reduksi data. Data yang telah direduksi akan diujicobakan pada algoritma kNN untuk mengetahui hasil klasifikasi data setelah dimensi data dikurangi. Selain itu, metode tanpa reduksi data menggunakan algoritma kNN juga digunakan sebagai perbandingan terhadap metode yang diusulkan. Sehingga dapat diketahui metode mana yang menghasilkan akurasi data yang lebih baik dan penggunaan data pelatihan yang efesien. Pada pelaksanaannya, penelitian ini membutuhkan berbagai perangkat untuk membantu menganalisis metode yang digunakan. Adapun perangkat yang digunakan dengan spesifikasi software dan hardware sebagai berikut:

1. Processor Intel Pentium Core i5.

2. RAM 8 GB.

3. Harddisk 1 TB.

4. Ms. Excel 2010.

5. Matlab R2015b.

4.2. Hasil Pengujian Metode yang Digunakan

4.2.1. Hasil Pengujian Algoritma kNN tanpa Reduksi Data

Pengujian awal penelitian ini dilakukan dengan menerapkan algoritma kNN untuk klasifikasi terhadap data yang digunakan. Dimensi pada data akan dipertahankan dan dijalankan sesuai dengan algoritma kNN pada umumnya. Hasil akurasi dari proses pembelajaran pada kNN akan dicatat dan dijadikan sebagai perbandingan terhadap metode yang diusulkan pada penelitian ini. Nilai parameter k yang digunakan pada algoritma kNN sebesar 3 untuk proses pengujian data. Parameter tersebut digunakan agar setiap proses pengujian pada data dilakukan dengan perbandingan yang sama.

Parameter tersebut akan disimpan dan digunakan kembali pada metode yang diusulkan agar terlihat jelas perbedaannya dari metode kNN pada umumnya yang terletak dari proses reduksi data yang dilakukan.

Adapun hasil yang diperoleh pada algoritma kNN tanpa melakukan reduksi data dapat dilihat pada Tabel 4.1 sebagai berikut.

Tabel 4.1. Hasil Pengujian Klasifikasi Data dengan kNN No. Dataset Jumlah Data dihitung akurasinya berdasarkan hasil perhitungan algoritma kNN dari proses pembelajaran pada data pelatihan seperti terlihat pada Tabel 4.1 tersebut. Hasil tersebut diperoleh menggunakan algoritma kNN biasa dengan mempertahankan seluruh data pelatihan atau tanpa melakukan reduksi pada data pelatihan.

Berdasarkan nilai akurasi dari ketiga pengujian dataset yang diperoleh, maka dapat dihitung rata-rata akurasi dengan menjumlahkan seluruh hasil akurasi pengujian dataset dibagi dengan total pengujian adalah sebesar 89,52%. Nilai tersebut akan dibandingkan dengan pengujian algoritma kNN yang telah melakukan reduksi data, sehingga terlihat perbedaan antara kedua metode tersebut.

4.2.2. Hasil Pengujian Algoritma kNN dengan Reduksi Data

Pada pengujian kedua akan dilakukan perhitungan klasifikasi data pada algoritma kNN dengan mereduksi data pelatihan menggunakan metode fuzzy c-means clustering dan Pearson correlation. Nilai parameter (k) pengujian pada algoritma kNN sebelumnya akan digunakan kembali untuk melakukan uji coba terhadap metode yang diusulkan. Data pelatihan dan data pengujian yang digunakan juga seperti pengujian menggunakan algoritma kNN tanpa reduksi data. Hal ini dilakukan agar perbandingan antara metode sebelumnya dengan metode yang diusulkan hanya terlihat dari proses reduksi data pelatihan dan nilai akurasi klasifikasi pengujian yang dihasilkan.

Pengujian terhadap metode yang diusulkan pada penelitian ini dilakukan dengan mengatur nilai correlation atau korelasi yang sesuai, agar dapat ditentukan data pelatihan yang bisa direduksi. Data pelatihan yang direduksi merupakan data dengan tingkat korelasi terendah setelah dihitung kedekatannya dengan titik pusat cluster data yang dihasilkan dari algoritma fuzzy c-means clustering yang telah dicari sebelumnya. Algoritma FCM memiliki fungsi menemukan titik cluster data yang dianggap sebagai pusat data pelatihan.

Data dengan korelasi terendah tidak boleh berapa di dalam cluster yang sama dan harus direduksi agar tidak mengganggu proses klasifikasi. Penentuan nilai korelasi dapat dilakukan secara berulang-ulang dengan rentang nilai 0 sampai dengan 1. Nilai korelasi yang mendekati 1 akan mampu mereduksi banyak baris data, sehingga mampu mengurangi jumlah dimensi data. Nilai korelasi yang mendekati 0 akan mempertahankan banyak baris data bahkan tidak terjadi proses reduksi. Proses pengujian akan dibagi menjadi 3 sesuai dengan banyaknya dataset yang digunakan.

Sebagai contoh, pada dataset pertama yang telah dinormalisasi akan dilakukan proses reduksi data menggunakan metode yang diusulkan. Data pelatihan pada dataset I yang akan direduksi dapat dilihat pada Tabel 4.2 sebagai berikut.

Tabel 4.2. Data Pelatihan pada Dataset I

Data Ke- X1 X2 X3 X4 Kelas

Tabel 4.2. Data Pelatihan pada Dataset I

Data Ke- X1 X2 X3 X4 Kelas

Tabel 4.2. Data Pelatihan pada Dataset I

Data Ke- X1 X2 X3 X4 Kelas

101 0.8611 0.3333 0.8644 0.7500 3

102 1.0000 0.7500 0.9153 0.7917 3

103 0.5833 0.3333 0.7797 0.8750 3

104 0.5556 0.3333 0.6949 0.5833 3

105 0.5000 0.2500 0.7797 0.5417 3

Pada Tabel 4.2 merupakan data pelatihan pada dataset I dengan jumlah sebanyak 105 data yang diambil dari 70% dari total dataset I sebanyak 150 data.

Selanjutnya, data tersebut akan dicari nilai titik pusat cluster sebanyak jumlah kelas data yang ada menggunakan algoritma FCM dan hasilnya dapat dilihat pada Tabel 4.3 sebagai berikut.

Tabel 4.3. Titik Pusat Cluster pada Dataset I

Cluster X₁ X₂ X₃ X₄

C1 0.2048 0.6006 0.0856 0.0633

C2 0.4560 0.3059 0.5831 0.5467

C3 0.7022 0.4315 0.7947 0.7856

Data pelatihan pada Tabel 4.2 akan dihitung korelasinya dengan tiap cluster pada Tabel 4.3. Sebagai contoh, C1 akan dihitung nilai korelasinya dengan tiap-tiap data pelatihan dengan label kelas 1 dan begitu seterusnya. Sehingga, diperoleh seluruh nilai korelasi antara data pelatihan dengan titik pusat cluster data. Langkah selanjutnya, menentukan nilai korelasi sebesar 0,8 yang diambil secara acak sebagai nilai minimum korelasi yang diperbolehkan. Nilai korelasi di bawah nilai minimum akan direduksi karena merupakan data yang memiliki hubungan paling kecil terhadap titik pusat cluster data. Adapun data yang akan direduksi pada dataset I dapat dilihat pada Tabel 4.4 sebagai berikut.

Tabel 4.4. Data yang Direduksi pada Dataset I

Data Ke- X₁ X₂ X₃ X₄ Kelas Nilai Pearson

36 0.7500 0.5000 0.6271 0.5417 2 0.3142

38 0.7222 0.4583 0.6610 0.5833 2 0.6424

44 0.6389 0.3750 0.6102 0.5000 2 0.6897

45 0.2500 0.2917 0.4915 0.5417 2 0.7696

50 0.3611 0.3750 0.4407 0.5000 2 0.7030

51 0.6667 0.4583 0.5763 0.5417 2 0.4888

Tabel 4.4. Data yang Direduksi pada Dataset I

Data Ke- X1 X2 X3 X4 Kelas Nilai Pearson antara data pelatihan dengan titik pusat cluster data. Terdapat sebanyak 24 data yang akan direduksi karena memiliki nilai lebih kecil dari pada nilai korelasi minimum yang ditentukan sebelumnya. Langkah selanjutnya, data tersebut akan dihapus dan menyisahkan sebanyak 81 data pelatihan pada dataset I yang akan dimasukkan ke dalam algoritma kNN untuk melakukan klasifikasi pada data pengujian. Proses ini dilakukan juga terhadap dataset II dan III dengan menentukan nilai korelasi minimum yang sesuai.

A. Pengujian Algoritma kNN dengan Reduksi Data pada Dataset I

Proses pengujian pertama dilakukan untuk menguji algoritma kNN dengan mereduksi data pada dataset I menggunakan algoritma FCM dan Pearson correlation. Data pelatihan yang direduksi tergantung besarnya nilai korelasi yang digunakan.

Penggunaan nilai korelasi dengan nilai mendekati 1 akan menghilangkan banyak baris data, sedangkan korelasi mendekati 0 akan mempertahankan banyak baris data atau tidak terjadi reduksi. Pada pengujian dataset I, rentang korelasi yang diatur sebesar 0,5 sampai dengan 0,9. Data pelatihan dengan nilai korelasi di bawah ketentuan akan

dihilangkan karena data tersebut merupakan data yang mengganggu hasil klasifikasi pada algoritma kNN. Data tersebut dapat menyebabkan data yang seharusnya menjadi kelompok lain akan dimasukkan ke dalam kelompoknya sendiri. Adapun hasil pengujian pada dataset I dengan mereduksi data pelatihan pada algoritma kNN dapat dilihat pada Tabel 4.5 sebagai berikut.

Tabel 4.5. Hasil Klasifikasi Dataset I dengan kNN dan Reduksi Data No. Nilai menggunakan algoritma kNN pada dataset I dengan reduksi data menggunakan algoritma fuzzy c-means clustering dan Pearson correlation. Sebelum proses reduksi dilakukan, data pelatihan akan diolah menggunakan metode FCM untuk menemukan titik pusat cluster data dan dibandingkan dengan data pelatihan serta menghitung nilai korelasi pada setiap data menggunakan persamaan Pearson correlation. Data dengan korelasi tertinggi akan dipertahankan dan korelasi terendah akan direduksi.

Dari hasil percobaan tersebut diperoleh akurasi tertinggi sebesar 100% dengan penentuan nilai korelasi sebesar 0,8 dan jumlah data yang direduksi sebanyak 24 data.

Pada Tabel 4.5 nilai korelasi <= 0,6 akan menghasilkan nilai akurasi yang sama. Jika proses terus dilanjutkan, maka proses reduksi data tidak akan terjadi. Sebaliknya, nilai korelasi > 0,9 akan menghasilkan akurasi yang menurun dikarenakan banyaknya data yang seharusnya dipertahankan menjadi direduksi. Oleh karena itu, nilai korelasi yang tinggi akan menyebabkan banyaknya baris data yang hilang, sehingga dimensi data juga berkurang. Nilai korelasi yang rendah akan menyebabkan hasil reduksi baris data yang sedikit ataupun tanpa proses reduksi, sehingga dimensi data juga mengalami sedikit penurunan. Nilai korelasi yang sesuai dilakukan dengan proses uji coba (random) untuk menemukan nilai yang sesuai, sehingga data yang seharusnya dipertahankan tidak dihilangkan dan tidak menyebabkan menurunnya akurasi klasifikasi data.

B. Pengujian Algoritma kNN dengan Reduksi Data pada Dataset II

Proses pengujian kedua dilakukan untuk menguji algoritma kNN dengan mereduksi data pelatihan pada dataset II menggunakan algoritma FCM dan Pearson correlation.

Data yang direduksi tergantung besarnya nilai korelasi yang digunakan dan harus memperhitungkan nilai maksimum dan minimum yang diperoleh. Pada pengujian dataset II, rentang nilai korelasi yang diatur sebesar 0,2 sampai dengan 0,6. Data dengan nilai korelasi di bawah ketentuan akan dihilangkan karena data tersebut merupakan data yang mengganggu hasil klasifikasi pada algoritma kNN. Adapun hasil pengujian klasifikasi pada dataset II dengan mereduksi data pelatihan pada algoritma kNN dapat dilihat pada Tabel 4.6 sebagai berikut.

Tabel 4.6. Hasil Klasifikasi Dataset II dengan kNN dan Reduksi Data No. Nilai

Pada Tabel 4.6 dapat dilihat akurasi pengujian algoritma kNN pada dataset II dengan reduksi data menggunakan algoritma fuzzy c-means clustering dan Pearson correlation. Dari hasil percobaan tersebut diperoleh akurasi tertinggi sebesar 97,08%

dengan penentuan nilai korelasi sebesar 0,4 dan jumlah data yang direduksi sebanyak 93 data. Pada percobaan tersebut nilai korelasi >= 0,6 akan menghasilkan penuruan akurasi. Penurunan tersebut diakibatkan banyaknya baris data pelatihan yang dihilangkan, sehingga informasi tentang data menjadi berkurang. Oleh karena itu, penentuan nilai korelasi harus dilakukan secara tepat agar tidak terjadi penurunan akurasi pengujian data.

Pengaturan nilai korelasi yang sesuai dapat ditentukan dengan melihat nilai maksimum dan minimum dari perhitungan jarak korelasi antara titik pusat cluster data dengan data pelatihan menggunakan persamaan Pearson correlation. Pada pengujian ini semakin besar nilai korelasi maka dimensi data akan jauh semakin berkurang, namun nilai akurasinya juga dapat berkurang karena menghilangkan data penting yang menjadi acuan dalam penentuan hasil klasifikasi pada algoritma kNN.

C. Pengujian Algoritma kNN dengan Reduksi Data pada Dataset III

Proses pengujian ketiga dilakukan untuk menguji algoritma kNN dengan mereduksi data pada dataset III menggunakan algoritma FCM dan Pearson correlation. Data yang direduksi tergantung besarnya korelasi yang digunakan. Pada pengujian dataset III, rentang korelasi yang diatur sebesar 0,4 sampai dengan 0,8. Data dengan nilai korelasi di bawah ketentuan akan dihilangkan karena data tersebut merupakan data yang mengganggu hasil klasifikasi pada algoritma kNN. Data tersebut yang menyebabkan data yang seharusnya menjadi kelompok lain akan dimasukkan di dalam kelompoknya sendiri. Adapun hasil pengujian pada dataset III dengan mereduksi data pada algoritma kNN dapat dilihat pada Tabel 4.7 sebagai berikut.

Tabel 4.7. Hasil Klasifikasi Dataset III dengan kNN dan Reduksi Data No. Nilai

Pada Tabel 4.7 dapat dilihat akurasi pengujian algoritma kNN pada dataset III dengan reduksi data menggunakan algoritma fuzzy c-means clustering dan Pearson correlation. Dari hasil percobaan tersebut diperoleh akurasi tertinggi sebesar 79,57%

dengan penentuan nilai korelasi sebesar 0,6 dan jumlah data yang direduksi sebanyak 60 data. Nilai korelasi yang tinggi yaitu > 0,6 akan menyebabkan banyaknya baris data yang hilang, sehingga dimensi data juga berkurang dan menyebabkan menurunnya akurasi pengujian. Nilai korelasi yang rendah yaitu < 0,5 akan menyebabkan hasil reduksi baris data yang sedikit, sehingga dimensi data juga mengalami sedikit penurunan dan membuat akurasi yang sama seperti algoritma kNN tanpa reduksi. Nilai korelasi dilakukan dengan proses uji coba (random) untuk menemukan nilai yang sesuai, sehingga data yang seharusnya dipertahankan tidak dihilangkan dan tidak menyebabkan menurunnya akurasi klasifikasi data. Pada dasarnya penurunan akurasi dapat disebabkan karena banyaknya data pelatihan yang dihilangkan karena pengaturan nilai korelasi yang terlalu tinggi. Nilai korelasi tersebut akan menghilangkan banyak informasi yang dibutuhkan untuk proses klasifikasi.

4.3. Pembahasan

Berdasarkan proses pengujian yang dilakukan antara klasifikasi data menggunakan algoritma kNN tanpa reduksi data dengan reduksi data menggunakan algoritma FCM dan Pearson correlation memperoleh hasil yang tidak jauh berbeda. Perbedaan dapat dilihat dari hasil akurasi klasifikasi pengujian dan jumlah data pelatihan yang digunakan. Metode yang diusulkan mampu meningkatkan akurasi algoritma kNN dan juga mengurangi dimensi pada data pelatihan. Akurasi yang dihasilkan meningkat dikarenakan metode yang diusulkan mampu menghilangkan data yang mengganggu proses klasifikasi. Data tersebut dapat memiliki pengaruh untuk menentukan kelompok data lainnya agar dapat berada pada kelompoknya sendiri, sehingga dapat menurunkan akurasi klasifikasi data.

Proses reduksi data pada algoritma kNN dapat dilakukan agar dimensi data menjadi kecil dan mempercepat proses komputasi. Pada pengujian yang dilakukan, proses reduksi data dapat memperoleh peningkatan akurasi dan pengurangan dimensi data. Adapun hasil yang diperoleh dapat dilihat pada Tabel 4.8 sebagai berikut.

Tabel 4.8. Perbandingan Hasil Pengujian Klasifikasi Data Nama Metode Dataset

Nilai Rata-Rata kNN_FCM_Pearson 80,88% 92,22%

Pada Tabel 4.8 di atas, dapat dilihat akurasi pengujian menggunakan algoritma kNN tanpa reduksi data memperoleh akurasi rata-rata sebesar 89,52%. Sedangkan, untuk pengujian menggunakan reduksi data pada algoritma kNN memperoleh akurasi rata-rata sebesar 92,22%. Dari hasil tersebut dapat dilihat bahwa peningkatan akurasi yang terjadi sebesar 2,7%. Nilai ini merupakan hasil yang diperoleh dari pengurangan antara persentase hasil klasifikasi data pengujian menggunakan algoritma kNN biasa dengan persentase hasil akurasi menggunakan algoritma kNN dan reduksi data menggunakan algoritma FCM dan Pearson correlation. Peningkatan akurasi tersebut

terjadi dikarenakan metode reduksi data yang digunakan mampu menemukan data-data pelatihan dengan korelasi terendah dengan asumsi bahwa data-data tersebut dapat mengakibatkan data pada kelompok lain dimasukkan pada kelompoknya yang berdampak pada penurunan akurasi klasifikasi menggunakan algoritma kNN.

Reduksi data menggunakan metode fuzzy c-means clustering dan Pearson correlation juga mampu mengefisienkan penggunaan data pelatihan yang dilibatkan dalam proses pembelajaran pada algoritma kNN. Proses pengujian pada algoritma kNN umumnya akan melibatkan seluruh data pelatihan yang ada. Algoritma tersebut akan menempatkan kelompok data berdasarkan pemilihan parameter k yang ditentukan sebelumnya. Permasalahan ini dapat menjadi besar ketika dimensi data yang digunakan juga tergolong tinggi. Langkah yang dapat dilakukan salah satunya yaitu dengan menerapkan metode lainnya untuk mereduksi data sebelum proses klasifikasi dilakukan menggunakan algoritma kNN. Pada penelitian ini, metode yang diusulkan dapat mengurangi atau mereduksi data pelatihan dengan rata-rata pengurangan sebesar 19,22%. Data yang direduksi merupakan data yang dihitung menggunakan persamaan fuzzy c-means clustering dan Pearson correlation.

Adapun hasil yang diperoleh dapat digambarkan menggunakan grafik seperti pada Gambar 4.1 dan Gambar 4.2 sebagai berikut.

Gambar 4.1. Grafik Perbandingan Akurasi Pengujian Klasifikasi Data

Dataset I Dataset II Dataset III Akurasi Rata-Rata

Gambar 4.2. Grafik Perbandingan Persentase Penggunaan Data Pelatihan Pada Gambar 4.1 akurasi dari pengujian yang dilakukan menggunakan algoritma kNN dengan mereduksi data memperoleh peningkatan akurasi yang lebih tinggi sebesar 2,7% dibandingkan metode tanpa reduksi data. Metode reduksi data yang diusulkan dapat diterapkan dan memperoleh akurasi yang lebih tinggi baik pada dataset I, II dan III. Pada Gambar 4.2 persentase penggunaan data pelatihan juga mengalami peningkatan. Hasil pengujian dengan mereduksi data yang dilakukan pada algoritma kNN dapat mengurangi persentase penggunaan data pelatihan dengan rata-rata pengurangan sebesar 19,22%. Data pelatihan yang digunakan untuk proses klasifikasi memiliki dimensi yang lebih kecil dan akhirnya dapat mempercepat proses komputasi pada algoritma kNN.

Reduksi data pada penelitian ini dilakukan menggunakan algoritma fuzzy c-means clustering dan Pearson correlation pada algoritma kNN dengan memperhatikan nilai korelasi yang ditentukan dengan proses random. Algoritma fuzzy c-means clustering akan menentukan titik cluster data dari tiap kelompok data yang terbentuk pada data pelatihan. Setiap kelompok data akan menghasilkan satu titik cluster data, sehingga banyaknya titik pusat cluster yang dihasilkan sebanyak kelas data tersebut.

Selanjutnya, setiap titik pusat cluster data tersebut akan dihitung tingkat korelasinya dengan setiap data pelatihan pada kelompok data yang sama menggunakan persamaan Pearson correlation. Nilai yang terbentuk akan digambarkan dengan rentang nilai 0

Dataset I Dataset II Dataset III Akurasi Rata-Rata

sampai dengan 1. Nilai 0 menggambarkan bahwa data tersebut tidak memiliki kemiripan atau korelasi sama sekali. Sedangkan nilai 1 menggambarkan bahwa kedua data memiliki korelasi yang sangat tinggi.

Proses reduksi terjadi saat memasukkan nilai korelasi yang sesuai dengan penentuan nilai acak > 0 sampai dengan < 1. Nilai yang mendekati nilai 0 mampu mereduksi data dengan jumlah yang sangat kecil bahkan tidak terjadi reduksi. Hal ini disebabkan karena korelasi yang terbentuk pada data sebelumnnya memiliki nilai minimum di atas nilai korelasi yang dimasukkan. Sedangkan nilai korelasi mendekati nilai 1 akan mampu mereduksi banyak data, namun juga banyak menghilangkan informasi pada data pelatihan tersebut. Nilai korelasi yang tidak sesuai akan menyebabkan penurunan akurasi pengujian atau berada di bawah nilai akurasi algoritma kNN tanpa reduksi data. Nilai korelasi yang sesuai dapat dilakukan secara berulang-ulang agar diperoleh nilai akurasi yang maksimum. Cara tersebut akan memakan waktu yang cukup lama dalam proses pengklasifikasian data dan mendapatkan hasil yang tidak maksimal. Cara lain yang bisa dilakukan adalah dengan mencari nilai maksimum dan minimum dari perhitungan persamaan Pearson correlation sebelumnya dan memasukkan nilai diantaranya sebagai nilai korelasi yang diijinkan. Pemilihan nilai korelasi lainnya mungkin dapat dicari dengan menggunakan algoritma optimasi, seperti algoritma genetika atau particle swarm optimization (PSO). Namun, penelitian ini tidak membahasnya dikarenakan kajian yang terlalu mendalam.

Berdasarkan paparan yang dijelaskan bahwa metode yang diusulkan dengan mereduksi data menggunakan algoritma fuzzy c-means clustering dan Pearson correlation mampu meningkatkan akurasi klasifikasi data pada algoritma kNN dan mengurangi dimensi data pelatihan yang digunakan. Metode ini dapat digunakan baik pada dataset kecil ataupun besar dengan jumlah baris data, atribut dan kelas yang

Dalam dokumen ANALISIS METODE FUZZY C-MEANS DAN PEARSON CORRELATION UNTUK REDUKSI DATA PADA ALGORITMA KNN TESIS CUT DESY ARISANDI NIM (Halaman 44-0)