Laporan Tugas III Klasifikasi Data Mini

(1)

Dosen pembimbing: Dr. Muhammad Subianto, M.Si

Laporan Tugas III Data Mining

Oleh: Ahmad Ariful Amri |

(2)

http://www.liataja.com/

K-Nearest Neighbor (K-NN) adalah suatu metode yang menggunakan algoritma supervised dimana hasil dari sampel uji yang baru diklasifikasikan berdasarkan mayoritas dari kategori pada K-NN. Tujuan dari algoritma ini adalah mengklasifikasi objek baru berdasakan atribut dan sampel latih. pengklasifikasian tidak menggunakan model apapun untuk dicocokkan dan hanya berdasarkan pada memori. Diberikan titik uji, akan ditemukan sejumlah K objek (titik training) yang paling dekat dengan titik uji. Klasifikasi menggunakan voting terbanyak di antara klasifikasi dari K objek. Algoritma K-NN menggunakan klasifikasi ketetanggaan sebagai nilai prediksi dari sample uji yang baru. Dekat atau jauhnya tetangga biasanya dihitung berdasarkan jarak Eucledian.

Ada 2 file dari tugas 2 yang akan dilanjutkan. Dataset WSDL memiliki total 569 sampel dan dataset Abalone memiliki total 4177 sampel. Pada Tugas 3 ini, anda diminta untuk memecahkan file ARFF dari dataset WDBC menjadi 2 file (training.arff dan WDBC-testing.arff). Jumlah sampel yang harus ada dalam file WDBC-training.arff adalah sebanyak 75% sd 80% dari total sampel yang dipilih secara acak, sedangkan jumlah sampel yang harus ada dalam file WDBC-testing.arff adalah berkisar antara 20% sd 25% dari total sampel. Lakukan hal yang sama untuk dataset Abalone. Dataset ini juga harus dipecah menjadi 2 file (Abalone-training.arff dan Abalone-testing.arff). Jumlah sampel yang harus ada dalam file Abalone-training.arff adalah sebanyak 75% sd 80% dari total sampel yang juga dipilih secara acak, sedangkan jumlah sampel yang harus ada dalam file Abalone-testing.arff adalah sebanyak kurang lebih 20% sd 25%.

Lakukan proses klasifikasi menggunakan Classifier IBk (Lazy/KNN) yang tersedia dalam perangkat lunak WEKA. Set parameter k=3, k=5, k=7, k=9, dan k=11. Gunakan file testing dari masing-masing dataset untuk menguji keakuratan hasil klasifikasi. Akurasi dilihat dari nilai Precision, Recall dan F-Measure. Bandingkan nilai akurasi untuk setiap k dengan parameter distanceWeighting = no distance weighting dan nilai parameterdistanceWeighting = Weight by 1/distance. Lakukan juga pengujian (testing) menggunakan cross-validation dengan parameter folds=10.

(3)

a. Data Abalone

Sebelum mengacak barisan data yang ada di dalam file abalone.arff, terlebih dahulu dilakukan pembersihan atribut-atribut kolom headernya, selain itu juga dilakukan backup, untuk mengembalikan atribut headernya serta agar dapat dikembalikan jika trjadi kesalahan. Setelah selesai barulah dilakukan langkah-langkah pemisahan data abalone. Adapun langkah yang dilakukan sebagai berikut:

1. Cara mengacak data yang ada didalam file abalone.arff, setelah diacak, akan dibuatkan file baru bernama abalone_shuffle.arff yang diletakkan dalam folder yang sama.

2. Berikut ini perbandingan antara data abalone.arff sebelum dishuffle dengan yang sudah dishuffle (abalone_shuffle.arff).

(4)

Setelah dibelah akan menghasilkan 2 file, xaa dan xab. Nah file xaa merupakan file dengan jumlah baris 3258 dan nama file tersebut dirubah menjadi Abalone-training.arff . Sedangkan yang satunya lagi xab, yang berjumlah 22% dari file abalone_suffle.arff disimpan menjadi Abalone-training.arff

b. Data WDBC

Sama persis seperti yang dilakukan pada file abalone.arff. Sebelum mengacak barisan data yang ada di dalam file wsdl.arff, terlebih dahulu dilakukan pembersihan atribut-atribut kolom headernya, selain itu juga dilakukan backup.. Setelah selesai barulah dilakukan langkah-langkah pemisahan data abalone. Adapun langkah yang dilakukan sebagai berikut:

1. Cara mengacak data yang ada didalam file wsdl.arff, setelah diacak, akan dibuatkan file baru bernama wsdl_shuffle.arff yang diletakkan dalam folder yang sama.

(5)

3. Selanjutnya data yang sudah diacak akan di belah menjadi 2 file, WDBC-testing.arff dan WDBC -training.arff. Menggunakan perintah split –l 444 yang artinya membelah file pada baris ke 444 atau 78% dari seluruh baris file wsdl_shuffle.arff.

Setelah dibelah akan menghasilkan 2 file, xaa dan xab. Nah file xaa merupakan file dengan jumlah baris 3258 dan nama file tersebut dirubah menjadi Abalone-training.arff . Sedangkan yang satunya lagi xab, yang berjumlah 22% dari file abalone_suffle.arff disimpan menjadi Abalone-training.arff

2. Melakukan Klasifikasi

Disini akan dilakukan pengklasifikasian terhadap file Abalone dan WDBC. Beberapa pengujian yang dilakukan misalnya merubah aadatribut N, weight dll

a. Data Abalone

Langkah yang dilakukan dalam proses pengklasifikasian adalah sebagai berikut:

(6)

(7)

(8)

(9)

5. Klik Oke, lalu kembali ke sidebar kiri, klik start untuk memulai. Nah selanjutnya akan ditampilkan hasilnya dibagian kanan.

Pada screen shot di atas terlihat dengan ujicoba KNN=3 didapatkan nilai rata-rata pesisi 0,523 dan recall 0,517 serta F-measure 0,516. Hasil di atas masih kurang bagus, Nampak bagian paling atas masih banyak kesalahan klasifikasi yang mencapai 48.3%

6. Untuk ujicoba KNN = 5

(10)

Pada screen shot di atas terlihat dengan ujicoba KNN=7 didapatkan nilai rata-rata presisi 0,525 dan recall 0,524 serta F-measure 0,524. Hasil di ats masih kurang bagus, Nampak bagian paling atas masih banyak kesalahan klasifikasi yang mencapai 47.5%. berkurang tipis sekali dari sebelumnya

Pada screen shot di atas terlihat dengan ujicoba KNN=9 didapatkan nilai rata-rata presisi 0,54 dan recall 0,54 serta F-measure 0,536. Hasil di atas masih kurang bagus, Nampak bagian paling atas masih banyak kesalahan klasifikasi yang mencapai 46 %. Namun semakin baik dari sebelumnya

(11)

Pada screen shot di atas terlihat dengan ujicoba KNN=11 didapatkan nilai rata-rata presisi 0,54 dan recall 0,544 serta F-measure 0,539. Hasil di ats masih kurang bagus, Nampak bagian paling atas masih banyak kesalahan klasifikasi yang mencapai 45.5%. Berkurang sedikit dari sebelumnya.

Hasil dengan metode KNN menjadi semakin baik dengan merubah inputan parameter K. Namun perubahannya kecil sekali, dari inputan K=3 hingga K=11 perubahan kalkulasi datanya sekitar 3 % saja

(12)

10. Untuk parameter K = 3 dan distance Weighting = Weight by 1/distance

(13)

Pada screen shot di atas terlihat dengan ujicoba KNN=5 dan dstance Weighting = Weight by 1/distance didapatkan nilai rata-rata presisi 0,527 dan recall 0,527 serta F-measure 0,526. Terjadi perubahan yang semakin bagus, Nampak bagian paling atas masih banyak kesalahan klasifikasi yang mencapai 47.3%. Menjadi lebih baik jika dibandingnkan dengan yang tidak menggunakan distance weighting dengan inputan parameter K=5.

(14)

Pada screen shot di atas terlihat dengan ujicoba KNN=9 dan dstance Weighting = Weight by 1/distance didapatkan nilai rata-rata presisi 0,536 dan recall 0,54 serta F-measure 0,537. Terjadi perubahan yang semakin baik, Nampak bagian paling atas masih banyak kesalahan klasifikasi yang mencapai 46%. Menjadi lebih baik jika dibandingnkan dengan yang tidak menggunakan distance weighting dengan inputan parameter K=9.

(15)

15. Setelah semuanya selesai, terakhir testing menggunakan cross validation dengan parameter 10. Hasilnya sebagai berikut:

16. Inputan parameter K=3 Folds 10

Pada screen shot di atas terlihat dengan ujicoba KNN=3 dan parameter Folds = 10 didapatkan nilai rata-rata presisi 0,516 dan recall 0,514 serta F-measure 0,515. Terjadi perubahan sangat tipis sekali dari yang sebelumnya yaitu yang hanya menggunakan variable K saja.

(16)

Pada screen shot di atas terlihat dengan ujicoba KNN=5 dan parameter Folds = 10 didapatkan nilai rata-rata presisi 0,547 dan recall 0,548 serta F-measure 0,548. Terjadi perubahan yang lumayan besar dari sebelumnya yaitu yang hanya menggunakan variable K=3 saja. Ini juga menunjukkan hasil yang lebih baik dari dua uji coba sebelumnya.

18. Inputan parameter K=7 Folds 10

(17)

Pada screen shot di atas terlihat dengan ujicoba KNN=9 dan parameter Folds = 10 didapatkan hasil yang tidak jauh berbeda dai sebelumnya dengan nilai rata-rata presisi 0,554(menurun) dan recall 0,565(naik) serta F-measure 0,558(tetap Perubahan yang terjadi kecil sekali dari perubahan sebelumnya. Namun hasil nya tetap lebih baik dari dua uji coba sebelumnya.

20. KNN=11 Folds 10

(18)

b. Data WDBC

Langkah yang dilakukan dalam proses pengklasifikasian sama juga pada Abalone adalah sebagai berikut:

1. Buka aplikasi weka lalu, buka file WDBC-training.arff yang sudah dipecah sebelumnya.

(19)

Pada screen shot di atas terlihat dengan ujicoba KNN=3 didapatkan nilai rata-rata pesisi 0,96 dan recall 0,959 serta F-measure 0,959. Hasil di atas sangat bagus dengan nilai correctly classified instance yang mencapai 95.94%.

3. Untuk ujicoba dengan parameter K = 5

Pada screen shot di atas terlihat dengan ujicoba KNN=5 didapatkan nilai rata-rata pesisi 0,943 dan recall 0,941 serta F-measure 0,954. Hasil di atas smenurun dari ujicoba sebelumnya yang menggunakan parameter K=3. Namun masih sangat bagus dengan nilai correctly classified instance yang mencapai 94.14%.

(20)

Pada screen shot di atas terlihat dengan ujicoba KNN=7 didapatkan nilai rata-rata presisi 0,948 dan recall 0,946 serta F-measure 0,946. Hasil di atas meningkat sedikit dari ujicoba sebelumnya yang menggunakan parameter K=5. Tapi masih lebih buruk dari K=3. Nilai correctly classified instance yang mencapai 94.59%.

5. Untuk ujicoba dengan parameter K = 9

Pada screen shot di atas terlihat dengan ujicoba KNN=9 didapatkan nilai rata-rata presisi 0,948 dan recall 0,946 serta F-measure 0,946. Hasinya sama persis dengan ujicoba K=7. Nilai correctly classified instance yang mencapai 94.59%.

(21)

Pada screen shot di atas terlihat dengan ujicoba KNN=9 didapatkan nilai rata-rata presisi 0,949 dan recall 0,946 serta F-measure 0,946. Hasinya hampir sama persis dengan ujicoba K=7 dan 9. Hanya berbeda pada nilai presisi saja. Nilai correctly classified instance yang mencapai 94.59%.

Sudah selesai dengan ujicoba merubah KNN, selanjutnya dilakukan perbandingan dengan tambahan parameter distance weight.

(22)

Pada screen shot di atas terlihat dengan ujicoba KNN=5 dan dstance Weighting = Weight by 1/distance didapatkan nilai rata-rata presisi 0,943 dan recall 0,941 serta F-measure 0,941. Hasil ini persis sama dengan uji coba tanpa menggunaknan distance weighting, yang membedakannya hanya hasil F-measure yang beda tipis

Dari gambar di atas tampak dengan ujicoba KNN=7 dan dstance Weighting = Weight by 1/distance didapatkan nilai rata-rata presisi 0,95 dan recall 0,948 serta F-measure 0,948. Hasil lebih baik dari uji coba sebelumnya. Nilai correctly classified instance yang mencapai 94.82%.

(23)

Pada screen shot di atas terlihat dengan ujicoba KNN=9 dan dstance Weighting = Weight by 1/distance didapatkan nilai rata-rata presisi 0,953 dan recall 0,95 serta F-measure 0,95. Hasil lebih baik dari uji coba sebelumnya. Nilai correctly classified instance yang mencapai 95.045%.

Dari gambar di atas tampak dengan ujicoba KNN=11 dan dstance Weighting = Weight by 1/distance didapatkan nilai rata-rata presisi 0,953 dan recall 0,95 serta F-measure 0,95. Hasil persis sama dengan uji coba sebelumnya. Nilai correctly classified instance yang mencapai 95.045%.

(24)

12. Ujicoba parameter K=3 dan Folds=10

Pada screen shot di atas terlihat dengan ujicoba KNN=3 dan parameter Folds = 10 didapatkan nilai rata-rata presisi 0,968 dan recall 0,968 serta F-measure 0,957 Hasil ini sangat baik dengan tingkat kesalahan klasifikasi hanya 3,2%.

(25)

Dari gambar di atas terlihat dengan ujicoba KNN=5 dan parameter Folds = 10 didapatkan nilai rata-rata presisi 0,952 dan recall 0,952 serta F-measure 0,952 Hasil ini sangat baik dengan tingkat kesalahan klasifikasi hanya 4,8%. Namun masihlebih baik yang sebelumnya dengan parameter K=3

Pada screen shot di atas terlihat dengan ujicoba KNN=7 dan parameter Folds = 10 didapatkan nilai rata-rata presisi 0,96 dan recall 0,96 serta F-measure 0,96 Hasil ini sangat baik dengan tingkat kesalahan klasifikasi hanya 4 %.

(26)

Dari gambar di atas terlihat dengan ujicoba KNN=9 dan parameter Folds = 10 didapatkan nilai rata-rata presisi 0,96 dan recall 0,96 serta F-measure 0,96 Hasil ini sangat baik dengan tingkat kesalahan klasifikasi hanya 4 %. Sama persis dengan uji coba sebelumnya nilak K = 7

(27)

1. Data Abalone

K _{Incorrectly Classified} _PrecisionNo Distance Weighting_Recall _F-Measure

3 48,3% 0,523 0,517 0,516

K _{Incorrectly Classified} _Precision Fold = 10_Recall _F-Measure

3 48,63% 0,516 0,514 0,515

5 45,15% 0,547 0,548 0,548

7 43,74% 0,556 0,563 0,558

9 43,52% 0,554 0,554 0,558

11 43,4% 0,556 0,566 0,56

 Semakin tinggi parameter K yang diberikan, semakin rendah pula tingkat kesalahan klasifikasinya.

 Semakin tinggi nilai K, semakin bagus nilai Precision, recall dan F-measure, namun ada penurunan pada pemberian nilai K=9 pada parameter Fold=10, nilai precision, recall dan F-measure-nya menurun

 Menggunakan parameter Fold 10 menjadi pilihan yang terbaIk, karena menghasilkan tingkat kesalahan klasifikasi terkecil

2. Data WDBC

K No Distance Weighting

(28)

7 5,4% 0,948 0,946 0,945

9 5,4% 0,948 0,946 0,945

11 5,4% 0,949 0,946 0,945

K _{Incorrectly Classified} _PrecisionDistance Weighting_Recall _F-Measure

3 4,05% 0,96 0,959 0,950

5 5,8% 0,943 0,941 0,941

7 5,18% 0,95 0,948 0,948

9 4,955% 0,953 0,95 0,95

11 4,953% 0,95 0,95 0,95

K _{Incorrectly Classified} _Precision Fold = 10_Recall _F-Measure

3 3,2% 0,968 0,968 0,957

5 6% 0,952 0,952 0,952

7 4% 0,96 0,96 0,96

9 4% 0,96 0,96 0,96

11 6,4% 0,938 0,934 0,93

 Terjadinya keberagaman, untuk parameter No Distance Weigting, semakin besar nilai K makan semakin bagus hasilnya, namun nilai-nilai antar K=7 sampai k=11 relatif sama.

 Untuk parameter Distance Weighting, nilai terbaik saat nilai K=3, kemudian disusul saat nilai K=11

 Untuk yang berparameter Fold=10, nilai terbaik data K=3, namun selanjutnya tidak stabil sehingga sulit memutuskan yang terbaik. Namundari ketiga uji coba diatas, nilai terbaik yang pernah tercipta yaitu pada percobaan Yang berparameter Fold 10 dengan nilai K=3. Menghasilkan tingkat kesalahan paling kecil 3,2%