EKSPLORASI METODE PENENTUAN NILAI END POINT PADA ALGORITMA VOTING FEATURE INTERVALS 5 SETA BAEHERA

(1)

EKSPLORASI METODE PENENTUAN NILAI END POINT

PADA ALGORITMA VOTING FEATURE INTERVALS 5

SETA BAEHERA

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(2)

EKSPLORASI METODE PENENTUAN NILAI END POINT

PADA ALGORITMA VOTING FEATURE INTERVALS 5

Skripsi

Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer

pada Fakultas Matematika dan Ilmu Pengetahuan Alam

Institut Pertanian Bogor

Oleh :

SETA BAEHERA

G64066040

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(3)

ABSTRAK

SETA BAEHERA. Eksplorasi Metode Penentuan Nilai End Point pada Algoritma Voting Feature Intervals 5. Dibimbing oleh Aziz Kustiyo.

Voting Feature Intervals 5 adalah salah satu algoritma klasifikasi yang merepresentasikan deskripsi sebuah konsep oleh sekumpulan interval nilai-nilai feature (Güvenir 1998). Klasifikasi menggunakan algoritma ini didasarkan pada vote dari nilai-nilai pada feature. Cara kerja algoritma ini yaitu membuat interval dari setiap feature menggunakan instance yang terdapat pada feature tersebut. Interval yang dibuat dapat berupa range interval atau point interval. Point interval terdiri dari seluruh end point semua feature secara berurut sedangkan range interval terdiri dari nilai-nilai antara dua end point yang berdekatan namun tidak termasuk kedua end point tersebut. Nilai vote setiap kelas akan disimpan pada setiap interval.

Tujuan dari penelitian ini adalah untuk mengeksplorasi metode penentuan nilai end point pada algortima VFI5. Pengeksplorasian nilai end point pada algoritma VFI5 dilakukan dengan cara menempatkan kembali end point yang lebih merepresentasikan batas setiap kelas. Penempatan end point itu dilakukan dengan berbagai cara, antara lain : metode desil dan metode min(n+1) max(n-1).

Algoritma VFI5 menghasilkan nilai akurasi rata-rata sebesar 95,92% pada pengujian data Iris. Nilai yang sama pun diperoleh oleh algoritma VFI5 dengan metode end point desil, sedangkan algoritma VFI5 dengan metode end point min(n+1) max(n-1) hanya menghasilkan nilai akurasi rata-rata sebesar 93,87%. Pada pengujian data Wine, algoritma VFI5 menghasilkan nilai akurasi rata-rata sebesar 94,38%. Algoritma VFI5 dengan metode end point desil menghasilkan nilai akurasi rata-rata yang cukup jauh dibawah nilai akurasi rata-rata algoritma VFI5 biasa, yaitu sebesar 91,55%, sedangkan algoritma VFI5 dengan metode end point min(n+1) max(n-1) menghasilkan nilai akurasi rata-rata sebesar 92,67%. Pada pengujian data Ikan Koi, nilai akurasi rata-rata algoritma VFI5 dengan metode end point desil sebesar 95,79% dapat melebihi nilai akurasi rata algoritma VFI5 biasa yang menghasilkan nilai 94,96%. Nilai akurasi rata-rata algoritma VFI5 dengan metode end point min(n+1) max(n-1) terpaut cukup jauh dibandingkan kedua algoritma yang lainnya, yaitu sebesar 91,67%.

Algoritma VFI5 dengan metode end point desil dan algoritma VFI5 dengan metode end point min(n+1) max(n-1) akan mengalami kecenderungan penurunan kinerja bila dibandingkan dengan algoritma VFI5 biasa. Semakin banyaknya jumlah data uji yang memiliki nilai di luar interval akan membuat turunnya kinerja kedua algoritma VFI5 yang diubah tersebut.

Kata kunci : Klasifikasi, Algoritma VFI5, Desil

(4)

Judul : Eksplorasi Metode Penentuan Nilai End Point pada Algoritma Voting Feature Intervals 5 Nama : Seta Baehera

NIM : G64066040

Menyetujui:

Pembimbing

Aziz Kustiyo, S.Si, M.Kom.

NIP 19700719 199802 1 001

Mengetahui:

Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor

Dr. drh. Hasim, DEA

NIP 19610328 198601 1 002

(5)

RIWAYAT HIDUP

Penulis dilahirkan di Bogor tanggal 21 Mei 1985, anak ke sepuluh dari sepuluh bersaudara dari pasangan Bapak Asikin Ardiwinata dan Ibu Sulastri Nilawidyanti. Tahun 2003, penulis lulus dari SMU Negeri 1 Bogor, kemudian melanjutkan pendidikan pada Diploma 3 Teknik Informatika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Pada tahun 2006 penulis melanjutkan pendidikan pada Ilmu Komputer Penyelenggaraan Khusus Institut Pertanian Bogor.

(6)

PRAKATA Bismillahirahmanirrahim,

Alhamdulillahi Rabbil ’alamin, puji dan syukur penulis panjatkan kepada Allah SWT atas limpahan rahmat dan karuniaNya sehingga penulis dapat menyelesaikan skripsi dengan judul Eksplorasi terhadap Metode Penentuan Nilai End Point pada Algoritma Voting Feature Intervals 5 ini. Shalawat serta salam juga penulis ucapkan kepada junjungan kita Rasulullah SAW beserta seluruh sahabat dan umatnya hingga akhir zaman.

Dalam penyelesaian skripsi ini, penulis dibantu oleh beberapa pihak. Oleh karena itu, penulis ingin mengucapkan terima kasih kepada pihak-pihak yang telah membantu menyelesaikan skripsi ini, antara lain :

• Kepada Bapak dan Ibu tercinta yang selalu memberikan motivasi dan doanya. Terima kasih atas semangat dan kasih sayangnya.

• Bapak Aziz Kustiyo, S.Si, M.Kom., selaku dosen pembimbing. • Bapak Dr.Ir.Agus Buono, M.Si, M.Kom, selaku dosen penguji I. • Bapak Sony Hartono Wijaya, S.Kom, M.Kom, selaku dosen penguji II. • Seluruh dosen IPB yang telah memberi banyak ilmu kepada penulis.

• Ida Maryani yang selalu memberikan perhatian dan dukungannya kepada penulis. • Seluruh staf karyawan Departemen Ilmu Komputer FMIPA IPB.

• Bapak Adianto, S.Kom, Bapak Edi, S.Kom dan Ibu Yanti, S.Kom., sebagai guru sewaktu SLTP yang telah memberikan banyak motivasi kepada penulis.

• Muhamad Haikal, Syachrudin, Lucky Irwansyah, Andriana Nurwitasari, Nurul Khaerani, Agung Manunggal, Deni Kurniawan, Dwi Agusta M, Eka Marliana, Rika Indriani, Ahmad R Holili dan seluruh teman-teman Ilkom Ekstensi Angkatan 1 yang tidak mungkin penulis sebutkan satu per satu.

Akhir kata, penulis berharap semoga skripsi ini dapat bermanfaat dan berguna bagi semua pihak yang membutuhkan, Amin.

Bogor, Mei 2009

Seta Baehera, A.Md

(7)

DAFTAR ISI

Halaman

DAFTAR TABEL ... iii

DAFTAR GAMBAR ... iv DAFTAR LAMPIRAN ... iv PENDAHULUAN Latar Belakang ... 1 Tujuan ... 1 Ruang Lingkup ... 1 TINJAUAN PUSTAKA Klasifikasi ... 1

K-Fold Cross Validation... 2

Algoritma Voting Feature Interval 5 (VFI5) ... 2

Desil ... 5

Confusion matrix ... 5

METODE PENELITIAN Data ... 5

Data Latih dan Data Uji ... 6

Algoritma VFI5 ... 6

Algoritma VFI5 metode Desil ... 6

Algoritma VFI5 metode min(n+1) max(n-1) ... 6

Jangkauan Interval ... 6

Pelatihan ... 6

Klasifikasi ... 7

Akurasi ... 7

Lingkungan Pengembangan ... 7

HASIL DAN PEMBAHASAN Data Iris ... 7

Iterasi pertama ... 7

Iterasi kedua ... 8

Iterasi ketiga ... 9

Akurasi data Iris ... 10

Data Wine ... 11

Iterasi kedua ... 12

Akurasi data Wine ... 13

Data Ikan Koi... 14

Iterasi kedua ... 15

Akurasi data Ikan Koi ... 17

KESIMPULAN DAN SARAN Kesimpulan ... 17

Saran ... 18

DAFTAR PUSTAKA ... 18

(8)

DAFTAR TABEL

Halaman

1 Confusion matrix data dengan dua kelas ... 5

2 Spesifikasi Data ... 6

3 Jumlah instance data latih dan data uji untuk data Iris iterasi pertama ... 7

4 Jumlah instance data latih dengan nilai di luar interval pada data Iris iterasi pertama ... 8

5 Jumlah instance data uji dengan nilai di luar interval pada data Iris iterasi pertama ... 8

6 Hasil tahap klasifikasi data Iris iterasi pertama ... 8

7 Jumlah instance data latih dan data uji untuk data Iris iterasi kedua ... 8

8 Jumlah instance data latih dengan nilai di luar interval pada data Iris iterasi kedua ... 9

9 Jumlah instance data uji dengan nilai di luar interval pada data Iris iterasi kedua ... 9

10 Hasil tahap klasifikasi data Iris iterasi kedua ... 9

11 Jumlah instance data latih dan data uji untuk data Iris iterasi ketiga ... 9

12 Jumlah instance data latih dengan nilai di luar interval pada data Iris iterasi ketiga ... 9

13 Jumlah instance data uji dengan nilai di luar interval pada data Iris iterasi ketiga ... 10

14 Hasil tahap klasifikasi data Iris iterasi ketiga ... 10

15 Nilai kinerja rata-rata dari ketiga metode end point untuk data Iris ... 10

16 Jumlah instance data latih dan data uji untuk data Wine iterasi pertama ... 11

17 Jumlah instance data latih dengan nilai di luar interval pada data Wine iterasi pertama ... 11

18 Jumlah instance data uji dengan nilai di luar interval pada data Wine iterasi pertama ... 11

19 Hasil tahap klasifikasi data Wine iterasi pertama ... 11

20 Jumlah instance data latih dan data uji untuk data Wine iterasi kedua ... 12

21 Jumlah instance data latih dengan nilai di luar interval pada data Wine iterasi kedua ... 12

22 Jumlah instance data uji dengan nilai di luar interval pada data Wine iterasi kedua... 12

23 Hasil tahap klasifikasi data Wine iterasi kedua ... 12

24 Jumlah instance data latih dan data uji untuk data Wine iterasi ketiga ... 13

25 Jumlah instance data latih dengan nilai di luar interval pada data Wine iterasi ketiga ... 13

26 Jumlah instance data uji dengan nilai di luar interval pada data Wine iterasi ketiga ... 13

27 Hasil tahap klasifikasi data Wine iterasi ketiga ... 13

28 Nilai kinerja rata-rata dari ketiga metode end point untuk data Wine ... 14

29 Jumlah instance data latih dan data uji untuk data Ikan Koi iterasi pertama ... 14

30 Jumlah instance data latih dengan nilai di luar interval pada data Ikan Koi iterasi pertama ... 14

31 Jumlah instance data uji dengan nilai di luar interval pada data Ikan Koi iterasi pertama ... 14

32 Hasil tahap klasifikasi data Ikan Koi iterasi pertama ... 15

33 Jumlah instance data latih dan data uji untuk data Ikan Koi iterasi kedua ... 15

34 Jumlah instance data latih dengan nilai di luar interval pada data Ikan Koi iterasi kedua ... 15

35 Jumlah instance data uji dengan nilai di luar interval pada data Ikan Koi iterasi kedua ... 15

36 Hasil tahap klasifikasi data Ikan Koi iterasi kedua ... 16

37 Jumlah instance data latih dan data uji untuk data Ikan Koi iterasi ketiga ... 16

38 Jumlah instance data latih dengan nilai di luar interval pada data Ikan Koi iterasi ketiga ... 16

39 Jumlah instance data uji dengan nilai di luar interval pada data Ikan Koi iterasi ketiga ... 16

40 Hasil tahap klasifikasi data Ikan Koi iterasi ketiga ... 16

41 Nilai kinerja rata-rata dari ketiga metode end point untuk data Ikan Koi ... 17

(9)

DAFTAR GAMBAR

Halaman

1 Algoritma pelatihan VFI5 (Demiroz 1997) ... 3

2 Algoritma klasifikasi VFI5 (Demiroz 1997) ... 4

3 Tahap penelitian ... 5

4 Diagram nilai kinerja rata-rata untuk data Iris ... 10

5 Diagram nilai kinerja terhadap nilai di luar interval pada data uji Iris ... 10

6 Diagram nilai kinerja rata-rata untuk data Wine ... 14

7 Diagram nilai kinerja terhadap nilai di luar interval pada data uji Wine ... 14

8 Diagram nilai kinerja rata-rata untuk data Ikan Koi ... 17

9 Diagram nilai kinerja terhadap nilai di luar interval pada data uji Ikan Koi ... 17

DAFTAR LAMPIRAN

Halaman 1 Jenis feature (f) pada data Iris ... 20

2 Jenis feature (f) pada data Ikan Koi ... 20

3 Nilai instance di luar interval pada data latih Iris iterasi pertama dengan metode VFI5d ... 20

4 Nilai instance di luar interval pada data latih Iris iterasi pertama dengan metode VFI5m ... 20

5 Nilai instance di luar interval pada data uji Iris iterasi pertama dengan metode VFI5 ... 21

6 Nilai instance di luar interval pada data uji Iris iterasi pertama dengan metode VFI5m ... 21

7 Nilai instance di luar interval pada data uji Iris iterasi pertama dengan metode VFI5d ... 21

8 Nilai hasil proses klasifikasi untuk iterasi pertama pada data Iris ... 22

9 Confusion matrix pada data uji Iris iterasi pertama dengan metode VFI5 ... 23

10 Confusion matrix pada data uji Iris iterasi pertama dengan metode VFI5d ... 23

11 Confusion matrix pada data uji Iris iterasi pertama dengan metode VFI5m ... 23

12 Nilai instance di luar interval pada data latih Iris iterasi kedua dengan metode VFI5d ... 23

13 Nilai instance di luar interval pada data latih Iris iterasi kedua dengan metode VFI5m ... 23

14 Nilai instance di luar interval pada data uji Iris iterasi kedua dengan metode VFI5 ... 24

15 Nilai instance di luar interval pada data uji Iris iterasi kedua dengan metode VFI5m ... 24

16 Nilai instance di luar interval pada data uji Iris iterasi kedua dengan metode VFI5d ... 24

17 Nilai hasil proses klasifikasi untuk iterasi kedua pada data Iris ... 25

18 Confusion matrix pada data uji Iris iterasi kedua dengan metode VFI5 ... 25

19 Confusion matrix pada data uji Iris iterasi kedua dengan metode VFI5d ... 25

20 Confusion matrix pada data uji Iris iterasi kedua dengan metode VFI5m ... 26

21 Nilai instance di luar interval pada data latih Iris iterasi ketiga dengan metode VFI5d ... 26

22 Nilai instance di luar interval pada data latih Iris iterasi ketiga dengan metode VFI5m ... 26

23 Nilai instance di luar interval pada data uji Iris iterasi ketiga dengan metode VFI5m ... 26

24 Nilai instance di luar interval pada data uji Iris iterasi ketiga dengan metode VFI5d ... 27

25 Nilai hasil proses klasifikasi untuk iterasi ketiga pada data Iris ... 27

26 Confusion matrix pada data uji Iris iterasi ketiga dengan metode VFI5 ... 28

27 Confusion matrix pada data uji Iris iterasi ketiga dengan metode VFI5d ... 28

28 Confusion matrix pada data uji Iris iterasi ketiga dengan metode VFI5m ... 28

29 Nilai instance di luar interval pada data latih Wine iterasi pertama dengan metode VFI5d ... 28

30 Nilai instance di luar interval pada data latih Wine iterasi pertama dengan metode VFI5m ... 29

31 Nilai instance di luar interval pada data uji Wine iterasi pertama dengan metode VFI5 ... 29

32 Nilai instance di luar interval pada data uji Wine iterasi pertama dengan metode VFI5d ... 30

33 Nilai instance di luar interval pada data uji Wine iterasi pertama dengan metode VFI5m ... 31

34 Nilai hasil proses klasifikasi untuk iterasi pertama pada data Wine ... 32

(10)

Halaman

36 Confusion matrix pada data uji Wine iterasi pertama dengan metode VFI5d ... 33

37 Confusion matrix pada data uji Wine iterasi pertama dengan metode VFI5m ... 33

38 Nilai instance di luar interval pada data latih Wine iterasi kedua dengan metode VFI5d ... 33

39 Nilai instance di luar interval pada data latih Wine iterasi kedua dengan metode VFI5m ... 34

40 Nilai instance di luar interval pada data uji Wine iterasi kedua dengan metode VFI5 ... 34

41 Nilai instance di luar interval pada data uji Wine iterasi kedua dengan metode VFI5d ... 35

42 Nilai instance di luar interval pada data uji Wine iterasi kedua dengan metode VFI5m... 36

43 Nilai hasil proses klasifikasi untuk iterasi kedua pada data Wine ... 37

44 Confusion matrix pada data uji Wine iterasi kedua dengan metode VFI5 ... 38

45 Confusion matrix pada data uji Wine iterasi kedua dengan metode VFI5d ... 38

46 Confusion matrix pada data uji Wine iterasi kedua dengan metode VFI5m ... 38

47 Nilai instance di luar interval pada data latih Wine iterasi ketiga dengan metode VFI5d ... 38

48 Nilai instance di luar interval pada data latih Wine iterasi ketiga dengan metode VFI5m ... 39

49 Nilai instance di luar interval pada data uji Wine iterasi ketiga dengan metode VFI5 ... 39

50 Nilai instance di luar interval pada data uji Wine iterasi ketiga dengan metode VFI5d ... 40

51 Nilai instance di luar interval pada data uji Wine iterasi ketiga dengan metode VFI5m ... 41

52 Nilai hasil proses klasifikasi untuk iterasi ketiga pada data Wine ... 42

53 Confusion matrix pada data uji Wine iterasi ketiga dengan metode VFI5 ... 43

54 Confusion matrix pada data uji Wine iterasi ketiga dengan metode VFI5d ... 43

55 Confusion matrix pada data uji Wine iterasi ketiga dengan metode VFI5m ... 43

56 Nilai instance di luar interval pada data latih Ikan Koi iterasi pertama dengan metode VFI5d ... 43

57 Nilai instance di luar interval pada data latih Ikan Koi iterasi pertama dengan metode VFI5m ... 44

58 Nilai instance di luar interval pada data uji Ikan Koi iterasi pertama dengan metode VFI5 ... 44

59 Nilai instance di luar interval pada data uji Ikan Koi iterasi pertama dengan metode VFI5d ... 45

60 Nilai instance di luar interval pada data uji Ikan Koi iterasi pertama dengan metode VFI5m ... 46

61 Nilai hasil proses klasifikasi untuk iterasi pertama pada data Ikan Koi ... 47

62 Confusion matrix pada data uji Ikan Koi iterasi pertama dengan metode VFI5 ... 48

63 Confusion matrix pada data uji Ikan Koi iterasi pertama dengan metode VFI5d ... 48

64 Confusion matrix pada data uji Ikan Koi iterasi pertama dengan metode VFI5m ... 48

65 Nilai instance di luar interval pada data latih Ikan Koi iterasi kedua dengan metode VFI5d ... 48

66 Nilai instance di luar interval pada data latih Ikan Koi iterasi kedua dengan metode VFI5m ... 49

67 Nilai instance di luar interval pada data uji Ikan Koi iterasi kedua dengan metode VFI5d ... 50

68 Nilai instance di luar interval pada data uji Ikan Koi iterasi kedua dengan metode VFI5m ... 51

69 Nilai hasil proses klasifikasi untuk iterasi kedua pada data Ikan Koi ... 52

70 Confusion matrix pada data uji Ikan Koi iterasi kedua dengan metode VFI5 ... 53

71 Confusion matrix pada data uji Ikan Koi iterasi kedua dengan metode VFI5d ... 53

72 Confusion matrix pada data uji Ikan Koi iterasi kedua dengan metode VFI5m... 53

73 Nilai instance di luar interval pada data latih Ikan Koi iterasi ketiga dengan metode VFI5d ... 53

74 Nilai instance di luar interval pada data latih Ikan Koi iterasi ketiga dengan metode VFI5m ... 54

75 Nilai instance di luar interval pada data uji Ikan Koi iterasi ketiga dengan metode VFI5 ... 54

76 Nilai instance di luar interval pada data uji Ikan Koi iterasi ketiga dengan metode VFI5d ... 55

77 Nilai instance di luar interval pada data uji Ikan Koi iterasi ketiga dengan metode VFI5m ... 56

78 Nilai hasil proses klasifikasi untuk iterasi ketiga pada data Ikan Koi ... 57

79 Confusion matrix pada data uji Ikan Koi iterasi ketiga dengan metode VFI5 ... 58

80 Confusion matrix pada data uji Ikan Koi iterasi ketiga dengan metode VFI5d ... 58

(11)

PENDAHULUAN

Latar Belakang

Klasifikasi merupakan salah satu bidang kajian pada machine learning. Klasifikasi adalah proses menemukan sekumpulan model atau fungsi yang menggambarkan dan membedakan konsep atau kelas-kelas data, dengan tujuan agar model tersebut dapat digunakan untuk memprediksi kelas dari suatu objek atau data yang label kelasnya tidak diketahui (Han & Kamber 2001).

Voting Feature Intervals 5 merupakan algoritma klasifikasi yang bersifat supervised dan non-incremental. Algoritma Voting Feature Intervals dikembangkan sampai pada versi ke-5 (VFI5). Representasi dari algoritma tersebut berdasarkan teknik feature interval. Feature interval adalah suatu teknik dimana kelas-kelas diproyeksikan dalam nilai interval pada masing-masing feature (atribut) dari kelas tersebut secara terpisah. Algoritma VFI5 telah diterapkan oleh Güvenir, Demiroz dan Ilter (1997) pada penelitian diagnosis penyakit Erythemato-Squamous.

Algoritma VFI5 membuat interval untuk setiap feature yang berupa range interval atau point interval. Untuk setiap interval, nilai vote untuk setiap kelas pada interval tersebut akan disimpan. Dengan demikian sebuah interval dapat merepresentasikan beberapa kelas dengan menyimpan nilai vote setiap kelas sehingga algoritma VFI5 tersebut dapat disebut sebagai Multi Class Feature Projection Based Algorithms (Demiroz 1997).

Algoritma VFI5 membangun range interval dan point interval didasarkan pada nilai minimum dan maksimum suatu feature pada setiap kelas. Algoritma VFI5 dapat diterapkan pada berbagai jenis data, antara lain data kategori, data nominal ataupun data kontinu. Pada jenis data kontinu, nilai vote yang terkandung dalam range interval hanya diwakili oleh satu nilai. Selain itu panjang interval antara range interval satu dengan yang lainnya tidak selalu sama. Kedua hal ini dapat menyebabkan perbedaan representasi kelas pada

range interval tersebut. Contohnya pada suatu himpunan data tertentu, nilai vote dalam suatu range interval yang panjang, yang tidak hanya cukup diwakili oleh satu nilai dapat merepresentasikan lebih dari satu kelas. Permasalahan ini dapat menyebabkan turunnya tingkat akurasi klasifikasi algoritma VFI5.

Untuk mengatasi permasalahan tersebut perlu dilakukan kembali penempatan point interval

maupun range interval yang lebih

merepresentasikan batas setiap kelas.

Tujuan

Tujuan dari penelitian ini adalah untuk mencari alternatif cara pengambilan nilai end point pada Algoritma Voting Feature Intervals 5. Penelitian ini dilakukan dengan cara menempatkan kembali point interval dan range interval.

Ruang Lingkup

Ruang lingkup penelitian yang dilakukan adalah sebagai berikut:

1 Penerapan Algoritma VFI5 dilakukan pada 3 data yaitu data Iris yang memiliki 3 kelas, data Wine yang memiliki 3 kelas dan data Ikan Koi (Tera 2008) yang memiliki 2 kelas. Data Ikan Koi berasal dari Departemen Perikanan IPB. Data Iris, Wine dan Glass didapatkan pada situs UCI Repository of Machine Learning Databases di ics.uci.edu. 2 Semua data yang digunakan memiliki jenis

data kontinu.

3 Setiap feature (ciri) data memiliki bobot sama.

TINJAUAN PUSTAKA

Klasifikasi

Klasifikasi merupakan proses menemukan sekumpulan model (atau fungsi) yang menggambarkan dan membedakan konsep atau kelas-kelas data, yang bertujuan agar model tersebut dapat digunakan untuk memprediksi

(12)

kelas dari suatu objek atau data yang label kelasnya tidak diketahui (Han & Kamber 2001).

Penelitian terdiri atas dua tahap, yaitu pelatihan dan klasifikasi. Pada tahap pelatihan, dibentuk sebuah model domain permasalahan dari setiap instance (data pelatihan) yang ada. Penentuan model tersebut berdasarkan analisis terhadap sekumpulan data pelatihan, yaitu data yang label kelasnya sudah diketahui. Pada tahap klasifikasi, dilakukan prediksi kelas dari instance (kasus) baru dengan menggunakan model yang telah dibuat pada tahap pelatihan (Güvenir et al. 1998).

K-Fold Cross Validation

Beberapa teknik memperkirakan generalisasi error telah dikembangkan, yaitu hold out, leave one out, cross validation, dan bootstrapping (Fu 1994). Validasi silang dan bootstrapping merupakan metode dalam memperkirakan generalisasi error berdasarkan “resampling” (Sarle 2004).

Metode k-fold cross validation membagi sebuah himpunan contoh secara acak menjadi k himpunan bagian (subset) yang saling bebas, dengan ulangan sebanyak k-kali untuk pelatihan dan pengujian. Pada setiap ulangan, disisakan satu subset untuk pengujian dan subset lainnya untuk pelatihan (Fu 1994).

Pada metode ini, data awal dibagi menjadi k subset atau “fold” yang saling bebas secara acak, yaitu S1,S2,S3,…,Sk, dengan ukuran setiap subset kira-kira sama. Pelatihan dan pengujian dilakukan sebanyak k kali. Pada iterasi ke-i subset Si diperlakukan sebagai data pengujian, dan subset lainnya diperlakukan sebagai data pelatihan. Jadi, pada iterasi pertama S2,…,Sk menjadi data pelatihan dan data S1 menjadi data pengujian. Pada iterasi kedua S1,S3,…,Sk menjadi data pelatihan dan data S2 menjadi data pengujian, dan seterusnya. Tingkat akurasi dihitung dengan cara membagi jumlah hasil klasifikasi yang benar dari k iterasi dengan jumlah semua instance pada data awal (Han & Kamber 2001).

Algoritma Voting Feature Intervals 5 (VFI5)

Voting Feature Intervals adalah salah satu algoritma yang digunakan dalam pengklasifikasian data. Algoritma tersebut dikembangkan oleh Demiroz dan Güvenir pada tahun 1997.

Algoritma Voting Feature Intervals merepresentasikan deskripsi sebuah konsep oleh sekumpulan interval nilai-nilai feature atau atribut. Demiroz dan Güvenir (1997) mengemukakan bahwa algoritma tersebut adalah algoritma yang supervised artinya memiliki target, dalam hal ini adalah kelas-kelas data dari kasus yang ada, dan bersifat non-incremental artinya semua instance pelatihan diproses secara bersamaan. Pengklasifikasian instance baru berdasarkan voting pada klasifikasi yang dibuat oleh nilai tiap-tiap feature secara terpisah.

Algoritma Voting Feature Intervals yang dikembangkan sudah sampai pada versi yang ke-5 atau sering disebut VFI5. Algoritma VFI5 memiliki dua tahap yaitu pelatihan dan klasifikasi. Pada tahap pelatihan akan dibentukinterval untuk setiap feature yang berupa range interval atau point interval. Untuk setiap interval, nilai vote untuk setiap kelas pada interval tersebut akan disimpan. Dengan demikian sebuah interval dapat merepresentasikan beberapa kelas dengan menyimpan nilai vote setiap kelas sehingga algoritma VFI5 tersebut dapat disebut sebagai Multi Class Feature Projection Based Algorithms.

Keunggulan algoritma VFI5 adalah algoritma tersebut cukup kokoh (robust) terhadap feature yang tidak relevan namun mampu memberikan hasil yang baik pada real-world datasets yang ada. VFI5 mampu menghilangkan pengaruh yang kurang menguntungkan dari feature yang tidak relevan dengan mekanisme votingnya (Güvenir 1998).

Algoritma klasifikasi VFI5 mampu melakukan klasifikasi lebih cepat dibandingkan dengan algoritma nearest neighbor dan decision tree. VFI5 mampu menangani nilai feature yang

(13)

tidak diketahui (hilang) dengan cara mengabaikan nilai feature tersebut yang ada pada data pelatihan dan data pengujian, sedangkan pada algoritma nearest neighbor dan decision tree, nilai tersebut harus diganti.

Demiroz dan Güvenir (1997) mengembangkan algoritma VFI5 menjadi dua tahap yaitu pelatihan dan klasifikasi.

1. Pelatihan

Langkah pertama pada tahap pelatihan adalah menemukan end point setiap feature f dari setiap kelas c. End point untuk feature linier, yaitu feature yang nilainya memiliki urutan atau bias dibandingkan tingkatannya, merupakan nilai minimum dan nilai maksimum feature tersebut. End point untuk feature nominal, yaitu feature yang nilainya tidak memiliki urutan dan tidak bias dibandingkan tingkatannya, merupakan semua

nilai yang berbeda yang ada pada feature kelas yang sedang diamati. Sebelum dibentuk interval, seluruh end point yang diperoleh untuk setiap feature linier diurutkan. Jika suatu feature merupakan feature linier maka akan dibentuk dua interval, yaitu point interval dan range interval. Jika feature tersebut merupakan feature nominal maka akan dibentuk point interval.

Batas bawah pada range interval (ujung paling kiri) adalah -∞ sedang batas atas range interval (ujung paling kanan) adalah ∞. Jumlah maksimum end point pada feature linier adalah 2k sedangkan jumlah maksimum intervalnya adalah 4k + 1, dengan k adalah jumlah kelas yang diamati.

Setelah itu, jumlah instance pelatihan setiap kelas c dengan feature f untuk setiap interval i dihitung dan direpresentasikan sebagai interval_class_count[f,i,c]. Untuk setiap instance train(TrainingSet):

begin

for each feature f

for each class c

EndPoints[f] = EndPoints[f] find_end_points(TrainingSet,f,c); sort(EndPoint[f]);

if f is linear

for each end point p in EndPoints[f]

form a point interval from end point p

form a range interval between p and the next end point ≠ p else /*f is nominal*/

each distinct point in EndPoint[f] forms a point interval for each interval i on feature dimension f

for each class c

interval_class_count[f,i,c] = 0

count_instances(f,TrainingSet); for each interval i on feature dimension f

for each class c

interval_class_vote[f,i,c] = _ _{_} _ , ,

normalize interval_class_vote[f,i,c]

* such that interval_class_vote[f,i,c] = I * end

(14)

pelatihan dicari interval i,yaitu nilai feature f dari instamce pelatihan e(ef) tersebut berada pada

interval i. Jika interval i merupakan point interval dan ef sama dengan batas bawah interval tersebut

(sama dengan batas atas untuk point interval), jumlah instance tersebut (ef) pada interval i

ditambah 1. Jika interval i merupakan range interval dan ef jatuh pada interval tersebut maka

jumlah kelas instance ef pada interval i ditambah

1. Hasil proses ini merupakan vote kelas c pada interval i.

Untuk menghilangkan efek perbedaan distribusi setiap kelas, vote kelas c untuk feature f pada interval i dinormalisasi dengan cara membagi vote tersebut dengan jumlah instance kelas c yang direpresentasikan dengan class_count[c]. Hasil normalisasi ini dinotasikan sebagai interval_class_vote[f,i,c]. Kemudian nilai-nilai interval_class_vote[f,i,c] dinormalisasi sehingga jumlah vote beberapa kelas pada setiap feature sama dengan 1. Normalisasi ini bertujuan agar setiap feature memiliki kekuatan voting yang sama pada proses klasifikasi yang tidak dipengaruhi oleh ukurannya.

2. Klasifikasi

Proses klasifikasi diawali dengan inisialisasi vote setiap kelas dengan nilai nol. Untuk setiap feature f, dicari letak ef pada interval i tersebut

berada, dengan ef merupakan nilai feature f dari

instance tes e. Jika ef tidak diketahui (hilang),

feature tersebut tidak diikutsertakan dalam voting (memberikan vote nol untuk setiap kelas). Oleh karena itu, feature yang memiliki nilai tidak diketahui diabaikan. Jika ef diketahui maka

interval tersebut dapat ditemukan. Interval tersebut dapat menyimpan instance pelatihan dari beberapa kelas. Kelas-kelas dalam sebuah interval direpresentasikan oleh vote kelas-kelas tersebut pada interval itu. Untuk setiap kelas c, feature f

memberikan vote yang sama dengan

interval_class_vote[f,i,c]. Notasi tersebut merepresentasikan vote feature f yang diberikan untuk kelas c.

Setiap feature f mengumpulkan vote-vote-nya dalam sebuah vektor (feature_vote[f,C1],…,

feature_vote[f,Cj],…,feature_vote[f,Ck]), dengan

feature_vote[f,Cj] merupakan vote feature f untuk

kelas Cj dan k adalah jumlah kelas. Kemudian d

vektor vote, dengan d merupakan jumlah feature, dijumlahkan untuk memperoleh total vektor vote (vote[C1],…,vote[Ck]). Kelas dengan jumlah vote

terbesar diprediksi sebagai kelas dari instance tes e. Pseudocode algoritma pelatihan dan klasifikasi VFI5 dapat dilihat pada gambar 1 dan 2.

classify(e):

/* e: example to be classified */ begin

for each class c vote[c] = 0 for each feature f

for each class c

feature_vote[f,c] = 0 /* vote of feature f for class c */ if ef value is known

i = find_interval(f,ef)

feature_vote[f,c] = interval_class_vote[f,i,c]

for each class c

vote[c] = vote[c] + ( feature_vote[f,c] * weight[f] ) feature class c with highest vote[c]

end

(15)

Desil

Persentil (percentile) ke-p (untuk nilai p antara 0 hingga 100) dari sebuah sampel adalah membagi sampel sehingga p% dari nilai sampel berada di bawah persentil ke-p dan (100-p)% di atas persentil ke-p (Navidi 2006).

Desil (Desil) merupakan variasi lain dari kuartil (quartile) ataupun persentil yang juga merupakan metode pengubahan range. Sebagai contoh, nilai desil pertama (D1) yang juga merupakan persentil ke-10 (P10) terdapat pada penelusuran sampel ke-[(n + 1)/10], nilai desil kedua (D2) atau persentil ke-20 (P20) terdapat pada penelusuran ke-[2(n + 1)/10] dan begitu seterusnya (Fleming & Nellis 1994).

Confusion Matrix

Confusion matrix mengandung informasi tentang kelas data yang aktual direpresentasikan pada baris matriks dan kelas data hasil prediksi suatu algoritma direpresentasikan pada kolom matriks klasifikasi. Kemampuan dari algoritma klasifikasi biasanya dievaluasi dari data yang ada pada matriks. Pada Tabel 1 disajikan confusion matrix untuk data dengan dua kelas (Kohavi & Provost 1998 diacu dalam Hamilton 2002). Tabel 1 Confusion matrix data dengan dua kelas.

Data _{Kelas 1}Prediksi _{Kelas 2} Aktual Kelas 1 _{Kelas 2} a _c b _d Keterangan :

• a adalah jumlah instance kelas 1 yang berhasil diprediksi dengan benar sebagai kelas 1,

• b adalah jumlah instance kelas 1 yang tidak berhasil diprediksi dengan benar karena diprediksi sebagai kelas 2,

• c adalah jumlah instance kelas 2 yang tidak berhasil diprediksi dengan benar karena diprediksi sebagai kelas 1,

• d adalah jumlah instance kelas 2 yang berhasil diprediksi dengan benar sebagai kelas 2.

METODE PENELITIAN

Penelitian ini melalui beberapa tahapan proses untuk menganalisa peningkatan kinerja algoritma VFI5. Tahapan proses tersebut disajikan pada Gambar 3.

Tahapan yang utama adalah tahapan pelatihan untuk melihat model dan domain permasalahan data dan klasifikasi untuk menduga kelas dari data pengujian.

Data

Data yang digunakan sebanyak 3 data yaitu data Iris, data Wine dan data Ikan Koi (Tera 2008) yang berasal dari Departemen Perikanan IPB. Data Iris dan Wine didapatkan dari UCI Repository of Machine Learning Databases, anonymous ftp dari www.ics.uci.edu dalam direktori pub/machine-learning-databases.

(16)

Data Iris merupakan himpunan data jenis bunga sebanyak 150 instances yang terbagi menjadi 3 kelas yaitu Iris Setosa, Iris Versicolor dan Iris Virginica (Fisher & Marshal 1988). Distribusi kelas data Iris sebesar 33,3% untuk setiap kelas artinya setiap kelas memiliki himpunan sebanyak 50 instances. Data ini terdiri dari 4 feature, antara lain: Sepal Length, Sepal Width, Petal Length dan Petal Width. Hal ini dapat dilihat pada Lampiran 1.

Data Wine merupakan data klasifikasi anggur yang berasal dari Itali (Forina & Aeberhard 1991). Data ini memiliki 3 kelas dan bersifat kontinu.

Data Ikan Koi (Tera 2008) merupakan himpunan data klasifikasi jenis kelamin ikan Koi sebanyak 119 instances yang terbagi menjadi 2 kelas yaitu jantan dan betina. Distribusi kelas data Ikan Koi sebesar 50% untuk setiap kelas. Data ini terdiri dari 13 feature, antara lain: panjang, lebar, perimeter, elongation, circularity, rectangular, area, indeks merah, indeks hijau, indeks biru, intensitas, hue dan saturation. Hal ini dapat dilihat pada Lampiran 2. Jumlah distribusi data pada keempat data tersebut dapat dilihat pada Tabel 2.

Data latih dan data uji

Pada tahapan ini dilakukan proses 3-fold cross validation yaitu membagi data menjadi 3 bagian. Pembagian data tersebut dilakukan secara acak dengan mempertahankan perbandingan jumlah instance setiap kelas. Data tersebut akan digunakan sebagai data latih dan data uji.

Algoritma VFI5

Pada penelitian ini digunakan algoritma VFI5 dengan bobot setiap feature diasumsikan sama yaitu satu. Tahapan ini terdiri atas dua proses yaitu pelatihan dan klasifikasi.

Algoritma VFI5 metode Desil

Algoritma VFI5 dengan metode Desil ini merupakan salah satu alternatif dari algoritma VFI5 biasa. Pada algoritma VFI5 biasa untuk menentukan nilai end point digunakan metode minimum dan maksimum dari suatu kelas pada setiap feature. Algoritma VFI5 metode Desil menggunakan metode Desil untuk menentukan nilai end point. Nilai Desil yang digunakan adalah nilai Desil ke-1 dan nilai Desil ke-9.

Algoritma VFI5 metode min(n+1) max(n-1)

Algoritma VFI5 dengan metode min(n+1) max(n-1) juga merupakan salah satu alternatif dari algoritma VFI5. Nilai end point yang digunakan pada algoritma ini adalah nilai minimum ke-2 terkecil dan nilai maksimum ke-2 terbesar dari setiap kelas dan setiap feature pada data latih.

Jangkauan Interval

Jangkauan interval adalah lebar interval secara keseluruhan yang merupakan selisih nilai end point terkecil dan nilai end point terbesar.

Pelatihan

Data yang telah dibagi menjadi beberapa subset pada masing-masing model akan menjadi input algoritma VFI5. Pada tahapan ini akan dibentuk interval-interval dari setiap feature yang ada. Jika feature tersebut adalah feature kontinu maka akan dibentuk dua interval yaitu point interval dan range interval. Jika feature tersebut adalah feature nominal maka akan hanya terbentuk point interval.

Setelah interval semua feature terbentuk langkah selanjutnya adalah menghitung jumlah instance setiap kelas yang jatuh pada setiap interval tersebut. Setelah dinormalisasi hasil dari Tabel 2 Spesifikasi Data.

Nama Data Feature _{Class 1} Jumlah instance _{Class 2} _{Class 3} Data Distribution (%)

Iris 4 50 50 50 33 : 33 : 33

Wine 13 59 71 48 33 : 40 : 27

(17)

jumlah instance tersebut akan menghasilkan nilai vote yang akan digunakan pada proses klasifikasi.

Klasifikasi

Pada tahap klasifikasi setiap nilai feature dari instance pengujian diperiksa dan dilihat pada interval berapa nilai tersebut jatuh. Nilai vote yang diberikan setiap kelas untuk setiap feature pada interval yang bersesuaian diambil dan kemudian dijumlahkan. Kelas dengan nilai vote tertinggi menjadi kelas prediksi dari instance pengujian tersebut.

Akurasi

Penghitungan tingkat akurasi diperoleh berdasarkan data pengujian. Tingkat akurasi diperoleh dengan rumus

tingkat_akurasi ∑ data uji benar klasifikasi ∑ total data uji

Tingkat akurasi menunjukan tingkat kebenaran pengklasifikasian data terhadap kelas yang sebenarnya. Semakin rendah nilai akurasi maka semakin tinggi kesalahan klasifikasi. Tingkat akurasi yang baik adalah tingkat akurasi yang mendekati nilai 100%.

Tingkat akurasi dihitung, baik bagi data hasil klasifikasi VFI5 murni dan data hasil klasifikasi VFI5 yang telah mengalami penyesuaian metode. Tingkat akurasi inilah yang menjadi perbandingan tingkat kinerja antara data klasifikasi VFI5 murni dan data klasifikasi VFI5 dengan penyesuaian metode.

Lingkungan Pengembangan

Penelitian ini diimplementasikan dengan menggunakan menggunakan Microsoft Visual Basic 2005 dan basisdata Microsoft Access 2007 untuk komputasi algoritma VFI5.

Perangkat keras yang digunakan adalah komputer desktop dengan spesifikasi : Intel Pentium4 2.6 GHz, RAM 2048 MB, Harddisk 370 GB dan komputer notebook dengan

spesifikasi : Intel Core2Duo 1.6 GHz, RAM 1024 MB, Harddisk 120 GB.

HASIL DAN PEMBAHASAN

Penelitian ini diterapkan pada tiga data yang berbeda, yaitu : data Iris, data Wine dan data Ikan Koi. Setiap data akan diuji dengan menggunakan 3-Fold Cross Validation, yang artinya setiap data akan mengalami 3 kali iterasi percobaan dengan berbagai kombinasi subset data latih dan subset data uji. Ketiga data tersebut akan diujikan terhadap algoritma VFI5 dengan berbagai metode pengambilan nilai end point. Algoritma VFI5 standar dengan metode end point min max akan dibandingkan dengan algoritma VFI5 dengan metode end point desil dan algoritma VFI5 dengan metode end point min(n+1) max(n-1). Untuk memudahkan penulisan, algoritma VFI5 standar dengan metode end point min max akan disebut dengan VFI5, algoritma VFI5 dengan metode end point desil akan disebut dengan VFI5d dan algoritma VFI5 dengan metode end point min(n+1) max(n-1) akan disebut dengan VFI5m.

Data Iris

Data awal sebanyak 150 instances dan terdiri dari 3 kelas, yaitu: 50 instances kelas Iris Setosa, 50 instances kelas Iris Versicolour dan 50 instances kelas Iris Virginica.

Iterasi pertama

Data latih untuk data Iris ini terdiri dari 99 instances dan data uji terdiri dari 51 instances. Pada data latih, untuk semua kelas Iris, baik Iris-Setosa, Iris-Virginica dan Iris-Versicolour berjumlah masing-masing 33 instances. Pada data uji, untuk semua kelas Iris, masing-masing berjumlah 17 instances (Tabel 3).

Tabel 3 Jumlah instances data latih dan data uji untuk data Iris iterasi pertama.

Iris-Setosa Iris-Virginica Iris-Versicolour Data Latih 33 33 33 Data Uji 17 17 17

(18)

Pada tahap pelatihan terdapat nilai-nilai dari setiap feature yang berada di luar jangkauan interval. Hal ini hanya terjadi pada VFI5d dan VFI5m. Terdapat dua macam nilai instance yang berada di luar interval, yaitu nilai instance yang memiliki nilai lebih kecil dari nilai end point terkecil (di bawah interval) dan nilai instance yang lebih besar dari nilai end point terbesar (di atas interval). Banyaknya jumlah instance dari setiap feature yang memiliki nilai di luar interval dapat dilihat pada Tabel 4.

Tabel 4 Jumlah instance data latih dengan nilai di luar interval pada data Iris iterasi pertama.

Metode di bawah interval di atas interval Total

VFI5d 13 9 22

VFI5m 8 4 12

Berdasarkan data yang tertera pada Tabel 3, terlihat bahwa VFI5d memiliki nilai di luar interval yang lebih banyak dari VFI5m. Hal ini dikarenakan jangkauan interval yang dimiliki oleh VFI5d lebih sempit dibandingkan dengan VFI5m (Lampiran 3 dan 4).

Pada tahap klasifikasi terdapat pula nilai-nilai yang berada di luar interval. Hal ini terjadi pada VFI5, VFI5d dan VFI5m. Sama halnya pada tahap pelatihan, pada tahap klasifikasi ini pun nilai instance yang berada di luar interval terbagi menjadi dua macam, yaitu nilai instance yang memiliki nilai lebih kecil daripada nilai end point terkecil (di bawah interval) dan nilai instance yang memiliki nilai lebih besar daripada nilai end point terbesar (di atas interval) (Tabel 5).

Tabel 5 Jumlah instance data uji dengan nilai di luar interval pada data Iris iterasi pertama.

VFI5 2 1 3

VFI5d 10 8 18

VFI5m 8 3 11

Data yang tertera pada Tabel 4 menunjukan bahwa VFI5 memiliki nilai di luar interval paling sedikit jika dibandingkan dengan VFI5d dan VFI5m. VFI5m memiliki nilai di luar interval lebih sedikit dibandingkan VFI5d (Lampiran 5, 6

dan 7). Hal ini mengambarkan bahwa jangkauan interval paling lebar dimiliki oleh VFI5, kemudian VFI5m dan selanjutnya VFId. Jangkauan interval tersebut dapat pula ditulis sebagai berikut VFI5 > VFI5m > VFI5d.

Tabel 6 Hasil tahap klasifikasi data Iris iterasi pertama.

VFI5 VFI5d VFI5m Tingkat akurasi 96,08% 96,08% 94,12% Instance yang benar 49 49 48 Instance yang salah 2 2 3 Total instance 51 51 51

Dapat dilihat pada Tabel 5 bahwa VFI5 maupun VFI5d memiliki tingkat akurasi yang lebih baik sebesar 96,08% dibandingkan dengan VFI5m sebesar 94,12% sehingga selisih diantaranya sebesar 1,96%. Data mengenai jumlah instance dapat dilihat pada Lampiran 8.

Hasil prediksi tahap klasifikasi memperlihatkan bahwa kesalahan yang umum terjadi pada ketiga metode tersebut adalah instance yang termasuk ke dalam kelas Iris-Virginica diprediksi sebagai kelas Iris-Versicolor ataupun sebaliknya. Data mengenai hasil prediksi dapat dilihat pada Lampiran 9, 10 dan 11.

Iterasi kedua

Pada iterasi kedua ini, data latih terdiri dari 102 instances dan data uji terdiri dari 48 instances. Pada data latih, untuk semua kelas Iris, baik Setosa, Virginica dan Iris-Versicolour berjumlah masing-masing 34 instances. Pada data uji, untuk semua kelas Iris, masing-masing berjumlah 16 instances (Tabel 7). Tabel 7 Jumlah instances data latih dan data uji

untuk data Iris iterasi kedua.

Iris-Setosa Virginica Iris- Versicolour

Iris-Data Latih 34 34 34 Data Uji 16 16 16

(19)

Banyaknya jumlah instance dari setiap feature yang memiliki nilai di luar interval pada tahap pelatihan dapat dilihat pada Tabel 8.

Tabel 8 Jumlah instance data latih dengan nilai di luar interval pada data Iris iterasi kedua.

VFId 6 11 17

VFI5m 8 6 14

VFI5d pada data Iris iterasi kedua ini menghasilkan nilai di luar interval yang lebih banyak dibandingkan dengan VFI5m (Lampiran 12 dan 13).

Banyaknya jumlah instance dari setiap feature yang memiliki nilai di luar interval pada tahap klasifikasi dapat dilihat pada Tabel 9. Tabel 9 Jumlah instance data uji dengan nilai di

luar interval pada data Iris iterasi kedua.

VFI5 1 4 5

VFI5d 3 10 13

VFI5m 2 8 10

Seperti halnya pada data uji Iris iterasi pertama, jumlah nilai di luar interval pada data Iris iterasi kedua ini pun berturut-turut dari jumlah yang paling sedikit dimiliki oleh VFI5, selanjutnya VFI5m dan diikuti oleh VFI5d sehingga jangkauan interval dari ketiga metode tersebut dapat pula ditulis sebagai berikut VFI5 > VFI5m > VFI5d (Lampiran 14, 15 dan 16). Tabel 10 Hasil tahap klasifikasi data Iris iterasi

kedua.

VFI5 VFI5d VFI5m Tingkat akurasi 93,75% 93,75% 87,50% Instance yang benar 45 45 42 Instance yang salah 3 3 6 Total instance 48 48 48

Berdasarkan data yang tertera pada Tabel 10 bahwa VFI5 dan VFI5d sama-sama memiliki

tingkat akurasi yang lebih baik sebesar 93,75% dibandingkan dengan VFI5m sebesar 87,50%. Informasi mengenai jumlah instance dapat dilihat pada Lampiran 17.

Sama seperti halnya pada data Iris iterasi pertama, hasil prediksi tahap klasifikasi pada data Iris iterasi kedua ini memperlihatkan kesalahan yang umum terjadi adalah instance yang termasuk ke dalam kelas Iris-Virginica diprediksi sebagai kelas Iris-Versicolor ataupun sebaliknya. Kesalahan paling banyak terjadi pada pengklasifikasian dengan menggunakan algoritma VFI5d. Data mengenai hasil prediksi dapat dilihat pada Lampiran 18,19 dan 20.

Iterasi ketiga

Pada iterasi ketiga, data latih dan data uji sama jumlahnya dengan iterasi kedua. Jumlah instances yang dipergunakan dalam data latih dan data uji dapat dilihat pada Tabel 11.

Tabel 11 Jumlah instances data latih dan data uji untuk data Iris iterasi ketiga.

Iris-Setosa Iris-Virginica Iris-Versicolour Data Latih 34 34 34 Data Uji 16 16 16

Banyaknya jumlah instance dari setiap feature yang memiliki nilai di luar interval pada tahap pelatihan dapat dilihat pada Tabel 12. Tabel 12 Jumlah instance data latih dengan nilai di

luar interval pada data Iris iterasi ketiga.

VFI5d 9 10 19

VFI5m 7 5 12

VFI5d menhasilkan jumlah instance dengan nilai di luar interval yang lebih banyak dibandingkan dengan VFI5m (Lampiran 21 dan 22).

Pada tahap klasifikasi, banyaknya jumlah instance dari setiap feature yang memiliki nilai di luar interval hanya terjadi pada VFI5d dan VFI5m (Tabel 13).

(20)

Tabel 13 Jumlah instance data uji dengan nilai di luar interval pada data Iris iterasi ketiga.

VFI5 0 0 0

VFId 4 3 7

VFI5m 2 1 3

Jumlah instance dengan nilai di luar interval yang dimiliki oleh VFI5d lebih banyak daripada VFI5m (Lampiran 23 dan 24). Hal ini dapat pula disimpulkan bahwa jangkauan interval VFI5m lebih besar dibandingkan dengan VFI5d (VFI5m > VFI5d)

Tabel 14 Hasil tahap klasifikasi data Iris iterasi ketiga.

VFI5 VFI5d VFI5m Tingkat akurasi 97,92% 97,92% 100,00% Instance yang benar 47 47 48 Instance yang salah 1 1 0 Total Instance 48 48 48

Berdasarkan Tabel 14, nilai kinerja VFI5m sebesar 100% dapat mengungguli VFI5 maupun VFI5d. VFI5 dan VFI5d sama-sama menghasilkan nilai kinerja sebesar 97,92% sehingga selisih diantaranya sebesar 2,08%. Data mengenai jumlah instance dapat dilihat pada Lampiran 25.

Kesalahan hasil prediksi pada data Iris iterasi ketiga ini hanya terjadi pada algoritma VFI5 dan VFI5d. Kesalahan yang terjadi adalah instance yang termasuk ke dalam kelas Iris-Versicolor diprediksi sebagai kelas Iris-Virginica. Pada algoritma VFI5m semua instance berhasil diprediksi secara benar. Data mengenai hasil prediksi dapat dilihat pada Lampiran 26, 27 dan 28.

Akurasi data Iris

Berdasarkan hasil yang didapatkan dari ketiga iterasi akan didapatkan nilai kinerja rata-rata ketiga metode end point tersebut (Tabel 15). Tabel 15 Nilai kinerja rata-rata dari ketiga metode

end point untuk data Iris.

Metode Iterasi1 Iterasi2 Iterasi3 Rata-rata VFI5 96,08% 93,75% 97,92% 95,92% VFI5d 96,08% 93,75% 97,92% 95,92% VFI5m 94,12% 87,50% 100,00% 93,87%

VFI5 dan VFI5d menghasilkan tingkat kinerja yang sama, yaitu sebesar 95,92%. VFI5m menghasilkan kinerja yang berada sedikit dibawahnya, yaitu sebesar 93,87%. Jumlah instance di luar interval untuk iterasi ketiga jauh lebih sedikit dibandingkan iterasi pertama dan kedua sehingga mungkin hal ini mengakibatkan nilai kinerja yang lebih baik (Gambar 4).

Gambar 4 Diagram nilai kinerja rata-rata untuk data Iris

Nilai di luar interval pada data uji Iris yang dipetakan terhadap nilai kinerja ketiga metode tersebut akan memperlihatkan kecenderungan jumlah nilai di luar interval dari setiap metode VFI5. Pada Gambar 5 terlihat bahwa pola interval yang dimiliki oleh VFI5 lebih sedikit memiliki nilai di luar interval dibandingkan dengan VFI5d dan VFI5m. 0.00% 20.00% 40.00% 60.00% 80.00% 100.00% 1 2 3 VFI5 VFI5d VFI5m

(21)

Gambar 5 Diagram nilai kinerja terhadap nilai di luar interval pada data uji Iris

Data Wine

Data awal sebanyak 178 instances dan terdiri dari 3 kelas, yaitu: 59 instances kelas 1, 71 instances kelas 2 dan 48 instances kelas 3.

Iterasi pertama

Data latih pada data Wine terdiri dari 119 instances dan data uji terdiri dari 59 instances. Pada data latih, untuk kelas 1 terdiri dari 39 instance, kelas 2 terdiri dari 48 instance dan kelas 3 terdiri dari 32 instances. Pada data uji, untuk kelas 1 berjumlah 20 instance, kelas 2 berjumlah 23 instance dan kelas 3 berjumlah 16 instance (Tabel 16).

Tabel 16 Jumlah instances data latih dan data uji untuk data Wine iterasi pertama.

Kelas 1 Kelas 2 Kelas 3 Data Latih 39 48 32

Data Uji 20 23 16

Sama halnya tahap pelatihan pada data Iris, tahap pelatihan pada data Wine ini pun memiliki nilai instance yang berada di luar interval. Banyaknya jumlah instance yang memiliki nilai di luar interval dari setiap feature dapat dilihat pada Tabel 17.

Tabel 17 Jumlah instance data latih dengan nilai di luar interval pada data Wine iterasi pertama.

VFI5d 43 62 105

VFI5m 13 20 33

VFI5d memiliki nilai di luar interval yang lebih banyak dibandingkan dengan VFI5m. VFI5d memiliki 105 nilai instance yang berada di luar interval, sedangkan VFI5m memiliki 33 nilai instance (Lampiran 29 dan 30).

Seperti halnya tahap klasifikasi pada data Iris, tahap klasifikasi pada data Wine ini pun memiliki nilai instance yang berada di luar interval (Tabel 18).

Tabel 18 Jumlah instance data uji dengan nilai di luar interval pada data Wine iterasi pertama.

VFI5 15 6 21

VFI5d 43 45 88

VFI5m 22 25 47

Berdasarkan Tabel 18, terlihat bahwa nilai di luar interval yang dimiliki oleh VFI5d berjumlah paling banyak dibandingkan dengan VFI5 dan VFI5m (Lampiran 31, 32 dan 33). VFI5m memiliki jumlah lebih banyak dibandingkan VFI5 sehingga jangkauan interval yang dimiliki oleh VFI5 lebih besar dibandingkan VFI5d dan VFI5m (VFI5 > VFI5m > VFI5d).

Tabel 19 Hasil tahap klasifikasi data Wine iterasi pertama.

VFI5 VFI5d VFI5m Tingkat akurasi 94,92% 84,75% 93,22% Instance yang benar 56 50 55 Instance yang salah 3 9 4 Total instance 59 59 59

Tingkat kinerja VFI5 memiliki nilai yang lebih baik dibandingkan dengan VFI5d maupun VFI5m, yaitu sebesar 94,92%. VFI5d menghasilkan nilai akurasi 84,75% dan VFI5m menghasilkan nilai kinerja sebesar 93,22% (Tabel 19). Banyaknya jumlah instance dapat dilihat pada Lampiran 34. 80 85 90 95 100 0 2 4 6 8 10 12 14 16 18 20 Aku rasi (%) Nilai di luar interval (instance) VFI5 VFI5d VFI5m

(22)

Kesalahan prediksi pada data Wine iterasi pertama ini umumnya terjadi pada instance yang termasuk ke dalam kelas 2 yang dikenali sebagai kelas 1 ataupun kelas 3. Hal ini terjadi pada kesemua algoritma.

Khususnya pada algoritma VFI5d, kesalahan hasil prediksi pun terjadi pada instance yang termasuk kedalam kelas 3 yang dikenali sebagai kelas 2. Data mengenai hasil prediksi dapat dilihat pada Lampiran 35, 36 dan 37.

Iterasi kedua

Data latih terdiri dari 119 instances dan data uji terdiri dari 59 instances. Pada data latih, untuk kelas 1 terdiri dari 39 instance, kelas 2 terdiri dari 48 instance dan kelas 3 terdiri dari 32 instances. Pada data uji, untuk kelas 1 berjumlah 20 instance, kelas 2 berjumlah 23 instance dan kelas 3 berjumlah 16 instance (Tabel 20).

Tabel 20 Jumlah instances data latih dan data uji untuk data Wine iterasi kedua.

Kelas 1 Kelas 2 Kelas 3 Data Latih 39 48 32 Data Uji 20 23 16

Banyaknya jumlah instance yang memiliki nilai di luar interval dari setiap feature dapat dilihat pada Tabel 21.

Tabel 21 Jumlah instance data latih dengan nilai di luar interval pada data Wine iterasi kedua.

VFI5d 50 62 112

VFI5m 17 17 34

VFI5m memiliki nilai di luar interval yang jauh lebih sedikit bila dibandingkan dengan VFI5d. VFI5m memiliki jumlah instance sebanyak 34, sedangkan VFI5d memiliki 112 instance (Lampiran 38 dan 39).

Jumlah instance yang memiliki nilai di luar interval pada tahap klasifikasi dapat dilihat pada Tabel 22.

Tabel 22 Jumlah instance data uji dengan nilai di luar interval pada data Wine iterasi kedua.

VFI5 8 5 13

VFI5d 23 36 59

VFI5m 21 11 32

Seperti halnya pada iterasi kedua VFI5 memiliki jumlah instance dengan nilai di luar interval yang jauh lebih sedikit dibandingkan dengan VFI5d maupun VFI5m (Lampiran 40, 41 dan 42). Maka jangkauan interval yang dimiliki VFI5 lebih besar dibandingkan VFI5d dan VFI5m (VFI5 > VFI5m > VFI5d).

Tabel 23 Hasil tahap klasifikasi data Wine iterasi kedua.

Kinerja yang dihasilkan oleh VFI5d dengan nilai 94,92% mampu mengungguli VFI5 yang memiliki nilai 93,22%. VFI5m dengan nilai 88,14% masih belum mampu mendekati kinerja kedua algoritma VFI5 dengan metode yang berbeda. Banyaknya jumlah instance dapat dilihat pada Lampiran 43.

Hasil prediksi tahap klasifikasi pada data Wine iterasi kedua ini memiliki kesalahan yang cukup beragam. Instance yang termasuk ke dalam kelas 1 dikenali sebagai kelas 2, instance yang termasuk ke dalam kelas 2 dikenali sebagai kelas 1 atau kelas 3 serta instance yang termasuk kelas 3 dikenali sebagai kelas 2. Hal ini terjadi pada algoritma VFI5 dan algoritma VFI5m.

Pada algoritma VFI5d kesalahan hasil prediksi hanya terjadi pada instance yang

(23)

termasuk ke dalam kelas 1 dan kelas 3, instance yang termasuk ke dalam kelas 2 seluruhnya berhasil diprediksi secara benar. Instance yang termasuk ke dalam kelas 1 salah diprediksi menjadi kelas 2 dan instance yang termasuk ke dalam kelas 3 salah diprediksi menjadi kelas 2 (Lampiran 44, 45 dan 46).

Iterasi ketiga

Data latih terdiri dari 118 instances dan data uji terdiri dari 60 instances. Pada data latih, untuk kelas 1 terdiri dari 40 instance, kelas 2 terdiri dari 46 instance dan kelas 3 terdiri dari 32 instances. Pada data uji, untuk kelas 1 berjumlah 19 instance, kelas 2 berjumlah 25 instance dan kelas 3 berjumlah 16 instance (Tabel 24).

Tabel 24 Jumlah instances data latih dan data uji untuk data Wine iterasi ketiga.

Kelas 1 Kelas 2 Kelas 3 Data Latih 40 46 32 Data Uji 19 25 16

Tabel 25 Jumlah instance data latih dengan nilai di luar interval pada data Wine iterasi ketiga.

VFI5d 53 58 111

VFI5m 15 20 35

VFI5m memiliki nilai di luar interval yang jauh lebih sedikit, yaitu 35 instance bila dibandingkan dengan VFI5d yang memiliki instance sebanyak 111 (Lampiran 47 dan 48).

Tabel 26 Jumlah instance data uji dengan nilai di luar interval pada data Wine iterasi ketiga.

VFI5 8 8 16

VFI5d 29 29 58

VFI5m 9 15 24

Berdasarkan Tabel 26, berturut-turut mulai dari jumlah instance yang paling sedikit dimiliki oleh VFI5, kemudian VFI5m selanjutnya VFI5d (Lampiran 49, 50 dan 51). Maka jangkauan interval yang paling besar dimiliki oleh VFI5 (VFI5 > VFI5m > VFI5d).

Tabel 27 Hasil tahap klasifikasi data Wine iterasi ketiga.

Dapat dilihat pada Tabel 27, nilai kinerja VFI5m sebesar 96,67% mengungguli VFI5 dan VFI5d. VFI5 dan VFI5d menghasilkan nilai kinerja sama, yaitu sebesar 95% sehingga selisih kinerja mencapai 1,67%. Jumlah instance dapat dilihat pada Lampiran 52.

Kesalahan hasil prediksi pada algoritma VFI5d dan algoritma VFI5m terjadi pada instance yang termasuk ke dalam kelas 2 yang dikenali sebagai kelas 1. Pada algoritma VFI5, kesalahan terjadi pada instance yang termasuk ke dalam kelas 1 dikenali sebagai kelas 3 dan instance yang teramsuk ke dalam kelas 3 dikenali sebagai kelas 2 (Lampiran 53, 54 dan 55).

Akurasi data Wine

Berdasarkan hasil yang didapatkan dari ketiga iterasi akan didapatkan nilai kinerja rata-rata ketiga metode end point tersebut (Tabel 28).

(24)

Tabel 28 Nilai kinerja rata-rata dari ketiga metode end point untuk data Wine.

Metode Iterasi1 Iterasi2 Iterasi3 Rata-rata VFI5 94,92% 93,22% 95,00% 94,38% VFI5d 84,75% 94,92% 95,00% 91,55% VFI5m 93,22% 88,14% 96,67% 92,67%

VFI5 menghasilkan tingkat kinerja sebesar 94,38%. VFI5d menghasilkan nilai kinerja yang terkecil yaitu sebesar 91,55%. VFI5m menghasilkan kinerja yang berada sedikit dibawah VFI5, yaitu sebesar 92,67% (Gambar 6).

Gambar 6 Diagram nilai kinerja rata-rata untuk data Wine

Nilai di luar interval pada data uji Wine yang dipetakan terhadap nilai kinerja ketiga metode tersebut akan memperlihatkan kecenderungan jumlah nilai di luar interval dari setiap metode VFI5. Pada Gambar 7 terlihat bahwa pola interval yang dimiliki oleh VFI5 lebih sedikit memiliki nilai di luar interval dibandingkan dengan VFI5d dan VFI5m.

Gambar 7 Diagram nilai kinerja terhadap nilai di luar interval pada data uji Wine

Data Ikan Koi

Data awal sebanyak 119 instances dan terdiri dari 2 kelas, yaitu: 59 instances kelas ikan betina dan 60 instances kelas ikan jantan.

Iterasi pertama

Data latih untuk data Ikan Koi ini terdiri dari 79 instances dan data uji terdiri dari 40 instances. Pada data latih, untuk kelas ikan betina terdiri dari 39 instance dan kelas ikan jantan terdiri dari 40 instance. Pada data uji, untuk kelas ikan betina berjumlah 20 instance dan kelas ikan jantan berjumlah 20 instance (Tabel 29).

Tabel 29 Jumlah instances data latih dan data uji untuk data Ikan Koi iterasi pertama.

Kelas ikan betina Kelas ikan jantan Data Latih 39 40 Data Uji 20 20

Tabel 30 Jumlah instance data latih dengan nilai di luar interval pada data Ikan Koi iterasi pertama.

VFI5d 39 33 72

VFI5m 23 60 83

VFI5m memiliki nilai di luar interval yang sedikit lebih banyak, yaitu 83 instance bila dibandingkan dengan VFI5d yang memiliki instance sebanyak 72 (Lampiran 56 dan 57).

Tabel 31 Jumlah instance data uji dengan nilai di luar interval pada data Ikan Koi iterasi pertama.

VFI5 3 7 10 VFI5d 30 26 56 VFI5m 27 44 71 0.00% 20.00% 40.00% 60.00% 80.00% 100.00% 1 2 3 VFI5 VFI5d VFI5m 80 85 90 95 100 0 20 40 60 80 100 Aku rasi (%) Nilai di luar interval (instance) VFI5 VFI5d VFI5m

(25)

VFI5 memiliki jumlah instance dengan nilai di luar interval yang jauh lebih sedikit dibandingkan dengan VFI5d maupun VFI5m (Lampiran 58, 59 dan 60). Jumlah instance bagi VFI5d masih lebih sedikit bila dibandingkan dengan VFI5m sehingga jangkauan interval secara berturut-turut adalah VFI5 > VFI5d >VFI5m.

Tabel 32 Hasil tahap klasifikasi data Ikan Koi iterasi pertama.

Pada iterasi pertama ini nilai kinerja diantara ketiga metode ini bervariasi. VFI5 menghasilkan nilai kinerja sebesar 92,5%, VFI5d menghasilkan nilai kinerja yang lebih baik, yaitu sebesar 95%, sedangkan VFI5m menghasilkan nilai kinerja yang terkecil diantara ketiganya yaitu sebesar 82,50%. Jumlah instance dapat dilihat pada Lampiran 61.

Pada algoritma VFI5d dan algoritma VFI5m, kesalahan hasil prediksi terjadi pada instance yang termasuk ke dalam kelas jantan yang dikenali sebagai kelas betina ataupun sebaliknya, sedangkan pada algoritma VFI5 hanya terjadi pada instance yang termasuk ke dalam kelas betina yang dikenali sebagai kelas jantan (Lampiran 62, 63 dan 64).

Iterasi kedua

Data latih terdiri dari 79 instances dan data uji terdiri dari 40 instances. Pada data latih, untuk kelas ikan betina terdiri dari 39 instance dan kelas ikan jantan terdiri dari 40 instance. Pada data uji, untuk kelas ikan betina berjumlah 20 instance dan

kelas ikan jantan berjumlah 20 instance (Tabel 33).

Tabel 33 Jumlah instances data latih dan data uji untuk data Ikan Koi iterasi kedua.

Tabel 34 Jumlah instance data latih dengan nilai di luar interval pada data Ikan Koi iterasi kedua.

VFI5d 38 30 68

VFI5m 30 43 73

Tabel 35 Jumlah instance data uji dengan nilai di luar interval pada data Ikan Koi iterasi kedua.

VFI5 0 0 0

VFI5d 23 11 34

VFI5m 13 27 40

VFI5 tidak memiliki instance dengan nilai di luar interval. Jumlah instance bagi VFI5d masih lebih sedikit bila dibandingkan dengan VFI5m sehingga jangkauan interval secara berturut-turut adalah VFI5 > VFI5d >VFI5m (Lampiran 67 dan 68).

(26)

Tabel 36 Hasil tahap klasifikasi data Ikan Koi iterasi kedua.

Pada data Ikan Koi iterasi kedua ini VFI5 dan VFI5d menghasilkan nilai kinerja yang sama, yaitu sebesar 97,5%, sedangkan VFI5m menghasilkan nilai kinerja yang lebih buruk, yaitu sebesar 92,5%. Jumlah instance dapat dilihat pada Lampiran 69.

Pada algoritma VFI5, kesalahan hasil prediksi terjadi pada instance yang termasuk ke dalam kelas jantan yang dikenali sebagai kelas betina, sedangkan pada algoritma VFI5d terjadi sebaliknya, instance yang termasuk ke dalam kelas betina salah diprediksi menjadi kelas jantan. Kedua macam kesalahan prediksi hasil tersebut muncul pada algoritma VFI5m (Lampiran 70, 71 dan 72).

Iterasi ketiga

Data latih terdiri dari 80 instances dan data uji terdiri dari 39 instances. Pada data latih, untuk kelas ikan betina terdiri dari 40 instance dan kelas ikan jantan terdiri dari 40 instance. Pada data uji, untuk kelas ikan betina berjumlah 19 instance dan kelas ikan jantan berjumlah 20 instance (Tabel 37).

Tabel 37 Jumlah instances data latih dan data uji untuk data Ikan Koi iterasi ketiga.

Tabel 38 Jumlah instance data latih dengan nilai di luar interval pada data Ikan Koi iterasi ketiga.

VFI5d 42 36 78

VFI5m 41 55 96

Tabel 39 Jumlah instance data uji dengan nilai di luar interval pada data Ikan Koi iterasi kedua.

VFI5 12 16 28

VFI5d 16 23 39

VFI5m 14 29 43

VFI5 memiliki instance dengan nilai di luar interval sebesar 28 instance. Jumlah instance bagi VFI5d masih lebih sedikit bila dibandingkan dengan VFI5m sehingga jangkauan interval secara berturut-turut adalah VFI5 > VFI5d >VFI5m (Lampiran 75, 76 dan 77).

Tabel 40 Hasil tahap klasifikasi data Ikan Koi iterasi ketiga.

Berdasarkan Tabel 39, nilai kinerja yang dihasilkan oleh VFI5 dan VFI5d sama, yaitu sebesar 94,87%, sedangkan VFI5m menghasilkan nilai yang lebih baik yaitu 100%. Banyaknya jumlah instance dapat dilihat pada Lampiran 78.