Analisis pertama dilakukan terhadap data pengenalan anggur. Gambar 4 sampai 9 memvisualisasikan plot pencar dari beberapa pasang peubah pada data pengenalan anggur, diambil beberapa pasang peubah karena dimensi data yang cukup besar.
Pada gambar di atas dapat dilihat bahwa plot pencar beberapa peubah dari data asal yang berisi baik kelompok 1, 2, dan 3 bercampur membentuk satu gerombol yang tidak dapat dipisahkan dan bentuk yang taklinear. Hal ini tidak Gambar 4 Alkohol dengan Asam Malat Gambar 5 Alkohol dengan Proanthosianin
Gambar 6 Alkali pada Abu dengan
Magnesium Gambar 7 Abu dengan Flavonoid
Gambar 8 Magnesium dengan OD Gambar 9 Total Fenol dengan Intensitas Warna
15
No Peubah Minimum Rata-rata Maksimum SB
1 Alkohol (Al) 11.030 13.004 14.830 0.809
2 Asam malat (AM) 0.740 2.342 5.800 1.119
3 Abu (Ab) 1.360 2.366 3.230 0.274
4 Alkali pada abu (AA) 10.000 19.439 30.000 3.414
5 Magnesium (Mg) 70.000 99.714 162.000 14.279
6 Total fenol (Tf) 0.130 2.289 3.880 0.642
7 Flavonoid (FI) 0.090 2.024 5.080 1.007
8 Fenol yang bukan 0.130 0.363 0.660 0.124
flavonoid (FF)
9 Proanthosianin (Pa) 0.410 1.591 3.580 0.572
10 Intensitas warna (IW) 1.280 5.058 13.000 2.318
11 Warna (Wa) 0.480 0.958 1.710 0.229
12 Anggur yang diencerkan pada
OD280/OD315 (OD)
1.270 2.612 4.000 0.710
13 Prolina (Pr) 278.000 746.893 1680.000 314.908
Tabel 3 Matriks kovarians data pengenalan anggur
No Peubah Al AM Ab AA Mg TF Fl FF Pa IW Wa OD Pr 1 Al 0.656 2 AM 0.089 1.252 3 Ab 0.047 0.052 0.075 4 AA -0.852 1.052 0.406 11.657 5 Mg 3.180 -0.780 1.104 -5.209 203.900 6 TF 0.141 -0.246 0.023 -0.655 2.003 0.412 7 Fl 0.198 -0.455 0.029 -1.107 2.628 0.554 1.013 8 FF -0.015 0.040 0.006 0.141 -0.453 -0.036 -0.065 0.015 9 Pa 0.062 -0.143 0.001 -0.370 1.941 0.222 0.374 -0.026 0.328 10 IW 1.022 0.645 0.164 -0.095 6.675 -0.090 -0.385 0.037 -0.034 5.374 11 Wa -0.012 -0.143 -0.005 -0.189 0.176 0.063 0.124 -0.007 0.039 -0.276 0.052 12 OD 0.041 -0.287 0.001 -0.600 0.665 0.317 0.560 -0.044 0.211 -0.706 0.092 0.504 13 Pr 163.394 -64.452 19.193 -468.616 1775.845 99.648 156.148 -12.044 59.554 230.767 16.999 69.923 99166.717
cukup baik bila digunakan dalam menganalisis struktur pada data. Oleh karena itu, data distandardisasi kemudian dianalisis menggunakan AKU dan AKUK yang diharapkan dapat digunakan untuk menyelesaikan permasalahan ini sehingga menghasilkan salah klasifikasi yang lebih kecil.
Berikut ini merupakan tabel deskripsi data pengenalan anggur secara ringkas. Tabel ini menggambarkan nilai maksimum, nilai minimum, rata-rata dan simpangan baku (SB) dari masing-masing peubah. Nilai rata-rata dan simpangan baku setiap peubah digunakan untuk standardisasi data.
Tabel 2 Deskripsi data pengenalan anggur
Pada karya ilmiah ini, pengklasifikasian data dilakukan pada data asal, data asal yang distandardisasi, analisis data menggunakan AKU dan AKUK dengan fungsi kernel Gauss. AKU dan AKUK dilakukan dengan menggunakan data yang telah distandardisasi karena terdapat varians peubah yang cukup besar dari peubah lainnya yang dapat menyebabkan peubah yang memiliki varians besar tersebut akan dominan dalam menentukan komponen utamanya. Tabel 3 dan Tabel 4 menjelaskan matriks kovarians dan matriks korelasi dari data pengenalan anggur.
16
Tabel 4 Matriks korelasi data pengenalan anggur
No Peubah Al AM Ab AA Mg TF Fl FF Pa IW Wa OD Pr 1 Al 1.000 2 AM 0.098 1.000 3 Ab 0.214 0.169 1.000 4 AA -0.308 0.275 0.433 1.000 5 Mg 0.275 -0.049 0.282 -0.107 1.000 6 TF 0.271 -0.342 0.128 -0.299 0.218 1.000 7 Fl 0.243 -0.404 0.106 -0.322 0.183 0.858 1.000 8 FF -0.153 0.291 0.190 0.332 -0.255 -0.447 -0.520 1.000 9 Pa 0.133 -0.223 0.008 -0.189 0.237 0.605 0.648 -0.359 1.000 10 IW 0.544 0.249 0.258 -0.012 0.202 -0.061 -0.165 0.130 -0.025 1.000 11 Wa -0.064 -0.558 -0.075 -0.242 0.054 0.430 0.539 -0.255 0.296 -0.522 1.000 12 OD 0.071 -0.361 0.003 -0.248 0.066 0.695 0.784 -0.498 0.519 -0.429 0.565 1.000 13 Pr 0.641 -0.183 0.222 -0.436 0.395 0.493 0.493 -0.308 0.330 0.316 0.236 0.313 1.000
Analisis data menggunakan AKU cukup baik memisahkan antarkelompok dengan menggunakan dua komponen utama pertama walaupun masih ada objek antarkelompok yang bercampur dan masih sedikit menunjukkan bentuk yang taklinear. Plot pencar dua komponen utama akan diberikan pada Gambar 10. Bila dilihat dari visualisasi dua komponen utama pertama dengan parameter tertentu, AKUK lebih baik dalam memisahkan objek dibandingkan dengan plot pencar beberapa pasang peubah dan visualisasi dua komponen utama AKU. Pada dasarnya belum ada ketentuan nilai parameter untuk setiap fungsi kernel, oleh karena pada karya ilmiah ini pemilihan parameter pada AKUK dilakukan dengan cara mencoba-coba dengan nilai yang berbeda-beda dan dipilih parameter dengan salah klasifikasi yang kecil. Dalam karya ilmiah ini menggunakan peranti lunak MATLAB untuk mendapatkan dua komponen utama dari AKUK dengan fungsi kernel Gauss. Pada data pengenalan anggur ini, fungsi kernel Gauss digunakan dengan parameter � =
, , … , . Gambar 11 sampai 27 memvisualisasikan plot pencar dua komponen utama pertama dari masing-masing parameter .
Gambar 10 Plot pencar dua komponen utama AKU
Gambar 11 AKUK fungsi Gauss dengan parameter � = 1
17
Gambar 12 AKUK fungsi Gauss dengan parameter � = 2
Gambar 13 AKUK fungsi Gauss dengan parameter � = 3
Gambar 15 AKUK fungsi Gauss dengan parameter � = 5
Gambar 14 AKUK fungsi Gauss dengan parameter �= 4
Gambar 16 AKUK fungsi Gauss dengan parameter � = 6
Gambar 17 AKUK fungsi Gauss dengan parameter � = 7
Gambar 18 AKUK fungsi Gauss dengan parameter �= 8
Gambar 19 AKUK fungsi Gauss dengan parameter �= 9
18
Gambar 20 AKUK fungsi Gauss dengan parameter �= 10
Gambar 21 AKUK fungsi Gauss dengan parameter �= 11
Gambar 22 AKUK fungsi Gauss dengan parameter �= 12
Gambar 23 AKUK fungsi Gauss dengan parameter �= 13
Gambar 24 AKUK fungsi Gauss dengan parameter �= 14
Gambar 25 AKUK fungsi Gauss dengan parameter �= 15
Gambar 26 AKUK fungsi Gauss dengan parameter �= 16
Gambar 27 AKUK fungsi Gauss dengan parameter �= 17
19 Terlihat dari gambar di atas, AKU dan AKUK dapat memisahkan antarkelompok dengan baik dibandingkan dengan plot pencar antarpeubah. Meskipun AKUK lebih baik dalam menyelesaikan permasalahan data yang tak terpisah dan taklinear, tetapi gambar di atas menunjukkan masih ada objek yang bercampur ke kelompok lain. Selanjutnya akan dibahas pengklasifikasian kelompok pada data asal dan data asal yang distandardisasi dengan jarak Euclid dan jarak Mahalanobis, serta pengklasifikasian kelompok menggunakan AKU dan AKUK. Tabel 5 akan menjelaskan jumlah salah klasifikasi (nSK) untuk pengklasifikasian data asal, data asal yang distandardisasi, dan analisis menggunakan AKU. Sedangkan Tabel 6 menjelaskan jumlah salah klasifikasi (nSK) menggunakan AKU Kernel dengan fungsi Gauss.
Hasil salah klasifikasi (SK) dari data asal dan data yang distandardisasi terlihat bahwa pengklasifikasian kelompok pada data yang distandardisasi memberikan salah klasifikasi yang lebih baik meskipun perbedaannya tidak terlalu banyak, yaitu 2.25% untuk jarak Euclid dan 30.34% untuk jarak Mahalanobis, dibandingkan dengan pengklasifikasian kelompok pada data asal dengan salah klasifikasi sebesar 27.53% untuk jarak Euclid dan 38.76% untuk jarak Mahalanobis. Kemudian jika dibandingkan pengklasifikasian data dengan jarak Euclid dan jarak Mahalanobis, maka berdasarkan hasil yang telah diperoleh, jarak Mahalanobis memberikan salah klasifikasi yang lebih besar dibandingkan dengan jarak Euclid. Karena pada dasarnya jarak Mahalanobis mempertimbangkan korelasi antarpeubah. Jadi mungkin saja untuk masalah ini dengan data pengenalan anggur jarak Mahalanobis memberikan salah klasifikasi yang lebih besar daripada jarak Euclid.
Tabel 5 Hasil salah klasifikasi (SK) data asal, data terstandardisasi, dan hasil AKU pada data pengenalan anggur
Data asal Data terstandardisasi AKU
Jarak Euclid
Jarak
Mahalanobis Jarak Euclid
Jarak
Mahalanobis Jarak Euclid
� K 49 69 4 54 5
SK 27.53% 38.76% 2.25% 30.34% 2.81%
Tabel 6 Hasil salah klasifikasi (SK) fungsi Gauss pada data pengenalan anggur
� 1 2 3 4 5 6 7 8 9 � K 68 15 12 8 5 4 4 4 4 SK 38.20% 8.43% 6.74% 4.49% 2.28% 2.25% 2.25% 2.25% 2.25% � 10 11 12 13 14 15 16 17 � K 3 3 2 3 3 4 4 4 SK 1.69% 1.69% 1.12% 1.69% 1.69% 2.25% 2.25% 2.25%
20
AKU memberikan salah klasifikasi yang cukup kecil dibandingkan dengan pengklasifikasian kelompok pada data asal dan data yang distandardisasi, yaitu sebesar 2.81%. Meskipun hasil salah klasifikasi pada data yang distandardisasi dengan jarak Euclid lebih kecil sedikit dibanding AKU, yaitu sebesar 2.25%, tetapi AKU cukup memberikan hasil yang baik untuk data pengenalan anggur ini. Begitupun dengan AKUK, AKUK dapat memisahkan antarkelompok dengan salah klasifikasi yang lebih kecil dibandingkan dengan pengklasifikasian pada data asal, data terstandardisasi, dan analisis menggunakan AKU. Pada AKUK, parameter �
= 12 memperoleh SK yang minimum di antara parameter yang lain, yaitu sebesar 1.12%. AKUK dengan fungsi kernel Gauss memberikan hasil pemisahan antarkelompok yang lebih baik dibandingkan plot pencar antarpeubah dan plot dua komponen utama AKU.
Analisis kedua dilakukan pada data pengenalan breast tissue. Gambar di bawah ini merupakan plot pencar dari beberapa pasang peubah data pengenalan breast tissue.
Gambar 33 PA500 dengan HFS Gambar 32 PA500 dengan A/DA
Gambar 28 HFS dengan DA Gambar 29 A/DA dengan MAX IP
21
Tabel 8 Matriks kovarians data pengenalan breast tissue
No Peubah I0 PA500 HFS DA AREA A/DA MAX IP DR P
1 I0 210023.3 2 PA500 -15.823 0.006 3 HFS -18.249 0.005 0.010 4 DA 64369.44 -1.752 -2.515 26124.35 5 AREA 864377 124.053 58.511 436345 14306500 6 A/DA 55.401 0.787 0.519 387.248 38982.57 189.325 7 MAX IP 8653.924 0.500 0.157 3150.782 89546.27 263.443 853.350 8 DR 64710.86 -1.927 -2.707 26523.35 432905 332.103 3010.129 27023.13 9 P 169045.5 -10.051 -12.145 50073.36 824864.9 896.519 8020.407 49914.18 143323
Plot pencar di atas merupakan plot pencar beberapa pasang peubah dari data asal. Terlihat dari Gambar 28 sampai 33 hubungan antarpeubah tak terpisahkan untuk setiap kelompok. Hal ini juga tidak cukup baik untuk menganalisis struktur data dan sulit untuk pengklasifikasian objek ke suatu kelompok. Sama halnya dengan data pengenalan anggur, AKU dan AKUK dengan fungsi kernel Gauss diharapkan dapat menyelesaikan permasalahan ini. Berikut ini merupakan tabel deskripsi data pengenalan breast tissue secara ringkas. Tabel 7 ini juga menggambarkan nilai maksimum, nilai minimum, rata-rata dan simpangan baku (SB) dari masing-masing peubah. Nilai rata-rata dan simpangan baku setiap peubah digunakan untuk standardisasi data.
Tabel 7 Deskripsi data pengenalan breast tissue
Pada Tabel 7 terlihat bahwa ada beberapa peubah yang memiliki simpangan baku (SB) yang jauh lebih besar dibandingkan dengan peubah lainnya. Oleh karena itu, data asal harus distandardisasi. Tabel 8 dan Tabel 9 menjelaskan matriks kovarians dan matriks korelasi.
No Peubah Minimum Rata-rata Maksimum SB
1 I0 103.000 570.039 1724.090 458.283 2 PA500 0.026 0.146 0.358 0.076 3 HFS -0.021 0.120 0.468 0.102 4 DA 20.588 182.963 640.276 161.630 5 AREA 78.258 3947.376 11888.390 3782.393 6 A/DA 1.596 19.499 44.895 13.760 7 MAX IP 18.226 54.866 143.092 29.212 8 DR 5.721 169.901 632.165 164.387 9 P 124.979 572.027 1524.609 378.580
22
Tabel 9 Matriks korelasi data pengenalan breast tissue
No Peubah I0 PA500 HFS DA AREA A/DA MAX IP DR P
1 I0 1.000 2 PA500 -0.456 1.000 3 HFS -0.391 0.632 1.000 4 DA 0.869 -0.143 -0.153 1.000 5 AREA 0.499 0.433 0.152 0.714 1.000 6 A/DA 0.009 0.755 0.369 0.174 0.749 1.000 7 MAX IP 0.646 0.226 0.0528 0.667 0.810 0.655 1.000 8 DR 0.859 -0.155 -0.162 0.998 0.696 0.147 0.627 1.000 9 P 0.974 -0.350 -0.315 0.818 0.576 0.172 0.725 0.802 1.000
Analisis data menggunakan AKU pada data pengenalan breast tissue ini juga cukup baik memisahkan antarkelompok dengan menggunakan dua komponen utama walaupun masih ada objek antarkelompok yang bercampur. Plot pencar dua komponen utama akan diberikan pada Gambar 34. Pada AKUK dengan fungsi kernel Gauss parameter yang digunakan, yaitu � = , , … , . Gambar 35 sampai 46 memvisualisasikan plot pencar dua komponen utama dari masing-masing parameter.
Gambar 34 Plot pencar dua komponen utama AKU
Gambar 35 AKUK fungsi Gauss dengan parameter �=
Gambar 36 AKUK fungsi Gauss dengan parameter �=
Gambar 37 AKUK fungsi Gauss dengan parameter �=
23
Gambar 38 AKUK fungsi Gauss dengan parameter �=
Gambar 39 AKUK fungsi Gauss dengan parameter � =
Gambar 40 AKUK fungsi Gauss dengan
parameter � = Gambar 41 AKUK fungsi Gauss dengan parameter �=
Gambar 42 AKUK fungsi Gauss dengan parameter � =
Gambar 43 AKUK fungsi Gauss dengan parameter � =
Gambar 44 AKUK fungsi Gauss dengan
24
Terlihat dari gambar di atas, AKU dan AKUK mampu memisahkan antarkelompok dengan baik dibandingkan dengan plot pencar antarpeubah. Selanjutnya akan dibahas pengklasifikasian kelompok pada data asal dan data asal yang distandardisasi dengan jarak Euclid dan jarak Mahalanobis, serta pengklasifikasian kelompok menggunakan AKU dan AKUK. Tabel 10 akan menjelaskan jumlah salah klasifikasi (nSK) untuk pengklasifikasian data asal, data asal yang distandardisasi, dan analisis menggunakan AKU. Sedangkan Tabel 11 menjelaskan jumlah salah klasifikasi (nSK) menggunakan AKU Kernel dengan fungsi Gauss.
Tabel 10 Hasil salah klasifikasi (SK) data asal, data terstandardisasi, dan hasil AKU pada data pengenalan breast tissue
Data asal Data terstandardisasi AKU
Jarak Euclid Jarak
Mahalanobis Jarak Euclid
Jarak
Mahalanobis Jarak Euclid
� K 16 16 7 16 7
SK 31.37% 31.37% 13.73% 31.37% 13.73%
Tabel 11 Hasil salah klasifikasi (SK) fungsi Gauss pada data pengenalan breast tissue
� 1 2 3 4 5 6 7 8 9 � K 23 8 4 2 3 4 6 7 7 SK 45.10% 15.69% 7.84% 3.92% 5.88% 7.84% 11.76% 13.72% 13.72% � 10 11 12 � K 8 8 8 SK 15.69% 15.69% 15.69%
Gambar 46 AKUK Fungsi Gauss dengan parameter � =
25 Hasil salah klasifikasi (SK) dari data asal dan data yang distandardisasi terlihat bahwa pengklasifikasian kelompok pada data yang distandardisasi dengan jarak Euclid memberikan salah klasifikasi yang lebih sedikit, yaitu 13.73%, dibandingkan dengan pengklasifikasian kelompok dengan jarak Euclid pada data asal dengan salah klasifikasi sebesar 31.37%. Sedangkan pengklasifikasian dengan jarak Mahalanobis untuk data asal dan data yang distandardisasi memberikan hasil yang sama, yaitu sebesar 31.37%. Kemudian jika dibandingkan pengklasifikasian data dengan jarak Euclid dan jarak Mahalanobis, maka berdasarkan hasil yang telah diperoleh, jarak Mahalanobis memberikan salah klasifikasi yang sama dengan jarak Euclid pada data asal dan memberikan salah klasifikasi yang tidak lebih baik dibanding jarak Euclid pada data yang distandardisasi. Salah klasifikasi jarak Mahalanobis pada data yang distandardisasi yaitu 31.37%, sedangkan jarak Euclid memberikan salah klasifikasi sebesar 13.73%. Sehingga untuk kasus data pengenalan breast tissue ini jarak Mahalanobis yang mempertimbangkan korelasi pada peubah asal memberikan hasil salah klasifikasi yang sama atau lebih besar dibandingkan dengan jarak Euclid.
AKU memberikan salah klasifikasi yang cukup kecil dibandingkan dengan pengklasifikasian kelompok dengan jarak Euclid pada data asal dan salah klasifikasi yang sama pada data yang distandardisasi dengan jarak Euclid, yaitu 13.73%. Meskipun hasil salah klasifikasi pada AKU sama dengan data yang distandardisasi dengan jarak Euclid, tetapi visualisasi dua komponen utama AKU cukup memberikan hasil yang baik dibandingkan data terstandardisasi untuk data pengenalan breast tissue ini. Begitupun dengan AKUK, AKUK dapat memisahkan antarkelompok dengan salah klasifikasi yang lebih kecil dibandingkan dengan pengklasifikasian pada data asal, data terstandardisasi, dan analisis menggunakan AKU. Pada AKUK, parameter �= 4 memperoleh SK yang minimum di antara parameter yang lain, yaitu sebesar 3.92%. Sama seperti data pengenalan anggur, AKUK dengan fungsi kernel Gauss pada data pengenalan breast tissue ini juga memberikan hasil pemisahan antarkelompok yang lebih baik dibandingkan plot pencar beberapa pasang peubah dan plot pencar dua komponen utama AKU.
26
KESIMPULAN
Hasil salah klasifikasi pada data asal dan data asal yang distandardisasi dengan jarak Mahalanobis memberikan salah klasifikasi yang tidak lebih baik dibandingkan dengan jarak Euclid. Tetapi, hal ini bukan berarti jarak Mahalanobis lebih buruk daripada jarak Euclid. Hasil yang diperoleh dengan menggunakan kedua jarak ini bergantung pada data yang digunakan dan dalam konteks apa kedua jarak ini digunakan.
Analisis data menggunakan AKU dan AKUK mampu memberikan solusi untuk data dengan banyak peubah yang takterpisah dan taklinear. Berdasarkan hasil yang diperoleh pada kasus data yang digunakan dalam karya ilmiah ini, terlihat pada plot pencar dua komponen utama, AKUK dengan parameter tertentu memberikan hasil yang lebih baik daripada AKU. Pengklasifikasian data dengan menggunakan AKUK pada data pengenalan anggur dan breast tissue memberikan hasil salah klasifikasi yang lebih baik dibandingkan dengan hasil salah klasifikasi menggunakan AKU, pengklasifikasian langsung pada data asal dan data asal yang distandardisasi. Pada data pengenalan anggur, AKUK dengan fungsi Gauss pada
� = memberikan salah klasifikasi yang minimum, yaitu sebesar 1.12%. Sedangkan pada data pengenalan breast tissue, parameter yang menghasilkan salah klasifikasi dengan AKUK fungsi Gauss yang minimum, yaitu � = dengan salah klasifikasi sebesar 3.92%.
27