Jarak Euclid dan Jarak Mahalanobis
Misalkan matriks �×�= [� , � , … , ��] merupakan matriks data amatan n objek dari p peubah acak dengan matriks kovarians �. Jarak Euclid antara dua objek
� , � dari matriks �×� adalah �� � , � = √(� − � � − � . Sedangkan jarak Mahalanobis antara dua objek � , � dari matriks �×� adalah �� � , � = √(� − � �− � − � . Jarak Mahalanobis merupakan jarak Euclid yang diboboti oleh invers dari matriks kovarians (Rencher 2002).
Misalkan adalah rata-rata objek kelompok ke-k dan � adalah matriks kovarians kelompok ke-k. Jarak Euclid antara objek � dengan rataan setiap kelompok adalah �� � , = √ � − � − . Sedangkan jarak Mahalanobis antara objek � dengan rataan setiap kelompok adalah
�� � , = √ � − �− � − (Wölfel dan Ekenel 2005).
Analisis Komponen Utama
AKU merupakan teknik statistika tertua yang dikembangkan untuk mereduksi dimensi data. AKU tidak hanya memungkinkan untuk reduksi data saja, tetapi hasil yang diperoleh dari AKU juga dapat digunakan untuk menyelesaikan teknik-teknik lain dalam metode statistika peubah ganda, misalnya Analisis Varians dan Analisis Regresi (Raykov dan Marcoulides 2008). AKU pertama kali dikenalkan oleh Karl Pearson pada awal tahun 1900-an kemudian oleh Hotelling pada tahun 1933 dan Rao tahun 1964. Dalam AKU, data berdimensi besar dengan p peubah yang saling berkorelasi ditransformasikan menjadi data baru dengan sejumlah peubah yang lebih sedikit dan tidak saling berkorelasi yang disebut dengan komponen utama (Timm 2002).
Misalkan diberikan vektor peubah acak × �= [X1,X2,. . . , Xp] dengan rata-rata � dan matriks kovarians � yang memunyai pangkat �i� �, . Tujuan dasar AKU yaitu membentuk sejumlah peubah baru yang disebut komponen utama atau varians utama. Komponen utama ini merupakan kombinasi linear dari peubah-peubah vektor X yang tidak berkorelasi dan memiliki varians terbesar (Timm 2002). Meskipun dibutuhkan p komponen untuk menunjukkan keseluruhan variasi data, seringkali variasi ini dapat diwakili oleh k komponen utama, dengan (Jollife 2002). Misalkan matriks kovarians � memunyai nilai eigen � >
�+ = = � = . Kombinasi linear dari vektor X merupakan kombinasi linear yang memiliki varians terbesar pertama, dengan merupakan vektor eigen yang bersesuaian dengan dan vektor konstanta � , � , … , � �, sehingga kombinasi linearnya adalah
3 Selanjutnya, adalah kombinasi linear kedua yang tidak berkorelasi dengan kombinasi linear pertama yang memiliki varians terbesar, dan seterusnya, sehingga kombinasi linear ke-k yaitu memiliki varians terbesar ke-k yang tidake-k berke-korelasi dengan , , . . . , − . Kombinasi linear ke-k,
merupakan komponen utama ke-k.
Matriks kovarians � dari matriks X yang berelemen � merupakan varians elemen ke-j saat i=j, sedangkan saat i ≠ disebut dengan kovarians elemen ke-i dan elemen ke-j. Untuk kasus yang lebih realistis, jika � tidak diketahui, maka
� digantikan dengan matriks kovarians contoh S. Untuk menentukan komponen utama, lihat kombinasi linear dan merupakan vektor eigen yang memaksimumkan var[ ] = � i.
Berikut akan ditunjukkan bahwa var[ ] = � i. Misalkan nilai harapan X adalah E[X] maka kovarians dari X adalah
cov[X] = E [(X – E [X]) − �[ ] ]
sehingga var[ ] adalah sebagai berikut
var[ ] = �[ − �[ ] − �[ ] ]
= �[ − �[ ] − �[ ] ]
= cov[ ] = � .
Skor komponen utama pertama merupakan kombinasi linear dan merupakan vektor eigen yang memaksimumkan var[ ] sehi�gga var[ ] =
� . Var[ ] = � akan maksimum ketika diberikan kendala = . Kondisi ketika = diperlukan untuk memastikan keunikan komponen utamanya (Timm 2002). Kendala = berarti bahwa jumlah kuadrat elemen sama dengan satu. Untuk memaksimumkan var[ ] = � dengan kendala
= dapat diselesaikan menggunakan persamaan Lagrange berikut
max ℒ , = � − � − ,
dengan merupakan pengganda Lagrange. Turunan pertama persamaan pengganda Lagrange ℒ , terhadap dilakukan untuk menemukan titik kritis. Turunan pertamanya diberikan sebagai berikut
�ℒ
� = � − =
⇔ � − = ⇔ (� − � = ,
sehingga dan adalah nilai eigen dan vektor eigen yang bersesuaian dengan nilai eigen dari matriks kovarians � dengan � merupakan matriks identitas berukuran p × p. Untuk menentukan p vektor eigen yang membuat kombinasi linear pertama memiliki varians yang maksimum, maka bobot yang harus dimaksimumkan adalah
� = = = ,
akibatnya merupakan nilai eigen terbesar pertama untuk dapat memaksimumkan var[ ]. Dengan demikian, merupakan vektor eigen yang berpadanan dengan nilai eigen terbesar pertama dari matriks kovarians �.
Selanjutnya untuk menentukan komponen utama kedua, yaitu kombinasi linear . Maksimumkan var[ ] = � dengan kendala yang sama dengan
4
komponen utama pertama, yaitu = dan cov( , = atau dengan kata lain tidak ada korelasi antara dan . Cov( , menyatakan kovarians antara peubah acak a dan peubah acak b. Sehingga diperoleh
cov[ , ] = � = � = = = (1) karena haruslah cov( , = dan pasti nilai eigen ≠ , maka = 0,
= , � = , atau � = dapat digunakan untuk spesifikasi bahwa tidak ada korelasi antara dan .
Persamaan Lagrange digunakan kembali untuk memaksimumkan � .
Fungsi Lagrange untuk memaksimumkan � adalah sebagai berikut max ℒ∗ , , � = � − − − � − , dengan dan � adalah konstanta pengganda Lagrange. Turunan pertama terhadap
dilakukan untuk mencari titik kritis sehingga diperoleh
��ℒ∗ = � − − � = . (2) Persamaan (2) dikalikan dengan di sebelah kiri, maka persamaan menjadi
� − − � = . (3) Persamaan (1) membuat = 0, � = , dan karena terdapat kendala
= maka pada persamaan (3) haruslah nilai � = . Oleh karena itu, persamaan (2) dapat dituliskan sebagai berikut
� − =
atau ekuivalen dengan
(� − � = .
Persamaan di atas merupakan persamaan eigen untuk matriks kovarians �
dengan dan berturut-turut adalah nilai eigen dan vektor eigen yang bersesuaian dengan . Untuk menentukan p vektor eigen yang membuat kombinasi linear memiliki varians yang maksimum, maka bobot yang harus dimaksimumkan adalah
� = = = .
Asumsikan bahwa � tidak memiliki nilai eigen yang berulang, sehingga ≠
. Jika hal itu terjadi, maka = , hal ini melanggar kendala yang dihasilkan oleh persamaan (1), yaitu = .
Berdasarkan penjelasan di atas, dapat ditunjukkan komponen utama ketiga, keempat, hingga ke-p, dengan vektor koefisien , , … , � merupakan vektor eigen yang berpadanan dengan nilai eigen , , … , �, ketiga dan keempat terbesar, ... , dan terkecil, berturut-turut. Secara umum dapat disimpulkan bahwa komponen utama ke-k dari X adalah kombinasi linear dan
var[ ] = untuk k = 1, 2, 3, ... , p,
dengan adalah nilai eigen terbesar ke-k dan adalah vektor eigen yang berpadanan dengan dari matriks kovarians � (Jolliffe 2002).
Dalam beberapa kasus, ditemukan perbedaan satuan pengukuran pada masing-masing peubah yang diamati dan terdapat pula perbedaan varians yang cukup besar pada beberapa peubah. Hal ini dapat memicu peubah yang memiliki varians lebih besar dibanding peubah lain menjadi peubah yang dominan dalam menentukan komponen utama. Untuk mengatasi hal tersebut, dilakukan pembakuan peubah sehingga data yang digunakan adalah data yang telah dibakukan atau yang
5 bersesuaian dengan matriks korelasi � dari matriks data yang telah dibakukan. Apabila peubah telah dibakukan sebagai berikut
= � −�[ ] √� ,
= � −�[ ] √� ,
� =(��−�[ ]
√��� ,
dengan ��� merupakan ragam peubah ke-p, maka komponen utama dari = [ , , … , �] adalah kombinasi linear dari p peubah baku
i = � + � + + �� � dengan = , , … , .
Dalam kasus ini , , , , … , ( �, � adalah pasangan nilai eigen dan vektor eigen untuk matriks korelasi � = �− ⁄ ��− ⁄ , dengan �− ⁄ = diag √σ ,√σ , … ,√σpp dan � > �+ = = � = .
Apabila matriks kovarians populasi � dan matriks korelasi dari populasi �
tidak diketahui, maka keduanya dapat diduga dengan matriks kovarians contoh = � −
⁄ dan matriks korelasi contoh = − ⁄ − ⁄ dengan − ⁄ = diag (√s ,√s , … ,√s��) yang berukuran × dengan s�� adalah ragam contoh peubah p. Matriks X yang digunakan dalam kasus ini merupakan matriks data yang sudah terkoreksi nilai tengahnya.
Proporsi varians yang dijelaskan oleh komponen utama pertama adalah = �
� +� + …+ ��× %.
Secara umum proporsi varians yang dijelaskan oleh k komponen utama pertama adalah
= � +� + …+�
� +� + …+ ��× %, dengan k (Raykov dan Marcoulides 2008).
Formulasi primal dari permasalahan nilai eigen dapat dianalisis menggunakan matriks varians dan kovarians S = ���
�− = �− ∑�= � � yang berukuran × . Jika memiliki pangkat r min(n, p), ini akan menghasilkan sebanyak r nilai eigen taknol dan memiliki vektor eigen yang ortogonal dari permasalahan nilai eigen sebagai berikut
�
�− = ,
dengan merupakan nilai eigen dan merupakan vektor eigen yang berpadanan dengan . Formulasi primal baik digunakan ketika ukuran matriks � . Selain formulasi primal, permasalahan nilai eigen juga dapat diselesaikan dengan formulasi dualnya. Formulasi dual baik digunakan ketika � . Formulasi dual dapat dianalisis menggunakan / � − dengan ukuran matriks � × �.
Formulasi dual dari permasalahan nilai eigen adalah �
�− = ,
Jika persamaan di atas dikalikan dengan di sisi kiri, maka persamaan di atas menjadi
6
⇔ �−� = , (4) dengan proporsional dengan , atau dapat dilambangkan dengan ∝ . Kemudian persamaan (4) dikalikan dengan dari sisi kiri, sehingga persamaan (4) menjadi
�
�− = .
Untuk menunjukkan bahwa ∝ yang merupakan vektor eigen dari matriks S dengan nilai eigen . Dalam hal ini, formulasi primal dan formulasi dual dari permasalahan nilai eigen, nilai eigen taknol yang diperoleh untuk kedua formulasi tersebut adalah sama dan diasumsikan (1= ∝ = � −
) = 1) sehingga diperoleh
= √ �− � .
Jika memunyai pangkat �i� �, , � �− dan
�
�− memunyai r nilai eigen taknol dan vektor eigennya saling berelasi yaitu = ⁄√ � −
dan = ⁄√ � − (Nielsen dan Canty 2008).
Analisis Komponen Utama Kernel
AKU sebagai teknik statistika linear, tidak dapat mendeskripsikan dengan akurat untuk semua jenis struktur suatu data, khususnya pada struktur data yang taklinear. Analisis Komponen Utama Kernel (AKUK) dapat digunakan untuk mengatasi kelemahan AKU tersebut atau dengan kata lain AKUK dapat menunjukkan bentuk taklinear dari AKU. AKUK memetakan data dari ruang asal ke ruang fitur melalui transformasi taklinearnya. Bukannya mereduksi dimensi data secara langsung di ruang asal, AKUK bekerja di dimensi yang lebih tinggi di ruang fitur dengan membentuk hasil kali dalam yang berasal dari transformasi fungsi Φ
(Shen 2007). Gambar 1 mengilustrasikan transformasi dari data taklinear di ruang asal menjadi data linear di ruang fitur.
Gambar 1 Ide dasar AKUK (Sugiyama 2013)
Kernel merupakan suatu fungsi yang didefinisikan sebagai hasil kali dalam vektor-vektor hasil pemetaan data taklinear secara implisit pada ruang fitur. Secara matematis fungsi kernel merupakan fungsi k yang untuk setiap x, z ϵ� memenuhi
�, � = Φ x ,Φ z . (Shen 2007)
7 Kemudian akan diformulasikan metode kernel. Misalkan ruang Hilbert ℋ
merupakan ruang fitur, pemetaan data taklinear dari ruang asal ke ruang fitur ℋ
(Schölkopf dan Smola 2002), yaitu
Φ: � → ℋ � → Φ x ϵ ℋ.
Fungsi kernel memetakan data yang taklinear dari ruang asal ke ruang fitur yang berdimensi tinggi. Gambar 2 menjelaskan transformasi dari data takterpisah dan taklinear di ruang asal � menjadi data linear terpisah di ruang fitur ℋ.
Gambar 2 Ide utama metode kernel: pemetaan data asal ke ruang fitur Misalkan diberikan ilustrasi pemetaan ke ruang fitur sebagai berikut
Φ ∶ � = � , � → Φ � = (� , � , √ � � , √ � , √ � , ′.
Pemetaan Φ mengambil data dari ruang asal berdimensi dua kemudian memetakannya ke ruang fitur berdimensi enam. Misalkan diberikan dua titik �i=
� , � ′ dan �j= � , � ′, maka hasil kali dalam dari pemetaan pada ruang fitur adalah sebagai berikut
(� , � = Φ � , Φ(�
= (� , � , √ � � , √ � , √ � , (� , � , √ � � , √ � , √ � , = � � + � � + � � � � + � � + � � + = ( + � � + � �
= ( + � ′� .
sehingga fungsi kernel (� , � adalah
(� , � = ( + � ′� .
Hasil pemetaan fungsi kernel di atas merupakan sebuah fungsi kernel polinom pangkat dua dengan ℋ sebagai ruang fitur yang bersesuaian. Ini artinya dapat menghitung hasil kali dalam antara proyeksi dari dua titik ke dalam ruang fitur tanpa mengevaluasi ruang fitur � secara eksplisit.
Secara umum pemetaan data ke ruang fitur dengan menggunakan fungsi kernel polinom �, �∗ = � �∗+ � dengan vektor 2 dimensi � = [� � ] dan
�∗ = [� ∗ � ∗]. Diperoleh sebagai berikut
�, �∗ = � �∗+ � = � � ∗+ � � ∗+ � = � � ∗ + � � ∗ + � + � � ∗� � ∗+ � � ∗� + � � ∗� = [� √ �� √ �� � � √ � � ] × [� √ �� ∗ √ �� ∗ � ∗ � ∗ √ � ∗� ∗ ] � ℋ Φ
8
= � � � �∗ .
Terlihat bahwa secara umum fungsi kernel polinom di atas memetakan vektor dua dimensi ke vektor enam dimensi (Nielsen dan Canty 2008). Fungsi kernel polinom merupakan fungsi kernel yang dapat diketahui pemetaannya di ruang fitur, sedangkan untuk fungsi kernel yang lain, sulit untuk mengetahui bagaimana bentuk pemetaannya di ruang fitur. Oleh karena itu, dalam metode kernel terdapat ‘kernel trick’, yaitu suatu cara yang memberikan kemudahan karena hanya dengan mengetahui fungsi kernel yang digunakan tanpa harus mengetahui bentuk pemetaannya di ruang fitur.
Berikut merupakan fungsi kernel populer yang sering digunakan: 1. Polinom: (� , � = � � + �
2. Eksponensial: (� , � = exp(−β‖� − � ‖
3. Gauss: (� , � = exp − ‖� −� ‖σ
4. Eksponensial berpangkat: (� , � =exp (− ‖� −� ‖σ
β
)
5. Sigmoid: (� , � = ta�h β� � ,
dengan σ, β merupakan parameter dan , adalah bilangan bulat (Liu et al. 2005). Misalkan diberikan sebuah kernel dan suatu matriks data = [� , � , … , ��] dengan � = (� , � , … , �� , yang dapat membentuk matriks Gram (G), yang berisi evaluasi dari fungsi kernel pada semua pasang titik data. Matriks Gram G didefinisikan sebagai matriks berukuran � × � yang berelemen
� . Sehingga digunakan fungsi kernel k untuk mengevaluasi hasil kali dalam pada ruang fitur dengan pemetaan fitur Φ, dihubungkan dengan matriks Gram G yang berelemen
� = Φ � , Φ(� = (� , � .
Dalam kasus ini matriks G disebut juga sebagai matriks kernel K. Lambang standar untuk menggambarkan matriks kernel K adalah sebagai berikut
=
� , �
� , � � , �� , � � , �� , ���
��, � ��, � ⋱ ��, �� ).
Pemetaan X oleh fungsi Φ mungkin taklinear dan tidak dapat dijelaskan secara eksplisit, sehingga fungsi Φ memetakan X yang terdiri atas n objek dan p peubah menjadi Φ yang berisi n objek dan q peubah dengan menghasilkan matriks data seperti berikut:
Φ = [ � � � � � �� ] .
Data dalam ruang fitur diasumsikan memunyai rata-rata nol. Di dalam dimensi yang lebih tinggi di ruang fitur matriks kovariansnya adalah =
9
Φ Φ � −⁄ = ⁄ � − ∑�= � � � � dan untuk AKU di ruang fitur, formulasi primal dari permasalahan nilai eigen adalah sebagai berikut:
Φ�Φ
�− = ,
dengan simbol dan digunakan kembali sebagai nilai eigen dan vektor eigen secara berturut-turut dalam ruang fitur ℋ. Sedangkan untuk formulasi dual dari permasalahan nilai eigennya adalah
ΦΦ�
�− = ,
dan menggunakan kembali simbol dan sebagai nilai eigen dan vektor eigen secara berturut-turut. Kemudian nilai eigen taknol yang diperoleh dari formulasi primal dan dual memberikan nilai yang sama dan vektor eigen dari kedua formulasi tersebut dapat dihubungkan oleh = √ �− � Φ dan =√ �− � Φ . Formulasi dual ΦΦ diketahui bersesuaian dengan matriks Gram dan memiliki ukuran yang sama atau matriks kernel yang berisi elemen dari fungsi kernel.
Untuk nilai eigen taknol dan vektor eigen yang bersesuaian pada formulasi dual, produk hasil kali dalam � � �(� dalam ΦΦ diganti dengan sebuah fungsi kernel (� , � = yang berasal dari beberapa pemetaan Φ yang tidak ditentukan, sehingga diperoleh
= � − , (5) dengan = ΦΦ merupakan matriks berukuran � × � dengan elemen-elemen
(� , � . Untuk memastikan bahwa fungsi (� , � valid di beberapa ruang fitur, maka perlu diketahui bahwa fungsi kernel harus simetrik, memenuhi ketaksamaan Cauchy-Schwarz, dan semi-definit positif.
1. Fungsi kernel harus simetrik
(� , � = Φ � , Φ(� = Φ(� , Φ � = (� , � .
2. Memenuhi ketaksamaan Cauchy-Schwarz �, � = Φ � , Φ �
‖Φ � ‖ ‖Φ � ‖
= Φ � , Φ � Φ � , Φ � = �, � �, � .
Permasalahan nilai eigen pada persamaan (5), pada umumnya diformulasikan tanpa faktor � − sehingga menjadi = , akibatnya dapat memberikan semua solusi dari vektor eigen dan � − dari nilai eigen. Sehingga dalam kasus ini = Φ /√ dan = Φ /√ .
Skor komponen utama pada AKUK juga diperoleh dari permasalahan nilai eigen, proyeksikan pemetaan x atas vektor eigen primal sebagai berikut
� � = � � Φ /√
= � � [� � � � … � �� ] /√
= [� � � � � � � � … � � � �� ] /√
= [ �, � �, � … �, �� ] /√ . (Nielsen dan Canty 2008) Pada kenyataannya tidak dapat diasumsikan bahwa data pada ruang fitur memiliki rataan nol atau sudah terkoreksi terhadap nilai tengah. Oleh karena itu agar matriks Gram K terkoreksi terhadap nilai tengah gunakan ∗ = dengan
10
H = � −� � , � = � � , � adalah matriks identitas berukuran � × �, dan � vektor satu yang berukuran n (Shen 2007).
Fungsi Kernel Gauss
Fungsi kernel Gauss yang bergantung pada jarak � dan � (Genton 2001), yaitu (� , � = exp − ‖� −� ‖� . Visualisasi fungsi Gauss untuk beberapa nilai parameter � akan diberikan pada gambar di bawah ini.
Gambar 3 Fungsi kernel Gauss untuk nilai parameter � = , , , dan
Fungsi Gauss mewakili fungsi isotropik lainnya dengan grafik fungsi yang ujung-ujung sumbunya relatif landai. Dapat dilihat pada Gambar 3 bahwa semakin besar nilai parameter yang digunakan, grafik fungsi kernel Gauss akan semakin membesar. Kemudian, pemilihan parameter � pada fungsi kernel didasarkan dengan mencoba-coba beberapa nilai yang berbeda dan dipilih parameter dengan hasil yang lebih baik. Karena pada dasarnya belum ada ketentuan nilai parameter untuk setiap fungsi kernel.
Studi Lain
Ustaza (2014) telah melakukan pengklasifikasian data populasi tanaman iris dan data pengenalan anggur. Pengklasifikasian data tersebut dilakukan menggunakan AKUK dengan fungsi linear dan Gauss. Parameter fungsi kernel Gauss yang digunakan untuk data pengenalan anggur, yaitu � = , . , . , … , . Sedangkan untuk data tanaman iris, yaitu � = . √ . Untuk data pengenalan anggur, fungsi kernel Gauss memberikan salah klasifikasi yang paling kecil pada
� = . dengan salah klasifikasi sebesar 17.42%. Karena pada penelitiannya didapatkan hasil salah klasifikasi yang masih cukup besar, oleh karena itu penelitian ini dilanjutkan oleh Kharismahadi (2014).
Keterangan
� = � = � = � =
11 Kharismahadi (2014) melakukan analisis dan pengklasifikasian pada data yang sama, yaitu data pengenalan anggur dengan menggunakan AKUK dengan fungsi kernel linear dan isotropik. Fungsi kernel isotropik yang digunakan adalah fungsi kernel Gauss dan Gelombang. Fungsi kernel linear memberikan salah klasifikasi sebesar 6.74%. Untuk fungsi kernel Gauss, parameter yang digunakan adalah � = , , , … , . Salah klasifikasi paling kecil pada AKUK dengan fungsi kernel Gauss diberikan oleh parameter � = dengan salah klasifikasi sebesar 2.25%. Sedangkan untuk fungsi kernel Gelombang parameter yang digunakan adalah � = , , , … , dan parameter yang memberikan salah klasifikasi paling kecil, yaitu � = dengan salah klasifikasi sebesar 7.30%.
Data pengenalan anggur yang digunakan oleh Ustaza (2014) dan Kharismahadi (2014) terdapat perbedaan dengan data aslinya. Perbedaan data pengenalan anggur ini terletak pada objek ke-17 peubah kadar asam malat dan objek ke-128 peubah kadar fenol yang bukan flavonoid.
METODE PENELITIAN
Sumber Data
Data yang digunakan dalam penulisan karya ilmiah ini merupakan data sekunder yang diunduh melalui internet, yaitu data pengenalan anggur (Forina 1991) dan data pengenalan breast tissue (Marques 2010). Data pengenalan anggur adalah hasil analisis kimia terhadap anggur yang tumbuh di daerah yang sama di Italia dan berasal dari tiga budidaya/kultivar (kelompok) yang berbeda. Matriks data pengenalan anggur terdiri atas 178 objek dan 13 peubah, yaitu kadar alkohol, kadar asam malat, banyaknya abu, banyaknya alkali pada abu, kadar magnesium, kadar fenol, kadar flavonoid, kadar fenol yang bukan flavonoid, kadar proanthosianin, dan kadar prolina, intensitas warna dan warna berdasarkan tingkat kecerahannya, dan anggur yang diencerkan pada OD280/OD315 berdasarkan nilai serapannya. Sejumlah 178 objek tersebut terbagi ke dalam 3 kelompok anggur di mana setiap kelompok terdiri atas 59, 71, dan 48 objek untuk kelompok budidaya 1, 2, dan 3 secara berturut-turut.
Data pengenalan breast tissue adalah data hasil pengukuran impedansi listrik pada sampel yang dipotong dari jaringan dada. Matriks data terdiri atas 106 objek dan 9 peubah, yaitu I0 (Impedivity pada frekuensi 0), PA500 (fase sudut di 500 KHz), HFS (fase sudut pada frekuensi tinggi), DA (impedansi jarak antara ujung spektrum), AREA (daerah di bawah spektrum), A/DA (area yang dinormalisasi oleh DA), MAX IP (maksimal spektrum), DR (jarak antara I0 dan bagian real dari titik frekuensi maksimal) dan P (panjang dari kurva spektrum). Sejumlah 106 objek tersebut berasal dari 6 kelompok yang digunakan untuk pengukuran impedansi listrik, yaitu jaringan karsinoma, jaringan fibro-adenoma, jaringan mastopathy, kelenjar, jaringan ikat, jaringan adiposa. Namun, yang digunakan dalam karya ilmiah ini hanya tiga kelompok yang terdiri atas 51 objek. Tiga kelompok tersebut adalah jaringan karsinoma (kelompok 1), kelenjar (kelompok 2), dan jaringan ikat (kelompok 3) dengan masing-masing kelompok terdiri atas 21, 16, dan 14 objek.
12
Prosedur Analisis Data
Data asal yang digunakan pada karya ilmiah ini merupakan data sekunder yang berasal dari data pengenalan anggur dan data pengenalan breast tissue. Analisis data dilakukan melalui dua tahap berikut:
I. Mengamati plot pencar antarpeubah yang dihasilkan kemudian data asal distandardisasi. Pengklasifikasian kelompok pada data asal dan data yang telah distandardisasi dilakukan dengan menggunakan jarak Euclid dan jarak Mahalanobis untuk ruang dimensi dua dengan menghitung jarak terdekat antara objek dengan rataan dari setiap kelompok. Kemudian bandingkan hasil salah klasifikasi antara jarak Euclid dan jarak Mahalanobis.
II. Penyelesaian permasalahan data yang takterpisah secara linear dilakukan dengan menggunakan AKU dan AKUK. Matriks data yang telah distandardisasi dianalisis menggunakan AKU. Selanjutnya visualisasikan plot pencar dua komponen utama pertama. Kemudian AKUK diterapkan menggunakan satu fungsi kernel yaitu kernel Gauss, dengan matriks kernel fungsi Gauss (� , � = exp − ‖� −� ‖� dengan parameter � = , , … , untuk data pengenalan anggur, dan parameter � = , , … , untuk data pengenalan breast tissue.
Berikut merupakan tiga langkah yang dilakukan untuk AKUK:
1. Menentukan fungsi kernel yang akan digunakan dalam hal ini adalah Gauss, kemudian menghitung hasil kali dalam matriks kernel =
dengan = (� , � = � � , �(� .
2. Mengoreksi matriks kernel terhadap nilai tengah sehingga diperoleh ∗ = dengan H = � −� � dan � = � � .
3. Menyelesaikan permasalahan nilai eigen dan vektor eigen dari matriks ∗ dengan persamaan ∗ = . Kemudian dipilih dua nilai eigen terbesar dan vektor eigen yang bersesuaian. Dua nilai eigen ini adalah varians maksimum dari komponen utama 1 dan komponen utama 2 secara berturut-turut.
4. Untuk menemukan skor komponen utama kernel dari permasalahan nilai eigen, proyeksikan pemetaan x atas vektor eigen primal .
� � = � � Φ ⁄√
= [ �, � �, � … �, �� ] ⁄√ .
Kemudian visualisasikan plot pencar dua komponen utama pertama dari setiap parameter �.
Pengklasifikasian kelompok pada AKU dan AKUK dilakukan hanya menggunakan jarak Euclid, sedangkan pengklasifikasian kelompok untuk data asal dan data asal yang distandardisasi menggunakan jarak Mahalanobis dan jarak Euclid. Berikut merupakan jarak Euclid dan jarak Mahalanobis untuk ruang dimensi dua dengan menghitung jarak terdekat antara objek dengan rataan dari setiap kelompok
13
�� = � � , x̅ = [ � − x̅ � − x̅ ] / , �� = � � , x̅ = [ � − x̅ �− � − x̅ ] / ,
dengan � merupakan objek pada skor komponen utama, x̅ merupakan rata-rata skor komponen utama pada setiap kelompok dan �− merupakan invers dari matriks kovarians kelompok k. Objek � masuk ke dalam kelompok k jika ��
{��, ��, ��} dan �� {��, ��, ��}. Evaluasi hasil dapat diperoleh dengan menghitung jumlah salah klasifikasi dari semua kelompok seperti yang diberikan pada Tabel 1.
Tabel 1 Klasifikasi kelompok Kelompok asal (k) Kelompok prediksi (j) Total 1 2 k 1 � � � � . 2 � � � � . . . . k � � � � . Total �. �. �. n = n.. Salah klasifikasi (SK) = (n−∑ = � n ) × %, dengan � = banyaknya anggota kelompok k yang diklasifikasikan ke dalam kelompok j.
14
HASIL DAN PEMBAHASAN
Analisis pertama dilakukan terhadap data pengenalan anggur. Gambar 4 sampai 9 memvisualisasikan plot pencar dari beberapa pasang peubah pada data pengenalan anggur, diambil beberapa pasang peubah karena dimensi data yang cukup besar.
Pada gambar di atas dapat dilihat bahwa plot pencar beberapa peubah dari data asal yang berisi baik kelompok 1, 2, dan 3 bercampur membentuk satu gerombol yang tidak dapat dipisahkan dan bentuk yang taklinear. Hal ini tidak Gambar 4 Alkohol dengan Asam Malat Gambar 5 Alkohol dengan Proanthosianin
Gambar 6 Alkali pada Abu dengan
Magnesium Gambar 7 Abu dengan Flavonoid
Gambar 8 Magnesium dengan OD Gambar 9 Total Fenol dengan Intensitas Warna
15
No Peubah Minimum Rata-rata Maksimum SB
1 Alkohol (Al) 11.030 13.004 14.830 0.809
2 Asam malat (AM) 0.740 2.342 5.800 1.119
3 Abu (Ab) 1.360 2.366 3.230 0.274
4 Alkali pada abu (AA) 10.000 19.439 30.000 3.414
5 Magnesium (Mg) 70.000 99.714 162.000 14.279
6 Total fenol (Tf) 0.130 2.289 3.880 0.642
7 Flavonoid (FI) 0.090 2.024 5.080 1.007
8 Fenol yang bukan 0.130 0.363 0.660 0.124
flavonoid (FF)
9 Proanthosianin (Pa) 0.410 1.591 3.580 0.572
10 Intensitas warna (IW) 1.280 5.058 13.000 2.318
11 Warna (Wa) 0.480 0.958 1.710 0.229
12 Anggur yang diencerkan pada
OD280/OD315 (OD)
1.270 2.612 4.000 0.710
13 Prolina (Pr) 278.000 746.893 1680.000 314.908
Tabel 3 Matriks kovarians data pengenalan anggur
No Peubah Al AM Ab AA Mg TF Fl FF Pa IW Wa OD Pr 1 Al 0.656 2 AM 0.089 1.252 3 Ab 0.047 0.052 0.075 4 AA -0.852 1.052 0.406 11.657 5 Mg 3.180 -0.780 1.104 -5.209 203.900 6 TF 0.141 -0.246 0.023 -0.655 2.003 0.412 7 Fl 0.198 -0.455 0.029 -1.107 2.628 0.554 1.013 8 FF -0.015 0.040 0.006 0.141 -0.453 -0.036 -0.065 0.015 9 Pa 0.062 -0.143 0.001 -0.370 1.941 0.222 0.374 -0.026 0.328 10 IW 1.022 0.645 0.164 -0.095 6.675 -0.090 -0.385 0.037 -0.034 5.374 11 Wa -0.012 -0.143 -0.005 -0.189 0.176 0.063 0.124 -0.007 0.039 -0.276 0.052 12 OD 0.041 -0.287 0.001 -0.600 0.665 0.317 0.560 -0.044 0.211 -0.706 0.092 0.504 13 Pr 163.394 -64.452 19.193 -468.616 1775.845 99.648 156.148 -12.044 59.554 230.767 16.999 69.923 99166.717
cukup baik bila digunakan dalam menganalisis struktur pada data. Oleh karena itu, data distandardisasi kemudian dianalisis menggunakan AKU dan AKUK yang