K terbesar untuk
4.1 Algoritma Pereduksian Data 1 Algoritma Analisis Komponen Utama
Pada dasarnya cara kerja algoritma AKU ialah mereduksi data yang telah direpresentasikan dalam bentuk matriks dengan cara mentransformasi data menjadi komponen utama kemudian mengambil sejumlah komponen utama pertama sebagai data hasil reduksi dengan tetap mempertahankan kontribusi varians data sebesar mungkin.
Sebelum direduksi, biasanya data distandardisasi terlebih dahulu untuk menghilangkan dominasi varians dari peubah tertentu kemudian ditentukan matriks kovarians dari data. Langkah berikutnya adalah menghitung vektor eigen ortonormal dari matriks kovarians. Vektor eigen diurutkan berdasarkan nilai eigen taknol, mulai dari yang terbesar sampai yang terkecil. Matriks komponen utama diperoleh dengan cara mengalikan matriks data dengan matriks berkolom vektor eigen yang telah diurutkan. Banyaknya komponen utama biasanya dipilih berdasarkan persentase kontribusi keragaman yang diberikan. Untuk visualisasi, hanya digunakan komponen utama pertama (KU-1) dan komponen utama kedua (KU-2) untuk digambar sebagai hasil visualisasi data dalam bentuk plot pencar. Algoritma 1 Metode Visualisasi dengan AKU
1. Membentuk matriks data
2. Menghitung matriks kovarians data
3. Menghitung vektor eigen dari matriks kovarians data 4. Menormalkan vektor eigen
5. Mengurutkan vektor eigen data berdasarkan nilai eigen mulai dari terbesar hingga terkecil
6. Mengalikan matriks data dengan matriks berkolom vektor eigen 7. Menggambar dua komponen utama pertama dalam bentuk plot pencar. 4.1.2 Algoritma Analisis Komponen Utama Kernel
Langkah awal algoritma pereduksian data dengan AKU Kernel adalah menghitung matriks kernel dari data yang diberikan. Jika data memiliki peubah yang memiliki keragaman yang bersifat mendominasi, maka data distandardisasi terlebih dahulu. Setelah itu, menghitung vektor eigen dari matriks kernel untuk data pada ruang fitur yang telah dikoreksi terhadap nilai tengah. Vektor eigen disusun berdasarkan nilai eigen taknol, mulai dari yang terbesar sampai yang terkecil. Komponen utama taklinear diperoleh dengan cara mengalikan matriks kernel untuk data pada ruang fitur dengan matriks berkolom vektor eigen yang telah diurutkan
20
berdasarkan nilai eigen terbesar. Banyaknya komponen utama biasanya dipilih berdasarkan persentase kontribusi keragaman yang diberikan. Untuk visualisasi, hanya komponen utama pertama (KU-1) dan komponen utama kedua (KU-2) yang digunakan untuk digambar sebagai hasil visualisasi dari data dalam bentuk plot pencar.
Algoritma 2 Metode Visualisasi dengan AKU Kernel 1. Membentuk matriks data
2. Menghitung matriks Kernel untuk data pada ruang fitur yang telah terkoreksi terhadap nilai tengah
3. Menghitung vektor eigen dari matriks Kernel untuk data pada ruang fitur yang telah dikoreksi terhadap nilai tengah
4. Menormalkan vektor eigen
5. Mengurutkan vektor eigen data berdasarkan nilai eigen mulai dari terbesar hingga terkecil
6. Mengalikan matriks Kernel untuk data pada ruang fitur dengan matriks berkolom vektor eigen
7. Menggambar dua komponen utama pertama dalam bentuk plot pencar.
Namun, sebelum menggunakan Algoritma 2 di atas, ada satu hal yang harus diperhatikan terlebih dahulu, yaitu pada langkah 2. Untuk dapat melakukan langkah 2, yang pertama-tama yang harus dilakukan adalah memilih fungsi kernel. Pada penelitian ini, seperti yang telah dibicarakan terlebih dahulu pada pendahuluan, fungsi yang akan digunakan adalah fungsi kernel Gauss. Tetapi perlu diingat bahwa fungsi kernel Gauss ini mengandung sebuah paramater, yaitu parameter yang harus dipilih terlebih dahulu. Banyak penelitian untuk pereduksian data telah dilakukan dengan menggunakan metode AKU Kernel dengan fungsi kernel Gauss. Namun, sampai saat ini proses penentuan parameter ini masih menjadi topik penelitian yang terus berlanjut dengan hasil yang belum jelas. Salah satu permasalahannya adalah pemilihan parameter sangat bergantung pada objektivitas dari penelitian itu sendiri.
Fungsi kernel Gauss, berbentuk
2 2
, exp 2
i j i j
x x x x dengan
x adalah vektor objek data dan 2
adalah varians. Fungsi kernel Gauss dapat divisualisasikan dengan menggunakan fungsi
exp 22 2 x g x ,di mana x xi xj . Fungsi ini memiliki 3 titik kritis, yaitu x0, x dan
x di mana titik x0 adalah titik maksimum sedangkan titik x dan
x adalah titik belok. Andaikan diberikan x
10,10 ,
x , maka diperoleh visualisasi fungsi kernel Gauss untuk 1, 5, 10, 12 dan100
seperti pada Gambar 4.1.
21
Gambar 4.1 Visualisasi fungsi kernel Gauss untuk beberapa
Gambar kurva yang memperlihatkan bentuk visualisasi dari kurva fungsi kernel Gauss diperoleh pada nilai yang berada pada selang
0, max
x . Ketika nilai
max x , maka kurva yang diperoleh menjadi seperti kurva fungsi kuadratis bahkan untuk yang cukup besar, kurva menjadi seperti kurva fungsi linear.
Selain itu dalam AKU Kernel, fungsi kernel Gauss digunakan untuk menghitung matriks Kernel yang merupakan bentuk dual dari matriks kovarians pada ruang fitur (Nielsen & Canty 2008). Karena itu pemilihan nilai parameter sangat menentukan keragaman data pada ruang fitur tersebut. Pemilihan parameter
yang terlalu besar dibanding jarak antarobjek data akan mengakibatkan matriks Kernel yang terbentuk adalah matriks satuan, sehingga objek-objek data pada ruang fitur menjadi terkonsentrasi pada satu titik. Begitu pula, jika dipilih parameter yang terlalu kecil dibanding jarak antarobjek data, maka matriks Kernel yang terbentuk adalah matriks identitas sehingga mengakibatkan peubah-peubah pada ruang fitur tidak memiliki korelasi sehingga AKU menjadi tidak layak untuk diterapkan. Hal ini mengakibatkan nilai yang terlalu besar dibanding jarak antarobjek akan membuat peubah pada ruang fitur makin kehilangan keragaman, sedangkan makin kecil , makin kecil pula korelasi antarpeubah pada ruang fitur. Oleh karena itu, pada penelitian ini pemilihan parameter dilakukan pada selang min xixj , max xixj ; i j. Selang interval ini kemudian dipartisi dan setiap titiknya diuji untuk mendapatkan titik yang memberikan nilai parameter dengan total proporsi salah terkecil. Banyaknya titik pada selang dipilih berdasarkan lebar selang interval. Pada penelitian ini, setiap selang interval dibagi menjadi 200 partisi. Algoritma untuk memilih parameter yang meminimumkan salah klasifikasi pada interval min xixj , max xi xj ; i j diberikan pada Algoritma 3.
Algoritma 3 Pemilihan :
Input: data berkelompok
Output:
1. Menghitung jarak antarobjek pada data
2. Mendefinisikan interval dari jarak terdekat hingga jarak terjauh
3. Melakukan pereduksian menggunakan AKU Kernel sesuai pers. (23) dengan fungsi kernel Gauss pada pers. (1) untuk setiap nilai pada interval
4. Untuk setiap objek dari dua komponen utama pertama, diklasifikasikan menggunakan fungsi diskriminan linear Fisher sesuai pers. (35)
22
5. Menghitung total proporsi salah klasifikasi (AER) dengan menggunakan pers. (38)
6. Memilih yang meminimumkan SK
7. Jika ada beberapa titik yang memiliki AER minimum, maka dipilih pada titik- titik tersebut yang memaksimalkan persentase keragaman varians yang diberikan oleh dua komponen utama pertama.