METODE PCA-RBPNN DENGAN INISIALISASI CENTER ALGORITMA K-MEANS PADA DATA MULTIVARIAT

(1)

Jurnal Elektornik Nasional Teknologi dan Ilmu Komputer (JENTIK)

Metode PCA-RBPNN dengan Inisialisasi Algoritma K-Means pada Data Multivariat (Hasnawati M)|112

METODE PCA-RBPNN DENGAN INISIALISASI CENTER

ALGORITMA K-MEANS PADA DATA MULTIVARIAT

Hasnawati M1_{, Oni Soesanto}2_{, Fatma Indriani}3

1,3_{Prodi Ilmu Komputer FMIPA ULM} 2_{Prodi Matematika FMIPA ULM}

Jl. A. Yani Km36 Banjarbaru, Kalimantan selatan Email:[email protected]

Abstract

In this research will be studied about PCA-RBPNN method for prediction of multivariate data. Principal Component Analysis method serves to reduce the input dimension by eliminating the minimum information. In this case the PCA method is used to reduce the input dimension of the RBPNN network. The initial process on the RBPNN network is to determine the initialization center and clustering using k-means algorithm. Furthermore, PCA-RBPNN method is used to predict multivariate data. The predicted results obtained in the simulation using PCA-RBPNN method is the greater the reduction value then the RMSE results are less but it can change due to the large number of clusters used.

Keyword : Principal Component Analysis (PCA), Radial Basis Probabilistic Neural Network (RBPNN), PCA-RBPNN, K-Means

Abstrak

Pada penelitian ini akan dikaji tentang metode PCA-RBPNN untuk prediksi data multivariat. Metode Principal Component Analysis berfungsi untuk mereduksi dimensi input dengan menghilangkan informasi yang minimum. Dalam hal ini metode PCA digunakan untuk mereduksi dimensi input pada jaringan RBPNN. Proses awal pada jaringan RBPNN adalah menentukan inisialisasi center dan klustering menggunakan algoritma k-means. Selanjutnya metode PCA-RBPNN digunakan untuk prediksi data multivariate. Hasil prediksi yang didapatkan pada simulasi menggunakan metode PCA-RBPNN adalah semakin besar nilai reduksi maka hasil RMSE-nya semakin sedikit namun hal tersebut bisa berubah dikarenakan banyaknya jumlah kluster yang digunakan.

Kata kunci : Principal Component Analysis (PCA), Radial Basis Probabilistic Neural Network (RBPNN), PCA-RBPNN, K-Means

(2)

1. PENDAHULUAN

Data mining adalah istilah yang digunakan untuk menemukan pengetahuan yang tersembunyi dalam sebuah database. Tujuan dari data mining terbagi menjadi dua yaitu deskripsi dan prediksi [6]. Deskripsi berfungsi untuk memberikan informasi yang tergambar pada sebuah data yang ada, sedangkan prediksi berfungsi untuk memprediksikan nilai yang belum diketahui dengan menggunakan variabel yang terdapat pada database. Salah satu metode yang digunakan untuk memprediksi adalah Neural Networks.

Neural networks (jaringan saraf tiruan) pada data mining memiliki kemampuan untuk meningkatkan nilai akurasi. Neural network (jaringan saraf tiruan) sangat sesuai digunakan untuk memecahkan masalah pada data mining karena memiliki karateristik ketahanan yang baik, bisa memproses secara paralel, memiliki tempat penyimpanan yang didistribusikan, memilki tingkat akurasi yang tinggi dibandingkan dengan metode statistik [2]. Neural network memiliki arsitektur komputasi yang kuat dan terdistribusi.

Salah satu metode yang terdapat pada jaringan saraf tiruan adalah Radial Basis Probabilistic Neural Network (RBPNN) yang merupakan penggabungan model RBFNN dan PNN berdasarkan pada keunggulan dari masing-masing model tersebut. RBFNN melibatkan dimensi tinggi pada lapisan tersembunyi (hidden layer) dan neuron hidden yang tak linier, namun metode ini memiliki struktur yang rumit, sedangkan model Probabilistic Neural Network (PNN) mempunyai kemampuan klasifikasi yang secara langsung bisa dicapai tanpa melatih vektor bobot. Namun PNN memiliki kelemahan yaitu tidak mempertimbangkan lingkungan dan overlapping antara vektor-vektor data training dari kategori yang berbeda sehingga berakibat bias. Selain itu pada PNN semua vektor data training digunakan sebagai center pada hidden layer yang berakibat rumit diterapkan pada data training yang berukuran besar sehingga kemampuan menjadi lambat [3].

Proses awal yang harus dilakukan pada RBPNN adalah proses clustering untuk menentukan inisialisasi center. Salah satu metode yang digunakan untuk menentukan center yaitu dengan menggunakan teknik clustering. Metode yang cukup populer yaitu algoritma K-means yang telah banyak memberikan hasil yang cukup baik. Ide dasar dari algoritma ini adalah mengumpulkan data ke dalam beberapa kelompok dan memilih center berdasarkan ukuran dari center-center dengan menggunakan jarak Euclide. Setiap titik kluster dihubungkan dengan inti tersembunyi Gaussian pada RBPNN [3].

Metode Radial Basis Probabilistic Neural Network (RBPNN) memiliki kelemahan salah satunya adalah ketika dimensi input yang digunakan terlalu besar maka proses komputasi akan melambat sehingga diperlukan suatu metode untuk menyederhanakan sturktur jaringan. Sehingga salah satu metode yang digunakan untuk mereduksi dimensi input tersebut adalah Principal Componet Analysis (PCA) [4].

Principal Component Analysis (PCA) merupakan metode dalam statistika yang digunakan untuk mereduksi dimensi input dengan menghilangkan informasi yang minimum. Beberapa peneliti telah menggabungkan metode PCA dengan jaringan syaraf tiruan menggunakan model PCA neural pada processing untuk pemisahan noise pada signal [1]. PCA-RBFNN juga digunakan untuk klasifikasi [7] dan masalah

(3)

Metode PCA-RBPNN dengan Inisialisasi Algoritma K-Means pada Data Multivariat (Hasnawati M)|114 peramalan, hasil reduksi dengan PCA dan proses transformasinya menggunakan RBFNN yang menghasilkan prediksi yang akurat.

Pada penelitian ini akan dilakukan kajian metode PCA-RBPNN dalam hal kemampuan prediksi. Metode PCA digunakan untuk mereduksi dimensi input pada RBPNN dan proses penentuan center menggunakan algoritma k-means. Metode PCA-RBPNN ini digunakan untuk memprediksi (tingkat akurasi) ketersedian air di Bendungan Sutami.

2. METODE PENELITIAN

2.1 DATA SIMULASI

Data simulasi yang digunakan pada penelitian ini adalah data ketersediaan air di bendungan sutami yang diambil dari Station Otomatis Flood Forecasting Warning (FFWS) Perum Jasa Tirtal I di Malang pada tahun 2007-2009. Data ini berjumlah 1096 data yang terdiri dari 8 variabel yaitu inflow sutami, debit aliran gadang dan debit aliran tawangrajeni, serta curah hujan (Sutami, Sengguruh, Poncokusumo, Tangkil dan Wagir).

2.2 REDUKSI VARIABEL INPUT DENGAN PCA

Principal Component Analysis (PCA) adalah metode statistik yang digunakan untuk mereduksi variabel yang tidak berkorelasi. Tujuan penggunaan PCA adalah mereduksi variabel input menjadi komponen utama yang berdimensi lebih kecil dengan kehilangan informasi minimum, dimana komponen utama yang terbentuk tidak berkolerasi satu dengan yang lainnya. Karena mampu mengurangi input data maka penggunaan PCA pun seringkali digunakan terlebih dahulu pada jaringan saraf tiruan. Hal ini bertujuan untuk menyederhanakan arsitektur dari jaringan saraf tiruan tersebut.

Principal Component Analysis (PCA) digunakan untuk mereduksi variabel input menjadi beberapa komponen utama berdasarkan nilai eigen yang berdasarkan kumulatif keragaman mencukupi.

Berdasarkan hasil pengurutan nilai eigen maka akan dipilih nilai eigen terbesar. Proses ini menghasilkan komponen utama yang pertama, selanjutnya proses yang sama untuk nilai eigen terbesar berikutnya. Proses pemilihan komponen utama ini akan dihentikan saat kumulatif keragaman komponen utama diasumsikan minimal 80%. Artinya dengan beberapa komponen utama yang dihasilkan tersebut bisa menjelaskan keseluruhan data sebesar 80%. Misalkan sebuah paket data dinyatakan dengan matriks X dimana ukuran kolomnya menyatakan banyak variabel sedangkan jumlah barisnya menyatakan banyak pengamatan. Sehingga apabila banyak variabel pada data ada n buah dan banyak pengamatan pada data adalah m buah, maka matriks X akan berukuran m × n, dengan:

(4)

Metode PCA-RBPNN dengan Inisialisasi Algoritma K-Means pada Data Multivariat (Hasnawati M)|115 Langkah awal pada metode PCA yaitu menghitung matriks kovarian. Berikut persamaan yang digunakan untuk mendapatkan hasil matriks kovarian.

…(2)

Dengan, n adalah banyak data, X adalah seluruh data, dan XT_{adalah seluruh data} yang ditranspose.

Setelah matriks kovarian didapatkan kemudian menghitung nilai eigen dan vektor eigen menggunakan persamaan berikut.

…(3) Kemudian nilai eigen ini akan disubtitusikan satu per satu ke persamaan

...(4)

Kemudian menghitung kumulatif keragaman dengan menggunakan persamaan berikut.

…(5)

PCA akan menghasilkan variabel pengganti (komponen utama) yang berdimensi lebih rendah dari data aslinya. Artinya setiap variabel dalam X

sekarang dapat dinyatakan sebgai komponen utama. Nilai-nilai komponen utama tersebut akan digunakan sebagai input pada RBPNN. Namun sebelum dimasukkan ke jaringan RBPNN, nilai-nilai komponen utama tersebut akan di kluster untuk mengetahui variabel yang dominan pada setiap komponen utama.

2.3 INISIALISASI CENTER DENGAN ALGORITMA K-MEANS

Inisialisasi center yang digunakan pada penelitian ini menggunakan algoritma k-means. Adapun langkah-langkah pada algoritma k-means adalah sebagai berikut [5].

a. Menentukan banyak K-cluster yang ingin dibentuk.

b. Membangkitkan nilai random untuk pusat cluster awal (centroid) sebanyak k.

c. Menghitung jarak setiap data input terhadap masing-masing centroid menggunakan rumus jarak Eucledian (Eucledian Distance) hingga ditemukan jarak yang paling dekat dari setiap data dengan centroid. Berikut adalah persamaan Eucledian Distance:

2 ) ( | |  



n  i Xi Yi Y X d …(6)

d. Mengklasifikasikan setiap data berdasarkan kedekatannya dengan centroid (jarak terkecil).

e. Mengupdate nilai centroid. Nilai centroid baru diperoleh dari rata-rata cluster yang bersangkutan dengan menggunakan rumus:

…(7)

f. Melakukan perulangan dari langkah (b) hingga (e) hingga anggota tiap cluster tidak ada yang berubah.

(5)

Metode PCA-RBPNN dengan Inisialisasi Algoritma K-Means pada Data Multivariat (Hasnawati M)|116 g. Jika langkah (f) telah terpenuhi, maka nilai rata-rata pusat cluster (X_j)

pada iterasi terakhir akan digunakan sebagai parameter.

Anggota tiap cluster yang tetap (tidak berubah) ini merupakan vektor target yang akan digunakan pada RBPNN. Target ini dinyatakan dengan matriks T, dimana:

…(8) dengan, k = banyak cluster

Sedangkan hasil rata-rata pusat cluster pada iterasi terakhir merupakan center yang akan digunakan pada metode RBPNN.

2.4 PROSES LEARNING PADA PCA-RBPNN

Dalam hal ini metode PCA berfungsi untuk mereduksi dimensi input pada jaringan Radial Basis Probabilistic Neural Network (RBPNN). Input yang pada jaringan RBPNN sebanyak 8 variabel. Namun nilai input tersebut direduksi menggunakan metode PCA agar arsitektur jaringannya menjadi lebih sederhana dan mempermudah proses komputasi. Tahapan pada PCA yaitu menghitung matriks kovarian, nilai eigen, vektor eigen dan kumulatif keragaman. Dari hasil kumulatif keragaman, maka dipilihlah 4 PC yang merupakan hasil reduksi dari 8 variabel terebut. Sehingga 4 PC inilah yang akan diproyeksi terlebih dahulu dengan normalisasi dan hasilnya proyeksinya menjadi nilai input pada jaringan RBPNN [4].

Pada RBPNN tedapat inisialisasi center dan algoritma yang digunakan untuk inisialisasi center adalah algoritma k-means. Berikut adalah arsitektur jaringan PCA-RBPNN.

Gambar 1.Arsitektur PCA-RBPNN

Sumber: Principal Component Analysis (PCA) Dan Radial Basis Probabilistic Neural Network (RBPNN) dengan Inisialisasi Center Algortima K-Means untuk Prediksi Debit Aliran Sungai. 2017

Pada pemodelan RBPNN, data yang digunakan adalah data training dan data testing. Pada data training, data harus direduksi terlebih dahulu menggunakan PCA. Sehingga data hasil reduksi inilah yang digunakan sebagai nilai input pada jaringan RBPNN. Nilai input layer pertama berisi 4 node yang akan diproses

(6)

Metode PCA-RBPNN dengan Inisialisasi Algoritma K-Means pada Data Multivariat (Hasnawati M)|117 langsung ke hidden layer pertama sehingga menghasilkan nilai center dan vektor target dari algoritma k-means. Kemudian nilai center tersebut dijumlahkan dengan data training sehingga menghasilkan hidden layer kedua yaitu matriks gaussian. Sedangkan untuk memperoleh output layer adalah dengan mengalikan hidden layer kedua yaitu matriks gaussian dengan nilai bobot yang diperoleh dari proses matriks pseudoinverse.

Kemudian untuk proses pada data testing merupakan proses pengujian nilai center yang telah diperoleh pada proses training. Nilai center data training dijumlahkan dengan data testing sehingga menghasilkan matriks gaussian testing. Sedangkan untuk mendapatkan output testing diperoleh dengan mengalikan hasil matriks gaussian testing dengan nilai bobot sehingga didapatlah hasil output testing.

2.4.1Training RBPNN

Tahap awal dari proses Radial Basis Probabilistic Neural Network (RBPNN) adalah menghitung nilai spread, menghitung matriks gaussian, nilai bobot dan nilai output.

Nilai spread yang akan dicari yakni menghitung jarak Euclid maksimal dari sebuah data. Nilai spread dihitung dengan menggunakan persamaan berikut.

= …(9)

dengan, dmax adalah jarak Eucled maksimal dari kelompok data dan K adalah

jumlah kelompok data.

Setelah nilai spread dan nilai center di dapatkan kemudian menghitung matriks gaussian menggunakan persamaan berikut.

...(10) dengan, x adalan nilai normalisasi; c adalah nilai center dan adalah matriks Gaussian.

Hasil matriks gaussian tersebut digunakan untuk menghitung nilai bobot menggunkan persamaan berikut:

W = (HT_H)-1_HT_d _…(11)

dimana H adalah nilai matriks gaussian, HT_{adalah nilai matriks}_{gaussian yang di} transpose dan d adalah vektor target. Vektor target tersebut didapat dari proses perhitungan inisialisasi center menggunakan algoritma k-means algoritma k-means.

Kemudian hasil nilai bobot tersebut digunakan untuk menghitung nilai output menggunakan persamaan berikut.

) ( 1 x h w y _k M k ik



  …(12) dengan, w adalah nilai bobot dan h_k(x)adalah matriks gaussian.

(7)

2.4.2Testing RBPNN

Pada proses testing, vektor input untuk testing dimasukkan hasil reduksi dan hasil inisialisasi center pada data training unutk mendapatkan matriks gaussian. Selanjutnya matriks gaussian tersebut digunakan untuk mecari nilai output Y

dengan menggunakan nilai bobot W yang diperoleh pada proses training.

Data Uji Coba

Data Training Data Testing

Normalisasi _Normalisasi

PCA Proyeksi (Data Training

x PC) Inisialisasi Center

(K-Means) dan Spread Hitung Matriks Gaussian

Hitung Nilai Bobot

Denormalisasi

RMSE

Proyeksi (Data Testing x PC)

Hitung Matriks Gaussian

Hitung Nilai Output Testing

Denormalisasi

RMSE Hitung Nilai Output

Training

Gambar 2. Proses PCA-RBPNN

Sumber: Principal Component Analysis (PCA) Dan Radial Basis Probabilistic Neural Network (RBPNN) dengan Inisialisasi Center Algortima K-Means untuk Prediksi Debit Aliran Sungai. 2017

3. HASIL DAN PEMBAHASAN

3.1 Mereduksi variabel input menggunakan PCA

Pada penelitian ini proses PCA dilakukan pada data asli untuk menguji bagaimana setiap variabel inflow Sutami, debit aliran Gadang dan debit aliran Tawangrajeni, serta curah hujan (Sutami, Sengguruh, Poncokusumo, Tangkil dan Wagir) saling berkolerasi satu sama lain sehingga dapat ditentukan kemungkinan reduksi dan digunakan dalam prediksi. Misalkan viriabel x1 adalah untuk data inflow Sutami, x2,x3 untuk debit aliran Gadang dan Tawangrajeni dan untuk curah hujan (Sutami, Sengguruh, Poncokusumo, Tangkil dan Wagir) adalah dengan variabel x4,x5,x6,x7,x8.

(8)

Metode PCA-RBPNN dengan Inisialisasi Algoritma K-Means pada Data Multivariat (Hasnawati M)|119 Tahapan PCA untuk mendapatkan hasil reduksi adalah menghitung matriks kovarian, nilai eigen, vektor eigen dan kumulatif keragaman. Berikut adalah hasil PC, nilai eigen dan kumulatif keragaman yang telah didapatkan.

Tabel 1. Nilai PC untuk masing-masing variabel, nilai eigen dan kumulatif keragaman - PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 x1 0,4620 -0,1433 -0,792 -0,364 -0,0145 -0,054 0,034 -0,016 x2 0,2147 -0,9296 0,2977 -0,014 0,00672 0,0195 -0,016 -0,014 x3 0,8349 0,3332 0,4361 -0,024 0,01952 0,0221 0,0117 0,003 x4 0,0861 -0,0451 -0,131 0,4108 0,34661 -0,118 0,3039 0,760 x5 0,0577 -0,0130 -0,126 0,2128 -0,2024 0,9369 -0,054 0,115 x6 0,0849 -0,0091 -0,1227 0,2931 0,26823 -0,086 -0,900 0,034 x7 0,13769 -0,0374 -0,1549 0,6092 -0,6903 -0,299 0,0511 -0,126 x8 0,0799 -0,0236 -0,1415 0,4419 0,53836 0,0859 0,299 -0,625 Nilai Eigen 5613,5 2474,6 590,55 493,51 166,90 60,821 106,48 70,31 Kumulatif keragama n 58,616 25,84 6,1666 5,1532 1,7428 0,6351 1,1118 0,734 Berdasarkan tabel 1 untuk PC1, PC2,PC3 dan PC4 dengan nilai eigen 5613,5; 2474,6; 590,55 dan 493,51 masing-masing mewakili 58,616 %, 25,84%, 6,1666 % dan 5,1532 % dari seluruh data dan secara kumulatif keempat PC tersebut menyatakan 95,775% dari total keragaman kedelapan variabel dari data asli. Selanjutnya keempat PC tersebut didefinisikan sebagai variabel pengganti dari kedelapan variabel asli. Keempat PC ini akan akan diproyeksikan dengan data normalisasi sehingga hasil proyeksi inilah yang akan digunakan sebagai input pada RBPNN.

3.2 Inisialisasi menggunakan algoritma k-means

Proses awal pada RBPNN adalah penentuan center dan hasil klustering merupakan vektor target yang akan digunakan pada perhitungan nilai bobot. Pada proses k-means nilai center awal dipilih secara random. Nilai center awal tersebut kemudian di hitung dengan proses k-means sampai nilai cluster tidak berubah. Dan hasil dari nilai cluter tersebut merupakan nilai center yang akan digunakan pada RBPNN. Berikut adalah nilai center yang akan digunakan pada RBPNN.

3.3 Kemampuan prediksi metode PCA-RBPNN

Untuk menguji metode PCA-RBPNN digunakan data ketersedian air di bendungan Sutami tahun 2007-2009 dengan data traning sebanyak 730 data dan data testing sebanyak 366 data. Untuk mengetahui kemampuan dari metode PCA-RBPNN pada penelitian ini dilakukan perhitungan dan simulasi pada proses prediksi.

(9)

Metode PCA-RBPNN dengan Inisialisasi Algoritma K-Means pada Data Multivariat (Hasnawati M)|120 Untuk mengetahui performansi metode PCA-RBPNN pada penelitian ini dilakukan simulasi pada proses prediksi untuk data training dan testing. Adapun nilai input yang digunakan utntuk mengetahui hasil prediksi adalah dengan menggunakan banyak PC yaitu dari 2 sampapi dengan 7 yang akan digunakan untuk mewakili seluruh data tersebut dan banyak kluster yaitu dari 2 sampai dengan 5. Hasil prediksi yang didapatkan adalah berupa nilai Root Mean Squared Error (RMSE) pada masing-masing PC dan kluster. Berikut adalah tabel RMSE dan kumulatif pada debit aliran gadang dan tawangrajeni untuk data training dan testing.

Tabel 2. Hasil RMSE debit aliran gadang pada data training Debit Aliran Gadang Kluster Jumlah PC 2 3 4 5 6 7 2 32,979 26,914 23,308 20,836 19,014 7,4421 3 12,985 10,549 9,2128 8,2869 7,5422 7,0356 4 12,26 9,9029 8,6916 7,8154 7,1694 6,6454 5 10,439 9,1102 8,5372 6,2017 7,1459 6,6298 Kumulatif Keragaman 84,456 90,622 95,776 97,518 98,15 99,264

Tabel 3. Hasil RMSE debit aliran tawangrajeni pada data training Debit Aliran Tawangr ajeni Kluster Jumlah PC 2 3 4 5 6 7 2 26,755 21,932 19,03 17,029 15,555 24,646 3 23,140 18,925 16,363 14,606 13,296 12,313 4 21,26 17,432 15,098 13,499 12,316 11,389 5 17,815 5,6163 14,358 13,301 11,5 10,568 Kumulatif Keragaman 84,456 90,622 95,776 97,518 98,15 99,264 Tabel 4. Hasil RMSE debit aliran gadang pada data testing

Debit Aliran Gadang Kluster Jumlah PC 2 3 4 5 6 7 2 22,252 8,3684 7,1767 14,721 13,477 12,506 3 12,372 8,9301 7,8119 6,9893 6,3955 5,9271 4 9,4038 4,5575 5,3392 4,8455 4,497 4,1705 5 7,2043 3,8459 5,4663 3,0962 2,857 2,6953 Kumulatif Keragaman 84,456 90,622 95,776 97,518 98,15 99,264 Tabel 5. Hasil RMSE debit aliran tawangrajeni pada data testing

Debit Aliran Tawangr ajeni Kluster Jumlah PC 2 3 4 5 6 7 2 9,6414 9,544 8,2021 3,9165 3,5739 3,3013 3 10,396 4,7685 4,0858 3,6606 3,3479 3,0953 4 10,49 4,7085 3,994 3,581 3,2783 3,0328 5 10,492 4,193 3,426 3,4691 2,857 3,015 Kumulatif Keragaman 84,456 90,622 95,776 97,518 98,15 99,264

(10)

Metode PCA-RBPNN dengan Inisialisasi Algoritma K-Means pada Data Multivariat (Hasnawati M)|121 Berdasarkan tabel hasil RMSE di atas adalah semakin banyak PC yang digunakan maka akan semakin kecil hasil RMSE yang didapatkan, namun hasil tersebut bisa berubah karena dipengaruhi oleh banyaknya kluster digunakan. Pada data training untuk debit aliran gadang hasil RMSE terkecil adalah menggunakan 5 PC dan 5 kluster dengan RMSE yang dihasilkan adalah 6,2017 sedangkan untuk debit aliran tawangrajeni adalah menggunakan 7 PC dan 5 kluster dengan RMSE yang dihasilkan adalah 10,568. Pada data testing untuk debit aliran gadang hasil RMSE terkecil adalah 7 PC dan 5 kluster dengan RMSE yang dihasilkan adalah 2,6953 sedangkan untuk debit aliran tawangrajeni adalah menggunakan 6 PC dan 5 kluster dengan hasil RMSE yang didapatkan adalah 2,857.

Pada perhitungan dengan variabel pengganti yang menjelaskan 95,776% dari total keragaman variabel asli menggunakan 3 kluster didapatkan hasil RMSE pada data training untuk debit aliran gadang dan debit aliran tawangrajeni adalah sebesar 9,2128 dan 16,363. Sedangkan pada data testing hasil RMSE yang didapatkan adalah 16,363 dan 7,8119 untuk debit aliran gadang dan debit aliran tawangrajeni. Berdasarkan hasil perhitungan tersebut maka dibuatlah grafik dengan kumulatif keragaman yang digunakan sebesar 95,776%.

Berikut adalah grafik hasil prediksi debit aliran gadang dan debit aliran tawangrajeni pada data training

(11)

Metode PCA-RBPNN dengan Inisialisasi Algoritma K-Means pada Data Multivariat (Hasnawati M)|122 Berikut adalah grafik hasil prediksi debit aliran gadang dan debit aliran tawangrajeni pada data testing.

Gambar 4. Grafik debit aliran gadang dan debit aliran tawangrajeni

4. SIMPULAN

Kesimpulan yang diperoleh dari hasil penelitian ini adalah sebagai berikut:

a. Proses PCA-RBPNN yaitu data asli dinormalisasi terlebih dahulu kemudian masuk pada proses PCA dan RBPNN. Pada metode PCA terdapat perhitungan matriks kovarian, nilai eigen, vektor eigen, dan kumulatif keragaman. Setelah itu hasil perhitungan tersebut diproyeksikan. Kemudian menentukan center dan vektor target dengan menggunakan algoritma k-means. Pada RBPNN nilai center digunakan untk menghitung matriks gaussian, selanjutnya menghitung nilai bobot dan nilai output. Nilai output tersebut didenormalisasi sehingga didapatlah hasil RMSE.

b. Kemampuan hasil prediksi menggunakan metode PCA-RBPNN yaitu semakin banyak PC yang digunakan maka akan semakin kecil hasil RMSE yang didapatkan, namun hasil tersebut bisa berubah karena dipengaruhi oleh banyaknya kluster digunakan. Pada data training untuk debit aliran gadang hasil RMSE terkecil adalah menggunakan 5 PC dan 5 kluster dengan RMSE yang dihasilkan adalah 6,2017 sedangkan untuk debit aliran tawangrajeni adalah menggunakan 7 PC dan 5 kluster dengan RMSE yang dihasilkan adalah 10,568. Pada data testing untuk debit aliran gadang hasil RMSE terkecil adalah 7 PC dan 5 kluster dengan RMSE yang dihasilkan adalah 2,6953 sedangkan untuk debit aliran tawangrajeni adalah menggunakan 6 PC dan 5 kluster dengan hasil RMSE yang didapatkan adalah 2,857.

(12)

Metode PCA-RBPNN dengan Inisialisasi Algoritma K-Means pada Data Multivariat (Hasnawati M)|123 c. Meskipun kehilangan beberapa informasi akibat PCA, namun hal tersebut

memiliki keuntungan tersendiri bagi RBPNN yaitu nilai input menjadi lebih kecil sehingga struktur jaringannya jadi lebih sederhana.

DAFTAR PUSTAKA

[1] Diamantaras, K., Technological, A., & Instit, E. (2009). Applying PCA neural models for the blind separation of signals Applying PCA Neural Models for the Blind Separation of Signals, (December).

[2] Gaur, P. (1956). Neural Networks in Data Mining, 1449–1453.

[3] Huang, D., & Zhao, W. (2005). Determining the centers of radial basis probabilistic neural networks by recursive orthogonal least, 162, 461– 473.

[4] M, Hasnawati. (2017). Principal Component Analysis (PCA) dan Radial Basis Probabilistic Neural Network (RBPNN) dengan Inisialisasi Center Algortima K-Means untuk Prediksi Debit Aliran Sungai". Skripsi Program Studi Ilmu Komputer, Universitas Lambung Mangkurat.

[5] Sarwono, Y.T. (2004). Aplikasi Model Jaringan Syaraf Tiruan dengan Radial Basis Function untuk Mendeteksi Kelainan Otak (Stroke Infark). 1-10

[6] Tewary, G. (2015). Effective Data Mining For Proper Mining Classification Using Neural, 5(2), 65–82.

[7] Tripathy, M. (2010). Simulation Modelling Practice and Theory Power transformer differential protection using neural network Principal Component Analysis and Radial Basis Function Neural Network. Simulation Modelling Practice and Theory, 18 (5), 600–611.