Modifikasi Particle Swarm Optimization dengan Menerapkan Dynamic Inertia Weight pada Algoritma 2-Stage Feature Selection

(1)

Modifikasi Particle Swarm Optimization dengan

Menerapkan Dynamic Inertia Weight pada Algoritma

2-Stage Feature Selection

Muhamad Anbiya Nur Islam1_{, Endang Sugiharti}2_{, Much Aziz Muslim}3 1,2,3_{Computer Science Departement, FMIPA, Universitas Negeri Semarang, Indonesia} Email: 1_{[email protected],}2_{[email protected],}3_{[email protected]}

Abstrak

Feature selection merupakan salah satu teknik data preprocessing untuk mengatasi masalah pada

klasifikasi. Tantangan pada feature selection adalah menghasilkan akurasi maksimal dengan jumlah fitur yang paling efektif. Secara umum, feature selection menggunakan Particle Swarm

Optimization menghasilkan subset fitur yang masih redundan, sehingga akurasi tidak dicapai

secara maksimal. Pada peneliltian ini, dynamic inertia weight yaitu berdasarkan rumus Linearly

Decreasing Inertia Weight, diterapkan pada algoritma 2-Stage Feature Selection untuk

menyelesaikan masalah tersebut. Algoritma Naïve Bayes Classifier digunakan dalam penelitian ini sebagai implementasi dalam klasifikasi. Algoritma diuji dengan menerapkan feature selection pada Sonar dataset dari UCI Machine Learning Repository dan membandingkan akurasi dan jumlah fitur yang didapat Algoritma LDW 2-Stage Feature Selection dengan algoritma sebelumnya, 2-Stage Feature Selection. Penambahan unsur dinamis pada LDW 2-Stage Feature

Selection terbukti dapat menghasilkan akurasi yang lebih optimal dibandingkan dengan 2-Stage Feature Selection.

Kata Kunci: Feature selection, klasifikasi, particle swarm optimization, inertia weight

Abstract

Feature selection is one of the preprocessing data techniques for classification problem solving. The challenge in feature selection is to produce maximum accuracy with the most effective features. In general, feature selection using Particle Swarm Optimization produces a subset of features that are still have redundant features, so it’s not reach optimum accuracy yet. In this research, dynamic inertia weight based on Linearly Decreasing Inertia Weight (LDW) is applied to the 2-Stage Feature Selection algorithm to solve the problem. Naïve Bayes Classifier algorithm is used in this study as an implementation in the classification. The algorithm is tested by applying the feature selection Sonar Dataset from UCI Machine Learning Repository datasets and comparing the accuracy and number of features obtained by the LDW 2-Stage Feature Selection Algorithm with 2-Stage Feature Selection. The addition of dynamic elements in the LDW 2-Stage Feature Selection is proven to produce better accuracy compared to 2-Stage Feature Selection.

(2)

1. PENDAHULUAN

Data yang melimpah memerlukan metode pengolahan yang tepat agar dapat dimanfaatkan secara maksimal. Data mining adalah proses menemukan hubungan dalam data yang tidak diketahui oleh pengguna dan menyajikannya dengan cara yang dapat dipahami sehingga hubungan tersebut dapat menjadi dasar pengambilan keputusan [1]. Salah satu metode data mining yang juga termasuk ke dalam bidang ilmu machine learning adalah klasifikasi. Klasifikasi adalah metode data mining yang dapat digunakan untuk proses pencarian sekumpulan model (fungsi) yang dapat menjelaskan dan membedakan kelas-kelas data atau konsep, yang tujuannya supaya model tersebut dapat digunakan memprediksi objek kelas yang labelnya tidak diketahui atau dapat memprediksi kecenderungan data-data yang muncul di masa depan [2]. Klasifikasi yang digunakan dalam penelitian ini yaitu Naïve Bayes Classification.

Naïve Bayes Classifier memiliki kelemahan pada seleksi atribut [3]. Fitur redundan dan

tidak relevan tersebut bahkan dapat mengurangi kinerja klasifikasi [4]. Seleksi fitur adalah proses pemilihan subset fitur dengan menghilangkan beberapa fitur dengan sedikit informasi prediktif [5]. Keuntungan dari pemilihan fitur yaitu dapat mengurangi dimensi data, mengurangi fitur redundan, memfasilitasi pemahaman data, mengurangi jumlah data training, meningkatkan akurasi dan meningkatkan interpretasi model

machine learning [6].

Dalam rangka untuk meningkatkan efek seleksi fitur, banyak penelitian mencoba untuk menambahkan algoritma optimasi cerdas dalam metode seleksi fitur [7]. Menurut [8], Jika dibandingkan dengan ant colony algorithm dan genetic algorithms, algoritma

Particle Swarm Optimization adalah algoritma paling sederhana dan cepat dalam

proses pengaplikasiannya untuk menemukan nilai optimasi.

Linearly Decreasing Weight Particle Swarm Optimization (LDWPSO) merupakan

modifikasi PSO dengan menambahkan bobot inersia dinamis yang semakin kecil secara linear pada setiap iterasi. Dengan demikian, proses pencarian solusi dalam search space akan lebih optimal karena setiap partikel menyeimbangkan proses pencarian secara eksplorasi dan eksploitasi. Kinerja LDWPSO meningkat secara signifikan dibandingkan PSO karena LDWPSO secara efektif menyeimbangkan kemampuan pencarian global dan lokal dalam search space[9].

2. METODE

Data yang digunakan pada penelitian ini yaitu dataset Connectionist Bench (Sonar, Mines vs. Rocks) yang tersedia pada UCI Machine Learning Repository. Sonar dataset berisi informasi tentang 208 baris data dan 60 atribut. Objek diklasifikasikan dalam dua kelas yaitu "rock" dan "mine". Dalam data ini terdapat dengan 208 pengamatan pada 61 atribut. 60 kolom pertama mewakili energi dalam pita frekuensi tertentu, terintegrasi selama periode waktu tertentu, kolom terakhir berisi label kelas. Ada dua kelas 0 jika objeknya adalah batu, dan 1 jika objeknya adalah ranjau (silinder logam). Kisaran masing-masing atribut bervariasi dari 0,0 hingga 1,0. Data ini bersumber dari koleksi Terry Sejnowski, dari Salk Institute dan University of California di San Deigo. Dataset dikembangkan dengan bekerja sama dengan R. Paul Gorman dari Pusat Teknologi Antariksa Sinyal-Allied.

(3)

Implementasi dilakukan pada algoritma klasifikasi Naïve Bayes Classifier (NBC). NBC merupakan pengklasifikasian dengan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes. NBC dipilih sebagai “test bed” karena kemampuannya dalam menangani data berdimensi tinggi. Implementasi dengan mengeksekusi proses feature selection sebanyak 10 kali dan mengambil nilai rata-rata akurasi klasifikasi dan jumlah fitur sebagai perbandingan.

3. HASIL DAN PEMBAHASAN

Penelitian ini menggunakan Linearly Decreasing Weight dan 2-Stage Feature

selection yang merupakan sebuah modifikasi algoritma Particle Swarm Optimization

(PSO) 2-Stage Feature selection dengan menambahkan dynamic weight inertia pada dua sesi prosesnya. Sehingga proses pencarian dapat lebih optimal dan menghasilkan akurasi yang lebih baik.

Setelah dilakukan perhitungan, hasil eksekusi tersebut akan dibandingkan dengan klasifikasi yang hanya menerapkan 2-Stage Feature Selection, untuk membuktikan apakah penerapan Linearly Decreasing Weight pada algoritma 2-Stage Feature

selection terbukti dapat menghasilkan akurasi yang lebih baik dengan jumlah fitur yang

efektif.

3.1.2 2-Stage Feature Selection

Berikut ini merupakan pseudo-code penerapan 2-Stage Feature selection.

2-Stage Pseudo-code 01: begin

02: randomly Initialize Particle Swarm

03: while(number of iterations i)

04: if(i < (number of iterations/2)

05: evaluate using 1st_{fitness function}

06: else

07: evaluate using 2nd_{fitness function}

08: endif

09: for(n=1 to number of particles)

10: find pbest

11: find gbest

12: for(d=1 to number of features of particle)

13: update velocity

14: update position

15: next d

16: next n

17: next until stopping criterion is met

18: end

Proses feature selection pada algoritma 2-Stage Feature Selection dilakukan dalam dua sesi, yaitu sesi pertama berfokus pada peningkatan akurasi, dan sesi kedua berfokus

(4)

pada pengurangan fitur. Persamaan (1) merupakan fitness function untuk mendapatkan akurasi klasifikasi terbaik pada proses seleksi fitur 2-Stage Feature Selection.

𝐹𝑖𝑡𝑛𝑒𝑠𝑠1= 𝐸𝑟𝑟𝑜𝑟 𝑅𝑎𝑡𝑒 =

𝐹𝑃 + 𝐹𝑁 𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁

dimana FP (False Positive), FN (False Negative), TP (True Positive), TN (True

Negative) didapat dari confussion matrix hasil klasifikasi pada training set.

Subset fitur yang dihasilkan persamaan (1) masih berpotensi memiliki redundant

feature, karena persamaan tersebut tidak berfokus pada pengurangan fitur, tetapi hanya

fokus pada optimalisasi akurasi. Redundant feature yang dimaksud adalah nilai akurasi didapatkan dengan jumlah fitur yang masih bisa diminimalkan. Seperti contoh suatu model mencapai akurasi 90% dengan jumlah fitur 15, selanjutnya dilakukan optimasi seleksi fitur sehingga menghasilkan akurasi yang sama yaitu 90% dengan jumlah fitur hanya 12. Maka pada kasus tersebut masih terdapat fitur yang redundant yaitu 3 fitur. Oleh karena itu, Xue, et al [4] dalam publikasinya yang berjudul “New Fitness

Functions in Binary Particle Swarm Optimization for Feature Selection” mengusulkan

dua persamaan fitness function baru untuk seleksi fitur, fitness function yang terdiri dari unsur akurasi dan number of feature (#features) seperti pada persamaan (2).

𝐹𝑖𝑡𝑛𝑒𝑠𝑠2= 𝛼𝑡× #𝐹𝑒𝑎𝑡𝑢𝑟𝑒𝑠 #𝐴𝑙𝑙 𝐹𝑒𝑎𝑡𝑢𝑟𝑒𝑠+ (1 − 𝛼𝑡) × 𝐸𝑟𝑟𝑜𝑟 𝑅𝑎𝑡𝑒 𝐸𝑟𝑟𝑜𝑟0 di mana 𝛼𝑡= 𝛼𝑚𝑎𝑥 × 𝑡 𝑇 , 𝛼𝑡 ∈ [0,1]

𝛼𝑡 berubah pada tiap iterasi ke-t dalam T total iterasi. #𝐹𝑒𝑎𝑡𝑢𝑟𝑒𝑠 adalah banyaknya fitur dalam subset, sedangkan #𝐴𝑙𝑙 𝐹𝑒𝑎𝑡𝑢𝑟𝑒𝑠 adalah keseluruhan feature set. 𝐸𝑟𝑟𝑜𝑟 𝑅𝑎𝑡𝑒 merupakan nilai error proses klasifikasi dengan jumlah fitur #𝐹𝑒𝑎𝑡𝑢𝑟𝑒𝑠 dan 𝐸𝑟𝑟𝑜𝑟0 merupakan nilai error yang dihasilkan dari klasifikasi dengan semua fitur. Persamaan berikutnya yaitu Two-Stage Approach, merupakan model seleksi fitur dengan pendekatan gabungan dua fitness function. Persamaan (2) melakukan pencarian dengan peningkatan nilai 𝛼 secara linier, berpotensi mendapatkan fitur paling sedikit dengan akurasi tidak maksimal. Untuk menyelesaikan masalah tersebut, Two-Stage

Approach melakukan proses pencarian dalam dua sesi/stage dengan dua fitness function yang berbeda, seperti pada persamaan (3).

𝐹𝑖𝑡𝑛𝑒𝑠𝑠3= { 𝐸𝑟𝑟𝑜𝑟 𝑅𝑎𝑡𝑒, Stage 1 𝛼 × #𝐹𝑒𝑎𝑡𝑢𝑟𝑒𝑠 #𝐴𝑙𝑙 𝐹𝑒𝑎𝑡𝑢𝑟𝑒𝑠+ (1 − 𝛼 ) × 𝐸𝑟𝑟𝑜𝑟 𝑅𝑎𝑡𝑒 𝐸𝑟𝑟𝑜𝑟0 , Stage 2 } (1) (2) (3)

(5)

di mana 𝛼 merupakan nilai tetap diantara 0 dan 1 yang menggambarkan kepentingan penyeleksian berdasarkan banyaknya fitur. Proses stage 1 menghasilkan subset dengan akurasi tertinggi tanpa memperhatikan banyaknya fitur. Hasil tersebut menjadi input pada proses stage 2 sehingga menghasilkan fitur paling sedikit dengan akurasi tetap pada nilai maksimal.

Hasil penerapan 2-Stage Feature selection pada masing-masing eksekusi ditunjukkan pada Tabel 1.

Tabel 1. Hasil 2-Stage Feature Selection Eksekusi ke Akurasi Jumlah Feature

1 84,12698 9 2 84,12698 10 3 87,30159 16 4 84,12698 17 5 85,71429 16 6 88,88889 13 7 87,30159 9 8 88,88889 15 9 90,47619 15 10 88,88889 17 Rata-rata 86,984127 13,7

Tabel 1 menunjukkan bahwa rata-rata akurasi yang didapat pada penerapan 2-Stage

Feature selection yaitu sebesar 86,984127 dan untuk rata-rata fitur yaitu 13,7. Proses

pencarian pada 2-Stage Feature Selection di atas, masih dapat ditingkatkan agar mendapat hasil akurasi yang lebih tinggi dengan cara mengubah nilai bobot inersia pada setiap iterasi. Pengaruh penerapan bobot inersia dinamis pada setiap iterasi adalah dapat menyeimbangkan proses pencarian lokal dan global, sehingga dapat menghindari konvergensi prematur. Semakin tinggi nilai bobot inersia, proses pencarian lebih mementingkan eksploitasi (pencarian lokal) dan semakin rendah nilai bobot inersia, proses pencarian cenderung melakukan eksplorasi (pencarian global). Dengan memodifikasi bobot inersia pada masing-masing sesi dalam 2-Stage Feature Selection, diharapkan proses pencarian dapat menghasilkan output feature dengan akurasi klasifikasi yang lebih optimal.

(6)

3.1.3 Linearly Decreasing Weight (LDW)- 2-Stage Feature Selection

Berikut ini merupakan pseudo-code penerapan LDW 2-Stage Feature selection. LDW 2-Stage Pseudo-code

01: begin

02: randomly Initialize Particle Swarm 03: while(number of iterations i)

04: if(i < (number of iterations/2)

05: evaluate using 1st_{fitness function}

06: else

07: evaluate using 2nd_{fitness function}

08: endif

09: for(n=1 to number of particles)

10: find pbest

11: find gbest

12: for(d=1 to number of features of particle)

13: update velocity

14: update position

15: next d

16: next n

17: update inertia weight

17: next until stopping criterion is met 18: end

Penambahan unsur LDW pada algoritma 2-Stage Feature Selection dapat dilihat pada baris ke 17 pada pseudo-code. Bobot inersia berubah nilainya untuk setiap iterasi. Perubahan tersebut berdasarkan pada persamaan (4) dibawah ini.

𝒘 = (𝒘𝒎𝒂𝒙− 𝒘𝒎𝒊𝒏) ×

𝒊𝒕𝒆𝒓𝒂𝒕𝒊𝒐𝒏𝒎𝒂𝒙− 𝒊𝒕𝒆𝒓𝒂𝒕𝒊𝒐𝒏𝒊

𝒊𝒕𝒆𝒓𝒂𝒕𝒊𝒐𝒏𝒎𝒂𝒙 + 𝒘𝒎𝒊𝒏

di mana 𝒘𝒎𝒂𝒙 adalah bobot inersia maksimal, 𝒘𝒎𝒊𝒏 bobot inersia minimal, 𝒊𝒕𝒆𝒓𝒂𝒕𝒊𝒐𝒏𝒎𝒂𝒙 maksimal iterasi dan 𝒊𝒕𝒆𝒓𝒂𝒕𝒊𝒐𝒏𝒊 adalah iterasi ke i pada eksekusi. Hasil penerapan Linearly Decreasing Weight (LDW)- 2-Stage Feature selection pada masing-masing eksekusi ditunjukkan pada Tabel 2.

(7)

Tabel 2. Hasil LDW-2-Stage Feature Selection Eksekusi ke Akurasi Jumlah Feature

1 84,12698 9 2 88,88889 8 3 84,12698 16 4 92,06349 19 5 88,88889 13 6 87,30159 9 7 87.30159 13 8 88,88889 16 9 92,06349 15 10 87,30159 14 Rata-rata 88,095238 13,2

Tabel 2 menunjukkan bahwa rata-rata akurasi yang didapat pada penerapan Linearly

Decreasing Weight (LDW)- 2-Stage Feature selection yaitu sebesar 88,095238 dan

untuk rata-rata fitur yaitu 13,2. Berdasarkan hasil tersebut, didapat bahwa akurasi klasifikasi yang dioptimasi dengan 2-Stage Feature Selection dapat ditingkatkan, bahkan dengan jumlah fitur yang lebih efektif.

Proses pencarian pada LDW 2-Stage Feature Selection dimulai dengan nilai bobot inersia tinggi yang secara linear berkurang sampai pada bobot inersia minimal. Saat nilai bobot inersia tinggi, proses pencarian dititikberatkan pada pencarian lokal atau eksploitasi, dimana hasil pencarian ini disimpan dalam pbest yang baik pada setiap partikel. Selanjutnya nilai bobot inersia berangsur-angsur turun sampai pada bobot inersia minimal, memberikan efek pencarian partikel yang semakin ringan sehingga lebih memperhatikan posisi partikel lain (eksplorasi). Proses pencarian dengan algoritma 2-Stage Feature Selection dan LDW 2-Stage Feature Selection dapat dilihat pada Gambar 1 dan 2.

(8)

Gambar 2. Fitness setiap iterasi pada algoritma LDW 2-Stage Feature Selection Gambar 1 menunjukkan proses pencarian pada algortima 2-Stage Feature Selection, dimana variasi penurunan cost (peningkatan fitness) sangat sedikit, yaitu turun 2 kali. Dalam pencarian ini diduga terjadi konvergensi prematur karena nilai bobot inersia statis menghasilkan pencarian yang “kaku”. Dibandingkan dengan Gambar 2, pencarian lebih bervariasi dengan penurunan cost lebih banyak. Hal ini dikarenakan nilai dinamis pada bobot inersia membuat pencarian lebih seimbang antara ekplorasi dan eksploitasi.

4. SIMPULAN

Berdasarkan penelitian yang telah dilakukan, dapat disimpulkan bahwa penerapan

Linear Decreasing Weight pada 2-Stage Feature Selection menghasilkan rata-rata

akurasi yang didapat yaitu sebesar 88,09524% dan rata-rata feature minimal yang didapat yaitu 13,2 feature. Dibandingkan dengan metode optimasi sebelumnya yaitu 2-Stage Feature Selection dengan hasil akurasi 86,984127%, didapat bahwa penerapan

Linear Decreasing Weight pada 2-Stage Feature Selection mendapatkan hasil yang

lebih optimal dengan selisih 1.11. Hal tersebut membuktikan bahwa penerapan Linear

Decreasing Weight pada 2-Stage Feature Selection dapat melakukan klasifikasi data

dengan akurasi yang lebih baik dan fitur yang efektif.

5. REFERENSI

[1] McLeod, Jr.R. dan G.P. Schell. 2007. Management Information System. 10th ed. Pearson Education Inc.

[2] Tsai C.J., Lee C. I. dan Yang W. P. 2008. A Discretization Algorithm Based On Class Attribute Contingency Coefficient. Information Sciences. Vol. 178(3): 714-731.

(9)

[3] Muhamad, H., et al. 2017. Optimasi Naïve Bayes Classifier Dengan Menggunakan Particle Swarm Optimization Pada Data Iris. Jurnal Teknologi

Informasi dan Ilmu Komputer (JTIIK). Vol. 4(3): 180-184.

[4] Xue B., Zhang M., Browne W.N. 2012. New Fitness Functions in Binary Particle Swarm Optimisation for Feature Selection. IEEE Congress on Computational

Intelligence.

[5] Oreski D., Novosel T. 2014. Comparison of Feature Selection Techniques in Knowledge Discovery Process. TEM Journal. Vol. 3(4): 265-290.

[6] Guyon, I., & Elisseeff, A. (2003). An Introduction to Variable and Feature Selection. Journal of Machine Learning Research. Vol. 3: 1157-1182.

[7] Fayyad, U., Piatetsky - Shapiro, G., & Smyth, P. 1997. From Data Mining to knowledge Discovery in Databases. AI magazine. Vol. 17(3): 37-54.

[8] Mladenic. D. 2006. Feature selection for dimensionality reduction. Lecture Notes

in Computer Science. Vol. 3940: 84-102.

[9] Yang, C.H., Hsiao, C. J., Chuang, L. Y. 2010. Linearly Decreasing Weight Particle Swarm Optimization with Accelerated Strategy for Data Clustering.