1
BAB I PENDAHULUAN
1.1 Latar Belakang
Algorima Learning Vector Quantization yang dikembangkan oleh Kohonen merupakan metode pembelajaran terawasi (supervised learning) dan dikhususkan untuk klasifikasi statistikal atau metode pengenalan (Kohonen, 2000). LVQ bertujuan untuk menetapkan daerah bagian dari setiap kelas dari data masukan. Algoritma ini telah digunakan secara luas dalam berbagai bidang, misalnya untuk pengenalan fonem dan karakter (Lv dkk., 2008).
Algoritma LVQ memiliki beberapa nilai awal yang harus didefinisikan sebelum proses pembelajaran dilakukan. Salah satu nilai awal yang sangat penting dalam membentuk model klasifikasi yang baik adalah bobot pembelajaran atau yang biasa disebut vektor referensi. LVQ merupakan algoritma yang sensitif terhadap pemilihan bobot awal karena akan berpengaruh terhadap konvergensinya (Kitajima, 1995). Metode sederhana yang umum digunakan dalam menentukan vektor referensi adalah dengan memilih secara acak dari kumpulan data pembelajaran yang dimiliki. Permasalahan yang umum dihadapi dalam pemilihan secara acak adalah adanya kemungkinan bahwa vektor yang diambil tidak mewakili suatu kelas dengan baik. Hal ini menjadikan metode pemilihan secara acak sering tidak akurat (Blachnik dan Duch, 2011). Suatu prosedur untuk menetapkan nilai bobot awal yang lebih baik diperlukan untuk membuat jaringan LVQ berjalan lebih optimal. Salah satu hal yang dapat ditempuh adalah dengan menerapkan algoritma klasterisasi untuk mendapatkan sejumlah nilai titik tengah yang selanjutnya dimanfaatkan sebagai nilai vektor referensi sesuai saran dalam penelitian Vakil-Bagmisheh dan Pavesic (2002).
Metode reduksi merupakan salah satu cara yang dikembangkan untuk mengurangi jumlah data yang perlu disimpan pada algoritma berbasis data.
Penghapusan sejumlah unit data dari kumpulan data pembelajaran merupakan suatu langkah yang akan mempercepat model klasifikasi mencapai kondisi yang diharapkan. Unit data yang akan dihapus juga dipilih dengan pendekatan tertentu
sehingga nilai akurasi dari model klasifikasi dapat dipertahankan. Dalam beberapa kasus, penghilangan unit data yang merupakan noise membuat akurasi dari model klasifikasi mengalami peningkatan (Wilson dan Martinez, 2000). Metode reduksi dapat dikembangkan dengan meninjau berbagai pendekatan sehingga dapat terjadi perbedaan antara satu metode dengan metode yang lain. Salah satu metode reduksi yang sudah ada dilakukan dengan membentuk subset pada data pelatihan dan melakukan menguji suatu unit data berdasarkan kriteria tertentu. Metode reduksi berbasis subset ini memperhatikan distribusi data karena penilaian pada suatu unit data akan dipengaruhi oleh sejumlah unit data lain di dekatnya.
Pengembangan berbagai variasi metode reduksi merupakan hal yang mungkin untuk dilakukan karena banyaknya gagasan dan pendekatan yang dapat dilakukan. Penambahan prosedur lanjutan setelah reduksi dapat dilakukan untuk memperbaiki model klasifikasi yang dihasilkan, salah satunya adalah dengan inisialisasi vektor referensi. Dalam beberapa penelitian mengenai reduksi yang sudah ada, fokus bahasan mengenai reduksi umumnya tidak digabungkan dengan perbaikan prosedur inisialisasi, sehingga percobaan untuk menggabungkan keduanya adalah hal yang potensial untuk dicoba. Penggabungan metode reduksi serta inisialisasi bobot ini diharapkan dapat membuat jaringan LVQ menjadi lebih optimal.
1.2 Rumusan Masalah
Berdasarkan uraian dalam latar belakang, maka dapat dirumuskan masalah dalam penelitian ini adalah sebagai berikut :
1. Bagaimana membangun metode reduksi untuk mengurangi jumlah data yang perlu digunakan dalam pelatihan algoritma LVQ.
2. Bagaimana mengoptimalkan pemilihan vektor referensi yang akan digunakan untuk proses pelatihan algoritma LVQ.
1.3 Batasan Masalah
Agar pembahasan dalam topik ini tidak meluas, maka perlu ditetapkan batasan-batasan dalam penelitian yang akan dilakukan. Batasan masalah dalam penelitian ini adalah :
1. Penelitian ini berfokus pada metode untuk mereduksi data dan penentuan vektor referensi untuk tujuan inisialisasi pada awal proses algoritma LVQ.
Parameter pengujian adalah pada akurasi, jarak pergeseran posisi vektor referensi dan waktu eksekusi.
2. Format masukan dari sistem adalah ARFF (Attribute-Relation File Format).
3. Data yang digunakan dalam penelitian adalah 3 dataset dari program WEKA, yaitu dataset diabetes, ionosphere dan breast-cancer. Sumber asli dari dataset ini adalah UCI Machine Learning Repository, yang bisa diunduh di alamat archive.ics.uci.edu/ml/datasets.html.
4. Tipe atribut yang digunakan meliputi numerik dan nominal.
1.4 Tujuan dan Manfaat Penelitian
Tujuan penelitian ini adalah mengembangkan metode reduksi berdasarkan prinsip kedekatan geometri antar unit data dan mengoptimalkan pemilihan vektor referensi pada algoritma LVQ dengan metode klasterisasi.
Manfaat yang bisa diberikan oleh penelitian ini adalah membantu dalam penerapan algoritma LVQ secara luas yang mana metode reduksi ini akan membantu untuk menurunkan jumlah data yang perlu disimpan dan dilibatkan dalam proses pelatihan. Pemilihan vektor referensi dengan klasterisasi diharapkan dapat meningkatkan akurasi model klasifikasi yang dihasilkan.
1.5 Metode Penelitian
Penelitian ini akan berfokus pada pengembangan prosedur reduksi dan inisialisasi vektor referensi pada algoritma Learning Vector Quantization serta membandingkannya dengan prosedur biasa untuk melihat pengaruh yang
dihasilkan. Langkah-langkah yang ditempuh dalam penelitian ini adalah sebagai berikut:
1. Studi Literatur. Pada tahap ini dilakukan pengumpulan data. Materi berupa informasi tentang metode yang pernah dilakukan untuk mengoptimalkan algoritma klasifikasi didapatkan dari buku, sumber internet dan jurnal penelitian yang berhubungan dengan tema tersebut. Materi tersebut secara umum mengenai jaringan syarat firuan, algoritma LVQ dan penelitian terkait algoritma tersebut baik dalam hal penerapan maupun upaya untuk mengoptimalkan. Data yang digunakan dalam penelitian ini adalah data dalam program Waikato Environment for Knowledge Analysis (WEKA) yang sumber aslinya dari UCI Machine Learning Repository.
2. Analisis. Pada tahapan ini dilakukan analisis kebutuhan dalam pembangunan sistem. Dalam tahapan ini ditentukan bahwa pengguna sistem adalah pengguna tunggal dan fungsionalitas utama dari sistem adalah untuk melakukan proses reduksi, inisialisasi vektor referensi, melakukan pelatihan dan melakukan pengujian akurasi. Kebutuhan masukan yang dibutuhkan oleh sistem adalah dataset dan parameter LVQ.
Sistem akan memberikan nilai keluaran berupa akurasi model klasifikasi.
Tahapan analisis ini mampu memberi gambaran mengenai layanan dan batasan dari sistem.
3. Perancangan sistem. Pada perancangan sistem, dilakukan penyesuaian untuk menempatkan prosedur reduksi dan klasterisasi yang dilakukan sebelum memulai proses pembangunan model klasifikasi. Prosedur pelatihan menggunakan algoritma LVQ standar. Sistem harus dapat melakukan pelatihan dengan dataset yang telah direduksi dan melakukan pengujian akurasi dengan menggunakan dataset normal yang belum direduksi dan data baru yang belum pernah dilatih. Pengguna akan melakukan proses memuat dataset dan menentukan beberapa nilai parameter dalam proses reduksi, klasterisasi dan pembelajaran algoritma LVQ. Sistem akan memberikan nilai keluaran berupa akurasi klasifikasi
terhadap dataset aslinya. Secara garis besar proses dalam sistem ditunjukkan oleh Gambar 1.1.
Gambar 1.1 Proses dalam sistem
4. Implementasi. Setelah selesai dirancang, maka sistem dapat mulai dikembangkan berdasarkan desain yang telah dibuat.
5. Pengujian. Pengujian dilakukan dengan membandingkan nilai akurasi klasifikasi. Algoritma LVQ yang dijalankan dengan tambahan prosedur reduksi dan klasterisasi dibandingan dengan algoritma LVQ yang dijalankan tanpa reduksi dan pemilihan vektor referensinya secara acak.
Nilai akurasi saat hanya menerapkan reduksi atau klasterisasi saja juga dibandingkan untuk melihat pengaruhnya secara terpisah.
1.6 Sistematika Penulisan
Sistematika penulisan yang digunakan dalam laporan penelitian ini adalah sebagai berikut :
1. BAB I Pendahuluan.
Dalam bab pendahuluan, dijelaskan latar belakang mengenai metode reduksi sebagai salah satu cara untuk meningkatkan kinerja algoritma
LVQ dan adanya kesempatan untuk mengembangkan metode reduksi baru. Rumusan masalah adalah mengenai bagaimana mengembangkan metode reduksi dan inisialisasi. Batasan masalah adalah terkait dengan jenis masukan dan dataset yang digunakan. Tujuan penelitian adalah pada peningkatan kinerja algoritma LVQ. Dalam bab ini juga dijelaskan mengenai manfaat penelitian secara umum dalam implementasi luas, metodologi penelitian yang digunakan, dan sistematika penulisan.
2. BAB II Tinjauan Pustaka.
Bab ini berisi penelitian-penelitian sebelumnya yang berkaitan dengan reduksi dan metode yang pernah dilakukan untuk meningkatkan algoritma klasifikasi.
3. BAB III Landasan Teori.
Bab ini membahas teori-teori yang menjadi landasan topik pada penelitian ini, antara lain algoritma LVQ, algoritma klasterisasi k-means, metode reduksi, perhitungan jarak antar vektor, cara normalisasi data dan penjelasan mengenai dokumen ARFF.
4. BAB IV Analisis dan Rancangan.
Bab ini menjelaskan tentang analisis dan rancangan usulan model reduksi data yang akan digunakan, rancangan cara menentukan vektor referensi dengan menggunakan klasterisasi sebelum memasuki proses pembelajaran pada algoritma LVQ, dan desain sistem yang yang akan dibuat untuk melakukan eksperimen usulan tersebut.
5. BAB V Implementasi.
Bab ini berisi implementasi penerapan algoritma menjadi sistem dengan disertai cuplikan kode.
6. BAB VI Hasil Penelitian dan Pembahasan
Bab ini berisi hasil pengujian dari sistem menggunakan dataset ARFF dan pembahasan hasilnya.
7. BAB VII Kesimpulan dan Saran.
Sebagai akhir dari penulisan, akan ditampilkan kesimpulan dari seluruh eksperimen yang dilakukan. Bab ini juga akan berisi saran untuk pengembangan atau penelitian selanjutnya.