IMPLEMENTASI JARINGAN SYARAF TIRUAN KOHONEN PADA DATA MINING OUTLIER DETECTION IMPLEMENTATION KOHONEN NEURAL NETWORK FOR
DATA MINING OUTLIER DETECTION
Rochmat Mustopa¹, Moch. Arif Bijaksana², M.tech.³
¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom
Abstrak
Data mining adalah metode pencarian informasi penting yang tersimpan dalam kumpulan data besar yang sudah tidak dipakai, informasi tersebut dicari dengan membuat dan menganalisis pola dari sekumpulan data besar. Pola yang terbentuk adalah hasil dari suatu proses algoritma dan dalam data mining banyak sekali metode atau algoritma yang digunakan. Pengembangan data mining sudah banyak digunakan di berbagai bidang seperti telekomunikasi, bioinformatika, ekonomi, dan lain-lain. Dalam tugas akhir ini, analisis dilakukan terhadap implementasi dari algoritma JST untuk mendeteksi outlier/anomaly, data mining difokuskan pada pencarian pola pada data yang tidak biasa atau data noise, algoritma jaringan syaraf tiruan kohonen digunakan untuk melakukan analisis clustering yaitu mengelompokan data berdasarkan tingkat kedekatanya dan mencari cluster kecil yang jauh dari cluster-cluster besar. Cluster kecil dan jauh
didefinisikan sebagai outlier/anomaly. Bagi data yang sudah memiliki class ada evaluasi class pada cluster untuk menguji ketidak akuratan dan anomaly dari suatu cluster. Hasil percobaan adalah seberapa besar kemampuan dari algoritma JST Kohonen mampu mengenali anomaly dengan berbagai parameter yang berbeda. Parameter tersebut diantarnya learning rate, gaus, max epoh, dan jumlah cluster. Selain itu analisis class pada cluster menghasilkan analisis pada rare case anomaly.
Kata Kunci : Data Mining, Clustering, Jaringan Syaraf Tiruan Kohonen, Outlier Detection, SOM. iv
Abstract
Data mining is a method which search important information from large database which not use againt or not active, information that is searched by make and analisist pattern from big dataset. The pattern is result of an algorithm process and in data mining have a lot methods or algorithm which is used. Developing data mining has more used in several part like telecommunication, bioinformatics, economic, etc. Analyzing implementation from neural network algorithm for detect an outlier/anomaly, Data mining is focused to unsusal dataset or noise, with use neural network kohonen algorithm for clustering that is collect data based on distance and find small cluster which have long distance or far from other big cluster, this cluster is defined as outlier. For datas which have class lable will evaluate clusters base on class lable to find incorrectly and anomaly from some cluster. The result from this research is how big capability of kohonen neural network algorithm can find anomaly with try many different parameter like learning rate,
neighbourhood, max epoch, and num cluster. Analisis of class to cluster resulting analisis to rare case anomaly.
Keywords : Data Mining, Clustering, kohonen Neural Network, Outlier Detection, SOM.
Powered by TCPDF (www.tcpdf.org)
1. Pendahuluan
1.1
Latar belakang
Data mining merupakan solusi untuk menemukan informasi penting dari sekumpulan data yang besar, informasi penting ini diperoleh dengan pencarian
rule pada kumpulan data yang besar sehingga terbentuk pola yang mudah untuk
dipahami. Pencarian rule pada data mining diperoleh dengan banyak cara, banyak metode yang ditawarkan seperti asosiasi, klasifikasi, clustering, dan lain-lain. Salah satu pengembangan data mining adalah outlier/anomaly detection (deteksi data yang tidak biasa/pencilan) yaitu pencarian rule dari data yang abnormal atau pencilan atau menyimpang sehingga diperoleh suatu rule untuk mengenali atau memprediksi suatu data, apakah data tersebut termasuk data anomaly atau bukan. Biasanya pada data anomaly/outlier dianggap sebagai noise (data yang mengganggu) sehingga pada metode data mining biasa itu dibuang, padahal mungkin dari data outlier itu terdapat informasi penting yang sangat berguna, maka untuk itulah outlier detection dibutuhkan.
Pada tugas akhir ini digunakan metode clustering dengan jaringan syaraf tiruan (JST) Kohonen. Clustering merupakan salah satu bagian dalam data mining yang mengelompokkan tiap-tiap record (baris) data ke dalam cluster-cluster tertentu berdasarkan pola data. Jaringan Syaraf Tiruan merupakan salah satu bagian dari kecerdasan buatan yang memiliki keandalan dalam melakukan pembelajaran.
Secara umum penelitian Tugas Akhir ini adalah membangun rule outlier
detection (aturan deteksi data pencilan) dari Jaringan Syaraf Tiruan yang
diterapkan pada clustering data mining dimana keluarannya berupa pola dan tingkat akurasi rule dalam mendeteksi data pencilan.
1.2
Perumusan masalah
Berdasarkan latar belakang penelitian yang dikemukakan di atas, maka masalah yang akan diteliti dirumuskan sebagai berikut :
1. Bagaimana mengimplementasikan jaringan syaraf tiruan kohonen untuk mengelompokkan sekumpulan data ke dalam cluster-cluster, sehingga diperoleh rule untuk memprediksi data anomaly.
2. Bagaimana langkah-langkah data mining untuk membangun sistem outlier detection .
Kedua rumusan di atas dilakukan dengan studi kasus pada data buatan dan data riil. Hal tersebut akan menjadi pembuktian bahwa data mining dengan
clustering mampu untuk dikembangkan menjadi suatu metode outlier detection.
Percobaan itu dilakukan dengan nilai parameter yang berbeda-beda sehingga dapat disimpulkan berapa nilai parameter yang baik untuk menemukan anomaly dengan baik.
1.3
Tujuan
Tujuan dalam tugas akhir ini adalah :
1. Mengimplementasikan teknik clustering jaringan syaraf tiruan Kohonen untuk anomaly detection .
2. Melakukan pengujian pada sejumlah data yang di dalamnya ada data yang tidak normal/anomaly.
3. Membuktikan dan menganalisis bahwa data mining dengan clustering JST Kohonen mampu untuk menjadi suatu metode outlier detection.
4. Mengukur seberapa besar pengaruh nilai sigma dan learning rate pada JST Kohonen untuk mengenali data anomaly dengan baik.
Dalam tugas akhir ini masalah akan dibatasi pada :
1. Field-field (kolom) dataset yang akan dianalisis adalah field yang bersifat kontinyu.
2. Menggunakan data buatan dan data riil untuk menguji implementasi
anomaly detection, seperti: DNA Lung cancer, Iris, Inosphere dan
lain-lain.
3. Tidak menangani pre-prosessing. 4. Hanya 2 level clustering.
1.4
Metodologi penyelesaian masalah
Pendekatan sistematis/metodologi yang akan digunakan dalam merealisasikan tujuan Tugas Akhir ini adalah dengan menggunakan langkah-langkah berikut:
a. Studi Literatur
Mempelajari konsep mengenai jaringan syaraf tiruan secara umum. Mempelajari lebih dalam mengenai data clutering, metode JST Kohonen (Self-organizing Map), metode outlier detection based distance analisis (deteksi data anomaly berdasarkan analisis jarak), dan mempelajari evaluasi class pada cluster yang diperoleh dari buku-buku, jurnal baik dari dalam maupun luar negeri.
b. Analisis dan Perancangan
Melakukan analisis terhadap kebutuhan sistem yang dibuat, dan melakukan perancangan sistem berdasarkan hasil analisis.
c. Implementasi
Mengimplementasikan hasil perancangan tugas akhir pada perangkat keras dan perangkat lunak.
d. Uji Coba dan Evaluasi
Melakukan pengujian terhadap implementasi metode Self-organizing
Map(Kohonen) untuk melakukan data clustering dan menganalisis
kemungkinan ada tidaknya data anomaly, mengevaluasi hasil data
clustering yang tergolong anomaly yang dilakukan oleh sistem dari segi
akurasi dan performansi sistem. Melakukan perbandingan dengan tool Weka 3.5, untuk melihat kebenaran dari hasil percobaan.
e. Penyusunan Laporan Tugas Akhir
2
Menyusun laporan hasil penelitian yang dirangkum ke dalam sebuah buku Laporan Tugas Akhir.
5. Penutup
Bab ini berisi kesimpulan dari hasil implementasi dan analisis yang telah dilakukan, serta saran untuk pengembangan lebih lanjut.
5.1
Kesimpulan
Berdasarkan implementasi, pengujian dan analisis yang telah dilakukan, dapat disimpulkan beberapa hal sebagai berikut:
a. Metode Self-organizing Map mempunyai kemampuan yang cukup dalam menentukan cluster pada data berdimensi tinggi dan mampu mengenali
outlier. Dimana dalam penentuan cluster dan jumlah anomaly, metode Self-organizing Map dipengaruhi oleh nilai rentang learning rate dan
sigma.
b. Jumlah cluster yang ideal tidak bisa diketahui secara langsung, karena data riil yang belum memiliki class tidak diketahui secara pasti ada berapa kelompok di dalamnya. Untuk menangani hal tersebut SOM menyediakan multilevel clustering untuk menjaring data ke dalam banyak cluster, sehingga dihasilkan cluster yang memiliki anggota dan
cluster-cluster kosong. Jumlah cluster-cluster yang memiliki anggota menunjukan
jumlah kelompok yang ada dalam dataset tersebut.
c. Akurasi sistem anomaly detection clustering-based dapat diukur dari seberapa besar kemampuan clustering mengelompokkan data, caranya dengan melakukan analisis class pada cluster.
d. Cluster anomaly, berdasarkan analisis jarak, adalah cluster terkecil dan terjauh dari cluster-cluster besar. Akan tetapi cluster kecil dan jauh ini belum ada standar internasional, sehingga masih memerlukan penelitian lebih lanjut. Standar jarak anomaly sangat diperlukan untuk memahami secara mendalam terhadap cluster anomaly.
e. Kemiripan sifat pada cluster yang sama (rare case anomaly) dapat menyebabkan kesalahan prediksi suatu classifier. Namun sampai saat ini, belum ada standar umum sebagai batasan jumlah rare case yang dapat menyebabkan kesalahan prediksi.
5.2
Saran
Berikut ini saran-saran yang perlu dipertimbangkan untuk pengembangan aplikasi lebih lanjut:
a. Perlu dilakukan percobaan terhadap aplikasi dengan kombinasi parameter input dan dataset yang lebih banyak, sehingga akan diperoleh hasil pengujian yang lebih banyak dan analisis yang lebih akurat.
b. Pada aplikasi ini belum dilakukan proses pre-processing . Sehingga pada pengembangan lebih lanjut, proses pre-processing untuk data yang masih belum normal untuk didata mining terutama untuk keperluan intrusion
detection, fraud detection dan medical analisys.
c. Apabila suatu classifier mengalami kesalahan prediksi, kemungkinannya ada 2. Pertama data tersebut merupakan anomaly, yaitu suatu data yang
31
memiliki sifat jarang atau memiliki kesamaan sifat dengan class yang berbeda. Kedua kesalahan atau ketidakmampuan dari classifier dalam mempelajari dan mempredikisi class tersebut, hal ini bisa disebabkan karena datanya yang tidak cocok dengan classfier-nya atau parameter input yang tidak bagus. Dua kemungkinan ini belum ditemukan batasanya, sehingga sulit untuk dibedakan. Oleh karena itu diperlukan penelitian lebih lanjut mengenai outlier detection ini.
Daftar Pustaka
[1] Fu Limin, “NEURAL NETWORKS IN COMPUTER INTELLIGENCE ”, University of Florida, Gainesville, MCGraw-Hill,Inc., 1994.
[2] Han. Jiawei, dan Kamber, Micleine, “Data Mining: Concepts and
Techniques”, Simon Fraser University: Morgan Kaufmann Publisher,
2001.
[3] Iko, ”Pengantar Data Mining”, 2004, http://www.ilmukomputer.com, didownload pada tanggal 1 Maret 2004.
[4] Kumar Vipin, Srivastava Jaidev, Lazarevic A, ”Data Mining for Analisys of Rare Event: A Case Study in Security, Financial and Medical Aplication, “Army High Performance Soft Computing Research Center Department of Computer Science, University of Miinesota, PKDD 2004 Tutorial.
[5] Kusumadewi Sri, “Artificial Intelegency (teknik dan Aplikasinya)”,
Graha Ilmu, Jogjakarta, 2003.
[6] N. Pang, M. Steinbach, V. Kumar, “introduction to DATA MINING”, University of Minnesota and Army High Performance computing research Center, USA, 2005.
[7] Nguyen Viet , “Self Organizing Map (SOM) for Anomaly Detection”, School of Electrical Engineering and computer Science Ohio University, Athens, Ohio 45701, USA.
[8] R. Pearson,W. Murray, and Metenmeyyer T, ”Finding Anomalies in
Medicare”, Program Review Division, Health Insurance Commission,
PO Box 1001 Tuggeranong DC ACT, 2001.
[9] Setiawan Indra, ”Analisis Dan Implemetasi Metode Self-Organizing Map Untuk Klasterisasi Data”, Jurusan Teknik Informatika Sekolah Tinggi Teknologi Telkom, Bandung, 2006.
[10] Tan, Steinbach, Kumar, “Data Mining Anomaly Detection”, Introduction To Data Mining, chap10_anomaly_detection.ppt, April 18, 2004.
[11] Wei Chun, “Investigate Data Minig in Froud Detection ”, Thesis, School of Business Sistem Monash Univerity, 2003.
[12] Yudhabakti Tetra, “Extraksi Pola Klasifikasi Menggunakan Jaringan Syaraf Tiruan Pada Data Mining”, Jurusan Teknik Informatika Sekolah Tinggi Teknologi Telkom, Bandung, 2005.
33
Powered by TCPDF (www.tcpdf.org)