AANGTI2 Data Mining Workflow dengan Segitiga Fuzzy

(1)

DATA MINING WORKFLOW DENGAN SEGITIGA FUZZY

A ang Subiyakto

Abstrak

Paper ini membahas tentang konsep penggunaan Segitiga Fuzzy (SF) dalam dalam pengembangan data mining (DT), menjelaskan model framework konseptual dari DT dengan SF pada technique layer. Tujuannya adalah untuk memberikan gambaran alternatif optimalisasiDM

dalam workflow. Hal ini terkait dengan penentuan bagaimana peranan SF sebagai DM tools. Kesimpulannya adalah bahwa SF secara teoritik memberikan beberapa kelebihan dalam pengembangan DM. Hal ini didukung oleh hasil penelitian yang menjadi kajian bahwa penggunaan SF bisa menjadi pilihan terkait simplicity, elegance dan robustness.

Kata kunci: SF, DM, technique layer, framework dan workflow

1. Pendahuluan

DM merupakan salah satu komponen sistem pendukung keputusan dalam aplikasi

kecerdasan bisnis yang meningkatkan nilai lebih dari suatu kumpulan data yang secara otomatis

dengan penerapan logika matematika tertentu [1]. Selanjutnya, DM memberikan hasil

pengolahan datanya ke sistem informasi eksekutif sebagai bahan pengambilan keputusan [2].

Secara umum, penggunaan algoritma sering digunakan dalam pengembangan DM [3]. Tetapi

dalam kasus-kasus tertentu, merata-ratakan beberapa nilai yang berdistribusi menjadi sebuah

nilai tunggal akan menyebabkan informasi dari nilai-nilai itu akan tereduksi [4]. Mereka

menjelaskan suatu metode yang memasukan semua informasi dari nilai-nilai yang terukur dari

suatu input device ke dalam bagian input data jaringan syaraf tiruan agar lebih

merepresentasikan keseluruhan data dan tidak ada informasi yang tereduksi dengan penggunaan

(2)

2. Segitiga Fuzzy

Sistem pengenalan pola tertentu dari kumpulan data sangat berkembang dan sebagian besar

menggunakan metode Jaringan Syaraf Tiruan (JST) seperti multilayer perceptron, back

propagation dan lainnya. Implementasi untuk tehnik pengenalan polapun, saat ini banyak sudah dimanfaatkan pada segala bidang antara lain untuk sistem peringatan dini akan bahaya kebocoran

gas, quality control untuk aroma, keperluan absensi pegawai dengan sidik jari, authenfication

berbagai sistem login. Pada sistem pengenalan pola secara umum terdapat beberapa komponen

yang terintegrasi. Komponen tersebut dikelompokan menjadi tiga bagian yaitu input data,

processing data dan output data. Pada input data dilengkapi dengan alat kontrol yang berfungsi seperti sensor yang akan menerima data dari suatu parameter.

Segitiga fuzzy merupakan suatu segitiga samakaki yang mempunyai tinggi sebesar satu

satuan. Bagian alas kaki sebelah kiri segitiga menyatakan nilai minimum dari data yang

terdistribusi dan bagian ujung kanannya menyatakan nilai maksimumnya, sedangkan nilai

mean-nya akan berada di tengah-tengah alas segitiga tersebut. Metode JST dengan menggunakan

segitiga fuzzy sebagai input data sudah diimplementasikan pada berbagai sistem dan hasilnya

dapat dikenali dengan baik. Sedangkan hasil investigasi untuk perbandingan dengan JST

menggunakan back propagation menunjukkan bahwa JST segitiga fuzzy ini lebih unggul [4].

2.1. Metode Pembelajaran Segitiga Fuzzy

Gbr. 1 menunjukkan segitiga fuzzy normalisasi dari sejumlah data masukan diambil dari

sebuah input device, hasilnya apabila data bervariasi lebih besar, maka segitiga fuzzy akan

menjadi besar pula. Nilai mean dari segitiga fuzzy di atas akan disimbolkan dengan xij dengan j

adalah jenis sensor dan i adalah jenis kategori aroma. Lebar segitiga dinyatakan sebagai

(3)

Gbr. 1. Segitiga Fuzzy [4]

2.2. Aturan Pembelajaran

Nilai bobot atau weight factor pada JST yang menggunakan input data berbentuk segitiga

fuzzy akan mempunyai bentuk dalam segitiga fuzzy pula. Proses pembelajaran sama dengan

JST untuk Learning Vector Quantization. Terdapat tiga aturan pembelajaran untuk melakukan

perubahan nilai bobot yang dalam hal ini dinamakan segitiga fuzzy referensi. Pertama, bila

segitiga fuzzy hasil pengukuran yang dinamakan segitiga fuzzy training mempunyai kategori

yang sama dengan segitiga fuzzy referensinya, maka dilakukan pergeseran posisi segitiga

referensi dengan mendekati posisi segitiga fuzzy training dan dilakukan pelebaran dispersi

(minimum dan maksimum).

Kedua, bila segitiga fuzzy training mempunyai kategori yang berbeda dengan segitiga fuzzy

referensinya, maka dilakukan pergeseran posisi segitiga referensi dengan menjauhkan posisi

segitiga fuzzy training dan dilakukan penyempitan dispersi (minimum dan maksimum). Ketiga,

bila segitiga fuzzy training dan segitiga fuzzy referensinya tidak dapat dioperasikan berarti

ditemukan suatu kategori baru, maka semua segitiga referensi akan dilebarkan jangkauan

dispersinya (minimum dan maksimum). Pada saat awal pembelajaran, segitiga fuzzy refenrensi

perlu diinialisasikan secara acak. Selanjutnya akhir proses pembelajaran akan mendapatkan

segitiga fuzzy referensi berbagai kategori, yang semuanya akan disimpan dalam suatu kodebook

(4)

2.3. Rumus pergeseran

Menurut aturan pembelajaran diatas maka untuk kasus pertama yaitu apabila jaringan

memberikan hasil yang benar, maka nilai m dari segitiga referensi akan diperbarui berdasarkan :

mij(t+1) = mij(t)+ (t) {(1-mij(t)}*{Xj(t)-mij(t)} ... 1)

Dengan adalah laju pembelajaran, selanjutnya nilai kiri dan kanan segitiga fuzzy referensi

pemenang dilebarkan dengan rumus :

m(t+1) = (f i- (mij-f i), mij, f a+ /f a-mij) ... 2)

Dengan adalah konstanta pelebaran. Untuk kasus kedua, yaitu apabila jaringan memberikan

hasil yang salah, maka nilai m dari segitiga fuzzy referensi akan diperbarui dengan,

mij(t+1) = mij(t)- (t) (1-mij(t)} * {Xj(t)-mij(t)} ... 3)

Selanjutnya nilai selanjutnya nilai kiri dan kanan segitiga fuzzy referensi pemenang disempitkan

dengan rumus :

m(t+1) = (f i+(i-j).(mij-f i)i, mij, f a-(i-j) (f a-mij)) ... 4)

Dengan adalah konstanta penyempitan. Untuk kasus ketiga yaitu apabila tidak ada perpotongan

antara kedua segitiga fuzzy training dan referensi, maka segitiga fuzzy referensi untuk seluruh

kategori dilebarkan dengan menggunakan persamaan,

mij(t+1) = * mij(t) ... 5)

3. Konsep Proses Permodelan DM

Hornick MF et al. [5] mendefinisikan DM sebagai sebuah proses menemukan model dan

relasi-relasi dalam data. Sebuah model yang menggambarkan penggunaan data secara historical

dan mengaplikasikannya dalam suatu model baru untuk memperkiraan kecenderungan tertentu

(classification dan regression), segmentasi populasi (clustering), penentuan relasi dalam pupulasi

(association) dan sebagai identifikasi identitas (attribute importance). Yao et al. [6] menjelaskan

sebuah framework konseptual dari DM dalam dua isu, yaitu bagaimana menjawab

(5)

Gbr. 2. Tiga Layer Framework Konseptual DM [6]

Selanjutnya mereka menjelaskan framework konseptual DM dalam tiga layer (Gbr. 2), yaitu

1) philosophy layer, bagian yang menginvestigasi dasar-dasar pengetahuan DM dan

menerjemahkannya ke dalam kenyataan, 2) technique layer, menjabarkan pengetahuan ke

konteks ilmu komputer dalam bentuk bahasa pemrograman dan 3) application layer,

menjabarkan efektifitas penggunaan pengetahuan Layer ini fokus pada penerjemahan kosa kata

usefulness dan meaningfulness ke dalam bidang aplikasi tertentu dengan atribut-atribut efficiency,

optimization, reliability, cost-effectiveness dan appropriateness untuk memenuhi kebutuhan riil dalam penerapannya.

4. Kesimpulan

Penjelasan workflow DM oleh Hornick MF et al. [5] memperjelas gambaran framework di

atas (Gbr. 3). Secara sederhana mereka menjelaskan DM sebagai sebuah aliran proses sebagai

(6)

menentukan kualitas data yang dibutuhkan. Kedua, mentransformasikan data dengan DM tool

dengan penggunaan model matematika ke dalam bentuk model data baru.

Gbr. 3. Workflow DM ([5], Diadopsi)

Peranan model matematika dalam sub proses ini adalah mengekstrasi data sumber menjadi

model data baru sesuai kebutuhan domain dan ketiga, pengolahan data dari model data baru ke

dalam bentuk informasi sesuai jenis kebutuhan proses bisnis pengguna. Dan SF dapat

direkomendasikan sebagai DM tool dengan jenis parameter tertentu dan terukur dari suatu input

device ke dalam bagian input data JST agar lebih merepresentasikan keseluruhan basis data dengan tidak ada informasi yang tereduksi.

Referensi:

[1] Khosrow-Pour Mehdi. Dictionary of information science and technology. Vol. 1. Hershey:

Idea Group Reference: 2007

[2] Stenzel Joe et al. CIO Best Practices Enabling Strategic Value with Information Technology. New Jersey: John Wiley & Sons, Inc.; 2007

[3] Wu Xindong et al. Top 10 algorithms in data mining. Di dalam: Knowledge Information

System. Vol. 14. London: Springer; 2008. hlm. 1 37

[4] Budiarto Hary dan Subiyakto A ang. Pengenalan Pola dengan Segitiga Fuzzy untuk Model

Input Data yang Berdistribusi. Prosiding. Bandung: Konferensi Nasional Sistem Informasi;

(7)

18 Feb 2006

[5] Hornick MF et al. Java Data Mining: Strategy, Standard, and Practice. A Practical Guide

for Architecture, Design, and Implementation. San Francisco: Morgan Kaufmann Publishers; 2007

[6] Yao Yiyu et al. A conceptual framework of data mining. Di dalam: Lin TY, Xie Y,

Wasilewska A, Liau CJ, editor. Data Mining: Foundations and Practice. Vol. 118. Berlin:

Springer; 2008. hlm. 501-516