DATA MINING WORKFLOW DENGAN SEGITIGA FUZZY
A ang Subiyakto
E-mail: aangsubiyakto@yahoo.com
Abstrak
Paper ini membahas tentang konsep penggunaan Segitiga Fuzzy (SF) dalam dalam pengembangan data mining (DT), menjelaskan model framework konseptual dari DT dengan SF pada technique layer. Tujuannya adalah untuk memberikan gambaran alternatif optimalisasiDM
dalam workflow. Hal ini terkait dengan penentuan bagaimana peranan SF sebagai DM tools. Kesimpulannya adalah bahwa SF secara teoritik memberikan beberapa kelebihan dalam pengembangan DM. Hal ini didukung oleh hasil penelitian yang menjadi kajian bahwa penggunaan SF bisa menjadi pilihan terkait simplicity, elegance dan robustness.
Kata kunci: SF, DM, technique layer, framework dan workflow
1. Pendahuluan
DM merupakan salah satu komponen sistem pendukung keputusan dalam aplikasi
kecerdasan bisnis yang meningkatkan nilai lebih dari suatu kumpulan data yang secara otomatis
dengan penerapan logika matematika tertentu [1]. Selanjutnya, DM memberikan hasil
pengolahan datanya ke sistem informasi eksekutif sebagai bahan pengambilan keputusan [2].
Secara umum, penggunaan algoritma sering digunakan dalam pengembangan DM [3]. Tetapi
dalam kasus-kasus tertentu, merata-ratakan beberapa nilai yang berdistribusi menjadi sebuah
nilai tunggal akan menyebabkan informasi dari nilai-nilai itu akan tereduksi [4]. Mereka
menjelaskan suatu metode yang memasukan semua informasi dari nilai-nilai yang terukur dari
suatu input device ke dalam bagian input data jaringan syaraf tiruan agar lebih
merepresentasikan keseluruhan data dan tidak ada informasi yang tereduksi dengan penggunaan
2. Segitiga Fuzzy
Sistem pengenalan pola tertentu dari kumpulan data sangat berkembang dan sebagian besar
menggunakan metode Jaringan Syaraf Tiruan (JST) seperti multilayer perceptron, back
propagation dan lainnya. Implementasi untuk tehnik pengenalan polapun, saat ini banyak sudah dimanfaatkan pada segala bidang antara lain untuk sistem peringatan dini akan bahaya kebocoran
gas, quality control untuk aroma, keperluan absensi pegawai dengan sidik jari, authenfication
berbagai sistem login. Pada sistem pengenalan pola secara umum terdapat beberapa komponen
yang terintegrasi. Komponen tersebut dikelompokan menjadi tiga bagian yaitu input data,
processing data dan output data. Pada input data dilengkapi dengan alat kontrol yang berfungsi seperti sensor yang akan menerima data dari suatu parameter.
Segitiga fuzzy merupakan suatu segitiga samakaki yang mempunyai tinggi sebesar satu
satuan. Bagian alas kaki sebelah kiri segitiga menyatakan nilai minimum dari data yang
terdistribusi dan bagian ujung kanannya menyatakan nilai maksimumnya, sedangkan nilai
mean-nya akan berada di tengah-tengah alas segitiga tersebut. Metode JST dengan menggunakan
segitiga fuzzy sebagai input data sudah diimplementasikan pada berbagai sistem dan hasilnya
dapat dikenali dengan baik. Sedangkan hasil investigasi untuk perbandingan dengan JST
menggunakan back propagation menunjukkan bahwa JST segitiga fuzzy ini lebih unggul [4].
2.1. Metode Pembelajaran Segitiga Fuzzy
Gbr. 1 menunjukkan segitiga fuzzy normalisasi dari sejumlah data masukan diambil dari
sebuah input device, hasilnya apabila data bervariasi lebih besar, maka segitiga fuzzy akan
menjadi besar pula. Nilai mean dari segitiga fuzzy di atas akan disimbolkan dengan xij dengan j
adalah jenis sensor dan i adalah jenis kategori aroma. Lebar segitiga dinyatakan sebagai
Gbr. 1. Segitiga Fuzzy [4]
2.2. Aturan Pembelajaran
Nilai bobot atau weight factor pada JST yang menggunakan input data berbentuk segitiga
fuzzy akan mempunyai bentuk dalam segitiga fuzzy pula. Proses pembelajaran sama dengan
JST untuk Learning Vector Quantization. Terdapat tiga aturan pembelajaran untuk melakukan
perubahan nilai bobot yang dalam hal ini dinamakan segitiga fuzzy referensi. Pertama, bila
segitiga fuzzy hasil pengukuran yang dinamakan segitiga fuzzy training mempunyai kategori
yang sama dengan segitiga fuzzy referensinya, maka dilakukan pergeseran posisi segitiga
referensi dengan mendekati posisi segitiga fuzzy training dan dilakukan pelebaran dispersi
(minimum dan maksimum).
Kedua, bila segitiga fuzzy training mempunyai kategori yang berbeda dengan segitiga fuzzy
referensinya, maka dilakukan pergeseran posisi segitiga referensi dengan menjauhkan posisi
segitiga fuzzy training dan dilakukan penyempitan dispersi (minimum dan maksimum). Ketiga,
bila segitiga fuzzy training dan segitiga fuzzy referensinya tidak dapat dioperasikan berarti
ditemukan suatu kategori baru, maka semua segitiga referensi akan dilebarkan jangkauan
dispersinya (minimum dan maksimum). Pada saat awal pembelajaran, segitiga fuzzy refenrensi
perlu diinialisasikan secara acak. Selanjutnya akhir proses pembelajaran akan mendapatkan
segitiga fuzzy referensi berbagai kategori, yang semuanya akan disimpan dalam suatu kodebook
2.3. Rumus pergeseran
Menurut aturan pembelajaran diatas maka untuk kasus pertama yaitu apabila jaringan
memberikan hasil yang benar, maka nilai m dari segitiga referensi akan diperbarui berdasarkan :
mij(t+1) = mij(t)+ (t) {(1-mij(t)}*{Xj(t)-mij(t)} ... 1)
Dengan adalah laju pembelajaran, selanjutnya nilai kiri dan kanan segitiga fuzzy referensi
pemenang dilebarkan dengan rumus :
m(t+1) = (f i- (mij-f i), mij, f a+ /f a-mij) ... 2)
Dengan adalah konstanta pelebaran. Untuk kasus kedua, yaitu apabila jaringan memberikan
hasil yang salah, maka nilai m dari segitiga fuzzy referensi akan diperbarui dengan,
mij(t+1) = mij(t)- (t) (1-mij(t)} * {Xj(t)-mij(t)} ... 3)
Selanjutnya nilai selanjutnya nilai kiri dan kanan segitiga fuzzy referensi pemenang disempitkan
dengan rumus :
m(t+1) = (f i+(i-j).(mij-f i)i, mij, f a-(i-j) (f a-mij)) ... 4)
Dengan adalah konstanta penyempitan. Untuk kasus ketiga yaitu apabila tidak ada perpotongan
antara kedua segitiga fuzzy training dan referensi, maka segitiga fuzzy referensi untuk seluruh
kategori dilebarkan dengan menggunakan persamaan,
mij(t+1) = * mij(t) ... 5)
3. Konsep Proses Permodelan DM
Hornick MF et al. [5] mendefinisikan DM sebagai sebuah proses menemukan model dan
relasi-relasi dalam data. Sebuah model yang menggambarkan penggunaan data secara historical
dan mengaplikasikannya dalam suatu model baru untuk memperkiraan kecenderungan tertentu
(classification dan regression), segmentasi populasi (clustering), penentuan relasi dalam pupulasi
(association) dan sebagai identifikasi identitas (attribute importance). Yao et al. [6] menjelaskan
sebuah framework konseptual dari DM dalam dua isu, yaitu bagaimana menjawab
Gbr. 2. Tiga Layer Framework Konseptual DM [6]
Selanjutnya mereka menjelaskan framework konseptual DM dalam tiga layer (Gbr. 2), yaitu
1) philosophy layer, bagian yang menginvestigasi dasar-dasar pengetahuan DM dan
menerjemahkannya ke dalam kenyataan, 2) technique layer, menjabarkan pengetahuan ke
konteks ilmu komputer dalam bentuk bahasa pemrograman dan 3) application layer,
menjabarkan efektifitas penggunaan pengetahuan Layer ini fokus pada penerjemahan kosa kata
usefulness dan meaningfulness ke dalam bidang aplikasi tertentu dengan atribut-atribut efficiency,
optimization, reliability, cost-effectiveness dan appropriateness untuk memenuhi kebutuhan riil dalam penerapannya.
4. Kesimpulan
Penjelasan workflow DM oleh Hornick MF et al. [5] memperjelas gambaran framework di
atas (Gbr. 3). Secara sederhana mereka menjelaskan DM sebagai sebuah aliran proses sebagai
menentukan kualitas data yang dibutuhkan. Kedua, mentransformasikan data dengan DM tool
dengan penggunaan model matematika ke dalam bentuk model data baru.
Gbr. 3. Workflow DM ([5], Diadopsi)
Peranan model matematika dalam sub proses ini adalah mengekstrasi data sumber menjadi
model data baru sesuai kebutuhan domain dan ketiga, pengolahan data dari model data baru ke
dalam bentuk informasi sesuai jenis kebutuhan proses bisnis pengguna. Dan SF dapat
direkomendasikan sebagai DM tool dengan jenis parameter tertentu dan terukur dari suatu input
device ke dalam bagian input data JST agar lebih merepresentasikan keseluruhan basis data dengan tidak ada informasi yang tereduksi.
Referensi:
[1] Khosrow-Pour Mehdi. Dictionary of information science and technology. Vol. 1. Hershey:
Idea Group Reference: 2007
[2] Stenzel Joe et al. CIO Best Practices Enabling Strategic Value with Information Technology. New Jersey: John Wiley & Sons, Inc.; 2007
[3] Wu Xindong et al. Top 10 algorithms in data mining. Di dalam: Knowledge Information
System. Vol. 14. London: Springer; 2008. hlm. 1 37
[4] Budiarto Hary dan Subiyakto A ang. Pengenalan Pola dengan Segitiga Fuzzy untuk Model
Input Data yang Berdistribusi. Prosiding. Bandung: Konferensi Nasional Sistem Informasi;
18 Feb 2006
[5] Hornick MF et al. Java Data Mining: Strategy, Standard, and Practice. A Practical Guide
for Architecture, Design, and Implementation. San Francisco: Morgan Kaufmann Publishers; 2007
[6] Yao Yiyu et al. A conceptual framework of data mining. Di dalam: Lin TY, Xie Y,
Wasilewska A, Liau CJ, editor. Data Mining: Foundations and Practice. Vol. 118. Berlin:
Springer; 2008. hlm. 501-516