• Tidak ada hasil yang ditemukan

KESIMPULAN DAN SARAN

TINJAUAN PUSTAKA

Data Mining

Data mining merupakan kegiatan untuk mengekstrak atau ”menambang” pengetahuan atau pola yang menarik (non-trivial, implisit, sebelumnya tidak dikenal) dari sejumlah data yang besar (Han & Kamber 2001).

Data yang akan diekstrak secara umum memiliki ciri-ciri sebagai berikut (Fayyad et al. 1996):

- Basis data dengan ukuran yang sangat besar. - Memiliki dimensi yang tinggi, ditandai

dengan besarnya jumlah field (atribut dan variabel) yang ada.

- Pendugaan statistik yang signifikan seperti permasalahan mencari banyaknya kemungkinan dari model.

- Data yang sering berubah-ubah. - Data yang kotor dan tidak lengkap. - Hubungan yang kompleks antara atributnya.

PENDAHULUAN

Latar Belakang

Berkembangnya peralatan-peralatan untuk koleksi data dan teknologi basis data dewasa ini telah mendorong organisasi dan perusahaan untuk menyimpan data secara besar-besaran dalam basis data, gudang data, dan media penyimpanan lainnya. Tetapi permasalahan yang ada sekarang adalah melimpahnya data yang dimiliki, tetapi kurang dimanfaatkan untuk mendapatkan informasi dari data yang besar itu.

Untuk mengatasi kesenjangan informasi ini, para ahli mengembangkan konsep data mining yang mengintegrasikan informasi data dari sumber-sumber yang berbeda, dan merancangnya dalam format yang sesuai untuk mengambil informasi-informasi yang tersembunyi sehingga berguna untuk membuat keputusan yang akurat (Hoffer et al. 2002). Salah satu teknik data mining yang digunakan adalah klasifikasi.

Klasifikasi merupakan salah satu metode analisis data yang dapat digunakan untuk memperkirakan nilai beberapa atribut di dalam suatu basis data berdasarkan atribut-atribut lainnya (Au & Chan 2001). Sebagai contoh pihak instansi pemerintah khususnya dari PLN ingin menentukan jumlah keluarga pengguna listrik PLN di suatu desa apakah sedikit atau banyak berdasarkan jumlah keluarga prasejahtera sejahtera I atau berdasarkan jumlah pengangguran di desa tersebut. Ada beberapa konsep dalam mengklasifikasi data, salah satunya dengan konsep himpunan fuzzy.

Konsep himpunan fuzzy dipilih karena dapat lebih dipahami manusia dan lebih baik dalam menangani data numerik. Contoh pengklasifikasian dengan himpunan fuzzy adalah ”Jika jumlah keluarga prasejahtera sejahtera I banyak maka jumlah keluarga pengguna listrik PLN banyak”

Pada penelitian kali ini proses data mining akan diterapkan pada basis data mengenai potensi desa di Indonesia. Di dalam basis data tersebut terdapat 750 atribut dan tiap tahun mengalami update data. Khusus pada tahun 2003 data tersebut memiliki jumlah record sebanyak 65536. Dengan diterapkannya proses data mining ke data potensi desa diharapkan dapat menghasilkan informasi atau pengetahuan yang penting dan berguna sehingga mempunyai nilai guna lebih untuk keperluan di masa mendatang.

Tujuan Penelitian

Tujuan penelitian ini adalah:

1 Menerapkan proses data mining menggunakan klasifikasi fuzzy untuk menganalisis suatu data potensi desa di pulau Jawa tahun 2003.

2 Mendapatkan aturan-aturan yang menarik dari data potensi desa dengan menggunakan pendekatan logika fuzzy.

3 Menentukan nilai dan kelas atribut yang belum diketahui berdasarkan aturan-aturan yang ditemukan.

Ruang Lingkup Penelitian

Penelitian ini hanya dibatasi untuk membuat aplikasi perangkat lunak yang digunakan untuk proses data mining menggunakan metode klasifikasi dengan menggunakan pendekatan logika fuzzy pada 5 atribut pada data PODES 2003 di pulau Jawa. Perangkat lunak tersebut dapat juga menghasilkan aturan-aturan dan yang selanjutnya digunakan untuk menentukan suatu nilai atribut yang belum diketahui nilai dan kelasnya.

Manfaat Penelitian

Penelitian bermanfaat agar data PODES 2003 yang diolah dengan aplikasi data mining, dapat digunakan untuk melihat pola keterkaitan antardata. Aplikasi tersebut juga dapat dimanfaatkan untuk mengisi nilai suatu atribut yang kosong pada data PODES 2003 berdasarkan nilai aribut lain yang telah diketahui dan menentukan kelas data dari nilai yang dicari.

TINJAUAN PUSTAKA

Data Mining

Data mining merupakan kegiatan untuk mengekstrak atau ”menambang” pengetahuan atau pola yang menarik (non-trivial, implisit, sebelumnya tidak dikenal) dari sejumlah data yang besar (Han & Kamber 2001).

Data yang akan diekstrak secara umum memiliki ciri-ciri sebagai berikut (Fayyad et al. 1996):

- Basis data dengan ukuran yang sangat besar. - Memiliki dimensi yang tinggi, ditandai

dengan besarnya jumlah field (atribut dan variabel) yang ada.

- Pendugaan statistik yang signifikan seperti permasalahan mencari banyaknya kemungkinan dari model.

- Data yang sering berubah-ubah. - Data yang kotor dan tidak lengkap. - Hubungan yang kompleks antara atributnya.

- Permasalahan integrasi dengan sistem- sistem yang berbeda.

Data mining memiliki beberapa teknik yang dapat diterapkan, antara lain (Han & Kamber 2001):

1 Aturan asosiasi, merupakan teknik data mining untuk menemukan aturan asosiatif antara suatu kombinasi item. Penting tidaknya suatu aturan asosiatif dapat diketahui dengan dua parameter, support yaitu persentase kombinasi tersebut dalam basis data, dan confidence, kuatnya hubungan antaritem dalam aturan asosiatif. 2 Klasifikasi merupakan proses menemukan

sekumpulan model (atau fungsi) yang menjelaskan dan membedakan kelas data atau konsep-konsep, dengan tujuan agar mampu menggunakan model tersebut untuk menentukan suatu objek yang label kelasnya belum diketahui.

3 Clustering. Tidak seperti klasifikasi dimana kelas data telah ditentukan terlebih dahulu, clustering melakukan pengelompokan data tanpa diketahui terlebih dahulu label kelasnya. Objek yang dikelompokkan tersebut didasarkan prinsip memaksimalkan kesamaan antar anggota dalam satu kelas dan meminimalkan kesamaan antarkelas.

Knowledge Discovery in Database (KDD)

Proses dasar sistem dalam data mining dapat dipandang sebagai proses KDD (Knowledge Discovery in Databases) (Gambar 1) yang memiliki beberapa tahap sebagai berikut (Han & Kamber 2001):

1 Pembersihan data: merupakan tahapan untuk membersihkan data. Pembersihan data mempunyai peran untuk menangani nilai– nilai yang hilang, meminimalkan pengotor data, dan membetulkan data yang tidak konsisten.

2 Pengintegrasian data: merupakan tahapan untuk menggabungkan data dari berbagai macam tipe data dan sumber ke dalam tempat yang terpadu. Sumber yang dimaksud bisa berupa beberapa basis data, kubus data, ataupun sebuah file.

3 Seleksi data: merupakan proses pemilihan data yang relevan untuk proses analisis. 4 Transformasi data: merupakan tahapan

untuk mentransformasi data ke dalam bentuk yang sesuai untuk proses mining. 5 Data mining: merupakan proses inti dari

KDD untuk melakukan analisis dari suatu data tertentu.

6 Evaluasi pola: berguna untuk

mengidentifikasi pola yang benar-benar menarik untuk penyajian pengetahuan.

7 Penyajian pengetahuan: merupakan tahapan terakhir dengan menyajikan pengetahuan secara visual terhadap hasil proses mining.

Gambar1 Proses KDD (Han & Kamber 2001)

Himpunan Fuzzy

Sebuah himpunan fuzzy merupakan himpunan tanpa ada batasan yang tegas (crisp boundary) yaitu dengan memperhalus batasan yang tegas dengan fungsi keanggotaan. Fungsi keanggotaan memberikan himpunan fuzzy fleksibilitas dalam pemodelan yang secara umum menggunakan ekspresi linguistik seperti ”gaji rendah” (Jang et al., 1997).

Jika X adalah sekumpulan objek yang dilambangkan secara umum oleh x, maka himpunan fuzzy A di dalam X didefinisikan sebagai himpunan pasangan sebagai berikut (Jang et al. 1997):

},

|

))

(

,

{(x

x

x

X

A=

μ

A

dimana μA(x) adalah fungsi keanggotaan untuk himpunan fuzzy A. Fungsi keanggotaan memetakan masing-masing anggota X dengan nilai antara 0 dan 1.

Fuzzy C-Means (FCM)

Fuzzy clustering adalah salah satu teknik untuk menentukan cluster optimal dalam suatu ruang vektor yang didasarkan pada bentuk normal Euclidian untuk jarak antar vektor (Kusumadewi 2002). Ada beberapa algoritma clustering data, salah satu diantaranya adalah Fuzzy C-Means (FCM).

Fuzzy C-Means (FCM) adalah suatu teknik peng-cluster-an data dimana keberadaan tiap- tiap titik data dalam suatu cluster ditentukan oleh derajat keanggotaan. Teknik ini pertama kali diperkenalkan oleh Jim Bezdek pada tahun 1981 (Kusumadewi 2002).

Pada konsep dasar FCM, yang pertama adalah menentukan pusat cluster, yang akan menandai lokasi rata-rata untuk tiap-tiap cluster. Pada kondisi awal, pusat cluster ini masih belum akurat. Misalnya tiap-tiap titik

= =

=

N k w ik N k k w ik f

u

i

v

1 1

)

(

)

(

μ

μ

= =

=

N k w ik N k k w ik f

u

i

v

1 1

)

(

)

(

μ

μ

2 1 1

)

(

)

(c

v

i

P

k f N k c i w ik t

=

∑∑

= =

μ

μ

1 1 =

= c i ik μ

data memiliki derajat keanggotaan untuk tiap cluster, dengan cara memperbaiki pusat cluster dan derajat keanggotaan tiap-tiap titik secara berulang, maka akan dapat dilihat bahwa pusat cluster akan bergerak menuju ke lokasi yang tepat. Perulangan ini didasarkan pada minimalisasi fungsi obyektif yang menggambarkan jarak dari titik data yang diberikan ke pusat cluster yang berbobot oleh derajat keanggotaan titik data tersebut. Keluaran dari FCM merupakan deretan pusat cluster dan beberapa derajat keanggotaan untuk tiap-tiap titik data.

Apabila terdapat suatu himpunan data sebagai berikut:

U = (u1, u2, u3,..., uN)

derajat keanggotaan suatu titik data ke-k di cluster-i adalah:

μ

ik (uk) ∈ [0,1] dengan (1 ≤ i ≤ c; 1 ≤ k ≤ N) Pada metode FCM, matriks partisi didefinisikan sebagai: μ11[u1] μ21[u1] ... μc1[u1] μ12[u2] μ21[u2] ... μc1[u2] μ1N[uN] μ2N[un] ... μcN[uN] dengan

yang berarti bahwa jumlah nilai keanggotaan suatu data pada semua cluster harus sama dengan 1.

Fungsi obyektif iterasi ke-t P(c) pada matriks partisi adalah:

dengan vf i adalah pusat vektor pada cluster fuzzy ke-i,

dan w adalah bobot pada nilai-nilai keanggotaan, μkvfi adalah bentuk normal

Euclidian yang digunakan sebagai jarak antara uk dan vf i (Kusumadewi 2002).

Algoritma FCM adalah sebagai berikut (Kusumadewi 2002):

1 Tetapkan matriks partisi

μ

f(c) awal sembarang, sebagai berikut:

μ11[u1] μ21[u1] ... μc1[u1] μ12[u2] μ21[u2] ... μc1[u2]

μ1N[uN] μ2N[un] ... μcN[uN] 2 Tetapkan nilai w > 1 (misal w = 2), Eps

sangat kecil (misal 10-5), MaxIter (misal 100). Jumlah cluster c > 1, dan t = 0; 3 Tetapkan fungsi obyektif awal: Pt(c) secara

acak;

4 Naikkan nomor iterasi: t = t + 1;

5 Hitung pusat vektor tiap-tiap cluster untuk matriks partisi tersebut sebagai berikut:

6 Modifikasi tiap-tiap nilai keanggotaan sebagai berikut: - jika yk≠ vf i, 1 ) 1 ( 1 1 2 2 ) ( − − = ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ − − =

w c g g k f k k ik i v u i v u y

μ

- jika yk = vf i,

μ

ik (yk) = 1, jika i = g;

μ

ik (yk) = 0, jika i ≠ g;

7 Modifikasi matriks partisi sebagai berikut:

μ11[u1] μ21[u1] ... μc1[u1] μ12[u2] μ21[u2] ... μc1[u2]

μ1N[uN] μ2N[un] ... μcN[uN] 8 Hitung fungsi obyektif:

2 1 1

)

(

)

(c

y

v

i

P

k f N k c i w ik t

=

∑∑

= =

μ

9 Cek kondisi berhenti, yaitu:

( | Pt(c) – Pt-1(c) | < Eps) atau (t > MaxIter)

Jika memenuhi langkah-9, maka berhenti. Jika tidak, ulangi lagi dari langkah-4.

Pendekatan Fuzzy dalam Data mining

Misalkan diberikan suatu kumpulan record data D yang masing-masing berisi sekumpulan atribut I = {I1, I2, …, In} dimana Iv, v=1, …, n atribut dapat merupakan data kuantitatif atau data kategori. Daerah asal atribut Iv (dom(Iv))

μ

f(c) =

μ

f(c) =

μ

f(c) =

merupakan himpunan bagian dari bilangan nyata, dom(Iv)⊆ℜ.

Berdasarkan teori himpunan fuzzy, himpunan terminologi linguistik (Lvr, r = 1, …, sv, dengan sv: banyaknya variabel linguistik) didefinisikan sebagai daerah asal dari suatu atribut dan direpresentasikan dengan himpunan fuzzy

L

vr

.

Fungsi keanggotaan

Lvr

)

dari

sebuah himpunan fuzzy,

L

vr, didefinisikan sebagai berikut (Au & Chan 2001):

1] , 0 [ ) ( : vLvr domI μ

dimana fungsi keanggotaan memetakan masing- masing atribut ke dalam suatu nilai keanggotaan antara 0 dan 1.

Sedangkan untuk himpunan fuzzy Lvr

didefinisikan sebagai berikut (Au & Chan, 2001): ⎪ ⎪ ⎩ ⎪⎪ ⎨ ⎧ =

) ( ) ( kontinu jika ) ( diskret jika ) ( v vr vr vr I dom v v v L I dom v v v L vr I i i I i i L μ μ

Jika atribut IvI adalah variabel kategori maka dom(Iv)={iv1 ,...,ivmv}

melambangkan daerah asal dari Iv dengan m kategori. Himpunan fuzzy untuk Atribut Iv didefinisikan sebagai berikut (Au & Chan, 2001):

vr vr

i

L

=

1

dengan r = 1, ..., mv.

Derajat keanggotaan dari suatu nilai di record d D pada atribut Iv dilambangkan dengan L (d[Iv]).

vr

μ Jika L (d[Iv])

vr

μ = 1, d

secara lengkap dicirikan oleh terminologi Lvr. Jika L

(d[I

v

])

vr

μ

= 0, maka d tidak dicirikan oleh terminologi Lvr, sedangkan jika 0<

μ

Lvr(d[Iv])<1, maka d dicirikan sebagian

oleh terminologi Lvr.

Pada kenyataannya d dapat juga dicirikan oleh lebih dari satu terminologi linguistik. Misalkan φ himpunan dari bilangan integer dengan φ = {v1, ..., vm} dimana v1, ..., vm∈ { 1, ..., n}, v1≠ ... ≠vm, dan |φ| = h ≥1, maka derajat,

(d),

r

ϕ

Dokumen terkait