Pembangunan Fuzzy Classifier untuk Data Potensi Desa 2003

(1)

ABSTRAK

AHMAD SUHAIRI. Pembangunan Fuzzy Classifier untuk Data Potensi Desa 2003. Dibimbing oleh IMAS SUKAESIH SITANGGANG dan WISNU ANANTA KUSUMA.

Penelitian ini bertujuan untuk membuat suatu aplikasi data mining menggunakan fuzzy classifier. Konsep himpunan fuzzy dipilih karena lebih baik dalam menangani data numerik dan dapat ”memperhalus” batasan yang tegas. Aplikasi ini diterapkan pada data potensi desa di Indonesia tahun 2003. Data potensi desa 2003 memiliki 750 atribut dan 65536 record. Untuk kebutuhan penelitian diambil 5 atribut numerik (jumlah keluarga prasejahtera sejahtera 1, jumlah pengangguran, jumlah keluarga pengguna listrik PLN, jumlah bangunan permanen, dan jumlah murid SD yang drop-out) dan 10500 record data (7500 record untuk data training dan 3000 data untuk data tes). Aplikasi yang dibuat dapat dimanfaatkan untuk menentukan nilai dan kelas atribut yang belum diketahui berdasarkan aturan-aturan yang ditemukan. Ada beberapa proses yang harus dilakukan antara lain merubah data ke dalam himpunan fuzzy, membangkitkan aturan fuzzy, memprediksi nilai dan kelas data target, mengevaluasi performa akurasi dan rms, terakhir menyajikan informasi dalam bentuk grafik dan tabel.

Setelah dicobakan dari berbagai data training dan data tes yang ada, didapatkan informasi sebagai berikut: Semakin banyak data training yang digunakan, maka jumlah aturan yang terbentuk semakin besar dengan kenaikan terbesar terjadi pada selang 1000 sampai 1500 data training. Semakin banyak antecedent yang ingin dibuat maka jumlah aturan yang terbentuk semakin sedikit. Semakin banyak data training yang digunakan, maka waktu untuk membangkitkan aturan juga semakin besar dengan kenaikannya secara linier. Banyaknya data training yang ada tidak berpengaruh signifikan dengan nilai akurasi dan rmse, yang mempengaruhi adalah nilai bobot dari masing-masing aturan. Persentase akurasi terbesar (80%) didapatkan jika atribut targetnya C3 (jumlah keluarga pengguna listrik PLN) dengan jumlah data training sebanyak 1000 data. Persentase terkecil (13%) didapatkan jika atribut targetnya C5 (Jumlah murid SD yang DO) untuk setiap jumlah data training yang ada. Evaluasi akurasi dan rmse akan mendapatkan hasil yang baik jika atribut yang dijadikan kelas target berasal dari atribut C3 (jumlah keluarga pengguna listrik PLN) atau C4 (jumlah bangunan permanen) dan digunakan sebagai model yang terbaik untuk memprediksi nilai dan kelas suatu data.

(2)

PEMBANGUNAN

FUZZY CLASSIFIER

UNTUK DATA POTENSI DESA 2003

Oleh :

AHMAD SUHAIRI

G64102014

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(3)

1 Pada tahap penyeleksian data hanya mempertimbangkan atribut yang numerik saja, pada penelitian selanjutnya dapat dipakai teknik data mining yang khusus untuk menyeleksi atribut yang relevan untuk dilakukan proses data mining.

2 Aturan yang terbentuk sebenarnya bisa diringkas lagi sehingga didapatkan aturan yang lebih sedikit, diharapkan proses meringkas aturan dapat diakukan pada penelitian selanjutnya.

DAFTAR PUSTAKA

Au, W. H., Chan, K. C. C. 2001. Classification with Degree of Membership: A Fuzzy Approach. Hasil ICDM’01.

Cheney W, Kincaid D. 1994. Numerical Mathematics and Computing. Brooks/Cole Publishing Company, California.

Fayyad, U. M., G. P. Shapiro, P. Smyth dan R Uthurusamy. 1996. Advances Knowledge Discovery and Data mining. American Association for Artificial Intelligence, California.

Han, J. M. Kamber. 2001. Data mining Concepts and mining. Morgan Kaufmann Publiser, USA.

Hoffer, J. A., M. B. Prescott dan F. R. McFadden. 2002. Modern Database Management Sixth Edition. Pearson Education, New Jersey.

Jang, J. S. R., C. T. Sun, E. Mizutani. 1997. Neuro-Fuzzy and Soft Computing. Prentice-Hall Inc., USA.

Kusumadewi, S. 2002. Analisis dan Desain Sistem Fuzzy Menggunakan Tool Box Matlab. Graha Ilmu, Yogyakarta.

Mustika, A. 2006. Pengembangan Aplikasi Data mining Menggunakan Fuzzy Association Rules [skripsi]

Shapiro, G. P. 2006. Machine Learning, Data mining, and Knowledge Discovery. http://www.kdnuggets.com/dmcourse/data_ mining_course

(4)

PEMBANGUNAN

FUZZY CLASSIFIER

Oleh :

AHMAD SUHAIRI

G64102014

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

(5)

ABSTRAK

AHMAD SUHAIRI. Pembangunan Fuzzy Classifier untuk Data Potensi Desa 2003. Dibimbing oleh IMAS SUKAESIH SITANGGANG dan WISNU ANANTA KUSUMA.

Penelitian ini bertujuan untuk membuat suatu aplikasi data mining menggunakan fuzzy classifier. Konsep himpunan fuzzy dipilih karena lebih baik dalam menangani data numerik dan dapat ”memperhalus” batasan yang tegas. Aplikasi ini diterapkan pada data potensi desa di Indonesia tahun 2003. Data potensi desa 2003 memiliki 750 atribut dan 65536 record. Untuk kebutuhan penelitian diambil 5 atribut numerik (jumlah keluarga prasejahtera sejahtera 1, jumlah pengangguran, jumlah keluarga pengguna listrik PLN, jumlah bangunan permanen, dan jumlah murid SD yang drop-out) dan 10500 record data (7500 record untuk data training dan 3000 data untuk data tes). Aplikasi yang dibuat dapat dimanfaatkan untuk menentukan nilai dan kelas atribut yang belum diketahui berdasarkan aturan-aturan yang ditemukan. Ada beberapa proses yang harus dilakukan antara lain merubah data ke dalam himpunan fuzzy, membangkitkan aturan fuzzy, memprediksi nilai dan kelas data target, mengevaluasi performa akurasi dan rms, terakhir menyajikan informasi dalam bentuk grafik dan tabel.

Setelah dicobakan dari berbagai data training dan data tes yang ada, didapatkan informasi sebagai berikut: Semakin banyak data training yang digunakan, maka jumlah aturan yang terbentuk semakin besar dengan kenaikan terbesar terjadi pada selang 1000 sampai 1500 data training. Semakin banyak antecedent yang ingin dibuat maka jumlah aturan yang terbentuk semakin sedikit. Semakin banyak data training yang digunakan, maka waktu untuk membangkitkan aturan juga semakin besar dengan kenaikannya secara linier. Banyaknya data training yang ada tidak berpengaruh signifikan dengan nilai akurasi dan rmse, yang mempengaruhi adalah nilai bobot dari masing-masing aturan. Persentase akurasi terbesar (80%) didapatkan jika atribut targetnya C3 (jumlah keluarga pengguna listrik PLN) dengan jumlah data training sebanyak 1000 data. Persentase terkecil (13%) didapatkan jika atribut targetnya C5 (Jumlah murid SD yang DO) untuk setiap jumlah data training yang ada. Evaluasi akurasi dan rmse akan mendapatkan hasil yang baik jika atribut yang dijadikan kelas target berasal dari atribut C3 (jumlah keluarga pengguna listrik PLN) atau C4 (jumlah bangunan permanen) dan digunakan sebagai model yang terbaik untuk memprediksi nilai dan kelas suatu data.

(6)

PEMBANGUNAN

FUZZY CLASSIFIER

Skripsi

sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer

pada Fakultas Matematika dan Ilmu Pengetahuan Alam

Institut Pertanian Bogor

Oleh :

AHMAD SUHAIRI

G64102014

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

(7)

Judul : Pembangunan

Fuzzy Classifier

untuk Data Potensi Desa 2003

Nama : Ahmad

Suhairi

NIM :

G64102014

Menyetujui:

Pembimbing I,

Imas S.Sitanggang, S.Si., M.Kom.

NIP 132 206 235

Pembimbing II,

Wisnu Ananta Kusuma, S.T, M.T

NIP 132 312 485

Mengetahui:

Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam

Institut Pertanian Bogor

Dr. Ir. Yonny Koesmaryono, MS

NIP 131 473 999

(8)

PRAKATA

Alhamdulillahi Rabbil ‘alamin, puja dan puji syukur penulis panjatkan kepada Allah SWT atas segala curahan rahmat dan karunia-Nya sehingga penelitian ini berhasil diselesaikan dengan baik. Shalawat dan salam selalu tercurah kepada junjungan dan suri teladan kita Nabi Muhammad SAW.

Topik yang dipilih dalam penelitian tugas akhir ini ialah data mining, dengan judul Pembangunan Fuzzy Cassification untuk Data Potensi Desa 2003.

Penyelesaian penelitian ini tidak terlepas dari bantuan berbagai pihak, karena itu penulis mengucapkan terima kasih sebesar-besarnya kepada:

1. Ayahanda Syahril Anwar dan Ibunda Zar’ah atas do’a dan kasih sayangnya yang tak terhingga selama ini.

2. Ibu Imas S. Sitanggang, S.Si., M.Kom. selaku pembimbing I, Bapak Wisnu Ananta Kusuma, S.T, M.T selaku pembimbing II.

3. Ibu Annisa, S.Kom selaku dosen penguji.

4. Kakakku Huzaemah, Humairoh, Fitriah atas dukungannya kepada penulis baik secara materi maupun moril. Adikku Rosidah, Zainal, dan Zauzi yang selalu membuat penulis merasa nyaman tinggal di rumah.

5. Arsha Mustika atas bantuan bahan penelitiannya kepada penulis.

6. Ibu kost yang baik hati dan murah senyum, terima kasih atas tempat kosannya yang nyaman. 7. Teman-teman sekosanku Firman, Zaki, Adi, Erus, Laode, Tri, Tedi, Ahim, Wisnu, Arif, Joko,

Wicak, dan Reza, segala kenangan indah di kosan tidak akan pernah penulis lupakan.

8. Teman-teman Ilkomerz 39, persahabatan dan persaudaraan kita yang indah selalu terikat dihati penulis.

9. Rekan-rekan DPM 2004, 2005, 2006 atas persaudaraan dan kebersamaannya, 10. Rekan-rekan LDK se-IPB atas perjuangan dan nasihatnya,

11. Seluruh staf dan karyawan Departemen Ilmu Komputer, serta pihak lain yang telah membantu dalam penyelesaian penelitian ini.

Segala kesempurnaan hanya milik Allah SWT, semoga hasil penelitian ini dapat bermanfaat, Amin.

Bogor, Agustus 2007

(9)

RIWAYAT HIDUP

Penulis dilahirkan di Jakarta pada tanggal 10 Oktober 1983 dari ayah Syahril Anwar dan ibu Ahmad Suhairi. Penulis merupakan putra ke empat dari tujuh bersaudara. Tahun 2002 penulis lulus dari SMU Negeri 29 Jakarta. Pada tahun yang sama penulis diterima di Program Studi Ilmu Komputer, Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor melalui jalur Undangan Seleksi Masuk IPB (USMI).

(10)

DAFTAR ISI

Halaman

DAFTAR TABEL ... viii

DAFTAR GAMBAR ... viii

DAFTAR LAMPIRAN ... viii

PENDAHULUAN Latar Belakang ... 1

Tujuan Penelitian ... 1

Ruang Lingkup Penelitian ... 1

Manfaat Penelitian ... 1

TINJAUAN PUSTAKA Data Mining ... 1

Knowledge Discovery in Database (KDD) ... 2

Himpunan Fuzzy ... 2

Fuzzy C-Means (FCM) ... 3

Pendekatan Fuzzy dalam Data Mining ... 4

Pencarian Aturan yang Menarik dalam Data Fuzzy ... 4

Representasi Ketidakpastian ... 5

Proses Defuzzifikasi ... 5

Integrasi Numerik dengan Metode Trapesium ... 6

Pengukuran Keakuratan Prediksi ... 6

Root Mean Squared Error (RMSE) ... 6

METODE PENELITIAN Proses Dasar Sistem ... 7

Lingkungan Pengembangan Sistem ... 8

HASIL DAN PEMBAHASAN Transformasi Data ... 8

Pembersihan Data ... 8

Seleksi Data ... 8

Data Mining ... 8

Pembentukan Himpunan Fuzzy ... 8

Pembentukan Basis Data ... 9

Pembentukan Aturan ... 9

Prediksi Nilai ... 10

Evaluasi Pola ... 10

KESIMPULAN DAN SARAN Kesimpulan ... 11

Saran ... 11

DAFTAR PUSTAKA ... 12

(11)

DAFTAR TABEL

Halaman

1 Atribut PODES 2003 yang telah ditransformasi ke himpunan fuzzy ... 8

2 Nilai minimum dan maksimum untuk masing-masing atribut ... 9

3 Banyaknya aturan orde ke satu (R1) untuk masing-masing data training ... 9

4 Banyaknya aturan orde ke dua, tiga, dan empat untuk masing-masing data training ... 9

5 Jumlah aturan yang terbentuk untuk masing-masing data training ... 9

6 Contoh aturan yang terbentuk dari 500 data training ... 9

7 Contoh perbandingan data prediksi dengan data sebenarnya ... 10

DAFTAR GAMBAR

Halaman 1 Proses KDD (Han & Kamber 2001) ... 2

2 Derajat record d dengan terminologi linguistik Lφr (Jang et al 1997) ... 4

3 Pendekatan trapesium untuk menghitung integral dari suatu fungsi f(x) (Cheney et al. 1994) ... 6

4 Jumlah aturan yang terbentuk pada jumlah data training yang ada ... 9

5 Grafik hubungan jumlah data training dengan waktu pembangkitan ... 10

6 Grafikhubungan jumlah data training dengan akurasi rata-rata tiap atribut target ... 10

7 Grafikhubungan jumlah data training dengan nilai rmse tiap atribut target ... 11

DAFTAR LAMPIRAN

Halaman 1 Tabel-tabel yang ada di data.mdb ... 14

2 120 Aturan yang terbentuk dari 500 data training ... 14

3 Performa akurasi untuk masing-masing data training dan data tes yang ada ... 19

(12)

PENDAHULUAN

Latar Belakang

Berkembangnya peralatan-peralatan untuk koleksi data dan teknologi basis data dewasa ini telah mendorong organisasi dan perusahaan untuk menyimpan data secara besar-besaran dalam basis data, gudang data, dan media penyimpanan lainnya. Tetapi permasalahan yang ada sekarang adalah melimpahnya data yang dimiliki, tetapi kurang dimanfaatkan untuk mendapatkan informasi dari data yang besar itu.

Untuk mengatasi kesenjangan informasi ini, para ahli mengembangkan konsep data mining yang mengintegrasikan informasi data dari sumber-sumber yang berbeda, dan merancangnya dalam format yang sesuai untuk mengambil informasi-informasi yang tersembunyi sehingga berguna untuk membuat keputusan yang akurat (Hoffer et al. 2002). Salah satu teknik data mining yang digunakan adalah klasifikasi.

Klasifikasi merupakan salah satu metode analisis data yang dapat digunakan untuk memperkirakan nilai beberapa atribut di dalam suatu basis data berdasarkan atribut-atribut lainnya (Au & Chan 2001). Sebagai contoh pihak instansi pemerintah khususnya dari PLN ingin menentukan jumlah keluarga pengguna listrik PLN di suatu desa apakah sedikit atau banyak berdasarkan jumlah keluarga prasejahtera sejahtera I atau berdasarkan jumlah pengangguran di desa tersebut. Ada beberapa konsep dalam mengklasifikasi data, salah satunya dengan konsep himpunan fuzzy.

Konsep himpunan fuzzy dipilih karena dapat lebih dipahami manusia dan lebih baik dalam menangani data numerik. Contoh pengklasifikasian dengan himpunan fuzzy adalah ”Jika jumlah keluarga prasejahtera sejahtera I banyak maka jumlah keluarga pengguna listrik PLN banyak”

Pada penelitian kali ini proses data mining akan diterapkan pada basis data mengenai potensi desa di Indonesia. Di dalam basis data tersebut terdapat 750 atribut dan tiap tahun mengalami update data. Khusus pada tahun 2003 data tersebut memiliki jumlah record sebanyak 65536. Dengan diterapkannya proses data mining ke data potensi desa diharapkan dapat menghasilkan informasi atau pengetahuan yang penting dan berguna sehingga mempunyai nilai guna lebih untuk keperluan di masa mendatang.

Tujuan Penelitian

Tujuan penelitian ini adalah:

1 Menerapkan proses data mining menggunakan klasifikasi fuzzy untuk menganalisis suatu data potensi desa di pulau Jawa tahun 2003.

2 Mendapatkan aturan-aturan yang menarik dari data potensi desa dengan menggunakan pendekatan logika fuzzy.

3 Menentukan nilai dan kelas atribut yang belum diketahui berdasarkan aturan-aturan yang ditemukan.

Ruang Lingkup Penelitian

Penelitian ini hanya dibatasi untuk membuat aplikasi perangkat lunak yang digunakan untuk proses data mining menggunakan metode klasifikasi dengan menggunakan pendekatan logika fuzzy pada 5 atribut pada data PODES 2003 di pulau Jawa. Perangkat lunak tersebut dapat juga menghasilkan aturan-aturan dan yang selanjutnya digunakan untuk menentukan suatu nilai atribut yang belum diketahui nilai dan kelasnya.

Manfaat Penelitian

Penelitian bermanfaat agar data PODES 2003 yang diolah dengan aplikasi data mining, dapat digunakan untuk melihat pola keterkaitan antardata. Aplikasi tersebut juga dapat dimanfaatkan untuk mengisi nilai suatu atribut yang kosong pada data PODES 2003 berdasarkan nilai aribut lain yang telah diketahui dan menentukan kelas data dari nilai yang dicari.

TINJAUAN PUSTAKA

Data Mining

Data mining merupakan kegiatan untuk mengekstrak atau ”menambang” pengetahuan atau pola yang menarik (non-trivial, implisit, sebelumnya tidak dikenal) dari sejumlah data yang besar (Han & Kamber 2001).

Data yang akan diekstrak secara umum memiliki ciri-ciri sebagai berikut (Fayyad et al. 1996):

- Basis data dengan ukuran yang sangat besar. - Memiliki dimensi yang tinggi, ditandai

dengan besarnya jumlah field (atribut dan variabel) yang ada.

- Pendugaan statistik yang signifikan seperti permasalahan mencari banyaknya kemungkinan dari model.

(13)

- Permasalahan integrasi dengan sistem-sistem yang berbeda.

Data mining memiliki beberapa teknik yang dapat diterapkan, antara lain (Han & Kamber 2001):

1 Aturan asosiasi, merupakan teknik data mining untuk menemukan aturan asosiatif antara suatu kombinasi item. Penting tidaknya suatu aturan asosiatif dapat diketahui dengan dua parameter, support yaitu persentase kombinasi tersebut dalam basis data, dan confidence, kuatnya hubungan antaritem dalam aturan asosiatif. 2 Klasifikasi merupakan proses menemukan

sekumpulan model (atau fungsi) yang menjelaskan dan membedakan kelas data atau konsep-konsep, dengan tujuan agar mampu menggunakan model tersebut untuk menentukan suatu objek yang label kelasnya belum diketahui.

3 Clustering. Tidak seperti klasifikasi dimana kelas data telah ditentukan terlebih dahulu, clustering melakukan pengelompokan data tanpa diketahui terlebih dahulu label kelasnya. Objek yang dikelompokkan tersebut didasarkan prinsip memaksimalkan kesamaan antar anggota dalam satu kelas dan meminimalkan kesamaan antarkelas.

Knowledge Discovery in Database (KDD)

Proses dasar sistem dalam data mining dapat dipandang sebagai proses KDD (Knowledge Discovery in Databases) (Gambar 1) yang memiliki beberapa tahap sebagai berikut (Han & Kamber 2001):

1 Pembersihan data: merupakan tahapan untuk membersihkan data. Pembersihan data mempunyai peran untuk menangani nilai– nilai yang hilang, meminimalkan pengotor data, dan membetulkan data yang tidak konsisten.

2 Pengintegrasian data: merupakan tahapan untuk menggabungkan data dari berbagai macam tipe data dan sumber ke dalam tempat yang terpadu. Sumber yang dimaksud bisa berupa beberapa basis data, kubus data, ataupun sebuah file.

3 Seleksi data: merupakan proses pemilihan data yang relevan untuk proses analisis. 4 Transformasi data: merupakan tahapan

untuk mentransformasi data ke dalam bentuk yang sesuai untuk proses mining. 5 Data mining: merupakan proses inti dari

KDD untuk melakukan analisis dari suatu data tertentu.

6 Evaluasi pola: berguna untuk

mengidentifikasi pola yang benar-benar menarik untuk penyajian pengetahuan.

7 Penyajian pengetahuan: merupakan tahapan terakhir dengan menyajikan pengetahuan secara visual terhadap hasil proses mining.

Gambar1 Proses KDD (Han & Kamber 2001)

Himpunan Fuzzy

Sebuah himpunan fuzzy merupakan himpunan tanpa ada batasan yang tegas (crisp boundary) yaitu dengan memperhalus batasan yang tegas dengan fungsi keanggotaan. Fungsi keanggotaan memberikan himpunan fuzzy fleksibilitas dalam pemodelan yang secara umum menggunakan ekspresi linguistik seperti ”gaji rendah” (Jang et al., 1997).

Jika X adalah sekumpulan objek yang dilambangkan secara umum oleh x, maka himpunan fuzzy A di dalam X didefinisikan sebagai himpunan pasangan sebagai berikut (Jang et al. 1997):

},

|

))

(

,

{(

x

X

A

=

μ

_A

∈

dimana μ_A(x) adalah fungsi keanggotaan untuk himpunan fuzzy A. Fungsi keanggotaan memetakan masing-masing anggota X dengan nilai antara 0 dan 1.

Fuzzy C-Means (FCM)

Fuzzy clustering adalah salah satu teknik untuk menentukan cluster optimal dalam suatu ruang vektor yang didasarkan pada bentuk normal Euclidian untuk jarak antar vektor (Kusumadewi 2002). Ada beberapa algoritma clustering data, salah satu diantaranya adalah Fuzzy C-Means (FCM).

Fuzzy C-Means (FCM) adalah suatu teknik peng-cluster-an data dimana keberadaan tiap-tiap titik data dalam suatu cluster ditentukan oleh derajat keanggotaan. Teknik ini pertama kali diperkenalkan oleh Jim Bezdek pada tahun 1981 (Kusumadewi 2002).

(14)

∑

= =

=

_N k w ik N k k w ik f

u

i

v

1 1

)

(

)

(

μ

…

∑

= =

=

_N k w ik N k k w ik f

u

i

v

1 1

)

(

)

(

μ

…

2 1 1

)

(

)

(

c

v

i

P

_k _f

N k c i w ik

t

=

∑∑

−

= =

μ

1 1 =

∑

= c i ik μ

data memiliki derajat keanggotaan untuk tiap cluster, dengan cara memperbaiki pusat cluster dan derajat keanggotaan tiap-tiap titik secara berulang, maka akan dapat dilihat bahwa pusat cluster akan bergerak menuju ke lokasi yang tepat. Perulangan ini didasarkan pada minimalisasi fungsi obyektif yang menggambarkan jarak dari titik data yang diberikan ke pusat cluster yang berbobot oleh derajat keanggotaan titik data tersebut. Keluaran dari FCM merupakan deretan pusat cluster dan beberapa derajat keanggotaan untuk tiap-tiap titik data.

Apabila terdapat suatu himpunan data sebagai berikut:

U = (u1, u2, u3,..., uN)

derajat keanggotaan suatu titik data ke-k di cluster-i adalah:

μ

ik (uk) ∈ [0,1] dengan (1 ≤ i ≤ c; 1 ≤ k ≤ N) Pada metode FCM, matriks partisi didefinisikan sebagai:

μ11[u1] μ21[u1] ... μc1[u1] μ12[u2] μ21[u2] ... μc1[u2]

μ1N[uN] μ2N[un] ... μcN[uN]

dengan

yang berarti bahwa jumlah nilai keanggotaan suatu data pada semua cluster harus sama dengan 1.

Fungsi obyektif iterasi ke-t P(c) pada matriks partisi adalah:

dengan vf i adalah pusat vektor pada cluster fuzzy ke-i,

dan w adalah bobot pada nilai-nilai keanggotaan, μk−vfi adalah bentuk normal

Euclidian yang digunakan sebagai jarak antara uk dan vf i (Kusumadewi 2002).

Algoritma FCM adalah sebagai berikut (Kusumadewi 2002):

1 Tetapkan matriks partisi

μ

f(c) awal sembarang, sebagai berikut:

μ11[u1] μ21[u1] ... μc1[u1] μ12[u2] μ21[u2] ... μc1[u2]

μ1N[uN] μ2N[un] ... μcN[uN] 2 Tetapkan nilai w > 1 (misal w = 2), Eps

sangat kecil (misal 10-5), MaxIter (misal 100). Jumlah cluster c > 1, dan t = 0; 3 Tetapkan fungsi obyektif awal: Pt(c) secara

acak;

4 Naikkan nomor iterasi: t = t + 1;

5 Hitung pusat vektor tiap-tiap cluster untuk matriks partisi tersebut sebagai berikut:

6 Modifikasi tiap-tiap nilai keanggotaan sebagai berikut:

- jika yk≠ vf i,

1 ) 1 ( 1 1 2 2 ) ( − − = ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ − − =

∑

w c g g k f k k ik i v u i v u y

μ

- jika yk = vf i,

μ

ik (yk) = 1, jika i = g;

μ

ik (yk) = 0, jika i ≠ g;

7 Modifikasi matriks partisi sebagai berikut:

μ11[u1] μ21[u1] ... μc1[u1] μ12[u2] μ21[u2] ... μc1[u2]

μ1N[uN] μ2N[un] ... μcN[uN] 8 Hitung fungsi obyektif:

2

1 1

)

(

)

(

c

y

v

i

P

k f

N k c i w ik

t

=

∑∑

−

= =

μ

9 Cek kondisi berhenti, yaitu:

( | Pt(c) – Pt-1(c) | < Eps) atau (t > MaxIter)

Jika memenuhi langkah-9, maka berhenti. Jika tidak, ulangi lagi dari langkah-4.

Pendekatan Fuzzy dalam Data mining

Misalkan diberikan suatu kumpulan record data D yang masing-masing berisi sekumpulan atribut I = {I1, I2, …, In} dimana Iv, v=1, …, n atribut dapat merupakan data kuantitatif atau data kategori. Daerah asal atribut Iv (dom(Iv))

μ

f(c) =

μ

f(c) =

μ

f(c) =

…

(15)

merupakan himpunan bagian dari bilangan nyata, dom(Iv)⊆ℜ.

Berdasarkan teori himpunan fuzzy, himpunan terminologi linguistik (Lvr, r = 1, …, sv, dengan sv: banyaknya variabel linguistik) didefinisikan sebagai daerah asal dari suatu atribut dan direpresentasikan dengan himpunan fuzzy

L

vr

.

Fungsi keanggotaan

(

μ

Lvr

)

dari

sebuah himpunan fuzzy,

L

_vr, didefinisikan sebagai berikut (Au & Chan 2001):

1] , 0 [ ) (

: v →

Lvr domI μ

dimana fungsi keanggotaan memetakan masing-masing atribut ke dalam suatu nilai keanggotaan antara 0 dan 1.

Sedangkan untuk himpunan fuzzy Lvr

didefinisikan sebagai berikut (Au & Chan, 2001): ⎪ ⎪ ⎩ ⎪⎪ ⎨ ⎧ =

∫

∑

) ( ) ( kontinu jika ) ( diskret jika ) ( v vr vr vr I dom v v v L I dom v v v L vr I i i I i i L _μ μ

Jika atribut Iv∈I adalah variabel kategori maka dom(Iv)={iv1 ,...,ivmv}

melambangkan daerah asal dari Iv dengan m kategori. Himpunan fuzzy untuk Atribut Iv didefinisikan sebagai berikut (Au & Chan, 2001):

vr vr

i

L

=

1

dengan r = 1, ..., mv.

Derajat keanggotaan dari suatu nilai di record d ∈ D pada atribut Iv dilambangkan dengan _L (d[I_v]).

vr

μ Jika _L (d[I_v])

vr

μ = 1, d

secara lengkap dicirikan oleh terminologi Lvr. Jika _L

(

d

[

I

_v

])

vr

μ

= 0, maka d tidak dicirikan oleh terminologi Lvr, sedangkan jika 0<

μ

Lvr(d[Iv])<1, maka d dicirikan sebagian

oleh terminologi Lvr.

Pada kenyataannya d dapat juga dicirikan oleh lebih dari satu terminologi linguistik. Misalkan φ himpunan dari bilangan integer dengan φ = {v1, ..., vm} dimana v1, ..., vm∈ { 1, ..., n}, v1≠ ... ≠vm, dan |φ| = h ≥1, maka derajat,

(

d

),

r

ϕ

λ

L dimana record d dicirikan

dengan terminologi Lφr dan didefinisikan sebagai berikut (Au & Chan, 2001):

]) [ ( ..., ]), [ ( min( ) ( 1 1

1r vmrm m

v

r d

μ

L d Iv

μ

L d Iv

λ

L_ϕ =

Nilai

r

ϕ

λ

L dapat ilustrasikan seperti pada

Gambar 2.

Gambar 2 Derajat record d dengan terminologi linguistik Lφr (Jang et al 1997).

Suatu kumpulan record D dapat disajikan oleh himpunan data fuzzy, F, yang dicirikan oleh himpunan atribut linguistik,

}. ,..., {L1 Ln

L= Untuk sembarang atribut

linguistik ,

L

v

∈

L,

nilai dari

L

vdari sebuah

record t∈F adalah himpunan pasangan berurutan seperti berikut (Au & Chan, 2001):

)}

,

(

...,

),

,

{(

]

[

v v1 v1 vsv vsv

t

L

=

L

μ

L

μ

dengan Lvk dan μvk, k ∈ {1, ..., sv } adalah sebuah terminologi linguistik dan derajat keanggotaannya.

Untuk sembarang record t ∈ F, derajat dimana record t dicirikan oleh

pq

L

dan

L

ϕk

,

p∉ϕ, didefinisikan sebagai berikut (Au & Chan, 2001):

) , min( _pq _k

k pq

oL L_ϕ =

μ

L

μ

L_ϕ (1)

Sedangkan jumlah derajat dimana record-record di F dicirikan oleh

L

_pq dan

,

k ϕ

L

diberikan sebagai berikut (Au & Chan, 2001):

∑

∈ = F t k pq k

pqLϕ oL Lϕ

L

deg (2)

Pencarian Aturan yang Menarik dalam Data fuzzy

Sebuah aturan fuzzy dapat memiliki orde yang berbeda-beda. Aturan fuzzy orde kesatu (R1) merupakan aturan yang memiliki satu

terminologi linguistik pada antecedent. Aturan fuzzy orde kedua (R2) merupakan aturan yang memiliki dua terminologi linguistik, dan seterusnya. Untuk mendapatkan aturan orde kesatu maka perlu membuat pengunaan ukuran kemenarikan sebuah objek.

(16)

(3) k pq k k pq record record ϕ ϕ ϕ L L L L L oleh istikkan dikarakter dimana derajat jumlah dan oleh istikkan dikarakter dimana derajat jumlah ) | ( Pr =

memiliki perbedaan yang signifikan dengan (4)

M

record pq

pq

L L ) jumlah derajat dimana dikarakteristikkan oleh (

Pr =

Dengan

∑∑

= = = p i pu s u s i M 1 1 deg ϕ ϕ L

L (5)

Perbedaan yang signifikan (dL_pqL_ϕ_k) secara

objektif dapat dievaluasi berdasarkan sebuah adjusted residual yang didefinisikan sebagai berikut (Au & Chan 2001):

k pq k pq k pq

z

d

ϕ ϕ ϕ

γ

L L L L L

L

=

(6)

dengan

k pq

z

L L_ϕ adalah sebuah standardized

residual yang dirumuskan sebagai berikut (Au & Chan 2001):

k pq k pq k pq k pq

e

z

ϕ ϕ ϕ ϕ L L L L L L L L

−

=

deg

(7)

dimana

k pq

eL L_ϕ adalah jumlah derajat suatu

record diharapkan untuk terkarakterisasi oleh pq

L

dan

L

ϕk

,

dan dirumuskan sebagai berikut (Au & Chan 2001):

M

e

s i s u p k pu i pq k pq

∑

= =

=

ϕ ϕ ϕ ϕ 1 1

deg

L L L L

L

L (8)

dan

k pqϕ

γ

L L merupakan perkiraan maximum

likelihood dari varian

k pq

z

L L_ϕ yang dirumuskan

sebagai berikut (Au & Chan 2001):

(9)

⎟⎟

⎟

⎠

⎞

⎜⎜

⎜

⎝

⎛

−

⎟⎟

⎟

⎠

⎞

⎜⎜

⎜

⎝

⎛

−

=

∑

=

∑

=

M

p k pu i pq k pq s u s

i1 1

deg

1

deg

1

ϕ ϕ ϕ ϕ

γ

L L L L L L

Representasi Ketidakpastian

Misalkan diberikan sebuah terminologi linguistik

L

_ϕ_k yang diasosiasikan dengan

terminologi linguistik yang lain

L

pq

,

akan dibentuk aturan fuzzy sebagai berikut (Au & Chan 2001):

]

[

k pq

w

pq k ϕ

ϕ

L

L L

L

⇒

dimana

k pq

wL L_ϕ adalah ukuran weight of evidence

dan dirumuskan sebagai berikut (Au & Chan 2001):

U

q i k pq k pq I I

w_pq _k

≠ −

= ( : ϕ ) ( ( : ϕ ))

ϕ L L L L

L L ) | ( Pr ) | ( Pr log

U

q i pi k pq k ≠ = L L L L ϕ

ϕ (10)

dimana

I

(

L

_pq

:

L

_ϕ_k

)

merupakan informasi yang saling menguntungkan (mutual information) yang mengukur perubahan ketidakpastian dari presence

L

_pqdi dalam sebuah record yang diberikan, mengandung antecedent

L

_ϕ_k.

I

(

L

_pq

:

L

_ϕ_k

)

didefinisikan sebagai berikut (Au & Chan 2001):

)

(

Pr

)

|

(

Pr

log

)

:

(

pq k pq k pq

I

L

_ϕ

=

ϕ (11)

k pq

wL L_ϕ dapat diinterpretasikan sebagai secara

intuitif sebagai ukuran perbedaan di dalam perolehan informasi ketika sebuah record dengan

L

_ϕ_k dicirikan oleh

L

_pq dan dicirikan oleh

L

pi

,

i≠q. wLpqLϕk

dapat digunakan untuk

mempertimbangkan pentingnya aturan fuzzy.

Aturan fuzzy

[

]

k pq

w

pq

k ϕ

ϕ

L

L L

L

⇒

dapat

pula dijabarkan sebagai berikut:

]

[

,...,

1

1k vmkm pq

w

pq k

v

L

L Lϕ

L

⇒

dimana v₁,...,v_m∈

ϕ

yang mendeskripsikan aturan fuzzy dengan orde yang lebih tinggi.

Proses Defuzzifikasi

Proses defuzzifikasi bertujuan untuk menentukan nilai yang belum diketahui menggunakan aturan fuzzy.

Diberikan sebuah record, d∈dom(I1) x ... x dom(Ip) x ... x dom(In), d dicirikan oleh n

(17)

, ..., , 1

, _p

p p= s

L merupakan terminologi

linguistik yang berkorespondensi dengan atribut Ip, nilai

α

p diberikan dari nilai

l

pdengan

}. ..., , { )

(lp p1 psp

dom = L L Untuk menentukan

nilai lp, maka dicari aturan fuzzy dengan )

( p pq∈domI

L sebagai consequent. Untuk

setiap kombinasi nilai-nilai atribut (

α

_ϕ

,

ϕ

∉

p ), nilai

α

_ϕ dicirikan oleh terminologi linguistik

L

ϕk

,

dengan derajat kompatibilitasnya λL_ϕ_k(d), untuk setiap

}.

...,

,

1

{

s

ϕ

k

∈

Misalkan diberikan aturan

implikasi, [ ]

k pq

w

pq

k ϕ

ϕ L L L

L ⇒ , maka nilai

evidence untuk

L

_ϕ_k dirumuskan sebagai berikut (Au & Chan 2001):

)

(

.

} ..., , 1 {

d

w

s

k pq k k

pq

∑

∈

=

ϕ ϕ ϕ ϕ

λ

α L L L

L (12)

Weight of evidence untuk nilai lp diberikan sebagai berikut (Au & Chan 2001):

∑

=

β _α 1 ] [ j q

w

pq j

w

L (13)

dimana

α

_[_j_]={

α

_i|i∈{1,...,n}−{p}}. Sebagai hasilnya, nilai dari

α

_p, diberikan oleh

)}.

,

(

...,

),

,

(

...,

,

)

,

{(

₁ ₁

p

p s

ps q

pq

p

w

L

w

L

w

L

Untuk mendapatkan nilai

α

_p secara tegas dilakukan proses defuzzifikasi. Diberikan terminologi linguistik,

p

ps

p

L

1

,

...,

dengan weight of evidence-nya,

p

s

w

1

,

...,

, misalkan

) ( 'Lpu ip

μ

merupakan weight of degree dari keanggotaan ip∈dom(lp) untuk himpunan fuzzy

}.

...,

,

1

{

,

p

pu

u

s

L

∈

'

_L

(

i

_p

)

pu

μ

diberikan

sebagai berikut (Au & Chan 2001):

)

(

.

)

(

'

_L

i

_p

w

_u _L

i

_p pu

pu

μ

=

Nilai defuzzifikasi,

U

p s u pu L F 1 1 ), ( =

− _yang

digunakan sebagai nilai untuk

α

_pdidefinisikan sebagai berikut (Au & Chan, 2001):

(14)

U

p

p p psp

s u

i

dom L L p p

i

dom L L p p p pu

di

i

di

i

L

F

1 ) ( ... ) ( ... 1

)

(

'

.

)

(

'

)

(

1 1 = ∪ ∪ ∪ ∪ −

∫

=

μ

(15) dimana ' max( ' ,..., ' ).

1 1 ... psp p psp

p L L L

L

μ

∪ ∪ =

Integrasi Numerik dengan Metode Trapesium

Metode trapesium berdasarkan sebuah perkiraan dari daerah di bawah sebuah kurva mengunakan luas trapesium. Gambar 3 menjelaskan pendekatan integrasi numerik menggunakan metode trapesium.

Gambar 3 Pendekatan trapesium untuk menghitung integral dari suatu fungsi f(x) (Cheney et al. 1994) Total dari luas daerah trapesium dirumuskan sebagai berikut (Cheney et al. 1994): (16)

∑

− = + + + − = 1 0 1 1 )[ ( ) ( )] ( 2 1 ) ; ( n i x i i

i x f x f x

x P

f T

dengan nilai x0 = a dan nilai xn = b.

Pengukuran Keakuratan Prediksi

Pengukuran keakuratan merupakan suatu evaluasi performa dari suatu model klasifikasi yang berdasarkan penghitungan jumlah prediksi yang benar dan tidak benar dari model data uji yang ada. Performa akurasi dirumuskan sebagai berikut (Han & Kamber 2001):

(18)

Root Mean Squared Error (RMSE)

Root mean squared error digunakan untuk mungukur performa dari sebuah nilai perkiraan kuantitatif. Diberikan sebuah record yang akan diuji, r, misalkan n adalah jumlah record di D. untuk setiap record,

r

∈

D

,

misalkan

ℜ

⊂

]

,

[

l

u

melambangkan daerah asal dari atribut kelas, tr sebagai nilai target dan or sebagai nilai perkiraan. Maka root mean squared error, rmse, didefinisikan sebagai berikut (Au & Chan, 2001):

(18)

∑

∈

⎟

⎠

⎞

⎜

⎝

⎛

−

=

D r r r

l

u

o

l

u

t

n

rmse

2

1

METODE PENELITIAN

A.Proses Dasar Sistem

Proses dasar sistem yang digunakan mengacu pada proses KDD sebagai berikut: a.1 Pembersihan data

Pada tahapan ini data yang tidak konsisten, data yang mengandung nilai null, dan data yang mengandung noise akan dihilangkan. Salah satu teknik yang dipakai adalah dengan menghapus record yang mengandung nilai null.

12Pengintegrasiandata

Data-data yang terpisah akan digabungkan dalam tahap ini menjadi satu kesatuan.

23Seleksi data

Karena menggunakan metode fuzzy, pada tahapan ini akan mengambil dari basis data berupa data-data yang numerik.

34Transformasi data

Pada tahapan ini merubah format data yang sesuai dengan perangkat lunak yang digunakan.

45Data mining

Data mining merupakan proses inti untuk melakukan analisis. Metode yang digunakan adalah klasifikasi fuzzy, dengan algoritma fuzzy data mining. Algoritma ini didasarkan atas derajat keanggotaan dari himpunan fuzzy. Beberapa langkah yang dilakukan antara lain: - Membentuk himpunan fuzzy dengan nilai

keanggotaanya menggunakan metode fuzzy c-means.

- Mendapatkan aturan fuzzy orde kesatu dengan menggunakan interestingness measure berdasarkan adjusted

residual

(

)

k pq

d

L L_ϕ . Jika nilai dLpqLϕk >1.96

(95 persen dari distribusi normal), hubungan antara

L

_pqdan

L

_ϕ_k dikatakan menarik. - Mendapatkan aturan fuzzy dengan orde yang

lebih tinggi menggunakan algoritma fuzzy classification data mining sebagai berikut

(Au & Chan 2001):(referensi???):

U

m m k pq m m k pq k k p pq pq k pq k k p pq pq m m R R Aturan Pembangkit R R Menarik p t , μ t , μ p t , μ t , μ F t C m R r r antecedent m ; |R m R k pq = ∪ = ∉ ∈ ∈ = + ∉ ∈ ∈ ∈ ∈ = + + ≠ = = − − end end then if do forall do forall do forall begin do forall begin do for ); , ( ) , ( ], [ ) ( ], [ ) ( ); , min( deg ], [ ) ( ], [ ) ( di elemen dari tersusun yang } | dari di kondisi masing -masing { C ) ; | 2 ( kesatu}; orde fuzzy aturan { 1 1 1 ϕ ϕ ϕ ϕ ϕ ϕ ϕ ϕ ϕ ϕ μ μ ϕ ϕ φ ϕ L L L L L L L L L L L L L L Penjelasan algoritma:

a Aturan fuzzy orde ke satu (R1) digunakan

untuk membangkitkan aturan orde kedua yang disimpan di R2. R2 digunakan untuk

membangkitkan aturan orde ketiga yang disimpan di R3 dan seterusnya sampai orde

yang lebih tinggi tidak ditemukan lagi. b Fungsi Menarik(Lpq, Lφk) menghitung

ukuran secara objektif untuk menentukan apakah hubungan antara Lpq dan Lφk menarik. Jika benar maka menjalankan fungsi PembangkitAturan(Lpq, Lφk).

c Fungsi PembangkitAturan(Lpq, Lφk) digunakan untuk membangkitkan aturan fuzzy. Untuk setiap aturan yang dibangkitkan, fungsi ini juga mengembalikan ukuran ketidakpastian yang diasosiasikan dengan aturan

(

)

k pq

w

L L_ϕ

.

d Semua aturan fuzzy yang telah dibangkitkan akan disimpan di R.

e Menentukan nilai yang belum diketahui berdasarkan aturan yang telah dibangkitkan dengan proses defuzzifikasi dan menentukan kelas pada atribut yang akan diprediksi kelasnya.

56Evaluasi pola

Pada tahapan ini akan dilakukan pengukuran performa terhadap hasil penelitian proses data

Formatted: I ndent: Left: 0", Hanging: 0.2", Space Before: 6 pt, Numbered + Level: 2 + Numbering Style: 1, 2, 3, … + Start at: 1 + Alignment: Left + Aligned at: 0" + Tab after: 0.2" + I ndent at: 0.2"

(19)

mining yang didapat. Adapun yang dievaluasi meliputi:

a Waktu eksekusi untuk pembangkitan aturan dengan jumlah data training yang berbeda-beda yaitu 500, 1000, 1500, 2000, dan 2500 data.

b Akurasi hasil penentuan kelas dengan kelas sebenarnya pada setiap data yang telah ditentukan.

c Nilai root mean squared error (rmse) untuk setiap masing-masing nilai data yang telah ditentukan.

67Penyajian Pengetahuan

Pada tahap ini hasil penelitian dalam proses KDD akan disajikan dalam bentuk tabel dan grafik.

B. Lingkungan Pengembangan Sistem

Sistem dikembangkan menggunakan: Perangkat lunak:

- Microsoft Windows XP Home Edition - Microsoft® Visual Basic 6.0 sebagai bahasa

pemrograman

- DBMS: Microsoft® Access Perangkat keras:

- PC dengan prosesor AMD Sempron 2500+ (1.40 GHz)

- RAM DDR 512 MB - Harddisk 40 GB (7200 rpm) - Mouse dan keyboard - Monitor

HASIL DAN PEMBAHASAN

Transformasi Data

Data PODES 2003 memiliki format data .sd2 sehingga harus dikonversi sesuai dengan format jenis DBMS yang digunakan yaitu .mdb, berhubung proses transformasi data telah dilakukan pada penelitian sebelumnya (Mustika 2006) data PODES 2003 sudah diolah, sehingga pada penelitian ini tinggal menggunakan data yang sudah diolah tersebut.

Pembersihan Data

Tahap pembersihan data tidak dilakukan juga karena tahap pembersihan sudah dilakukan pada penelitian sebelumya (Mustika 2006).

Seleksi Data

Data PODES 2003 memiliki 750 atribut dan baik berupa atribut numerik maupun yang bukan numerik dan memiliki 65536 record yang berasal dari seluruh Indonesia. Pada penelitian sebelumnya (Mustika 2006) diambil

5 atribut yang berupa data numerik dan dipilih 24962 record yang berasal dari desa yang ada di pulau Jawa. Adapun 5 atribut tersebut yaitu : a Jumlah keluarga prasejahtera sejahtera 1 b Jumlah pengangguran

c Jumlah keluarga pengguna listrik PLN d Jumlah bangunan permanen

e jumlah murid SD yang drop-out

Dari hasil seleksi data tersebut diambil sebanyak 10500 record dengan 7500 record untuk data training dan 3000 data untuk data tes. Untuk tujuan penelitian, data training dibagi menjadi 5 bagian yaitu 500, 1000, 1500, 2000, dan 2500 record data training, sedangkan untuk data tes dibagi menjadi 5 bagian yaitu 200, 400, 600, 800, dan 1000 record data tes.

Data mining

Proses data mining menggunakan algoritma yang diajukan oleh Wai-Hou Au dan Keith C.C. Chan pada tahun 2001. Secara garis besar ada tiga tahap yang dilakukan yaitu membentuk himpunan fuzzy, membangkitkan aturan yang menarik, dan menentukan nilai dan kelas suatu data yang belum diketahui.

Pembentukkan Himpunan Fuzzy

Tahap pembentukkan himpunan fuzzy ini melakukan transformasi data ke dalam himpunan fuzzy. Untuk penelitian ini digunakan 10500 record data dari hasil transformasi yang dilakukan oleh Arsha Mustika pada hasil penelitiannya tahun 2006. Berdasarkan penelitiannya, masing-masing atribut terbagi menjadi 2 kelas sehingga jumlah atribut menjadi 10 buah. Penjelasan mengenai atribut tersebut dapat dilihat pada Tabel 1 dan Tabel 2. Tabel 1 Atribut PODES 2003 yang telah

ditransformasi ke himpunan fuzzy

Atribut Keterangan Kelas

C11 Jumlah keluarga prasejahtera sejahtera I

Banyak C12 Jumlah keluarga

prasejahtera sejahtera I

Sedikit C21 Jumlah pengangguran Banyak C22 Jumlah pengangguran Sedikit C31 Jumlah keluarga

pengguna listrik PLN

Banyak C32 Jumlah keluarga

pengguna listrik PLN

Sedikit C41 Jumlah bangunan

permanen

Sedikit C42 Jumlah bangunan

permanen

(20)

Atribut Keterangan Kelas C51 Jumlah murid SD yang

DO

Banyak C52 Jumlah murid SD yang

DO

Sedikit

Tabel 2 Nilai minimum dan maksimum untuk masing-masing atribut

Atribut Nilai Minimum

Nilai Maksimum C11 466 998 C12 2 465 C21 245 812 C22 1 244 C31 630 1515

C32 1 62

C41 1 539 C42 540 1470 C51 52 197

C52 1 51

Pembentukan Basis Data

Proses pembentukan basis data diperlukan untuk membantu penghitungan dan penyimpanan data pada proses data mining. Basis data yang dibuat bernama data.mdb dan berisi 27 tabel. Perincian menggenai tabel yang ada di dalam basis data dapat dilihat pada Lampiran 1.

Pembentukan Aturan

Pembentukan aturan dimulai terlebih dahulu dengan membentuk aturan orde ke satu (R1). Dari hasil percobaan didapat jumlah aturan orde ke satu yang terbentuk dari beberapa data tes yang ada sebagai berikut ( Tabel 3) :

Tabel 3 Banyaknya aturan orde ke satu (R1) untuk masing-masing data training Jumlah data training Banyaknya R1 500 20 1000 24 1500 40 2000 36 2500 32 Setelah aturan orde ke satu didapat, kemudian dibentuk aturan untuk orde yang lebih tinggi. Karena data awalnya yang diambil sebanyak 5 atribut maka maksimum aturan-aturan yang dapat dibentuk sampai orde ke empat. Banyaknya aturan yang didapat untuk masing-masing orde dapat dilihat pada Tabel 4.

Dari Tabel 4 dapat dilihat bahwa secara umum dengan pembangkitan aturan yang lebih

tinggi (antecedent makin banyak) maka jumlah aturan yang terbentuk semakin sedikit.

Tabel 4 Banyaknya aturan orde ke dua, tiga, dan empat untuk masing-masing data training

Jumlah data training

Banyak aturan yang terbentuk R2 R3 R4 500 50 41 9

1000 52 48 15

1500 90 89 25

2000 94 98 32

2500 98 102 39

Secara keseluruhan hubungan antara jumlah data training yang ada dengan jumlah aturan yang tebentuk dapat dilihat pada Tabel 5. Tabel 5 Jumlah aturan yang terbentuk untuk

masing-masing data training Jumlah data training Jumlah aturan 500 120 1000 139 1500 244 2000 260 2500 271 Secara umum dari seluruh percobaan yang dibuat jika jumlah data trainingnya semakin banyak maka jumlah aturannya juga semakin banyak dengan kenaikan terbesar terjadi pada selang 1000 sampai 1500 data training. Jumlah aturan terbesar yang dapat dibangkitkan sebanyak 271 aturan dengan jumlah data training 2500 data. Hal ini dapat dilihat pada Gambar 4.

120 139

244 260 271

0 50 100 150 200 250 300

500 1000 1500 2000 2500

jumlah data training

jm

lah

at

u

ran

t

er

b

en

tu

k

(21)

Tabel 6 Contoh aturan yang terbentuk dari 500 data training

No Orde Aturan

1 R1 Jika jumlah keluarga prasejahtera sejahtera I banyak maka jumlah pengangguran banyak.

2 R1 jika jumlah keluarga prasejahtera sejahtera I sedikit maka jumlah pengangguran sedikit. 3 R2 Jika jumlah keluarga

prasejahtera sejahtera I banyak dan jumlah bangunan permanen banyak maka jumlah keluarga pengguna listrik PLN banyak 4 R3 Jika jumlah keluarga

prasejahtera sejahtera I banyak, jumlah pengangguran banyak, dan jumlah bangunan permanen banyak maka jumlah keluarga pengguna listrik PLN banyak 5 R4 Jika jumlah keluarga

prasejahtera sejahtera I banyak, jumlah pengangguran banyak, jumlah bangunan permanen banyak, dan jumlah murid SD yang DO sedikit maka jumlah keluarga pengguna listrik PLN banyak

Sedangkan sebagian contoh lainnya dapat dilihat pada Lampiran 2.

Prediksi Nilai

Nilai yang akan ditentukan diambil dari data tes yang terdapat pada basis data yaitu data tes yang masing-masing berjumlah 200, 400, 600, 800, dan 1000 data. Tabel 7 merupakan contoh hasil prediksi nilai dan kelas data dari suatu atribut serta membandingkannya dengan data sebenarnya untuk 500 data training dan 200 data uji dengan kelas target dari atribut “ Jumlah pengguna listrik “.

Tabel 7 Contoh perbandingan data prediksi dengan data sebenarnya

Data Prediksi Data Sebenarnya Nilai Kelas Nilai Kelas

435 Sedikit 437 Sedikit 931 Banyak 840 Banyak 430 Sedikit 347 Sedikit

596 Sedikit 920 Banyak

435 Sedikit 432 sedikit

Evaluasi Pola

a Waktu eksekusi

Gambar 5 menjelaskan hubungan antara waktu yang dibutuhkan untuk membangkitkan aturan dengan jumlah data training yang ada.

Dari Gambar 5 dapat disimpulkan bahwa semakin banyak jumlah data training maka waktu untuk membangkitkan aturan juga semakin besar dengan kenaikannya secara linier.

11.859 16.5

21.917 25.891

30.75

0 5 10 15 20 25 30 35

0 500 1000 1500 2000 2500 3000

Jumlah data training

Wakt

u

(

d

e

ti

k

)

Gambar 5 Grafik hubungan jumlah data training dengan waktu pembangkitan

b Performa akurasi

Performa akurasi diukur per atribut yang menjadi data prediksi untuk setiap jumlah data training dan data tes yang ada. Untuk hasil pengukuran performa akurasi secara keseluruhan dapat dilihat pada Lampiran 3.

Sa. Untuk hasil pengukuran performa akurasi secara keseluruhan dapat dilihat pada Lampiran 3.

Secara umum dapat disimpulkan bahwa semakin banyak data training yang digunakan tidak mempengaruhi nilai akurasinya (Gambar 6), sedangkan yang mempengaruhi nilai akurasi adalah nilai bobot dari masing-masing aturan yang terbentuk.

0% 20% 40% 60% 80% 100%

500 1000 1500 2000 2500

(22)

Gambar 6 Grafik hubungan jumlah data training dengan akurasi rata-rata tiap atribut target

Pada Gambar 6 juga terlihat bahwa nilai akurasi yang tinggi jika atribut targetnya C3 (jumlah keluarga pengguna listrik PLN) atau C4 (jumlah bangunan permanen) dan akurasi terendah jika atributnya C5 (Jumlah murid SD yang DO). Untuk nilai akurasi tertinggi (80%) didapatkan jika atribut targetnya C3 (jumlah keluarga pengguna listrik PLN) dengan jumlah data training sebanyak 1000 data. Nilai akurasi terendah (13%) didapatkan jika atribut targetnya C5 (Jumlah murid SD yang DO) untuk setiap jumlah data training yang ada.

c Nilai root mean squared error (rmse) Nilai rmse diukur per atribut yang menjadi data prediksi untuk setiap jumlah data training dan data tes yang ada. Untuk hasil pengukuran nilai rmse secara keseluruhan dapat dilihat pada Lampiran 4.

0 0.1 0.2 0.3 0.4 0.5 0.6

500 1000 1500 2000 2500

500 0.24778 0.28696 0.17862 0.20114 0.29306 1000 0.2542 0.3379 0.17904 0.19498 0.39054 1500 0.2578 0.3528 0.2086 0.23254 0.39754 2000 0.26846 0.43432 0.2271 0.24128 0.4657 2500 0.25952 0.36704 0.19358 0.22154 0.50804 c1 c2 c3 c4 c5

Gambar 7 Grafik hubungan jumlah data training dengan nilai rmse tiap atribut target

Pada Gambar 7 juga terlihat nilai rmse yang terkecil (0.17862) didapat jika atribut targetnya C3 (jumlah keluarga pengguna listrik PLN) dengan jumlah data training sebanyak 500 data. Nilai rmse yang terbesar (0.50804) didapat jika atribut targetnya C5 (Jumlah murid SD yang DO) dengan jumlah data training sebanyak 2500 data.

Dari percobaan penghitungan nilai akurasi didapatkan model yang terbaik untuk memprediksi nilai dan kelas suatu data adalah jika data training yang digunakan sebanyak 1000 data dengan kelas targetnya dari atribut C3 (jumlah keluarga pengguna listrik PLN) atau C4 (jumlah bangunan permanen) dengan nilai akurasi masing-masing atribut tersebut sebesar 80% dan 79%.

KESIMPULAN DAN SARAN

Kesimpulan

Dari berbagai percobaan yang dilakukan terhadap data PODES 2003 didapat kesimpulan sebagai berikut:

1 Semakin banyak data training yang digunakan, maka jumlah aturan yang terbentuk semakin besar dengan kenaikan terbesar terjadi pada selang 1000 sampai 1500 data training. Jumlah aturan terbesar yang dapat dibangkitkan sebanyak 271 aturan dengan jumlah data training 2500 data.

2 Semakin banyak antecedent yang ingin dibuat maka jumlah aturan yang terbentuk semakin sedikit.

23 Semakin banyak data training yang digunakan, maka waktu untuk membangkitkan aturan juga semakin besar dengan kenaikannya secara linier.

34 Banyaknya data training yang ada tidak berpengaruh signifikan dengan nilai akurasi dan rmse, yang mempengaruhi adalah nilai bobot dari masing-masing aturan.

45 Evaluasi akurasi semakin baik jika nilai persentasenya semakin besar. Persentase terbesar (80%) didapatkan jika atribut targetnya C3 (jumlah keluarga pengguna listrik PLN) dengan jumlah data training sebanyak 1000 data. Persentase terkecil (13%) didapatkan jika atribut targetnya C5 (Jumlah murid SD yang DO) untuk setiap jumlah data training yang ada.

56 Evaluasi rmse semakin baik jika nilainya semakin mendekati nol. Nilai rmse yang terkecil (0.17862) didapat jika atribut targetnya C3 (jumlah keluarga pengguna listrik PLN) dengan jumlah data training sebanyak 500 data. Nilai rmse yang terbesar (0.50804) didapat jika atribut targetnya C5 (Jumlah murid SD yang DO) dengan jumlah data training sebanyak 2500 data.

67 Evaluasi akurasi dan rmse akan mendapatkan hasil yang baik jika atribut yang dijadikan kelas target berasal dari atribut C3 (jumlah keluarga pengguna listrik PLN) atau C4 (jumlah bangunan permanen) dan digunakan sebagai model yang terbaik untuk memprediksi nilai dan kelas suatu data.

Saran

(23)