Analisis Algoritma C4.5 dan Fuzzy Sugeno untuk Optimasi Rule Base Fuzzy

(1)

Bab ini berisi tentang pemahaman dari logika fuzzy dan data mining. Pada bab ini juga akan dijelaskan bagian-bagian yang perlu diketahui dalam logika fuzzy dan data mining, sehingga mempermudah dalam pemahaman, perhitungan, serta mengetahui hubungan diantara logika fuzzy dan data mining.

2.1 Logika Fuzzy

Logika fuzzy adalah konsep yang tepat untuk menangani masalah nonlinear, waktu yang beravariasi dan sistem adaptif. Logika fuzzy ini memungkinkan penggunaan nilai-nilai linguistik dari variabel dan hubungan tidak tepat untuk perilaku sistem modeling. Logika fuzzy sering digunakan pada sistem cerdas dalam memilah proses untuk mendeteksi cacat dalam penerapannya (Hosseinzadeh,et al. 2011).

Salah satu aplikasi yang paling terkenal dari logika fuzzy adalah Fuzzy inference system (FIS). Ada tiga jenis dasar FIS yang telah banyak digunakan dalam berbagai aplikasi kontrol, yaitu FIS Mamdani, Sugeno, dan Tsukamoto. Perbedaan antara tiga FIS ini terletak pada konsekuen dari aturan fuzzy mereka, agregasi dan prosedur defuzzifikasi (Siddique, 2013).

Ada beberapa alasan mengapa orang menggunakan logika fuzzy, antar lain (Kusumadewi, 2010) :

1. Konsep logika fuzzy mudah dimengerti. Konsep matematis yang mendasari penalaran fuzzy sangat sederhana dan mudah dimengerti.

2. Logika fuzzy sangat fleksibel.

3. Logika fuzzy memiliki toleransi terhadap data-data yang tidak tepat.

4. Logika fuzzy mampu memodelkan fungsi-fungsi nonlinier yang sangat kompleks.

(2)

pengalaman-6. Logika fuzzy dapat bekerjasama dengan teknik-teknik kendali secara konvensional.

7. Logika fuzzy didasarkan pada bahasa alami.

Struktur dasar dari perhitungan logika fuzzy adalah sebagai berikut (Anikin & Zinoviev, 2015):

1. fuzzificator, yang mengubah masukancrisp(tegas) menjadi masukan fuzzy, 2. basis pengetahuan dengan set fuzzy rule IF-THEN, masing-masing yang

menghubungkan anteseden (sebab) dan konsekuen (akibat) dengan implikasi fuzzy,

3. Blok inferensi fuzzy yang didasarkan pada sistem inferensi fuzzy dan mengimplementasikan penalaran fuzzy,

4. defuzzificator yang mengkonversi keluaran fuzzy untuk output (keluaran) crisp.

Ada beberapa tahap yang harus diketahui untuk menghitung nilai di dalam logika fuzzy, yaitu :

(3)

Ada beberapa fungsi keanggotaan yang direpresentasikan dalam bentuk kurva didalam logika fuzzy, diantaranya fungsi keanggotaan linear, segitiga, trapesium, dan lonceng (Kusumadewi, 2010).

a. Representasi linear naik

Pada representasi linear, pemetaaninput ke derajat keanggotaannya digambarkan sebagai sebuah garis lurus. Representasi fungsi keanggotaan untuk linear naik adalah sebagai berikut :

Gambar 2.1 : Representasi linear naik Fungsi keanggotaan representasi linear naik

;

...(2.1)

b. Representasi linear turun

(4)

Gambar 2.2 Representasi linear turun Fungsi keanggotaan representasi linear turun

; ;

...(2.2)

c. Representasi kurva segitiga

Reprensitasi kurva segitiga pada dasarnya merupakan gabungan antara linear naik dan linear turun. Representasi fungsi keanggotaan untuk kurva segitiga adalah sebagai berikut:

Gambar 2.3 Representasi kurva segitiga Fungsi keanggotaan representasi kurva segitiga

; ;

(5)

d. Representasi kurva trapesium

Reprensitasi kurva trapesium memiliki domain lebih luas dari representasi kurva segitiga. Representasi fungsi keanggotaan untuk kurva trapesium adalah sebagai berikut:

Gambar 2.4 Representasi kurva trapesium Fungsi keanggotaan representasi kurva trapesium

; ; ;

;

...(2.4)

2.1.2 Fuzzifikasi

Fuzzifikasi adalah proses mengubah bilangancrispkedalam himpunan bilangan fuzzy berdasarkanrange(jarak) untuk setiap variabel masukan. Dalam proses fuzzifikasi ini terdapat dua hal yang harus diperhatikan yaitu nilai masukan dan keluaran serta fungsi keanggotaan (Peranginangin, 2015).

2.1.3 Operasi Himpunan Fuzzy

(6)

logika fuzzy adalah Intersection (ekslusif OR) dan Complement. Ketiga operasi tersebut akan dijelaskan sebagai berikut (Ross, 2010) :

1. Operasi gabungan (Union)

Operasi gabungan (sering disebut operator OR) dari himpunan fuzzy A dan B dilambangkan dengan ∪ . Dalam sistem fuzzy, operasi gabungan disebut sebagaiMax. OperasiMaxditulis dengan persamaan berikut:

∪ ∪ , .. ...(2.5)

Derajat keanggotaan setiap unsur himpunan fuzzy ∪ adalah derajat keanggotaannya pada himpunan fuzzy A atau B yang memiliki nilai terbesar.

Gambar 2.5 Gabungan set A dan set B (LogikaOR) 2. Operasi Irisan (Intersection)

Operasi irisan (sering disebut operator AND) dari himpunan fuzzy A dan B dinyatakan sebagai ∩ . Dalam sistem logika fuzzy, operasi irisan disebut sebagaiMin.OperasiMinditulis dengan persamaan berikut :

∩ ∩ , .. ...(2.6)

(7)

Gambar 2.6 Irisan dari set A dan set B (LogikaAND)

3. OperatorComplement

Bila himpunan fuzzy A pada himpunan universal X mempunyai fungsi keanggotaan µA(x) maka komplemen dari himpunan fuzzy A (sering disebut

NOT) adalah himpunan fuzzy Ac dengan fungsi keanggotaan untuk setiap x elemen X.

µA C(X)=1-µA (x) ... (2.7)

Gambar 2.7Complementset A

2.1.4 Rule IF-THEN

Kebanyakan pengambilan keputusan yang dibuat manusia disajikan dalam bentukrule (aturan) Jika-Maka atau IF-THEN . Ada empat bentuk rule dalam logika klasik, diataranya modus ponen, modus tolen, modus ponen tolen, dan modus tolen ponen. Sebagai contoh pengemudi yang menentukan arah kemudi menuju target didepannya, namun ada kendala yang dimiliki. Cara mengatasi kendala tersebut menggunakan keempat modus logika klasik. Contohnya sebagai berikut (Lilly, 2011) :

(8)

2. JIKA ada kendala didepan, MAKA arah kemudi tidak lurus (modus ponen tolen),

3. JIKA tidak ada kendala didepan, MAKA arah kemudi lurus (modus tolen ponen),

4. JIKA arah target bukan kedepan, MAKA arah kemudi tidak lurus (modus tolen).

Dalam pernyataan 1, rekomendasi untuk mengarahkan langsung ditegaskan dengan menegaskan bahwa target adalah depan. Dalam pernyataan 2, rekomendasi untuk mengarahkan langsung ditolak dengan menegaskan bahwa ada hambatan di depan. Dalam pernyataan 3, rekomendasi untuk mengarahkan langsung ditegaskan dengan menyangkal bahwa kendala yang berada di depan. Dalam pernyataan 4, rekomendasi untuk mengarahkan langsung ditolak dengan menyangkal bahwa target adalah depan. Tentu saja, satu set lengkap aturan untuk kemudi untuk target di hadapan rintangan akan membutuhkan aturan lebih daripada di atas. Semua mode penalaran ini dapat diimplementasikan dengan logika fuzzy (Brason & Lilly, 2001).

Sebagian besar aturan Jika-Maka yang digunakan dalam kontrol fuzzy dan identifikasi adalah dalam bentuk modus ponen. Contoh dari aturan Jika-Maka menggunakan modus ponen diterapkan pada saat menghentikan mobil adalah sebagai berikut:

"JikaSPEEDadalah CEPAT maka TEKAN REM KUAT . Dalam aturan ini, SPEED adalah premis dari SPEED, sedangkan TEKAN REM KUAT adalah konsekuen. CEPAT adalah input variabel linguistik, CEPAT adalah nilai linguistik dari SPEED dan merupakan himpunan fuzzy pada SPEED semesta, TEKAN REM adalah output variabel linguistik, dan KUAT adalah nilai linguistik dari TEKAN REM dan merupakan himpunan fuzzy pada TEKAN REM semesta (Lilly, 2011).

2.1.5 Defuzzifikasi

Defuzzifikasi adalah proses mengubah nilai fuzzy kedalam nilai crisp. Proses defuzzifikasi merupakan kebalikan metode fuzzifikasi, yaitu mengubah nilai crisp kedalam nilai fuzzy (Ross, 2010).

(9)

1. Metode keanggotaan Max : dikenal juga dengan metodeheight, yaitu mencari nilai z melalui nilai keanggotaan terbesar. Rumus aljabar dari metode keanggotaan Max sebagai berikut :

∗ _, _{∈ ,}

Dimana ∗adalah nilai defuzzifikasi, grafiknya seperti pada Gambar 2.8

Gambar 2.8 Grafik metode defuzzifikasi keanggotaan Max

2. Metode centroid : metode ini disebut juga dengan metode terpusat atau Center of Grafity (COG). Rumus aljabar dari metode centroid adalah sebagai berikut :

∗ .

(2.8) Dimana menunjukkan integrasi aljabar, grafiknya seperti pada Gambar 2.9

Gambar 2.9 Grafik metode defuzzifikasi centroid

3. Metode Weighted Average (WA) : metode Weinghted Average sering disebut juga dengan metode rata-rata terbobot. Metode ini merupakan metode yang paling sering digunakan dalam aplikasi fuzzy karena merupakan salah satu metode yang lebih efisien secara komputasi. Rumus aljabarnya adalah sebagai berikut:

∗ ∑ .

(10)

Dimana ∑ menunjukkan jumlah aljabar dan centroid dari masing-masing fungsi keanggotaan simetris. Sebagai contoh, dua fungsi yang ditunjukkan pada Gambar 2.10

Gambar 2.10 Grafik defuzzifikasi metodeweighted average akan menghasilkan bentuk umum sebagai berikut :

∗ , ,

, , (2.10)

2.1.6 Metode Sugeno

Metode Sugeno diperkenalkan oleh Takagi-Sugeno Kang pada tahun 1985. Metode Sugeno ini merupakan metode fuzzy yang telah terbukti efektif ketika berhadapan dengan sistem nonlinear yang kompleks, yang sangat sulit untuk analisis dan sintesis (Su,et al. 2013).

Pada metode Sugeno, setiap output (konsekuen) terbentuk dari aturan IF-THEN tidak berupa himpunan fuzzy, melainkan konstanta atau persamaan linear. Terdapat dua model fuzzy metode Sugeno, yaitu (Kusumadewi, 2010):

1. Model Fuzzy Sugeno Orde-Nol

Secara umum bentuk fuzzy Sugeno adalah sebagai berikut : 1 1 ° 2 2 ° …°

Dengan adalah himpunan fuzzy ke-i sebagai anteseden dan adalah suatu konstanta sebagai konsekuen.

2. Model Fuzzy Sugeno Orde-Satu

Secara umum bentuk fuzzy Sugeno adalah sebagai berikut :

(11)

Dengan adalah himpunan fuzzy ke-i sebagai anteseden dan adalah suatu konstanta (tegas) ke-i dan juga merupakan konstanta dalam konsekuen.

Model yang sering digunakan dalam pembentukan aturan IF-THEN Sugeno adalah model fuzzy Sugeno Orde-Nol. Untuk proses defuzzifikasi, metode Sugeno menggunakanWeight Average (WA)dengan rumus sebagi berikut :

=

……

…… (2.11)

2.2 Data Mining

Menurut Aggarwal (2015), Data mining adalah studi tentang pengumpulan, pembersihan, pengolahan, analisis, dan memperoleh wawasan yang berguna dari data. Data mining juga digunakan untuk menggambarkan aspek-aspek yang berbeda dari pengolahan data. Alur kerja aplikasi data mining berisi tahap-tahap berikut :

1. Pengumpulan data

Pengumpulan data mungkin memerlukan penggunaan hardware khusus seperti jaringan sensor, tenaga kerja manual seperti kumpulan survei pengguna, atau perangkat lunak seperti mesin pencarian dokumen Web untuk mengumpulkan dokumen. Tahap ini sangat penting karena pilihan yang baik pada tahap ini secara signifikan dapat mempengaruhi proses data mining. Setelah tahap pengumpulan, data disimpan dalam database atau gudang data untuk diproses.

2. Ekstraksi fitur dan pembersihan data

(12)

penambangan. Tahap ekstraksi fitur sering dilakukan secara paralel dengan data pembersihan, yaitu data yang hilang dan bagian yang salah dari data dapat diperkirakan atau diperbaiki. Dalam banyak kasus, data dapat diekstraksi dari berbagai sumber dan perlu diintegrasikan ke dalam format terpadu untuk diproses. Hasil akhir dari prosedur ini adalah kumpulan data terstruktur, yang dapat secara efektif digunakan oleh program komputer. Setelah tahap ekstraksi fitur, data dapat disimpan kembali didalam database untuk diproses.

3. Proses analisis (tidak berdasarkan pandangan) dan algoritma

Bagian akhir dari proses data mining adalah untuk merancang metode analisis yang efektif dari data yang diolah.

Gambar 2.11 Alur pengolahan data

Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan, yaitu (Larose, 2014):

1. Deskripsi 2. Estimasi 3. Prediksi 4. Klasifikasi 5. Clustering 6. Asosiasi

2.2.1 Klasifikasi

(13)

disebut sebagai kategori, sementara atribut dengan domain kontinu disebut sebagai numerik. Klasifikasi memiliki dua Tahap, yang pertama adalah tahap pelatihan dan yang kedua tahap pengujian (Lavanya & Rani, 2011).

Dalam klasifikasi, variabel target yang berupa data kategoris seperti klasifikasi pendapatan penghasilan misalnya, dibagi menjadi tiga kelas atau kategori : berpenghasilan tinggi, menengah, dan berpenghasilan rendah. Misalkan peneliti ingin mendapatkan pendapatan penghasilan dari individu baru yang tidak ada didalam database. Berdasarkan karakteristik yang terdapat dalam individu tersebut seperti usia, jenis kelamin, dan jabatan, maka akan digunakan metode klasifikasi. Tahap pertama yang dilakukan adalah memeriksa kumpulan data didalam database yang mengandung variabel prediksi. Kumpulan data ini disebut data pelatihan, sehingga dari data pelatihan didapatlah kategori dari individu baru tersebut. Oleh sebab itu, metode klasifikasi disebut juga model pembelajaran diawasi atau supervised learning (Lavanya, 2011; Larose, 2014).

2.2.2 Decission Tree

(14)

memprediksi nilai variabel target dengan belajar aturan (rule) keputusan yang disimpulkan dari fitur data. Ada beberapa algoritma decision tree, diantaranya ID3, C4.5, dan CART (Kadi & Idri, 2015).

Pada decision tree terdapat 3 jenis node, yaitu (Larose, 2014):

1. Root Node(simpul akar), merupakannode paling atas, padanodeini tidak ada inputdan bisa tidak mempunyaioutputatau mempunyaioutputlebih dari satu. 2. Internal Node , merupakan node percabangan, pada node ini hanya terdapat

satuinputdan mempunyaioutputminimal dua.

3. Leaf node atau terminal node , merupakan node akhir, pada node ini hanya terdapat satuinputdan tidak mempunyaioutput.

2.2.3 Klasifikasi Basis-Aturan (IF-THEN)

Pengklasifikasian berbasis aturan menggunakan satu set "IF-THEN (jika-maka)" aturan R = {R1. . . Rm} untuk mencocokkan anteseden untuk konsekuen. Aturan biasanya dinyatakan dalam bentuk berikut:

JIKA Kondisi MAKA Kesimpulan

Kondisi di sisi kiri dari aturan, juga disebut sebagai anteseden, mungkin berisi berbagai operator logika, seperti <, ,>, =, ⊆, atau ∈, yang diterapkan pada variabel fitur. Sisi kanan dari aturan disebut sebagai konsekuen, dan berisi variabel kelas. Oleh karena itu, aturan adalah dari bentuk ⇒ c dimana adalah anteseden, dan c adalah variabel kelas. simbol "⇒" menunjukkan "THEN" kondisi. Aturan yang dihasilkan didapat dari data pelatihan selama fase pelatihan. Notasi merupakan prasyarat pada set fitur. Aturan-aturan ini kemudian digunakan untuk mengklasifikasikan contoh uji. Aturan dikatakan tepat ketika kondisi data uji cocok dengan contoh pelatihan (Aggarwal, 2015).

2.2.4 Algoritma C4.5

(15)

Algoritma C4.5 menggunakan konsep information gain atau pengurangan entropi untuk memilih pembagian optimal (Larose, 2014).

Tahapan dalam membuat sebuah pohon keputusan dengan algoritma C4.5 adalah (Gorunescu, 2011) :

1. histori yang pernah terjadi sebelumnya dan sudah dikelompokkan dalam kelas-kelas tertentu.

2. Menentukan akar dari pohon dengan menghitung nilai gain yang tertinggi dari masing-masing atribut atau berdasarkan nilai indeks entropi terendah. Sebelumnya dihitung terlebih dahulu nilai indeks entropi.

Untuk memilih attribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada. Untuk menghitung gain digunakan rumus sebagai berikut : (Kusrini, 2009)

, = − ∑ | |

| | ∗ ( )...(2.12)

Keterangan :

S = himpunan kasus A = atribut

n = jumlah partisi atribut A |Si| = jumlah kasus pada partisi ke-i

|S| = jumlah kasus dalam S

= ∑ − ∗ ...(2.13)

Keterangan :

S = himpunan kasus A = fitur

n = jumlah partisi