Fuzzy Klasterisasi - Alat dan Teknik - Pembelajaran dari kekuatan yang dimiliki oleh rekan

8. Pembelajaran dari kekuatan yang dimiliki oleh rekan

2.2. Alat dan Teknik

2.2.2. Fuzzy Klasterisasi

Pengelompokkan (klasterisasi) bisa diselesaikan secara fuzzy dan non fuzzy. Pada fuzzy klasterisasi hasil matriks transformasinya berupa nilai derajat keanggotaan antara 0 dan 1, sedangkan pada non fuzzy nilainya 0 dan 1. Proses klasterisasi pada dasarnya merupakan proses pembuatan gugus atau himpunan yang memiliki anggota elemen-elemen yang akan diklaster. Pengelompokkan

dikatakan fuzzy jika tiap-tiap objek dihubungkan dengan menggunakan derajat keanggotaan (bukan dengan keanggotaan crisp). (Kusumadewi, 2002).

Bila dalam pengelompokkan konvensional, sebuah poin data keanggotaannya hanya pada satu kelompok saja, namun dalam fuzzy klasterisasi, sebuah poin data bisa menjadi anggota dalam banyak kelompok tapi tentunya dengan derajat keanggotaan berbeda-beda. Derajat keanggotaan adalah ukuran seberapa kuat sebuah poin data menjadi bagian dalam klaster. Ukuran ini penting dalam proses pembuatan aturan. ( Cox, 2005).

Keanggotaan dalam sebuah klasterisasi jelas Cox (2005) merupakan ukuran jarak dari sebuah pusat klaster ke data point. Gambar 4 di bawah ini menggambarkan jarak sebuah data point (pj) terhadap satu pusat klaster (c).

C 100 200 300 400 500 600 700 800 900 1000 1100 40 30 20 10 0 pi di Keterangan : pj: point data ke-i c: pusat klaster di: jarak point data (pi) ke pusat klaster (c)

Gambar 4 . Jarak poin data terhadap sebuah klaster (Cox, 2005)

Dalam fuzzy klasterisasi keanggotaan sebuah data poin tidak hanya terhadap satu kelompok tapi juga ke beberapa kelompok. Hal ini merupakan keistimewaan pengelompokkan menggunakan fuzzy klasterisasi dibandingkan dengan pengelompokkan tradisional. Gambar 5 berikut ini akan menggambarkan keanggotaan sebuah point data pj (dalam hal ini dinyatakan dalam jarak) pada dua klaster yakni klaster pertama (c1) dan klaster kedua (c2).

C2 C1 100 200 300 400 500 600 700 800 900 1000 1100 40 30 20 10 0 di1 pi di2 Keterangan :

di1 : jarak point data (pi) ke pusat klaster 1 di2 : jarak point data (pi) ke pusat klaster 2 pi : point data ke-i c1 : pusat klaster ke-1 c2 : pusat klaster ke-2

Gambar 5 . Jarak point data terhadap dua klaster (Cox,2005)

Menurut Han dan Kamber (2001) dan Pedrycz (2005) kesamaan dan ketidaksamaan antara dua objek bisa digambarkan sebagai jarak. Jarak menurut Santosa (2007) merupakan aspek penting dalam pengembangan metode pengklasifikasian maupun regresi. Ukuran jarak menurut Han dan Kamber (2001), Pedrycz (2005) dan Santosa (2007) harus memenuhi syarat-syarat sebagai berikut: 1. d (i, j) ≥ 0 ;

Jarak adalah sebuah angka non negatif. Tidak ada jarak yang mempunyai nilai negatif.

2. d (i, j) = 0 ;

Jarak dari objek terhadap dirinya sendiri yakni jarak antara suatu objek atau titik dengan objek atau titik itu sendiri adalah nol.

3. d (i, j) = d (j, i) ;

Jarak adalah sebuah fungsi simetrik. Jarak dari i ke j adalah sama dengan jarak dari j ke i.

4. d (i, j) ≤ d (i, h) + d (h, j) ;

Jika diatur dari objek i ke objek j dalam ruang yang sama tidak lebih dari pembuatan cara lain pada objek h yang lain (triangular inequality).

Salah satu pengukuran jarak yang cukup populer di dalam Han dan Kamber (2001), Pedrycz (2005) dan Santosa (2007) adalah pengukuran jarak

euclidean. Pengukuran jarak euclidean akan dihitung berdasarkan persamaan 2

berikut ini :

( )

i,j x_i₁ x_j₁ ² x_i₂ x_j₂ ² ... x_ik x_jn ²,

dimana titik pusat klaster ke-i = (xi1,xi2,...,xik) dan titik int data ke-j = (xj1, xj2,...,xjn) dengan jumlah klaster k serta jumlah data n.

a adalah metode partitional. Metode

kuantifikasi kelompok-kelompok. Kuanti

n mengkategorikan data tapi juga bisa digunakan untuk melaku

ntuk basis fungsi radial

al di atas, teknik klasterisasi juga bisa digunakan untuk

istic

(Jang e

lgoritma Fuzzy C-Mean Klasterisasi (FCM) juga dikenal sebagai fuzzy tma yang mengelompokkan data dimana setiap titik data dalam sebuah klaster ditentukan oleh derajat keanggotaannya. Bezdek

Menurut Pedrycz (2005) dan Cox (2005) ada beberapa pendekatan yang digunakan dalam melakukan klasterisasi. Salah satuny

partitional membangun sebuah partisi dari sebuah basisdata D dengan n objek ke dalam himpunan k klaster. Pada fuzzy c-mean, partisi dilakukan dengan membagi data menjadi dua atau lebih klaster.

Tujuan dari analisis klaster menurut Kusumadewi (2002), Cox (2005) dan Pedrycz (2005) adalah untuk mengenali dan

fikasi ada dua proses yakni identifikasi keanggotaan sebuah point data dalam beberapa grup dan meletakkan pusat klaster (centroid). Membangun pusat klaster dilakukan lewat proses iterasi dimana setiap iterasi dilakukan perbaikan hingga konvergen.

Dalam pemanfaatannya algoritma klasterisasi tidak hanya digunakan untuk mengorganisasi da

kan kompresi dan mengkonstruksi model data. Caranya, algoritma klasterisasi membagi-bagi sebuah set data ke dalam beberapa grup berdasarkan kemiripannya ke dalam satu grup atau lebih (Jang et al, 1997).

Teknik klasterisasi juga digunakan untuk menghubungkan jaringan basis fungsi radial atau dasar model fuzzy dalam menandai lokasi u

atau aturan fuzzy if-then. Untuk hal ini teknik klasterisasi melakukan validasi pada basis berdasarkan asumsi :

1. Kemiripan input untuk sistem target menjadi model dan menghasilkan output yang mirip.

2. Pasangan input-output disatukan dalam klaster di dalam set data training. Selain h

mengidentifikasi struktur di dalam model neural atau fuzzy yang lebih heur

t al, 1997).

2.2.3. Fuzzy C-Me A

mengu

iripan yang paling minimal.

lidean. Proses ini

dilakuk

ra 0 hingga 1.

an dari set data mengg

sulkan algoritma ini tahun 1973 sebagai pengembangan awal dari hard

c-mean (HCM). (Jang et al, 1997).

FCM membagi sebuah koleksi ke-n dari vektor xi, dimana i = 1,2,3,...,n ke dalam c grup fuzzy dan mencari pusat klaster pada masing-masing grup yakni fungsi biaya dari ukuran ketidakm

Tidak berbeda jauh dengan Jang et al (1997) Cox (2005) mengatakan fuzzy

c-mean memiliki dua proses yakni menghitung pusat klaster dan menandai poin

untuk pusat klaster menggunakan sebuah bentuk jarak euc an berulang hingga pusat klaster stabil.

Perbedaan mendasar dari FCM dan HCM kata Jang et al (1997), FCM adalah suatu teknik klasterisasi yang keberadaan setiap titik data dalam suatu klaster ditentukan oleh derajat keanggotaan anta

Untuk mengakomodasi fuzzy partisi jelas Jang et al (1997) dan Pedrycz (2005), keanggotaan matrik U harus memiliki nilai antara 0 dan 1. Untuk melakukan normalisasi penetapan hasil derajat keanggota

unakan persamaan berikut :

n j u c i ij 1, 1,2,3,..., 1 = ∀ =

∑

Dimana µij adalah derajat keanggotaan point data terhadap pusat-pusat klaster dan jumlah klaster C serta jumlah da

Untuk menghitung fungsi objektif pada fuzzy c-mean ketika dilakukan

u ² (4)

dalah derajat keanggotaan poin data terhadap klaster-klaster yang nilainya

klaster adalah c dan n adalah banyaknya poin data, lalu m adalah nilai parameter

(3)

ta n.

generalisaasi digunakan persamaan 4 berikut ini :

∑

= = ^c J ^c ⁿ c c U J( , ,..., ) = = j ij ij i i i c 1 1 1

Dimana J adalah fungsi objektif , sementara u

ij a

antara 0 dan 1, kemudian jumlah

fuzzy dan dij adalah jarak euclidean antara pusat klaster ke-i hingga ke-j dari

point data dan m Є (1,∞) sebagai ekponen pembobot. Jarak euclidean ini

Berdasarkan persamaan (2.2) untuk mencari nilai minimum dari pusat klaster digunakan persamaan 5 seperti di bawah ini :

∑

= = _n m n j ^j m ij i u x u c ¹ = j 1 ^ij (5) Dimana ci adalah pusa

terhadap klaster-klaster dengan nilainya antara 0 dan 1, lalu n adalah banyaknya t klaster ke-i dan uij adalah derajat keanggotaan poin data poin data dan m adalah nilai parameter fuzzy serta xj adalah data poin ke-j.

Untuk menghitung perubahan matrik partisi (derajat keanggotaan poin data terhadap semua klaster yang baru) digunakan persamaan :

∑

= − ⎟ ⎞ ⎜ ⎛ = c m ij ij d u 1 ₂_/( ₁₎ (6). ⎟ ⎠ ⎜ ⎝ k kj d 1

Dimana uij adalah derajat keanggotaan poin data terhadap klaster-klaster yang nilainya antara 0 dan 1 dengan c sebagai jumlah pusat klaster dari grup fuzzy ke-i,

ap klaster berdasarkan derajat keangg

ter akan bergeser ke titik yang tepat. O

ah-langkah sebagai berikut : 1. Inis

sedangkan m adalah parameter fuzzy dan dij adalah jarak euclidean antara pusat

klaster ke-i hingga ke-j dari poin data dan m Є (1,∞) sebagai ekponen pembobot

serta dkj adalah jarak euclidean antara pusat klaster ke-k hingga ke-j dari poin data dan m Є (1,∞) sebagai ekponen pembobot.

Proses algoritma FCM di awali dengan menentukan derajat keanggotaan (secara acak) pada setiap titik data terhad

otaan, kemudian ditentukan oleh pusat klaster. Pada kondisi awal pusat klaster belum akurat. Derajat keanggotaan selanjutnya diperbaiki berdasarkan fungsi jarak antara titik data dengan pusat klaster.

Dengan memperbaiki pusat klaster dan derajat keanggotaan tiap titik data secara berulang dan terus menerus maka pusat klas

utput FCM adalah deretan pusat klaster dan derajat keanggotaan data

terhadap setiap klaster.

FCM menentukan pusat klaster ci dan keanggotaan matriks U dalam Jang

et al (1997) dengan langk

ialisasi keanggotaan matrik U dengan nilai random antara 0 dan 1 dengan persamaan (3)

2. Hitung c pusat klaster fuzzy ci, i = 1,2,3,...c menggunakan persamaan (5) Hitung fungsi o

3. bjektif berdasarkan persamaan (4). Berhenti jika hasil fungsi telah

dili

objektifnya mencapai nilai toleransi atau hasil fungsi objektifnya se iterasi maksimal yang ditetapkan.

Hitung matrik partisi baru menggunakan persamaan (6) dan kembali ke langkah ke-2.

Diagram alir proses klasterisasi data pada algoritma fuzzy c-mean bisa hat pada Gambar 6 di bawah ini.

Feature Data Cluste Numb r er ^Exponent Initialize E-step U^m M-Step Calculate distance k (n x p) u n C (k x p)

c

D ( k x n) U ( k x n) m

Gambar 6. Tahapan algoritma fuzzy c-mean klasterisasi (Jiang, 2003)

Dimana U merupakan matrik partisi, lalu C adalah pusat klaster, dan D

merup nilai

k =

akan distance matrix. Kemudian K ialah jumlah klaster, m merupakan parameter fuzzifikasi, k adalah jumlah klaster dan jumlah datanya adalah n dan p adalah p jumlah atribut data.

Kemudian nilai α n X U

∑

E-step : m α ik n i i ik i U

∑

= = 1 1 (7) M-step : Uik =

∑

= − ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − − 1 1 1 1 l i l k i m x m x ^α (8)

Dimana mk merupakan pusat klaster ke-k dan Uik adalah derajat keanggotaan poin data terhadap pusat klaster (M-step).

Menurut Jang Et al (1997), Cox (2005), Pedrycz (2005) dan Kusumadewi (2002) dalam proses analisis pengelompokkan menggunakan algoritma fuzzy

c-mean p

ujuan melakukan klasterisasi adalah mengumpulkan objek-objek yang g tinggi dalam satu klaster yang sama. Menurut Xie dan Beni d

usat klaster akan diinisialisasi kali pertama dan kemudian diperbaiki pada setiap iterasinya. Menurut Kusmadewi (2002) tidak ada jaminan FCM akan konvergen pada solusi optimum. Kinerja tergantung pada inisialisasi pusat klaster. Hasil dari algoritma fuzzy c mean adalah derajat keanggotaan poin data terhadap pusat klaster dan pusat klaster. Dalam algoritma fuzzy c-mean ada beberapa hal yang perlu diperhatikan saat membangun sistem diantaranya iterasi maksimal, error terkecil yang diinginkan (ξ), pemangkat (m > 1) dan inisialisasi terhadap pusat awal klaster (c ≥ 2).

2.2.4. Validasi Klaster

Dalam dokumen KARAKTERISASI PELANGGAN PLN MENGGUNAKAN ALGORITMA FUZZY C MEAN HUSMUL BEZE (Halaman 27-34)