• Tidak ada hasil yang ditemukan

TINJAUAN PUSTAKA

Taksonomi

Taksonomi dapat dideskripsikan sebagai studi dan deskripsi mengenai variasi dalam organisme, investigasi terhadap sebab dan akibat variasi tersebut, dan penggunaan data yang diperoleh untuk menciptakan sistem klasifikasi (Stace 1980). Kelas-kelas yang dihasilkan oleh proses taksonomi disebut taksa, misalnya phylum, family, atau species. Penggunaan istilah ini mengindikasikan tingkatan suatu kelas dan organisme yang berada di dalam kelas tersebut.

Dalam ilmu taksonomi, tumbuhan diklasi-fikasikan ke dalam tujuh grup taksa, yaitu Kingdom, Divisio/Phylum, Class, Ordo, Family, Genus, dan Species. Di antara grup tersebut terdapat beberapa subgrup seperti superordo dan subclass. Ilustrasi taksonomi tumbuhan dapat diamati pada Gambar 1.

Gambar 1 Susunan taksonomi tumbuhan. Taksonometri

Seiring perkembangan dunia ilmu pengetahuan, penggunaan komputer dalam mengembangkan metode kuantitatif untuk melakukan klasifikasi tumbuhan semakin meningkat, sehingga menghasilkan bidang baru dalam taksonomi tumbuhan yang

dinamakan taksonomi numerik atau

taksonometri (Tjitrosoepomo 2005).

Sokal & Sneath (1963) mendefinisikan taksonometri sebagai metode evaluasi kuantitatif mengenai kesamaan atau kemiripan sifat antar golongan organisme, dan penataan golongan-golongan tersebut melalui analisis cluster ke dalam kategori takson yang lebih tinggi atas dasar kesamaan-kesamaan tersebut. Taksonometri didasarkan atas bukti-bukti fenetik, yaitu kemiripan yang diperlihatkan objek studi yang diamati dan dicatat, dan bukan berdasarkan kemungkinan perkem-bangan filogenetiknya.

Terdapat lima kegiatan dalam analisis taksonometri, yang diawali dengan pemilihan objek studi yang mewakili golongan organisme tertentu, yang disebut dengan OTU (Operational Taxonomic Unit). Kegiatan berikutnya adalah pemilihan karakter, pengukuran kemiripan, analisis cluster, dan penarikan kesimpulan (Tjitrosoepomo 2005).

Pengukuran kemiripan antar OTU didasarkan pada karakter yang dimilikinya. Menurut Sokal & Sneath (1963), karakter yang digunakan sebagai identifikasi OTU merupakan deskripsi terhadap bentuk, struktur, atau sifat yang membedakan sebuah unit taksonomi dengan unit lainnya.

Setiap karakter memiliki nilai yang dapat bersifat kualitatif ataupun kuantitatif. Karakter yang berkaitan dengan bentuk dan struktur merupakan karakter kualitatif, sedangkan karakter yang mendeskripsikan ukuran, panjang, dan jumlah merupakan karakter kuantitatif. Secara umum, karakter kualitatif lebih berguna dalam membedakan taksa pada tingkat taksonomi yang lebih tinggi, sementara karakter kuantitatif banyak digunakan untuk membedakan kategori taksonomi pada tingkatan yang lebih rendah (Naik 1985).

Analisis Korelasi

Analisis korelasi dilakukan untuk mengukur kekuatan hubungan antara dua peubah melalui bilangan yang disebut koefisien korelasi. Pada statistika parametrik, koefisien korelasi antara dua peubah yang bernilai 0 berarti tidak terdapat hubungan linear antara keduanya. Sebaliknya, nilai 1 atau -1 pada koefisien korelasi berarti korelasi antara kedua peubah tersebut sangat kuat, baik secara positif maupun negatif (Walpole 1995).

Koefisien Korelasi Spearman

Pada statistika nonparametrik, nilai koefisien korelasi antara dua peubah yang terdapat pada skala -1 hingga 1 sulit untuk diinterpretasikan secara tepat, sehingga digunakan pengambilan keputusan dengan pengujian pada taraf nyata tertentu α. Pengukuran yang digunakan adalah koefisien korelasi Spearman (Paulson 2003).

Data yang diolah untuk mendapatkan koefisien korelasi Spearman merupakan data berskala ordinal atau interval yang dapat diurutkan dari yang terkecil hingga terbesar. Uji nyata satu arah maupun dua arah dapat diaplikasikan pada koefisien korelasi yang diperoleh.

Koefisien korelasi Spearman didapatkan dengan rumus: ) 1 ( 6 1 2 1 2 − − =

= n n d r n i i c ,

dengan nilai di2 adalah:

( ) ( )

[ ]

. 1 2 1 2

= = − = n i i i n i i R x R x d Analisis Cluster

Analisis cluster adalah mekanisme eksplorasi data yang umum digunakan dalam permasalahan klasifikasi. Analisis ini bertujuan mengelompokkan data ke dalam grup atau cluster sedemikian rupa sehingga derajat asosiasi di antara anggota dari satu cluster bersifat kuat dan derajat asosiasi antara anggota dari satu cluster dengan cluster lain bersifat lemah (Astel et al. 2007).

Clustering berbeda dengan klasifikasi dalam hal variabel target yang ditentukan. Dalam proses clustering, tidak ada proses klasifikasi, peramalan, atau prediksi terhadap nilai dari variabel target (Larose 2004).

Penggunaan analisis cluster dalam taksonometri bertujuan membentuk kelompok taksa dengan pengukuran kemiripan karakter (Tjitrosoepomo 2005). Hasil dari analisis cluster telah terbukti dapat dibandingkan dengan sistem taksonomi yang dibangun oleh pakar (Naik 1985; Sokal & Sneath 1963). Self-Organizing Maps (SOM) Kohonen

Metode Self-Organizing Maps (SOM) atau dikenal sebagai SOM Kohonen pertama kali diperkenalkan oleh Malsburg pada tahun 1973, kemudian diperbaiki dan dikembangkan

oleh Teuvo Kohonen pada tahun 1982. Kohonen (2001) mendeskripsikan SOM sebagai metode pemetaan yang bersifat nonlinear dan terurut dari data input dengan dimensi tinggi ke dalam array tujuan dengan dimensi yang lebih rendah. Metode pembelajaran yang digunakan bersifat unsupervised, artinya pembelajaran yang dilakukan terhadap data input tidak disertai dengan target ekspektasi terhadap hasil yang diinginkan (Freeman & Skapura 1991).

Gambar 2 Struktur jaringan SOM Kohonen satu dimensi.

Pada Gambar 2 dapat diamati struktur SOM Kohonen satu dimensi (Fausett 1994) yang terdiri atas dua lapisan, yaitu lapisan input (Xn) dan lapisan output (Ym). Setiap neuron pada lapisan input terhubung dengan setiap neuron pada lapisan output melalui vektor bobot (wnm). Cluster yang terbentuk direpresentasikan oleh setiap neuron pada lapisan output.

Dalam proses pembelajaran jaringan SOM Kohonen, setiap neuron output saling

berkompetisi untuk menjadi neuron

pemenang, yang diperoleh dari perhitungan jarak yang paling dekat dengan neuroninput. Oleh karena itu, setiap neuron output akan bereaksi terhadap pola input tertentu, sehingga hasil dari SOM Kohonen akan menunjukkan adanya kesamaan ciri antar anggota clusternya (Larose 2004).

SOM Kohonen memiliki kegunaan yang besar dalam analisis cluster karena memiliki dimensi jaringan yang rendah, struktur yang sederhana, representasi yang tidak rumit dengan penggunaan vektor bobot yang berasosiasi dengan setiap neuron output, kemampuan memetakan topologi data input ke dalam bobot jaringan, dan menggunakan sistem pembelajaran unsupervised (Tirozzi et al. 2007).

Topologi Jaringan

Beberapa topologi SOM Kohonen yang umum digunakan pada SOM Kohonen dua dimensi antara lain topologi grid, heksagonal, dan random (Kohonen 2001). SOM Kohonen satu dimensi hanya memiliki satu jenis topologi, seperti yang diilustrasikan pada Gambar 3. Pada gambar tersebut terdapat sembilan neuron dalam topologi satu dimensi, dengan neuron kelima sebagai neuron pemenang ditunjukkan dengan simbol #, dan neuron tetangganya ditunjukkan dengan simbol *, disertai dengan keterangan lebar tetangga 0, 1, dan 2 (Fausett 1994).

Gambar 3 Topologi SOM Kohonen satu dimensi.

Algoritme

Diketahui n adalah dimensi vektor input x = [x1, x2,..., xn]T. Vektor bobot pada neuron output j memiliki dimensi yang sama dengan vektor input, sehingga dapat dilambangkan dengan wj = [wj1, wj2,..., wjn]T.

Algoritme SOM dalam Kohonen (2001) dijelaskan sebagai berikut. Untuk setiap vektor input x, lakukan:

Kompetisi. Untuk setiap simpul output j, hitung nilai D(wj,xn) yang diperoleh dari fungsi jarak. Tentukan simpul pemenang J (Best Matching Unit (BMU)) yang meminimumkan jarak antara vektor input x dengan semua simpul output.

Kooperasi. Identifikasikan semua simpul output j dalam lingkungan simpul pemenang J menggunakan fungsi node tetangga (neighborhood function) h(t). Untuk setiap simpul dalam lingkungan tersebut, lakukan :

o Adaptasi. Perbaharui nilai bobot: wj(t+1) = wj(t) + h(t) * [xni – wj(t)]. • Perbaharui learning rate (α) dan lebar

tetangga δ.

• Hentikan perlakuan ketika kriteria pemberhentian telah dicapai.

Fungsi Jarak

Fungsi jarak digunakan untuk melakukan komputasi terhadap similaritas vektor input dengan vektor bobot pada setiap neuron output. Jarak Mahalanobis digunakan untuk mengukur jarak antara atribut yang

berkorelasi satu sama lain (Tan et al. 2004). Fungsi ini didefinisikan sebagai:

D(wj,xn) = (wj-xi) Σ-1

(wj-xi)T,

dengan Σ merupakan matriks kovarian dari vektor input (xn):

Fungsi Tetangga

Fungsi tetangga adalah derajat pengubahan terhadap bobot neuron pemenang dan tetangganya relatif terhadap lebar tetangga, yang akan berkurang seiring dengan langkah pembelajaran. Fungsi tetangga yang digunakan adalah fungsi Gauss (Kohonen 2001) dengan rumus :

dengan :

||ri-rc||2 = jarak neuron ke-i dengan neuron pemenang dalam grid

δ(t) = lebar tetangga, berkurang seiring dengan t langkah pembelajaran ri = neuron ke-i

rc = neuron pemenang

Perubahan lebar tetangga didapatkan dari perhitungan berikut (Tirozzi et al. 2007) :

dengan :

δi = nilai awal lebar tetangga δf = nilai akhir lebar tetangga tmax = iterasi maksimum Laju Pembelajaran

Laju pembelajaran adalah fungsi penurunan tingkat pembelajaran seiring perubahan waktu (Fausett 1994). Nilai laju pembelajaran diperoleh dari rumus berikut (Kohonen 2001) :

dengan αi adalah nilai awal laju pembelajaran dan tmax adalah iterasi maksimum.

K-Fold Cross Validation

K-Fold Cross Validation adalah salah satu metode estimasi error. Dalam metode ini, akan dilakukan proses pengulangan sebanyak k-kali untuk himpunan contoh secara acak yang akan dibagi menjadi k-subset yang saling bebas. Pada setiap tahap pengulangan

, ) ( 2 || || exp * ) ( ) ( 2 2       − = t rc ri t t h

δ

α

).

)(

(

1

1

1 , ij j ik k n i k j

x x x x

n ∑ − −

=

= , ) ( max t t i f i t       =

δ

δ

δ

δ

, 1 ) ( max       − = t t t

α

i

α

akan diambil satu subset untuk data pengujian dan sisanya untuk data pelatihan (Fu 1994). Indeks Davies-Bouldin

Indeks Davies-Bouldin (IDB) merupakan salah satu metode validasi cluster untuk evaluasi kuantitatif dari hasil clustering. Pengukuran ini bertujuan memaksimalkan jarak inter-cluster antara satu cluster dengan cluster yang lain (separation value) sekaligus meminimalkan jarak intra-cluster antara titik dalam sebuah cluster (compactness value) (Bolshakova & Azuaje 2002; Gunter & Bunke 2002).

Jarak inter-cluster dkl didefinisikan sebagai berikut:

dkl = ||Ck – Cl|| ,

dengan Ck dan Cl adalah centroid cluster k dan cluster l.

Jarak intra-cluster sc(Qk) dalam cluster Qk dihitung dengan rumus:

dengan Nk adalah banyak titik yang termasuk dalam cluster Qk, dan Ck adalah centroid dari cluster Qk.

Dengan demikian, Indeks Davies-Bouldin didefinisikan sebagai berikut:

dengan nc adalah banyaknya cluster. Dari beberapa percobaan, akan dicari skema cluster yang optimal, yaitu skema yang memiliki nilai IDB paling rendah (Salazar et al. 2002). Cluster Recall dan Precision

Evaluasi kualitatif terhadap hasil clustering dapat diperoleh dari nilai cluster recall (CR) dan cluster precision (CP). Cluster recall menunjukkan besarnya proporsi jumlah data yang tercluster dengan benar dibandingkan dengan jumlah data dalam kelas yang sebenarnya. Adapun cluster precision menunjukkan proporsi jumlah data yang tercluster dengan benar dibandingkan dengan jumlah data dalam kelas hasil clustering. Nilai dari CR dan CP akan semakin baik jika mendekati satu.

Pencarian CR dan CP dilakukan dengan rumus berikut, dengan nij adalah jumlah anggota kelas i dalam cluster j, ni adalah jumlah anggota kelas i, dan nj adalah jumlah anggota cluster j (Madarum 2006):

METODE PENELITIAN

Dokumen terkait