Data biner
Data biner adalah data observasi dimana nilainya hanya memiliki dua kemungkinan. Sebagai contoh bahwa pada komponen peralatan elektronik mungkin bisa rusak atau tidak, atau pada tanaman obat berkhasiat atau tidak dalam mengatasi suatu gangguan kesehatan. Jika pada individu ke-i observasi tersebut dapat dinyatakan oleh sebuah variabel acak Yi, maka pada data biner Yi dapat dinyatakan dengan kode 1 untuk data yang ‘sukses’ dan kode 0 untuk data yang ‘gagal’ (Cox 1970).
Klasifikasi
Klasifikasi menurut Kamus Besar Bahasa Indonesia (KBBI) memiliki arti penyusunan bersistem dalam kelompok atau golongan menurut kaidah atau standar yang ditetapkan. Sedangkan pengklasifikasian berarti proses, cara, atau perbuatan mengklasifikasikan. Dalam statistika, klasifikasi merupakan salah satu metode analisis yang dapat diartikan proses pengelompokan objek berdasarkan kemiripan masing-masing variabel yang dimilikinya (Ludwig & Reynold 1988).
Analisis Gerombol
Analisis gerombol adalah salah satu analisis peubah ganda yang prinsip utamanya adalah mengklasifikasikan individu yang relatif sama atau seragam ke dalam suatu gerombol yang didasarkan pada ukuran kedekatan (ukuran jarak atau ukuran kesamaan). Objek yang terletak dalam suatu gerombol memiliki kemiripan sifat yang lebih besar dibandingkan dengan objek yang terletak dalam gerombol lain (Johnson & Wichern 2002). Dan diharapkan keragaman unit-unit pengamatan dalam satu gerombol lebih homogen daripada keragaman antar gerombol.
Pada jenis data biner, ukuran jarak atau kesamaan dinyatakan dalam bentuk koefisien kesamaan (similarities coefficient) yang nilainya berkisar antara 0 sampai 1. Berbeda dengan konsep jarak untuk data pengukuran, untuk data biner nilai koefisien yang diperoleh bukan menunjukkan kuantitas jarak, tetapi menunjukkan kedekatan dua variabel atau objek. Nilai yang mendekati satu menunjukkan kedua objek tersebut sangat mirip, sedangkan nilai koefisien yang mendekati nol
PENDAHULUAN
Latar Belakang
Metode klasifikasi merupakan salah satu metode analisis yang diperlukan untuk mengelompokkan objek atau item berdasarkan kemiripan sifat yang dimilikinya. Pengklasifikasian dapat diterapkan pada banyak bidang ilmu pengetahuan, salah satunya pada bidang yang berkaitan dengan ilmu alam. Jenis data dalam bidang ilmu alam yang dianalisis terkadang tidak hanya berupa data yang bersifat kuantitatif, tetapi juga banyak ditemukan data yang bersifat kualitatif. Salah satu jenis data kualitatif yang sering dijumpai di lapangan dan perlu untuk dianalisis adalah data biner yang hanya memiliki dua kemungkinan nilai yaitu sukses dan gagal.
Metode klasifikasi dibidang ilmu alam sangat banyak, akan tetapi dasar pengklasifikasian suatu data hanya terbagi menjadi dua, yaitu analisis gerombol dan analisis asosiasi (Ludwig & Reynold 1988). Analisis gerombol merupakan salah satu analisis peubah ganda yang bertujuan mengelompokkan objek berpeubah banyak ke dalam kelompok-kelompok berdasarkan kemiripan yang dimiliki objek tersebut. Analisis asosiasi adalah teknik untuk menemukan aturan asosiasi antara suatu kombinasi item atau objek. Analisis asosiasi menjadi terkenal karena aplikasinya untuk menganalisa isi keranjang belanja di pasar swalayan, sehingga analisis asosiasi juga sering disebut dengan istilah basket analysis.
Berdasarkan hal tersebut, dapat diketahui bahwa kegunaan kedua metode di atas adalah untuk pengklasifikasian data, dan karena dalam proses klasifikasi data banyak ditemukan kasus data biner, maka penelitian ini mengetengahkan hasil eksplorasi metode klasifikasi pada data biner dengan menggunakan analisis gerombol dan analisis asosiasi. Data yang digunakan adalah data biner tanaman obat berdasarkan khasiat yang dikandungnya.
Tujuan
Tujuan penelitian ini adalah untuk:
1. Mengeksplorasi metode klasifikasi data biner dengan analisis asosiasi pada data tanaman obat.
2. Mengklasifikasikan tanaman obat berdasarkan khasiatnya dengan menggunakan analisis gerombol.
TINJAUAN PUSTAKA
Data biner
Data biner adalah data observasi dimana nilainya hanya memiliki dua kemungkinan. Sebagai contoh bahwa pada komponen peralatan elektronik mungkin bisa rusak atau tidak, atau pada tanaman obat berkhasiat atau tidak dalam mengatasi suatu gangguan kesehatan. Jika pada individu ke-i observasi tersebut dapat dinyatakan oleh sebuah variabel acak Yi, maka pada data biner Yi dapat dinyatakan dengan kode 1 untuk data yang ‘sukses’ dan kode 0 untuk data yang ‘gagal’ (Cox 1970).
Klasifikasi
Klasifikasi menurut Kamus Besar Bahasa Indonesia (KBBI) memiliki arti penyusunan bersistem dalam kelompok atau golongan menurut kaidah atau standar yang ditetapkan. Sedangkan pengklasifikasian berarti proses, cara, atau perbuatan mengklasifikasikan. Dalam statistika, klasifikasi merupakan salah satu metode analisis yang dapat diartikan proses pengelompokan objek berdasarkan kemiripan masing-masing variabel yang dimilikinya (Ludwig & Reynold 1988).
Analisis Gerombol
Analisis gerombol adalah salah satu analisis peubah ganda yang prinsip utamanya adalah mengklasifikasikan individu yang relatif sama atau seragam ke dalam suatu gerombol yang didasarkan pada ukuran kedekatan (ukuran jarak atau ukuran kesamaan). Objek yang terletak dalam suatu gerombol memiliki kemiripan sifat yang lebih besar dibandingkan dengan objek yang terletak dalam gerombol lain (Johnson & Wichern 2002). Dan diharapkan keragaman unit-unit pengamatan dalam satu gerombol lebih homogen daripada keragaman antar gerombol.
Pada jenis data biner, ukuran jarak atau kesamaan dinyatakan dalam bentuk koefisien kesamaan (similarities coefficient) yang nilainya berkisar antara 0 sampai 1. Berbeda dengan konsep jarak untuk data pengukuran, untuk data biner nilai koefisien yang diperoleh bukan menunjukkan kuantitas jarak, tetapi menunjukkan kedekatan dua variabel atau objek. Nilai yang mendekati satu menunjukkan kedua objek tersebut sangat mirip, sedangkan nilai koefisien yang mendekati nol
menunjukkan bahwa kedua objek tersebut tidak mirip.
Koefisien kesamaan diperoleh dengan terlebih dahulu dibuat tabel kontingensi 2x2 untuk setiap pasang objek ke-i dan ke-j, seperti pada Tabel 1 berikut ini (Digby & Kempton 1987):
Tabel 1. Tabel Kontingensi Data Biner
Individu ke-i Total Individu ke-j 1 0 1 a b a + b 0 c d c + d Total a + c b + d p dengan:
p = total jumlah objek
a = frekuensi kedua individu bernilai 1 b, c = frekuensi satu objek bernilai 1 dan
objek lainnya bernilai 0
d = frekuensi kedua individu bernilai 0 Terdapat dua teknik penggerombolan pada analisis gerombol, yaitu teknik hirarki dan nonhirarki. Teknik berhirarki digunakan jika jumlah gerombol yang terbentuk tidak diketahui sebelumnya, sedangkan teknik nonhirarki digunakan apabila jumlah gerombol yang terbentuk sudah ditetapkan dari awal (Johnson & Wichern 2002). Metode gerombol berhirarki dapat digunakan untuk menggerombolkan data biner. Di dalam metode tersebut terdapat beberapa metode perbaikan jarak, seperti metode pautan tunggal (Single Linkage), pautan lengkap (Complete Linkage), pautan rataan dalam kelompok (Average Linkage within the New Group), pautan rataan antar kelompok (Average Linkage between Merged Group), Centroid, Median, dan Ward (Johnson & Wichern 2002). Adapun beberapa tipe ukuran kesamaan yang digunakan pada data biner, yaitu seperti:
1. Simple Matching
Ukuran kesamaan bertipe ini merupakan perbandingan objek yang sepadan terhadap jumlah keseluruhan objek yang ada. Ukuran ini memberikan bobot yang sama baik pada objek yang sepadan maupun yang tidak sepadan. Rumusnya diformulasikan sebagai berikut:
p d a+ 2. Fourfoul Point
Ukuran kedekatan ini adalah salah satu bentuk ukuran kesamaan yang diperuntukan pada data biner. Adapun formulasinya adalah sebagai berikut:
(
a b)(
a c)(
b d)(
c d)
bc ad + + + + − 3. JaccardNilai koefisien Jaccard adalah suatu indeks dimana nilai d (0-0 sepadan) tidak dimasukkan dalam perhitungan. Ukuran ini pun memberikan bobot yang sama baik pada objek yang sepadan maupun yang tidak sepadan. Persamaannya sebagai berikut: c b a a + + 4. Dice
Ukuran Dice dikenal juga dengan nama ukuran Czekanowski atau ukuran Serensen. Ukuran ini sama dengan ukuran persamaan Jaccard dimana nilai d tidak dimasukkan dalam perhitungan, akan tetapi nilai a (1-1 sepadan) diberikan bobot ganda. Formulasinya adalah:
c b a a + + 2 2 5. Sokal & Sneath 2
Ukuran Sokal & Sneath 2 memberikan bobot yang sama pada objek yang tidak sepadan. Masing-masing objek yang tidak sepadan tersebut diberi bobot ganda. Namun nilai d tidak dimasukkan dalam perhitungan. Berikut formulasinya:
(
b c)
a a + +2 6. OchiaiUkuran kesamaan ini diperkenalkan ditahun 1957. Rumus ukuran kesamaan Ochiai diformulasikan sebagai berikut:
(
a b)(
a c)
a + + 7. Sokal & Sneath 4
Ukuran kesamaan ini didasari oleh peluang bersyarat dari satu nilai a, sedangkan nilai objek yang lain dinyatakan sebagai predictor yang dihitung dari nilai rata-ratanya. Adapun rumusnya adalah sebagai berikut:
( ) ( ) ( ) ( )
4 d c d d b d c a a b a a + + + + + + + 8. Sokal & Sneath 5Ukuran kesamaan ini bebas dari pengkodean objek-objeknya. Adapun rumusnya adalah sebagai berikut:
(
a b)(
a c)(
b d)(
c d)
ad + + + + 2Wijayati (2002) menyatakan bahwa metode klasifikasi terbaik adalah metode perbaikan jarak Average Linkage within the New Group dengan simple matching sebagai kombinasi ukuran kesamaannya.
Analisis Asosiasi
Analisis asosiasi dikenal sebagai salah satu teknik eksplorasi data yang menjadi langkah awal dari berbagai teknik eksplorasi data lainnya. Dasar analisis asosiasi adalah menemukan aturan asosiasi antar kombinasi item atau objek. Contoh aturan asosiasi dari analisa pembelian di suatu pasar swalayan adalah bisa diketahui berapa besar kemungkinan seorang pelanggan membeli roti bersamaan dengan susu. Dengan pengetahuan tersebut pemilik pasar swalayan dapat mengatur penempatan barangnya atau merancang kampanye pemasaran dengan memakai kupon diskon untuk kombinasi barang tertentu (Bajcsy 2002).
Oleh karena itu, analisis asosiasi dapat didefinisikan sebagai suatu proses untuk menemukan semua aturan asosiasi yang memenuhi syarat minimum untuk support (minimum support) dan syarat minimum untuk confidence (minimum confidence). Penting tidaknya suatu aturan asosiasi dapat diketahui dengan dua ukuran, yaitu support (nilai penunjang) yang berarti persentase kombinasi item dalam database dan confidence (nilai kepastian) yang berarti kuatnya hubungan antar item dalam aturan asosiasi.
Aturan asosiasi biasanya dinyatakan dalam bentuk :
{X1} {X2} (supp = a%, conf = b%)
dengan X1 merupakan item di sebelah kiri aturan asosiasi (left hand of rule) sedangkan X2
merupakan item di sebelah kanan aturan asosiasi (right hand of rule). Hal ini berarti b% dari transaksi di database yang memuat item X1
juga memuat item X2. Sedangkan a% dari seluruh transaksi yang ada di database memuat kedua item itu.
Dua tahap dalam mendapatkan aturan asosiasi (Tan, Steinbach, & Kumar 2004):
• Analisa pola frekuensi tinggi
Tahap ini mencari kombinasi item yang memenuhi syarat minimum dari nilai support dalam database.
• Pembentukan aturan asosiasi
Setelah semua pola frekuensi tinggi ditemukan, barulah dicari aturan asosiasi yang memenuhi syarat minimum untuk
confidence dengan menghitung confidence aturan asosiasi Xi Xj dimana i
≠
j dari support pola frekuensi tinggi Xidan Xj dengan menggunakan rumus berikut : Conf (Xi Xj)=