BAB IV K-MEANS CLUSTERING
A. K-Means Clustering
C. Tahap Penelitian
D. Statistik Deskriptif dan Hasil Clustering E. Validasi Cluster
BAB V PENUTUP A. Kesimpulan B. Saran
DAFTAR PUSTAKA LAMPIRAN
5 BAB II
TINJAUAN PUSTAKA
Pada bab ini akan dibahas mengenai dasar teori yang akan dipergunakan dalam bab selanjutnya, yaitu definisi pendapatan asli daerah, belanja daerah, data multivariat dan beberapa pokok bahasan yang terkait dengan konsep kedekatan jarak antar obyek dan MANOVA.
Pendapatan asli daerah dan belanja daerah merupakan dua indikator pentingdalam pertumbuhan ekonomi yang menunjukkan kemajuan pembangunan suatu daerah.
A. Pendapatan Asli Daerah (PAD)
Pendapatan asli daerah adalah penerimaan yang diperoleh daerah dari sumber-sumber dalam wilayahnya sendiri yang dipungut berdasarkan Peraturan daerah sesuai dengan peraturan perundangan yang berlaku. Selanjutnya sumber-sumber PAD terdiri dari beberapa unsur yaitu: pajak daerah, retribusi daerah, hasil perusahaan milik daerah dan hasil pengelolaan kekayaan daerah lainnya yang dipisahkannya dan lain-lain. Upaya meningkatkan pendapatan asli daerah pada dasarnya ditempuh melalui upaya intensifikasi yang pelaksanaannya diantaranya melalui kegiatan sebagai berikut, penyederhanaan prosedur administrasi yang dimaksudkan untuk memberi kemudahan bagi masyarakat membayar pajak dan retribusi daerah. Peningkatan dan pengawasan yang efektif agar tidak terjadi penyimpangan dari prosedur pungutan dan pembayaran pajak dan retribusi daerah.
Peningkatan sumber daya manusia dengan mengerahkan sumber daya aparatur dalam pengelolaan pendapatan daerah. Meningkatkan kegiatan penyuluhan kepada masyarakat, untuk menumbuhkan kesadaran masyarakat membayar retribusi dan pajak.
B. Belanja Daerah
Pengeluaran dan penerimaan daerah disebut Anggaran Pendapatan dan Belanja Daerah (APBD) yang merupakan rencana keuangan tahunan pemerintah
daerah yang dibahas dan disetujui bersama oleh pemerintah daerah dan Dewan Perwakilan Rakyat Daerah (DPRD) dan ditetapkan dengan peraturan daerah.
Tujuan dan fungsi APBD pada prinsipnya, sama dengan tujuan dan fungsi APBN.
APBD terdiri dari pendapatan daerah, belanja daerah dan pembiayaan daerah.
Belanja daerah biasanya direalisasikan digunakan untuk belanja pegawai, barang dan jasa, dan untuk belanja modal. Tiga komponen APBD yaitu belanja daerah, pendapatan daerah dan pembiayaan daerah, sangat mempengaruhi keberhasilan perekonomian suatu daerah. Jika ketiganya diolah dengan baik maka akan memberikan dampak yang baik pula bagi perekonomian daerah.
Belanja daerah dikelompokkan menjadi dua jenis yaitu belanja tidak langsung dan belanja langsung, belanja tidak langsung seperti belanja pegawai, belanja bunga, belanja subsidi, belanja hibah, belanja bantuan sosial belanja bagi hasil kepada Provinsi/Kabupaten dan pemerintah desa, belanja bantuan keuangan kepada Provinsi/Kabupaten dan pemerintah desa. Sedangkan belanja langsung meliputi belanja pegawai barang dan jasa, belanja modal. Untuk meningkatkan belanja daerah, jumlah Produk Domestik Reginal Bruto (PDRB) harus besar. Karena semakin besar PDRB, maka akan semakin besar pula pendapatan yang diterima oleh Kabupaten/Kota dengan semakin besar pendapatan yang diperoleh daerah, maka pengalokasian belanja oleh pemerintah pusat akan lebih besar untuk meningkatkan 3 berbagai potensi lokal di daerah tersebut untuk kepentingan pelayanan publik.
Pengeluaran belanja daerah dilihat dari perkembangan jumlah penduduk di suatu daerah, apabila perkembangan jumlah penduduk semakin besar akan memerlukan anggaran yang semakin besar. Karena meningkatnya jumlah penduduk menuntut konsekuensi logis adanya peningkatan sarana dan prasarana umum, baik dari aspek kuantitas maupun kualitas. Perkembangan jumlah penduduk yang semakin besar akan memerlukan anggaran yang semakin besar, supaya kualitas pertumbuhan ekonomi lebih baik, pertumbuhan penduduk harus selalu dikendalikan.
C. Data Multivariat dan Karakteristiknya
Pada bagian ini akan dibahas mengenai data multivariat karena pembahasan analisis cluster melibatkan konsep data multivariat. Data multivariat adalah data yang diperoleh dari hasil pengukuran, terhadap π variabel pada n unit sampel . Data multivariat dapat dinyatakan dalam bentuk matriks. Dalam data multivariat ini sering kali dihadapkan pada masalah pengamatan yang dilakukan pada suatu periode waktu untuk π β₯ 1 variabel. Misalkan dalam suatu pengukuran terhadap n individu dengan π variabel yang dinyatakan dengan vektor π = (ππ, ππ, β¦ , ππ).
Sehingga data multivariat disajikan dalam bentuk matriks Y berukuran ππ₯π dengan n baris dan p kolom sebagai berikut:
ππππ= [
π = banyaknya obyek pengamatan dan π = banyaknya variabel
Setiap variabel dalam matriks data multivariat dapat dihitung rata-ratanya dalam bentuk vektor yaitu vektor rata-rata. Vektor rata-rata populasi dari variabel acak π¦ didefinisikan sebagai rata-rata dari semua nilai y dan vekor rata-rata ini dinotasikan dengan π. Rata-rata sering kali disebut sebagai nilai harapan dari π¦, yang dapat dinotasikan dengan πΈ(π¦). Vektor rata-rata populasi π tidak diketahui, sehingga diduga dengan vektor rata-rata sampel yang dinotasikan dengan π
Μ . Elemen-elemen vektor rata-rata πΜ adalah rata-rata dari π variabel multivariat.
Definisi 2.31 Vektor Rata-Rata Sampel
Misalkan π mewakili vektor acak dari π variabel dan jika terdapat π individu
Sehingga diperoleh vektor rata-rata sampel πΜ yang didefinisikan sebagai berikut:
π
π¦Μ 1 = rata-rata sampel π pengamatan variabel pertama π¦Μ 2 = rata-rata sampel π pengamatan variabel kedua
π¦Μ π = rata-rata sampel π pengamatan variabel pertama ke-π.
Dalam setiap π vektor pengamatan ππ, ππ, β¦ , ππ diubah ke dalam bentuk vektor kolom dan ditulis dalam bentuk matriks π sebagai berikut:
(variabel)
πΜ β² = 1 ππβ²π,
di mana π merupakan vektor kolom dengan setiap elemennya adalah 1, dan πβ² merupakan transpose dari π. Sebagai contoh dari elemen kedua pada πβ²π adalah sebagai berikut
Definisi 2.32 Kovarians Populasi
Kovarians Populasi didefinisikan sebagai berikut:
πΆππ£(π¦π, π¦π) = πΈ[(π¦πβ ππ)(π¦πβ ππ)]
di mana ππ dan ππ masing-masing adalah rata-rata dari π¦π dan π¦π. Sedangkan varians populasi pada variabel π¦π didefinisikan sebagai π£ππ(π¦π) = ππ2 = πΈ(π¦πβ ππ)2.
Definisi 2.33 Matriks Kovarians Populasi
Pada umumnya matriks kovarians populasi didefinisikan sebagai berikut:
β = (
dengan elemen diagonal πππ = ππ2 merupakan varians populasi dan π12 merupakan kovarians populasi untuk variabel kesatu dan kedua yang didefinisikan sebagai πΆππ£(π¦1, π¦2). Kovarians populasi biasanya tidak diketahui, sehingga diduga dengan kovarians sampel. Karena matriks kovarians populasi (β) tidak diketahui maka diduga dengan matriks kovarians sampel πΊ.
Definisi 2.34 Matriks Kovarians Sampel
Pada umumnya matriks kovarians sampel disimbolkan dengan πΊ, yang
didefinisikan sebagai berikut:
Kovarians sampel dari variabel ke- π dan ke-π didefinisikan sebagai berikut:
π ππ = 1
Contoh 2.31
Misalkan diketahui data dalam sebuah penelitian tentang pengukuran kalsium dengan tiga jenis tanah yang berbeda dan akan dilakukan penelitian di 10 lokasi yang berbeda di Indonesia.
Tabel 2.31 Tabel kadar kalsium pada setiap jenis tanah
Nomor Lokasi ππ ππ ππ
1 35 3.5 2.8
2 35 4.9 2.7
3 40 30 4.38
4 10 2.8 3.21
5 6 2.7 2.73
6 20 2.8 2.81
7 35 4.6 2.88
8 35 10.9 2.9
9 35 8 3.28
10 30 1.6 3.2
Berikut adalah variabel-variabel yang akan digunakan:
ππ= kadar kalsium pada tanah aluvial ππ= kadar kalsium pada tanah vulkanis ππ= kadar kalsium pada tanah humus
Untuk menentukan rata-rata vektor πΜ , yaitu dengan cara menghitung rata-rata dari setiap variabelnya. Sehingga diperoleh perhitungan sebagai berikut:
πΜ π= 35 + 35 + 40 + 10 + 6 + 20 + 35 + 35 + 35 + 30 10
= 281
10 = 28.1
π
Selanjutnya akan dicari matriks kovarians dengan menentukan nilai dari elemen matriks kovarians terlebih dahulu
β π¦π1π¦π1= (35)(35) + (35)(35) + β― + (30)(30) = 9161
dengan perhitungan yang sama diperoleh:
π 12= π 21= 49.68 π 13= π 31= 1.9412 π 22 = 72.24844 π 32 = π 23= 3.67608 π 33 = 0.2501
Sehingga matriks kovarians sampelnya adalah sebagai berikut:
πΊ = (
140.54 49.68 1.94 49.68 72.24 3.67 1.94 3.67 0.25
)
D. Konsep Kesamaan antar Obyek
Konsep kesamaan antar obyek atau ukuran kedekatan merupakan hal yang paling mendasar dalam analisis cluster. Kesamaan antar obyek adalah sebuah ukuran untuk kesesuaian atau kemiripan diantara obyek-obyek yang akan dipilah menjadi beberapa cluster. Ukuran kesamaan mempertimbangkan dua sifat yaitu variabel (diskrit, kontinu) atau skala pengukuran (nominal, ordinal, rasio, interval).
Terdapat tiga metode yang dapat diterapkan dalam konsep kesamaan antar obyek yaitu ukuran korelasi, ukuran jarak, dan ukuran asosiasi. Pemilihan metode tergantung pada tujuan dan jenis data. Ukuran korelasi dan ukuran jarak digunakan untuk data dengan skala metrik, sedangkan ukuran asosiasi digunakan untuk data dengan tipe non metrik. Di mana tipe data non metrik merupakan data yang tidak berupa angka atau seringkali disebut sebagai data kualitatif, data ini bisa berupa atribut atau karakteristik. Sedangkan data metrik adalah data yang berupa angka atau data kuantitatif, variabel yang diukur dalam data ini menggunakan skala interval dan rasio.
1. Ukuran Korelasi
Ukuran ini dapat diterapkan pada data dengan skala metrik. Kesamaan antar obyek dapat dilihat dari koefisien korelasi antar pasangan obyek yang diukur dengan beberapa variabel. Korelasi juga sering disebut sebagai kovarians standar.
Koefisien korelasi populasi dua variabel acak x dan y didefinisikan sebagai berikut:
ππ₯π¦= π π₯π¦
βπ π₯π₯π π¦π¦ = π π₯π¦
π π₯π π¦ = βππ=1(π₯πβ π₯Μ )(π¦πβ π¦Μ )
ββππ=1(π₯πβ π₯Μ )2βππ=1(π¦πβ π¦Μ )2
Matriks koefisien korelasi sampel pada umumnya disimbolkan dengan πΉ dan didefinisikan sebagai berikut:
Di mana setiap elemen diagonal pada matriks πΉ adalah 1 karena berkorelasi dengan dirinya sendiri. Matriks πΉ adalah matriks yang simetris sehingga ππ₯π¦=ππ¦π₯.
Dalam korelasi populasi matriks koefisien korelasi didefinisikan sebagai berikut: contoh 2.31 dan selanjutnya akan ditentukukan matriks koefisien korelasi sampel:
π12 = π21= π 12
βπ 11π 22= 49.68
β(140.54)(72.24) = 0.49
dengan perhitungan yang sama diperoleh:
π31 = π31= 0.32 π32 = π32= 0.86
Sehingga diperoleh matriks koefisien korelasi sampel sebagai berikut:
πΉ = (
1 0.49 0.32
0.49 1 0.86
0.32 0.86 1 )
Dalam perhitungan ini bisa dilakukan menggunakan Microsoft excel dan Perangkat lunak R jika diketahui data yang banyak.
2. Ukuran Jarak
Menurut Kamus Besar Bahasa Indonesia (KBBI) jarak pada umumnya merupakan ruang sela (panjang atau jauh) antara dua benda atau tempat. Teknik multivariat didasarkan pada konsep jarak yang sederhana. Misalkan terdapat titik π = (π₯1, π₯2) di dalam bidang, sehingga jarak garis lurus dari titik π ke titik asal π = (0,0) adalah sebagai berikut
Menurut Teorema Phytagoras:
π(π, π) = βπ₯12+ π₯22 (2.2)
Secara umum, jika titik π memiliki koordinat π = (π₯1, π₯2, β¦ , π₯π) yang terdapat dalam ruang dimensi π maka jarak dari π ke titik asal π = (0,0, β¦ ,0) adalah
π(π, π) = βπ₯12 + π₯22+ β― + π₯π2 (2.3)
Sehingga jarak garis lurus antara dua titik sembarang π dan π dengan koordinat πβ²= (π₯1, π₯2, β¦ , π₯π) dan πβ²= (π¦1, π¦2, β¦ , π¦π) adalah sebagai berikut
π(π, π) = β(π₯1β π¦1)2+ (π₯2β π¦2)2+ β― + (π₯πβ π¦π)2 (2.4)
Oleh karena itu persamaan ini akan mendasari dalam ukuran kesamaan obyek dalam analisis cluster. Ukuran kesamaan tersebut dinyatakan dalam bentuk ukuran similaritas atau disimilaritas. Tipe data untuk ukuran similaritas atau disimilaritas dibagi menjadi dua yaitu data bersifat metrik dan koefisien asosiasi, dimana data yang bersifat metrik dalam ukuran similaritas atau disimilaritas meliputi data kontinu dan data biner. Berdasarkan skala pengukurannya data kontinu meliputi
skala interval dan rasio sedangkan untuk data biner skala pengukuran dapat menggunakan skala nominal dan ordinal.
i. Skala Nominal
Skala nominal merupakan skala pengukurang yang tujuannya memberikan informasi untuk membedakan benda atau obyek yang diteliti. Pengukuran dengan skala ini dilakukan dengan memberikan angka atau simbol. Pemberian angka ini bertujuan untuk menunjukkan karakteristik pada obyek tersebut. Contoh dari skala ini yaitu seperti jenis kelamin, laki-laki diberi simbol 0 dan perempuan diberi simbol 1 atau angka lainnya.
ii. Skala Ordinal
Skala ordinal merupakan skala pengukuran yang mengkategorikan suatu obyek berdasarkan urutan atau tingkatan. Skala ini menggunakan bilangan-bilangan atau lambang-lambang untuk meunjukkan urutan atau tingkatan obyek yang diukur berdasarkan karakteristik tertentu. Sebagai contoh misalnya dilakukan pengukuran mengenai tingkat kepuasan seseorang terhadap sebuah produk. Dalam kasus ini dapat diberikan angka 5,4,3,2,1 di mana masing-masing memberikan rasa sangat puas, puas, kurang puas, tidak puas dan sangat tidak puas.
iii. Skala Interval
Skala interval merupakan skala pengukuran seperti skala nominal dan ordinal, di mana adanya urutan tertentu dalam hasil suatu pengukuran. Perbedaanya adalah bahwa pada skala interval, selisih antar nilai pengukuran terdefinisi dengan jelas.
Misalkan jarak suhu antara 5Β°C dengan 10Β°C memiliki arti yang sama dengan jarak antara 15Β°C dengan 20Β°C. Tetapi tidak demikian dengan jarak antara sangat tidak puas dan tidak puas dibandingkan dengan sangat puas dan puas pada skala ordinal, di mana jaraknya tidak terdefinisi dengan jelas. Skala ini biasanya digunakan dalam pengukuran data numerik. Sebagai contoh variabel berskala interval adalah suhu dalam derajat celcius.
iv. Skala Rasio
Skala rasio hampir sama dengan skala interval yang membedakan skala ini yaitu terletak pada nilai nol. Nilai nol pada skala interval tidak bersifat mutlak sedangkan pada skala rasio nilai nolnya bersifat mutlak, dalam hal ini nilai nol mutlak menunjukkan ketiadaan karakteristik yang diukur. Sebagai contoh misalnya tinggi dan berat badan seseorang.
a) Ukuran jarak data kontinu
Analisis cluster didasarkan pada ukuran kesamaan atau ketidaksamaan antar data. Ukuran kesamaan atau ketidaksamaan yang digunakan adalah jarak (distance). Ukuran ini disajikan dalam bentuk matriks D (nxn) sebagai berikut:
π« = [
di mana ukuran ketidaksamaan atau ukuran disimilaritas memenuhi 4 sifat berikut:
1) π(π, π) β₯ 0 2) π(π, π) = 0 3) π(π, π) = π(π, π),
4) π(π, π) β€ π(π, π) + π(π, π)
Ukuran tersebut dapat dinyatakan dalam jarak antar dua obyek yang pengukurannya menggunakan beberapa konsep ukuran jarak berikut:
1) Jarak Euclidean (Euclidean Distance)
Jarak Euclidean merupakan salah satu metode perhitungan jarak yang digunakan untuk mengukur jarak antara 2 (dua) buah titik dalam ruang Euclidean (meliputi bidang Euclidean dua dimensi, tiga dimensi, atau bahkan lebih) dan juga digunakan untuk mengukur tingkat kemiripan data. Jarak Euclidean merupakan
jarak terpendek yang didapat antara dua titik dalam perhitungan.
Berikut adalah rumus jarak Euclidean:
π
ππ’π(π, π) = ββ
ππ=1|π₯
πβ π¦
π|
2(2.11)
2) Jarak Kuadrat Euclidean (KE)
Jarak Kuadrat Euclidean adalah jumlah kuadrat yang berbeda dari nilai antara dua nilai pada seluruh variabel.
π
πΎπΈ(π, π) = β
ππ=1(π₯
πβ π¦
π)
2(2.12)
3) Jarak Manhattan (Manhattan Distance)
Jarak Manhattan atau jarak City-Block adalah jumlah nilai selisih mutlak untuk setiap variabel. Ukuran jarak ini menghasilkan jarak yang serupa dengan jarak Euclid untuk beberapa kasus tertentu.
Berikut adalah rumus jarak Manhattan:
π
πππ(π, π) = β
ππ=1|π₯
πβ π¦
π|
(2.13)4) Jarak Minkowski (Minkowski Distance)
Jarak Minkowski merupakan sebuah metrik dalam ruang vektor di mana suatu norma didefinisikan (normed vector space) sekaligus dianggap sebagai generalisasi dari jarak Euclidean dan jarak Manhattan.
π
πππ(π, π) = [β
ππ=1|π₯
πβ π¦
π|
π]
1βπ (2.14)dengan m adalah parameter dan untuk m=1.
5) Jarak Canberra (Canberra Distance)
Jarak Canberra adalah jumlah nilai perbedaan mutlak dibagi dengan jumlah antara dua variabel. Jarak ini dapat dinyatakan dalam bentuk sebagai berikut:
π
πΆππ(π, π) = β
|π₯πβπ¦π|(π₯π+π¦π) π
π=1 (2.15)
Ukuran jarak Canberra digunakan hanya untuk variabel yang bernilai positif.
Contoh 2.5.1
Misalkan diketahui π = (1,1) dan π = (0,1) , akan dicari jarak dengan beberapa rumus jarak dibawah ini.
dengan menggunakan jarak Euclidean pada persamaan (2.11) diperoleh, πππ’π(π, π) = β(π₯1β π¦1)2+ (π₯2β π¦2)2
πππ’π(π, π) = β(1 β 0)2+ (1 β 1)2
= β1 + 0 = 1
dengan menggunakan jarak kuadrat Euclidean pada persamaan (2.12) diperoleh, ππΎπΈ(π, π) = (π₯1β π¦1)2+ (π₯2β π¦2)2
ππΎπΈ(π, π) (1 β 0)2+ (1 β 1)2
= 1 + 0 = 1
dengan menggunakan jarak Manhattan pada persamaan (2.13) diperoleh, ππππ(π, π) = (|π₯1β π¦1| + |π₯2β π¦2|)
= (|1 β 0| + |1 β 1|) = 1
b) Ukuran similaritas untuk data biner
Salah satu contoh ukuran similaritas atau ukuran kesamaan obyek berskala nominal adalah bentuk ukuran biner. Dalam hal ini setiap obyek diberi kode 0 atau 1, di mana nilai 0 untuk obyek yang tidak memiliki karakteristik dan nilai 1 untuk data yang memiliki karakteristik yang ditentukan. Sebagai contoh misalnya terdapat variabel jenis kelamin, di mana 0 untuk laki-laki dan 1 untuk perempuan, atau misalnya untuk variabel kelulusan, di mana 0 untuk yang tidak lulus dan 1 untuk lulus. Apabila terdapat dua buah obyek yang variabel datanya bertipe biner, maka ukuran similaritas atau ukuran kesamaan antara dua buah obyek didefinisikan berdasarkan frekuensi data dalam tabel kontingensi pada nilai yang sama (matches) dan nilai yang tidak sama (mismatces).
Misalkan terdapat dua obyek i dan k masing-masing diamati n variabel random, maka tabel kontingensi dapat disajikan dalam tabel 2.32. Dalam tabel 2.32 a menunjukkan frekuensi obyek i dan k yang sama-sama memiliki karakteristik 1 dan d menunjukkan frekuensi obyek i dan k yang sama-sama memiliki karakteristik 0 sedangkan untuk b menunjukkan frekuensi obyek i dan k yang memiliki karakteristik berbeda yaitu obyek ke-i memiliki karakteristik 1 dan obyek ke-k memiliki karakteristik 0 dan c menunjukkan frekuensi obyek i dan k yang memiliki karakteristik berbeda yaitu obyek ke-i memiliki karakteristik 0 dan obyek ke-k memiliki karakteristik 1 (Johnson & Wichern, 2007).
Tabel 2.32 Tabel kontingensi data biner untuk dua obyek.
Obyek Obyek k
Jumlah
1 0
Obyek i 1 a b a+b
0 c d c+d
Jumlah a+c b+d n=a+b+c+d
Tabel 2.33 Tabel beberapa koefisien similaritas
Nama Koefisien Similritas Definisi Koefisien Similaritas Jaccard coefficient (Jaccard, 1908) π
(π + π + π)
Rogers dan Tanimoto (1960) (π + π)
[π + 2(π + π) + π]
Sneath dan Sokal (1973) π
[π + 2(π + π)]
Gower dan Legendre (1986)
(π + π) [π +1
2(π + π) + π]
Gower dan Legendre (1986)
π [π +1
2(π + π)]
3. Ukuran Asosiasi
Ukuran asosiasi dipakai untuk mengukur data berskala nonmetrik (nominal dan ordinal) dimana data ini merupakan data kualitatif, dengan cara mengambil bentuk-bentuk dari koefisien korelasi pada tiap obyeknya. Ketika variabelnya biner, data dapat kembali disusun dalam bentuk tabel kontingensi. Untuk setiap pasangan variabel, terdapat n obyek yang dikategorikan dalam tabel dengan memberikan kode 0 dan 1, yang dapat dilihat pada tabel 2.51.
Misalnya, variabel i bernilai 1 sebanyak a dan variabel k bernilai 0 sebanyak b. Rumus korelasi product moment yang biasa diterapkan ke dalam variabel biner adalah sebagai berikut:
π =
ππβππ[(π+π)(π+π)(π+π)(π+π)]1β2 (2.16)
Nilai ini dapat diambil sebagai ukuran kesamaan antara dua variabel koefisien korelasi (2.16) untuk menguji independensi dua variabel. Di dalam koefisien asosiasi skala pengukuran yang digunakan yaitu data berskala nominal dan data
berskala ordinal.
E. MANOVA
Dalam Tugas Akhir ini Multivariate Analysis of Variance (MANOVA) digunakan untuk memvalidasi hasil clustering. MANOVA merupakan perluasan dari konsep dan teknik Analysis of Variance (ANOVA) yang terdiri dari beberapa variabel dependen (variabel tak bebas). Penggunaan lebih dari satu variabel tak bebas ini sering dijumpai pada kasus-kasus yang ingin mengamati atau melihat karakteristik suatu obyek yang dalam hal ini tidak cukup jika hanya menggunakan variabel tak bebas.
Dalam pengujian MANOVA terdapat beberapa asumsi yang harus dipenuhi.
Adapun asumsi yang harus dipenuhi sebelum melakukan pengujian dengan MANOVA yaitu asumsi data berdistribusi normal multivariat dan matriks varian/kovarian homogen. Statistik uji yang dapat digunakan untuk pengambilan hipotesis, antara lain Pillaiβs Trace, Wilks Lamda, Hotelling Trace. Uji homogenitas matriks varian/kovarian berguna untuk melihat apakah matriks kovarian dari dependen variabel sama untuk grup-grup yang ada (independen).
Berikut model MANOVA untuk membandingkan vektor rata-rata g populasi.
πΏππ= π + ππ+ πππ
(2.17)
dengan:
π = 1,2, β¦ , ππ dan π = 1,2, β¦ , π, di mana πππ adalah variabel bebas ππ(π, β).
Parameter vektor π adalah rata-rata keseluruhan dan ππ merepresentasikan efek perlakuan ke-i dengan
β ππ
π
π=1
ππ= 0
Sehingga pengamatan vektor
πΏ
ππ dapat diuraikan menjadiπ
ππ= π₯Μ + (π₯Μ
πβ π₯Μ ) + (π₯
ππβ π₯Μ
π)
Matriks jumlah kuadrat dan perkalian silang dapat dinyatakan sebagai berikut
πΎ = β β
(π
ππβ π
Μ π)(π
ππβ π
Μ π)
β²dimana πΊπ adalah sampel matriks kovarians untuk sampel ke-i. Berikut adalah tabel MANOVA untuk membandingkan vektor rata-rata populasi.
Tabel 2.34 Tabel MANOVA membandingkan vektor rata-rata populasi Sumber
Variasi
Matriks Jumlah Kuadrat dan Perkalian Silang
Berikut langkah-langkah dalam pengujian hipotesis MANOVA:
1. Merumuskan hipotesis nol dan alternatif π»0: ππ= ππ= β― = ππ
π»1: βππ β ππ, π β π
2. Pilih tingkat signifikansi πΌ 3. Statistik uji :
Terdapat beberapa asumsi-asumi yang harus dipenuhi dalam pengujian MANOVA, yaitu variabel pengamatan berdistribusi normal multivariat dan matriks kovarian homogen. Berikut ini merupakan statistik uji Wilkβs Lambda π = |πΎ|
Dalam pengujian MANOVA jika asumsi matriks kovarian homogen dipenuhi maka statistik uji yang digunakan yaitu Wilkβs Lambda, sedangkan jika asumsi matriks kovarian homogen tidak dipenuhi maka statistik uji yang dapat digunakan yaitu Pillaiβs Trace.
Dalam tahap ini perhitungan dapat dilakukan dengan menggunakan perangkat lunak R maupun perangkat lunak yang lain.
6. Membuat kesimpulan
Setelah diperoleh hasil maka selanjutnya dapat ditarik kesimpulan apakah vektor rata-rata dari dua atau lebih populasi berbeda secara signifikan.
Berikut contoh dalam pengujian hipotesis MANOVA.
Contoh 2.6.1
Andrew dan Heszberg (1985) melaporkan hasil penelitiannya terhadap 6 ladang apel yang berbeda. Masing-masing ladang diteliti 8 pohon apel di mana setiap subyek dikenakan 4 pengukuran yang meliputi:
1) π1 : ukuran lilitan batang pohon berumur 4 tahun (dalam 10cm), 2) π2 : pertumbuhan pohon berumur 4 tahun (dalam m),
3) π3 : lilitan batang pohon berumur 15 tahun (dalam 10cm) dan,
4) π4 : berat batang di atas permukaan tanah pada pohon berumur 15 tahun (dalam 1000 pounds).
Kemudian akan diuji apakah ada perbedaan rata-rata ukuran yang signifikan dari ke-8 ladang yang diteliti. Hasil pengukuran disajikan pada Lampiran 1:
Penyelesaian:
1. Merumuskan hipotesis nol dan alternatif π»0: ππ= ππ= β― = ππ
π»1: βππ β ππ, π β π
2. Pilih tingkat signifikansi πΌ = 0.05 3. Statistik uji :
Statistik uji yang digunakan yaitu statistik uji Wilkβs Lambda . data diasumsikan berdistribusi normal multivariat dan matriks kovarians homogen
π = |πΎ|
|π© + πΎ|
4. Wilayah kritis π = 4, π = 6, π = 8 π£π»= 6 β 1 = 5 π£πΈ = 6(8 β 1) = 42
π»0 ditolak apabila π β€ π.05,4,5,40= 0.455 5. Menghitung statistik uji
π© = (
6. Membuat kesimpulan
π»0 ditolak sehingga dapat disimpulkan bahwa terdapat perbedaan vektor rata-rata ukuran dari keenam ladang yang diteliti secara signifikan.
27 BAB III
ANALISIS CLUSTER
Pada bab ini akan dibahas mengenai konsep dasar dari analisis cluster dan beberapa metode dalam pengelompokan (clustering).
A. Pengertian Cluster
Cluster adalah sekelompok titik (obyek) di mana sebuah titik pada kelompok itu lebih dekat atau mirip dengan semua titik (obyek) yang ada pada kelompok tersebut daripada titik-titik lain yang tidak terdapat pada kelompok itu. Cluster juga didefinisikan sebagai sekelompok titik (obyek) dimana semua titik pada kelompok itu lebih dekat dengan pusat dari kelompok tersebut daripada pusat pada kelompok yang lain. Pada umumnya pusat cluster disebut sebagai centroid, yaitu rata-rata dari semua titik dalam cluster tersebut.
Misalkan terdapat kumpulan titik (obyek) yang mewakili nomor alamat rumah di sebuah perumahan, dimana titik-titik ini memiliki kedekatan jarak yang berbeda-beda antar rumah di perumahan tersebut yang dapat dilihat pada gambar berikut:
Gambar 3.11 Gambar sekumpulan titik(obyek)
Kumpulan titik(obyek) tersebut akan dikelompokkan berdasarkan jarak terdekat antar rumah atau titik. Sehingga akan didapatkan 3 cluster yang mewakili 3 blok di perumahan tersebut sesuai dengan kedekatan jarak antar rumah.
Gambar 3.12 Gambar hasil pengelompokan
Dalam hal ini pengelompokan berhasil sesuai dengan kedekatan jarak antar obyek.
Selanjutnya misalkan terdapat sekelompok obyek minuman dengan beberapa karakteristik (X1= bentuk kemasan, X2= rasa minuman, X3= merk produk) sebagai berikut:
Gambar 3.13 Gambar minuman sebelum dikelompokkan
Pada gambar 3.13 obyek minuman akan dikelompokkan bentuk kemasan,
sehingga obyek yang memiliki bentuk kemasan yang sama atau mirip akan menjadi satu kelompok, sedangkan obyek yang berbeda terdapat pada kelompok lain.
Tabel 3.11 Tabel minuman yang berhasil dikelompokkan
Cluster 1 Cluster 2 Cluster 3
Sehingga dapat terlihat bahwa proses pengelompokan berhasil dan didapatkan 3 cluster menurut kesamaan karakteristiknya yaitu berdasarkan bentuk kemasan dalam produk minuman tersebut. Pada gambar di atas minuman yang memiliki rasa sama juga akan saling berdekatan. Oleh karena itu minuman yang memiliki bentuk kemasan sama akan berdekatan dan menjadi satu kelompok dan yang memiliki bentuk kemasan yang berbeda berada pada kelompok lain. Ukuran kedekatan karakteristik ini akan menjadi pertimbangan untuk menghasilkan pengelompokan yang optimal.
B. Pengelompokan (Clustering)
Pada dasarnya clustering merupakan suatu metode untuk mencari dan
Pada dasarnya clustering merupakan suatu metode untuk mencari dan