K-Means Clustering - K-MEANS CLUSTERING - PENGELOMPOKAN KABUPATEN/KOTA DI PROVINSI JAWA TENGAH

BAB IV K-MEANS CLUSTERING

A. K-Means Clustering

C. Tahap Penelitian

D. Statistik Deskriptif dan Hasil Clustering E. Validasi Cluster

BAB V PENUTUP A. Kesimpulan B. Saran

DAFTAR PUSTAKA LAMPIRAN

5 BAB II

TINJAUAN PUSTAKA

Pada bab ini akan dibahas mengenai dasar teori yang akan dipergunakan dalam bab selanjutnya, yaitu definisi pendapatan asli daerah, belanja daerah, data multivariat dan beberapa pokok bahasan yang terkait dengan konsep kedekatan jarak antar obyek dan MANOVA.

Pendapatan asli daerah dan belanja daerah merupakan dua indikator pentingdalam pertumbuhan ekonomi yang menunjukkan kemajuan pembangunan suatu daerah.

A. Pendapatan Asli Daerah (PAD)

Pendapatan asli daerah adalah penerimaan yang diperoleh daerah dari sumber-sumber dalam wilayahnya sendiri yang dipungut berdasarkan Peraturan daerah sesuai dengan peraturan perundangan yang berlaku. Selanjutnya sumber-sumber PAD terdiri dari beberapa unsur yaitu: pajak daerah, retribusi daerah, hasil perusahaan milik daerah dan hasil pengelolaan kekayaan daerah lainnya yang dipisahkannya dan lain-lain. Upaya meningkatkan pendapatan asli daerah pada dasarnya ditempuh melalui upaya intensifikasi yang pelaksanaannya diantaranya melalui kegiatan sebagai berikut, penyederhanaan prosedur administrasi yang dimaksudkan untuk memberi kemudahan bagi masyarakat membayar pajak dan retribusi daerah. Peningkatan dan pengawasan yang efektif agar tidak terjadi penyimpangan dari prosedur pungutan dan pembayaran pajak dan retribusi daerah.

Peningkatan sumber daya manusia dengan mengerahkan sumber daya aparatur dalam pengelolaan pendapatan daerah. Meningkatkan kegiatan penyuluhan kepada masyarakat, untuk menumbuhkan kesadaran masyarakat membayar retribusi dan pajak.

B. Belanja Daerah

Pengeluaran dan penerimaan daerah disebut Anggaran Pendapatan dan Belanja Daerah (APBD) yang merupakan rencana keuangan tahunan pemerintah

daerah yang dibahas dan disetujui bersama oleh pemerintah daerah dan Dewan Perwakilan Rakyat Daerah (DPRD) dan ditetapkan dengan peraturan daerah.

Tujuan dan fungsi APBD pada prinsipnya, sama dengan tujuan dan fungsi APBN.

APBD terdiri dari pendapatan daerah, belanja daerah dan pembiayaan daerah.

Belanja daerah biasanya direalisasikan digunakan untuk belanja pegawai, barang dan jasa, dan untuk belanja modal. Tiga komponen APBD yaitu belanja daerah, pendapatan daerah dan pembiayaan daerah, sangat mempengaruhi keberhasilan perekonomian suatu daerah. Jika ketiganya diolah dengan baik maka akan memberikan dampak yang baik pula bagi perekonomian daerah.

Belanja daerah dikelompokkan menjadi dua jenis yaitu belanja tidak langsung dan belanja langsung, belanja tidak langsung seperti belanja pegawai, belanja bunga, belanja subsidi, belanja hibah, belanja bantuan sosial belanja bagi hasil kepada Provinsi/Kabupaten dan pemerintah desa, belanja bantuan keuangan kepada Provinsi/Kabupaten dan pemerintah desa. Sedangkan belanja langsung meliputi belanja pegawai barang dan jasa, belanja modal. Untuk meningkatkan belanja daerah, jumlah Produk Domestik Reginal Bruto (PDRB) harus besar. Karena semakin besar PDRB, maka akan semakin besar pula pendapatan yang diterima oleh Kabupaten/Kota dengan semakin besar pendapatan yang diperoleh daerah, maka pengalokasian belanja oleh pemerintah pusat akan lebih besar untuk meningkatkan 3 berbagai potensi lokal di daerah tersebut untuk kepentingan pelayanan publik.

Pengeluaran belanja daerah dilihat dari perkembangan jumlah penduduk di suatu daerah, apabila perkembangan jumlah penduduk semakin besar akan memerlukan anggaran yang semakin besar. Karena meningkatnya jumlah penduduk menuntut konsekuensi logis adanya peningkatan sarana dan prasarana umum, baik dari aspek kuantitas maupun kualitas. Perkembangan jumlah penduduk yang semakin besar akan memerlukan anggaran yang semakin besar, supaya kualitas pertumbuhan ekonomi lebih baik, pertumbuhan penduduk harus selalu dikendalikan.

C. Data Multivariat dan Karakteristiknya

Pada bagian ini akan dibahas mengenai data multivariat karena pembahasan analisis cluster melibatkan konsep data multivariat. Data multivariat adalah data yang diperoleh dari hasil pengukuran, terhadap 𝑝 variabel pada n unit sampel . Data multivariat dapat dinyatakan dalam bentuk matriks. Dalam data multivariat ini sering kali dihadapkan pada masalah pengamatan yang dilakukan pada suatu periode waktu untuk 𝑝 ≥ 1 variabel. Misalkan dalam suatu pengukuran terhadap n individu dengan 𝑝 variabel yang dinyatakan dengan vektor 𝒀 = (𝒚_𝟏, 𝒚_𝟐, … , 𝒚_𝒑).

Sehingga data multivariat disajikan dalam bentuk matriks Y berukuran 𝑛𝑥𝑝 dengan n baris dan p kolom sebagai berikut:

𝒀_𝒏𝒙𝒑= [

𝑛 = banyaknya obyek pengamatan dan 𝑝 = banyaknya variabel

Setiap variabel dalam matriks data multivariat dapat dihitung rata-ratanya dalam bentuk vektor yaitu vektor rata-rata. Vektor rata-rata populasi dari variabel acak 𝑦 didefinisikan sebagai rata-rata dari semua nilai y dan vekor rata-rata ini dinotasikan dengan 𝜇. Rata-rata sering kali disebut sebagai nilai harapan dari 𝑦, yang dapat dinotasikan dengan 𝐸(𝑦). Vektor rata-rata populasi 𝜇 tidak diketahui, sehingga diduga dengan vektor rata-rata sampel yang dinotasikan dengan 𝒚

̅. Elemen-elemen vektor rata-rata 𝒚̅ adalah rata-rata dari 𝑝 variabel multivariat.

Definisi 2.31 Vektor Rata-Rata Sampel

Misalkan 𝒚 mewakili vektor acak dari 𝑝 variabel dan jika terdapat 𝑛 individu

Sehingga diperoleh vektor rata-rata sampel 𝒚̅ yang didefinisikan sebagai berikut:

𝒚

𝑦̅₁ = rata-rata sampel 𝑛 pengamatan variabel pertama 𝑦̅₂ = rata-rata sampel 𝑛 pengamatan variabel kedua

𝑦̅_𝑝 = rata-rata sampel 𝑛 pengamatan variabel pertama ke-𝑝.

Dalam setiap 𝑛 vektor pengamatan 𝒚_𝟏, 𝒚_𝟐, … , 𝒚_𝒑 diubah ke dalam bentuk vektor kolom dan ditulis dalam bentuk matriks 𝒀 sebagai berikut:

(variabel)

𝒚̅^′ = 1 𝑛𝒋^′𝒀,

di mana 𝒋 merupakan vektor kolom dengan setiap elemennya adalah 1, dan 𝒋^′ merupakan transpose dari 𝒋. Sebagai contoh dari elemen kedua pada 𝒋^′𝒀 adalah sebagai berikut

Definisi 2.32 Kovarians Populasi

Kovarians Populasi didefinisikan sebagai berikut:

𝐶𝑜𝑣(𝑦_𝑖, 𝑦_𝑗) = 𝐸[(𝑦_𝑖− 𝜇_𝑖)(𝑦_𝑗− 𝜇_𝑗)]

di mana 𝜇_𝑖 dan 𝜇_𝑗 masing-masing adalah rata-rata dari 𝑦_𝑖 dan 𝑦_𝑗. Sedangkan varians populasi pada variabel 𝑦_𝑖 didefinisikan sebagai 𝑣𝑎𝑟(𝑦_𝑖) = 𝜎_𝑖² = 𝐸(𝑦_𝑖− 𝜇_𝑖)².

Definisi 2.33 Matriks Kovarians Populasi

Pada umumnya matriks kovarians populasi didefinisikan sebagai berikut:

∑ = (

dengan elemen diagonal 𝜎_𝑗𝑗 = 𝜎_𝑗² merupakan varians populasi dan 𝜎₁₂ merupakan kovarians populasi untuk variabel kesatu dan kedua yang didefinisikan sebagai 𝐶𝑜𝑣(𝑦₁, 𝑦₂). Kovarians populasi biasanya tidak diketahui, sehingga diduga dengan kovarians sampel. Karena matriks kovarians populasi (∑) tidak diketahui maka diduga dengan matriks kovarians sampel 𝑺.

Definisi 2.34 Matriks Kovarians Sampel

Pada umumnya matriks kovarians sampel disimbolkan dengan 𝑺, yang

didefinisikan sebagai berikut:

Kovarians sampel dari variabel ke- 𝑗 dan ke-𝑘 didefinisikan sebagai berikut:

𝑠_𝑗𝑘 = 1

Contoh 2.31

Misalkan diketahui data dalam sebuah penelitian tentang pengukuran kalsium dengan tiga jenis tanah yang berbeda dan akan dilakukan penelitian di 10 lokasi yang berbeda di Indonesia.

Tabel 2.31 Tabel kadar kalsium pada setiap jenis tanah

Nomor Lokasi 𝒚_𝟏 𝒚_𝟐 𝒚_𝟑

1 35 3.5 2.8

2 35 4.9 2.7

3 40 30 4.38

4 10 2.8 3.21

5 6 2.7 2.73

6 20 2.8 2.81

7 35 4.6 2.88

8 35 10.9 2.9

9 35 8 3.28

10 30 1.6 3.2

Berikut adalah variabel-variabel yang akan digunakan:

𝒚_𝟏= kadar kalsium pada tanah aluvial 𝒚_𝟐= kadar kalsium pada tanah vulkanis 𝒚_𝟑= kadar kalsium pada tanah humus

Untuk menentukan rata-rata vektor 𝒚̅ , yaitu dengan cara menghitung rata-rata dari setiap variabelnya. Sehingga diperoleh perhitungan sebagai berikut:

𝒚̅_𝟏= 35 + 35 + 40 + 10 + 6 + 20 + 35 + 35 + 35 + 30 10

= 281

10 = 28.1

𝒚

Selanjutnya akan dicari matriks kovarians dengan menentukan nilai dari elemen matriks kovarians terlebih dahulu

∑ 𝑦_𝑖1𝑦_𝑖1= (35)(35) + (35)(35) + ⋯ + (30)(30) = 9161

dengan perhitungan yang sama diperoleh:

𝑠₁₂= 𝑠₂₁= 49.68 𝑠₁₃= 𝑠₃₁= 1.9412 𝑠₂₂ = 72.24844 𝑠₃₂ = 𝑠₂₃= 3.67608 𝑠₃₃ = 0.2501

Sehingga matriks kovarians sampelnya adalah sebagai berikut:

𝑺 = (

140.54 49.68 1.94 49.68 72.24 3.67 1.94 3.67 0.25

)

D. Konsep Kesamaan antar Obyek

Konsep kesamaan antar obyek atau ukuran kedekatan merupakan hal yang paling mendasar dalam analisis cluster. Kesamaan antar obyek adalah sebuah ukuran untuk kesesuaian atau kemiripan diantara obyek-obyek yang akan dipilah menjadi beberapa cluster. Ukuran kesamaan mempertimbangkan dua sifat yaitu variabel (diskrit, kontinu) atau skala pengukuran (nominal, ordinal, rasio, interval).

Terdapat tiga metode yang dapat diterapkan dalam konsep kesamaan antar obyek yaitu ukuran korelasi, ukuran jarak, dan ukuran asosiasi. Pemilihan metode tergantung pada tujuan dan jenis data. Ukuran korelasi dan ukuran jarak digunakan untuk data dengan skala metrik, sedangkan ukuran asosiasi digunakan untuk data dengan tipe non metrik. Di mana tipe data non metrik merupakan data yang tidak berupa angka atau seringkali disebut sebagai data kualitatif, data ini bisa berupa atribut atau karakteristik. Sedangkan data metrik adalah data yang berupa angka atau data kuantitatif, variabel yang diukur dalam data ini menggunakan skala interval dan rasio.

1. Ukuran Korelasi

Ukuran ini dapat diterapkan pada data dengan skala metrik. Kesamaan antar obyek dapat dilihat dari koefisien korelasi antar pasangan obyek yang diukur dengan beberapa variabel. Korelasi juga sering disebut sebagai kovarians standar.

Koefisien korelasi populasi dua variabel acak x dan y didefinisikan sebagai berikut:

𝑟_𝑥𝑦= 𝑠_𝑥𝑦

√𝑠𝑥𝑥𝑠_𝑦𝑦 = 𝑠_𝑥𝑦

𝑠_𝑥𝑠_𝑦 = ∑^𝑛_𝑖=1(𝑥_𝑖− 𝑥̅)(𝑦_𝑖− 𝑦̅)

√∑^𝑛_𝑖=1(𝑥_𝑖− 𝑥̅)²∑^𝑛_𝑖=1(𝑦_𝑖− 𝑦̅)²

Matriks koefisien korelasi sampel pada umumnya disimbolkan dengan 𝑹 dan didefinisikan sebagai berikut:

Di mana setiap elemen diagonal pada matriks 𝑹 adalah 1 karena berkorelasi dengan dirinya sendiri. Matriks 𝑹 adalah matriks yang simetris sehingga 𝑟_𝑥𝑦=𝑟_𝑦𝑥.

Dalam korelasi populasi matriks koefisien korelasi didefinisikan sebagai berikut: contoh 2.31 dan selanjutnya akan ditentukukan matriks koefisien korelasi sampel:

𝑟₁₂ = 𝑟₂₁= 𝑠₁₂

√𝑠11𝑠₂₂= 49.68

√(140.54)(72.24) = 0.49

dengan perhitungan yang sama diperoleh:

𝑟₃₁ = 𝑟₃₁= 0.32 𝑟₃₂ = 𝑟₃₂= 0.86

Sehingga diperoleh matriks koefisien korelasi sampel sebagai berikut:

𝑹 = (

1 0.49 0.32

0.49 1 0.86

0.32 0.86 1 )

Dalam perhitungan ini bisa dilakukan menggunakan Microsoft excel dan Perangkat lunak R jika diketahui data yang banyak.

2. Ukuran Jarak

Menurut Kamus Besar Bahasa Indonesia (KBBI) jarak pada umumnya merupakan ruang sela (panjang atau jauh) antara dua benda atau tempat. Teknik multivariat didasarkan pada konsep jarak yang sederhana. Misalkan terdapat titik 𝑃 = (𝑥₁, 𝑥₂) di dalam bidang, sehingga jarak garis lurus dari titik 𝑃 ke titik asal 𝑂 = (0,0) adalah sebagai berikut

Menurut Teorema Phytagoras:

𝑑(𝑂, 𝑃) = √𝑥₁²+ 𝑥₂² (2.2)

Secara umum, jika titik 𝑃 memiliki koordinat 𝑃 = (𝑥₁, 𝑥₂, … , 𝑥_𝑃) yang terdapat dalam ruang dimensi 𝑝 maka jarak dari 𝑃 ke titik asal 𝑂 = (0,0, … ,0) adalah

𝑑(𝑂, 𝑃) = √𝑥₁² + 𝑥₂²+ ⋯ + 𝑥_𝑝² (2.3)

Sehingga jarak garis lurus antara dua titik sembarang 𝒙 dan 𝒚 dengan koordinat 𝒙^′= (𝑥₁, 𝑥₂, … , 𝑥_𝑃) dan 𝒚^′= (𝑦₁, 𝑦₂, … , 𝑦_𝑃) adalah sebagai berikut

𝑑(𝒙, 𝒚) = √(𝑥₁− 𝑦₁)²+ (𝑥₂− 𝑦₂)²+ ⋯ + (𝑥_𝑝− 𝑦_𝑝)² (2.4)

Oleh karena itu persamaan ini akan mendasari dalam ukuran kesamaan obyek dalam analisis cluster. Ukuran kesamaan tersebut dinyatakan dalam bentuk ukuran similaritas atau disimilaritas. Tipe data untuk ukuran similaritas atau disimilaritas dibagi menjadi dua yaitu data bersifat metrik dan koefisien asosiasi, dimana data yang bersifat metrik dalam ukuran similaritas atau disimilaritas meliputi data kontinu dan data biner. Berdasarkan skala pengukurannya data kontinu meliputi

skala interval dan rasio sedangkan untuk data biner skala pengukuran dapat menggunakan skala nominal dan ordinal.

i. Skala Nominal

Skala nominal merupakan skala pengukurang yang tujuannya memberikan informasi untuk membedakan benda atau obyek yang diteliti. Pengukuran dengan skala ini dilakukan dengan memberikan angka atau simbol. Pemberian angka ini bertujuan untuk menunjukkan karakteristik pada obyek tersebut. Contoh dari skala ini yaitu seperti jenis kelamin, laki-laki diberi simbol 0 dan perempuan diberi simbol 1 atau angka lainnya.

ii. Skala Ordinal

Skala ordinal merupakan skala pengukuran yang mengkategorikan suatu obyek berdasarkan urutan atau tingkatan. Skala ini menggunakan bilangan-bilangan atau lambang-lambang untuk meunjukkan urutan atau tingkatan obyek yang diukur berdasarkan karakteristik tertentu. Sebagai contoh misalnya dilakukan pengukuran mengenai tingkat kepuasan seseorang terhadap sebuah produk. Dalam kasus ini dapat diberikan angka 5,4,3,2,1 di mana masing-masing memberikan rasa sangat puas, puas, kurang puas, tidak puas dan sangat tidak puas.

iii. Skala Interval

Skala interval merupakan skala pengukuran seperti skala nominal dan ordinal, di mana adanya urutan tertentu dalam hasil suatu pengukuran. Perbedaanya adalah bahwa pada skala interval, selisih antar nilai pengukuran terdefinisi dengan jelas.

Misalkan jarak suhu antara 5°C dengan 10°C memiliki arti yang sama dengan jarak antara 15°C dengan 20°C. Tetapi tidak demikian dengan jarak antara sangat tidak puas dan tidak puas dibandingkan dengan sangat puas dan puas pada skala ordinal, di mana jaraknya tidak terdefinisi dengan jelas. Skala ini biasanya digunakan dalam pengukuran data numerik. Sebagai contoh variabel berskala interval adalah suhu dalam derajat celcius.

iv. Skala Rasio

Skala rasio hampir sama dengan skala interval yang membedakan skala ini yaitu terletak pada nilai nol. Nilai nol pada skala interval tidak bersifat mutlak sedangkan pada skala rasio nilai nolnya bersifat mutlak, dalam hal ini nilai nol mutlak menunjukkan ketiadaan karakteristik yang diukur. Sebagai contoh misalnya tinggi dan berat badan seseorang.

a) Ukuran jarak data kontinu

Analisis cluster didasarkan pada ukuran kesamaan atau ketidaksamaan antar data. Ukuran kesamaan atau ketidaksamaan yang digunakan adalah jarak (distance). Ukuran ini disajikan dalam bentuk matriks D (nxn) sebagai berikut:

𝑫 = [

di mana ukuran ketidaksamaan atau ukuran disimilaritas memenuhi 4 sifat berikut:

1) 𝑑(𝒙, 𝒚) ≥ 0 2) 𝑑(𝒙, 𝒚) = 0 3) 𝑑(𝒙, 𝒚) = 𝑑(𝒚, 𝒙),

4) 𝑑(𝒙, 𝒚) ≤ 𝑑(𝒙, 𝒛) + 𝑑(𝒛, 𝒚)

Ukuran tersebut dapat dinyatakan dalam jarak antar dua obyek yang pengukurannya menggunakan beberapa konsep ukuran jarak berikut:

1) Jarak Euclidean (Euclidean Distance)

Jarak Euclidean merupakan salah satu metode perhitungan jarak yang digunakan untuk mengukur jarak antara 2 (dua) buah titik dalam ruang Euclidean (meliputi bidang Euclidean dua dimensi, tiga dimensi, atau bahkan lebih) dan juga digunakan untuk mengukur tingkat kemiripan data. Jarak Euclidean merupakan

jarak terpendek yang didapat antara dua titik dalam perhitungan.

Berikut adalah rumus jarak Euclidean:

𝑑

_𝑒𝑢𝑐

(𝒙, 𝒚) = √∑

^𝑝_𝑖=1

|𝑥

_𝑖

− 𝑦

_𝑖

|

(2.11)

2) Jarak Kuadrat Euclidean (KE)

Jarak Kuadrat Euclidean adalah jumlah kuadrat yang berbeda dari nilai antara dua nilai pada seluruh variabel.

𝑑

_𝐾𝐸

(𝒙, 𝒚) = ∑

^𝑝_𝑖=1

(𝑥

_𝑖

− 𝑦

_𝑖

)

(2.12)

3) Jarak Manhattan (Manhattan Distance)

Jarak Manhattan atau jarak City-Block adalah jumlah nilai selisih mutlak untuk setiap variabel. Ukuran jarak ini menghasilkan jarak yang serupa dengan jarak Euclid untuk beberapa kasus tertentu.

Berikut adalah rumus jarak Manhattan:

𝑑

_𝑀𝑎𝑛

(𝒙, 𝒚) = ∑

^𝑝_𝑖=1

|𝑥

_𝑖

− 𝑦

_𝑖

|

(2.13)

4) Jarak Minkowski (Minkowski Distance)

Jarak Minkowski merupakan sebuah metrik dalam ruang vektor di mana suatu norma didefinisikan (normed vector space) sekaligus dianggap sebagai generalisasi dari jarak Euclidean dan jarak Manhattan.

𝑑

_𝑀𝑖𝑛

(𝒙, 𝒚) = [∑

^𝑝_𝑖=1

|𝑥

_𝑖

− 𝑦

_𝑖

|

^𝑚

]

¹^⁄^𝑚 (2.14)

dengan m adalah parameter dan untuk m=1.

5) Jarak Canberra (Canberra Distance)

Jarak Canberra adalah jumlah nilai perbedaan mutlak dibagi dengan jumlah antara dua variabel. Jarak ini dapat dinyatakan dalam bentuk sebagai berikut:

𝑑

_𝐶𝑎𝑛

(𝒙, 𝒚) = ∑

^|𝑥^𝑖^−𝑦^𝑖^|

(𝑥_𝑖+𝑦_𝑖) 𝑝

𝑖=1 (2.15)

Ukuran jarak Canberra digunakan hanya untuk variabel yang bernilai positif.

Contoh 2.5.1

Misalkan diketahui 𝒙 = (1,1) dan 𝒚 = (0,1) , akan dicari jarak dengan beberapa rumus jarak dibawah ini.

dengan menggunakan jarak Euclidean pada persamaan (2.11) diperoleh, 𝑑_𝑒𝑢𝑐(𝒙, 𝒚) = √(𝑥₁− 𝑦₁)²+ (𝑥₂− 𝑦₂)²

𝑑_𝑒𝑢𝑐(𝒙, 𝒚) = √(1 − 0)²+ (1 − 1)²

= √1 + 0 = 1

dengan menggunakan jarak kuadrat Euclidean pada persamaan (2.12) diperoleh, 𝑑_𝐾𝐸(𝒙, 𝒚) = (𝑥₁− 𝑦₁)²+ (𝑥₂− 𝑦₂)²

𝑑_𝐾𝐸(𝒙, 𝒚) (1 − 0)²+ (1 − 1)²

= 1 + 0 = 1

dengan menggunakan jarak Manhattan pada persamaan (2.13) diperoleh, 𝑑_𝑀𝑎𝑛(𝒙, 𝒚) = (|𝑥₁− 𝑦₁| + |𝑥₂− 𝑦₂|)

= (|1 − 0| + |1 − 1|) = 1

b) Ukuran similaritas untuk data biner

Salah satu contoh ukuran similaritas atau ukuran kesamaan obyek berskala nominal adalah bentuk ukuran biner. Dalam hal ini setiap obyek diberi kode 0 atau 1, di mana nilai 0 untuk obyek yang tidak memiliki karakteristik dan nilai 1 untuk data yang memiliki karakteristik yang ditentukan. Sebagai contoh misalnya terdapat variabel jenis kelamin, di mana 0 untuk laki-laki dan 1 untuk perempuan, atau misalnya untuk variabel kelulusan, di mana 0 untuk yang tidak lulus dan 1 untuk lulus. Apabila terdapat dua buah obyek yang variabel datanya bertipe biner, maka ukuran similaritas atau ukuran kesamaan antara dua buah obyek didefinisikan berdasarkan frekuensi data dalam tabel kontingensi pada nilai yang sama (matches) dan nilai yang tidak sama (mismatces).

Misalkan terdapat dua obyek i dan k masing-masing diamati n variabel random, maka tabel kontingensi dapat disajikan dalam tabel 2.32. Dalam tabel 2.32 a menunjukkan frekuensi obyek i dan k yang sama-sama memiliki karakteristik 1 dan d menunjukkan frekuensi obyek i dan k yang sama-sama memiliki karakteristik 0 sedangkan untuk b menunjukkan frekuensi obyek i dan k yang memiliki karakteristik berbeda yaitu obyek ke-i memiliki karakteristik 1 dan obyek ke-k memiliki karakteristik 0 dan c menunjukkan frekuensi obyek i dan k yang memiliki karakteristik berbeda yaitu obyek ke-i memiliki karakteristik 0 dan obyek ke-k memiliki karakteristik 1 (Johnson & Wichern, 2007).

Tabel 2.32 Tabel kontingensi data biner untuk dua obyek.

Obyek Obyek k

Jumlah

1 0

Obyek i 1 a b a+b

0 c d c+d

Jumlah a+c b+d n=a+b+c+d

Tabel 2.33 Tabel beberapa koefisien similaritas

Nama Koefisien Similritas Definisi Koefisien Similaritas Jaccard coefficient (Jaccard, 1908) 𝑎

(𝑎 + 𝑏 + 𝑐)

Rogers dan Tanimoto (1960) (𝑎 + 𝑑)

[𝑎 + 2(𝑏 + 𝑐) + 𝑑]

Sneath dan Sokal (1973) 𝑎

[𝑎 + 2(𝑏 + 𝑐)]

Gower dan Legendre (1986)

(𝑎 + 𝑑) [𝑎 +1

2(𝑏 + 𝑐) + 𝑑]

Gower dan Legendre (1986)

𝑎 [𝑎 +1

2(𝑏 + 𝑐)]

3. Ukuran Asosiasi

Ukuran asosiasi dipakai untuk mengukur data berskala nonmetrik (nominal dan ordinal) dimana data ini merupakan data kualitatif, dengan cara mengambil bentuk-bentuk dari koefisien korelasi pada tiap obyeknya. Ketika variabelnya biner, data dapat kembali disusun dalam bentuk tabel kontingensi. Untuk setiap pasangan variabel, terdapat n obyek yang dikategorikan dalam tabel dengan memberikan kode 0 dan 1, yang dapat dilihat pada tabel 2.51.

Misalnya, variabel i bernilai 1 sebanyak a dan variabel k bernilai 0 sebanyak b. Rumus korelasi product moment yang biasa diterapkan ke dalam variabel biner adalah sebagai berikut:

𝑟 =

^{𝑎𝑑−𝑏𝑐}

[(𝑎+𝑏)(𝑐+𝑑)(𝑎+𝑐)(𝑏+𝑑)]¹^⁄² (2.16)

Nilai ini dapat diambil sebagai ukuran kesamaan antara dua variabel koefisien korelasi (2.16) untuk menguji independensi dua variabel. Di dalam koefisien asosiasi skala pengukuran yang digunakan yaitu data berskala nominal dan data

berskala ordinal.

E. MANOVA

Dalam Tugas Akhir ini Multivariate Analysis of Variance (MANOVA) digunakan untuk memvalidasi hasil clustering. MANOVA merupakan perluasan dari konsep dan teknik Analysis of Variance (ANOVA) yang terdiri dari beberapa variabel dependen (variabel tak bebas). Penggunaan lebih dari satu variabel tak bebas ini sering dijumpai pada kasus-kasus yang ingin mengamati atau melihat karakteristik suatu obyek yang dalam hal ini tidak cukup jika hanya menggunakan variabel tak bebas.

Dalam pengujian MANOVA terdapat beberapa asumsi yang harus dipenuhi.

Adapun asumsi yang harus dipenuhi sebelum melakukan pengujian dengan MANOVA yaitu asumsi data berdistribusi normal multivariat dan matriks varian/kovarian homogen. Statistik uji yang dapat digunakan untuk pengambilan hipotesis, antara lain Pillai’s Trace, Wilks Lamda, Hotelling Trace. Uji homogenitas matriks varian/kovarian berguna untuk melihat apakah matriks kovarian dari dependen variabel sama untuk grup-grup yang ada (independen).

Berikut model MANOVA untuk membandingkan vektor rata-rata g populasi.

𝑿_𝑖𝑗= 𝝁 + 𝝉_𝑖+ 𝒆_𝑖𝑗

(2.17)

dengan:

𝑗 = 1,2, … , 𝑛_𝑖 dan 𝑖 = 1,2, … , 𝑔, di mana 𝒆_𝑖𝑗 adalah variabel bebas 𝑁_𝑝(𝟎, ∑).

Parameter vektor 𝝁 adalah rata-rata keseluruhan dan 𝝉_𝑖 merepresentasikan efek perlakuan ke-i dengan

∑ 𝑛_𝑖

𝑔

𝑖=1

𝝉_𝑖= 0

Sehingga pengamatan vektor

𝑿

_𝑖𝑗 dapat diuraikan menjadi

𝒙

_𝑖𝑗

= 𝑥̅ + (𝑥̅

_𝑖

− 𝑥̅) + (𝑥

_𝑖𝑗

− 𝑥̅

_𝑖

)

Matriks jumlah kuadrat dan perkalian silang dapat dinyatakan sebagai berikut

𝑾 = ∑ ∑

(𝒙

_𝑖𝑗

− 𝒙

^̅_𝑖

)(𝒙

_𝑖𝑗

− 𝒙

^̅_𝑖

)

^′

dimana 𝑺_𝒊 adalah sampel matriks kovarians untuk sampel ke-i. Berikut adalah tabel MANOVA untuk membandingkan vektor rata-rata populasi.

Tabel 2.34 Tabel MANOVA membandingkan vektor rata-rata populasi Sumber

Variasi

Matriks Jumlah Kuadrat dan Perkalian Silang

Berikut langkah-langkah dalam pengujian hipotesis MANOVA:

1. Merumuskan hipotesis nol dan alternatif 𝐻₀: 𝝁_𝟏= 𝝁_𝟐= ⋯ = 𝝁_𝒈

𝐻₁: ∃𝝁_𝒊 ≠ 𝝁_𝒋, 𝑖 ≠ 𝑗

2. Pilih tingkat signifikansi 𝛼 3. Statistik uji :

Terdapat beberapa asumsi-asumi yang harus dipenuhi dalam pengujian MANOVA, yaitu variabel pengamatan berdistribusi normal multivariat dan matriks kovarian homogen. Berikut ini merupakan statistik uji Wilk’s Lambda 𝜆 = |𝑾|

Dalam pengujian MANOVA jika asumsi matriks kovarian homogen dipenuhi maka statistik uji yang digunakan yaitu Wilk’s Lambda, sedangkan jika asumsi matriks kovarian homogen tidak dipenuhi maka statistik uji yang dapat digunakan yaitu Pillai’s Trace.

Dalam tahap ini perhitungan dapat dilakukan dengan menggunakan perangkat lunak R maupun perangkat lunak yang lain.

6. Membuat kesimpulan

Setelah diperoleh hasil maka selanjutnya dapat ditarik kesimpulan apakah vektor rata-rata dari dua atau lebih populasi berbeda secara signifikan.

Berikut contoh dalam pengujian hipotesis MANOVA.

Contoh 2.6.1

Andrew dan Heszberg (1985) melaporkan hasil penelitiannya terhadap 6 ladang apel yang berbeda. Masing-masing ladang diteliti 8 pohon apel di mana setiap subyek dikenakan 4 pengukuran yang meliputi:

1) 𝑌₁ : ukuran lilitan batang pohon berumur 4 tahun (dalam 10cm), 2) 𝑌₂ : pertumbuhan pohon berumur 4 tahun (dalam m),

3) 𝑌₃ : lilitan batang pohon berumur 15 tahun (dalam 10cm) dan,

4) 𝑌₄ : berat batang di atas permukaan tanah pada pohon berumur 15 tahun (dalam 1000 pounds).

Kemudian akan diuji apakah ada perbedaan rata-rata ukuran yang signifikan dari ke-8 ladang yang diteliti. Hasil pengukuran disajikan pada Lampiran 1:

Penyelesaian:

1. Merumuskan hipotesis nol dan alternatif 𝐻₀: 𝝁_𝟏= 𝝁_𝟐= ⋯ = 𝝁_𝟔

𝐻₁: ∃𝝁_𝒊 ≠ 𝝁_𝒋, 𝑖 ≠ 𝑗

2. Pilih tingkat signifikansi 𝛼 = 0.05 3. Statistik uji :

Statistik uji yang digunakan yaitu statistik uji Wilk’s Lambda . data diasumsikan berdistribusi normal multivariat dan matriks kovarians homogen

𝜆 = |𝑾|

|𝑩 + 𝑾|

4. Wilayah kritis 𝑝 = 4, 𝑔 = 6, 𝑛 = 8 𝑣_𝐻= 6 − 1 = 5 𝑣_𝐸 = 6(8 − 1) = 42

𝐻₀ ditolak apabila 𝜆 ≤ 𝜆_.05,4,5,40= 0.455 5. Menghitung statistik uji

𝑩 = (

6. Membuat kesimpulan

𝐻₀ ditolak sehingga dapat disimpulkan bahwa terdapat perbedaan vektor rata-rata ukuran dari keenam ladang yang diteliti secara signifikan.

27 BAB III

ANALISIS CLUSTER

Pada bab ini akan dibahas mengenai konsep dasar dari analisis cluster dan beberapa metode dalam pengelompokan (clustering).

A. Pengertian Cluster

Cluster adalah sekelompok titik (obyek) di mana sebuah titik pada kelompok itu lebih dekat atau mirip dengan semua titik (obyek) yang ada pada kelompok tersebut daripada titik-titik lain yang tidak terdapat pada kelompok itu. Cluster juga didefinisikan sebagai sekelompok titik (obyek) dimana semua titik pada kelompok itu lebih dekat dengan pusat dari kelompok tersebut daripada pusat pada kelompok yang lain. Pada umumnya pusat cluster disebut sebagai centroid, yaitu rata-rata dari semua titik dalam cluster tersebut.

Misalkan terdapat kumpulan titik (obyek) yang mewakili nomor alamat rumah di sebuah perumahan, dimana titik-titik ini memiliki kedekatan jarak yang berbeda-beda antar rumah di perumahan tersebut yang dapat dilihat pada gambar berikut:

Gambar 3.11 Gambar sekumpulan titik(obyek)

Kumpulan titik(obyek) tersebut akan dikelompokkan berdasarkan jarak terdekat antar rumah atau titik. Sehingga akan didapatkan 3 cluster yang mewakili 3 blok di perumahan tersebut sesuai dengan kedekatan jarak antar rumah.

Gambar 3.12 Gambar hasil pengelompokan

Dalam hal ini pengelompokan berhasil sesuai dengan kedekatan jarak antar obyek.

Selanjutnya misalkan terdapat sekelompok obyek minuman dengan beberapa karakteristik (X1= bentuk kemasan, X2= rasa minuman, X3= merk produk) sebagai berikut:

Gambar 3.13 Gambar minuman sebelum dikelompokkan

Pada gambar 3.13 obyek minuman akan dikelompokkan bentuk kemasan,

sehingga obyek yang memiliki bentuk kemasan yang sama atau mirip akan menjadi satu kelompok, sedangkan obyek yang berbeda terdapat pada kelompok lain.

Tabel 3.11 Tabel minuman yang berhasil dikelompokkan

Cluster 1 Cluster 2 Cluster 3

Sehingga dapat terlihat bahwa proses pengelompokan berhasil dan didapatkan 3 cluster menurut kesamaan karakteristiknya yaitu berdasarkan bentuk kemasan dalam produk minuman tersebut. Pada gambar di atas minuman yang memiliki rasa sama juga akan saling berdekatan. Oleh karena itu minuman yang memiliki bentuk kemasan sama akan berdekatan dan menjadi satu kelompok dan yang memiliki bentuk kemasan yang berbeda berada pada kelompok lain. Ukuran kedekatan karakteristik ini akan menjadi pertimbangan untuk menghasilkan pengelompokan yang optimal.

B. Pengelompokan (Clustering)

Pada dasarnya clustering merupakan suatu metode untuk mencari dan

Dalam dokumen PENGELOMPOKAN KABUPATEN/KOTA DI PROVINSI JAWA TENGAH BERDASARKAN INDIKATOR PENDAPATAN DAN BELANJA DAERAH MENGGUNAKAN K-MEANS CLUSTERING. (Halaman 18-71)