Perbandingan ukuran jarak log-likelihood dan Euclidean pada pembentukan gerombol dengan menggunakan analisis Two Step Cluster

(1)

PERBANDINGAN UKURAN JARAK

LOG-LIKELIHOOD DAN EUCLIDEAN

PADA PEMBENTUKAN GEROMBOL

DENGAN MENGGUNAKAN ANALISIS

TWO STEP CLUSTER

NUR MILA SARI

DEPARTEMEN STATISTIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(2)

Life is more

about the j ourney

than it’s actual destination

(3)

ABSTRAK

NUR MILA SARI. Perbandingan Ukuran Jarak Log-Likelihood dan Euclidean pada Pembentukan Gerombol dengan Menggunakan Analisis Two Step Cluster. Dibimbing oleh BAMBANG SUMANTRI dan SATRIO WISENO.

Analisis Two Step Cluster dapat diterapkan pada data dengan skala pengukuran berbeda, yaitu numerik dan kategorik. Berbeda dengan analisis gerombol klasik, jumlah gerombol yang terbentuk pada analisis Two Step Cluster ditentukan secara objektif. Analisis Two Step Cluster terdiri atas dua tahap, tahap pertama dinamakan tahap pembentukan gerombol awal, sedangkan tahap kedua dinamakan tahap pembentukan gerombol akhir. Pada analisis Two Step Cluster terdapat dua konsep jarak yang digunakan yaitu ukuran jarak Log-Likelihood yang dapat digunakan untuk data numerik dan kategorik dan ukuran jarak Euclidean yang hanya dapat digunakan untuk data numerik.

(4)

PERBANDINGAN UKURAN JARAK

LOG-LIKELIHOOD DAN EUCLIDEAN

PADA PEMBENTUKAN GEROMBOL

DENGAN MENGGUNAKAN ANALISIS

TWO STEP CLUSTER

Oleh :

Nur Mila Sari

G14102003

Skripsi

Sebagai salah satu syarat untuk memperoleh gelar Sarjana Sains

pada Fakultas Matematika dan Ilmu Pengetahuan Alam

Institut Pertanian Bogor

DEPARTEMEN STATISTIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(5)

Judul : PERBANDINGAN UKURAN JARAK LOG-LIKELIHOOD

DAN EUCLIDEAN PADA PEMBENTUKAN GEROMBOL

DENGAN MENGGUNAKAN

ANALISIS

TWO STEP

CLUSTER

Nama : Nur Mila Sari

NRP : G14102003

Menyetujui :

Pembimbing I

Pembimbing II

Ir. Bambang Sumantri Ir. Satrio Wiseno, MPhil, MM

NIP. 130891511

Mengetahui :

Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam

Institut Pertanian Bogor

Prof. Dr. Ir. Yonny Koesmaryono, MS

NIP. 131473999

(6)

PRAKATA

Dengan mengucapkan puji syukur kehadirat Allah SWT atas segala limpahan rahmat, nikmat dan kasih sayang-Nya sehingga karya ilmiah ini dapat diselesaikan. Shalawat serta salam senantiasa dilimpahkan kepada tauladan umat Rasulullah Muhammad SAW, kepada keluarga, sahabat dan pengikutnya.

Banyak ilmu dan pelajaran yang sangat dirasakan oleh penulis dalam proses pembuatan karya ilmiah ini, sehingga pada kesempatan kali ini penulis ingin mengucapkan banyak terimakasih, diantaranya kepada :

1. Bapak Ir. Bambang Sumantri beserta keluarga dan Bapak Ir. Satrio Wiseno , M Phil, MM beserta keluarga atas bimbingannya, pelajarannya, waktunya dan sarannya yang sangat berarti kepada penulis.

2. Seluruh dosen Dep artemen Statistika atas ilmu yang sangat bermanfaat.

3. Teristimewa kupersembahkan karya kecil ini untuk kedua orangtuaku, Bapak Ir. H. Taane LaOla, MP dan Ibu Hj. Halis Wiati, SE, terimakasih banyak atas motivasi dan doanya yang tidak pernah putus. I love you both.

4. My lovely sisters, Kak Yanthi beserta suami (Kak Im) dan Dek Anna atas canda tawa dan bantuannya selama karya ilmiah ini dikerjakan.

5. Ade Kurnia Sulistianto, atas pengertian dan dukungannya.

6. All of the Stakers 39, thanx sudah membuat hari-hariku selama 4 tahun di IPB penuh dengan warna. Especially for my close friends (Eka, Niken, Riana & Puput ), Ibenk, Heri, Agung, Anggi, Ditya dan Angga , thanx buat bantuannya, humornya, dan curhatnya. Ternyata kita harus pisah juga akhirnya. I’m gonna miss you guys..

7. The Crew of GRP, Mba Maria, Mba Salma, Mba Lia, Mba Devi, Mba Dea, Mba Yesi, Mas Donny, Mas Koko, Mas Arif, Mas No, Pa’ijo, Mas Nur, terimakasih atas semuanya yah.

8. Staf Statistika IPB, Bu Marqonah, Bu Sulis, Bu Dedeh, Kak Pika, Pak Iyan, Bang Sudin, Gusdur, dan Mang Herman.

9. Teman SMU ku yang seperjuangan di IPB, Yuyun (atas humornya selama di kosan), Irham (tintanya sangat membantu lho!), Danto (makasih yah atas pinjaman printernya).

10. Anak-anak Mega Kost, yang selalu rame, yang selalu memberi dukungan..Thanks.. 11. Jamiro, tengkyu yah dah selalu mengantar kemana ajah..

Bogor, Agustus 2006

(7)

RIWAYAT HIDUP

Penulis dilahirkan di kota Kend ari pada tanggal 7 Januari 1985, sebagai anak kedua dari tiga bersaudara, anak dari pasangan Ir. H. Taane LaOla, M P dan Hj.Halis Wiati, SE.

Tahun 1996 penulis lulus dari SD Unhalu Kendari, tahun 1999 penulis lulus dari SMP Negeri 1 Kendari, tahun 2002 penulis lulus dari SMU Negeri 1 Kendari, dan pada tahun yang sama penulis lulus seleksi melalui jalur Undangan Seleksi Masuk IPB. Penulis diterima pada Departemen Statistika, Fakultas M atematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Selama berkuliah, penulis mengambil mata kuliah penunjang Komputasi.

(8)

DAFTAR ISI

Halaman

DAFTAR GAMBAR. ... vi

DAFTAR TABEL... vi

DAFTAR LAMPIRAN ... vi

PENDAHULUAN Latar Belakang ... 1

Tujuan ... 1

TINJAUAN PUSTAKA Analisis Gerombol. ... 1

SPSS Two Step Cluster ... 1

Penentuan Jumlah Gerombol ... 3

Ukuran Jarak ... 3

Pengujian Selisih Antara Dua Proporsi ... 4

BAHAN DAN METODE Bahan ... 5

Metode ... 5

HASIL DAN PEMBAHASAN Jumlah Gerombol Akhir ... 6

Profil Gerombol Akhir ... 7

AIC Versus BIC ... 7

Ukuran Data ... 7

Outlier Treatment ... 7

Urutan Data ... 8

KESIMPULAN DAN SARAN Kesimpulan . ... 8

Saran ... 8

DAFTAR PUSTAKA ... 8

(9)

DAFTAR GAMBAR

1. Gambaran Pola Populasi A1 ... 5

2. Gambaran Pola Populasi A2 ... 5

DAFTAR TABEL

1. Kombinasi Data Simulasi ... 5

2. Persentase hasil penggerombolan yang benar dengan ukuran jarak Log-Likelihood bila digunakan kriteria penentuan gerombol AIC ... 10

3. Persentase hasil penggerombolan yang benar dengan ukuran jarak Log-Likelihood bila digunakan kriteria penentuan gerombol BIC ... 10

4. Persentase hasil p enggerombolan yang benar dengan ukuran jarak Euclidean bila digunakan kriteria penentuan gerombol AIC... ... 11

5. Persentase hasil p enggerombolan yang benar dengan ukuran jarak Euclidean bila digunakan kriteria penentuan gerombol BIC... ... 11

6. Persentase hasil penggerombolan yang benar dengan ukuran jarak Log-Likelihood ... ... 12

7. Persentase hasil penggerombolan yang benar dengan ukuran jarak Euclidean... 12

8. Profil gerombol terbentuk dengan tipe p opulasi A1 ... 13

9. Profil gerombol terbentuk dengan tipe p opulasi A2 ... 13

10. Persentase hasil p enggerombolan yang benar dengan kriteria penentuan gerombol AIC ... 14

11.Persentase hasil p enggerombolan yang benar dengan kriteria penentuan gerombol BIC ... 14

12. Perbandingan tanpa maupun dengan Options “Outlier Treatment” pada ukuran jarak Log-Likelihood ... ... 16

13. Perbandingan tanpa maupun dengan Options “Outlier Treatment” pada ukuran jarak Euclidea

n

... ... 16

14. Perbandingan tanpa maupun dengan Options “Outlier Treatment” sebesar 1, 5, 10, 15, 20 dan 25 pada ukuran jarak Log-Likelihood... 18

15. Perbandingan tanpa maupun dengan Options “Outlier Treatment” sebesar 1, 5, 10, 15, 20 dan 25 pada ukuran jarak Euclidean...18

DAFTAR LAMPIRAN

1. Tabel lengkap persentase hasil penggerombolan yang benar dengan analisis Two Step Cluster pada s eluruh kombinasi data simulasi 100 u langan...10

2. Tabel ukuran jarak Log-Likelihood dan Euclidean mengenai persentase hasil penggerombolan yang benar t erbentuk s etelah m enggunakan analisis Two Step Cluster...12

3. Tabel profil gerombol terbentuk dengan jumlah gerombol sebanyak 3. ... 13

4. Tabel persentase hasil penggerombolan yang benar terbentuk setelah menggunakan analisis Two Step Cluster dengan kriteria AIC dan BIC... 14

5. Tabel hasil uji hipotesis dua proporsi dengan perbandingan antara penentuan jumlah gerombol AIC dan BIC... ... 15

6. Tabel p erbandingan tanpa maupun dengan Options “Outlier Treatment” bai k pada ukuran jarak Log-Likelihood maupun Euclidean...16

7. Tabel hasil uji hipotesis dua proporsi dengan perbandingan antara tanpa maupun dengan Options “Outlier Treatment” pada ukuran jarak Log-Likelihood dan Euclidean . ...17

8. Tabel perbandingan tanpa maupun dengan Options “Outlier Treatment” s ebesar 1, 5, 10, 15, 20 dan 25 baik pada ukuran jarak Log-Likelihood maupun Euclidean...18

(10)

1

PENDAHULUAN

Latar Belakang

Terdapat dua metode dalam analisis gerombol klasik yaitu metode penggerombolan berhirarki dan tak berhirarki. Penentuan jumlah gerombol yang terbentuk untuk dua metode ini dilakukan secara subjektif. Pada metode pen ggerombolan berhirarki, penentuan besarnya pemotongan (cut off) pada dendogram masih ditentukan oleh peneliti (Hair et. al, 1998). Sedangkan pada metode penggerombolan non hirarki, penentuan banyaknya jumlah gerombol akhir ditentukan oleh pengetahuan dan pengalaman peneliti (Hair et. al, 1998).

Pada saat ini, umumnya data yang ada tidak hanya menggunakan tipe kontinu (numerik), tetapi juga menggunakan tipe data kategorik, contohnya data-data pada marketing riset. Oleh karena itu, SPSS mengembangkan algoritma yang memungkinkan untuk mengolah data dengan tipe numerik dan kategorik, serta dapat menentukan jumlah gerombol secara objektif. Algoritma tersebut diimplementasikan pada SPSS dengan nama Two Step Cluster.

Two Step Cluster menggunakan dua ukuran jarak yaitu Log-Likelihood dan Euclidean. Kedua ukuran jarak tersebut dapat digunakan secara bersamaan pada analisis

Two Step Cluster apabila data yang digunakan bertipe numerik.

Tujuan

Tujuan penelitian ini adalah membandingkan pengaruh ukuran jarak Log-Likelihood dan Euclidean terhadap pembentukan gerombol pada analisis Two Step Custer dengan menggunakan data simulasi.

TINJAUAN PUSTAKA

Analisis Gerombol

Analisis gerombol merupakan salah satu dari grup teknik peubah ganda (multivariate) yang tujuan utamanya adalah mengelompokkan objek berdasarkan atas kriteria yang dimiliki. Analisis gerombol mengklasifikasi objek, sehingga antara satu objek dengan objek lainnya yang terletak dalam satu gerombol akan memiliki kesamaan tinggi yang sesuai dengan kriteria pemilihan

yang ditentukan. Hasil dari penggerombolan harus memperlihatkan keragaman yang homogen di dalam gerombol dan keragaman yang heterogen antargerombol yang terbentuk.

Ada dua metode dalam analisis gerombol satu tahap, yaitu :

1. Metode berhirarki

Metode penggerombolan berhirarki ditujukan untuk ukuran contoh kecil. Penggerombolan berhirarki menghasilkan seluruh kemungkinan terbentuknya gerombol. Metode penggerombolan berhirarki digunakan apabila banyak gerombol yang akan dibentuk belum diketahui sebelumnya. Pada dasarnya, terdapat dua prosedur pada penggerombolan berhirarki, yaitu prosedur penggabungan (agglomerative) dan prosedur pembagian (divisive). Dalam metode berhirarki terdapat beberapa ukuran jarak antargerombol, antara lain metode pautan tunggal (single linkage), pautan lengkap (complete linkage), pautan rataan (average linkage), metode Ward, dan metode centroid.

2. Metode tak berhirarki

Pada metode penggerombolan tak berhirarki, peneliti harus terlebih dahulu menentukan jumlah gerombol yang diinginkan. Salah satu contoh dari metode ini adalah metode K-means. Analisis gerombol

K-means menggunakan ukuran jarak Euclidean. Penentuan pusat gerombol merupakan langkah awal pada metode ini. Langkah selanjutnya adalah menentukan gerombol dari tiap objek, yaitu berdasarkan atas kedekatan ukuran jarak Euclidean terhadap mean dari masing-masing gerombol.

SPSS Two Step Cluster

SPSS Two Step Cluster merupakan analisis penggerombolan yang dirancang untuk menangani data dengan jumlah yang sangat besar. Analisis ini dapat menangani masalah pengukuran dengan tipe data yang berbeda yaitu untuk tipe data numerik dan kategorik (SPSS Two Step Cluster Analysis, 2004). Terdapat dua tahap pada metode ini yaitu :

• Tahap pertama : Pembentukan gerombol awal

(11)

2

diimplementasikan dengan membangun modifikasi Cluster Feature (CF) Tree. CF Tree terdiri dari tingkatan cabang (depth) dan masing-masing cabang berisikan dari angka yang dientrikan. Apabila dimisalkan sebuah pohon, maka tingkatan cabang tersebut terdiri dari batang pohon, dahan dan daun. Dalam

CF tree tingkatan daun dikenal dengan nama daun entri (entrian pada cabang daun) dimana pada tingkatan ini merepresentasikan hasil akhir anak gerombol. Algoritma pertama pada

CF Tree adalah memasukkan data satu per satu. Data yang masuk dihitung jaraknya pada daun entri yang telah ada dengan menggunakan ukuran jarak yang telah ditentukan. Apabila jarak tersebut kurang dari kriteria ukuran penerimaan (threshold distance) maka data tersebut masuk ke dalam daun entri yang telah ada, tetapi jika sebaliknya maka data membentuk daun entri baru.

Jika tidak ada lagi tempat dalam cabang daun untuk menciptakan daun entri baru (node

telah melewati batas maksimum), maka cabang daun akan terbagi menjadi dua. Apabila dimisalkan pada sebuah pohon, dari satu dahan kemudian membelah menjadi dua dahan. Entrian pada cabang daun yang asli akan dibagi ke dalam dua grup (dahan) dengan menggunakan pasangan daun terjauh sebagai penempatan, dan membagi-bagikan kembali sisa entrian berdasarkan atas kriteria kedekatan.

Jika tidak tersedia tempat dalam cabang dahan untuk menciptakan daun entri baru, maka cabang dahan yang telah melewati maksimum node akan terbagi menjadi dua. Apabila dimisalkan pada sebuah pohon, dari satu pohon kemudian membelah menjadi dua pohon . Entrian pada cabang dahan yang asli akan dibagi ke dalam dua grup (pohon ) dengan menggunakan pasangan dahan terjauh sebagai penempatan, dan membagi-bagikan

kembali sisa entrian berdasarkan atas kriteria kedekatan yang telah ditetapkan.

Proses ini berlanjut sampai semua data selesai dimasukkan. Jika CF Tree berkembang melewati batas ukuran maksimum yang telah ditetapkan, maka CF Tree yang telah ada akan dibangun ulang dengan cara meningkatkan kriteria ukuran penerimaan.

CF Tree yang melewati batas biasanya dikarenakan pada saat proses algoritma CF Tree ini dijalankan, terbentuk daun entri yang beranggotakan outlier . Outlier pada analisis

Two Step Cluster adalah data yang tidak dapat dimasukkan pada gerombol manapun. Pada saat CF Tree akan dibangun ulang, maka akan diperiksa daun entri yang berpotensi sebagai

outlier. Daun entri yang anggotanya berpotensi sebagai outlier merupakan daun entri yang jumlah anggotanya kurang dari fraksi ukuran gerombol yang memiliki jumlah paling besar yang telah ditetapkan (SPSS

Technical Support, 2001). Pada saat pembangunan ulang, daun entri yang berpotensi sebagai outlier disimpan. Setelah

CF Tree dibangun ulang, maka satu per satu data dalam daun entri yang berpotensi sebagai pencilan dimasukkan ke dalam CF Tree yang baru tanpa mengubah ukuran CF Tree

tersebut. Jika masih ada data yang tidak masuk ke dalam daun entri manapun, maka data tersebut dikatakan sebagai outlier. Dan data-data yang dideteksi sebagai outlier

dimasukkan ke dalam satu gerombol. Besarnya nilai fraksi dimasukkan ke dalam

Options “Outlier Treatment” pada SPSS. Pada gambar algoritma CF Tree di atas dan pada penelitian ini, maksimum depth dan maksimum node yang digunakan mengikuti

default dari SPSS yaitu sebesar 3 dan 8. Sehingga maksimum daun entri (anak gerombol) yang terbentuk adalah sebanyak 512 anak gerombol.

• Tahap kedua : Pembentukan gerombol akhir

(12)

3

dalam satu gerombol. Pada tahapan ini, hasil dar i tahap pertama yaitu daun entri (anak gerombol) dari Cluster Feature (CF) Tree

digerombolkan menggunakan metode gerombol berhirarki dengan prosedur penggabungan (agglomerative). Tiap-tiap daun entri akhir yang terbentuk pada tahap pertama akan digabungkan satu per satu sesuai dengan ukuran jarak yang telah ditetapkan. Prosedur ini berakhir sampai seluruh daun entri menjadi satu gerombol. Apabila pada tahap pertama terdeteksi daun entri yang beranggotakan outlier, maka daun entri tersebut tidak diikutsertakan pada tahap kedua.

Penentuan Jumlah Gerombol

Dalam penentuan jumlah gerombol optimal, ada dua langkah yang harus dilakukan. Langkah pertama yaitu menghitung

BIC (Bayesian Information Criterion) atau

AIC (Akaike’s Information Criterion) saat semua daun entri (hasil akhir pada tahap satu) menjadi anggota dalam 1, 2, 3,... gerombol.

Rumus BIC dan AIC untuk jumlah gerombol sebanyak J adalah sebagai berikut :

( )

∑

( )

= + − = J j N j m j J BIC 1 log 2 ζ

( )

∑

= + − = J j j j m J AIC 1 2 ζ dimana :         ∑ = − + = B K k k L A K J j m 1 ) 1 ( 2 A

K = jumlah total peubah numerik

B

K = jumlah total peubah kategorik

k

L = jumlah kategori untuk peubah kategorik ke-k

N= jumlah total data

Kemudian hasil perhitungan tersebut digunakan untuk menduga jumlah gerombol. Langkah yang kedua yaitu mencari peningkatan jarak terbesar antara dua gerombol terdekat pada masing-masing tahapan penggerombolan. Solusi gerombol yang terbaik memiliki BIC terkecil, tetapi ada beberapa kasus dalam penggerombolan dimana BIC akan terus menurun nilainya bila jumlah gerombol semakin meningkat. Maka dalam situasi tersebut, ratio BIC Changes

(rasio perubahan BIC) dan ratio of Distance Measure Changes (rasio perubahan jarak) mengidentifikasi solusi gerombol terbaik.

M enurut Chiu et. al (2001: 266) BICk

atau AICk menghasilkan penduga awal yang

baik bagi jumlah gerombol maksimum. Jumlah gerombol maksimum adalah banyaknya gerombol yang memiliki rasio

BICk/BIC1 yang pertama kali lebih kecil dari

c1 (SPSS menetapkan c1 = 0. 04 yang didasarkan atas studi simulasi) (SPSS

Technical Support, 2001).

Jumlah gerombol yang terbentuk dapat diketahui dengan menggunakan perbandingan antar jarak untuk k gerombol, dengan rumus perbandingannya sebagai berikut :

( )

k d k d k

R = −1

k l k l k

d = ₋₁−

dimana :

2 log v v v BIC n r

l = − atau

2 2 v v v

AIC r

l = −

1 , −

=k k v

1

−

k

d = jarak jika k gerombol digabungkan dengan k -1 gerombol

Jumlah gerombol diperoleh berdasarkan ketentuan ditemukannya perbedaan yang nyata pada rasio perubahan gerombol. Rasio perubahan gerombol dihitung sebagai berikut :

( )

2 1 k R k R untuk dua nilai terbesar dari R(k)

(k=1,2,…,kmax; kmax didapatkan dari langkah pertama).

Jika rasio perubahan lebih besar daripada nilai batas c₂ (SPSS menetapkan nilai c₂ = 1.15 berdasarkan studi simulasi) jumlah gerombol ditetapkan sama dengan k1, selainnya jumlah gerombol sama dengan maksimum {k1,k2}.

Ukuran Jarak

Ukuran kemiripan dan ketakmiripan yang digunakan dalam analisis gerombol adalah jarak antarobjek dan jarak antargerombol.

(13)

4

1. Jarak Euclidean

Jarak Euclidean paling sering digunakan diberbagai metode dalam analisis gerombol, tetapi ukuran jarak ini hanya dapat digunakan apabila semua peubah yang digunakan bertipe kontinu (numerik) .

Jarak Euclidean antara gerombol ke-i dan gerombol ke-j dari p peubah didefinisikan :

( )

2

1 1 2 ,         ∑ =     ₋ = p i i X j X j i d dimana :

( )

i j

d , = jarak antara objek i ke objek j

i

X = nilai tengah pada gerombol ke-i

j

X = nilai tengah pada gerombol ke-j

p= banyaknya peubah yang diamati

Untuk mendeteksi adanya outlier, dilakukan dengan cara mengukur jarak Euclidean antargerombol. Dikatakan outlier

jika jarak Euclidean terbesar antara gerombol tersebut lebih besar dari titik kritis C, dengan rumus C sebagai berikut :

2 1 1 2 ˆ 2           ∑ = = A K

i KA

k l

C σ

dimana :

k

R = range dari peubah kontinu ke-k

A

K = jumlah total peubah kontinu 2

ˆ_kl

σ = ragam dugaan untuk peubah kontinu ke-l dalam gerombol k

2. Jarak Log-Likelihood

Jarak Log-Likelihood dapat digunakan untuk peubah bertipe kontinu (numerik) maupun kategorik. Jarak antara gerombol j

dan s didefinisikan sebagai berikut:

> < − +

= _j _s _j_s s

j

d( , ) ξ ξ ξ _, dimana :           ∑ = + ∑=    ₊ − = A K k B K k vk E vk k v N v 1 1 ˆ 2 ˆ 2 ˆ log 2

1 _σ _σ

ξ

∑ = − = Lk

l Nv vkl N v N vkl N jk E 1 log ˆ

N = jumlah total data

jkl

N = jumlah data di gerombol j untuk peubah kategorik ke-k dengan kategori ke-l

2 ˆ_jk

σ = ragam dugaan untuk peubah kontinu

ke-k dalam gerombol j

A

K = jumlah total peubah numerik

B

K = jumlah total peubah kategorik

k

L = jumlah kategori untuk peubah kategorik ke-k

( )

j s

d , = jarak antara gerombol j dan s

s

j, = indeks kombinasi gerombol j dan s

Setelah dilakukan penghitungan jarak, juga dapat dideteksi adanya outlier. Gerombol yang memiliki jarak terbesar dikatakan outlier

jika jarak antara gerombol tersebut lebih besar dari titik kritis C, dengan rumus sebagai berikut :

( )

V C=log

dimana : m L m k R k

V =∏ ∏

k

R = range dari peubah kontinu ke-k

m

L = jumlah kategori untuk peubah kategori ke-m

Pengujian Selisih Antara Dua Proporsi

Data contoh yang diambil dari suatu populasi dapat digunakan untuk mengkaji karakteristik dari populasi asal. Salah satu karakteristik antara dua populasi yang menarik dikaji adalah proporsi. Salah satu bentuk hipotesa untuk proporsi dua populasi adalah :

Ho : p1 = p2

H1 : p1 ? p2

Langkah-langkah penting untuk melakukan uji hipotesis dengan hipotesa di atas adalah :

1. Menentukan taraf nyata a. 2. Menghitung statistik uji.

(14)

5

dimana :

2 1

2 ˆ 2 1 ˆ 1 ˆ

n n

p n p n p

+ + =

p qˆ=1−ˆ

3. Keputusan : Tolak Ho bila z jatuh ke

dalam wilayah kritis ; dan terima Ho bila z

jatuh ke dalam w ilayah penerimaan. Dimana wilayah kritis untuk hipotesa yang akan diuji :

hitung z > za/2

BAHAN DAN METODE

Bahan

Bahan yang digunakan dalam penelitian ini adalah data simulasi berupa data bangkitan sebaran Normal (µ,1), yang dibedakan atas dua macam model populasi yaitu :

A1 : satu populasi yang beranggotakan tiga gerombol yang berpisah secara tegas (jarak antar gerombol relatif besar).

Gambar 1. Gambaran pola populasi A1

Gerombol 1 : µ(x1i) = -6.00; i=1,2,3,..., n1 (note:n1=N/4)

Gerombol 2 : µ(x2i) = 0.00; i=1,2,3,..., n2 (note:n2=N/2)

Gerombol 3 : µ(x3i) = +6.00; i=1,2,3,..., n3 (note:n3=N/4)

A2 : satu populasi yang beranggotakan tiga gerombol yang saling tumpang tindih (overlap) satu sama lain (pemisahan antar gerombol tidak tegas).

Gambar 2. Gambaran pola populasi A2

Gerombol 1 : µ(x1i) = -4.00; i=1,2,3,..., n1 (note:n1=N/4)

Gerombol 2 : µ(x2i) = 0.00; i=1,2,3,..., n2 (note:n2=N/2)

Gerombol 3 : µ(x3i) = +4.00; i=1,2,3,..., n3 (note:n3=N/4)

Model komposisi peubah yang digunakan yaitu seluruh peubah bertipe numerik (B1). Pada penelitian ini akan dievaluasi kemungkinan ukuran data (N) kecil (500), sedang (2000), dan besar (5000). Dari masing-masing kombinasi, akan diulang sebanyak 100 kali. Kombinasi data simulasi pada penelitian ini adalah:

Tabel 1. Kombinasi Data Simulasi

Model Populasi

Model Kompisisi

Peubah

Ukuran Data (N) 500 A1 B1 2000

5000 500 A2 B1 2000

5000

Perangkat lunak yang digunakan adalah

SPSS 11.5 for Windows, MINITAB 14 dan Ms Excel.

Metode

Penelitian ini dilakukan dengan langkah-langkah :

1. Studi literatur.

(15)

6

bantuan software MINITAB 14. Entri data akhir menggunakan bantuan Ms Excel.

3. Pembandingan ukuran jarak Log-Likelihood dan Euclidean pada SPSS

Two Step Cluster. Setiap gugus data simulasi akan digerombolkan dengan menggunakan SPSS Two Step Cluster. Masing-masing gugus data simulasi dikerjakan dengan tahap : a.Pada menu utama dilaku kan

pemilihan :

Distance Measure : Log-Likelihood kemudian dicobakan juga Euclidean.

Determine automatically : Maximum 30.

Clustering Criterion : BIC

kemudian dicobakan juga AIC. b.Pada menu Options, akan

dilakukan pilihan pada kotak ”Outlier Treatment” dengan memberi check pada kotak ”Use noise handling” dan mengisi pada kotak ”Percentage” dengan angka yang berbeda-beda, yaitu 1, 5, 10, 15, 20 dan 25. Ukuran penentuan gerombol optimal yang digunakan yaitu BIC dan AIC. K emudian tidak dilakukan pilihan pada kotak ”Outlier Treatment” pada menu

Options. Hasil yang didapat pada tahap ini dan tahap sebelumnya yaitu tanpa ”Outlier Treatment” dan menggunakan ”Outlier Treatment” akan dilihat hasilnya yaitu masing-masing hasil output

diperiksa, dilihat input angka ”Outlier Treatment” yang menghasilkan gerombol yang sesuai dengan gerombol sebenarnya. Kemudian dilakukan pengujian dua proporsi sebagai alat penegas untuk informasi yang diambil secara eksplorasi.

c.Setelah mendapat gerombol akhir yang sesuai dengan gerombol sebenarnya, dilakukan penggerombolan lagi pada data dengan menggu nakan angka ”Outlier Treatment” yang menghasilkan gerombol optimal, tetapi dilakukan pengurutan data terlebih dahulu. Pengurutan data pertama dilakukan pada peubah X₁, kedua pada peubah X5 dan terakhir pada peubah X9.

HASIL DAN PEMBAHASAN

Hal yang menjad i dasar kebaikan pembentukan gerombol akhir dengan menggunakan analisis Two Step Cluster pada penelitian ini adalah banyaknya jumlah gerombol akhir yang terbentuk, dimana jumlah gerombol yang dianggap memenuhi kriteria adalah jumlah gerombol akhir yang ter bentuk sama dengan jumlah gerombol sebenarnya yaitu sebanyak tiga. Profil gerombol juga merupakan kriteria yang diperiksa, dimana profil gerombol yang baik adalah profil gerombol terbentuk sama dengan gerombol sebenarnya.

Jumlah Gerombol Akhir

Dari Lampiran 2, dapat dilihat bahwa jumlah gerombol yang dihasilkan dengan menggunakan ukuran jarak Log-Likelihood secara garis besar telah sesuai dengan banyaknya jumlah gerombol sebenarnya. Persentase hasil penggerombolan yang benar, terbentuk menggunakan analisis Two Step Cluster dengan rata-rata hampir 100%. Berbeda pada ukuran jarak Euclidean, dapat dilihat pada Lampiran 2 T abel 7, dengan penggunaan Options “Outlier Treatment”, persentase hasil penggerombolan yang benar yang terbentuk sangat kecil. Terdapat beberapa persentase hasil penggerombolan yang benar sebesar 0%, yang berarti dari 100 ulangan, tidak ada satupun jumlah gerombol yang terbentuk sama dengan jumlah gerombol sebenarnya. Apabila dibandingkan dengan ukuran jarak Log-Likelihood, dapat dilihat pada salah satu persentase hasil penggerombolan yang benar yaitu pada Tabel 6 dengan ukuran data kecil (500) bahwa dengan nilai Options “Outlier Treatment”

(16)

7

Profil Gerombol Akhir

Dari hasil penggerombolan yang terbentuk dengan ataupun tanp a menggunakan

Options “Outlier Treatment” yang jumlah gerombol akhir terbentuk nya sebesar tiga, profil yang dihasilkan telah sesuai dengan gerombol sebenarnya. Dimana nilai tengah dan ragam telah sesuai dengan nilai tengah (µ) dan ragam (s2) data bangkitan simulasi (Lampiran 3).

AIC Versus BIC

Dari hasil yang didapatkan, dengan membandingkan hasil penggerombolan yang dilakukan dengan analisis Two Step Cluster, dapat dilihat bahwa hasil penentuan jumlah gerombol yang diberikan dengan menggunakan BIC dan AIC tidak terlalu berbeda (Lampiran 4). Untuk membandingkan antara dua kriteria penentuan gerombol ini diperlukan pengujian antara dua proporsi. Dari keseluruhan pengujian, hanya diperoleh tiga statistik uji yang jatuh di dalam wilayah kritis dengan taraf nyata sebesar 0.05, yang berarti bahwa proporsi benar penggerombolan dengan AIC tidak sama dengan proporsi benar penggerombolan dengan menggunakan BIC

(Lampiran 5). Dari proporsi yang diuji yang menghasilkan penolakan H_o, terlihat bahwa proporsi benar penggerombolan dengan menggunakan AIC menunjukkan angka yang lebih besar dibandingkan dengan menggunakan kriteria BIC (Lampiran 5). Sehingga dapat diinformasikan bahwa AIC

lebih baik digunakan pada saat menentukan jumlah gerombol yang terbentuk dibandingkan s aat ukuran penentuan gerombol BIC digunakan .

Ukuran Data

Untuk ukuran data kecil, dapat dilihat bahwa penggerombolan dengan menggunakan analisis Two Step Cluster memberikan hasil yang lebih baik dibandingkan dengan ukuran data sedang dan besar. Hal ini dapat dilihat dari besarnya nilai persentase hasil penggerombolan yang benar yang ditampilkan pada Lampiran 2. Untuk masing-masing ukuran jarak, baik Log-Likelihood maupun Euclidean, menunjukkan analisis Two Step Cluster baik pada ukuran data kecil. Dibandingkan dengan ukuran data sedang dan besar, banyak gerombol yang terbentuk tidak sesuai dengan gerombol sebenarnya. Hal ini dapat terlihat pada Lampiran 2, khususnya

pada saat ukuran jarak Euclidean digunakan, yang salah satunya dapat dilihat pada Tabel 7. Pada “Outlier Treatment” sebesar 10, persentase hasil penggerombolan yang benar hanya sebesar 9.75% , sedangkan pada ukuran data kecil dengan “Outlier Treatment” yang sama, terlihat bahwa persentase hasil penggerombolan yang benar jauh lebih besar yaitu 70.25%.

Outlier Treatment

Dari hasil output analisis Two Step Cluster yang diperoleh , dapat ditentukan nilai optimal ”Outlier Treatment” yang digunakan. Optimal disini yaitu nilai yang dimasukkan akan mengeluarkan hasil penggerombolan yang sesuai dengan gerombol sebenarnya. Dilihat secara keseluruhan, hasil penggerombolan yang diberikan tanpa

Options “Outlier Treatment” memberikan hasil yang jauh lebih baik daripada menggunakan Options “Outlier Treatment”, dapat dilihat pada Lampiran 6. Dengan pengujian antara dua proporsi, diperoleh bahwa proporsi hasil penggerombolan yang benar tanpa Options “Outlier Treatment”

tidak sama dengan proporsi hasil penggerombolan yang benar dengan Options

“Outlier Treatment” pada taraf nyata 0.05. Pada Lampiran 7 dapat dilihat bahwa proporsi hasil penggerombolan yang benar tanpa

Options “Outlier Treatment” menunjukkan angka yang jauh lebih baik daripada proporsi hasil penggerombolan yang benar dengan

Options “Outlier Treatment”. Tetapi apabila

Options “Outlier Treatment” akan digunakan, maka baik itu untuk tipe populasi A1 maupun A2, ukuran jarak Log-Likelihood maupun Euclidean, dan ukuran data kecil, sedang dan besar, nilai ”Outlier Treatment” sebesar 5 merupakan nilai optimal yang dapat dimasukkan (Tabel 13). Sedangkan untuk ukuran jarak Euclidean, apabila Options

“Outlier Treatment” akan digunakan, maka sebaiknya angka yang dimasukkan sebesar 1 (T abel 14). Semakin besar nilai “Outlier Treatment” dimasukkan, terjadi penurunan persentase hasil penggerombolan yang benar. Hal ini terlihat pada “Outlier Treatment”

(17)

8

Urutan Data

Dari output yang dikeluarkan pada analisis Two Step Cluster, terlihat bahwa untuk ukuran jarak Log-Likelihood tidak ada perbedaan jumlah gerombol akhir apabila terjadi pengurutan data pada salah satu peubah yang terpilih. Lain halnya pada ukuran jarak Euclidean , dapat terlihat bahwa data masuk yang terurut pada saat penggunaan analisis

Two Step Cluster, menyebabkan hasil akhir yang berbeda. Sehingga dapat diinformasikan bahwa ukuran jarak Euclidean sensitif terhadap urutan data dibandingkan dengan ukuran jarak Log-Likelihood (Lampiran 9). Hal ini juga memberikan informasi secara umum bahwa hasil akhir dari analisis Two Step Cluster berpengaruh pada urutan data.

KESIMPULAN DAN SARAN

Kesimpulan

Two Step Cluster merupakan analisis gerombol dua tahap yang baik digunakan untuk ukuran data yang besar, dengan tipe data yang berbeda yaitu kontinu (numerik) dan kategorik. Pada penelitian ini diperoleh beberapa hal-hal menarik yang dapat dijadikan sebagai informasi kepada pengguna analisis Two Step Cluster, khususnya pada peubah yang keseluruhan bertipe numerik. Dari hasil simulasi didapatkan bahwa ukuran jarak Log-Likelihood lebih baik digunakan daripada ukuran jarak Euclidean. Ini dilihat dari hasil output akhir penggerombolan yang terbentuk, dimana secara keseluruhan ukuran jarak Log-Likelihood menghasilkan penggerombolan akhir yang sangat baik, yaitu sesuai dengan gerombol sebenarnya. Dari profil gerombol yang jumlah gerombol akhirnya telah sesuai dengan jumlah gerombol sebenarnya juga telah memperlihatkan kesesuaian dengan profil gerombol sebenarnya. Kriteria AIC lebih baik digunakan pada saat penentuan jumlah gerombol dibandingkan dengan kriteria BIC, dimana informasi ini juga didukung oleh keputusan dari pengujian proporsi antara dua proporsi yang dilakukan. Tanpa penggunaan Options

”Outlier Treatment” menghasilkan penggerombolan yang lebih baik dibandingkan dengan menggunakan Options

”Outlier Treatment”. Untuk penggunaan

Options ”Outlier Treatment”, maka nilai sebesar 5 merupakan nilai yang baik digunakan untuk mendapatkan hasil penggerombolan optimal untuk ukuran jarak

Log-Likelihood sedangkan untuk ukuran jarak Euclidean nilai yang baik digunakan sebesar 1.

Untuk urutan data, dari output diperoleh bahwa ukuran jarak Euclidean sensitif terhadap urutan data dibandingk an dengan ukuran jarak Log-Likelihood. Sehingga para pengguna analisis Two Step Cluster

disarankan agar data yang akan dimasukkan dalam keadaan teracak (sesuai dengan saran SPSS).

Saran

Karena pada tahap kedua pada Two Step Cluster memakai algoritma Cluster Hierarchichal, ada baiknya penelitian selanjutnya untuk melihat secara lebih jelas apa saja perbedaan dari kedua metode analisis gerombol tersebut.

DAFTAR PUSTAKA

Chiu, T., Fang,D., Chen,J., Wang,Y., and Jeris,C. (2001). A Robust and Scalable Clustering Algorithm for mixed Type Attributes in Large Database Environment.

In Proceedings of the 7th ACM SIGKDD International Confererence on Knowledge Discovery and Data Mining 2001.

Hair, J.F.Jr, R. E, Anderson, R. L. Tatham, & W. C. Black. 1998. Applied Multivariate Statistical Analysis. Ed ke-5. New Jersey: Prentice-Hall.

SPSS Inc. (2001). The SPSS TwoStep Cluster component . A scalable component to segment your customers more effectively. White paper – technical report, Chicago. [terhubung berkala]. http://www.spss.ch/upload/1122644952_Th e%20SPSS%20TwoStep%20Cluster%20Co mponent.pdf. [8 Juni 2006].

SPSS Inc. (2004). Cluster Analys is. Technical report, Chicago. [terhubung berkala].

http://www2.chass.ncsu.edu/garson/PA765/ cluster.htm. [8 Juni 2006].

SPSS Inc. (2004). TwoStep Cluster Analysis. Technical report, Chicago. [terhubung berkala]. http://www1.uni-hamburg.de/RRZ/Software/SPSS/Algorith.1 20/twostep_cluster.pdf. [8 Juni 2006]. Theodoridis, Koutroumbas. 1999. Di dalam:

(18)

10

Lampiran 1. Tabel lengkap persentase hasil p enggerombolan yang benar dengan analisis Two Step Cluster pada seluruh kombinasi data s imulasi 100 ulangan

Tabel 2. Persentase hasil p enggerombolan yang benar dengan ukuran jarak Log-Likelihood bila digunakan kriteria penentuan gerombol AIC

Populasi Ukuran Data

Without Outlier Treatment

Outlier Treatment

1 5 10 15 20 25 Persentase hasil

penggerombolan yang benar

Persentase hasil penggerombolan

yang benar

Persentase hasil penggerombolan yang benar

yang benar

A 1

500 100% 100% 100% 100% 100% 100% 100% 2000 100% 100% 100% 100% 100% 100% 100% 5000 100% 100% 100% 98% 97% 98% 100%

A 2

500 100% 100% 100% 100% 100% 100% 100% 2000 100% 100% 100% 100% 100% 100% 100% 5000 100% 100% 100% 100% 100% 100% 90%

Tabel 3. Persentase hasil p enggerombolan yang benar dengan ukuran jarak Log-Likelihood bila digunakan kriteria penentuan gerombol BIC

Outlier Treatment

yang benar

A 1

500 100% 100% 100% 100% 100% 100% 100% 2000 100% 100% 100% 100% 100% 100% 100% 5000 100% 100% 100% 97% 96% 98% 90%

A 2

(19)

11

Tabel 4. Persentase hasil p enggerombolan yang benar dengan ukuran jarak Euclidean bila digunakan kriteria penentuan gerombol AIC

Outlier Treatment

yang benar

A 1

500 100% 100% 100% 77% 49% 51% 30% 2000 100% 100% 37% 8% 0% 0% 0% 5000 100% 100% 15% 0% 0% 0% 0%

A 2

500 100% 95% 80% 76% 53% 47% 34% 2000 100% 89% 32% 10% 0% 0% 0% 5000 100% 70% 0% 0% 0% 0% 0%

Tabel 5. Persentase hasil p enggerombolan yang benar dengan ukuran jarak Euclidean bila digunakan kriteria penentuan gerombol AIC

Outlier Treatment

yang benar

A 1

500 100% 100% 100% 68% 44% 41% 25% 2000 100% 100% 36% 8% 0% 0% 0% 5000 100% 100% 15% 0% 0% 0% 0%

A 2

(20)

12

Lampiran 2. Tabel u kuran jarak Log Likelihood dan Euclidean mengenai persentase hasil penggerombolan yang benar terbentuk setelah menggunakan a nalisis Two Step Cluster

Tabel 6. Persentase hasil p enggerombolan yang benar dengan ukuran jarak Log-Likelihood

Ukuran Data

Without Outlier

Treatment Outlier Treatment

1 5 10 15 20 25

yang benar

Persentase hasil penggerombolan yang

benar

yang benar

500 100% 100% 100% 100% 100% 100% 100% 2000 100% 100% 100% 100% 100% 100% 100% 5000 100% 100% 100% 98.5% 98.25% 99% 92.5%

Tabel 7. Persentase hasil p enggerombolan yang benar dengan ukuran jarak Euclidean

Ukuran Data

Without Outlier

yang benar

(21)

13

Lampiran 3. Tabel profil gerombol terbentuk dengan jumlah gerombol sebanyak 3

Tabel 8. Profil gerombol t erbentuk dengan tipe populasi A1

Cluster

X1 X2 X 3 X 4 X5 X6 Mean

Std.

Deviation Mean Std.

Deviation Mean Std. Deviation 1 6.05 1.04 5.99 1.02 5.99 1.00 5.98 1.02 5.92 1.01 5.98 0.99 2 0.00 1.01 0.02 0.98 0.03 0.96 0.04 1.00 0.01 0.99 -0.01 1.00 3 -6.03 1.02 -6.05 1.03 -5.97 0.97 -6.02 1.02 -5.99 0.97 -5.96 0.99

Cluster

X7 X8 X 9 X10

Mean Std.

Deviation Mean Std.

Deviation Mean Std. Deviation 1 5.96 0.99 6.00 1.01 6.01 1.02 6.02 1.00 2 0.02 0.98 0.01 0.99 0.00 1.00 0.00 1.00 3 -6.00 0.96 -5.97 1.01 -6.02 1.02 -5.97 0.95

Tabel 9. Profil gerombol t erbentuk dengan tipe populasi A2

Cluster

X1 X2 X 3 X 4 X5 X6 Mean

Std.

Deviation Mean Std.

Deviation Mean Std. Deviation 1 -3.95 0.99 -4.00 1.05 -3.92 0.96 -3.95 0.97 -4.02 1.05 -3.97 1.03 2 -0.02 0.95 0.01 0.98 -0.02 0.98 0.02 1.02 0.01 0.99 0.00 0.99 3 3.96 1.00 3.96 0.99 4.00 1.02 4.03 0.98 3.95 1.01 4.05 1.00

Cluster

X7 X8 X 9 X10 Mean

Std.

Deviation Mean Std.

(22)

14

Lampiran 4. Tabel p ersentase hasil penggerombolan yang benar terbentuk setelah menggunakan a nalisis Two Step Cluster dengan kriteria AIC dan BIC

Tabel 10. Persentase hasil penggerombolan yang benar dengan kriteria penentuan gerombol AIC

Ukuran Data

Without Outlier

benar

yang benar

yang benar 500 100% 99% 95% 88.25% 75% 74.5% 66% 2000 100% 97.5% 67.25% 54.5% 50% 50% 50% 5000 100% 95.2% 53.75% 49.5% 49.25% 49.5% 47.5%

Tabel 11. Persentase hasil penggerombolan yang benar dengan kriteria penentuan gerombol BIC

Ukuran Data

Outlier Treatment

benar

yang benar

(23)

15

Lampiran 5. Tabel hasil uji hipotesis dua proporsi dengan p erbandingan antara penentuan jumlah gerombol AIC dan BIC

Ukuran Data Outlier Treatment Proporsi hasil penggerombolan yang benar dengan

AIC

Proporsi hasil penggerombolan yang benar dengan

BIC | zhit |

500

1 0.9900 0.9875 0.3748 5 0.9500 0.9525 0.1836 10 0.8825 0.8200 2.7765*

15 0.7500 0.7250 0.8983 20 0.7450 0.7000 1.5889 25 0.6600 0.6300 0.9914

2000

1 0.9750 0.9675 1.4193 5 0.6725 0.6750 0.1686 10 0.5450 0.5525 0.4765

15 0.5000 0.5000 ^

20 0.5000 0.5000 ^

25 0.5000 0.5000 ^

5000

1 0.9520 0.9250 5.6193*

5 0.5375 0.5375 ^

10 0.4950 0.4900 0.5001 15 0.4925 0.4900 0.2500

20 0.4950 0.4950 ^

25 0.4750 0.4500 2.5071* * Signifikan pada a sebesar 0.05

(24)

16

Lampiran 6. Tabel perbandingan tanpa maupun dengan Options “Outlier Treatment” baik p ada ukuran jarak Log-Likelihood maupun Euclidean Tabel 12. Perbandingan tanpa maupun dengan Options “Outlier Treatment” pada ukuran jarak Log-Likelihood

Ukuran Data

Without Outlier

Treatment With Outlier Treatment

yang benar

benar 500 100% 100% 2000 100% 100% 5000 100% 98%

Tabel 13. Perbandingan tanpa maupun dengan Options “Outlier Treatment” p ada ukuran jarak Euclidean

Ukuran Data

With Outlier Treatment

(25)

17

Lampiran 7. Tabel hasil uji hipotesis dua proporsi dengan p erbandingan antara t anpa dan dengan “Outlier Treatment” p ada ukuran jarak Log-Likelihood dan Euclidean

Ukuran Jarak Ukuran Data Proporsi hasil penggerombolan yang benar Tanpa "Outlier Treatment"

Proporsi hasil penggerombolan yang benar Dengan

"Outlier Treatment" | zhit |

Log-Likelihood

500 1.0000 1.0000 ^

2000 1.0000 1.0000 ^

5000 1.0000 0.9800 10.0500*

Eucliden

500 1.0000 0.6329 15.2187*

2000 1.0000 0.2313 49.9708* 5000 1.0000 0.1542 85.6040* * Signifikan pada a sebesar 0.05

(26)

18

Lampiran 8. Tabel perbandingan tanpa maupun dengan Options “Outlier Treatment” s ebesar 1, 5, 10, 15, 20 dan 25 baik p ada ukuran jarak Log-Likelihood maupun Euclidean.

Tabel 14. Perbandingan tanpa maupun dengan Options “Outlier Treatment” s ebesar 1, 5, 10, 15, 20 dan 25 pada ukuran jarak Log-Likelihood

Outlier Treatment

benar

yang benar

yang benar 100% 100% 100% 99.5% 99.42% 99.67% 97.5%

Tabel 15. Perbandingan tanpa maupun dengan Options “Outlier Treatment” s ebesar 1, 5, 10, 15, 20 dan 25 pada ukuran jarak Euclidean

Outlier Treatment

yang benar

(27)

19

Lampiran 9. Data output analisis Two Step Cluster mengenai sifat urutan d ata

Ukuran data (N)

Sort case by

A 1

Jumlah gerombol sebenarnya Log-Likelihood Euclidean

AIC

Jumlah gerombol BIC

Jumlah gerombol AIC

Jumlah gerombol BIC

Jumlah gerombol

500

X 1 142.049 3 142.049 3 37.920 3 37.920 3 3 X 5 164.468 3 164.468 3 24.688 3 24.688 3 3 X 9 151.973 3 151.973 3 39.741 3 39.741 3 3

2000 X 1 250.347 3 250.347 3 1.672

2,outlier ->3 1.672

2,outlier

->3 3 X 5 237.514 3 237.514 3 88.504 3 88.504 3 3 X 9 272.082 3 272.082 3 73.526 3 73.526 3 3

5000

X 1 253.493 3 253.493 3 61.021 3 61.021 3 3 X 5 251.976 3 251.976 3 68.095 3 68.095 3 3 X 9 345.046 3 345.046 3 72.788 3 72.788 3 3

Ukuran data (N)

Sort case by

A 2

Jumlah gerombol sebenarnya Log-Likelihood Euclidean

AIC

Jumlah gerombol BIC

Jumlah gerombol AIC

Jumlah gerombol BIC

Jumlah gerombol

500

X 1 64.456 3 64.456 3 16.623 3 16.623 3 3 X 5 58.271 3 58.271 3 9.339 3 9.339 3 3 X 9 66.125 3 66.125 3 11.435 3 11.435 3 3

2000

X 1 115.291 3 115.291 3 25.020 3 25.020 3 3

X 5 123.856 3 123.856 3 1.177

2,outlier ->3 1.177

2,outlier

->3 3

X 9 115.001 3 115.001 3 1.201

2,outlier ->3 1.201

2,outlier

->3 3

5000

X 1 127.794 3 127.794 3 47.673 3 47.673 3 3

X 5 126.686 3 126.686 3 31.094

3,outlier ->4 31.094

3,outlier