5
BAB II
TINJAUAN PUSTAKA
2.1 Analisis Multivariat
Analisis multivariat adalah teknik analisis dalam statistik yang digunakan untuk menganalisis beberapa variabel pada waktu yang bersamaan. Analisis data multivariat memiliki perhitungan yang lebih kompleks dibandingkan dengan analisis univariat, sehingga perlu digunakan prosedur statistik untuk mempermudah analisis. Ada dua klasifikasi analisis multivariat, yaitu analisis dependensi dan analisis interdependensi. Analisis dependensi memiliki karakteristik satu atau lebih variabel sebagai variabel terikat dan bebas, seperti analisis regresi dan analisis diskriminan. Dalam analisis interdependensi, semua variabel yang digunakan merupakan variabel independen, seperti analisis cluster, analisis komponen utama, analisis faktor, dan analisis korelasi kanonik [6].
2.2 Analisis Komponen Utama (AKU)
Analisis komponen utama (AKU) adalah salah satu teknik analisis multivariat yang dapat digunakan untuk menjelaskan struktur varians-kovarians dari satu set variabel independen baru, dan merupakan kombinasi linier dari variabel asli [7]. AKU dapat diterapkan untuk data penelitian dengan masalah multikolinearitas, tujuannya adalah untuk mengubah data asli yang berkorelasi menjadi data baru yang sederhana tanpa menghilangkan varians antara data asli dan data tidak saling terkait. Multikolinearitas merupakan suatu keadaan di mana terdapat hubungan linier antara beberapa atau seluruh variabel yang digunakan. Pada analisis komponen utama akan diperoleh nilai eigen dan proporsi keragaman.
6
Langkah-langkah dalam analisis komponen utama adalah sebagai berikut: 1. Standardisasi Data
Standardisasi data dilakukan apabila data yang digunakan memiliki satuan variabel yang berbeda, maka variabel asal perlu dibakukan dahulu. Standardisasi dilakukan dengan menggunakan rumus sebagai berikut:
𝑍𝑗𝑘 =
𝑥𝑗𝑘− 𝑥̅𝑘
𝑠𝑘 ( 2.1 )
dengan 𝑍𝑗𝑘 menyatakan nilai variabel baku untuk pengamatan baris j dan kolom ke-k, 𝑥𝑗𝑘 menyatakan pengamatan baris ke-j dan kolom ke-k, 𝑥̅𝑘 menyatakan nilai rata-rata variabel ke-k, dan 𝑠𝑘 menyatakan simpangan baku variabel ke-k.
2. Uji Kecukupan Sampel
Uji Kecukupan sampel dilakukan untuk mengetahui apakah sampel yang diambil telah dapat mewakili populasi yang ada dengan melihat nilai Kaiser-Mayer Olkin (KMO). Uji KMO dapat dilakukan dengan rumus sebagai berikut:
𝐾𝑀𝑂 = ∑ 𝑟𝑖𝑗
2 𝑖≠𝑗 ∑ ∑ 𝑟𝑖𝑗2
𝑖≠𝑗 + ∑ ∑𝑖≠𝑗𝑎𝑖𝑗2 , 𝑖 = 1,2, … , 𝑝; 𝑗 = 1,2,3, … , 𝑝 (2.2 )
dengan 𝑟𝑖𝑗 menyatakan koefisien korelasi sederhana antara variabel ke-i dan ke-j, dan 𝑎𝑖𝑗 menyatakan koefisien korelasi parsial antara variabel ke-i dan ke-j. Nilai KMO yang dihasilkan akan mendekati satu jika nilai koefisien korelasi parsial lebih kecil dibandingkan dengan nilai koefisien korelasi. KMO dengan nilai yang kecil menandakan bahwa sampel yang digunakan harus dipertimbangkan kembali, karena korelasi antar variabel yang ada tidak dapat mewakili variabel lainnya. Adapun kriteria keputusan sampel KMO terdapat dalam Tabel 2.1 [8].
7
Tabel 2.1. Kriteria keputusan sampel KMO
Nilai KMO Kriteria
0,90 - 1,00 sangat layak 0,80 - 0,90 layak 0,70 - 0,80 agak layak 0,60 - 0,70 lebih dari cukup 0,50 - 0,60 cukup 0,00 - 0,50 tidak layak
3. Uji Barlett
Uji Barlett dilakukan untuk mendeteksi ada atau tidaknya multikolinearitas pada variabel yang digunakan. Uji Barlett dapat dilakukan dengan rumus sebagai berikut:
𝑋ℎ𝑖𝑡𝑢𝑛𝑔2 = − {(𝑁 − 1) −2𝜌 + 5
6 } ln|𝑅| (2.3 )
dengan 𝑁 menyatakan banyaknya objek penelitian, 𝜌 menyatakan banyaknya variabel yang digunakan, dan |𝑅| merupakan determinan dari matriks korelasi. Jika 𝑋ℎ𝑖𝑡𝑢𝑛𝑔2 yang dihasilkan lebih dari 𝑋𝑇𝑎𝑏𝑒𝑙2 atau nilai signifikansinya kurang dari 𝛼(0,05) maka terdapat korelasi antar variabel yang digunakan, sehingga perlu dilakukannya AKU.
4. Matriks Korelasi
Korelasi merupakan ukuran kedekatan hubungan satu variabel dengan variabel lainnya. Secara umum, jika nilai korelasi antar variabel melebihi 0,70 maka menunjukan adanya multikolinearitas dalam data tersebut. Korelasi antar variabel ke-i dan ke-j dinotasikan dengan 𝑅𝑖𝑗 dan didefinisikan sebagai berikut:
𝑅𝑖𝑗 = 𝑠𝑖𝑗 √𝑠𝑖𝑖√𝑠𝑗𝑗
8
dengan 𝑅𝑖𝑗 menyatakan korelasi antar variabel ke-i dan ke-j, 𝑠𝑖𝑗 menyatakan kovariansi sampel variabel ke-i dan ke-j, 𝑠𝑖𝑖 menyatakan variansi variabel ke-i, dan 𝑠𝑗𝑗 menyatakan variansi variabel ke-j.
5. Nilai Eigen
Matriks korelasi yang telah diperoleh dapat digunakan untuk mencari nilai eigen λ1, λ2, … , λp dengan persamaan sebagai berikut:
|𝑅 − 𝜆𝐼| = 0
dengan R menyatakan matriks korelasi, dan I merupakan matriks identitas. Nilai eigen dapat menjelaskan kontribusi keragaman relatif yang didefinisikan oleh masing-masing komponen sebagai berikut:
Total Varian = 𝜆𝑖
∑𝑝𝑖=1𝜆𝑖 × 100%
besarnya keragaman kumulatif dapat didefinisikan sebagai berikut: Total Kumulatif Varian =∑ 𝜆𝑖
𝑞 𝑗=1
∑𝑝𝑖=1𝜆𝑖 × 100%
nilai eigen yang diperoleh digunakan untuk menentukan banyaknya komponen utama yang akan digunakan pada analisis selanjutnya, komponen utama tersebut dipilih melalui nilai eigen yang kurang dari 1, dengan proporsi keragaman lebih dari 60%.
6. Vektor Eigen
𝑒̂𝑖𝑝 merupakan vektor eigen pengamatan ke-i dan variabel ke-p yang memenuhi persamaan berikut:
9
dengan R menyatakan matriks korelasi, λ menyatakan nilai eigen, dan I merupakan matriks identitas. Vektor eigen digunakan sebagai koefisien dalam mencari nilai komponen utama pada persamaan komponen utama yang akan dibentuk.
7. Persamaan Komponen Utama
Nilai vektor eigen yang telah diperoleh digunakan sebagai koefisien dalam persamaan komponen utama yang dapat didefinisikan sebagai berikut [9]:
𝑌𝑖 = 𝑒1𝑖𝑍𝑋1+ 𝑒2𝑖𝑍𝑋2+ ⋯ + 𝑒𝑝𝑖𝑍𝑋𝑝 ; 𝑖 = 1,2, … , 𝑝 ( 2.4 ) dengan 𝑌𝑖 menyatakan komponen utama ke-i, 𝑒𝑖 menyatakan nilai vektor eigen ke-i, 𝑍𝑋𝑖 menyatakan nilai standardisasi data, 𝑒𝑝𝑖 menyatakan nilai vektor eigen dari baris ke-p dan kolom ke-i, dan p merupakan banyaknya variabel penelitian. Persamaan komponen utama yang terbentuk akan digunakan untuk mencari nilai komponen utama masing-masing objek.
Langkah-langkah analisis komponen utama disajikan dalam diagram alir sebagai berikut:
10
Gambar 2.1. Diagram alir prosedur analisis komponen utama Mulai Input Data 1. Standardisasi data 𝑍𝑗𝑘= 𝑥𝑗𝑘− 𝑥̅𝑘 𝑠𝑘
4. Menyusun matriks korelasi 𝑟𝑖𝑗 = 𝑠𝑖𝑗
√𝑠𝑖𝑖√𝑠𝑗𝑗
2. Uji kecukupan sampel (Uji KMO) 𝐾𝑀𝑂 = ∑ 𝑟𝑖𝑗 2 𝑖≠𝑗 ∑ ∑ 𝑟𝑖𝑗2 𝑖≠𝑗 + ∑ ∑𝑖≠𝑗𝑎𝑖𝑗2 3. Uji multikolinearitas (Uji Barlett) 𝑋2 ℎ𝑖𝑡𝑢𝑛𝑔 = − {(𝑁 − 1) −2𝜌 + 5 6 } 𝑙𝑛|𝑹|
5. Mencari Nilai Eigen |𝑅 − 𝜆𝐼| = 0
6. Mencari nilai vektor eigen dan menentukan jumlah komponen utama yang akan digunakan
7. Membuat persamaan komponen utama 𝑌𝑖 = 𝑒𝑖𝑋 = 𝑒1𝑖𝑋1+ 𝑒2𝑖𝑋2+ ⋯ + 𝑒𝑝𝑖𝑋𝑃 Nilai komponen utama Selesai A A
11
2.3 Analisis Kelompok (Clustering)
Analisis kelompok (Clustering) adalah teknik pengelompokkan objek yang mempunyai persamaan berdasarkan matriks tertentu. Tujuan dari analisis kelompok adalah untuk mengelompokkan objek-objek berdasarkan kemiripan sifat karakteristik yang dimiliki ke dalam satu kelompok, sehingga objek yang terdapat dalam kelompok tersebut akan memiliki sifat yang berbeda dengan kelompok lainnya. Kelebihan dari analisis kelompok ini adalah dapat mengelompokan data penelitian dalam jumlah yang besar dan variabel yang retalif banyak serta dapat digunakan dalam skala ordinal, interval, dan rasio. Sedangkan, kekurangan dari analisis kelompok yaitu pengelompokkan bersifat subjektif dari sudut pandang peneliti karena hanya melihat hasil dari gambar dendogram, dan semakin besar observasi biasanya tingkat kesalahan akan semakin besar [10].
Analisis kelompok akan membagi data menjadi satu atau beberapa kelompok tertentu. Sebuah kelompok dikatakan baik apabila memiliki [11]:
1. Homogenitas (kesamaan) yang tinggi antara anggota dalam satu kelompok (within cluster).
2. Heterogenitas (perbedaan) yang tinggi antara kelompok yang satu dengan kelompok lainnya (between cluster).
A. Metode Pengukuran Jarak
Misalkan terdapat dua objek X dan Y, yang masing-masing memiliki n pengamatan dengan 𝑋 = (𝑥1, 𝑥2, … , 𝑥𝑛) dan 𝑌 = (𝑦1, 𝑦2, … , 𝑦𝑛). Jarak antara dua objek X dan Y ditulis 𝑑(𝑥, 𝑦) dapat didefinisikan dengan berbagai cara, yaitu [12]:
a. Jarak Euclidean
Jarak yang digunakan berupa akar jumlah kuadrat dari perbedaan nilai variabel setiap objek yang digunakan, dengan menggunakan persamaan sebagai berikut:
𝑑(𝑥, 𝑦) = √(𝑥1 − 𝑦1)2+ (𝑥
12 b. Jarak Kuadrat Euclidean
Jarak berupa jumlah kuadrat dari perbedaan nilai variabel setiap objek pengamatan yang digunakan. Persamaan jarak kuadrat adalah sebagai berikut:
𝑑(𝑥, 𝑦) = (𝑥1− 𝑦1)2+ (𝑥
2− 𝑦2)2 + ⋯ + (𝑥𝑛− 𝑦𝑛)2 c. Jarak Manhattan
Jarak Manhattan merupakan jumlah nilai perbedaan mutlak setiap variabel pada objek pengamatan. Persamaan jarak Manhattan adalah sebagai berikut:
𝑑(𝑥, 𝑦) = ∑ |𝑥𝑖− 𝑦𝑖| 𝑛
𝑖=1 d. Jarak Chebyshev
Jarak yang digunakan merupakan jumlah dari nilai perbedaan mutlak yang maksimum pada tiap variabel yang digunakan, dengan persamaan sebagai berikut:
𝑑(𝑥, 𝑦) = 𝑚𝑎𝑥𝑖=1𝑛 |𝑥
𝑖− 𝑦𝑖|
B. Metode Pengelompokkan
Dalam proses pengelompokkan terdapat dua metode, yaitu metode hierarki (Hierarchical Clustering Method) dan metode non hierarki (Nonhierarchical Clustering Method).
1. Metode Hierarki (Hierarchical Clustering Method)
Metode Hierarki adalah metode pengelompokkan yang terstruktur serta bertahap. Metode ini digunakan apabila belum ditentukan jumlah kelompok yang akan dipilih. Pengelompokkan dalam metode ini memiliki dua cara yaitu dengan cara penggabungan (agglomerative) dan pemisahan (devisive).
a. Penggabungan (Agglomerative)
Metode hierarki dengan cara penggabungan dilakukan dengan menggabungkan objek secara bertahap. Setiap objek diasumsikan sebagai sebuah kelompok tersendiri dan selanjutnya dua kelompok yang mempunyai kemiripan karakteristik digabungkan
13
menjadi sebuah kelompok baru, demikian seterusnya dilakukan terhadap keseluruhan objek lainnya. Cara pengelompokkan ini memiliki beberapa prosedur, yaitu [13]: a) Pautan Lengkap (Complete Linkage)
Pautan lengkap disebut juga metode farthest neighbor, jarak antara dua kelompok A dan B didefinisikan sebagai jarak maksimum antara titik dalam A dan titik di B. Rumus pautan lengkap adalah sebagai berikut:
𝐷(𝐴, 𝐵) = max {𝑑(𝑦𝑖, 𝑦𝑗), untuk 𝑦𝑖 di 𝐴 dan 𝑦𝑗 di 𝐵} ( 2.6 )
b) Pautan Tunggal (Single Linkage)
Pautan Tunggal merupakan jarak antara dua kelompok A dan B didefinisikan sebagai jarak minimum antara titik A dan titik B, dengan rumus sebagai berikut:
𝐷(𝐴, 𝐵) = min {𝑑(𝑦𝑖, 𝑦𝑗), untuk 𝑦𝑖 di 𝐴 dan 𝑦𝑗 di 𝐵}
c) Pautan Rata-rata (Average Linkage)
Pautan rata-rata dalam pengelompokkan dilakukan dengan menentukan rata-rata jarak seluruh objek suatu kelompok terhadap seluruh objek pada kelompok lainnya. Rumus pautan rata-rata adalah sebagai berikut:
𝑑(𝐴𝐵)𝐶 = ∑ ∑ 𝑑𝑖 𝑘 𝑖𝑘
𝑁(𝐴𝐵)𝑁𝐶 ( 2.7 )
d) Metode Ward
Metode ward disebut juga sebagai jumlah bertahap metode kuadrat antara dua kelompok untuk seluruh variabel. Metode ini digunakan untuk melakukan kombinasi kelompok dengan jumlah kecil. Pengelompokkan pada metode ini berdasarkan pada minimum varian dalam suatu kelompok. Adapun rumus yang digunakan adalah sebagai berikut:
𝑑(𝐴𝐵)𝐶 =(𝑛𝐴+ 𝑛𝐶)𝑑𝐴𝐶 + (𝑛𝐵+ 𝑛𝐶)𝑑𝐵𝐶 − 𝑛𝐶𝑑𝐴𝐵 𝑛𝐴+ 𝑛𝐵+𝑛𝐶
14 b. Pemisahan (Devisive)
Metode hierarki dengan cara pemisahan dilakukan dengan mengasumsikan seluruh objek yang ada menjadi satu kelompok. Objek yang memiliki nilai kemiripan paling rendah dipisahkan menjadi kelompok baru yang lebih kecil, demikian seterusnya hingga satu kelompok hanya beranggotakan satu objek pengamatan [11].
2. Metode Nonhierarki
Pengelompokkan dengan menggunakan metode nonhierarki dilakukan dengan menentukan terlebih dahulu jumlah kelompok yang diinginkan. Setelah jumlah kelompok ditentukan, maka proses pengelompokkan dilakukan tanpa mengikuti proses hieraki. Salah satu cara pengelompokkan dalam metode ini yang sering digunakan adalah K-Means Cluster. Proses K-Means Cluster dilakukan dengan mempartisi data yang ada dalam bentuk satu atau dua kelompok, sehingga data yang memiliki karakteristik yang sama digabungkan ke dalam satu kelompok [10].
C. Metode Pengelompokkan Terbaik
Metode pengelompokkan terbaik dapat ditentukan dengan menggunakan nilai rasio simpangan baku. Pengelompokkan dikatakan baik apabila memiliki nilai simpangan baku dalam kelompok (𝑆𝑤) yang minimum dan nilai simpangan baku antar kelompok (𝑆𝑏) yang maksimum dengan menggunakan rumus (𝑆𝑤) sebagai berikut [14]:
𝑆𝑤 = 1
𝐾∑ 𝑆𝑘
𝐾
𝐾=1 ( 2.8 )
dengan 𝐾 menyatakan banyaknya kelompok yang terbentuk, dan 𝑆𝑘 menyatakan simpangan baku kelompok ke-k. Nilai simpangan baku kelompok ke-k (𝑆𝑘) dicari dengan menggunakan rumus berikut:
𝑆𝑘 = √ 1
𝑛 − 1∑(𝑦𝑖 − 𝑦̅𝑘)2 𝑛
15
dengan 𝑦𝑖 menyatakan anggota kelompok ke-k, dimana 𝑖=1,…,n, 𝑛 menyatkan banyak anggota dari setiap kelompok, dan 𝑦̅𝑘 menyatakan rata-rata dari kelompok ke-k. Simpangan baku antar kelompok (𝑆𝑏) dapat dirumuskan sebagai berikut:
𝑆𝑏 = [ 1 (𝐾 − 1)∑ (𝑋̅𝑘− 𝑋̅) 𝐾 𝐾=1 2 ] 1 2 ( 2.10 )
dengan 𝐾 menyatakan banyaknya kelompok yang terbentuk, 𝑋̅𝑘 menyatakan rata-rata kelompok ke-k, dan 𝑋̅ menyatakan rata-rata keseluruhan kelompok. Nilai 𝑆𝑤 dan 𝑆𝑏 yang telah diperoleh digunakan untuk mencari nilai rasio simpangan baku (𝑆) dengan rumus sebagai berikut:
𝑆 = 𝑆𝑤