HASIL DAN PEMBAHASAN
4.1.2 Hasil Perolehan Bobot menggunakan PCA
PCA digunakan sebagai tolak ukur untuk menguji korelasi antar atribut. PCA dalam penelitian ini digunakan sebagai dasar pemberian bobot terhadap atribut data. Agar mempermudah perhitungan PCA terhadap seluruh data maka digunakan dukungan bahasa pemrograman Python. Adapun hasil tahapan dari proses pembobotan menggunakan PCA dapat dijelaskan sebagai berikut:
a. Hasil pembentukan Matrik Kovarian (Covariance Matrix)
Berikut output pembentukan Covariance Matrix dataset Ionosphere, yaitu:
Gambar 4.9 Output Covariance Matrix (Dataset Ionosphere)
Dari gambar 4.9, Terlihat hasil perolehan nilai korelasi antar atribut dataset Ionosphere menggunakan persamaan 2.4. Atribut SR1 memiliki korelasi ragam peragam (varians covariance) sebesar 1, Sementara korelasi atribut SR1 dengan SR2 dan sebaliknya atribut SR2 dengan SR1 memiliki korelasi (varians covariance) sebesar 0.143 dan seterusnya dengan cara yang sama juga berlaku untuk setiap pasangan atribut.
Berikutnya output pembentukan Covariance Matrix dataset Abalone, yaitu:
Gambar 4.10 Output Covariance Matrix (Dataset Abalone)
Dari gambar 4.10, Terlihat hasil perolehan nilai korelasi antar atribut dataset Abalone menggunakan persamaan 2.4. Atribut Length memiliki korelasi ragam peragam (varians covariance) sebesar 1, Sementara korelasi atribut Length dengan Diameter dan sebaliknya atribut Diameter dengan Length memiliki korelasi (varians covariance) sebesar 0.987 dan seterusnya dengan cara yang sama juga berlaku untuk setiap pasangan atribut.
Berikut adalah output pembentukan Covariance Matrix dataset Kualitas Udara, yaitu:
Gambar 4.11 Output Covariance Matrix (Dataset Kualitas Udara) Dari gambar 4.11, Terlihat hasil perolehan nilai korelasi antar atribut dataset Kualitas Udara menggunakan persamaan 2.4. Atribut PM10 memiliki korelasi ragam peragam (varians covariance) sebesar 1, Sementara korelasi atribut PM10 dengan SO2 dan sebaliknya atribut SO2 dengan PM10 memiliki korelasi (varians covariance) sebesar 0.297 dan seterusnya dengan cara yang sama juga berlaku untuk setiap pasangan atribut.
Quality, yaitu:
Gambar 4.12 Output Covariance Matrix (Dataset Water Quality)
Dari gambar 4.12, Terlihat hasil perolehan nilai korelasi antar atribut dataset Water Quality menggunakan persamaan 2.4. Atribut TSS memiliki korelasi ragam peragam (varians covariance) sebesar 1, Sementara korelasi atribut TSS dengan DO dan sebaliknya atribut DO dengan TSS memiliki korelasi (varians covariance) sebesar -0.011 dan seterusnya dengan cara yang sama juga berlaku untuk setiap pasangan atribut.
b. Hasil perolehan Nilai Eigen (Eigenvalue)
Berikut adalah output perolehan eigenvalue dataset Ionosphere menggunakan pemrograman Python, yaitu:
Gambar 4.13 Output Eigenvalue (Dataset Ionosphere)
Dari gambar 4.13, Terlihat hasil perolehan nilai eigen dataset Ionosphere yang telah diurutkan dari nilai eigen terbesar hingga nilai eigen terkecil.
Nilai eigen diperoleh dari dekomposisi matrik kovarian dataset Ionosphere.
Nilai eigen terbesar urutan pertama senilai 8.819, sedangkan nilai eigen urutan kedua senilai 4.249, dilanjutkan dengan nilai eigen urutan berikutnya masing-masing senilai 2.607, 2.377 dan 1.894.
Berikut adalah output perolehan eigenvalue dataset Abalone, yaitu:
Gambar 4.14 Output Eigenvalue (Dataset Abalone)
Dari gambar 4.14, Terlihat hasil perolehan nilai eigen dataset Abalone yang telah diurutkan dari nilai eigen terbesar hingga nilai eigen terkecil. Nilai eigen diperoleh dari dekomposisi matrik kovarian dataset Abalone. Nilai eigen terbesar urutan pertama senilai 6.357, sedangkan nilai eigen urutan kedua senilai 0.279, dilanjutkan dengan nilai eigen urutan berikutnya masing-masing senilai 0.167, 0.114, 0.065, 0.013 dan 0.007.
Berikut adalah output perolehan eigenvalue dataset Kualitas Udara menggunakan pemrograman Python, yaitu:
Gambar 4.15 Output Eigenvalue (Dataset Kualitas Udara)
Dari gambar 4.15, Terlihat hasil perolehan nilai eigen dataset Kualitas Udara yang telah diurutkan dari nilai eigen terbesar hingga nilai eigen terkecil. Nilai eigen diperoleh dari dekomposisi matrik kovarian dataset Kualitas Udara. Nilai eigen terbesar urutan pertama senilai 2.848,
eigen urutan berikutnya masing-masing senilai 0.592, 0.455 dan 0.257.
Proses perolehan nilai eigen juga dilakukan pada dataset Water Quality Berikut adalah output perolehan nilai eigenvalue dataset Water Quality menggunakan pemrograman Python, yaitu:
Gambar 4.16 Output Eigenvalue (Dataset Water Quality)
Dari gambar 4.16, Terlihat hasil perolehan nilai eigen dataset Water Quality yang telah diurutkan dari nilai eigen terbesar hingga nilai eigen terkecil.
Nilai eigen diperoleh dari dekomposisi matrik kovarian dataset Water Quality. Nilai eigen terbesar urutan pertama senilai 2.184, sedangkan nilai eigen terbesar urutan kedua senilai 1.926, dilanjutkan dengan nilai eigen terbesar urutan ketiga senilai 1.176, dilanjutkan dengan nilai eigen urutan berikutnya masing-masing senilai 0.951, 0.816, 0.633, 0.281 dan 0.102.
c. Hasil perolehan Proporsi Varians (Proportion Variance)
Proses berikutnya dari metode PCA adalah menghitung nilai proporsi varians dataset menggunakan persamaan 2.6. Untuk memperoleh nilai
Covariance) menggunakan persamaan 3.4
Berikut adalah output perolehan nilai proporsi secara cumulative dari dataset Ionosphere, yaitu:
Gambar 4.17 Output Proportion Cumulative (Dataset Ionosphere) Dari gambar 4.17, Terlihat hasil perolehan persentase nilai proporsi varians dataset Ionosphere secara cumulative, artinya persentase nilai proporsi cumulative PC1 sebesar 27.48%, PC2 sebesar 40.72%, PC3 sebesar 48.84%, PC4 sebesar 56.25%, PC5 sebesar 62.15%, PC6 sebesar 65.74%, PC7 sebesar 68.93%, Hal yang sama juga berlaku untuk persentase nilai proporsi varians PC8 sampai dengan PC32.
Berikut gambar 4.18 merupakan grafik variance covariance dataset Ionosphere menggunakan library Python, yaitu:
Gambar 4.18 Grafik Variance Covariance (Dataset Ionosphere) Dari gambar 4.18, Dapat dijelaskan grafik perolehan nilai proporsi varians dataset Ionosphere per PC. Nilai PC 1 sampai PC 5, masing – masing berbanding dengan nilai variance covariance yang mewakili persentase
PC3 senilai 8.12%, PC4 senilai 7.40% dan PC5 senilai 5.90%.
Berikutnya adalah output perolehan nilai proporsi secara cumulative dari dataset Abalone, yaitu:
Gambar 4.19 Output Proportion Cumulative (Dataset Abalone) Dari gambar 4.19, Terlihat hasil perolehan persentase nilai proporsi varians dataset Abalone secara cumulative, artinya persentase nilai proporsi cumulative PC1 sebesar 90.79%, kemudian persentase nilai proporsi cumulative PC2 sebesar 94.78%, persentase nilai proporsi cumulative PC3 sebesar 97.17%, Hal yang sama juga berlaku untuk persentase nilai proporsi varians PC4 sampai dengan PC7.
Berikut gambar 4.20 merupakan grafik variance covariance dataset Abalone menggunakan library Python, yaitu:
Gambar 4.20 Grafik Variance Covariance (Dataset Abalone)
Dari gambar 4.20, Dapat dijelaskan grafik perolehan nilai proporsi varians dataset Abalone per PC. Nilai PC 1 sampai PC 5, masing – masing berbanding dengan nilai variance covariance yang mewakili persentase
PC3 senilai 2.39%, PC4 senilai 1.63% dan PC5 senilai 0.92%
Berikutnya adalah output perolehan nilai proporsi secara cumulative dari dataset Kualitas Udara, yaitu:
Gambar 4.21 Output Proportion Cumulative (Dataset Kualitas Udara) Dari gambar 4.21, Terlihat hasil perolehan persentase nilai proporsi varians dataset Kualitas Udara secara cumulative, artinya persentase nilai proporsi cumulative PC 1 sebesar 56.90%, kemudian persentase nilai proporsi cumulative PC 2 sebesar 73.95%. Hal yang sama juga berlaku untuk persentase nilai proporsi varians PC3 sampai dengan PC5.
Berikut adalah grafik variance covariance dataset Kualitas Udara menggunakan library Python,yaitu:
Gambar 4.22 Grafik Variance Covariance (Dataset Kualitas Udara) Dari gambar 4.22, Dapat dijelaskan grafik perolehan persentase nilai proporsi varians dataset Kualitas Udara secara cumulative per PC. Nilai PC 1 sampai PC 5, masing – masing berbanding dengan nilai variance
senilai 56.90%, PC2 senilai 17.05%, PC3 senilai 11.83%, PC4 senilai 9.08% dan PC5 senilai 5.14%.
Berikut adalah output perolehan nilai Proporsi secara cumulative dari dataset Water Quality, yaitu:
Gambar 4.23 Output Proportion Cumulative (Dataset Water Quality)
Dari gambar 4.23, Terlihat hasil persentase nilai proporsi varians dataset Water Quality secara cumulative, artinya persentase nilai proporsi cumulative PC 1 sebesar 27.07%, kemudian persentase nilai proporsi cumulative PC 2 sebesar 50.93%. Hal yang sama juga berlaku untuk persentase nilai proporsi varians PC3 sampai dengan PC8.
Berikut adalah grafik variance covariance dataset Water Quality menggunakan library Python,yaitu:
Gambar 4.24 Grafik Variance Covariance (Dataset Water Quality)
Dari gambar 4.24, Terlihat grafik perolehan persentase nilai proporsi varians dataset Water Quality secara cumulative per PC. Nilai PC 1 sampai PC 8 atau sebanyak jumlah karakteristik data, masing – masing berbanding dengan nilai variance
covariance yang mewakili persentase ragam peragam masing-masing PC1 senilai 27.07%, PC2 senilai 23.86%, PC3 senilai 14.58%, PC4 senilai 11.78%, PC5 senilai 10.12%, PC6 senilai 7.84%, PC7 senilai 3.49% dan PC8 senilai 1.26%.
d. Hasil pembentukan Matrik Eigenvector
Untuk melihat atribut mana yang termasuk kedalam sejumlah proporsi varians dataset maka dilakukanlah proses rotasi faktor menggunakan persamaan 2.7, Proses rotasi faktor bertujuan untuk memilih faktor yang mampu mengoptimalkan korelasi antar atribut yang sedang diobservasi.
Berikut adalah output pembentukan matrik Eigenvector dari dataset Ionosphere, yaitu:
Gambar 4.25 Output Eigenvector (Dataset Ionosphere)
Dari gambar 4.25, Dapat dijelaskan bahwa matrik Eigenvector dari dataset Ionosphere yang disebut juga matrik loading factor (nilai besarnya korelasi antara sejumlah PC).
Pemilihan sejumlah PC sangatlah penting dan beberapa memilih cara ‘brute force’.
Pendekatan yang layak digunakan yaitu: Pendekatan pertama dengan cara melihat urutan dari nilai eigen terbesar hingga nilai eigen terkecil dan bernilai >=1.
Pendekatan Kedua dengan cara melihat grafik variance covariance seperti pada gambar 4.18.
Pada penelitian ini, pendekatan yang digunakan untuk memillih sejumlah PC yang akan dijadikan bobot adalah dengan cara melihat urutan nilai eigen. Dari gambar 4.13, Terlihat hasil perolehan nilai eigen dataset Ionosphere yang telah diurutkan dari nilai eigen terbesar hingga nilai eigen terkecil. Jika dihitung jumlah persentase kontribusi saat nilai eigen sebesar 8.819, maka diperoleh hasil sebagai berikut:
= (8.819/32)*100% = 27.5% (Angka 32 diperoleh dari penjumlahan diagonal matrik kovarian dataset Ionosphere)
Artinya bahwa nilai eigen 8.819 berpengaruh sebesar 27.5% terhadap variasi dataset Ionosphere. Sehingga dapat dinyatakan bahwa 27% lebih variasi data berada pada nilai eigen tersebut. Oleh sebab itu, Nilai eigen 8.819 disebut sebagai PC1 dan dijadikan sebagai bobot untuk digunakan pada tahapan clustering.
Berikut adalah perolehan hasil pemilihan PC yang dijadikan sebagai nilai bobot dari dataset Ionosphere, yaitu:
Gambar 4.26 Output Pemilihan Nilai Bobot (Dataset Ionosphere)
Dari gambar 4.26, Telah terpilih bahwa PC1 sampai PC7 memiliki kontribusi maksimum terhadap variasi data. PC1 sampai PC7 telah mewakili ragam peragam dari dataset Ionosphere sebesar 68.93%. Sehingga 68% lebih variasi data berada pada PC1 sampai PC7 tersebut dan dapat dijadikan sebagai nilai bobot untuk tahapan clustering.
Berikutnya adalah output pembentukan matrik Eigenvector dari dataset Abalone, yaitu:
Gambar 4.27 Output Eigenvector (Dataset Abalone)
Dari gambar 4.27, Dapat dijelaskan bahwa matrik Eigenvector dari dataset Abalone yang disebut juga matrik loading factor (nilai besarnya korelasi antara sejumlah PC).
Pemilihan sejumlah PC sangatlah penting dan beberapa memilih cara ‘brute force’.
Pendekatan yang layak digunakan yaitu: Pendekatan pertama dengan cara melihat urutan dari nilai eigen terbesar hingga nilai eigen terkecil dan bernilai >=1.
Pendekatan Kedua dengan cara melihat grafik variance covariance seperti pada gambar 4.20.
Pendekatan yang digunakan untuk memillih sejumlah PC yang akan dijadikan bobot adalah dengan cara melihat urutan nilai eigen. Dari gambar 4.14, Terlihat hasil perolehan nilai eigen dataset Abalone yang telah diurutkan dari nilai eigen terbesar hingga nilai eigen terkecil. Jika dihitung jumlah persentase kontribusi saat nilai eigen sebesar 6.357, maka diperoleh hasil sebagai berikut:
= (6.357/7)*100% = 90.8% (Angka 7 diperoleh dari penjumlahan diagonal matrik kovarian dataset Abalone)
Artinya bahwa nilai eigen 6.357 berpengaruh sebesar 90.8% terhadap variasi dataset Abalone. Sehingga dapat dinyatakan bahwa 90% lebih variasi data berada pada nilai eigen tersebut. Oleh sebab itu, Nilai eigen 6.357 disebut sebagai PC1 dan dijadikan sebagai bobot untuk digunakan pada tahapan clustering.
Berikut adalah perolehan hasil pemilihan PC yang dijadikan sebagai nilai bobot dari dataset Abalone, yaitu:
Gambar 4.28 Output Pemilihan Nilai Bobot (Dataset Abalone)
Dari gambar 4.28, Telah terpilih bahwa PC1 sudah memenuhi kontribusi maksimum terhadap variasi data. PC1 juga telah mewakili ragam peragam dari dataset Abalone sebesar 90.8%. Sehingga 90% lebih variasi data berada pada PC1 tersebut dan dapat dijadikan sebagai nilai bobot untuk tahapan clustering.
Berikut adalah output pembentukan matrik Eigenvector dari dataset Kualitas Udara, yaitu:
Gambar 4.29 Output Eigenvector (Dataset Kualitas Udara)
Dari gambar 4.29, Terlihat matrik Eigenvector dari dataset Kualitas Udara yang disebut juga matrik loading factor (nilai besarnya korelasi antara sejumlah PC).
Pemilihan sejumlah PC sangatlah penting dan beberapa memilih cara ‘brute force’.
Pendekatan yang layak digunakan yaitu: Pendekatan pertama dengan cara melihat urutan dari nilai eigen terbesar hingga nilai eigen terkecil dan bernilai >=1.
Pendekatan Kedua dengan cara melihat grafik variance covariance seperti pada gambar 4.22.
Pendekatan yang digunakan untuk memillih sejumlah PC yang akan dijadikan bobot adalah dengan cara melihat urutan nilai eigen. Dari gambar 4.15, Terlihat hasil perolehan nilai eigen dataset Kualitas Udara yang telah diurutkan dari nilai eigen terbesar hingga nilai eigen terkecil. Jika dihitung jumlah persentase kontribusi saat nilai eigen sebesar 2.848, maka diperoleh hasil sebagai berikut:
= (2.848/5)*100% = 56.96% (Angka 5 diperoleh dari penjumlahan diagonal matrik kovarian dataset Kualitas Udara)
Artinya bahwa nilai eigen 2.848 berpengaruh sebesar 56.96% terhadap variasi dataset Kualitas Udara. Sehingga dapat dinyatakan bahwa 50% lebih variasi data berada pada nilai eigen tersebut. Oleh sebab itu, Nilai eigen 2.848 disebut sebagai PC1 dan dijadikan sebagai bobot untuk digunakan pada tahapan clustering. Berikut adalah perolehan hasil pemilihan PC yang dijadikan sebagai nilai bobot dari dataset Kualitas Udara, yaitu:
Gambar 4.30 Output Pemilihan Nilai Bobot (Dataset Kualitas Udara)
Dari gambar 4.30, Telah terpilih bahwa PC1 memiliki kontribusi maksimum terhadap variasi data. PC1 juga telah mewakili ragam peragam dari dataset Kualitas Udara sebesar 56.96%. Sehingga 56% lebih variasi data berada pada PC 1 tersebut dan dapat dijadikan sebagai nilai bobot untuk tahapan clustering.
Berikut adalah output pembentukan matrik Eigenvector dari dataset Water Quality, yaitu:
Gambar 4.31 Output Eigenvector (Dataset Water Quality)
Dari gambar 4.31, Terlihat matrik Eigenvector dari dataset Water Quality yang disebut matrik loading factor. (nilai besarnya korelasi antara sejumlah PC). Pemilihan sejumlah PC sangatlah penting dan beberapa memilih cara ‘brute force’. Pendekatan yang layak digunakan yaitu: Pendekatan pertama dengan cara melihat urutan dari nilai eigen terbesar hingga nilai eigen terkecil dan bernilai >=1. Pendekatan kedua dengan cara melihat grafik variance covariance seperti pada gambar 4.24.
Pada penelitian ini, pendekatan yang digunakan untuk memillih sejumlah PC yang akan dijadikan bobot adalah dengan cara melihat urutan nilai eigen. Dari gambar 4.16,
Terlihat hasil perolehan nilai eigen dataset Water Quality yang telah diurutkan dari nilai eigen terbesar hingga nilai eigen terkecil dan bernilai >=1. Jika dihitung jumlah persentase kontribusi saat nilai eigen sebesar 2.184, maka diperoleh hasil sebagai berikut:
= (2.184/8)*100% = 27.30% (Angka 8 diperoleh dari penjumlahan diagonal matrik kovarian dataset Water Quality)
Artinya bahwa nilai eigen 2.184 berpengaruh sebesar 27.30% terhadap variasi dataset Water Quality. Sehingga dapat dinyatakan bahwa 27% lebih variasi data berada pada nilai eigen tersebut. Oleh sebab itu, Nilai eigen 2.184 disebut sebagai PC1 dan dijadikan sebagai bobot untuk digunakan pada tahapan clustering. Berikut adalah perolehan hasil pemilihan PC yang dijadikan sebagai nilai bobot dari dataset Water Quality, yaitu:
Gambar 4.32 Output Pemilihan Nilai Bobot (Dataset Water Quality)
Dari gambar 4.32, Telah terpilih bahwa PC1 sampai PC3 memiliki kontribusi maksimum dan sudah mewakili ragam peragam dari dataset Water Quality sebesar 65.51%. Sehingga 65% lebih variasi data sudah berada pada PC1 sampai PC3 dan dapat dijadikan sebagai nilai bobot untuk tahapan clustering.
Tahapan berikutnya adalah melakukan proses pengujian model clustering menggunakan model K-Means konvensional dan model Attribute Weight K-Means menggunakan pendekatan PCA.