ABSTRAK
PENGENALAN POLA KEBERHASILAN SEMINARIS
DENGAN MENGGUNAKAN
AGGLOMERATIVE HIERARCHICAL CLUSTERING
Sebuah Studi Kasus atas Keberhasilan Studi para Seminaris
Di Seminari Menengah St. Petrus Canisius, Mertoyudan, Magelang
ABSTRAK
Pembinaan di seminari menengah merupakan pembinaan formal awal bagi
para seminaris, calon imam Katolik. Sebagai tempat pembinaan, seminari memiliki
tiga kriteria penilaian terhadap para seminarisnya. Ketiga kriteria tersebut adalah
sisi intelektual (scientia), kesehatan (sanitas), dan kesucian hidup (sanctitas). Tulisan ini terfokus hanya pada pengelompokan guna pengenalan pola keberhasilan
studi para seminaris di Seminari Menengah St. Petrus Canisius, Mertoyudan,
Magelang. Pengelompokan yang dibuat kiranya akan berguna bagi seminari untuk
analisis lebih lanjut berkaitan dengan kemampuan scientia para seminaris.
Nilai rapor para seminaris menjadi acuan utama sebagai sumber data yang
akan dikelompokkan. Nilai rapor tersebut bersumber dari nilai hasil studi 186 mata
pelajaran yang diikuti oleh 137 seminaris angkatan tahun 2009 dan 2010 mulai dari
kelas KPP (Kelas Persiapan Pertama) sampai kelas XII. Sebelum dikelompokkan,
data scientia yang diperoleh dari seminari masuk tahap preprocessing. Pada tahap
ini, dilakukan data cleaning, data integration, data transformation, dan data
reduction. Pada tahap data reduction digunakan principal component analysis.
Berkaitan dengan proses pengelompkan, ada tiga metode kedekatan yang digunakan
dalam tulisan ini, yaitu single linkage, average linkage, dan complete linkage.
Masing-masing teknik ini menggunakan euclidean distance sebagai parameter jarak
kedekatannya. Dilakukan 9 kali percobaan untuk masing-masing metode kedekatan.
Setiap percobaan pengelompokan ini dihitung juga nilai sum of square error (SSE).
Dari percobaan pengelompokan yang dilakukan ditemukan pembentukan
tiga kelompok metode single linkage memberikan hasil 49,97. Hasil ini merupakan
nilai SSE terkecil dan terbaik dari seluruh percobaan pembentukan kelompok
sebanyak 27 kali. Pembentukan tiga kelompok ini juga sesuai dengan tujuan yang
ingin dicapai dalam tulisan ini, yaitu kelompok seminaris yang berhasil, seminaris
ABSTRACT
RECOGNIZING SUCCESS PATTERN OF SEMINARIANS
BY USING
AGGLOMERATIVE HIERARCHICAL CLUSTERING
A Case Study of The Rate of Educational Completion of Seminarians
At The Minor Seminary of Saint Peter Canisius, Mertoyudan, Magelang
ABSTRACT
The minor seminary designed as initial formal guidance for seminarians. As
a Catholic guidance institutions, it has three criteria for assessment the seminarians,
those are intellectual (scientia), health (sanitation) and sanctity of life (sanctitas).
This paper only focuses on agglomeration to recognize intellectual development and success studies pattern of the seminarians at St. Petrus Canisius Seminary,
Mertoyudan, Magelang. Hopefully, this agglomeration can be used for further
analysis regarding to the scientia ability of seminarians.
The main reference as data source is the grades of seminarians that comes
from the values of 186 subjects were followed by 137 seminarians class of 2009
and 2010, range of class from KPP (Kelas Persiapan Pertama) up to XII.
Prepocessing process of scientia data by clean, integrate, transform and reduce the
data. Principal component analysis is used in the data reduction phase. There are
three methods to measure similarity in this paper : single-linkage, average-linkage
and complete-linkage. Each of these method use euclidean distance as parameter of
distance proximity. There are 9 experiments for each of these method. In each of the agglomerate experiments also calculate the sum of square error (SSE).
The formation of three groups founded by single-linkage methods with
49.97 accuracy from the experiments that was conducted. This accuracy result is
the smallest value of SSE and be the best accuracy from acuracy result of 27
experiments. This formation of three groups is also accordance with the objectives
to be achieved in this paper: seminarians who succes, seminarians who need special
i
HALAMAN JUDUL
PENGENALAN POLA KEBERHASILAN SEMINARIS
DENGAN MENGGUNAKAN
AGGLOMERATIVE HIERARCHICAL CLUSTERING
Sebuah Studi Kasus atas Keberhasilan Studi para Seminaris
Di Seminari Menengah St. Petrus Canisius, Mertoyudan, Magelang
SKRIPSI
Diajukan Untuk Memenuhi Salah Satu Syarat
Memperoleh Gelar Sarjana Komputer
Program Studi Teknik Informatika
Disusun oleh:
Poldo Andreas Situmorang
115314093
PROGRAM STUDI TEKNIK INFORMATIKA
JURUSAN TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
ii
HALAMAN JUDUL (English)
RECOGNIZING SUCCESS PATTERN OF SEMINARIANS
BY USING
AGGLOMERATIVE HIERARCHICAL CLUSTERING
A Case Study of The Rate of Educational Completion of Seminarians
At The Minor Seminary of Saint Peter Canisius, Mertoyudan, Magelang
A Thesis
Presented as Partial Fulfillment of The Requirements
To Obtain Sarjana Komputer Degree
In Informatics Engineering Study Program
Written by:
Poldo Andreas Situmorang
115314093
INFORMATICS ENGINEERING STUDY PROGRAM
DEPARTMENT OF INFORMATICS ENGINEERING
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
iii
iv
v
HALAMAN PERSEMBAHAN
“… όπως εγώ σας χω αγαπ σει.”( ω ννης 15:12 )
“… sicut dilexi vos.”(Ioannes 15:12)
“… as I have loved you” (John 15:12)
“… seperti Aku telah mengasihi kamu.” (Yohanes 15:12)
Skripsi ini dipersembahkan untuk:
Allah Bapa di surga,
vi
vii
viii
ABSTRAK
PENGENALAN POLA KEBERHASILAN SEMINARIS
DENGAN MENGGUNAKAN
AGGLOMERATIVE HIERARCHICAL CLUSTERING
Sebuah Studi Kasus atas Keberhasilan Studi para Seminaris
Di Seminari Menengah St. Petrus Canisius, Mertoyudan, Magelang
ABSTRAK
Pembinaan di seminari menengah merupakan pembinaan formal awal bagi
para seminaris, calon imam Katolik. Sebagai tempat pembinaan, seminari memiliki
tiga kriteria penilaian terhadap para seminarisnya. Ketiga kriteria tersebut adalah
sisi intelektual (scientia), kesehatan (sanitas), dan kesucian hidup (sanctitas). Tulisan ini terfokus hanya pada pengelompokan guna pengenalan pola keberhasilan
studi para seminaris di Seminari Menengah St. Petrus Canisius, Mertoyudan,
Magelang. Pengelompokan yang dibuat kiranya akan berguna bagi seminari untuk
analisis lebih lanjut berkaitan dengan kemampuan scientia para seminaris.
Nilai rapor para seminaris menjadi acuan utama sebagai sumber data yang
akan dikelompokkan. Nilai rapor tersebut bersumber dari nilai hasil studi 186 mata
pelajaran yang diikuti oleh 137 seminaris angkatan tahun 2009 dan 2010 mulai dari
kelas KPP (Kelas Persiapan Pertama) sampai kelas XII. Sebelum dikelompokkan,
data scientia yang diperoleh dari seminari masuk tahap preprocessing. Pada tahap
ini, dilakukan data cleaning, data integration, data transformation, dan data
reduction. Pada tahap data reduction digunakan principal component analysis.
Berkaitan dengan proses pengelompkan, ada tiga metode kedekatan yang digunakan
dalam tulisan ini, yaitu single linkage, average linkage, dan complete linkage.
Masing-masing teknik ini menggunakan euclidean distance sebagai parameter jarak
kedekatannya. Dilakukan 9 kali percobaan untuk masing-masing metode kedekatan.
Setiap percobaan pengelompokan ini dihitung juga nilai sum of square error (SSE).
Dari percobaan pengelompokan yang dilakukan ditemukan pembentukan
tiga kelompok metode single linkage memberikan hasil 49,97. Hasil ini merupakan
nilai SSE terkecil dan terbaik dari seluruh percobaan pembentukan kelompok
sebanyak 27 kali. Pembentukan tiga kelompok ini juga sesuai dengan tujuan yang
ingin dicapai dalam tulisan ini, yaitu kelompok seminaris yang berhasil, seminaris
ix
ABSTRACT
RECOGNIZING SUCCESS PATTERN OF SEMINARIANS
BY USING
AGGLOMERATIVE HIERARCHICAL CLUSTERING
A Case Study of The Rate of Educational Completion of Seminarians
At The Minor Seminary of Saint Peter Canisius, Mertoyudan, Magelang
ABSTRACT
The minor seminary designed as initial formal guidance for seminarians. As
a Catholic guidance institutions, it has three criteria for assessment the seminarians,
those are intellectual (scientia), health (sanitation) and sanctity of life (sanctitas).
This paper only focuses on agglomeration to recognize intellectual development and success studies pattern of the seminarians at St. Petrus Canisius Seminary,
Mertoyudan, Magelang. Hopefully, this agglomeration can be used for further
analysis regarding to the scientia ability of seminarians.
The main reference as data source is the grades of seminarians that comes
from the values of 186 subjects were followed by 137 seminarians class of 2009
and 2010, range of class from KPP (Kelas Persiapan Pertama) up to XII.
Prepocessing process of scientia data by clean, integrate, transform and reduce the
data. Principal component analysis is used in the data reduction phase. There are
three methods to measure similarity in this paper : single-linkage, average-linkage
and complete-linkage. Each of these method use euclidean distance as parameter of
distance proximity. There are 9 experiments for each of these method. In each of the agglomerate experiments also calculate the sum of square error (SSE).
The formation of three groups founded by single-linkage methods with
49.97 accuracy from the experiments that was conducted. This accuracy result is
the smallest value of SSE and be the best accuracy from acuracy result of 27
experiments. This formation of three groups is also accordance with the objectives
to be achieved in this paper: seminarians who succes, seminarians who need special
x
xi DAFTAR ISI
1
HALAMAN JUDUL ... i
HALAMAN JUDUL (English) ... ii
HALAMAN PESETUJUAN ... iii
HALAMAN PENGESAHAN ... iv
HALAMAN PERSEMBAHAN ... v
PERNYATAAN KEASLIAN KARYA ... vi
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI ... vii
ABSTRAK ... viii
ABSTRACT ... ix
KATA PENGANTAR ... x
DAFTAR ISI ... xi
DAFTAR GAMBAR ...xiii
DAFTAR TABEL ... xv
BAB I PENDAHULUAN ... 1
1.1 Latar Belakang ... 1
1.2 Rumusan Masalah ... 6
1.3 Tujuan... 6
1.4 Batasan Masalah ... 7
BAB II LANDASAN TEORI ... 8
2.1 Seminari Menengah St. Petrus Canisius ... 8
2.2 Principal Component Analysis ... 10
2.3 Agglomerative Hierarchical Clustering ... 17
2.4 Uji Akurasi Data ... 33
BAB III METODOLOGI ... 36
3.1 Metode Pengumpulan Data ... 36
xii
3.3 Desain User Interface ... 45
3.4 Spesifikasi Software dan Hardware ... 48
BAB IV IMPLEMENTASI DAN ANALISIS HASIL ... 50
4.1 Implementasi ... 50
4.1.1 Pengolahan Data ... 50
4.1.2 User Interface ... 59
4.2 Analisis Hasil ... 65
BAB V PENUTUP ... 79
5.1 Kesimpulan ... 79
5.2 Saran ... 80
DAFTAR PUSTAKA ... 82
xiii
DAFTAR GAMBAR
Gambar 2.1 Hasil eigenvector dan eigenvalue dengan Matlab ... 16
Gambar 2.2 Dendrogram ... 22
Gambar 2.3 Cluster hasil AHC ... 23
Gambar 2.4 Dendrogram single linkage untuk 5 obyek data ... 27
Gambar 2.5 Dendrogram average linkage untuk 5 obyek data ... 30
Gambar 2.6 Dendrogram complete linkage untuk 5 obyek data ... 32
Gambar 2.7 Contoh pemotongan dendrogram single linkage ... 33
Gambar 3.1 Block diagram proses program ... 37
Gambar 3.2 Dendrogram single linkage ... 43
Gambar 3.3 Dendrogram average linkage ... 43
Gambar 3.4 Dendrogram complete linkage ... 43
Gambar 3.5 User interface ... 46
Gambar 3.6 Desain input data ... 47
Gambar 3.7 Desain informasi dan tabel data ... 47
Gambar 3.8 Desain hasil proses AHC dan akurasi ... 48
Gambar 4.1 Implementasi – Grafik SSE single linkage ... 57
Gambar 4.2 Implementasi – Dendrogram single linkage nilai SSE terkecil ... 57
Gambar 4.3 Implementasi – Grafik SSE average linkage... 57
Gambar 4.4 Implementasi – Dendrogram average linkage dengan 4 kelompok .. 58
Gambar 4.5 Implementasi – Grafik SSE complete linkage ... 58
Gambar 4.6 Implementasi – Dendrogram complete linkage dengan 5 kelompok 59 Gambar 4.7 Implementasi – Dendrogram complete linkage dengan 6 kelompok 59 Gambar 4.8 Contoh tampilan keseluruhan sistem ... 60
Gambar 4.9 Manual sistem ... 60
Gambar 4.10 Tentang sistem ... 61
Gambar 4.11 Implementasi – Input data ... 62
Gambar 4.12 Implementasi – Informasi data dan tabel ... 63
xiv
Gambar 4.14 Fitur hasil PCA ... 66
Gambar 4.15 Analisis – Grafik SSE single linkage ... 68
Gambar 4.16 Analisis – Dendrogram single linkage nilai SSE terkecil ... 69
Gambar 4.17 Analisis – Grafik SSE average linkage ... 70
Gambar 4.18 Analisis – Dendrogram average linkage jumlah clustering 4 ... 71
Gambar 4.19 Analisis – Grafik SSE complete linkage ... 72
Gambar 4.20 Analisis – Dendrogram complete linkage jumlah clustering 5 ... 73
Gambar 4.21 Analisis – Dendrogram complete linkage jumlah clustering 6 ... 73
Gambar 4.22 Analisis – Dendrogram relatif seimbang single linkage ... 75
Gambar 4.23 Analisis – Dendrogram relatif seimbang average linkage ... 75
xv
DAFTAR TABEL
Tabel 2.1 Contoh data untuk PCA ... 12
Tabel 2.2 Zero-mean untuk PCA ... 13
Tabel 2.3 Covariance untuk PCA ... 14
Tabel 2.4 Data final untuk contoh PCA ... 17
Tabel 2.5 Contoh data perhitungan AHC ... 24
Tabel 2.6 Similarity matrix ... 25
Tabel 2.7 Matriks jarak ... 25
Tabel 2.8 Matriks jarak pertama single linkage ... 26
Tabel 2.9 Matriks jarak kedua single linkage... 26
Tabel 2.10 Matriks jarak ketiga single linkage ... 27
Tabel 2.11 Matriks jarak pertama average linkage ... 28
Tabel 2.12 Matriks jarak kedua average linkage ... 29
Tabel 2.13 Matriks jarak ketiga average linkage ... 29
Tabel 2.14 Matriks jarak pertama complete linkage... 31
Tabel 2.15 Matriks jarak kedua complete linkage ... 31
Tabel 2.16 Matriks jarak ketiga complete linkage... 32
Tabel 3.1 Data sampel perhitungan jarak ... 42
Tabel 3.2 Hasil euclidean distance dari data sampel ... 42
Tabel 3.3 Contoh cluster hasil cut-off 3 single linkage ... 44
Tabel 3.4 Contoh cluster hasil cut-off 3 average linkage... 44
Tabel 3.5 Contoh cluster hasil cut-off 3 complete linkage ... 45
Tabel 4.1 Jenjang kelas dan jumlah seminaris ... 51
Tabel 4.2 Mata pelajaran ... 51
Tabel 4.3 Analisis – Hasil single linkage ... 67
Tabel 4.4 Analisis – Jumlah obyek, SSE terkecil single linkage ... 68
Tabel 4.5 Analisis – Hasil average linkage ... 69
Tabel 4.6 Analisis – Jumlah obyek, clustering 4 average linkage ... 70
xvi
Tabel 4.8 Analisis – Jumlah obyek, clustering 5 complete linkage ... 72
Tabel 4.9 Analisis – Jumlah obyek, clustering 6 complete linkage ... 73
Tabel 4.10 Analisis – Hasil analisis SSE terkecil ... 74
Tabel 4.11 Analisis – Hasil analisis keseimbangan dendrogram ... 74
1
1
BAB I
PENDAHULUAN
1.1 Latar Belakang
Kaum Beriman Kristiani ialah mereka yang karena melalui baptis
diinkorporasi pada Kristus. Melalui baptis, mereka dibentuk menjadi umat Allah
yang dikenal dengan Gereja. Gereja yang berada di dunia ini dibentuk dan ditata
sebagai masyarakat, berada di dalam Gereja Katolik yang dipimpin oleh pengganti
Petrus (Paus) dan para Uskup dalam persekutuan dengannya.1 Menyangkut Gereja
universal, tugas untuk memaklumkan Injil dipercayakan terutama kepada Paus dan
kepada Kolegium Para Uskup.2 Sejauh menyangkut Gereja partikular yang
dipercayakan, tugas ini dilaksanakan oleh masing-masing Uskup.3 Uskup dibantu
oleh imam dalam melaksanakan tugasnya. Sebagai rekan kerja Uskup, dalam
persekutuan dengannya dan presbiteriumnya4 imam berkewajiban mengabdi umat
Allah dalam pelayanan sabda dan menguduskan umat Allah melalui tujuh sakramen
dalam Gereja Katolik. 5
1Kanon 204, pasal 2, “Kitab Hukum Kanonik (Codex Iuris Canonici)”, Edisi Resmi Bahasa
Indonesia, Grafika Mardi Yuana, 2006, hal. 80.
2 Kanon 756, pasal 1, hal. 221. 3 Kanon 756, pasal 2, hal. 221.
4 Presbiterium dalam Kamus Besar Bahasa Indonesia (KBBI) berarti orang tua-tua suatu
jemaat; para imam.
5 Sakramen-sakramen yang dimaksud adalah “Sakramen-sakramen Perjanjian Baru, yang
Karena pentingnya tugas yang diemban seorang imam, umat Katolik sangat
membutuhkan kehadiran para imam. Namun demikian, sejarah membuktikan
bahwa ada banyak calon imam atau seminaris6 di Indonesia, tetapi biasanya hanya
sedikit yang sampai pada jenjang imamat. Pembinaan dan pendidikan di seminari
sering berjalan ketat dan selektif. Pendidikan dengan seleksi yang demikian sangat
diperlukan, namun sekaligus mengakibatkan banyaknya seminaris yang tidak
melanjutkan pendidikan ke seminari tinggi, sehingga sedikit pula yang menjadi
imam.
Seseorang harus memenuhi berbagai syarat untuk menjadi seorang imam
Gereja Katolik. Ia wajib mengikuti serangkaian pembinaan. Seminari menengah7
menjadi tempat formal pertama untuk pembinaan seseorang dalam proses untuk
menjadi seorang imam. Di seminari, secara khusus diselenggarakan pendidikan
keagamaan dan pendidikan humaniora serta ilmu pengetahuan ilmiah.8
Kemampuan intelektual (scientia) menjadi salah satu syarat penting. Selain itu,
kesehatan (sanitas) yang baik juga menjadi syarat yang harus dimiliki oleh seorang
calon imam. Selain itu, yang penting harus dimiliki adalah kesucian hidup
(sanctitas). Berbagai macam potensi baik yang ada pada setiap seminaris
6 Seminaris adalah siswa si seminari sebagai seorang calon imam/paderi. (Kamus Besar Bahasa Indonesia. Available at: http://kbbi.web.id/seminaris [Diakses tanggal 05 Juni 2014]).
7 Kata seminari berasal dari kata Latin “semen”, artinya adalah “benih” atau “bibit”. Lebih
lanjut, seminari juga dari “seminarium” yang berarti “tempat pembibitan” atau “tempat pesemaian benih-benih”. Maka, seminari berarti: sebuah tempat (tepatnya sebuah sekolah yang bergabung dengan asrama: tempat belajar dan tempat tinggal), di mana benih-benih panggilan imam yang terdapat dalam diri anak-anak muda, disemaikan, secara khusus, untuk jangka waktu tertentu, dengan tatacara hidup dan pelajaran yang khas, dengan dukungan bantuan para staf pengajar dan pembina, biasanya terdiri dari para imam dan biarawan. “Seminaris” menunjuk pada para siswa yang belajar di seminari.
dikembangkan guna menunjang terpenuhinya syarat-syarat tersebut. Kesemua
syarat tersebut harus terintegrasi secara utuh dalam pribadi calon imam.
Dibutuhkan pengamatan dan penilaian untuk mengetahui apakah
syarat-syarat tersebut terpenuhi dalam diri seorang calon imam. Rektor seminari dan para
pendamping yang bertugas di seminari perlu mengenal setiap seminaris sejak awal
masuk seminari. Pengenalan awal ini sangat berguna agar para seminaris dapat
mengikuti pembinaan dengan baik. Selama perjalanan pembinaan di seminari,
setiap seminaris juga perlu dievaluasi secara berkala, sejauh mana syarat-syarat
untuk menjadi seorang imam sudah terintegrasi di dalam dirinya. Pada saat
evaluasi, para pembina, berdasarkan pengamatan mereka, memaparkan penilaian
terhadap setiap seminaris binaan mereka. Apabila ditemukan seminaris yang dinilai
kurang memenuhi syarat, pada waktu evaluasi tersebut akan dibicarakan secara
khusus. Rektor seminari berdasarkan pertimbangan para pembina dan juga karena
pengenalannya sendiri atas seminaris, memberikan putusan apakah seminaris yang
bersangkutan akan dikeluarkan atau perlu mendapat pembinaan khusus. Dengan
demikian, kebijakan yang tepat dalam proses dapat diupayakan secara obyektif.
Tujuan kebijakan dalam pembinaan tersebut adalah supaya banyak seminaris yang
siap untuk menjadi imam.
Secara umum, pengenalan terhadap seminaris dilakukan secara manual dan
bahkan terkadang berdasar intuisi para pembina. Metode ini terkadang sangat
menyulitkan mengingat banyaknya aspek yang harus dinilai dari setiap seminaris,
ditambah lagi kalau jumlah seminarisnya banyak. Obyektivitas penilaian dapat
sistem analisis terhadap data yang telah dimiliki oleh para pembina. Dengan
demikian akan diketahui keakuratan penilaian tersebut berhadapan dengan kriteria
penilaian yang harus tercapai. Sebuah sistem analisa membutuhkan data yang telah
diolah dengan baik. Dibutuhkan metode yang dapat mendukung proses analisis
tersebut. Dengan mempertimbangkan jumlah data seminaris dan sistem penilaian
di seminari, maka diperlukan adanya analisa pengelompokan data (cluster
analysis).
Ada berbagai metode pengelompokan data, di antaranya adalah metode
k-means (k-k-means clustering) dan metode hirarki (hierarchical clustering). Metode
pengelompokan data baik k-means maupun hirarki telah banyak diterapkan dalam
berbagai tulisan. Sebagai contoh, metode k-means dapat digunakan untuk
pengelompokan hasil evaluasi pembelajaran.9 Metode yang sama juga dapat
digunakan untuk memprediksi nilai mahasiswa.10 Untuk menilai tingkat
kedisiplinan juga dapat menggunakan metode k-means ini.11 Seperti k-means,
metode pengelompokan hirarki juga telah digunakan sebagai metode di beberapa
tulisan. Sebagai contoh, pengelompokan hirarki juga dapat digunakan sebagai
mesin pencari gambar geometri bangunan datar.12 Selain itu ada juga yang
menggunakannya untuk mengidentifikasi penyakit hepatitis.13 Bukan hanya di
9Hertartik Clarasita Devy, “Pengelompokan Hasil Evaluasi Pembelajaran Menggunakan
Metode Klastering K-Means Studi Kasus: di Fakultas Sains dan Teknologi Universitas Sanata Dharma”, Skripsi, USD.
10 Tri Rahayu Widiarti, “Implementasi Algoritma K-Means untuk Memprediksi Nilai
Mahasiswa Studi Kasus: Mahasiswa Teknik Informatika USD”, Skripsi, USD.
11 Ihya Ulumuddin, “Penggunaan Algoritma K-Means Untuk Menentukan Nilai
Kedisiplinan Siswa”, Skripsi, Universitas Islam Negeri, 2012.
12 Astriana Krisma Risky, “Mesin Pencari Gambar Geometri Bangun Datar Menggunakan
Agglomerattive Hierarchical Clustering”, Skripsi, USD.
13 Christina Wienda Asrini, “Identifikasi Penyakit Hepatitis dengan Pendekatan
bidang teknik dan kesehatan, metode hierarchical juga digunakan pada bidang
sosial ekonomi. Pengelompokan hirarki digunakan juga untuk penaksiran proporsi
kemiskinan14. Beberapa contoh dalam tulisan ini menunjukkan bahwa metode
pengelompokan data dengan k-means dan hirarki dapat digunakan di berbagai
bidang penelitian. Oleh sebab itu kedua metode tersebut kiranya juga mumpuni
untuk digunakan pada pengenalan data dan akhirnya kemudian pembentukan sistem
rekomendasi bagi rektor dan para pembina di seminari.
Berkaitan dengan data yang dibutuhkan, Seminari Menengah St. Petrus
Canisius, Mertoyudan, Magelang menjadi pilihan penulis. Seminari ini telah berdiri
selama lebih kurang 102 tahun. Di seminari ini ada data historis seminaris yang
kiranya dapat diolah. Berdasarkan analisis yang dibuat akan diketahui keberhasilan
atau kegagalan seorang seminaris, atau kebutuhan pembinaan lebih lanjut terutama
dari sisi intelektualnya. Hal ini akan sangat berguna bagi rektor dan proses
pembinaan di seminari. Dari pengelompokan data tersebut akan diketahui kriteria
para seminaris yang berhasil untuk melanjutkan ke jenjang seminari tinggi. Selain
yang berhasil, dapat juga diketahui kriteria seminaris yang akan gagal, atau
kemungkinan yang memerlukan pembinaan lebih lanjut.
Sisi intelektual (scientia) menjadi fokus utama dalam penelitian ini. Hal ini
dikarenakan dalam pembinaan seminaris, sisi intelektual mendapat porsi yang lebih
banyak. Selain itu, berkaitan juga dengan kapasitas ketersediaan data yang ada di
Seminari Menengah St. Petrus Canisius, Mertoyudan, Magelang. Potensi-potensi
14Yuridunis Saidah, “Penaksiran Proporsi Kemiskinan di Kabupaten Gersik Menggunakan
scientia yang ada pada seminaris dapat diketahui dan dikembangkan. Dengan
demikian, upaya ini dapat membantu pembinaan dan pengambilan keputusan bagi
keberhasilan para seminaris. Dengan memperhatikan hal-hal tersebut, maka tulisan
ini diberi judul “Pengenalan Pola Keberhasilan Seminaris Menggunakan
Agglomerative Hierarchical Clustering, Studi Kasus atas Keberhasilan Studi para
Seminaris Di Seminari Menengah St. Petrus Canisius, Mertoyudan, Magelang”.
1.2 Rumusan Masalah
Dari latar belakang yang telah dipaparkan, dapat dikemukakan perumusan
masalah dalam tulisan ini. Rumusan masalah tersebut adalah: sejauh mana metode
agglomerative hierarchical clustering mampu mengelompokkan keberhasilan studi
para seminaris dengan baik. Bertolak dari kriteria scientia pengelompokan tersebut
mencoba melihat kelompok seminaris manakah yang berhasil untuk melanjutkan
ke jenjang seminari tinggi, atau yang gagal, serta kelompok mana yang mungkin
membutuhkan pembinaan khusus.
1.3 Tujuan
Tujuan penulisan ini adalah mendapatkan hasil analisis pengelompokan atas
nilai scientia yang diperoleh para seminaris. Kriteria pengelompokan yang
diharapkan adalah kriteria seminaris yang berhasil menyelesaikan studinya, yang
gagal, dan seminaris yang mungkin membutuhkan pembinaan khusus. Lebih jauh
seminaris yang menyelesaikan studinya. Pengelompokan ini kiranya akan sangat
berguna dikemudian hari untuk membentuk suatu sistem rekomendasi.
1.4 Batasan Masalah
Supaya tulisan ini memiliki titik fokus, maka perlu diberikan
batasan-batasan masalah yang akan diteliti dan dibahas dalam tulisan ini.
1. Variabel respon dalam tulisan ini adalah penilaian terhadap seminaris oleh para
pembina seminari bagi seminaris dengan melihat perkembangan intelektual
(scientia) yang ada di dalam diri seminaris tersebut.
2. Data penilaian terhadap kriteria potensi intelektual formal yang ada di dalam
diri setiap seminaris di Seminari Menengah St. Petrus Canisius, Mertoyudan,
Magelang guna memenuhi syarat keberhasilan scientia seminaris adalah
variabel-variabel pendukung (auxiliary variable) untuk metode agglomerative
8
2
BAB II
LANDASAN TEORI
Pembahasan atas suatu topik penelitian tentu membutuhkan landasan teori
yang tepat. Agar sebuah penelitian dapat berhasil dibutuhkan referensi sebagai
landasan teorinya. Landasan teori tersebut berisi tentang Seminari Menengah St.
Petrus Canisius, Mertoyudan, Magelang sebagai tempat sumber data penelitian,
Principal Component Analysis untuk pemilihan variabel dari data set yang ada, dan Agglomerative Hierarchical Clustering sebagai algoritma yang digunakan untuk
pengelompokan data dari variabel yang telah dipilih. Selanjutnya pada bagian akhir
bab ini akan dipaparkan tentang Uji Akurasi Data.
2.1 Seminari Menengah St. Petrus Canisius
Setiap calon imam Gereja Katolik, berkewajiban untuk mengikuti
serangkaian pembinaan. Seminari menengah menjadi tempat formal pertama
pembinaan seseorang dalam proses menjadi seorang imam. Di seminari,
diselenggarakan pendidikan keagamaan khusus bersama dengan pendidikan
humaniora dan ilmiah dalam konteks pembinaan panggilan.15 Dalam Gereja
Katolik, seminari-seminari yang didirikan secara legitim, menurut hukum,
mempunyai status badan hukum dalam Gereja.16 Sebagai tempat pembinaan,
seminari dikepalai oleh seorang rektor. Selain rektor, ada juga wakil rektor jika
diperlukan, ekonom, dan para pengajar yang memberikan berbagai pelajaran yang
terkoordinasi secara tepat.17 Untuk pembinaan spiritual, di seminari ada seorang
direktur spiritual18 dan bapa pengakuan19.
Di Indonesia, secara umum dikenal seminari menengah untuk tingkat
Sekolah Menengah Atas (SMA).20 Di seminari menengah ini, setiap calon imam
dibina dan dididik, baik dari sisi intelektual, mental, sosial, dan spiritualnya.
Kriteria tertentu ditetapkan guna mengukur keberhasilan dan kelayakan seorang
seminaris untuk melanjutkan ke jenjang berikutnya. Setiap pembina seminari
berhak memberikan penilaian, melihat dan mengamati perkembangan seminaris
binaannya. Penilaian diberikan berdasarkan kriteria yang ada. Catatan-catatan
khusus dibuat sebagai bahan pertimbangan kelayakan perkembangan seorang
seminaris. Pada saat yang telah ditentukan bersama, ditetapkan apakah seorang
seminaris layak atau tidak untuk melanjutkan ke jenjang berikutnya, atau
diperlukan pembinaan khusus.
Salah satu seminari menengah yang ada di Indonesia adalah Seminari
Menengah St. Petrus Canisius, Mertoyudan – Magelang (sering dikenal dengan
nama Seminari Menengah Mertoyudan). Seminari ini telah didirikan sejak 30 Mei
17 Kanon 239, pasal 1, KHK, hal. 88. 18 Kanon 239, pasal 2, KHK, hal. 88. 19 Kanon 240, pasal 1, KHK, hal. 88.
20 Seminari menengah dapat digolongkan menjadi tiga, yaitu seminari menengah tingkat
1912 (sesuai dengan izin resmi dari tahta suci Roma untuk memulai lembaga
pendidikan calon imam di Indonesia).
Seminari Menengah Mertoyudan memiliki visi untuk menjadi komunitas
pendidikan calon imam tingkat menengah yang handal dan berkompeten dalam
mengembangkan sanctitas (kesucian), sanitas (kesehatan), dan scientia
(pengetahuan) ke arah imamat yang tanggap terhadap kebutuhan zaman. Seminari
Menengah Mertoyudan bertujuan untuk mendampingi seminaris dalam mengolah
hidup rohani, panggilan, kegerejaan dan kemasyarakatan, agar mampu mengambil
keputusan sesuai dengan panggilan hidupnya. Pendampingan bagi seminaris juga
tertuju pada mengembangkan diri menjadi pribadi yang sehat secara fisik maupun
psikis, dewasa secara manusiawi maupun kristiani, sehingga seminaris memiliki
kesiapsiagaan untuk menanggapi panggilan Tuhan.
Seminari Menengah Mertoyudan melaksanakan kegiatan pendidikan dan
pembelajaran secara efektif dan efisien agar kompetensi seminaris berkembang
secara optimal sehingga seminaris memiliki bekal yang memadai untuk
melanjutkan ke jenjang pendidikan imamat berikutnya. Bidang pendidikan ini
mendapat tekanan yang sangat penting di seminari ini. Data dari hasil perolehan
nilai dalam bidang pendidikan ini yang akan digunakan sebagai bahan penelitian
tulisan ini.
2.2 Principal Component Analysis
Sebelum melangkah ke proses dengan menggunakan agglomerative
extraction21 dengan menggunakan principal component analysis (PCA). PCA menghasilkan kombinasi linear dari variabel-variabel yang diperoleh dari
mereduksi variabel asli yang banyak. Di dalam proses mereduksi, diperoleh
variabel yang lebih sedikit. Namun demikian variabel-variabel yang dihasilkan
masih mengandung informasi yang termuat dalam data asli22.
Dari sisi teknis, PCA dapat dimengerti sebagai suatu teknik mereduksi data
multivariat (multivariable) yang mengubah (mentranformasi) suatu matriks data asli
menjadi kombinasi linier yang lebih sedikit, tetapi menyerap sebagian besar jumlah
varian dari data asli tersebut. Atau secara singkat dapat dikatakan bahwa tujuan PCA
adalah menjelaskan sebanyak mungkin jumlah varian data asli dengan menggunakan
komponen utama (principal component) atau vektor sesedikit mungkin.
Untuk dapat menggunakan PCA dengan tepat, diperlukan pengetahuan
dasar tentang perhitungan matematika. Hal ini dibutuhkan karena dalam
perhitungan, PCA berkaitan dengan statistik dan aljabar matriks. Berikut ini adalah
algoritma dalam penggunaan PCA23:
1. Matriks X adalah hasil pengurangan rata-rata dari setiap dimensi data pada
matriks data.
2. Matriks adalah covariance matrix dari matriks X.
3. Hitung eigenvector dan eigenvalue dari .
21 Ekstraksi fitur adalah proses pembentukan satu set fitur baru dari fitur asli melalui
beberapa pemetaan fungsional. Tujuan ekstraksi fitur ini adalah untuk mencari satu set fitur baru yang minimum melalui beberapa transformasi menurut beberapa ukuran kinerja (Nong Ye, (Ed), “The Handbook of Data Mining”, Lawrence Erlbaum Associates, New Jersey, 2003, hal. 411).
22 Ibid. hal. 412.
23 Lindsay I Smith, “A Tutorial on Principal Component Analysis”. Available at:
4. Pilih component dan bentuk vector feature dan principal component dari
eigenvector yang memiliki eigenvalue paling besar diambil.
5. Menurunkan data set yang baru.
Sebagai contoh, terdapat data seperti pada tabel 2.1 di bawah ini. Data teks
tersebut akan diproses dengan menggunakan PCA.
Tabel 2.1 Contoh data untuk PCA Data X Y
a 87 89 b 84 76 c 83 70 d 80 74 e 82 83
Data yang sudah dipersiapkan ini akan dihitung dengan mengurangi setiap
data dengan rata-ratanya. Ini dilakukan karena PCA memerlukan masukan data
yang mempunyai sifat zero-mean pada setiap fiturnya. Set data X dengan dimensi
MxN, dimana M adalah jumlah data dan N adalah jumlah fitur, akan tampak sebagai
berikut:
� = [
… … … … ]
Untuk fitur ke- , semua nilai pada kolom tersebut dikurangi rata-ratanya. Rumus
yang digunakan adalah24:
′ = − ̅ (2.1)
24 Eko Prasetyo, “Data Mining: Konsep Dan Aplikasi Menggunakan Matlab”, Andi,
Keterangan:
= , , … , � dan adalah kolom ke- .
Rumus ini menerangkan bahwa ′ pada adalah hasil dari pengurangan
data dengan rata-rata data di setiap kolom ( ̅ ). Dengan cara ini, total nilai
baik itu kolom maupun adalah 0. Hasil yang didapat dari contoh data pada
langkah 1 di atas (algoritma PCA) adalah sebagai berikut:
Tabel 2.2 Zero-mean untuk PCA Data X Y
a 3.8 10.6 b 0.8 -2.4 c -0.2 -8.4 d -3.2 -4.4 e -1.2 4.6
Data dari hasil perhitungan zero-mean (matriks X) dihitung untuk
mendapatkan covariance, yaitu . Rumus yang digunakan adalah25:
= ��� (2.2)
Keterangan:
: covariance matrix
� : jumlah data
�� : transpose matriks �
Kembali pada contoh data yang telah dihitung di atas, apabila dihitung
covariance matrix-nya maka data hasilnya adalah sebagai berikut:
Tabel 2.3 Covariance untuk PCA
X Y
X 5.36 9.72 Y 9.72 45.84
Matriks memiliki ciri-ciri sebagai berikut26:
1. adalah matriks simetris bujur sangkar yang berukuran NxN.
2. Bagian diagonal utama (dari kiri atas ke kanan bawah) adalah nilai varian
masing-masing fitur sesuai indeks kolomnya.
3. Bagian selain diagonal utama adalah kovarian di antara pasangan dua fitur yang
bersesuaian.
Dengan demikian, matriks mengandung kovarian di antara semua
pasangan yang mungkin dari fitur data matriks �. Nilai kovarian merefleksikan
noise dan redundansi pada fitur27:
1. Dalam diagonal utama diasumsi bahwa nilai tinggi berkorelasi dengan struktur
data yang penting.
2. Selain diagonal utama, nilai jarak yang besar menandakan redundansi yang tinggi.
Mengingat kembali tujuan PCA adalah (1) untuk meminimalkan redudansi
yang diukur oleh nilai jarak dari kovarian, dan (2) memaksimalkan nilai pemetaan
keluaran yang diukur dengan varian, maka jika � adalah matriks data hasil
pemetaan dan adalah matriks kovarian dari �, yang diharapkan dari PCA
adalah28:
26 Ibid.
1. Semua elemen selain diagonal utama dalam harus nol. harus berbentuk
matriks diagonal. Hal ini juga berarti bahwa � adalah matriks terdekorelasi.
2. Peletakan dimensi dalam � dari kiri ke kanan diturunkan menurun
(descending).
Harapan � dapat dicapai dengan menghitung eigenvector dan eigenvalue dari
covariance (matriks ). Yang dimaksud dengan eigenvalue adalah sebuah bilangan skalar dan eigenvector adalah sebuah matriks yang keduanya dapat
mendefinisikan matriks A. Jika A adalah matriks m x m, maka setiap skalar λ
memenuhi persamaan:
= (2.3)
untuk vektor ≠ , disebut eigenvalue dari A. Vektor x disebut eigenvector
dari A yang berhubungan dengan eigenvalue , dan persamaan (2.3) diatas disebut
persamaan eigenvalue-eigenvector A. Kadang-kadang eigenvalue dan eigenvector
juga dinyatakan sebagai (latents root and vectors) atau karekteristik roots dan
vektor. Persamaan (2.3) dapat juga dituliskan sebagai
− � = (2.4)
Setiap nilai eigenvalue harus memenuhi persamaan determinan,
| − �| = (2.5)
yang dikenal sebagai persamaan karakteristik A.
Kembali pada data covariance yang telah ditemukan dari contoh di atas
maka dapat di cari eugenvalue-nya. Hasil covariance pada tabel 2.4 dianggap
sebagai matriks A.
Karakteristik determinan dari matriks A adalah:
| − �| = | . −. . − |.
Karena persamaan karakteristik | − �| = maka:
∴ . − . − − . ∗ . =
∴ . − . − . + − . =
∴ . − . + − . =
∴ − . − . =
Sampai pada tahap ini kemudian dapat dicari nilai eigenvalue-nya dari nilai
. Namun dengan perhitungan manual tentu akan mengalami kesulitan. Dalam
tulisan ini akan digunakan program Matlab sebagai alat bantu perhitungan. Dengan
menggunakan Matlab maka ditemukan eigenvector dan eigenvalue dari data pada
tabel 3 di atas, yaitu:
Dari perhitungan dengan menggunakan Matlab ini diketahui:
� � = [− .. .. ]
� = [ . . ]
Sampai pada tahap ini telah ditemukan eigenvalue dan eigenvector.
Selanjutnya dapat dilakukan feature vector. Pembentukan feature vector-nya
adalah dengan mengambil diagonal utama dari � dengan urutan dari
besar ke kecil (descending). Kemudian, nilai eigenvector disusun mengikuti indeks
eigenvalue yang telah di-sort secara descending. Hasilnya adalah feature vector,
yaitu [ .. ].
Pada tahap terakhir, berdasarkan feature vector yang telah didapat,
diturunkan data set yang baru. Caranya adalah feature vector tersebut dikalikan
dengan data matriks � (Tabel 2.3 Zero-mean untuk PCA).
� = � � � � (2.6)
Hasil data set yang baru adalah sebagai berikut:
Tabel 2.4 Data final untuk contoh PCA Data Z
a 11.1786 b -2.1624 c -8.2344 d -5.0004 e 4.2186
2.3 Agglomerative Hierarchical Clustering
Seminari Menegah Mertoyudan adalah tempat penelitian ini. Dengan
seminari tersebut, tulisan ini dibuat. Data perolehan dari seminari menjadi sumber
tulisan ini. Data yang diperoleh diolah terlebih dahulu supaya dapat dipergunakan
dengan baik. Berkaitan dengan pengolahan data, di dalam data mining ada beberapa
metode yang dapat digunakan. Satu di antara metode yang ada adalah clustering.
Metode clustering ini yang akan digunakan dalam pengolahan data tersebut.
Clustering dapat dimengerti sebagai metode yang digunakan untuk
pengelompokan obyek yang sama menjadi satu kelompok (cluster), sedangkan
obyek yang berbeda di cluster yang berbeda pula. Cluster bertujuan untuk
menemukan kemiripan (similarity) antara data. Kemiripan yang dimaksud
berkaitan dengan karakteristik yang ditemukan di dalam data tersebut. Dengan
demikian akan terbentuk kelompok-kelompok data di mana masing-masing
kelompok mengandung data yang memiliki kedekatan karakteristik.29
Dapat dikatakan ada dua jenis pendekatan dengan menggunakan clustering,
yaitu partition clustering dan hierarchical clustering. Dengan menggunakan
pendekatan partition clustering, pertama ditentukan lebih dulu jumlah cluster,
kemudian data dipisahkan ke dalam cluster-cluster tersebut berdasarkan
kemiripannya. Algoritma yang menggunakan pendekatan partition clustering
contohnya adalah k-means.
Sejalan dengan partition clustering, hierarchical clustering juga membuat
pengelompokkan data. Namun, sesuai dengan namanya, pendekatan hierarchical
clustering, pengelompokan data dibuat berdasarkan tingkatannya. Dengan cara ini
29 Jiawei Han, Micheline Kamber, “Data mining Concepts and Techniques”, Morgan
dapat dihasilkan suatu kumpulan partisi yang berurutan dengan visualisasi
dendogram. Obyek dengan tingkat similarity atau kemiripan yang tinggi akan
menjadi satu kelompok, begitu juga dengan data-data lain yang memiliki tingkat
kemiripan tinggi akan dijadikan satu kelompok. Secara singkat dapat dikatakan
bahwa metode hierarchical clustering bekerja untuk mengelompokkan obyek data
ke dalam struktur cluster berdasarkan tingkat kemiripannya. Pengelompokan ini
bertujuan untuk menentukan kemiripan antar data yang memiliki karakteristik yang
serupa. Sehingga, dengan menggunakan hierarchical clustering data yang memiliki
kemiripan berada pada hierarki yang sama, yang berbeda pada hierarki yang
berbeda pula.
Metode hierarchical clustering terbagi dalam dua bagian, yaitu
agglomerative (bottom-up) dan divisive (top-down). Namun yang dipilih dalam
penelitian ini adalah pendekatan agglomerative hierarchical clustering. Pemilihan
ini berdasarkan pada; pertama algoritma penggunaan hierarchical clustering
tampaknya sederhana. Kedua, pengelompokan data dapat dilihat dengan
menggunakan dendogram. Ketiga, penentuan jumlah cluster di awal tidak
diperlukan. Selain itu, alasan yang terakhir adalah karena agglomerative
hierarchical clustering menggunakan desain bottom-up sehingga pengelompokkan
data dimulai dari yang kecil ke arah pengelompokan yang besar. Desain ini sangat
membantu untuk proses pengenalan similaritas dan pengelompokan data.
Metode agglomerative hierarchical clustering (AHC) menggunakan
strategi desain bottom-up yang dimulai dengan meletakkan setiap obyek sebagai
cluster – atomic cluster tersebut menjadi cluster yang lebih besar dan lebih besar lagi sampai akhirnya semua obyek menyatu dalam sebuah cluster atau proses
berhenti jika telah mencapai batasan kondisi tertentu. Dengan pengertian lain,
agglomerative melakukan proses clustering dari n cluster menjadi satu kesatuan cluster. Dengan pengertian ini, setiap data pada awalnya dapat dianggap sebagai
sebuah cluster (atomic cluster). Ini berarti jika terdapat jumlah data sebanyak n, dan
k dianggap sebagai jumlah cluster, maka besarnya n = k. Pada langkah selanjutnya,
dihitung jarak antar cluster-nya.
Sebelum pembentukan sebuah cluster perlu dihitung jarak kemiripan antara
obyek data. Ada beberapa cara untuk mengetahui kemiripan data. Satu di antara
cara yang ada adalah similarity matrix dengan perhitungan euclidean distance.
Euclidean distance didevinisikan sebagai berikut:
, = √ | − | + | − | + | − | + … + | − |
(2.6)
atau dapat disingkat dengan30:
, = √∑ −
�
=
(2.7)
Keterangan:
adalah jumlah atribut atau dimensi
dan adalah data
30
Dalam hierarchical clustering ada beberapa metode untuk perhitungan jarak
antar cluster, di antaranya adalah single linkage, average linkage, dan complete
linkage.31 Berikut ini adalah pendefinisian perhitungan jarak-jarak tersebut. 1. Single Linkage
Perhitungan dengan teknik single linkage adalah untuk mencari jarak
minimum antar cluster. Dengan single linkage jarak antara dua cluster
didefinisikan sebagai berikut:
, = min� , ∈ {� , }
(2.8)
Keterangan:
{� , } adalah jarak antara data dan y dari masing-masing cluster A dan B.
2. Average Linkage
Untuk menghitung jarak rata-rata antar cluster digunakan teknik average
linkage. Teknik ini didefinisikan sebagai:
, = ∑ ∑ �{ , }
∈ ∈
(2.9)
Keterangan:
dan adalah banyaknya data dalam cluster A dan B.
3. Complete Linkage
31 Eko Prasetyo, “Data Mining: Pengolahan Data Menjadi Informasi Menggunakan
Dengan menggunakan teknik complete linkage akan diketahui jarak
maksimum antar cluster, didefinisikan sebagai berikut:
, = max∈ , ∈ {� , }
(2.10)
Keterangan:
{� , } adalah jarak antara data dan y dari masing-masing cluster A dan B.
Dengan menggunakan formula perhitungan-perhitungan di atas akan
diketahui jarak antar cluster. Jarak minimum antar data yang ditemukan pertama akan
menjadi cluster yang pertama pula. Perhitungan selanjutnya juga akan dilakukan
untuk pembentukan cluster selanjutnya. Masing-masing perhitungan dapat
menghasilkan dendrogram. Pada penelitian ini yang akan digunakan adalah single
linkage.
J
a
r
a
k
0 1 2
0,5 1,5
a b c e d f
D a t a
Gambar 2.2 Dendrogram
Dari penjelasan yang telah dipaparkan di atas, maka secara singkat AHC
dapat dimengerti sebagai metode yang dimulai dengan setiap n cluster yang
membentuk cluster masing-masing. Kemudian dua cluster dengan jarak terdekat
sudah ada dan membentuk cluster baru.Hal ini tetap memperhitungkan jarak
kedekatan antar cluster. Proses akan berulang hingga akhirnya terbentuk satu
cluster yang memuat keseluruhan cluster.
a b
c d
e f
a b
c d
e
Gambar 2.3 Cluster hasil AHC
Penggunaan algoritma agglomerative hierarchical clustering untuk
mengelompokkan n obyek data adalah sebagai berikut32 :
1. Hitung matriks jarak antar data.
2. Ulangi langkah 3 dan 4 hingga hanya satu kelompok yang tersisa.
3. Gabungkan dua kelompok terdekat berdasarkan parameter kedekatan yang
ditentukan.
4. Ubah matriks jarak antar data untuk merepresentasikan kedekatan di antara
kelompok baru dan kelompok yang masih tersisa.
5. Selesai.
32 Pang-Ning Tan, Michael Steinbach, Vipin Kumar, “Introduction to Data Mining”,
Sebagai contoh, terdapat beberapa data seperti dapat dilihat pada tabel 2.6 di
bawah ini. Data ini akan dibentuk dengan menggunakan AHC dengan perhitungan
kemiripan obyek data menggunakan euclidean distance dan perhitungan jarak cluster
dengan single linkage, average linkage, dan complate linkage.
Tabel 2.5 Contoh data perhitungan AHC Data X Y
a 1 1 b 4 1 c 1 2 d 3 4 e 5 4
Dengan menggunakan euclidean distance setiap obyek data tersebut
dihitung similaritasnya sebagai berikut:
, = √ | − | + | − | =
, = √ | − | + | − | =
, = √ | − | + | − | = ,
, = √ | − | + | − | =
, = √ | − | + | − | = ,
, = √ | − | + | − | = ,
, = √ | − | + | − | = ,
, = √ | − | + | − | = ,
, = √ | − | + | − | = ,
Berdasarkan perhitungan tersebut dapat dibentuk similarity matrix seperti
seperti pada tabel 2.7. Berdasarkan perhitungan euclidean distance, similarity
matrix ini bersifat positif, simetris, dan triangle inequality.
Tabel 2.6 Similarity matrix
a b c d e
a 0 3 1 3.61 5
b 3 0 3.16 3.16 3.16
c 1 3.16 0 2.83 4.47
d 3.61 3.16 2.83 0 2
e 5 3.16 4.47 2 0
Karena similarity matrix ini bersifat simetris, matriks ini dapat juga
dituliskan seperti pada tabel 2.8 berikut dan menjadi matriks jarak.
Tabel 2.7 Matriks jarak
a b c d e
a 0 3 1 3.61 5
b 0 3.16 3.16 3.16
c 0 2.83 4.47
d 0 2
e 0
1. Single Linkage
Selanjutnya dari tabel 2.8 dapat dilihat jarak obyek data yang paling dekat,
yaitu a dan c, berjarak 1. Kedua obyek data ini menjadi satu cluster pertama.
Kemudian untuk menemukan cluster berikutnya dicari jarak antar obyek data dari
sisa yang ada (b, d, e) dan berada paling dekat dengan cluster (ac). Untuk pencarian
jarak ini pertama digunakan single linkage.
= min{ , } = min{ . , . } = .
= min{ , } = min{ , . } = .
Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian
dengan cluster a dan c dihapus dan ditambahkan baris dan kolom untuk cluster (ac),
sehingga matriks jarak menjadi seperti berikut ini:
Tabel 2.8 Matriks jarak pertama single linkage
ac b d e
ac 0 3 2.83 4.47
b 0 3.16 3.16
d 0 2
e 0
Berdasar pada matriks jarak pertama (tabel 2.9), dipilih kembali jarak
terdekat antar cluster. Ditemukan cluster (de) yang paling dekat, yaitu bernilai 2.
Kemudian dihitung jarak dengan cluster yang tersisa, (ac), dan b.
= min{ , , , } = min{ . , . , , . } = ,
= min{ , } = min{ . , . } = .
Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian
dengan cluster d dan e dihapus dan ditambahkan baris dan kolom untuk cluster (de),
sehingga matriks jarak menjadi seperti berikut ini:
Tabel 2.9 Matriks jarak kedua single linkage
ac b de
ac 0 3 2.83
b 0 3.16
Berdasar pada matriks jarak kedua (tabel 2.10), dipilih kembali jarak
terdekat antar cluster. Ditemukan cluster (acde) yang paling dekat, yaitu bernilai
2.83. Kemudian dihitung jarak dengan cluster yang tersisa, yaitu b.
= min{ , , , } = min{ , , , . , . } =
Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian
dengan cluster (ac) dan (de) dihapus dan ditambahkan baris dan kolom untuk
cluster (acde), sehingga matriks jarak menjadi seperti berikut ini:
Tabel 2.10 Matriks jarak ketiga single linkage acde b
acde 0 3
b 0
Dengan demikian proses iterasi perhitungan jarak untuk pembentukan
cluster sudah selesai karena cluster sudah tersisa satu. Jadi cluster (acde) dan (b)
digabung menjadi satu, yaitu cluster (acdeb) dengan jarak terdekat adalah 3. Berikut
ini adalah hasil dendrogram hasil AHC dengan single linkage:
2. Average Linkage
Menggunakan average linkage akan dicari jarak antar cluster dengan
menghitung nilai rata-rata pasangan setiap cluster. Dengan tetap menggunakan
tabel matriks jarak (tabel 2.8), perhitungan average linkage ini dilakukan. Pada
awal perhitungan, cluster (ac) tetap digunakan sebagai cluster pertama karena jarak
antar obyek yang paling dekat. Berikut ini akan dilakukan perhitungan jarak antara
cluster (ac) dengan b, d, dan e.
= average{ , } = average{ , . } = + . = .
= average{ , } = average{ . , . } = . + . = .
= average{ , } = average{ , , } = + . = .
Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian
dengan cluster a dan c dihapus dan ditambahkan baris dan kolom untuk cluster (ac),
sehingga matriks jarak menjadi seperti berikut ini:
Tabel 2.11 Matriks jarak pertama average linkage
ac b d e
ac 0 3.08 3.22 4.73
b 0 3.16 3.16
d 0 2
e 0
Berdasar pada matriks jarak pertama (tabel 2.12), dipilih kembali jarak
terdekat antar cluster. Ditemukan cluster (de) yang paling dekat, yaitu bernilai 2.
= average{ , , , } = average{ . , . , , . } =
. + . + + . = .
= average{ , } = average{ . , . } = . + . = .
Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian
dengan cluster d dan e dihapus dan ditambahkan baris dan kolom untuk cluster (de),
sehingga matriks jarak menjadi seperti berikut ini:
Tabel 2.12 Matriks jarak kedua average linkage
ac b de
ac 0 3.08 3.97
b 0 3.16
de 0
Berdasar pada matriks jarak kedua (Tabel 2.13), dipilih kembali jarak
terdekat antar cluster. Ditemukan cluster (ac) dengan b yang paling dekat, yaitu
bernilai 3.08. Kemudian dihitung jarak dengan cluster yang tersisa, (de).
= average{ , , , , , } =
average{ . , , . , . , . , . } = . + + . + . + . + . = .
Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian
dengan cluster (ac) dan b dihapus dan ditambahkan baris dan kolom untuk cluster
(acb), sehingga matriks jarak menjadi seperti berikut ini:
Tabel 2.13 Matriks jarak ketiga average linkage acb de
acb 0 3.7
Dengan demikian proses iterasi perhitungan jarak untuk pembentukan
cluster sudah selesai karena cluster sudah tersisa satu. Jadi cluster (acb) dan (de)
digabung menjadi satu, yaitu cluster (acbde) dengan jarak rata-rata adalah 3.7.
Berikut ini adalah hasil dendrogram hasil AHC dengan single linkage:
Gambar 2.5 Dendrogram average linkage untuk 5 obyek data
3. Complete Linkage
Penghitungan jarak dengan complete linkage akan dicari jarak antar cluster
dengan yang paling jauh. Dengan tetap menggunakan tabel matriks jarak (tabel
2.8), perhitungan complete linkage ini dilakukan. Pada awal perhitungan, cluster
(ac) tetap digunakan sebagai cluster pertama karena jarak antar obyek yang paling
dekat, yaitu 1. Berikut ini akan dilakukan perhitungan jarak antara cluster (ac)
dengan b, d, dan e.
= max{ , , } = max{ , . } = .
= max{ , , } = max{ . , . } = .
Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian
dengan cluster a dan c dihapus dan ditambahkan baris dan kolom untuk cluster (ac),
sehingga matriks jarak menjadi seperti berikut ini:
Tabel 2.14 Matriks jarak pertama complete linkage
ac b d e
ac 0 3.16 3.61 5
b 0 3,16 3,16
d 0 2
e 0
Berdasar pada matriks jarak pertama (tabel 2.15), dipilih kembali jarak
terdekat antar cluster. Ditemukan cluster (de) yang paling dekat, yaitu bernilai 2.
Kemudian dihitung jarak dengan cluster yang tersisa, (ac), dan b.
= max{ , , , } = max{ . , . , , . } =
= max{ , } = max{ . , . } = .
Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian
dengan cluster d dan e dihapus dan ditambahkan baris dan kolom untuk cluster (de),
sehingga matriks jarak menjadi seperti berikut ini:
Tabel 2.15 Matriks jarak kedua complete linkage
ac b de
ac 0 3.16 5
b 0 3,16
de 0
Berdasar pada matriks jarak kedua (tabel 2.16), dipilih kembali jarak
terdekat antar cluster. Ditemukan cluster (acb) dan cluster (deb), yaitu bernilai 3.16.
antaranya. Dipilih cluster (deb). Kemudian dihitung jarak dengan cluster yang
tersisa, (ac).
= max{ , , , , , } =
max{ . , . , , . , , . } =
Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian
dengan cluster (ac) dan b dihapus dan ditambahkan baris dan kolom untuk cluster
(acb), sehingga matriks jarak menjadi seperti berikut ini:
Tabel 2.16 Matriks jarak ketiga complete linkage acb de
acb 0 5
de 0
Dengan demikian proses iterasi perhitungan jarak untuk pembentukan
cluster sudah selesai karena cluster sudah tersisa satu. Jadi cluster (acb) dan (de)
digabung menjadi satu, yaitu cluster (acbde) dengan jarak maksimum adalah 5.
Berikut ini adalah hasil dendrogram hasil AHC dengan complete linkage:
Pada bagian akhir AHC, setelah perhitungan pembentukan dendrogram,
jumlah cluster dapat ditentukan dengan memotong (cut off) bagian tertentu dari
dendrogram yang terbentuk pada jarak tertentu. Misalnya pada gambar 2.4,
dendrogram dipotong pada jarak 2,5. Dengan pemotongan ini akan terbentuk 3
cluster, yaitu (ac), (de), dan (b) dengan masing-masing obyek datanya.
Gambar 2.7 Contoh pemotongan dendrogram single linkage
2.4 Uji Akurasi Data
Data intelektual yang telah diperoleh dari Seminari Menengah Mertoyudan
dan direduksi dengan menggunakan PCA serta hasilnya diolah dengan AHC perlu
diuji akurasinya supaya diketahui validitas data tersebut. Ada beberapa teknik untuk
uji akurasi data tersebut. Karena yang digunakan adalah Metode Clustering dapat
digunakan dua jenis uji akurasi, yaitu Internal Evaluation dan External Evaluation.33
1. Internal evaluation
Internal evaluation atau yang dikenal juga dengan unsupervised validation
merupakan pengujian data cluster demi validitasnya tanpa informasi dari luar.
Validasi ini contohnya adalah cohesion, separation, silhouette coefficient, dan sum
of square error (SSE).
2. External evaluation
Dengan menggunakan external evaluation akan diketahui kedekatan antara
label cluster terbentuk dengan class yang disediakan. External evaluation ini dapat
dilakukan dengan confusion matrix, entropy, dan purity.
Pada tulisan ini yang akan digunakan untuk uji akurasi adalah internal
evaluation, secara khusus dengan menggunakan sum of square error (SSE). Setiap
percobaan cut-off untuk pembentukan cluster akan dihitung SSE-nya. Dengan cara
demikian akan didapatkan nilai SSE untuk masing-masing percobaan cutt-off dalam
pembentukan cluster. Semakin kecil nilai SSE menunjukkan bahwa cluster yang
dibentuk semakin baik pula. Formulasi SSE yang digunakan adalah sebagai
berikut34:
�� = ∑ ∑ || − ||
∀��∈ �
�
=
(2.11)
Keterangan:
adalah jarak data di indeks
adalah rata-rata semua jarak data di cluster
Formulasi ini dapat dilakukan dengan langkah-langkah berikut ini:
1. Tentukan matriks K yang akan dihitung menggunakan SSE
34 Lior Rokach, “Data Mining And Knowledge Discovery Handbook, Chapter 15: Clustering
adalah data set dari cluster
cluster adalah anggota dari matriks K
2. Jika =
3. Hitung rata-rata cluster ( ) … a
4. Lakukan langkah 5 dan 7 untuk setiap data
5. Kurangkan a dengan data di indeks ( || − || )… b
6. Hitung … c
7. c dijumlahkan untuk setiap cluster … d
8. Jumlahkan total d di matriks K
36
3
BAB III
METODOLOGI
Berdasar pada landasan teori yang telah disampaikan pada bab kedua di
atas, pada bab ini akan dibahas metodologi yang digunakan dalam tulisan ini. Bab
ketiga akan dipaparkan tentang metode yang digunakan untuk pengumpulan data,
teknik analisa data, rancangan desain user interface, dan spesifikasi software dan
hardware yang digunakan dalam implementasi.
3.1 Metode Pengumpulan Data
Sekumpulan data yang diterima dari Seminari Mertoyudan diperoleh dari
arsip nilai yang ada di seminari tersebut. Selain itu juga data didapat berdasarkan
hasil wawancara dengan para pembina di seminari, termasuk karyawan bagian
pengarsipan. Dengan demikian akan diketahui dengan pasti keakuratan data
tersebut. Berikut ini adalah penjelasan lebih lanjut tentang metode pengumpulan
data yang telah dilaksanakan:
1. Studi Kepustakaan
Studi kepustakaan diperlukan untuk mencari informasi tentang dunia
pendidikan, khususnya pendidikan di seminari menengah. Selain itu, informasi
tentang data mining terutama agglomerative hierarchical clustering sangat
2. Wawancara
Metode wawancara berkaitan dengan dunia pendidikan di seminari
dilakukan beberapakali kepada pembina di seminari, terutama rektor seminari.
Selain itu, wawancara juga dilakukan dengan karyawan yang bertugas untuk
menyimpan arsip penilaian studi para seminaris. Wawancara ini sangat membantu
untuk mengerti secara benar tentang dunia pembinaan di seminari terutama dari sisi
scientia-nya. Juga, wawancara berguna untuk mengerti tentang pengolahan data
nilai para seminaris.
3. Pengumpulan Data
Setelah menerima izin secara lisan dari rektor seminari, arsip data nilai yang
ada di Seminari Mertoyudan dikumpulkan. Teknik pengumpulan data dilakukan
bersama karyawan seminari bagian arsip data. Data nilai yang ada dipilah-pilah dan
kemudian data yang dianggap relevan dikumpulkan dan diolah.
3.2 Teknik Analisis Data
Data yang telah diperoleh dari hasil pengumpulan data selanjutnya mulai
dianalisa. Berkaitan dengan tahap-tahap teknik analisis dan jalannya program
digambarkan dengan block diagram sebagai berikut:
Data Preprocessing Perhitungan
Jarak AHC Output Dendrogram
Single Average Complete Akurasi
PCA