• Tidak ada hasil yang ditemukan

Pengenalan pola keberhasilan seminaris dengan menggunakan agglomerative hierarchical clustering, sebuah studi kasus atas keberhasilan studi para seminaris di Seminari Menengah St. Petrus Canisius, Mertoyudan, Magelang.

N/A
N/A
Protected

Academic year: 2017

Membagikan "Pengenalan pola keberhasilan seminaris dengan menggunakan agglomerative hierarchical clustering, sebuah studi kasus atas keberhasilan studi para seminaris di Seminari Menengah St. Petrus Canisius, Mertoyudan, Magelang."

Copied!
155
0
0

Teks penuh

(1)

ABSTRAK

PENGENALAN POLA KEBERHASILAN SEMINARIS

DENGAN MENGGUNAKAN

AGGLOMERATIVE HIERARCHICAL CLUSTERING

Sebuah Studi Kasus atas Keberhasilan Studi para Seminaris

Di Seminari Menengah St. Petrus Canisius, Mertoyudan, Magelang

ABSTRAK

Pembinaan di seminari menengah merupakan pembinaan formal awal bagi

para seminaris, calon imam Katolik. Sebagai tempat pembinaan, seminari memiliki

tiga kriteria penilaian terhadap para seminarisnya. Ketiga kriteria tersebut adalah

sisi intelektual (scientia), kesehatan (sanitas), dan kesucian hidup (sanctitas). Tulisan ini terfokus hanya pada pengelompokan guna pengenalan pola keberhasilan

studi para seminaris di Seminari Menengah St. Petrus Canisius, Mertoyudan,

Magelang. Pengelompokan yang dibuat kiranya akan berguna bagi seminari untuk

analisis lebih lanjut berkaitan dengan kemampuan scientia para seminaris.

Nilai rapor para seminaris menjadi acuan utama sebagai sumber data yang

akan dikelompokkan. Nilai rapor tersebut bersumber dari nilai hasil studi 186 mata

pelajaran yang diikuti oleh 137 seminaris angkatan tahun 2009 dan 2010 mulai dari

kelas KPP (Kelas Persiapan Pertama) sampai kelas XII. Sebelum dikelompokkan,

data scientia yang diperoleh dari seminari masuk tahap preprocessing. Pada tahap

ini, dilakukan data cleaning, data integration, data transformation, dan data

reduction. Pada tahap data reduction digunakan principal component analysis.

Berkaitan dengan proses pengelompkan, ada tiga metode kedekatan yang digunakan

dalam tulisan ini, yaitu single linkage, average linkage, dan complete linkage.

Masing-masing teknik ini menggunakan euclidean distance sebagai parameter jarak

kedekatannya. Dilakukan 9 kali percobaan untuk masing-masing metode kedekatan.

Setiap percobaan pengelompokan ini dihitung juga nilai sum of square error (SSE).

Dari percobaan pengelompokan yang dilakukan ditemukan pembentukan

tiga kelompok metode single linkage memberikan hasil 49,97. Hasil ini merupakan

nilai SSE terkecil dan terbaik dari seluruh percobaan pembentukan kelompok

sebanyak 27 kali. Pembentukan tiga kelompok ini juga sesuai dengan tujuan yang

ingin dicapai dalam tulisan ini, yaitu kelompok seminaris yang berhasil, seminaris

(2)

ABSTRACT

RECOGNIZING SUCCESS PATTERN OF SEMINARIANS

BY USING

AGGLOMERATIVE HIERARCHICAL CLUSTERING

A Case Study of The Rate of Educational Completion of Seminarians

At The Minor Seminary of Saint Peter Canisius, Mertoyudan, Magelang

ABSTRACT

The minor seminary designed as initial formal guidance for seminarians. As

a Catholic guidance institutions, it has three criteria for assessment the seminarians,

those are intellectual (scientia), health (sanitation) and sanctity of life (sanctitas).

This paper only focuses on agglomeration to recognize intellectual development and success studies pattern of the seminarians at St. Petrus Canisius Seminary,

Mertoyudan, Magelang. Hopefully, this agglomeration can be used for further

analysis regarding to the scientia ability of seminarians.

The main reference as data source is the grades of seminarians that comes

from the values of 186 subjects were followed by 137 seminarians class of 2009

and 2010, range of class from KPP (Kelas Persiapan Pertama) up to XII.

Prepocessing process of scientia data by clean, integrate, transform and reduce the

data. Principal component analysis is used in the data reduction phase. There are

three methods to measure similarity in this paper : single-linkage, average-linkage

and complete-linkage. Each of these method use euclidean distance as parameter of

distance proximity. There are 9 experiments for each of these method. In each of the agglomerate experiments also calculate the sum of square error (SSE).

The formation of three groups founded by single-linkage methods with

49.97 accuracy from the experiments that was conducted. This accuracy result is

the smallest value of SSE and be the best accuracy from acuracy result of 27

experiments. This formation of three groups is also accordance with the objectives

to be achieved in this paper: seminarians who succes, seminarians who need special

(3)

i

HALAMAN JUDUL

PENGENALAN POLA KEBERHASILAN SEMINARIS

DENGAN MENGGUNAKAN

AGGLOMERATIVE HIERARCHICAL CLUSTERING

Sebuah Studi Kasus atas Keberhasilan Studi para Seminaris

Di Seminari Menengah St. Petrus Canisius, Mertoyudan, Magelang

SKRIPSI

Diajukan Untuk Memenuhi Salah Satu Syarat

Memperoleh Gelar Sarjana Komputer

Program Studi Teknik Informatika

Disusun oleh:

Poldo Andreas Situmorang

115314093

PROGRAM STUDI TEKNIK INFORMATIKA

JURUSAN TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

(4)

ii

HALAMAN JUDUL (English)

RECOGNIZING SUCCESS PATTERN OF SEMINARIANS

BY USING

AGGLOMERATIVE HIERARCHICAL CLUSTERING

A Case Study of The Rate of Educational Completion of Seminarians

At The Minor Seminary of Saint Peter Canisius, Mertoyudan, Magelang

A Thesis

Presented as Partial Fulfillment of The Requirements

To Obtain Sarjana Komputer Degree

In Informatics Engineering Study Program

Written by:

Poldo Andreas Situmorang

115314093

INFORMATICS ENGINEERING STUDY PROGRAM

DEPARTMENT OF INFORMATICS ENGINEERING

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

(5)

iii

(6)

iv

(7)

v

HALAMAN PERSEMBAHAN

“… όπως εγώ σας χω αγαπ σει.”( ω ννης 15:12 )

“… sicut dilexi vos.”(Ioannes 15:12)

“… as I have loved you” (John 15:12)

“… seperti Aku telah mengasihi kamu.” (Yohanes 15:12)

Skripsi ini dipersembahkan untuk:

Allah Bapa di surga,

(8)

vi

(9)

vii

(10)

viii

ABSTRAK

PENGENALAN POLA KEBERHASILAN SEMINARIS

DENGAN MENGGUNAKAN

AGGLOMERATIVE HIERARCHICAL CLUSTERING

Sebuah Studi Kasus atas Keberhasilan Studi para Seminaris

Di Seminari Menengah St. Petrus Canisius, Mertoyudan, Magelang

ABSTRAK

Pembinaan di seminari menengah merupakan pembinaan formal awal bagi

para seminaris, calon imam Katolik. Sebagai tempat pembinaan, seminari memiliki

tiga kriteria penilaian terhadap para seminarisnya. Ketiga kriteria tersebut adalah

sisi intelektual (scientia), kesehatan (sanitas), dan kesucian hidup (sanctitas). Tulisan ini terfokus hanya pada pengelompokan guna pengenalan pola keberhasilan

studi para seminaris di Seminari Menengah St. Petrus Canisius, Mertoyudan,

Magelang. Pengelompokan yang dibuat kiranya akan berguna bagi seminari untuk

analisis lebih lanjut berkaitan dengan kemampuan scientia para seminaris.

Nilai rapor para seminaris menjadi acuan utama sebagai sumber data yang

akan dikelompokkan. Nilai rapor tersebut bersumber dari nilai hasil studi 186 mata

pelajaran yang diikuti oleh 137 seminaris angkatan tahun 2009 dan 2010 mulai dari

kelas KPP (Kelas Persiapan Pertama) sampai kelas XII. Sebelum dikelompokkan,

data scientia yang diperoleh dari seminari masuk tahap preprocessing. Pada tahap

ini, dilakukan data cleaning, data integration, data transformation, dan data

reduction. Pada tahap data reduction digunakan principal component analysis.

Berkaitan dengan proses pengelompkan, ada tiga metode kedekatan yang digunakan

dalam tulisan ini, yaitu single linkage, average linkage, dan complete linkage.

Masing-masing teknik ini menggunakan euclidean distance sebagai parameter jarak

kedekatannya. Dilakukan 9 kali percobaan untuk masing-masing metode kedekatan.

Setiap percobaan pengelompokan ini dihitung juga nilai sum of square error (SSE).

Dari percobaan pengelompokan yang dilakukan ditemukan pembentukan

tiga kelompok metode single linkage memberikan hasil 49,97. Hasil ini merupakan

nilai SSE terkecil dan terbaik dari seluruh percobaan pembentukan kelompok

sebanyak 27 kali. Pembentukan tiga kelompok ini juga sesuai dengan tujuan yang

ingin dicapai dalam tulisan ini, yaitu kelompok seminaris yang berhasil, seminaris

(11)

ix

ABSTRACT

RECOGNIZING SUCCESS PATTERN OF SEMINARIANS

BY USING

AGGLOMERATIVE HIERARCHICAL CLUSTERING

A Case Study of The Rate of Educational Completion of Seminarians

At The Minor Seminary of Saint Peter Canisius, Mertoyudan, Magelang

ABSTRACT

The minor seminary designed as initial formal guidance for seminarians. As

a Catholic guidance institutions, it has three criteria for assessment the seminarians,

those are intellectual (scientia), health (sanitation) and sanctity of life (sanctitas).

This paper only focuses on agglomeration to recognize intellectual development and success studies pattern of the seminarians at St. Petrus Canisius Seminary,

Mertoyudan, Magelang. Hopefully, this agglomeration can be used for further

analysis regarding to the scientia ability of seminarians.

The main reference as data source is the grades of seminarians that comes

from the values of 186 subjects were followed by 137 seminarians class of 2009

and 2010, range of class from KPP (Kelas Persiapan Pertama) up to XII.

Prepocessing process of scientia data by clean, integrate, transform and reduce the

data. Principal component analysis is used in the data reduction phase. There are

three methods to measure similarity in this paper : single-linkage, average-linkage

and complete-linkage. Each of these method use euclidean distance as parameter of

distance proximity. There are 9 experiments for each of these method. In each of the agglomerate experiments also calculate the sum of square error (SSE).

The formation of three groups founded by single-linkage methods with

49.97 accuracy from the experiments that was conducted. This accuracy result is

the smallest value of SSE and be the best accuracy from acuracy result of 27

experiments. This formation of three groups is also accordance with the objectives

to be achieved in this paper: seminarians who succes, seminarians who need special

(12)

x

(13)

xi DAFTAR ISI

1

HALAMAN JUDUL ... i

HALAMAN JUDUL (English) ... ii

HALAMAN PESETUJUAN ... iii

HALAMAN PENGESAHAN ... iv

HALAMAN PERSEMBAHAN ... v

PERNYATAAN KEASLIAN KARYA ... vi

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI ... vii

ABSTRAK ... viii

ABSTRACT ... ix

KATA PENGANTAR ... x

DAFTAR ISI ... xi

DAFTAR GAMBAR ...xiii

DAFTAR TABEL ... xv

BAB I PENDAHULUAN ... 1

1.1 Latar Belakang ... 1

1.2 Rumusan Masalah ... 6

1.3 Tujuan... 6

1.4 Batasan Masalah ... 7

BAB II LANDASAN TEORI ... 8

2.1 Seminari Menengah St. Petrus Canisius ... 8

2.2 Principal Component Analysis ... 10

2.3 Agglomerative Hierarchical Clustering ... 17

2.4 Uji Akurasi Data ... 33

BAB III METODOLOGI ... 36

3.1 Metode Pengumpulan Data ... 36

(14)

xii

3.3 Desain User Interface ... 45

3.4 Spesifikasi Software dan Hardware ... 48

BAB IV IMPLEMENTASI DAN ANALISIS HASIL ... 50

4.1 Implementasi ... 50

4.1.1 Pengolahan Data ... 50

4.1.2 User Interface ... 59

4.2 Analisis Hasil ... 65

BAB V PENUTUP ... 79

5.1 Kesimpulan ... 79

5.2 Saran ... 80

DAFTAR PUSTAKA ... 82

(15)

xiii

DAFTAR GAMBAR

Gambar 2.1 Hasil eigenvector dan eigenvalue dengan Matlab ... 16

Gambar 2.2 Dendrogram ... 22

Gambar 2.3 Cluster hasil AHC ... 23

Gambar 2.4 Dendrogram single linkage untuk 5 obyek data ... 27

Gambar 2.5 Dendrogram average linkage untuk 5 obyek data ... 30

Gambar 2.6 Dendrogram complete linkage untuk 5 obyek data ... 32

Gambar 2.7 Contoh pemotongan dendrogram single linkage ... 33

Gambar 3.1 Block diagram proses program ... 37

Gambar 3.2 Dendrogram single linkage ... 43

Gambar 3.3 Dendrogram average linkage ... 43

Gambar 3.4 Dendrogram complete linkage ... 43

Gambar 3.5 User interface ... 46

Gambar 3.6 Desain input data ... 47

Gambar 3.7 Desain informasi dan tabel data ... 47

Gambar 3.8 Desain hasil proses AHC dan akurasi ... 48

Gambar 4.1 Implementasi – Grafik SSE single linkage ... 57

Gambar 4.2 Implementasi – Dendrogram single linkage nilai SSE terkecil ... 57

Gambar 4.3 Implementasi – Grafik SSE average linkage... 57

Gambar 4.4 Implementasi – Dendrogram average linkage dengan 4 kelompok .. 58

Gambar 4.5 Implementasi – Grafik SSE complete linkage ... 58

Gambar 4.6 Implementasi – Dendrogram complete linkage dengan 5 kelompok 59 Gambar 4.7 Implementasi – Dendrogram complete linkage dengan 6 kelompok 59 Gambar 4.8 Contoh tampilan keseluruhan sistem ... 60

Gambar 4.9 Manual sistem ... 60

Gambar 4.10 Tentang sistem ... 61

Gambar 4.11 Implementasi – Input data ... 62

Gambar 4.12 Implementasi – Informasi data dan tabel ... 63

(16)

xiv

Gambar 4.14 Fitur hasil PCA ... 66

Gambar 4.15 Analisis – Grafik SSE single linkage ... 68

Gambar 4.16 Analisis – Dendrogram single linkage nilai SSE terkecil ... 69

Gambar 4.17 Analisis – Grafik SSE average linkage ... 70

Gambar 4.18 Analisis – Dendrogram average linkage jumlah clustering 4 ... 71

Gambar 4.19 Analisis – Grafik SSE complete linkage ... 72

Gambar 4.20 Analisis – Dendrogram complete linkage jumlah clustering 5 ... 73

Gambar 4.21 Analisis – Dendrogram complete linkage jumlah clustering 6 ... 73

Gambar 4.22 Analisis – Dendrogram relatif seimbang single linkage ... 75

Gambar 4.23 Analisis – Dendrogram relatif seimbang average linkage ... 75

(17)

xv

DAFTAR TABEL

Tabel 2.1 Contoh data untuk PCA ... 12

Tabel 2.2 Zero-mean untuk PCA ... 13

Tabel 2.3 Covariance untuk PCA ... 14

Tabel 2.4 Data final untuk contoh PCA ... 17

Tabel 2.5 Contoh data perhitungan AHC ... 24

Tabel 2.6 Similarity matrix ... 25

Tabel 2.7 Matriks jarak ... 25

Tabel 2.8 Matriks jarak pertama single linkage ... 26

Tabel 2.9 Matriks jarak kedua single linkage... 26

Tabel 2.10 Matriks jarak ketiga single linkage ... 27

Tabel 2.11 Matriks jarak pertama average linkage ... 28

Tabel 2.12 Matriks jarak kedua average linkage ... 29

Tabel 2.13 Matriks jarak ketiga average linkage ... 29

Tabel 2.14 Matriks jarak pertama complete linkage... 31

Tabel 2.15 Matriks jarak kedua complete linkage ... 31

Tabel 2.16 Matriks jarak ketiga complete linkage... 32

Tabel 3.1 Data sampel perhitungan jarak ... 42

Tabel 3.2 Hasil euclidean distance dari data sampel ... 42

Tabel 3.3 Contoh cluster hasil cut-off 3 single linkage ... 44

Tabel 3.4 Contoh cluster hasil cut-off 3 average linkage... 44

Tabel 3.5 Contoh cluster hasil cut-off 3 complete linkage ... 45

Tabel 4.1 Jenjang kelas dan jumlah seminaris ... 51

Tabel 4.2 Mata pelajaran ... 51

Tabel 4.3 Analisis – Hasil single linkage ... 67

Tabel 4.4 Analisis – Jumlah obyek, SSE terkecil single linkage ... 68

Tabel 4.5 Analisis – Hasil average linkage ... 69

Tabel 4.6 Analisis – Jumlah obyek, clustering 4 average linkage ... 70

(18)

xvi

Tabel 4.8 Analisis – Jumlah obyek, clustering 5 complete linkage ... 72

Tabel 4.9 Analisis – Jumlah obyek, clustering 6 complete linkage ... 73

Tabel 4.10 Analisis – Hasil analisis SSE terkecil ... 74

Tabel 4.11 Analisis – Hasil analisis keseimbangan dendrogram ... 74

(19)

1

1

BAB I

PENDAHULUAN

1.1 Latar Belakang

Kaum Beriman Kristiani ialah mereka yang karena melalui baptis

diinkorporasi pada Kristus. Melalui baptis, mereka dibentuk menjadi umat Allah

yang dikenal dengan Gereja. Gereja yang berada di dunia ini dibentuk dan ditata

sebagai masyarakat, berada di dalam Gereja Katolik yang dipimpin oleh pengganti

Petrus (Paus) dan para Uskup dalam persekutuan dengannya.1 Menyangkut Gereja

universal, tugas untuk memaklumkan Injil dipercayakan terutama kepada Paus dan

kepada Kolegium Para Uskup.2 Sejauh menyangkut Gereja partikular yang

dipercayakan, tugas ini dilaksanakan oleh masing-masing Uskup.3 Uskup dibantu

oleh imam dalam melaksanakan tugasnya. Sebagai rekan kerja Uskup, dalam

persekutuan dengannya dan presbiteriumnya4 imam berkewajiban mengabdi umat

Allah dalam pelayanan sabda dan menguduskan umat Allah melalui tujuh sakramen

dalam Gereja Katolik. 5

1Kanon 204, pasal 2, “Kitab Hukum Kanonik (Codex Iuris Canonici)”, Edisi Resmi Bahasa

Indonesia, Grafika Mardi Yuana, 2006, hal. 80.

2 Kanon 756, pasal 1, hal. 221. 3 Kanon 756, pasal 2, hal. 221.

4 Presbiterium dalam Kamus Besar Bahasa Indonesia (KBBI) berarti orang tua-tua suatu

jemaat; para imam.

5 Sakramen-sakramen yang dimaksud adalah “Sakramen-sakramen Perjanjian Baru, yang

(20)

Karena pentingnya tugas yang diemban seorang imam, umat Katolik sangat

membutuhkan kehadiran para imam. Namun demikian, sejarah membuktikan

bahwa ada banyak calon imam atau seminaris6 di Indonesia, tetapi biasanya hanya

sedikit yang sampai pada jenjang imamat. Pembinaan dan pendidikan di seminari

sering berjalan ketat dan selektif. Pendidikan dengan seleksi yang demikian sangat

diperlukan, namun sekaligus mengakibatkan banyaknya seminaris yang tidak

melanjutkan pendidikan ke seminari tinggi, sehingga sedikit pula yang menjadi

imam.

Seseorang harus memenuhi berbagai syarat untuk menjadi seorang imam

Gereja Katolik. Ia wajib mengikuti serangkaian pembinaan. Seminari menengah7

menjadi tempat formal pertama untuk pembinaan seseorang dalam proses untuk

menjadi seorang imam. Di seminari, secara khusus diselenggarakan pendidikan

keagamaan dan pendidikan humaniora serta ilmu pengetahuan ilmiah.8

Kemampuan intelektual (scientia) menjadi salah satu syarat penting. Selain itu,

kesehatan (sanitas) yang baik juga menjadi syarat yang harus dimiliki oleh seorang

calon imam. Selain itu, yang penting harus dimiliki adalah kesucian hidup

(sanctitas). Berbagai macam potensi baik yang ada pada setiap seminaris

6 Seminaris adalah siswa si seminari sebagai seorang calon imam/paderi. (Kamus Besar Bahasa Indonesia. Available at: http://kbbi.web.id/seminaris [Diakses tanggal 05 Juni 2014]).

7 Kata seminari berasal dari kata Latin semen”, artinya adalah “benih atau bibit. Lebih

lanjut, seminari juga dari “seminarium” yang berarti “tempat pembibitan” atau “tempat pesemaian benih-benih”. Maka, seminari berarti: sebuah tempat (tepatnya sebuah sekolah yang bergabung dengan asrama: tempat belajar dan tempat tinggal), di mana benih-benih panggilan imam yang terdapat dalam diri anak-anak muda, disemaikan, secara khusus, untuk jangka waktu tertentu, dengan tatacara hidup dan pelajaran yang khas, dengan dukungan bantuan para staf pengajar dan pembina, biasanya terdiri dari para imam dan biarawan. “Seminaris” menunjuk pada para siswa yang belajar di seminari.

(21)

dikembangkan guna menunjang terpenuhinya syarat-syarat tersebut. Kesemua

syarat tersebut harus terintegrasi secara utuh dalam pribadi calon imam.

Dibutuhkan pengamatan dan penilaian untuk mengetahui apakah

syarat-syarat tersebut terpenuhi dalam diri seorang calon imam. Rektor seminari dan para

pendamping yang bertugas di seminari perlu mengenal setiap seminaris sejak awal

masuk seminari. Pengenalan awal ini sangat berguna agar para seminaris dapat

mengikuti pembinaan dengan baik. Selama perjalanan pembinaan di seminari,

setiap seminaris juga perlu dievaluasi secara berkala, sejauh mana syarat-syarat

untuk menjadi seorang imam sudah terintegrasi di dalam dirinya. Pada saat

evaluasi, para pembina, berdasarkan pengamatan mereka, memaparkan penilaian

terhadap setiap seminaris binaan mereka. Apabila ditemukan seminaris yang dinilai

kurang memenuhi syarat, pada waktu evaluasi tersebut akan dibicarakan secara

khusus. Rektor seminari berdasarkan pertimbangan para pembina dan juga karena

pengenalannya sendiri atas seminaris, memberikan putusan apakah seminaris yang

bersangkutan akan dikeluarkan atau perlu mendapat pembinaan khusus. Dengan

demikian, kebijakan yang tepat dalam proses dapat diupayakan secara obyektif.

Tujuan kebijakan dalam pembinaan tersebut adalah supaya banyak seminaris yang

siap untuk menjadi imam.

Secara umum, pengenalan terhadap seminaris dilakukan secara manual dan

bahkan terkadang berdasar intuisi para pembina. Metode ini terkadang sangat

menyulitkan mengingat banyaknya aspek yang harus dinilai dari setiap seminaris,

ditambah lagi kalau jumlah seminarisnya banyak. Obyektivitas penilaian dapat

(22)

sistem analisis terhadap data yang telah dimiliki oleh para pembina. Dengan

demikian akan diketahui keakuratan penilaian tersebut berhadapan dengan kriteria

penilaian yang harus tercapai. Sebuah sistem analisa membutuhkan data yang telah

diolah dengan baik. Dibutuhkan metode yang dapat mendukung proses analisis

tersebut. Dengan mempertimbangkan jumlah data seminaris dan sistem penilaian

di seminari, maka diperlukan adanya analisa pengelompokan data (cluster

analysis).

Ada berbagai metode pengelompokan data, di antaranya adalah metode

k-means (k-k-means clustering) dan metode hirarki (hierarchical clustering). Metode

pengelompokan data baik k-means maupun hirarki telah banyak diterapkan dalam

berbagai tulisan. Sebagai contoh, metode k-means dapat digunakan untuk

pengelompokan hasil evaluasi pembelajaran.9 Metode yang sama juga dapat

digunakan untuk memprediksi nilai mahasiswa.10 Untuk menilai tingkat

kedisiplinan juga dapat menggunakan metode k-means ini.11 Seperti k-means,

metode pengelompokan hirarki juga telah digunakan sebagai metode di beberapa

tulisan. Sebagai contoh, pengelompokan hirarki juga dapat digunakan sebagai

mesin pencari gambar geometri bangunan datar.12 Selain itu ada juga yang

menggunakannya untuk mengidentifikasi penyakit hepatitis.13 Bukan hanya di

9Hertartik Clarasita Devy, “Pengelompokan Hasil Evaluasi Pembelajaran Menggunakan

Metode Klastering K-Means Studi Kasus: di Fakultas Sains dan Teknologi Universitas Sanata Dharma”, Skripsi, USD.

10 Tri Rahayu Widiarti, “Implementasi Algoritma K-Means untuk Memprediksi Nilai

Mahasiswa Studi Kasus: Mahasiswa Teknik Informatika USD”, Skripsi, USD.

11 Ihya Ulumuddin, “Penggunaan Algoritma K-Means Untuk Menentukan Nilai

Kedisiplinan Siswa”, Skripsi, Universitas Islam Negeri, 2012.

12 Astriana Krisma Risky, “Mesin Pencari Gambar Geometri Bangun Datar Menggunakan

Agglomerattive Hierarchical Clustering”, Skripsi, USD.

13 Christina Wienda Asrini, “Identifikasi Penyakit Hepatitis dengan Pendekatan

(23)

bidang teknik dan kesehatan, metode hierarchical juga digunakan pada bidang

sosial ekonomi. Pengelompokan hirarki digunakan juga untuk penaksiran proporsi

kemiskinan14. Beberapa contoh dalam tulisan ini menunjukkan bahwa metode

pengelompokan data dengan k-means dan hirarki dapat digunakan di berbagai

bidang penelitian. Oleh sebab itu kedua metode tersebut kiranya juga mumpuni

untuk digunakan pada pengenalan data dan akhirnya kemudian pembentukan sistem

rekomendasi bagi rektor dan para pembina di seminari.

Berkaitan dengan data yang dibutuhkan, Seminari Menengah St. Petrus

Canisius, Mertoyudan, Magelang menjadi pilihan penulis. Seminari ini telah berdiri

selama lebih kurang 102 tahun. Di seminari ini ada data historis seminaris yang

kiranya dapat diolah. Berdasarkan analisis yang dibuat akan diketahui keberhasilan

atau kegagalan seorang seminaris, atau kebutuhan pembinaan lebih lanjut terutama

dari sisi intelektualnya. Hal ini akan sangat berguna bagi rektor dan proses

pembinaan di seminari. Dari pengelompokan data tersebut akan diketahui kriteria

para seminaris yang berhasil untuk melanjutkan ke jenjang seminari tinggi. Selain

yang berhasil, dapat juga diketahui kriteria seminaris yang akan gagal, atau

kemungkinan yang memerlukan pembinaan lebih lanjut.

Sisi intelektual (scientia) menjadi fokus utama dalam penelitian ini. Hal ini

dikarenakan dalam pembinaan seminaris, sisi intelektual mendapat porsi yang lebih

banyak. Selain itu, berkaitan juga dengan kapasitas ketersediaan data yang ada di

Seminari Menengah St. Petrus Canisius, Mertoyudan, Magelang. Potensi-potensi

14Yuridunis Saidah, “Penaksiran Proporsi Kemiskinan di Kabupaten Gersik Menggunakan

(24)

scientia yang ada pada seminaris dapat diketahui dan dikembangkan. Dengan

demikian, upaya ini dapat membantu pembinaan dan pengambilan keputusan bagi

keberhasilan para seminaris. Dengan memperhatikan hal-hal tersebut, maka tulisan

ini diberi judul “Pengenalan Pola Keberhasilan Seminaris Menggunakan

Agglomerative Hierarchical Clustering, Studi Kasus atas Keberhasilan Studi para

Seminaris Di Seminari Menengah St. Petrus Canisius, Mertoyudan, Magelang”.

1.2 Rumusan Masalah

Dari latar belakang yang telah dipaparkan, dapat dikemukakan perumusan

masalah dalam tulisan ini. Rumusan masalah tersebut adalah: sejauh mana metode

agglomerative hierarchical clustering mampu mengelompokkan keberhasilan studi

para seminaris dengan baik. Bertolak dari kriteria scientia pengelompokan tersebut

mencoba melihat kelompok seminaris manakah yang berhasil untuk melanjutkan

ke jenjang seminari tinggi, atau yang gagal, serta kelompok mana yang mungkin

membutuhkan pembinaan khusus.

1.3 Tujuan

Tujuan penulisan ini adalah mendapatkan hasil analisis pengelompokan atas

nilai scientia yang diperoleh para seminaris. Kriteria pengelompokan yang

diharapkan adalah kriteria seminaris yang berhasil menyelesaikan studinya, yang

gagal, dan seminaris yang mungkin membutuhkan pembinaan khusus. Lebih jauh

(25)

seminaris yang menyelesaikan studinya. Pengelompokan ini kiranya akan sangat

berguna dikemudian hari untuk membentuk suatu sistem rekomendasi.

1.4 Batasan Masalah

Supaya tulisan ini memiliki titik fokus, maka perlu diberikan

batasan-batasan masalah yang akan diteliti dan dibahas dalam tulisan ini.

1. Variabel respon dalam tulisan ini adalah penilaian terhadap seminaris oleh para

pembina seminari bagi seminaris dengan melihat perkembangan intelektual

(scientia) yang ada di dalam diri seminaris tersebut.

2. Data penilaian terhadap kriteria potensi intelektual formal yang ada di dalam

diri setiap seminaris di Seminari Menengah St. Petrus Canisius, Mertoyudan,

Magelang guna memenuhi syarat keberhasilan scientia seminaris adalah

variabel-variabel pendukung (auxiliary variable) untuk metode agglomerative

(26)

8

2

BAB II

LANDASAN TEORI

Pembahasan atas suatu topik penelitian tentu membutuhkan landasan teori

yang tepat. Agar sebuah penelitian dapat berhasil dibutuhkan referensi sebagai

landasan teorinya. Landasan teori tersebut berisi tentang Seminari Menengah St.

Petrus Canisius, Mertoyudan, Magelang sebagai tempat sumber data penelitian,

Principal Component Analysis untuk pemilihan variabel dari data set yang ada, dan Agglomerative Hierarchical Clustering sebagai algoritma yang digunakan untuk

pengelompokan data dari variabel yang telah dipilih. Selanjutnya pada bagian akhir

bab ini akan dipaparkan tentang Uji Akurasi Data.

2.1 Seminari Menengah St. Petrus Canisius

Setiap calon imam Gereja Katolik, berkewajiban untuk mengikuti

serangkaian pembinaan. Seminari menengah menjadi tempat formal pertama

pembinaan seseorang dalam proses menjadi seorang imam. Di seminari,

diselenggarakan pendidikan keagamaan khusus bersama dengan pendidikan

humaniora dan ilmiah dalam konteks pembinaan panggilan.15 Dalam Gereja

Katolik, seminari-seminari yang didirikan secara legitim, menurut hukum,

mempunyai status badan hukum dalam Gereja.16 Sebagai tempat pembinaan,

(27)

seminari dikepalai oleh seorang rektor. Selain rektor, ada juga wakil rektor jika

diperlukan, ekonom, dan para pengajar yang memberikan berbagai pelajaran yang

terkoordinasi secara tepat.17 Untuk pembinaan spiritual, di seminari ada seorang

direktur spiritual18 dan bapa pengakuan19.

Di Indonesia, secara umum dikenal seminari menengah untuk tingkat

Sekolah Menengah Atas (SMA).20 Di seminari menengah ini, setiap calon imam

dibina dan dididik, baik dari sisi intelektual, mental, sosial, dan spiritualnya.

Kriteria tertentu ditetapkan guna mengukur keberhasilan dan kelayakan seorang

seminaris untuk melanjutkan ke jenjang berikutnya. Setiap pembina seminari

berhak memberikan penilaian, melihat dan mengamati perkembangan seminaris

binaannya. Penilaian diberikan berdasarkan kriteria yang ada. Catatan-catatan

khusus dibuat sebagai bahan pertimbangan kelayakan perkembangan seorang

seminaris. Pada saat yang telah ditentukan bersama, ditetapkan apakah seorang

seminaris layak atau tidak untuk melanjutkan ke jenjang berikutnya, atau

diperlukan pembinaan khusus.

Salah satu seminari menengah yang ada di Indonesia adalah Seminari

Menengah St. Petrus Canisius, Mertoyudan – Magelang (sering dikenal dengan

nama Seminari Menengah Mertoyudan). Seminari ini telah didirikan sejak 30 Mei

17 Kanon 239, pasal 1, KHK, hal. 88. 18 Kanon 239, pasal 2, KHK, hal. 88. 19 Kanon 240, pasal 1, KHK, hal. 88.

20 Seminari menengah dapat digolongkan menjadi tiga, yaitu seminari menengah tingkat

(28)

1912 (sesuai dengan izin resmi dari tahta suci Roma untuk memulai lembaga

pendidikan calon imam di Indonesia).

Seminari Menengah Mertoyudan memiliki visi untuk menjadi komunitas

pendidikan calon imam tingkat menengah yang handal dan berkompeten dalam

mengembangkan sanctitas (kesucian), sanitas (kesehatan), dan scientia

(pengetahuan) ke arah imamat yang tanggap terhadap kebutuhan zaman. Seminari

Menengah Mertoyudan bertujuan untuk mendampingi seminaris dalam mengolah

hidup rohani, panggilan, kegerejaan dan kemasyarakatan, agar mampu mengambil

keputusan sesuai dengan panggilan hidupnya. Pendampingan bagi seminaris juga

tertuju pada mengembangkan diri menjadi pribadi yang sehat secara fisik maupun

psikis, dewasa secara manusiawi maupun kristiani, sehingga seminaris memiliki

kesiapsiagaan untuk menanggapi panggilan Tuhan.

Seminari Menengah Mertoyudan melaksanakan kegiatan pendidikan dan

pembelajaran secara efektif dan efisien agar kompetensi seminaris berkembang

secara optimal sehingga seminaris memiliki bekal yang memadai untuk

melanjutkan ke jenjang pendidikan imamat berikutnya. Bidang pendidikan ini

mendapat tekanan yang sangat penting di seminari ini. Data dari hasil perolehan

nilai dalam bidang pendidikan ini yang akan digunakan sebagai bahan penelitian

tulisan ini.

2.2 Principal Component Analysis

Sebelum melangkah ke proses dengan menggunakan agglomerative

(29)

extraction21 dengan menggunakan principal component analysis (PCA). PCA menghasilkan kombinasi linear dari variabel-variabel yang diperoleh dari

mereduksi variabel asli yang banyak. Di dalam proses mereduksi, diperoleh

variabel yang lebih sedikit. Namun demikian variabel-variabel yang dihasilkan

masih mengandung informasi yang termuat dalam data asli22.

Dari sisi teknis, PCA dapat dimengerti sebagai suatu teknik mereduksi data

multivariat (multivariable) yang mengubah (mentranformasi) suatu matriks data asli

menjadi kombinasi linier yang lebih sedikit, tetapi menyerap sebagian besar jumlah

varian dari data asli tersebut. Atau secara singkat dapat dikatakan bahwa tujuan PCA

adalah menjelaskan sebanyak mungkin jumlah varian data asli dengan menggunakan

komponen utama (principal component) atau vektor sesedikit mungkin.

Untuk dapat menggunakan PCA dengan tepat, diperlukan pengetahuan

dasar tentang perhitungan matematika. Hal ini dibutuhkan karena dalam

perhitungan, PCA berkaitan dengan statistik dan aljabar matriks. Berikut ini adalah

algoritma dalam penggunaan PCA23:

1. Matriks X adalah hasil pengurangan rata-rata dari setiap dimensi data pada

matriks data.

2. Matriks adalah covariance matrix dari matriks X.

3. Hitung eigenvector dan eigenvalue dari .

21 Ekstraksi fitur adalah proses pembentukan satu set fitur baru dari fitur asli melalui

beberapa pemetaan fungsional. Tujuan ekstraksi fitur ini adalah untuk mencari satu set fitur baru yang minimum melalui beberapa transformasi menurut beberapa ukuran kinerja (Nong Ye, (Ed), “The Handbook of Data Mining”, Lawrence Erlbaum Associates, New Jersey, 2003, hal. 411).

22 Ibid. hal. 412.

23 Lindsay I Smith, A Tutorial on Principal Component Analysis”. Available at:

(30)

4. Pilih component dan bentuk vector feature dan principal component dari

eigenvector yang memiliki eigenvalue paling besar diambil.

5. Menurunkan data set yang baru.

Sebagai contoh, terdapat data seperti pada tabel 2.1 di bawah ini. Data teks

tersebut akan diproses dengan menggunakan PCA.

Tabel 2.1 Contoh data untuk PCA Data X Y

a 87 89 b 84 76 c 83 70 d 80 74 e 82 83

Data yang sudah dipersiapkan ini akan dihitung dengan mengurangi setiap

data dengan rata-ratanya. Ini dilakukan karena PCA memerlukan masukan data

yang mempunyai sifat zero-mean pada setiap fiturnya. Set data X dengan dimensi

MxN, dimana M adalah jumlah data dan N adalah jumlah fitur, akan tampak sebagai

berikut:

� = [

… … … … ]

Untuk fitur ke- , semua nilai pada kolom tersebut dikurangi rata-ratanya. Rumus

yang digunakan adalah24:

′ = − ̅ (2.1)

24 Eko Prasetyo, “Data Mining: Konsep Dan Aplikasi Menggunakan Matlab”, Andi,

(31)

Keterangan:

= , , … , � dan adalah kolom ke- .

Rumus ini menerangkan bahwa ′ pada adalah hasil dari pengurangan

data dengan rata-rata data di setiap kolom ( ̅ ). Dengan cara ini, total nilai

baik itu kolom maupun adalah 0. Hasil yang didapat dari contoh data pada

langkah 1 di atas (algoritma PCA) adalah sebagai berikut:

Tabel 2.2 Zero-mean untuk PCA Data X Y

a 3.8 10.6 b 0.8 -2.4 c -0.2 -8.4 d -3.2 -4.4 e -1.2 4.6

Data dari hasil perhitungan zero-mean (matriks X) dihitung untuk

mendapatkan covariance, yaitu . Rumus yang digunakan adalah25:

= �� (2.2)

Keterangan:

: covariance matrix

: jumlah data

: transpose matriks

Kembali pada contoh data yang telah dihitung di atas, apabila dihitung

covariance matrix-nya maka data hasilnya adalah sebagai berikut:

(32)

Tabel 2.3 Covariance untuk PCA

X Y

X 5.36 9.72 Y 9.72 45.84

Matriks memiliki ciri-ciri sebagai berikut26:

1. adalah matriks simetris bujur sangkar yang berukuran NxN.

2. Bagian diagonal utama (dari kiri atas ke kanan bawah) adalah nilai varian

masing-masing fitur sesuai indeks kolomnya.

3. Bagian selain diagonal utama adalah kovarian di antara pasangan dua fitur yang

bersesuaian.

Dengan demikian, matriks mengandung kovarian di antara semua

pasangan yang mungkin dari fitur data matriks �. Nilai kovarian merefleksikan

noise dan redundansi pada fitur27:

1. Dalam diagonal utama diasumsi bahwa nilai tinggi berkorelasi dengan struktur

data yang penting.

2. Selain diagonal utama, nilai jarak yang besar menandakan redundansi yang tinggi.

Mengingat kembali tujuan PCA adalah (1) untuk meminimalkan redudansi

yang diukur oleh nilai jarak dari kovarian, dan (2) memaksimalkan nilai pemetaan

keluaran yang diukur dengan varian, maka jika � adalah matriks data hasil

pemetaan dan adalah matriks kovarian dari �, yang diharapkan dari PCA

adalah28:

26 Ibid.

(33)

1. Semua elemen selain diagonal utama dalam harus nol. harus berbentuk

matriks diagonal. Hal ini juga berarti bahwa � adalah matriks terdekorelasi.

2. Peletakan dimensi dalam � dari kiri ke kanan diturunkan menurun

(descending).

Harapan � dapat dicapai dengan menghitung eigenvector dan eigenvalue dari

covariance (matriks ). Yang dimaksud dengan eigenvalue adalah sebuah bilangan skalar dan eigenvector adalah sebuah matriks yang keduanya dapat

mendefinisikan matriks A. Jika A adalah matriks m x m, maka setiap skalar λ

memenuhi persamaan:

= (2.3)

untuk vektor ≠ , disebut eigenvalue dari A. Vektor x disebut eigenvector

dari A yang berhubungan dengan eigenvalue , dan persamaan (2.3) diatas disebut

persamaan eigenvalue-eigenvector A. Kadang-kadang eigenvalue dan eigenvector

juga dinyatakan sebagai (latents root and vectors) atau karekteristik roots dan

vektor. Persamaan (2.3) dapat juga dituliskan sebagai

− � = (2.4)

Setiap nilai eigenvalue harus memenuhi persamaan determinan,

| − �| = (2.5)

yang dikenal sebagai persamaan karakteristik A.

Kembali pada data covariance yang telah ditemukan dari contoh di atas

maka dapat di cari eugenvalue-nya. Hasil covariance pada tabel 2.4 dianggap

sebagai matriks A.

(34)

Karakteristik determinan dari matriks A adalah:

| − �| = | . −. . − |.

Karena persamaan karakteristik | − �| = maka:

∴ . − . − − . ∗ . =

∴ . − . − . + − . =

∴ . − . + − . =

∴ − . − . =

Sampai pada tahap ini kemudian dapat dicari nilai eigenvalue-nya dari nilai

. Namun dengan perhitungan manual tentu akan mengalami kesulitan. Dalam

tulisan ini akan digunakan program Matlab sebagai alat bantu perhitungan. Dengan

menggunakan Matlab maka ditemukan eigenvector dan eigenvalue dari data pada

tabel 3 di atas, yaitu:

(35)

Dari perhitungan dengan menggunakan Matlab ini diketahui:

� � = [− .. .. ]

� = [ . . ]

Sampai pada tahap ini telah ditemukan eigenvalue dan eigenvector.

Selanjutnya dapat dilakukan feature vector. Pembentukan feature vector-nya

adalah dengan mengambil diagonal utama dari � dengan urutan dari

besar ke kecil (descending). Kemudian, nilai eigenvector disusun mengikuti indeks

eigenvalue yang telah di-sort secara descending. Hasilnya adalah feature vector,

yaitu [ .. ].

Pada tahap terakhir, berdasarkan feature vector yang telah didapat,

diturunkan data set yang baru. Caranya adalah feature vector tersebut dikalikan

dengan data matriks (Tabel 2.3 Zero-mean untuk PCA).

� = � � � � (2.6)

Hasil data set yang baru adalah sebagai berikut:

Tabel 2.4 Data final untuk contoh PCA Data Z

a 11.1786 b -2.1624 c -8.2344 d -5.0004 e 4.2186

2.3 Agglomerative Hierarchical Clustering

Seminari Menegah Mertoyudan adalah tempat penelitian ini. Dengan

(36)

seminari tersebut, tulisan ini dibuat. Data perolehan dari seminari menjadi sumber

tulisan ini. Data yang diperoleh diolah terlebih dahulu supaya dapat dipergunakan

dengan baik. Berkaitan dengan pengolahan data, di dalam data mining ada beberapa

metode yang dapat digunakan. Satu di antara metode yang ada adalah clustering.

Metode clustering ini yang akan digunakan dalam pengolahan data tersebut.

Clustering dapat dimengerti sebagai metode yang digunakan untuk

pengelompokan obyek yang sama menjadi satu kelompok (cluster), sedangkan

obyek yang berbeda di cluster yang berbeda pula. Cluster bertujuan untuk

menemukan kemiripan (similarity) antara data. Kemiripan yang dimaksud

berkaitan dengan karakteristik yang ditemukan di dalam data tersebut. Dengan

demikian akan terbentuk kelompok-kelompok data di mana masing-masing

kelompok mengandung data yang memiliki kedekatan karakteristik.29

Dapat dikatakan ada dua jenis pendekatan dengan menggunakan clustering,

yaitu partition clustering dan hierarchical clustering. Dengan menggunakan

pendekatan partition clustering, pertama ditentukan lebih dulu jumlah cluster,

kemudian data dipisahkan ke dalam cluster-cluster tersebut berdasarkan

kemiripannya. Algoritma yang menggunakan pendekatan partition clustering

contohnya adalah k-means.

Sejalan dengan partition clustering, hierarchical clustering juga membuat

pengelompokkan data. Namun, sesuai dengan namanya, pendekatan hierarchical

clustering, pengelompokan data dibuat berdasarkan tingkatannya. Dengan cara ini

29 Jiawei Han, Micheline Kamber, Data mining Concepts and Techniques, Morgan

(37)

dapat dihasilkan suatu kumpulan partisi yang berurutan dengan visualisasi

dendogram. Obyek dengan tingkat similarity atau kemiripan yang tinggi akan

menjadi satu kelompok, begitu juga dengan data-data lain yang memiliki tingkat

kemiripan tinggi akan dijadikan satu kelompok. Secara singkat dapat dikatakan

bahwa metode hierarchical clustering bekerja untuk mengelompokkan obyek data

ke dalam struktur cluster berdasarkan tingkat kemiripannya. Pengelompokan ini

bertujuan untuk menentukan kemiripan antar data yang memiliki karakteristik yang

serupa. Sehingga, dengan menggunakan hierarchical clustering data yang memiliki

kemiripan berada pada hierarki yang sama, yang berbeda pada hierarki yang

berbeda pula.

Metode hierarchical clustering terbagi dalam dua bagian, yaitu

agglomerative (bottom-up) dan divisive (top-down). Namun yang dipilih dalam

penelitian ini adalah pendekatan agglomerative hierarchical clustering. Pemilihan

ini berdasarkan pada; pertama algoritma penggunaan hierarchical clustering

tampaknya sederhana. Kedua, pengelompokan data dapat dilihat dengan

menggunakan dendogram. Ketiga, penentuan jumlah cluster di awal tidak

diperlukan. Selain itu, alasan yang terakhir adalah karena agglomerative

hierarchical clustering menggunakan desain bottom-up sehingga pengelompokkan

data dimulai dari yang kecil ke arah pengelompokan yang besar. Desain ini sangat

membantu untuk proses pengenalan similaritas dan pengelompokan data.

Metode agglomerative hierarchical clustering (AHC) menggunakan

strategi desain bottom-up yang dimulai dengan meletakkan setiap obyek sebagai

(38)

cluster atomic cluster tersebut menjadi cluster yang lebih besar dan lebih besar lagi sampai akhirnya semua obyek menyatu dalam sebuah cluster atau proses

berhenti jika telah mencapai batasan kondisi tertentu. Dengan pengertian lain,

agglomerative melakukan proses clustering dari n cluster menjadi satu kesatuan cluster. Dengan pengertian ini, setiap data pada awalnya dapat dianggap sebagai

sebuah cluster (atomic cluster). Ini berarti jika terdapat jumlah data sebanyak n, dan

k dianggap sebagai jumlah cluster, maka besarnya n = k. Pada langkah selanjutnya,

dihitung jarak antar cluster-nya.

Sebelum pembentukan sebuah cluster perlu dihitung jarak kemiripan antara

obyek data. Ada beberapa cara untuk mengetahui kemiripan data. Satu di antara

cara yang ada adalah similarity matrix dengan perhitungan euclidean distance.

Euclidean distance didevinisikan sebagai berikut:

, = √ | − | + | − | + | − | + … + | − |

(2.6)

atau dapat disingkat dengan30:

, = √∑ −

=

(2.7)

Keterangan:

 adalah jumlah atribut atau dimensi

 dan adalah data

30

(39)

Dalam hierarchical clustering ada beberapa metode untuk perhitungan jarak

antar cluster, di antaranya adalah single linkage, average linkage, dan complete

linkage.31 Berikut ini adalah pendefinisian perhitungan jarak-jarak tersebut. 1. Single Linkage

Perhitungan dengan teknik single linkage adalah untuk mencari jarak

minimum antar cluster. Dengan single linkage jarak antara dua cluster

didefinisikan sebagai berikut:

, = min� , ∈ {� , }

(2.8)

Keterangan:

{� , } adalah jarak antara data dan y dari masing-masing cluster A dan B.

2. Average Linkage

Untuk menghitung jarak rata-rata antar cluster digunakan teknik average

linkage. Teknik ini didefinisikan sebagai:

, = ∑ ∑ �{ , }

∈ ∈

(2.9)

Keterangan:

 dan adalah banyaknya data dalam cluster A dan B.

3. Complete Linkage

31 Eko Prasetyo, “Data Mining: Pengolahan Data Menjadi Informasi Menggunakan

(40)

Dengan menggunakan teknik complete linkage akan diketahui jarak

maksimum antar cluster, didefinisikan sebagai berikut:

, = max∈ , ∈ {� , }

(2.10)

Keterangan:

{� , } adalah jarak antara data dan y dari masing-masing cluster A dan B.

Dengan menggunakan formula perhitungan-perhitungan di atas akan

diketahui jarak antar cluster. Jarak minimum antar data yang ditemukan pertama akan

menjadi cluster yang pertama pula. Perhitungan selanjutnya juga akan dilakukan

untuk pembentukan cluster selanjutnya. Masing-masing perhitungan dapat

menghasilkan dendrogram. Pada penelitian ini yang akan digunakan adalah single

linkage.

J

a

r

a

k

0 1 2

0,5 1,5

a b c e d f

D a t a

Gambar 2.2 Dendrogram

Dari penjelasan yang telah dipaparkan di atas, maka secara singkat AHC

dapat dimengerti sebagai metode yang dimulai dengan setiap n cluster yang

membentuk cluster masing-masing. Kemudian dua cluster dengan jarak terdekat

(41)

sudah ada dan membentuk cluster baru.Hal ini tetap memperhitungkan jarak

kedekatan antar cluster. Proses akan berulang hingga akhirnya terbentuk satu

cluster yang memuat keseluruhan cluster.

a b

c d

e f

a b

c d

e

Gambar 2.3 Cluster hasil AHC

Penggunaan algoritma agglomerative hierarchical clustering untuk

mengelompokkan n obyek data adalah sebagai berikut32 :

1. Hitung matriks jarak antar data.

2. Ulangi langkah 3 dan 4 hingga hanya satu kelompok yang tersisa.

3. Gabungkan dua kelompok terdekat berdasarkan parameter kedekatan yang

ditentukan.

4. Ubah matriks jarak antar data untuk merepresentasikan kedekatan di antara

kelompok baru dan kelompok yang masih tersisa.

5. Selesai.

32 Pang-Ning Tan, Michael Steinbach, Vipin Kumar, “Introduction to Data Mining”,

(42)

Sebagai contoh, terdapat beberapa data seperti dapat dilihat pada tabel 2.6 di

bawah ini. Data ini akan dibentuk dengan menggunakan AHC dengan perhitungan

kemiripan obyek data menggunakan euclidean distance dan perhitungan jarak cluster

dengan single linkage, average linkage, dan complate linkage.

Tabel 2.5 Contoh data perhitungan AHC Data X Y

a 1 1 b 4 1 c 1 2 d 3 4 e 5 4

Dengan menggunakan euclidean distance setiap obyek data tersebut

dihitung similaritasnya sebagai berikut:

, = √ | − | + | − | =

, = √ | − | + | − | =

, = √ | − | + | − | = ,

, = √ | − | + | − | =

, = √ | − | + | − | = ,

, = √ | − | + | − | = ,

, = √ | − | + | − | = ,

, = √ | − | + | − | = ,

, = √ | − | + | − | = ,

(43)

Berdasarkan perhitungan tersebut dapat dibentuk similarity matrix seperti

seperti pada tabel 2.7. Berdasarkan perhitungan euclidean distance, similarity

matrix ini bersifat positif, simetris, dan triangle inequality.

Tabel 2.6 Similarity matrix

a b c d e

a 0 3 1 3.61 5

b 3 0 3.16 3.16 3.16

c 1 3.16 0 2.83 4.47

d 3.61 3.16 2.83 0 2

e 5 3.16 4.47 2 0

Karena similarity matrix ini bersifat simetris, matriks ini dapat juga

dituliskan seperti pada tabel 2.8 berikut dan menjadi matriks jarak.

Tabel 2.7 Matriks jarak

a b c d e

a 0 3 1 3.61 5

b 0 3.16 3.16 3.16

c 0 2.83 4.47

d 0 2

e 0

1. Single Linkage

Selanjutnya dari tabel 2.8 dapat dilihat jarak obyek data yang paling dekat,

yaitu a dan c, berjarak 1. Kedua obyek data ini menjadi satu cluster pertama.

Kemudian untuk menemukan cluster berikutnya dicari jarak antar obyek data dari

sisa yang ada (b, d, e) dan berada paling dekat dengan cluster (ac). Untuk pencarian

jarak ini pertama digunakan single linkage.

(44)

 = min{ , } = min{ . , . } = .

= min{ , } = min{ , . } = .

Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian

dengan cluster a dan c dihapus dan ditambahkan baris dan kolom untuk cluster (ac),

sehingga matriks jarak menjadi seperti berikut ini:

Tabel 2.8 Matriks jarak pertama single linkage

ac b d e

ac 0 3 2.83 4.47

b 0 3.16 3.16

d 0 2

e 0

Berdasar pada matriks jarak pertama (tabel 2.9), dipilih kembali jarak

terdekat antar cluster. Ditemukan cluster (de) yang paling dekat, yaitu bernilai 2.

Kemudian dihitung jarak dengan cluster yang tersisa, (ac), dan b.

= min{ , , , } = min{ . , . , , . } = ,

= min{ , } = min{ . , . } = .

Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian

dengan cluster d dan e dihapus dan ditambahkan baris dan kolom untuk cluster (de),

sehingga matriks jarak menjadi seperti berikut ini:

Tabel 2.9 Matriks jarak kedua single linkage

ac b de

ac 0 3 2.83

b 0 3.16

(45)

Berdasar pada matriks jarak kedua (tabel 2.10), dipilih kembali jarak

terdekat antar cluster. Ditemukan cluster (acde) yang paling dekat, yaitu bernilai

2.83. Kemudian dihitung jarak dengan cluster yang tersisa, yaitu b.

= min{ , , , } = min{ , , , . , . } =

Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian

dengan cluster (ac) dan (de) dihapus dan ditambahkan baris dan kolom untuk

cluster (acde), sehingga matriks jarak menjadi seperti berikut ini:

Tabel 2.10 Matriks jarak ketiga single linkage acde b

acde 0 3

b 0

Dengan demikian proses iterasi perhitungan jarak untuk pembentukan

cluster sudah selesai karena cluster sudah tersisa satu. Jadi cluster (acde) dan (b)

digabung menjadi satu, yaitu cluster (acdeb) dengan jarak terdekat adalah 3. Berikut

ini adalah hasil dendrogram hasil AHC dengan single linkage:

(46)

2. Average Linkage

Menggunakan average linkage akan dicari jarak antar cluster dengan

menghitung nilai rata-rata pasangan setiap cluster. Dengan tetap menggunakan

tabel matriks jarak (tabel 2.8), perhitungan average linkage ini dilakukan. Pada

awal perhitungan, cluster (ac) tetap digunakan sebagai cluster pertama karena jarak

antar obyek yang paling dekat. Berikut ini akan dilakukan perhitungan jarak antara

cluster (ac) dengan b, d, dan e.

= average{ , } = average{ , . } = + . = .

= average{ , } = average{ . , . } = . + . = .

= average{ , } = average{ , , } = + . = .

Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian

dengan cluster a dan c dihapus dan ditambahkan baris dan kolom untuk cluster (ac),

sehingga matriks jarak menjadi seperti berikut ini:

Tabel 2.11 Matriks jarak pertama average linkage

ac b d e

ac 0 3.08 3.22 4.73

b 0 3.16 3.16

d 0 2

e 0

Berdasar pada matriks jarak pertama (tabel 2.12), dipilih kembali jarak

terdekat antar cluster. Ditemukan cluster (de) yang paling dekat, yaitu bernilai 2.

(47)

 = average{ , , , } = average{ . , . , , . } =

. + . + + . = .

= average{ , } = average{ . , . } = . + . = .

Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian

dengan cluster d dan e dihapus dan ditambahkan baris dan kolom untuk cluster (de),

sehingga matriks jarak menjadi seperti berikut ini:

Tabel 2.12 Matriks jarak kedua average linkage

ac b de

ac 0 3.08 3.97

b 0 3.16

de 0

Berdasar pada matriks jarak kedua (Tabel 2.13), dipilih kembali jarak

terdekat antar cluster. Ditemukan cluster (ac) dengan b yang paling dekat, yaitu

bernilai 3.08. Kemudian dihitung jarak dengan cluster yang tersisa, (de).

= average{ , , , , , } =

average{ . , , . , . , . , . } = . + + . + . + . + . = .

Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian

dengan cluster (ac) dan b dihapus dan ditambahkan baris dan kolom untuk cluster

(acb), sehingga matriks jarak menjadi seperti berikut ini:

Tabel 2.13 Matriks jarak ketiga average linkage acb de

acb 0 3.7

(48)

Dengan demikian proses iterasi perhitungan jarak untuk pembentukan

cluster sudah selesai karena cluster sudah tersisa satu. Jadi cluster (acb) dan (de)

digabung menjadi satu, yaitu cluster (acbde) dengan jarak rata-rata adalah 3.7.

Berikut ini adalah hasil dendrogram hasil AHC dengan single linkage:

Gambar 2.5 Dendrogram average linkage untuk 5 obyek data

3. Complete Linkage

Penghitungan jarak dengan complete linkage akan dicari jarak antar cluster

dengan yang paling jauh. Dengan tetap menggunakan tabel matriks jarak (tabel

2.8), perhitungan complete linkage ini dilakukan. Pada awal perhitungan, cluster

(ac) tetap digunakan sebagai cluster pertama karena jarak antar obyek yang paling

dekat, yaitu 1. Berikut ini akan dilakukan perhitungan jarak antara cluster (ac)

dengan b, d, dan e.

= max{ , , } = max{ , . } = .

= max{ , , } = max{ . , . } = .

(49)

Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian

dengan cluster a dan c dihapus dan ditambahkan baris dan kolom untuk cluster (ac),

sehingga matriks jarak menjadi seperti berikut ini:

Tabel 2.14 Matriks jarak pertama complete linkage

ac b d e

ac 0 3.16 3.61 5

b 0 3,16 3,16

d 0 2

e 0

Berdasar pada matriks jarak pertama (tabel 2.15), dipilih kembali jarak

terdekat antar cluster. Ditemukan cluster (de) yang paling dekat, yaitu bernilai 2.

Kemudian dihitung jarak dengan cluster yang tersisa, (ac), dan b.

= max{ , , , } = max{ . , . , , . } =

= max{ , } = max{ . , . } = .

Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian

dengan cluster d dan e dihapus dan ditambahkan baris dan kolom untuk cluster (de),

sehingga matriks jarak menjadi seperti berikut ini:

Tabel 2.15 Matriks jarak kedua complete linkage

ac b de

ac 0 3.16 5

b 0 3,16

de 0

Berdasar pada matriks jarak kedua (tabel 2.16), dipilih kembali jarak

terdekat antar cluster. Ditemukan cluster (acb) dan cluster (deb), yaitu bernilai 3.16.

(50)

antaranya. Dipilih cluster (deb). Kemudian dihitung jarak dengan cluster yang

tersisa, (ac).

= max{ , , , , , } =

max{ . , . , , . , , . } =

Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian

dengan cluster (ac) dan b dihapus dan ditambahkan baris dan kolom untuk cluster

(acb), sehingga matriks jarak menjadi seperti berikut ini:

Tabel 2.16 Matriks jarak ketiga complete linkage acb de

acb 0 5

de 0

Dengan demikian proses iterasi perhitungan jarak untuk pembentukan

cluster sudah selesai karena cluster sudah tersisa satu. Jadi cluster (acb) dan (de)

digabung menjadi satu, yaitu cluster (acbde) dengan jarak maksimum adalah 5.

Berikut ini adalah hasil dendrogram hasil AHC dengan complete linkage:

(51)

Pada bagian akhir AHC, setelah perhitungan pembentukan dendrogram,

jumlah cluster dapat ditentukan dengan memotong (cut off) bagian tertentu dari

dendrogram yang terbentuk pada jarak tertentu. Misalnya pada gambar 2.4,

dendrogram dipotong pada jarak 2,5. Dengan pemotongan ini akan terbentuk 3

cluster, yaitu (ac), (de), dan (b) dengan masing-masing obyek datanya.

Gambar 2.7 Contoh pemotongan dendrogram single linkage

2.4 Uji Akurasi Data

Data intelektual yang telah diperoleh dari Seminari Menengah Mertoyudan

dan direduksi dengan menggunakan PCA serta hasilnya diolah dengan AHC perlu

diuji akurasinya supaya diketahui validitas data tersebut. Ada beberapa teknik untuk

uji akurasi data tersebut. Karena yang digunakan adalah Metode Clustering dapat

digunakan dua jenis uji akurasi, yaitu Internal Evaluation dan External Evaluation.33

1. Internal evaluation

Internal evaluation atau yang dikenal juga dengan unsupervised validation

merupakan pengujian data cluster demi validitasnya tanpa informasi dari luar.

(52)

Validasi ini contohnya adalah cohesion, separation, silhouette coefficient, dan sum

of square error (SSE).

2. External evaluation

Dengan menggunakan external evaluation akan diketahui kedekatan antara

label cluster terbentuk dengan class yang disediakan. External evaluation ini dapat

dilakukan dengan confusion matrix, entropy, dan purity.

Pada tulisan ini yang akan digunakan untuk uji akurasi adalah internal

evaluation, secara khusus dengan menggunakan sum of square error (SSE). Setiap

percobaan cut-off untuk pembentukan cluster akan dihitung SSE-nya. Dengan cara

demikian akan didapatkan nilai SSE untuk masing-masing percobaan cutt-off dalam

pembentukan cluster. Semakin kecil nilai SSE menunjukkan bahwa cluster yang

dibentuk semakin baik pula. Formulasi SSE yang digunakan adalah sebagai

berikut34:

�� = ∑ ∑ || − ||

��∈ �

=

(2.11)

Keterangan:

 adalah jarak data di indeks

adalah rata-rata semua jarak data di cluster

Formulasi ini dapat dilakukan dengan langkah-langkah berikut ini:

1. Tentukan matriks K yang akan dihitung menggunakan SSE

34 Lior Rokach, Data Mining And Knowledge Discovery Handbook, Chapter 15: Clustering

(53)

adalah data set dari cluster

cluster adalah anggota dari matriks K

2. Jika =

3. Hitung rata-rata cluster ( ) … a

4. Lakukan langkah 5 dan 7 untuk setiap data

5. Kurangkan a dengan data di indeks ( || − || )… b

6. Hitung … c

7. c dijumlahkan untuk setiap cluster d

8. Jumlahkan total d di matriks K

(54)

36

3

BAB III

METODOLOGI

Berdasar pada landasan teori yang telah disampaikan pada bab kedua di

atas, pada bab ini akan dibahas metodologi yang digunakan dalam tulisan ini. Bab

ketiga akan dipaparkan tentang metode yang digunakan untuk pengumpulan data,

teknik analisa data, rancangan desain user interface, dan spesifikasi software dan

hardware yang digunakan dalam implementasi.

3.1 Metode Pengumpulan Data

Sekumpulan data yang diterima dari Seminari Mertoyudan diperoleh dari

arsip nilai yang ada di seminari tersebut. Selain itu juga data didapat berdasarkan

hasil wawancara dengan para pembina di seminari, termasuk karyawan bagian

pengarsipan. Dengan demikian akan diketahui dengan pasti keakuratan data

tersebut. Berikut ini adalah penjelasan lebih lanjut tentang metode pengumpulan

data yang telah dilaksanakan:

1. Studi Kepustakaan

Studi kepustakaan diperlukan untuk mencari informasi tentang dunia

pendidikan, khususnya pendidikan di seminari menengah. Selain itu, informasi

tentang data mining terutama agglomerative hierarchical clustering sangat

(55)

2. Wawancara

Metode wawancara berkaitan dengan dunia pendidikan di seminari

dilakukan beberapakali kepada pembina di seminari, terutama rektor seminari.

Selain itu, wawancara juga dilakukan dengan karyawan yang bertugas untuk

menyimpan arsip penilaian studi para seminaris. Wawancara ini sangat membantu

untuk mengerti secara benar tentang dunia pembinaan di seminari terutama dari sisi

scientia-nya. Juga, wawancara berguna untuk mengerti tentang pengolahan data

nilai para seminaris.

3. Pengumpulan Data

Setelah menerima izin secara lisan dari rektor seminari, arsip data nilai yang

ada di Seminari Mertoyudan dikumpulkan. Teknik pengumpulan data dilakukan

bersama karyawan seminari bagian arsip data. Data nilai yang ada dipilah-pilah dan

kemudian data yang dianggap relevan dikumpulkan dan diolah.

3.2 Teknik Analisis Data

Data yang telah diperoleh dari hasil pengumpulan data selanjutnya mulai

dianalisa. Berkaitan dengan tahap-tahap teknik analisis dan jalannya program

digambarkan dengan block diagram sebagai berikut:

Data Preprocessing Perhitungan

Jarak AHC Output Dendrogram

Single Average Complete Akurasi

PCA

Gambar

Tabel 2.1 Contoh data untuk PCA Data X Y
Tabel 2.2 Zero-mean untuk PCA Data X Y
Tabel 2.3 Covariance untuk PCA  X Y
tabel 3 di atas, yaitu:
+7

Referensi

Dokumen terkait

Perusahaan yang memiliki total aktiva besar menunjukkan bahwa perusahaan tersebut telah mencapai tahap kedewasaan dimana dalam tahap ini arus kas perusahaan sudah positif

Portabilitas disk Disk berada pada sebuah disk drive yang terdiri dari lengan, tangkai yang dapat menggerakkan disk, dan perangkat elektronik untuk keperluan input dan output

Tesis ini kami beri judul WANPRESTASI DAN PERBUATAN MELAWAN HUKUM; Studi Komparasi antara Hukum Islam dan Hukum Nasional dalam Penyelesaian Sengketa Ekonomi

Apakah data diperoleh dari sumber langsung (data primer) atau data diperoleh dari sumber tidak langsung (data sekunder). Pengumpulan data dapat dilakukan melalui beberapa

komprehensif untuk rnenyusun rencana pembelajaran bahasa. Teori MSA diharapkan dapat menjelaskan komponen sintaksis melalui konsep kalinrat kanonik atau sintaksis

Sedangkan hasil penelitian Nursidika (2018), terhadap 10 sampel lipstik stik yang diperjual belikan di pasar minggu kota Cimahi menggunakan spektrofotometri serapan

7,13,25 Kemudian juga didapat hubungan peningkatan aktivitas enzim GGT pada individu yang mengalami penyakit kardiovaskular atau arterosklerosis, sindrom metabolik,

Penelitian bertujuan mendapatkan metode untuk mengatasi masalah oksidasi fenol (pencokelatan yang berlebih) pada eksplan dan metode pembentukan kalus embriogenik dan