Pengolahan Data - IMPLEMENTASI DAN ANALISIS HASIL

BAB IV IMPLEMENTASI DAN ANALISIS HASIL

4.1 Implementasi

4.1.1 Pengolahan Data

Data yang digunakan dalam penelitian pengenalan pola tulisan ini berjumlah 137 data. Sejumlah data tersebut merupakan obyek primer penelitian ini. Obyek primer tersebut adalah nilai dari sisi scientia berupa nilai rapor yang bersifat

kognitif dari 137 siswa angkatan 2009 dan angkatan 2010 di Seminari Menengah St. Petrus Canisius, Mertoyudan – Magelang.

Nilai dari sisi scientia yang digunakan dalam tulisan ini adalah data dari dua angkatan siswa seminari yang dimulai dari Kelas Persiapan Pertama (KPP). Di Seminari Mertoyudan, pendidikan dilalui selama empat tahun. Jenjang pendidikan empat tahun tersebut serta jumlah seminarisnya dapat dilihat dalam tabel berikut ini.

Tabel 4.1 Jenjang kelas dan jumlah seminaris Angkatan KPP Kelas X ^{Kelas XI} ^{Kelas XII}

IPS IPA IPS IPA

2009 66 59 29 26 15 11

2010 71 69 33 25 22 14

Jumlah 137 128 62 51 37 25

Berkaitan dengan pembinaan kognitif di seminari, mata pelajaran di setiap jenjang kelas tidak dapat dilepaskan. Di dalam tulisan ini, mata pelajar menjadi atribut atau fitur dalam pengolahan data. Adapun mata pelajaran yang diikuti oleh para seminaris adalah seperti yang tampak pada tabel berikut ini.

Tabel 4.2 Mata pelajaran

KPP Kelas X

Semester 1 Semester2 Semester 1 Semester2 Pendidikan Agama Pendidikan Agama Pendidikan Agama Pendidikan Agama

PKS PKS ^Pendidikan

Kewarganegaraan

Pendidikan Kewarganegaraan Liturgi Liturgi Bahasa Indonesia Bahasa Indonesia Sejarah Gereja Sejarah Gereja Bahasa Inggris Bahasa Inggris Bahasa Indonesia Bahasa Indonesia Matematika Matematika Bahasa Inggris Bahasa Inggris Fisika Fisika Bahasa Latin Bahasa Latin Biologi Biologi Bahasa Daerah Bahasa Daerah Kimia Kimia Matematika Matematika Sejarah Sejarah

IPS IPS Ekonomi Ekonomi Pendidikan Seni Pendidikan Seni Sosiologi Sosiologi

Komputer Komputer Cantus Cantus

Metode Belajar Metode Belajar Menggambar Menggambar Sidang Akademi Sidang Akademi Penjaskes Penjaskes

TIK TIK

Bahasa Daerah Bahasa Daerah Bahasa Latin Bahasa Latin Kitab Suci Kitab Suci Kelas XI

IPS IPA

Semester 1 Semester2 Semester 1 Semester2 Pendidikan Agama Pendidikan Agama Pendidikan Agama Pendidikan Agama Pendidikan Kewarganegaraan Pendidikan Kewarganegaraan Pendidikan Kewarganegaraan Pendidikan Kewarganegaraan Bahasa Indonesia Bahasa Indonesia Bahasa Indonesia Bahasa Indonesia Bahasa Inggris Bahasa Inggris Bahasa Inggris Bahasa Inggris Matematika Matematika Matematika Matematika

Sejarah Sejarah Fisika Fisika

Geografi Geografi Kimia Kimia

Ekonomi Ekonomi Biologi Biologi

Sosiologi Sosiologi Sejarah Sejarah Seni Musik Seni Musik Cantus Cantus Penjaskes Penjaskes Seni Lukis Seni Lukis

T I K T I K Penjaskes Penjaskes

Bahasa Daerah Bahasa Daerah TIK TIK

Bahasa Latin Bahasa Latin Bahasa Daerah Bahasa Daerah Kitab Suci Kitab Suci Bahasa Latin Bahasa Latin

Kitab Suci Kitab Suci Kelas XII

IPS IPA

Sejarah Sejarah Fisika Fisika

Geografi Geografi Biologi Biologi

Sosiologi Sosiologi Sejarah Sejarah Penjaskes Penjaskes Penjaskes Penjaskes

T I K T I K TIK TIK

Bahasa Daerah Bahasa Daerah Bahasa Daerah Bahasa Daerah Bahasa Latin Bahasa Latin Bahasa Latin Bahasa Latin Kitab Suci Kitab Suci Kitab Suci Kitab Suci

Data sejumlah 137 dengan atribut berjumlah 186 ini yang akan diproses melalui tahap preprocessing, clustering, dan akhirnya perhitungan akurasi secara internal (Internal evaluation) dalam clustering yang coba dibentuk.

4.1.1.1 Preprocessing

Sebelum dilakukan proses data mining dengan menggunakan clustering, data yang digunakan terlebih dahulu melalui tahap preprocessing. Hal ini perlu dilakukan guna mengatasi masalah-masalah yang mungkin timbul seperti jumlah populasi data yang terlalu besar, banyak data yang menyimpang (anomali data), dimensi yang terlalu tinggi, banyaknya fitur yang tidak berkontribusi besar, dan lain sebagainya. Tahap-tahap processing yang dilakukan adalah:

1. Data cleaning

Data yang ditemukan merupakan data leger³⁷ para siswa Seminari Mertoyudan dari berbagai tahun angkatan. Leger tersebut berupa hasil print teks, file bertipe *.jpg hasil scan teks, dan file bertipe *.xls atau *.xlsx. Kemudian dari sejumlah data yang didapat dilakukan proses cleaning dengan memisahkan leger para seminaris angkatan tahun 2009 dan 2010. Data yang dipisahkan ini berjumlah

37 Leger adalah daftar nilai asli siswa sebelum dipindahkan ke dalam buku laporan pendidikan (Kamus Besar Bahasa Indonesia. Available at: http://kbbi.web.id/leger [Diakses tanggal 6 April 2015]).

137 dari ratusan data yang didapatkan. 137 data ini yang akan digunakan di dalam tulisan ini.

2. Data integration

Leger yang dipisahkan ini kemudian dikelola dan digabungkan dengan menggunakan Microsoft Excel dan disimpan dalam sebuah file bertipe *.xlsx. Data para seminaris angkatan tahun 2009 dan 2010 digabung menjadi satu. Nomor induk seminaris (NIS) menjadi identitas setiap data. Seminaris yang hanya sampai KPP diberi NIS tersendiri. Hal ini dilakukan guna mempermudah proses clustering untuk mengindektifikasi seminaris tertentu dalam menganalisis data.

3. Data transformation

Data yang telah digabungkan dalam satu tempat file bertipe *.xlsx ini merupakan data matriks yang berisikan tipe yang sama, yaitu nilai numerik. Secara umum, data setiap seminaris pada kelas dan jurusan tertentu apabila ia masih menjalani pendidikan diseminari, rentang nilai yang ada adalah 50-100. Namun, apabila ia sudah keluar dari seminari sebelum menyelesaikan masa pendidikannya, maka selanjutnya akan diberi nilai 0. Mata pelajaran yang semua seminaris mendapatkan nilai 0 dibuang, karena dianggap bahwa mata pelajaran tersebut tidak diadakan.

Transformasi data juga dilakukan terhadap nilai seminaris kelas XI dan XII. Pada kelas ini para seminaris telah masuk pada jurusan tertentu, baik IPA atau IPS. Transformasi yang dilakukan terhadap data adalah nilai mata pelajaran seminaris jurusan IPA pada jurusan IPS mendapat rata-rata dari nilai mata pelajaran seminaris jurusan IPS per mata pelajarannya. Sama halnya yang dilakukan untuk nilai mata

pelajaran seminaris jurusan IPS di jurusan IPA. Hal ini dilakukan setara dengan penanganan kesalahan data. Pada tahap ini juga dimungkinkan untuk dilakukan normalisasi. Normalisasi yang digunakan adalah Z-Score.

4. Data reduction

Pada tahap ini, data masuk pada tahap reduksi dimensionalitas (dimensionality reduction). Metode reduksi dimensionalitas data bekerja dengan cara tertentu untuk menangkap karakteristik data dengan memetakan data dari dimensi awal ke dimensi yang baru yang relatif lebih kecil. Proses ini menghasilkan komponen utama (principal compnent) yang kemudian dapat dijadikan fitur yang baru yang mempunyai pengaruh yang besar pada data. fitur yang berpengaruh kecil atau bahkan tidak berpengaruh dapat dibuang. Untuk proses yang demikian dalam tulisan ini digunakan metode reduksi Principal Component Analysis (PCA) seperti yang telah diterangkan dan diberi contoh hasil pada bab II (Landasan Teori) di atas.

4.1.1.2 Clustering dan Akurasi

Pengelompokkan data yang didasarkan hanya pada informasi yang ditemukan dalam data (obyek) yang menggambarkan data tersebut dan hubungan di antaranya disebut analisis kelompok (clustering analysis)³⁸. Hal ini dilakukan supaya data yang berhubungan dalam sebuah kelompok merupakan obyek yang mirip atau memiliki hubungan satu dengan yang lain atau dengan kata lain memiliki similaritas yang tinggi. Ini juga berarti obyek dalam satu kelompok tersebut berbeda atau tidak berhubungan dengan kelompok yang lain pula. Untuk mengetahui sejauh

mana pengelompokan yang dilakukan adalah baik dapat dilakukan uji akurasi dari setiap proses pembentukan kelompok dengan internal evaluation.

Di dalam tulisan ini, pengelompokan digunakan dengan agglomerative

hierarchical clustering (AHC). Setelah data melalui tahap preprocessing

selanjutnya data diproses dengan menggunakan AHC. Data para seminaris sejumlah 137 dengan fitur 186 yang digunakan diproses dengan menggunakan AHC sehingga terbentuk kelompok-kelompok. Setiap proses pembentukan kelompok tersebut diuji dengan menggunakan sum of squares error (SSE). Proses ini dilakukan dengan menggunakan sistem yang telah dibuat.

Sistem yang dibentuk dapat melakukan proses AHC dalam tiga metode, yaitu single linkage, average linkage, dan complete linkage, dengan setiap metodenya menggunakan perhitungan jarak euclidean. Hasil setiap perhitungan ditampilkan dalam tabel, dendrogram, dan visualisasi pengelompokan supaya secara visual tergambar pengelompokan obyek dan jarak antar kelompoknya.

Sejalan dengan proses AHC tersebut, SSE dihitung. Hasil perhitungan SSE setiap pembentukan kelompok, baik itu dengan metode single linkage, average

linkage, maupun complete linkage ditampilkan dalam bentuk grafik dengan

masing-masing nilai SSE-nya. Berdasarkan grafik yang dihasilkan dapat dilihat nilai SSE dari masing-masing pembentukan kelompok. Pembentukan kelompok yang memiliki nilai SSE rendah dapat dikatakan bahwa pengelompokan tersebut similaritas yang tinggi. Dengan kata lain, nilai SSE dari grafik yang dapat diambil adalah nilai ekstrim minimum dari kurva parabola pertama. Berikut ini adalah contoh hasil dari proses tersebut.

1. Single Linkage

Gambar 4.1 Implementasi – Grafik SSE single linkage

Proses pembentukan kelompok dengan menggunakan metode single

linkage menunjukkan bahwa SSE terendah bernilai 50. SSE terendah ini didapat

pada percobaan kedua menggunakan normalisasi dengan jumlah clustering 3. Dendrogram single linkage terendah ini adalah seperti tampak pada gambar 4.2.

Gambar 4.2 Implementasi – Dendrogram single linkage nilai SSE terkecil

2. Average Linkage

Dari gambar 4.3 dapat dilihat bahwa percobaan 8 dan 9 dengan menggunakan normalisasi memberikan nilai SSE terendah yang sama, yaitu 125. Pada percobaan ini kelompok yang terbentuk berjumlah 9 dan 10. Apabila dibutuhkan kelompok yang lebih sedikit dari 9, percobaan ketiga dengan normalisasi untuk pembentukan 4 kelompok dengan nilai SSE 130 dapat menjadi pilihan. Dendrogram average linkage pembentukan 4 kelompok adalah seperti tampak pada gambar 4.4 .

Gambar 4.4 Implementasi – Dendrogram average linkage dengan 4 kelompok

3. Complete Linkage

Gambar 4.5 Implementasi – Grafik SSE complete linkage

Pembentuk kelompok dengan menggunakan metode complete linkage memberikan hasil seperti tampak pada gambar 4.5. Dari grafik tersebut dapat dilihat bahwa nilai SSE terendah di dapat dalam pembentukan kelompok berjumlah 5 dan

6. Masing-masing nilai SSE tersebut sama, yaitu 149. Adapun dendrogram dari nilai SSE terendah dalam metode complete linkage seperti yang tampak pada gambar di bawah ini.

Gambar 4.6 Implementasi – Dendrogram complete linkage dengan 5 kelompok

Gambar 4.7 Implementasi – Dendrogram complete linkage dengan 6 kelompok

Dalam dokumen Pengenalan pola keberhasilan seminaris dengan menggunakan agglomerative hierarchical clustering, sebuah studi kasus atas keberhasilan studi para seminaris di Seminari Menengah St. Petrus Canisius, Mertoyudan, Magelang. (Halaman 68-77)