BAB IV IMPLEMENTASI DAN ANALISIS HASIL
4.1 Implementasi
4.1.1 Pengolahan Data
Data yang digunakan dalam penelitian pengenalan pola tulisan ini berjumlah 137 data. Sejumlah data tersebut merupakan obyek primer penelitian ini. Obyek primer tersebut adalah nilai dari sisi scientia berupa nilai rapor yang bersifat
kognitif dari 137 siswa angkatan 2009 dan angkatan 2010 di Seminari Menengah St. Petrus Canisius, Mertoyudan – Magelang.
Nilai dari sisi scientia yang digunakan dalam tulisan ini adalah data dari dua angkatan siswa seminari yang dimulai dari Kelas Persiapan Pertama (KPP). Di Seminari Mertoyudan, pendidikan dilalui selama empat tahun. Jenjang pendidikan empat tahun tersebut serta jumlah seminarisnya dapat dilihat dalam tabel berikut ini.
Tabel 4.1 Jenjang kelas dan jumlah seminaris Angkatan KPP Kelas X Kelas XI Kelas XII
IPS IPA IPS IPA
2009 66 59 29 26 15 11
2010 71 69 33 25 22 14
Jumlah 137 128 62 51 37 25
Berkaitan dengan pembinaan kognitif di seminari, mata pelajaran di setiap jenjang kelas tidak dapat dilepaskan. Di dalam tulisan ini, mata pelajar menjadi atribut atau fitur dalam pengolahan data. Adapun mata pelajaran yang diikuti oleh para seminaris adalah seperti yang tampak pada tabel berikut ini.
Tabel 4.2 Mata pelajaran
KPP Kelas X
Semester 1 Semester2 Semester 1 Semester2 Pendidikan Agama Pendidikan Agama Pendidikan Agama Pendidikan Agama
PKS PKS Pendidikan
Kewarganegaraan
Pendidikan Kewarganegaraan Liturgi Liturgi Bahasa Indonesia Bahasa Indonesia Sejarah Gereja Sejarah Gereja Bahasa Inggris Bahasa Inggris Bahasa Indonesia Bahasa Indonesia Matematika Matematika Bahasa Inggris Bahasa Inggris Fisika Fisika Bahasa Latin Bahasa Latin Biologi Biologi Bahasa Daerah Bahasa Daerah Kimia Kimia Matematika Matematika Sejarah Sejarah
IPS IPS Ekonomi Ekonomi Pendidikan Seni Pendidikan Seni Sosiologi Sosiologi
Komputer Komputer Cantus Cantus
Metode Belajar Metode Belajar Menggambar Menggambar Sidang Akademi Sidang Akademi Penjaskes Penjaskes
TIK TIK
Bahasa Daerah Bahasa Daerah Bahasa Latin Bahasa Latin Kitab Suci Kitab Suci Kelas XI
IPS IPA
Semester 1 Semester2 Semester 1 Semester2 Pendidikan Agama Pendidikan Agama Pendidikan Agama Pendidikan Agama Pendidikan Kewarganegaraan Pendidikan Kewarganegaraan Pendidikan Kewarganegaraan Pendidikan Kewarganegaraan Bahasa Indonesia Bahasa Indonesia Bahasa Indonesia Bahasa Indonesia Bahasa Inggris Bahasa Inggris Bahasa Inggris Bahasa Inggris Matematika Matematika Matematika Matematika
Sejarah Sejarah Fisika Fisika
Geografi Geografi Kimia Kimia
Ekonomi Ekonomi Biologi Biologi
Sosiologi Sosiologi Sejarah Sejarah Seni Musik Seni Musik Cantus Cantus Penjaskes Penjaskes Seni Lukis Seni Lukis
T I K T I K Penjaskes Penjaskes
Bahasa Daerah Bahasa Daerah TIK TIK
Bahasa Latin Bahasa Latin Bahasa Daerah Bahasa Daerah Kitab Suci Kitab Suci Bahasa Latin Bahasa Latin
Kitab Suci Kitab Suci Kelas XII
IPS IPA
Semester 1 Semester2 Semester 1 Semester2 Pendidikan Agama Pendidikan Agama Pendidikan Agama Pendidikan Agama Pendidikan Kewarganegaraan Pendidikan Kewarganegaraan Pendidikan Kewarganegaraan Pendidikan Kewarganegaraan Bahasa Indonesia Bahasa Indonesia Bahasa Indonesia Bahasa Indonesia Bahasa Inggris Bahasa Inggris Bahasa Inggris Bahasa Inggris Matematika Matematika Matematika Matematika
Sejarah Sejarah Fisika Fisika
Geografi Geografi Biologi Biologi
Sosiologi Sosiologi Sejarah Sejarah Penjaskes Penjaskes Penjaskes Penjaskes
T I K T I K TIK TIK
Bahasa Daerah Bahasa Daerah Bahasa Daerah Bahasa Daerah Bahasa Latin Bahasa Latin Bahasa Latin Bahasa Latin Kitab Suci Kitab Suci Kitab Suci Kitab Suci
Data sejumlah 137 dengan atribut berjumlah 186 ini yang akan diproses melalui tahap preprocessing, clustering, dan akhirnya perhitungan akurasi secara internal (Internal evaluation) dalam clustering yang coba dibentuk.
4.1.1.1 Preprocessing
Sebelum dilakukan proses data mining dengan menggunakan clustering, data yang digunakan terlebih dahulu melalui tahap preprocessing. Hal ini perlu dilakukan guna mengatasi masalah-masalah yang mungkin timbul seperti jumlah populasi data yang terlalu besar, banyak data yang menyimpang (anomali data), dimensi yang terlalu tinggi, banyaknya fitur yang tidak berkontribusi besar, dan lain sebagainya. Tahap-tahap processing yang dilakukan adalah:
1. Data cleaning
Data yang ditemukan merupakan data leger37 para siswa Seminari Mertoyudan dari berbagai tahun angkatan. Leger tersebut berupa hasil print teks, file bertipe *.jpg hasil scan teks, dan file bertipe *.xls atau *.xlsx. Kemudian dari sejumlah data yang didapat dilakukan proses cleaning dengan memisahkan leger para seminaris angkatan tahun 2009 dan 2010. Data yang dipisahkan ini berjumlah
37 Leger adalah daftar nilai asli siswa sebelum dipindahkan ke dalam buku laporan pendidikan (Kamus Besar Bahasa Indonesia. Available at: http://kbbi.web.id/leger [Diakses tanggal 6 April 2015]).
137 dari ratusan data yang didapatkan. 137 data ini yang akan digunakan di dalam tulisan ini.
2. Data integration
Leger yang dipisahkan ini kemudian dikelola dan digabungkan dengan menggunakan Microsoft Excel dan disimpan dalam sebuah file bertipe *.xlsx. Data para seminaris angkatan tahun 2009 dan 2010 digabung menjadi satu. Nomor induk seminaris (NIS) menjadi identitas setiap data. Seminaris yang hanya sampai KPP diberi NIS tersendiri. Hal ini dilakukan guna mempermudah proses clustering untuk mengindektifikasi seminaris tertentu dalam menganalisis data.
3. Data transformation
Data yang telah digabungkan dalam satu tempat file bertipe *.xlsx ini merupakan data matriks yang berisikan tipe yang sama, yaitu nilai numerik. Secara umum, data setiap seminaris pada kelas dan jurusan tertentu apabila ia masih menjalani pendidikan diseminari, rentang nilai yang ada adalah 50-100. Namun, apabila ia sudah keluar dari seminari sebelum menyelesaikan masa pendidikannya, maka selanjutnya akan diberi nilai 0. Mata pelajaran yang semua seminaris mendapatkan nilai 0 dibuang, karena dianggap bahwa mata pelajaran tersebut tidak diadakan.
Transformasi data juga dilakukan terhadap nilai seminaris kelas XI dan XII. Pada kelas ini para seminaris telah masuk pada jurusan tertentu, baik IPA atau IPS. Transformasi yang dilakukan terhadap data adalah nilai mata pelajaran seminaris jurusan IPA pada jurusan IPS mendapat rata-rata dari nilai mata pelajaran seminaris jurusan IPS per mata pelajarannya. Sama halnya yang dilakukan untuk nilai mata
pelajaran seminaris jurusan IPS di jurusan IPA. Hal ini dilakukan setara dengan penanganan kesalahan data. Pada tahap ini juga dimungkinkan untuk dilakukan normalisasi. Normalisasi yang digunakan adalah Z-Score.
4. Data reduction
Pada tahap ini, data masuk pada tahap reduksi dimensionalitas (dimensionality reduction). Metode reduksi dimensionalitas data bekerja dengan cara tertentu untuk menangkap karakteristik data dengan memetakan data dari dimensi awal ke dimensi yang baru yang relatif lebih kecil. Proses ini menghasilkan komponen utama (principal compnent) yang kemudian dapat dijadikan fitur yang baru yang mempunyai pengaruh yang besar pada data. fitur yang berpengaruh kecil atau bahkan tidak berpengaruh dapat dibuang. Untuk proses yang demikian dalam tulisan ini digunakan metode reduksi Principal Component Analysis (PCA) seperti yang telah diterangkan dan diberi contoh hasil pada bab II (Landasan Teori) di atas.
4.1.1.2 Clustering dan Akurasi
Pengelompokkan data yang didasarkan hanya pada informasi yang ditemukan dalam data (obyek) yang menggambarkan data tersebut dan hubungan di antaranya disebut analisis kelompok (clustering analysis)38. Hal ini dilakukan supaya data yang berhubungan dalam sebuah kelompok merupakan obyek yang mirip atau memiliki hubungan satu dengan yang lain atau dengan kata lain memiliki similaritas yang tinggi. Ini juga berarti obyek dalam satu kelompok tersebut berbeda atau tidak berhubungan dengan kelompok yang lain pula. Untuk mengetahui sejauh
mana pengelompokan yang dilakukan adalah baik dapat dilakukan uji akurasi dari setiap proses pembentukan kelompok dengan internal evaluation.
Di dalam tulisan ini, pengelompokan digunakan dengan agglomerative
hierarchical clustering (AHC). Setelah data melalui tahap preprocessing
selanjutnya data diproses dengan menggunakan AHC. Data para seminaris sejumlah 137 dengan fitur 186 yang digunakan diproses dengan menggunakan AHC sehingga terbentuk kelompok-kelompok. Setiap proses pembentukan kelompok tersebut diuji dengan menggunakan sum of squares error (SSE). Proses ini dilakukan dengan menggunakan sistem yang telah dibuat.
Sistem yang dibentuk dapat melakukan proses AHC dalam tiga metode, yaitu single linkage, average linkage, dan complete linkage, dengan setiap metodenya menggunakan perhitungan jarak euclidean. Hasil setiap perhitungan ditampilkan dalam tabel, dendrogram, dan visualisasi pengelompokan supaya secara visual tergambar pengelompokan obyek dan jarak antar kelompoknya.
Sejalan dengan proses AHC tersebut, SSE dihitung. Hasil perhitungan SSE setiap pembentukan kelompok, baik itu dengan metode single linkage, average
linkage, maupun complete linkage ditampilkan dalam bentuk grafik dengan
masing-masing nilai SSE-nya. Berdasarkan grafik yang dihasilkan dapat dilihat nilai SSE dari masing-masing pembentukan kelompok. Pembentukan kelompok yang memiliki nilai SSE rendah dapat dikatakan bahwa pengelompokan tersebut similaritas yang tinggi. Dengan kata lain, nilai SSE dari grafik yang dapat diambil adalah nilai ekstrim minimum dari kurva parabola pertama. Berikut ini adalah contoh hasil dari proses tersebut.
1. Single Linkage
Gambar 4.1 Implementasi – Grafik SSE single linkage
Proses pembentukan kelompok dengan menggunakan metode single
linkage menunjukkan bahwa SSE terendah bernilai 50. SSE terendah ini didapat
pada percobaan kedua menggunakan normalisasi dengan jumlah clustering 3. Dendrogram single linkage terendah ini adalah seperti tampak pada gambar 4.2.
Gambar 4.2 Implementasi – Dendrogram single linkage nilai SSE terkecil
2. Average Linkage
Dari gambar 4.3 dapat dilihat bahwa percobaan 8 dan 9 dengan menggunakan normalisasi memberikan nilai SSE terendah yang sama, yaitu 125. Pada percobaan ini kelompok yang terbentuk berjumlah 9 dan 10. Apabila dibutuhkan kelompok yang lebih sedikit dari 9, percobaan ketiga dengan normalisasi untuk pembentukan 4 kelompok dengan nilai SSE 130 dapat menjadi pilihan. Dendrogram average linkage pembentukan 4 kelompok adalah seperti tampak pada gambar 4.4 .
Gambar 4.4 Implementasi – Dendrogram average linkage dengan 4 kelompok
3. Complete Linkage
Gambar 4.5 Implementasi – Grafik SSE complete linkage
Pembentuk kelompok dengan menggunakan metode complete linkage memberikan hasil seperti tampak pada gambar 4.5. Dari grafik tersebut dapat dilihat bahwa nilai SSE terendah di dapat dalam pembentukan kelompok berjumlah 5 dan
6. Masing-masing nilai SSE tersebut sama, yaitu 149. Adapun dendrogram dari nilai SSE terendah dalam metode complete linkage seperti yang tampak pada gambar di bawah ini.
Gambar 4.6 Implementasi – Dendrogram complete linkage dengan 5 kelompok
Gambar 4.7 Implementasi – Dendrogram complete linkage dengan 6 kelompok