• Tidak ada hasil yang ditemukan

PENERAPAN ALGORITMA K-MEDOIDS DALAM PENENTUAN FAKTOR TERBESAR SUMBER INFORMASI PEMILIHAN JURUSAN DI UNJAN

Analisis Jejaring Sosial untuk Rekomendasi Personal pada Komunitas Online

PENERAPAN ALGORITMA K-MEDOIDS DALAM PENENTUAN FAKTOR TERBESAR SUMBER INFORMASI PEMILIHAN JURUSAN DI UNJAN

Yulison Herry Chrisnanto1, Gunawan Abdillah2

1,2 Jurusan Informatika Fakultas MIPA Universitas Jenderal Achmad Yani

ABSTRAK. Aplikasi data mining telah banyak digunakan pada berbagai bidang, dimana ekstraksi data dari tumpukan data dalam jangka waktu terrtentu menjadi informasi yang sebelumnya tidak diketahui telah menjadi area yang menarik untuk distudi sampai sekarang. Banyak pengembang perangkat lunak besar telah mengembangkan produk sistem manajemen basis data (DBMS) yang dilengkapi dengan proses data mining. Teknik data mining yang dikenal salah satunya adalah teknik clustering. Beberapa algoritma yang digunakan pada teknik ini antara lain k - Means, k - Medoids atau CLARA dan yang lainnya. Penelitian ini akan mengkaji algoritma k-Medoids atau lebih dikenal sebagai partitioning around medoids (PAM) yang akan diterapkan pada penentuan sumber informasi yang paling banyak digunakan oleh calon mahasiswa di Unjani dalam memilih program studi. Dengan menggunakan data sebanyak 4668 akan diterapkan proses clustering. Perhitungan jarak antara objek data dengan medoids baik di dalam maupun di luar cluster menggunakan teknik Euclidean Distance, serta uji mutu cluster menggunakan Teknik Silhoutte . Hasil dari penelitian ini menggambarkan sumber informasi terbesar bagi calon mahasiswa dalam bentuk cluster.

Kata Kunci: Data Mining, Clustering, K-Medoids

1. PENDAHULUAN

Kegiatan promosi menjelang penerimaan mahasiswa baru disetiap perguruan tinggi terutama perguruan tinggi swasta menjadi program yang sangat penting, hal tersebut dikarenakan angka perolehan penerimaan mahasiswa baru setiap tahun tergantung dari program promosi yang telah dilakukan, namun demikian jumlah peminatan untuk setiap program studi dapat beragam bahkan dapat tidak tergantung pada program promosi tingkat jurusan. Ada program studi yang memiliki peminatan cukup tinggi, meskipun program promosinya tidak dilakukan secara khusus, hal ini dapat diakibatkan oleh seberapa dikenalnya program studi tersebut oleh masyarakat. Evaluasi program promosi dapat dilakukan dengan melihat perolehan jumlah peminat untuk setiap program studi, namun demikian tingkat efektifitas program promosi yang telah dilaksanakan apabila dikaitkan dengan jumlah peminatan pada program studi sulit untuk ditentukan. Evaluasi yang dapat dilakukan hanya sebatas menentukan tingkat peminatan berdasarkan asal calon mahasiswa, wilayah mana saja serta media promosi apa saja yang memberikan kontribusi calon

mahasiswa tertinggi. Akan tetapi hasil evaluasi itu tidak sepenuhnya memberikan gambaran konkrit sumber informasi bagi calon mahasiswa mengetahui dan memutuskan untuk memilih Unjani sebagai tempat pendidikan lanjutan. Penelitian ini akan melakukan studi terhadap data mahasiswa Unjani pada kurun waktu tertentu dengan menggunakan metoda clustering , dimana metoda ini adalah metoda yang sering digunakan dalam proses penambangan data (data mining).

Hasil akhir dari penelitian ini berupa informasi yang berisi faktor berpengaruh dominan terhadap pemilihan program studi atau bidang peminatan tertentu oleh calon mahasiswa khususnya di Unjani dengan menggunakan metoda clustering, dengan demikian sumber informasi utama calon mahasiswa dalam memilih Unjani sebagai tempat menempuh pendidikan lanjutan dapat diketahui dengan jelas.

2. METODE PENELITIAN

Penelitian ini akan mengikuti alur penelitian seperti pada Gambar 1. Dimana proses penelitian dibagi menjadi tiga bagian utama, yaitu persiapan data, data mining dan presentasi.

3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17.

Gambar 1. Bagan alir penelitian

Seperti pada Gambar 1. di atas, penelitian akan dimulai dari proses persiapan kedataan, dimana data yang diperlukan bersumber pada data akademik mahasiswa seluruh Unjani yang dibatasi hanya untuk mahasiswa angkatan 2013/2014. Data tersebut merupakan data dasar yang

Automate

Persiapan Data

Desain proses data mining

Pengumpulan data calon mahasiswa baru UNJANI Tahun

Desain struktur data eksternal

Automate

Software Construction

Gambaran Sumber Informasi bagi Calon mahasiswa baru

Unjani

Menentukan rancangan skenario pengumpulan data

Desain Program Komputer

Desain struktur data internal

Automate

Tahapan Data Cleaning Desain Algoritma PAM

Prosiding ISBN 978-602-18580-3-5

Seminar Nasional Matematika, Sains dan Informatika 2015 455

perlu dilakukan proses pembersihan data, hanya data yang diperlukan saja yang akan dipilih. Tahapan persiapan data meliputi tahapan cleaning dan data warehousing. Apabila data dasar sudah memenuhi aspek kebergunaan maka data tersebut dapat diakses langsung melalui perangkat lunak. Tahap berikutnya adalah merancang proses data mining dan dilanjutkan dengan proses rancangan program komputernya. Fokus dari perangkat lunak ini adalah mengerjakan proses clustering dengan algoritma k-Medoids (PAM). Tahap akhir dari proses penelitian ini adalah menyiapkan kebutuhan informasi yang representatif[2].

Algoritma K-MEDOIDS

Clustering merupakan teknik dalam data mining yang dapat dikatagorikan sebagai model partisi data, dimana kumpulan data sebanyak N objek dipartisi menjadi k cluster. Dalam pembentukan partisi melalui mekanisme seleksi optimum yang dilakukan secara iteratif. Proses partisi dimulai dari menginisiasi objek yang akan mewakili cluster yang diinginkan, selanjutnya akan dikalkulasi objek baru yang mewakili cluster lalu dipilih berdasarkan mutu dari objek tersebut dengan melakukan pertukaran terhadap objek lama (medoids). PAM menggunakan metoda k-Medoid untuk mengidentifikasi cluster-cluster. PAM memilih sembarang objek dari sekumpulan data sebagai medoids, setiap objek k akan mewakili k class. Klasifikasi objek lain dari kumpulan data didasarkan jarak dari k-medoids. Setelah medoids terbentuk, berikutnya menentukan objek-objek dalam himpunan data dengan mengukur jarak terdekat dengan medoidsnya. Secara iteratif dipilih sebuah objek baru lalu dilakukan kalkulasi ulang dan total jarak antara medoids baru dengan medoids lama dibandingkan, nilai terkecil atau dengan kata lain hasil perbandingan jarak total bernilai < 0, maka akan menggantikan medoids lama, Berikut ini adalah algoritma k-Medoids [1]:

Input :

K: Jumlah cluster yang dikehendaki D: Dataset yang berisi objek-objek

Output :

Cluster yang berisi objek-objek yang representatif didasarkan pada kedekatan minimum jarak dengan medoid

Metoda :

Secara acak, pilih k objek di dalam D sebagai medoid awal Ulangi :

1. Tentukan objek terdekat dengan medoid

2. Secara acak pilih objek non-medoid Oacak

3. Hitung total point S untuk ditukarkan point Oj dengan Oacak

4. Jika S < 0 maka tukar Oj dengan Oacak sebagai k medoid baru

Hingga tidak ada perubahan

Salah satu cara untuk menghitung jarak setiap objek baik objek dalam cluster yang sama maupun objek diluar cluster dapat menggunakan Euclidean Distance yng digambarkan seperti pada persamaan 2.1 berikut ini[4]:

(2.1)

2.2 Uji Mutu Cluster

Untuk melihat mutu cluster dapat digunakan perhitungan Silhouette, yaitu sebuah teknik untuk melakukan evaluasi mutu dari sebuah cluster. Teknik ini merupakan metoda untuk melakukan validasi cluster, yaitu metoda yang menggabungkan metoda cohesion dan metoda

separation. Tahapan yang dilakukan dalam metoda ini antara lain:

a. Untuk setiap objek i, hitung rata-rata jarak dari objek ke i dengan seluruh objek yang berada pada satu cluster dan nilai rata-rata tersebut bernama ai

b. Untuk setiap objek i, hitung rata-rata jarak dari objek ke i dengan objek yang berada di cluster lainnya dan diambil nilai rata-rata terkecil, yang disebut bi

c. Hitung nilai koefisien Silhouette dengan persamaan [3][5]:

Si = (bi– ai) / max(ai, bi) (2.2)

3. HASIL PENELITIAN DAN PEMBAHASAN

Pada penelitian ini, algoritma clustering yang digunakan adalah k-Medoids atau lebih dikenal dengan partitioning aroud medoids (PAM), Gambar 2. berikut ini merupakan data calon mahasiswa Unjani yang akan digunakan pada proses clustering sebagai berikut :

Prosiding ISBN 978-602-18580-3-5

Seminar Nasional Matematika, Sains dan Informatika 2015 457

Berdasarkan data calon mahasiswa tersebut, dipilih atribut data sesuai dengan kebutuhan proses selanjutnya dilakukan kodefikasi dan disimpan dengan format CSV. Gambar 3 berikut ini memperlihatkan data calon mahasiswa Unjani yang siap untuk diproses menggunakan algoritma k-Medoids

Gambar 3. Data calon mahasiswa yang telah dikodekan dalam format CSV

Berdasarkan data tersebut maka selanjutnya disusun program komputer menggunakan bahasa pemrograman tertentu, dalam hal ini menggunakan PHP. Langkah pertama dalam proses konstruksi kode adalah menentukan struktur data internal dalam bentuk array dua dimensi yang akan merepresentasikan data calon mahasiswa Unjani sesuai dengan karakteristik algoritma k- Medoids. Langkah-langkah yang dilakukan pada Algoritma k-Medoids secara umum dapat dijelaskan sebagai berikut [2]:

Langkah-1: menginisiasi medoids secara acak dari kumpulan data uji. Medoids yang dipilih sebanyak 3

Langkah-2: Tentukan anggota dari setiap cluster dengan menghitung jarak terdekat dengan setiap medoids

Langkah-3: Tentukan Medoids baru, serta mengkalkulasi setiap jarak setiap objek dengan medoids baru, selanjutnya dipilih nilai terkecil dari jarak yang dihasilkan dan ditentukan sebagai Medoids baru dengan ketentuan jarak total medoids dengan objek dalam cluster < dari jarak total medoids dengan objek luar cluster.

Langkah-4 : ulangi langkah-2 hingga Medoids tidak berubah

Data uji yang digunakan pada penelitian ini diimplementasikan menggunakan struktur data array dua dimensi. Array yang dibentuk memiliki 6 (enam) kolom yang akan mewakili atribut dari data uji. Pembentukan array yang dikonstruksi menggunakan PHP. Pembentukan array dua dimensi dilakukan secara iteratif mengambil data uji yang disimpan secara eksternal sesuai

dengan atribut yang telah didefinisikan. Data yang dihasilkan sebanyak 4668 data dari 9675 data. Tidak semua data diambil sebagai data uji dengan pertimbangan waktu yang digunakan dalam proses. Proses kalkulasi yang dilakukan terhadap data internal ternyata akan dipengaruhi oleh konfigurasi web servernya terkait dengan layanan permintaan dari browsernya. Listing program di atas memperlihatkan array dua dimensi yang diberi nama DataDaftar yang akan mewakili data pendaftar Tahun 2013. Atribut pertama merupakan nomor urut data ( 0 – jumlah data-1), atribut kedua merupakan kode program studi (sesuai dengan yang berlaku di Unjani), atribut ketiga merupakan kode asal daerah calon, atribut keempat berisi kode sumber informasi calon mahasiswa baru Unjani, atribut berikutnya adalah kode kelompok, dimana kelompok ditentukan berdasarkan kolompok jenis sumber informasi antara lain : media cetak, media elektronik dan relasi. Terakhir adalah kode cluster, dimana nilai awal diinisiasi dengan nilai 99.

Berdasarkan proses konstruksi yang telah dilakukan, maka dapat ditentukan cluster sesuai dengan karakteristik setiap objek yang ada. Hasil eksekusi sistem memperlihatkan cluster yang terbentuk dengan nilai medoids awal yang ditetapkan sebanyak 3 (tiga). Ketiga medoids ini merupakan pusat dari cluster yang dibentuk berdasarkan jarak terdekat setiap objek dari masing- masing medoids. Pembentukan medoids dilakukan secara acak yang diambil dari semua objek data yang diuji. Gambar 4 berikut ini memperlihatkan pembentukan awal medoids secara acak. Berdasarkan medoids yang terbentuk, maka dapat dikalkulasi anggota cluster. Secara iteratif, medoids diperbaharui melalui perhitungan jarak antara setiap objek non-medoids dengan medoids baru yang menjadi pusat masing-masing cluster.

Prosiding ISBN 978-602-18580-3-5

Seminar Nasional Matematika, Sains dan Informatika 2015 459

Kolom ―Medoids Terpilih‖ dengan baris nomor 1, 6 dan 8 merupakan medoids baru yang

dijadikan sebagai pusat cluster, karena jarak antara medoids baru tersebut dengan setiap objek dalam cluster bernilai paling kecil. Tingkat derajat keanggotaan cluster dapat diukur dengan mengunakan persamaan Silhouette (persamaan 2.2) , dimana Si adalah jarak rata-rata Silhouette

yang dihasilkan melalui pengurangan jarak rata-rata objek di luar cluster dengan medoids salah satu cluster dibagi dengan nilai maksimum rata-rata jarak setiap objek dalam sebuah cluster dengan rata-rata jarak setiap objek di luar cluster. Jika nilai Sihaouette mendekatai 1 (Si positif),

maka tingkat derajat keanggotaan sebuah cluster dapat dikatakan baik. Hasil dari nilai Silhouette dapat dilihat pada Gambar 5 berikut ini :

Gambar 5. Hasil uji mutu cluster dengan teknik Silhoutte

Dengan menggunakan data yang sama, pengujian mutu cluster dilakukan juga menggunakan aplikasi R-Language yang hasilnya antara lain : 0.6462188, 0.06586493 dan 0.4848112 (seperti pada Gambar 6). Dengan demikian hasil yang diperoleh dari penelitian ini tidak menyimpang dari hasil Silhouette yang diperoleh dari Aplikasi R-Language. R-Language merupakan aplikasi statistik yang dapat digunakan juga untuk proses data mining[6]. Dengan hasil di atas, dapat disimpulkan bahwa proses kakulasi objek dalam setiap cluster terhadap medoids dapat berjalan dengan baik dengan jumlah iterasi yang dilakukan sebanyak 10 iterasi. Dengan jumlah data uji sebanyak 4668 data. Hasil dari proses clustering dengan algoritma k-Medoids dapat dilihat seperti pada Gambar 7, dimana sumber informasi ditunjukan melalui angka prosentase.

Gambar 7. Hasil proses k-Medoids clustering

Setelah proses implementasi dilakukan, maka dapat dilihat hasil eksekusi perangkat lunak yang merepresentasikan penerapan data mining yang menggunakan algoritma k-Medoids seperti pada Gambar 7 di atas. Intepretasi atas hasil proses data mining tersebut dapat dijelaskan seperti pada Tabel 1 sebagai berikut :

Tabel 1. Intepretasi terhadap hasil data mining dengan K-Medoids

No Cluster Intepretasi Sumber Informasi

terbanyak

1 0 Sebaran terbesar dari objek merupakan prodi yang berada pada Fakultas Teknik

Internet, teman dan brosur 2 1 Sebaran terbesar dari objek merupakan

prodi yang berada pada Fakultas Mipa

Internet, teman dan Alumni Unjani

3 2 Sebaran terbesar dari objek merupakan prodi yang berada pada Fakultas Isip

Internet, teman dan brosur

Media intenet merupakan cara yang paling diminati untuk mengakses informasi terkait penerimaan mahasiswa baru di Unjani, selanjutnya adalah relasi atau teman, dimana mekanisme ini merupakan penyebaran informasi dari mulut ke mulut dengan melihat kepuasan layanan yang menghasilkan rekomendasi. Terakhir adalah dari brosur yang diperoleh serta almuni Unjani itu sendiri.

Fakultas Teknik dan Fakultas ISIP memiliki kesamaan mayoritas sumber informasi bagi calon mahasiswa baru di Unjani, sedangkan Fakultas MIPA sumber informasi terbanyak lainnya yang bersumber dari para alumni itu sendiri. Sudah barang tentu sumber informasi yang berkorelasi dengan program studi atau fakultas akan dipengaruhi oleh kode yang diberikan pada masing-masing prodi tersebut, hal ini dikarenakan proses kalulasi clustering didasarkan data

Prosiding ISBN 978-602-18580-3-5

Seminar Nasional Matematika, Sains dan Informatika 2015 461

numerik dari nilai masing-masing atribut data uji yang digunakan. Namun demikian proses yang sudah dilakukan dapat mewakili mekanisme pembentukan cluster berdasarkan teknik k-medoids.

4. KESIMPULAN

Dari penelitian yang telah dilakukan dapat disimpulkan hal-hal sebagai berikut :

a. Penerapan algoritma k-Medoids dalam proses data mining clustering memperlihatkan hasil yang baik, hal ini dapat dilihat dari hasil pembentukan objek-objek yang tersebar pada ketiga cluster. Berdasarkan data yang diberikan, setiap cluster memiliki karakteristik yang berbeda, namun demikian nilai objek pada kasus ini masih belum memadai, hal ini dikarenakan sumber data yang diolah memiliki nilai atribut yang berupa string, sehingga perlu dilakukan proses pemadanan secara cermat dalam bentuk numerik. Nilai objek akan dipengaruhi oleh pengkodean yang diberikan, sehingga hasil dari kalkulasi belum sepenuhnya dapat merepresentasikan tujuan dari penelitian ini.

b. Algoritma clustering dengan teknik k-Medoids kurang dapat menangani jumlah data yang besar, sehingga dalam penelitian ini data yang digunakan sebanyak 4668 data. Dengan proses pembentukan medoids sebanyak 10 iterasi dengan konsumsi waktu sebesar 9,1 menit, dengan demikian untuk jumlah data yang lebih besar dapat dipertimbangkan untuk menggunakan tools pengkonstruksi kode yang lebih tepat.

DAFTAR PUSTAKA

[1] Yulison Herry Chrisnanto, Algoritma Partitioning Around Medoids (PAM) Sebagai Teknik Clustering pada Data Mining, Majalah Ilmiah MIPA Unjani, Aristoteles Volume 11 Nomor 1 Oktober 2013, ISBN : 1693-5543

[2] Yulison Herry Chrisnanto, Gunawan Abdillah, Penerapan Algoritma Partitioning Around Medoids (PAM) Clustering untuk Melihat Gambaran Umum Kemampuan Akademik Mahasiswa, Proceeding SENTIKA 2015, ISSN : 2089-9815

[3] Moh‘d Belal Al-Zoubi, Mohammad al Rawi. An Efficient Approach for Computing Silhouette Coefficients, Journal of Computer Science 4 (3):252-255, 2008

[4] Jiawei Han, Micheline Kamber, Jian Pei, Data Mining Concepts and Tehcniques, third edidtion, Morgan Kaufmann, 2012

[5] Peter Grabusts, The Choice of Metric For Clustering Algorithms. Proceeding of the 8th International Scientific and Practical Conference. Volume II, ISSN 1691-5402, ISBN 978- 9984-44-071-2. Environment. Technology.Resources

[6] Luis Torgo. Data Mining with R: learning by case studies. LIACC-FEP, University of Porto. 2003

Seminar Nasional Matematika, Sains dan Informatika 2015 463