PENERAPAN DATA MINING UNTUK MENDUKUNG STRATEGI PROMOSI POLITEKNIK LPKIA MENGGUNAKAN ALGORITMA K-MEANS CLUSTERING
APPLICATION OF DATA MINING TO SUPPORT THE PROMOTION STRATEGY OF POLITECHNIC LPKIA USING K-MEANS CLUSTERING ALGORITHM
Wahyu Nurjaya WK1, Iman Firmansyah2 1 Dosen Sistem Informasi, STMIK LPKIA Bandung 2 Program Teknik Informatika, STMIK LPKIA Bandung
3 Jl. Soekarno Hatta No. 456 Bandung 40266, Telp. +62 22 75642823, Fax. +62 22 7564282
1 [email protected], 2 [email protected]
Abstrak
Proses penerimaan mahasiswa baru di Politeknik LPKIA akan menghasilkan data mahasiswa yang sangat berlimpah berupa data mahasiswa dan data kegiatan belajar mengajar. Hal tersebut terjadi secara berulang dan menimbulkan penumpukan data mahasiswa. Penelitian ini bertujuan untuk melakukan pengelompokan terhadap data mahasiswa LPKIA dengan memanfaatkan proses data mining dengan menggunakan teknik clustering. Metode yang digunakan adalah CRISP-DM, melalui proses business understanding, data understanding, data preparation, modeling, evaluation dan deployment.
Algoritma yang digunakan untuk pembentukan cluster adalah algoritma K-Means. K-Means merupakan salah satu metode data non-hierarchical clustering yang dapat mengelompokkan data mahasiswa ke dalam beberapa cluster berdasarkan kemiripan dari data tersebut, sehingga data mahasiswa yang memiliki karakteristik yang sama dikelompokkan dalam satu cluster dan yang memiliki karakteristik yang berbeda dikelompokkan dalam cluster yang lain. Atribut yang digunakan adalah kota asal, konsentrasi dan IPK mahasiswa. Cluster yang terbentuk berjumlah tiga cluster, dengan cluster pertama 516 mahasiswa, cluster kedua 250 mahasiswa dan cluster ketiga sejumlah 31 mahasiswa. Hasil dari penelitian ini dapat digunakan sebagai salah satu dasar pengambilan keputusan untuk menentukan strategi promosi berdasarkan cluster yang terbentuk oleh pihak institusi.
Metode perancangan perangkat lunaknya sendiri menggunakan pendekataan object oriented programming. Selain mudah digunakan, metode ini juga mudah dalam pemeliharaan perangkat lunak. Pemodelan pada metode ini menggunakan notasi UML (Unified Modeling Language) yang terdiri dari berbagai macam diagram seperti use case diagram, activity diagram, class diagram, sequence diagram, statechart diagram, component diagram serta deployment diagram. Pembuatan aplikasi ini menggunakan web framework yii dengan menggunakan bahasa php. Aplikasi ini menggunakan database MySQL sebagai sarana penyimpanan data.
Kata kunci Data Mining, K-Means, OOP
Abstract
The process of admission of new students in Polytechnic LPKIA will produce student data which is abundant in the form of student data and data of teaching and learning activities. This happens repeatedly and leads to accumulation of student data.This study aims to perform grouping of LPKIA student data by utilizing data mining process by using clustering technique. The method used is CRISP-DM, through the process of business understanding, data understanding, data preparation, modeling, evaluation and deployment.
The algorithm used for cluster formation is the K-Means algorithm. K-Means is one method of non-hierarchical clustering data that can classify student data into several clusters based on similarity of the data, so that student data that have the same characteristics are grouped in one cluster and that have different characteristics grouped in another cluster . Attributes used are the city of origin, concentration and student's GPA. The clusters formed consisted of three clusters, with the first cluster of 516 students, the second cluster of 250 students and the third cluster of 31 students. The results of this study can be used as one of the basic decision-making to determine promotion strategy based on clusters formed by the institution.
The method of designing the software itself using object object oriented alignment. In addition to easy to use, this method is also easy in software maintenance. Modeling on this method uses UML notation (Unified Modeling Language) which consists of various diagrams such as use case diagrams, activity diagrams, class diagrams, sequence diagrams, statechart diagrams, component diagrams and deployment diagrams.
Making this application using web framework yii by using php language. This application uses MySQL database as a means of data storage.
1. Pendahuluan 1.1. Latar Belakang
Konsep data mining merupakan bagian dari konsep teknologi informasi yang berkaitan dengan data dan informasi. Gupta dan Anggarwal dalam (Kurniawan, 2015) menyatakan konsep data mining sebagai proses atau teknik pemodelan yang mempergunakan analisis dengan variasi data yang banyak untuk mendapatkan pola dan hubungan diantara variasi data tersebut. Fadli dalam (Kurniawan, 2015), kehadiran data mining dilatarbelakangi dengan adanya masalah data explosion atau ledakan data yang dialami oleh banyak organisasi yang telah mengumpulkan data sekian tahun lamanya (data pembelian, data penjualan, data nasabah, data transaksi, dan data-data lainnya).
Data pembelian, data penjualan, data nasabah, data transaksi, dan data lain dalam perusahaan diperoleh oleh perusahaan dari kegiatan operasional yang dilakukan perusahaan. Perusahaan-perusahaan besar dalam berbagai industri, misalnya manufaktur, perbankan, dan retail atau transaksi kartu kredit dari sebuah bank dalam seharinya tentu akan menghasilkan banyak data dan di dalam data tersebut dapat terkandung informasi yang penting bagi perusahaan. Adanya banyak data dalam perusahaan inilah yang disebut dengan data explosion atau ledakan data.
Fadli dalam (Kurniawan, 2015), dapat dibayangkan besarnya ukuran data yang didapatkan jika nanti proses ini telah berjalan beberapa tahun dan sangat rugi bagi perusahaan jika dari data-data tersebut tidak didapatkan sebuah informasi. Banyak diantara perusahaan-perusahaan yang memiliki banyak data tapi miskin informasi. Rygielski et al. dalam (Kurniawan, 2015) berpendapat bahwa data mining bertujuan untuk mengekstrak atau mendapatkan informasi tersembunyi dari database yang besar. Informasi yang tersembunyi nantinya dapat dipergunakan oleh manajemen sebagai dasar dalam pengambilan keputusan yang terkait dengan bisnis perusahaan. (Fadli, 2011) menyebutkan penggunaan aplikasi data mining di Indonesia lebih banyak dipakai dalam perbankan, industri, dan jasa.
Penerapan teknologi informasi dalam dunia pendidikan akan menghasikan data yang berlimpah. Pada institusi pendidikan, khususnya perguruan tinggi data dapat diperoleh dari data historis mahasiswa, seperti profil dari mahasiswa tersebut. Pengolahan data mahasiswa perlu dilakukan untuk mengetahui informasi penting berupa pengetahuan baru (knowledge discovery), misalnya informasi mengenai pengelompokan data mahasiswa berpotensi berdasarkan kota asal mahasiswa. Pengetahuan baru tersebut dapat membantu pihak perguruan tinggi dalam menentukan strategi promosi terhadap calon mahasiswa baru dengan tepat sasaran.
STMIK & Politeknik LPKIA Bandung merupakan salah satu institusi yang bergerak dalam dunia pendidikan dan setiap tahunnya selalu
melahirkan bibit – bibit unggul dibidang informatika, bisnis, pemasaran, keuangan dan lain sebagainya. Selain bertujuan untuk menghasilkan mahasiswa dan mahasiswi yang kompeten, hal terpenting lainnya dari STMIK & Politeknik LPKIA yaitu memperhatikan jumlah mahasiswa baru yang masuk setiap tahunnya. Saat ini, semakin banyak jumlah perguruan tinggi yang berkembang membuat persaingan dalam penerimaan mahasiswa baru semakin ketat. Setiap institusi pendidikan ingin mendapatkan strategi promosi yang lebih baik guna menarik minat calon mahasiswa baru. Adapun cara dalam menentukan strategi promosi yang tepat, dapat mengurangi biaya promosi dan mencapai sasaran promosi yang tepat. Bila sasaran promosi tidak ditentukan secara baik, dalam arti tidak diupayakan mencari sasaran promosi yang potensial, maka hanya akan menghabiskan banyak waktu dan biaya yang seharusnya bisa diminimalisir melalui pemilihan target promosi yang baik. Inilah yang menyebabkan biaya operasional dalam melakukan strategi promosi kepada calon mahasiswa menjadi tinggi. Persoalan ini merupakan salah satu persoalan yang dapat diatasi oleh data mining dari sekian banyak potensi permasalahan yang ada. Aplikasi data mining dapat menambang data mahasiswa untuk melihat manakah wilayah yang memang potensial untuk mendaftarkan calon mahasiswa. Mungkin tidak sampai presisi 100%, tapi jika dapat menyaring 20% saja dari data yang ada, tentunya 80% dana untuk periklanan dapat digunakan untuk hal lainnya.
Mengingat begitu pentingnya data mining terhadap operasional suatu organisasi, khusus-nya untuk perguruan tinggi, maka sudah seharusnya manajemen menerapkan konsep data mining dan melihat manfaatnya untuk mendukung strategi promosi yang dilakukan. Jika data mining dilakukan dengan baik dalam bisnis perusahaan, diharapkan bisnis perusahaan akan semakin baik kedepannya. 2. Dasar Teori
2.1. Data Mining
Fadli dalam (Kurniawan, 2015), data mining merupakan salah satu cabang ilmu komputer yang relatif baru. Sampai sekarang masih terjadi perdebatan untuk menempatkan data mining di bidang ilmu apa karena data mining menyangkut database, kecerdasan buatan (artificial intelligence), statistik, dan sebagainya. Ada pihak yang berpendapat bahwa data mining tidak lebih dari machine learning atau analisa statistik yang berjalan di atas database. Pihak lain berpendapat bahwa database berperanan penting di data mining karena data mining mengakses data yang ukurannya besar (ukuran data dapat mencapai terabyte) dan disini terlihat peran penting database terutama dalam optimisasi query-nya.
Sucahyo dalam (Kurniawan, 2015), definisi sederhana dari data mining adalah mengekstraksi informasi atau pola yang penting atau menarik dari data yang ada di database yang besar. Dalam jurnal ilmiah, data mining juga dikenal dengan nama Knowledge Discovery in Databases (KDD).
Kapiudin dalam (Kurniawan, 2015) menyebutkan data mining merupakan bidang penelitian inter disiplin yang intinya adalah gabungan antara machine learning, statistic, dan database. Pada dasarnya data mining bertujuan untuk mengekstraksi pengetahuan yang masih tersembunyi dari data yang sangat besar yang hasilnya tidak hanya akurat tetapi harus dapat dipahami oleh pengguna.
Sifat mudah dapat dipahami sangat penting bilamana pencarian pengetahuan akan digunakan untuk mendukung sebuah keputusan yang dibuat oleh pengguna, dalam hal ini biasanya pihak manajemen suatu perusahaan. Mabrur dan Lubis dalam (Kurniawan, 2015), kemampuan data mining untuk mencari informasi bisnis yang berharga dari basis data yang sangat besar dapat dianalogikan dengan penambangan logam mulia dari lahan sumbernya. Teknologi atau aplikasi data mining ini dapat dipakai untuk:
1. Prediksi trend dan sifat-sifat bisnis, dimana data mining mengotomatisasi proses pencarian informasi di dalam basis data yang besar. 2. Penemuan pola-pola yang tidak diketahui
sebelumnya, dimana data mining “menyapu” basis data, kemudian mengidentifikasi pola-pola yang sebelumnya tersembunyi.
Menurut (Turban E. J., 2005),
“Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar”.
Istilah data mining memiliki hakikat sebagai disiplin ilmu yang tujuan utamanya adalah untuk menemukan, menggali, atau menambang pengetahuan dari data atau informasi yang kita miliki. Data mining, sering juga disebut sebagai Knowledge Discovery in Database (KDD).
KDD adalah kegiatan yang meliputi pengumpulan, pemakaian data, historis untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar (Santosa, 2007). Santosa dalam (Mujib Ridwan, 2013) menyebutkan secara garis besar metode pelatihan yang digunakan dalam teknik-teknik data mining dibedakan ke dalam dua pendekatan, yaitu:
a. Unsupervised learning, metode ini dierapkan tanpa adanya latihan (training) dan tanpa ada guru (teacher). Guru di sini adalah label dari data.
b. Supervised learning, yaitu metode belajar dengan adanya latihan dan pelatih.
Dalam pendekatan ini, untuk menemukan fungsi keputusan, fungsi pemisah atau fungsi regresi, digunakan beberapa contoh data yang mempunyai output atau label selama proses training.
2.2. Teknik Data Mining
Teknik Data Maining digunakan untuk memeriksa basis data berukuran besar sebagai cara untuk menemukan pola yang baru dan berguna. Tidak semua pekerjaan pencarian informasi dinyatakan sebagai Data Maining. Sebagai contoh, pencarian record individual menggunakan database management system atau pencarian web tertentu melalui query kesemua searce engine adalah pekerjaan pencarian informasi yang erat kaitannya dengan information retrieval. Teknik-teknik data maining dapat digunakan untuk meningkatkan kemampuan sistem-sistem information retrieval.
Ada beberapa teknik yang dimiliki data mining berdasarkan tugas yang bisa dilakukan, yaitu (Larose, 2005):
a. Deskripsi
Para peneliti biasanya mencoba menemukan cara untuk mendeskripsikan pola dan trend yang tersembunyi dalam data.
b. Estimasi
Estimasi mirip dengan klasifikasi, kecuali variabel tujuan yang lebih kearah numerik dari pada kategori.
c. Prediksi
Prediksi memiliki kemiripan dengan estimasi dan klasifikasi. Hanya saja, prediksi hasilnya menunjukkan sesuatu yang belum terjadi (mungkin terjadi di masa depan).
d. Klasifikasi
Dalam klasifikasi variabel, tujuan bersifat kategorik. Misalnya, kita akan mengklasifikasikan pendapatan dalam tiga kelas, yaitu pendapatan tinggi, pendapatan sedang, dan pendapatan rendah.
e. Clustering
Clustering lebih ke arah pengelompokan record, pengamatan, atau kasus dalam kelas yang memiliki kemiripan.
f. Asosiasi
Mengidentifikasi hubungan antara berbagai peristiwa yang terjadi pada satu waktu.
2.3. Tahapan Data Mining
Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa tahap proses. Tahap-tahap tersebut bersifat interaktif, pemakai terlibat langsung atau dengan perantaraan knowledge base.
Gambar II. 1 Tahapan Data Mining (Kamber, 2006) Tahap-tahap data mining adalah sebagai berikut:
a. Pembersihan data (data cleaning)
Pembersihan data merupakan proses menghilang-kan noise dan data yang tidak konsisten atau data tidak relevan.
b. Integrasi data (data integration)
Integrasi data merupakan penggabungan data dari berbagai database ke dalam satu database baru.
c. Seleksi data (data selection)
Data yang ada pada database sering kali tidak semuanya dipakai, oleh karena itu hanya data yang sesuai untuk dianalisis yang akan diambil dari database.
d. Transformasi data (data transformation) Data diubah atau digabung ke dalam format yang sesuai untuk diproses dalam data mining. e. Proses mining
Merupakan suatu proses utama saat metode diterapkan untuk menemukan pengetahuan berharga dan tersembunyi dari data.
2.4. Metode Data Mining
CRISP-DM (Cross Industry Standard Process for Data Mining) merupakan suatu konsorsium perusahaan yang didirikan oleh Komisi Eropa pada tahun 1996 dan telah ditetapkan sebagai proses standar dalam data mining yang dapat diaplikasikan di berbagai sektor industri.
Menurut Larose dalam (Ramadhani, 2014), data mining memiliki enam fase CRISP-DM (Cross Industry Standard Process for Data Mining).
a. Fase Pemahaman Bisnis (Business Understanding Phase)
b. Fase Pemahaman Data (Data Understanding Phase)
c. Fase Pengolahan Data (Data Preparation Phase)
d. Fase Pemodelan (Modeling Phase) e. Fase Evaluasi (Evaluation Phase) f. Fase Penyebaran (Deployment Phase)
Gambar II. 2 Fase CRISP-DM (Larose, 2005) 2.5. Algoritma K-Means Clustering
Algoritma k-means merupakan salah satu algoritma yang mudah dan kerap digunakan di dalam teknik pengelompokan karena melibatkan pengiraan yang efisien dan tidak memerlukan banyak parameter. K-Means menggunakan k kelompok yang telah ditetapkan (k kelompok pertama sebagai centroid) dan secara berterusan akan melalui proses pengiraan titik tengah (min) sehingga sesuatu fungsi kriteria (kelompok adalah tetap). Di dalam teknik pengelompokan, pengiraan untuk membedakan di antara kelompok dilakukan menggunakan satu algoritma yang dipanggil fungsi jarak yaitu tahap persamaan atau perbedaan. Untuk itu digunakan algoritma k-means yang di dalamnya memuat aturan sebagai berikut:
1. Jumlah cluster yang perlu di-input-kan 2. Hanya memiliki atribut dengan tipe numeric Dasar algoritma k-means adalah sebagai berikut: 1. Tentukan k sebagai jumlah cluster yang ingin
dibentuk.
2. Bangkitkan k centroids (titik pusat cluster) awal secara random.
3. Hitung jarak setiap data ke masing-masing centroids menggunakan rumus kolerasi antar dua objek yaitu Euclideand dan kesamaan Cosine.
4. Kelompok setiap data berdasarkan jarak terdekat antara data dengan cenrtoid-nya.
5. Tentukan posisi centroids baru (k C) dengan cara menghitung nilai rata-rata dari data yang terletak pada centroids yang sama.
𝐶𝑘 = (
1 𝑛𝑘
) ∑ 𝑑𝑖
Dimana 𝑛𝑘 adalah jumlah dokumen dalam
cluster k dan 𝑑𝑖 adalah dokumen dalam kluster
6. Kembali ke langkah 3, jika posisi controid baru dengan centroid lama tidak sama.
2.6. Konsep Dasar UML
Unified Modelling Language (UML) adalah sistem notasi yang sudah dibakukan di dunia pengembangan sistem, hasil kerjasama dari Grady Booch, James Rumbaugh dan Ivar Jacobson. UML yang terdiri dari serangkaian diagram memungkinkan bagi sistem analis untuk membuat cetak biru sistem yang komperhensif kepada klien, programmer dan tiap orang yang terlibat dalam proses pengembangan. UML menawarkan sebuah standar untuk merancang model sebuah sistem. Dengan menggunakan UML kita dapat membuat model untuk semua jenis aplikasi piranti lunak, dimana aplikasi tersebut dapat berjalan pada piranti keras, sistem operasi dan jaringan apapun, serta ditulis dalam bahasa pemrograman apapun.
Seperti bahasa bahasa lainnya, UML mendefinisikan notasi dan syntax/semantik. Notasi UML merupakan sekumpulan bentuk khusus untuk menggambarkan berbagai diagram piranti lunak. Setiap bentuk memiliki makna tertentu, dan UML syntax mendefinisikan bagaimana bentuk-bentuk tersebut dapat dikombinasikan. Notasi UML terutama diturunkan dari 3 notasi yang telah ada sebelumnya : Grady Booch OOD (Object Oriented Design), Jim Rumbaugh OMT (Object Modeling Technique), dan Ivar Jacobson OOSE (Object Oriented Software Engineering). Abstraksi konsep dasar UML terdiri dari structural classification, dynamic behavior, dan model management.
3. Analisis dan Perancangan 3.1. Analisis Data Mining
3.1.1. Pemahaman Bisnis (Business Understanding)
Pemahaman bisnis (business understanding), tahap pertama dalam proses CRISP-DM yang juga dapat disebut sebagai tahap pemahaman bisnis (penelitian). 3.1.1.1. Menentukan Tujuan Bisinis
Tujuan bisnis berdasarkan pengolahan data mahasiswa tahun 2013, 2014, 2015, dan 2016 antara lain untuk meningkatkan jumlah mahasiswa pada tahun 2018. Hasil dari pengolahan data dapat dijadikan sebagai salah satu dasar pengambilan keputusan untuk menentukan wilayah promosi yang tepat sasaran.
3.1.1.2. Menentukan Strategi Awal Data Mining Strategi awal dalam menerapkan tujuan dilakukannya data mining adalah melakukan permintaan data mahasiswa terlebih dahulu ke bagian Management Information System (MIS) LPKIA.
3.1.2. Pemahaman Data (Data Understanding) Setelah pemahaman terhadap bisnis, aktivitas utama dari proses data mining berikutnya adalah mengidentifikasi data yang relevan dari database yang ada. Dataset mahasiswa yang didapatkan dari Management Information System (MIS) LPKIA berupa dokumen excel sejumlah 797 record.
3.1.2.1. Pengumpulan Data Awal
Adapun sumber data utama yang digunakan dalam penelitian ini adalah dataset mahasiswa LPKIA yang berjenjang D3 dan S1 pada tahun 2016 berupa dokumen excel.
3.1.2.2. Mendeskripsikan Data
Dataset mahasiswa terdiri dari atribut NRP, nama, jurusan / konsentrasi, alamat, serta kota asal. Jumlah data yang ada pada atribut berjumlah 797 record. 3.1.2.3. Evaluasi Kualitas Data
Hasil evaluasi terhadap kualitas data yaitu menemukan banyak nilai kosong / null yang disebut dengan missing value pada atribut dalam dataset mahasiswa.
3.1.2.4. Pemilihan Atribut
Atribut yang digunakan adalah jurusan / konsentrasi mahasiswa, kota asal mahasiswa dan IPK mahasiswa dengan standar ≥ 2,75.
3.1.3. Persiapan Data (Data Preparation) Persiapan data mencakup semua kegiatan untuk membangun dataset mahasiswa yang akan diterapkan ke dalam alat pemodelan, dari data mentah awal berupa dataset mahasiswa dan selanjutnya akan melakukan proses data mining. Tahap ini meliputi pembersihan data (data cleaning), integrasi data (data integration), transformasi data (data transformation), task relevant data yaitu melakukan seleksi data yang memiliki atribut yang relevan.
3.1.3.1. Seleksi Data
Dengan melakukan seleksi data akan membantu tahapan proses data mining dalam menemukan pola data yang berguna, yang merupakan proses transformasi. Pada pembersihan data, data – data yang tidak lengkap isinya tidak dilibatkan dalam penelitian. Data – data yang lengkap isinya, dipilih beberapa atribut agar data yang akan diolah benar-benar relevan dengan kebutuhan. Dengan demikian akan meningkatkan performa dalam proses mining. 3.1.3.2. Pengolahan Data Mentah (Preprocessing
Data)
Pada tahap ini merupakan tahap untuk memastikan data mahasiswa yang dipilih telah layak untuk dilakukan proses pengolahan.
3.1.3.3. Transformasi Data (Data Tranformation) Data yang berjenis nominal seperti kota asal dan program studi harus dilakukan proses inisialisasi data terlebih dahulu ke dalam bentuk angka/numerikal. Untuk melakukan inisialisasi kota asal dapat dilakukan dengan:
a. Pada kota asal mahasiswa terlebih dahulu dilakukan pembagian wilayah-wilayah menjadi beberapa bagian wilayah.
b. Kemudian wilayah-wilayah tersebut dilakukan pengurutan angka dari yang terbesar berdasarkan frekuensi mahasiswa yang berasal dari wilayah tersebut.
c. Wilayah yang memiliki frekuensi terbesar diberi inisial dengan angka 1 dan wilayah yang memiliki frekuensi terbesar kedua diberi inisial dengan angka 2, begitu seterusnya hingga wilayah dengan frekuensi paling sedikit.
Selain kota asal, jurusan yang juga termasuk ke dalam jenis data nominal, di ubah ke dalam bentuk angka/numerikal.
Tabel III. 1 Inisialisasi Data Kota Asal
Tabel III. 2 Inisialisasi Data Jurusan
Tabel III. 3 Contoh Dataset Mahasiswa Yang Telah Dilakukan Inisialisasi
3.1.4. Pemodelan (Modeling)
Pemodelan adalah fase yang secara langsung melibatkan teknik data mining yaitu dengan melakukan pemilihan teknik data mining dan menentukan algoritma yang akan digunakan. Karena tidak ada satupun model yang secara universal dianggap sebagai metode atau algoritma yang terbaik untuk pekerjaan data mining, maka harus menggunakan berbagai macam jenis model dan eksperimentasi dan strategi penilaian yang sudah didefinisikan dengan baik untuk mengetahui metode terbaik yang sesuai dengan maksud yang sudah ditentukan. Tergantung pada kebutuhan bisnis, penerapan data mining bisa merupakan suatu jenis prediksi, asosiasi, atau clustering. Setiap penerapan data mining bisa menggunakan berbagai metode dan algoritma data mining.
Flowcart algoritma K-means:
a. Untuk menentukan banyaknya cluster k dapat dilakukan dengan beberapa pertimbangan seperti pertimbangan teoritis dan konseptual yang mungkin diusulkan untuk menentukan berapa banyak cluster. Penetapan jumlah cluster k pada penelitian ini yaitu berjumlah 3 cluster.
b. Hitung jarak setiap data ke pusat cluster antara objek ke centroid dengan perhitungan jarak Euclidean. Persamaan yang digunakan adalah:
𝑑(𝑝, 𝑞)
= √(𝑝1 − 𝑞1)2 + (𝑝2 − 𝑞2)2 + (𝑝3 − 𝑞3)2
Persamaan diatas digunakan karena atribut yang digunakan berjumlah 3.
Sebagai contoh, akan dihitung jarak dari data mahasiswa pertama ke pusat cluster pertama dengan persamaan: 𝑑(1, 1) = √(9 − 1)2 + (1 − 2)2 + (3,85 − 3,33)2 = √(8)2 + (−1)2 + (0,52)2 = √64 + 1 + 0,2704 = √65,2704 𝑑(1,1) = 8,079
Dari hasil perhitungan di atas di dapatkan hasil bahwa jarak data mahasiswa pertama dengan cluster pertama adalah 8,079.
Jarak dari data mahasiswa pertama ke pusat cluster kedua dengan persamaan:
𝑑(1, 2) = √(9 − 3)2 + (1 − 1)2 + (3,85 − 3,53)2 = √(6)2 + (0)2 + (0,32)2 = √36 + 0 + 0,1024 = √36,1024 𝑑(1,2) = 6,009
Dari hasil perhitungan di atas di dapatkan hasil bahwa jarak data mahasiswa pertama dengan cluster pertama adalah 6,009.
Jarak dari data mahasiswa pertama ke pusat cluster ketiga dengan persamaan:
𝑑(1, 3) = √(9 − 2)2 + (1 − 6)2 + (3,85 − 2,81)2 = √(7)2 + (−5)2 + (1,04)2 = √49 + 25 + 1,0816 = √75,0816 𝑑(1,2) = 8,665
Dari hasil perhitungan di atas di dapatkan hasil bahwa jarak data mahasiswa pertama dengan cluster pertama adalah 8,665.
Berdasarkan hasil ketiga perhitungan di atas dapat disimpulkam bahwa jarak data mahasiswa pertama yang paling dekat adalah cluster 2, sehingga mahasiswa pertama dimasukan ke dalam cluster 2. Hasil perhitungan selengkapnya dapat dilihat pada Tabel III. 5
c. Kelompokkan data ke dalam cluster dengan jarak terdekat (minimal)
d. Setelah semua data ditempatkan ke dalam cluster yang terdekat, kemudian hitung kembali pusat cluster yang baru berdasarkan rata-rata anggota yang ada pada cluster tersebut.
e. Setelah didapatkan titik pusat yang baru dari setiap cluster, lakukan kembali dari langkah ketiga hingga titik pusat dari setiap cluster tidak berubah lagi dan tidak ada lagi data yang berpindah dari satu cluster ke cluster yang lain. 3.1.5. Evaluasi (Evaluation)
Evaluasi adalah fase lanjutan terhadap tujuan data mining. Evaluasi dilakukan secara mendalam dengan tujuan agar hasil pada tahap pemodelan sesuai dengan sasaran yang ingin dicapai dalam tahap business understanding.
3.1.5.1. Evaluasi Hasil (Evaluation Result) Pada tahap ini, model yang sudah dibuat diuji dan dievaluasi keakuratannya. Tahap ini menilai sejauh mana hasil pemodelan data mining memenuhi tujuan data mining yang telah ditentukan pada tahap business understanding.
3.1.5.2. Pengecekan Ulang Proses (Review Process)
Pada tahapan ini penyusun memastikan bahwa semua tahapan / faktor penting yang telah dilakukan dalam pengolahan data tidak ada yang terlewatkan.
3.1.5.3. Menentukan Langkah Selanjutnya (Determine Next Steps)
Pada tahap ini adalah tahapan dalam menentukan langkah selanjutnya yang dilakukan. Terdapat 2 pilihan yaitu kembali pada tahap awal (business understanding) atau melanjutkan ke tahap akhir (deployment).
3.1.6. Persebaran (Deployment)
Pengetahuan yang didapat dari eksplorasi perlu diatur dan disajikan dengan cara yang bisa dipahami oleh end user dan bisa diambil manfaatnya
3.1.6.1. Analsis Cluster
Berisi tentang hasil pengelompokan berdasarkan kedekatan jarak antara titik pusat dengan data mahasiswa pada setiap atribut. Hasil selengkapnya merupakan hasil implementasi dan pengujian. 3.2. Analisis Proses
3.2.1. Use Case Diagram
Gambar III. 1 Use Case Diagram
Penjelasan use case diagram:
1. Didalam use case diagram diatas terdapat dua aktor yaitu administrator dan pengguna. 2. Pengguna harus login terlebih dahulu untuk
dapat melakukan perhitungan clustering dan menampilkan hasil perhitungan.
3. Administrator harus login terlebih dahulu untuk dapat mengelola dataset mahasiswa (menambahkan, mengubah dan menghapus).
3.2.2. Class Diagram
Gambar III. 7 Class Diagram
4. Implementasi
Pengujian yang dilakukan menggunakan RapidMiner dengan jumlah dataset yang sama menghasilkan nilai untuk cluster 0 berjumlah 31 items, cluster 1 berjumlah 516 items, dan cluster 2 berjumlah 250 items.
Pada halaman ini menampilkan hasil dari cluster 1 yang berjumlah 516 items, yang telah diuraikan berdasarkan jurusan / konsentrasi dan berdasarkan kota asal mahasiswa. Dengan rata – rata IPK menghasilkan nilai 3.26 yang diambil dari tabel centroid.
Pada halaman ini menampilkan hasil dari cluster 2 yang berjumlah 250 items, yang telah diuraikan berdasarkan jurusan / konsentrasi dan berdasarkan kota asal mahasiswa. Dengan rata – rata IPK menghasilkan nilai 3.26 yang diambil dari tabel centroid.
Pada halaman ini menampilkan hasil dari cluster 3 yang berjumlah 31 items, yang telah diuraikan berdasarkan jurusan / konsentrasi dan berdasarkan kota asal mahasiswa. Dengan rata – rata IPK menghasilkan nilai 3.24 yang diambil dari tabel centroid.
5. Kesimpulan dan Saran 5.1. Kesimpulan
Setelah dilakukan pengolahan data untuk menemukan informasi penting yang dapat membantu pihak institusi dalam menentukan strategi promosi berdasarkan wilayah yang potensial guna meningkatkan jumlah mahasiswa dan mengurangi biaya operasional, dapat diambil kesimpulan bahwa : a. Pengujian terhadap aplikasi data mining dengan menggunakan teknik clustering berdasarkan persebaran wilayah dan potensi akademik dengan menggunakan algoritma k-means clustering terbentuk tiga cluster, yaitu cluster 1 dengan jumlah 516 mahasiswa dengan rata – rata IPK 3,26, cluster 2 dengan jumlah 250 mahasiswa dengan rata – rata IPK 3,26 dan cluster 3 dengan jumlah 31 mahasiswa dengan rata – rata IPK 3,24.
5.2. Saran
1.
Untuk pengembangan jangka panjang, diharapkan prototype ini dapat dilengkapi fitur tambahan untuk melakukan tahapan data mining secara otomatis dari database yang terintegrasi agar data yang dihasilkan lebih akurat dan mudah diproses.2.
Untuk pengembangan jangka pendek, diharapkan agar dapat menemukan solusi untuk mempercepat proses perhitungan iterasi.3.
Untuk pengembangan jangka pendek, diharapkan prototype ini dapat dilengkapi atribut – atribut dari alternatif agar lebih spesifik.4.
Hasil dari penelitian ini dapat dijadikan sebagai salah satu referensi bagi pihak institusi dalam mendukung keputuan untuk melakukan strategi promosi agar dapat meningkatkan calon mahasiswa baru.Daftar Pustaka
Alma, B. (2006). Pemasaran dan Pemasaran Jasa. Bandung: Alfabeta.
Binus, U. (2017, Agustus 30). Clustering. Retrieved from Clustering: socs.binus.ac.id
Eksplorasi Data Mining Menggunakan RapidMiner. (2017, Agustus 28). Retrieved from www.softovator.com Gorunescu, F. (2011). Data Mining : Concept,
Model and Techniques. Berlin: Spinger.
Hasan, I. (2006). Analisis DAta Penelitian Dengan Statistik. Jakarta: PT Bumi Aksara.
Kadir, A. (2003). Pengenalan Sistem Informasi. Andi.
Kamber, J. H. (2000). Data Mining: Concepts and Techniques, 6.
Kamber, J. H. (2006). Data Mining: Concepts and Techniques Second Edition. San Francisco: Diane Cerra.
Kotler, P. (1997). Manajemen Pemasaran: Analisis, Perencanaan, Implementasi dan Kontrol. Jakarta: Prenhallindo.
Kurniawan, P. S. (2015). Perancangan Data Mining untuk Analisis Kriteria Nasabah Kredit yang Potensial dan Manfaatnya untuk Customer Relationship Management Perbankan. Jurnal Akuntansi & Investasi.
Kusumawati, W. a. (2016). Model Data Clustering Untuk Menentukan Startegi Promosi Dengan Metode K-Means Berbasis Framework Codeigniter: Studi Kasus Universitas Budi Luhur. Jurnal TELEMATIKA MKOM vol.8. Larose, D. T. (2005). Discovering Knowledge
in Data an Introduction to Data Mining. John Wiley and Sons. Mujib Ridwan, H. S. (2013). Penerapan Data
Mining Untuk Evaluasi Kinerja Akademik Mahasiswa Menggunakan Algoritma Naive Bayes Classifier. Jurnal EECCIS Vol.7, No. 1.
Munawar. (2005). Pemodelan Visual dengan UML. Yogyakarta: Graha Ilmu. Pressman. (2009). Rekayasa Perangkat Lunak. Ramadhani, R. D. (2014). Data Mining Menggunakan Algoritma K-Means Clustering Untuk Menentukan Strategi Promosi Universitas Dian Nuswantoro .
Reinaldi, B. (2012). Pengertian Sejarah dan Kelebihan MySQL.
Santosa, B. (2007). Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis. Yogyakarta: Graha Ilmu. Shalahudin M, R. A. (2011). Modul
Pembelajaran Rekayasa Perangkat Lunak (Terstruktur dan Berorientasi Objek). Bandung: Modula.
Turban, E. J. (2005). Decision Support System and Intelligent Systems - 7th ed. Yogyakarta: Andi.
Yii Framework. (2017, July 12). Retrieved from Apa itu Yii: www.yiiframework.com