Research of Science and Informatic

(1)

Kopertis Wilayah X Jurnal

IMPLEMENTASI DATA MINING KLASIFIKASI MAHASISWA DROP OUT DENGAN METODE DECISION TREE ALGORITMA

Nisfa Ridha Yani, Gunadi Widi Nurcahyo

Pasca Sarjana, Magister Ilmu Komputer, Universitas Putra Indonesia “UPI-YPTK”Padang Abstrak

Status akademik siswa dievaluasi setiap akhir semester, jika tidak memenuhi kriteria akademik sesuai dengan aturan yang berlaku menyatakan kemudian pecah mahasiswa atau putus sekolah (DO). Penelitian ini bertujuan untuk mengklasifikasikan siswa putus sekolah potensial dengan algoritma C4.5. Algoritma adalah algoritma klasifikasi tipe data pohon keputusan C4.5 (Pohon Keputusan).

C4.5 algoritma pohon keputusan dibangun dalam tiga tahap, yaitu pemilihan atribut sebagai root, membuat cabang untuk setiap nilai dan membagi kasus di cabang.

Tahap ini akan diulang untuk setiap cabang sampai semua kasus cabang memiliki kelas yang sama. Dari penyelesaian pohon keputusan akan menghasilkan beberapa aturan atau pengetahuan tentang suatu kasus. Dalam tesis ini, penulis mengklasifikasikan siswa putus sekolah potensial. Klasifikasi siswa putus sekolah sangat ditentukan oleh variabel input ditentukan, antara lain, IPK, masa studi, jumlah kredit, dan semester non-aktif. Dengan penerapan algoritma C4.5 akan dapat membantu para pihak dalam menentukan kriteria siswa putus sekolah potensial.

Kata kunci: data mining, classification, C4.5 algorithms, decision trees, putus sekolah.

Abstract

Academic status of students evaluated each end of the semester, if not meet the academic criteria in accordance with the applicable rules stated then broke college student or dropout (DO). This study aims to classify potential dropout students with C4.5 algorithm. The algorithm is a classification algorithm C4.5 decision tree data type (Decision Tree). C4.5 decision tree algorithm is built in three stages, namely the selection of attributes as root, create a branch for each value and dividing the cases in the branch. These stages will be repeated for each branch until all cases the branches have the same class. From the completion of the decision tree will produce some rule or knowledge of a case. In this thesis, the author classifies the potential dropout students. The classification of dropout students is largely determined by the input variables are determined, among others, GPA, study period, total credits, and non-active semester. With the implementation of the C4.5 algorithm will be able to assist parties in determining the criteria of potential dropout students.

Keywords: data mining, classification, C4.5 algorithms, decision trees, dropout.

Corresponding author: ISSN 2459-9549

[email protected]

JURNAL SAINS DAN INFORMATIKA

Research of Science and Informatic

e-mail: [email protected]

(2)

Kopertis Wilayah X Jurnal PENDAHULUAN

Data dari Pusat Statistik Pendidikan Badan Penelitian dan Pengembangan Departemen Pendidikan Nasional Republik Indonesia pada tahun akademik 2001/2002 sampai dengan 2009/2010 menunjukkan bahwa perguruan tinggi menerima rata-rata sebanyak 868.050 mahasiswa baru dan meluluskan rata-rata 451.168 mahasiswa setiap tahunnya.

Jumlah lulusan perguruan tinggi ternyata hanya mencapai 51,97% dari jumlah mahasiswa baru setiap tahun. Artinya, terdapat 48,03% mahasiswa yang tidak diketahui statusnya. Ketidakjelasan status tersebut bisa jadi karena mahasiswa menempuh studi tidak tepat waktu, memiliki status non-aktif (mangkir) atau bahkan dropout (Khafiizh, 2012).

Berdasarkan pertimbangan di atas, pendekatan Data Mining dengan penerapan algoritma Decision Tree C4.5 akan dilakukan untuk menentukan mahasiswa potensial dropout untuk menganalisis dan membangun sebuah model klasifikasi berdasarkan masa studi dan jumlah semester non-aktif mahasiswa. Metode ini dipilih karena metode Decision Tree ini cukup sederhana dan banyak dipergunakan oleh peneliti lain dalam mengembangkan sebuah model.

Tingginya jumlah mahasiswa dropout pada perguruan tinggi dapat diminimalisir dengan kebijakan dari perguruan tinggi untuk mengarahkan dan mencegah mahasiswa dari dropout seperti yang diungkapkan oleh Pechenizkiy, dan Vleeshouwer (2009) bahwa mendeteksi mahasiswa beresiko pada tahap awal pendidikan sangat penting dilakukan untuk menjaga mahasiswa dari dropout.

Klasifikasi adalah masalah klasik pada machine learning dan data mining untuk meramalkan suatu nilai pada sekumpulan data (Agrawal dkk, 1993).

Klasifikasi sendiri merupakan suatu proses menemukan kumpulan pola atau

fungsi yang mendeskripsikan serta memisahkan kelas data yang satu dengan yang lainnya untuk menyatakan objek tersebut masuk pada kategori tertentu yang sudah ditentukan. Salah satu metode klasifikasi yang populer adalah metode pohon keputusan atau decision tree.

Metode ini popular karena mampu melakukan klasifikasi sekaligus menunjukkan hubungan antar atribut.

Berbagai macam algoritma yang dapat membangun suatu decision tree salah satunya adalah C4.5 (Kaufmann, 1993).

Algoritma C4.5 merupakan algoritma yang juga digunakan untuk membentuk pohon keputusan (Kusrini &

Luthfi, 2009). Algoritma C4.5 merupakan pengembangan dari algoritma ID3 yang diciptakan oleh seorang peneliti dibidang kecerdasan buatan bernama j. Rose Quinlan pada akhir 1970-an.

Secara umum, langkah-langkah untuk membangun sebuah pohon keputusan pada algoritma C4.5 adalah sebagai berikut (Kusrini & Luthfi, 2009) :

a. Pilih atribut sebagai akar

b. Buat cabang untuk tiap-tiap nilai c. Bagi kasus dengan cabang

d. Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki kelas yang sama.

Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada. Untuk menghitung gain dapat digunakan rumus sebagai berikut (Kusrini & Luthfi, 2009) :

Dimana:

S : Himpunan kasus A : atribut

n : jumlah partisi atribut A

|Si| : jumlah kasus pada partisi ke-i

|S| : jumlah kasus pada S

Untuk menghitung nilai entropy

dapat digunakan rumus sebagai berikut

(Kusrini & Luthfi, 2009) :

(3)

Kopertis Wilayah X Jurnal Dimana:

S : Himpunan kasus A : fitur

n : jumlah partisi S

Pi : proporsi dari S

i

terhadap S Information gain adalah salah satu attribute selection measure yang digunakan untuk memilih tes atribut tiap node pada tree. Atribut dengan information gain tertinggi dipilih sebagai test atribut dari suatu node (Sunjana, 2010).

Ada 2 kasus berbeda pada saat penghitungan information gain. Pertama untuk kasus penghitungan atribut tanpa missing value dan kedua, penghitungan atribut dengan missing value.

1. Penghitungan Information Gain tanpa Missing Value

Misalkan S berisi s data samples.

Anggap atribut untuk class memiliki m nilai yang berbeda, Ci (untuk i = 1,

…,i). anggap si menjadi jumlah samples S pada class Ci. Maka besar informationnya dapat dihitung dengan:

Di mana pi = adalah probabilitas dari sampel yang mempunyai class Ci. Misalkan atribut A mempunyai v nilai yang berbeda, {a1, a2,...,av}. Atribut A dapat digunakan untuk mempartisi S menjadi v subset, {S1, S2,...,Sv}, dimana Sj berisi samples pada S yang mempunyai nilai aj dari A. Jika A terpilih menjadi test atribut (yaitu, best atribut untuk splitting), maka subsetsubset akan berhubungan dengan pertumbuhan node-node cabang yang berisi S. Anggap sij sebagai jumlah samples class Ci pada subset Sj. Entropy, atau nilai information dari subset A adalah :

adalah bobot dari subset jth dan jumlah samples pada subset (yang mempunyai nilai aj dari A) dibagi dengan jumlah total samples pada S. Untuk subset Sj, I ( s1j, s2j, …,smj) =

Di mana pij = adalah probabilitas sample Sj yang mempunyai class Ci. Maka nilai information gain atribut A pada subset S adalah Gain(A) = I ( s1, s2,…,sm ) – E(A)

2. Penghitungan Information Gain dengan Missing Value

Untuk atribut dengan missing value penghitungan information gain-nya diselesaikan dengan Gain Ratio. Sebelum menghitung Gain Ratio terlebih dahulu dihitung I ( s1, s2,…,sm ) dan E(A).

Dimana penghitungan I ( s1, s2,…,sm ) dan E(A) hanya dilakukan pada atribut yang ada nilainya. Kemudian untuk mencari gain dari atribut A dihitung dengan rumus sebagai berikut :

Gain (A) = Prob S yang diketahui * E(A)

Di mana :

A = atribut dengan missing value yang sedang dicari nilai gain-nya,

S = jumlah samples pada subset A yang

diketahui nilainya.

(4)

Kopertis Wilayah X Jurnal Sedangkan nilai split pada atribut A

dinyatakan dengan :

Di mana, u adalah prob sampel pada atribut A yang merupakan missing values.

pj = adalah probabilitas sample Sj yang diketahui nilainya.

Nilai Gain Ratio pada atribut A : Gain Ratio (A) = Gain(A) / Split(A).

METODE PENELITIAN

Model kerangka kerja untuk pemecahan masalah yang akan digunakan dalam penelitian ini dapat dilihat pada gambar 1.

Gambar 1. Kerangka Kerja Penelitian Agar langkah-langkah yang diambil peneliti dalam penelitian dapat lebih mudah dipahami, berikut ini disertakan penjelasan terperinci mengenai metodologi penelitian:

1. Mengidentifikasi Masalah

Sebelum melakukan penelitian, identifikasi masalah harus ditentukan terlebih dahulu. Ini perlu dilakukan karena dengan menentukan identifikasi masalah maka nantinya akan dapat ditentukan solusi terbaik dari masalah tersebut. Mendefinisikan masalah merupakan langkah awal yang terpenting dalam penulisan ini. Pada penelitian ini ruang lingkup masalah ditekankan kepada klasifikasi mahasiswa potensial dropout menggunakan decision tree algoritma C4.5.

2. Menganalisa Masalah

Analisis masalah dilakukan untuk dapat memahami masalah yang telah ditentukan identifikasinya.

Berdasarkan analisa masalah yang telah ditentukan tersebut, maka diharapkan masalah dapat dipahami dengan baik sehingga dapat ditentukan tujuan yang akan dicapai.

3. Menentukan Tujuan

Berdasarkan pemahaman dari masalah, maka ditentukan tujuan yang akan dicapai dari penulisan ini. Pada tujuan ini ditentukan target yang akan dicapai dari awal sampai terbentuknya cara mengidentifikasi mahasiswa potensial dropout yang sudah di klasifikan.

4. Mencari dan Mempelajari Literatur Untuk mencapai tujuan, maka dipelajari beberapa literatur-literatur yang dapat digunakan. Kemudian liteatur-literatur yang dipelajari tersebut diseleksi untuk dapat ditentukan literatur-literatur mana yang akan digunakan dalam penelitian ini.

Sumber literatur diperoleh dari buku- buku dan jurnal-jurnal dari internet.

5. Mengumpulkan Data dan Informasi Pada tahap ini dilakukan untuk mendapatkan informasi tentang kriteria nasabah yang bisa diberi kredit.

Penelitian ini dilakukan dengan

menggunakan beberapa cara di

antaranya wawancara dengan staf, di

mana nantinya penelitian ini saling

(5)

Kopertis Wilayah X Jurnal melengkapi dengan penelitian yang

lain, sehingga data yang diinginkan dapat tercapai yaitu dengan data yang lengkap dan akurat. Kemudian pengumpulan data serta informasi juga diperoleh dari jurnal –jurnal serta dari berbagai literatur yang mendukung dalam proses penelitian ini. Hal ini dijadikan sebagai landasan pemikiran dalam penelitian.

6. Menganalisa Algoritma C4.5

Proses analisa ini merupakan proses lanjutan dari penganalisaan data.

Setelah masalah yang akan dianalisa tersebut ditemukan, barulah kemudian data yang telah ada akan diolah serta dianalisa. Setelah data lengkap barulah dilakukan perancangan terhadap Algotima C4.5. Data yang ada akan diproses sesuai dengan tahapan KDD, adapun langkah – langkah tersebut dapat diuraikan sebagai berikut:

a. Pembersihan Data

Data yang bersih adalah data yang konsisten dan tidak mengandung nilai yang tidak lengkap dan noise.

Proses pembersihan data bertujuan untuk melengkapi nilai yang tidak lengkap, memperhalus noise ketika teridentifikasi, dan memperbaiki ketidakkonsistenan data (Han &

Kamber, 2001).

b. Integrasi Data

Integrasi data mengkombinasi- kan data dari sumber-sumber yang berbeda menjadi bentuk sebuah penyimpanan data yang koheren, seperti dalam data warehousing. Proses transformasi data mengubah data menjadi bentuk yang sesuai untuk dilakukan tahapan data minig (Han &

Kamber,2001).

c. Seleksi Data d. Transformasi Data e. Data Mining

menurut (Han & Kamber, 2001),

Fungsionalitas data mining adalah:

 Deskripsi Kelas

 Analisa Asosiasi

 Klasifikasi dan Prediksi

 Analisa Cluster

 Analisa Pencilan

 Analisa Evolusi

 Evaluasi Pola

Kemudian barulah algoritma C4.5 akan diimplementasikan.

7. Menerapkan Metode

Pada tahapan implementasi bertujuan untuk mendapatkan hasil dari analisa keputusan terhadap mahasiswa dropout. Setelah data dianalisa ,kemudian dilakukan implementasi untuk mendapatkan hasil yang diinginkan. Untuk menerapkan metode ini dapat digunakan perangkat dengan spesifikasi sebagai berikut :

a) Perangkat keras, perangkat ini terdiri dari :

 Satu unit laptop Intel Core Duo

 Hardisk 320 GB

 Memory RAM 2 GB

 Dan beberapa perangkat keras

pendukung lainnya

b) Perangkat lunak, perangkat ini terdiri dari:

 Sistem Operasi Microsoft Windows 7.

 Microsoft office 2007.

 Software Weka.

 Dan beberapa pendukung perangkat lunak lainnya 8. Menguji Data

Pada tahapan pengujian dilakukan untuk mengetahui cara sistem bekerja dalam mengolah data. Serta bisa mendapatkan hasil – hasil yang diinginkan. Tahapan pengujian dilakukan menggunakan software.

Dengan cara data yang telah melalui

pelatihan kemudian akan dilakukan

pengujian secara software. Pengujian

(6)

Kopertis Wilayah X Jurnal secara software dilakukan dengan

menggunakan aplikasi Weka.

Adapun langkah-langkah pengujian yang akan dilakukan adalah sebagai berikut :

a. Melakukan pengolahan data dengan menggunakan metode Decision Tree Algoritma C4.5 secara manual.

b. Melakukan pengujian pada hasil pengolahan data secara manual dengan menggunakan metode Decision Tree Algoritma C4.5.

c. Menguji aplikasi program Weka dengan data-data yang telah dikumpulkan.

d. Melakukan perbandingan hasil program Weka dengan hasil perhitungan secara manual.

9. Menarik Kesimpulan

Kesimpulan dari penganalisaan

mahasiswa potensial dropout dari hasil pada proses implementasi dan

pengujian.

HASIL DAN PEMBAHASAN

Untuk tahap awal yaitu klasifikasi dengan menentukan kelas pada setiap atribut diperlukan tabel sampel data untuk menentukan nilai kelas pada data-data dari mahasiswa.

Tabel 1. Format Tabel Data Sampel Mahasiswa

Atribut Keterangan Kisaran Data Total SKS Tidak Cukup 1-39 Total SKS Cukup >= 40

IPK Cukup 0.00-2.00

IPK Memuaskan 2.00-2.74

IPK Sangat

Memuaskan

2.75-3.49 IPK Dengan Pujian 3.50-4.00 Masa Studi Tidak

Melebihi

1-13 Masa Studi Melebihi >=14 Jumlah

Semester N/A

Memenuhi 1-4

Jumlah Semester N/A

Tidak Memenuhi

>=4

Setelah data dalam format di atas, kemudian dilakukan pra-proses dengan mengelompokkan data-data tersebut ke dalam kelas kemudian dilakukan pra proses dengan cara mengelompokkan variabel – variabel penentu, seperti tabel sebagai berikut :

1. Mengelompokkan Total SKS, dengan cara mengelompokkan seperti terlihat pada tabel 2.

Tabel 2. Klasifikasi Total SKS Total SKS Klasifikasi

1-39 Tidak Cukup

>= 40 Cukup

2. Mengelompokkan Jumlah IPK, berdasarkan hasil yang didapat pada data mahasiswa, seperti terlihat pada tabel 3.

Tabel 3. Klasifikasi IPK

IPK Klasifikasi

0.00-2.00 Cukup 2.00-2.74 Memuaskan

2.75-3.49 Sangat Memuaskan 3.50-4.00 Dengan Pujian

3. Mengelompokkan Masa Studi, pengelompokan ini diambil dari data mahasiswa. Dapat dilihat pada tabel 4.

Tabel 4. Klasifikasi Masa Studi Masa Studi Klasifikasi

1-13 Tidak Melebihi

>=14 Melebihi

4. Mengelompokkan Jumlah Semester

Non-Aktif berdasarkan data

mahasiswa, seperti terlihat di tabel 5.

(7)

Kopertis Wilayah X Jurnal Tabel 5. Klasifikasi Jumlah Semester

N/A

Jumlah

Semester N/A Klasifikasi

1-2 Memenuhi

>=2 Tidak Memenuhi 5. Menerjemahkan nilai Jurusan,

penerjemahan jurusan dilakukan dengan mengganti nilai jurusan mahasiswa dengan nilai seperti pada tabel 6.

Tabel 6. Penerjemahan Jurusan Jurusan Nilai Baru

Teknik Mesin 1

Teknik Elektro 3

TeknikInformatika 6

6. Menerjemahkan nilai Jenjang, penerjemahan jenjang studi dilakukan dengan mengganti nilai jenjang studi mahasiswa dengan nilai seperti pada tabel 7.

Tabel 7. Penerjemahan Jenjang Studi Jenjang Studi Nilai Baru

S1 1

D3 3

7. Menerjemahkan nilai Jenjang, penerjemahan jenjang studi dilakukan dengan mengganti nilai jenjang studi mahasiswa dengan nilai seperti pada tabel 8.

Tabel 8. Klasifikasi SKS Wajib Ditempuh

SKS Wajib Ditempuh

Klasifikasi

115 – 119 1

145 – 150 2

Format data akhir setelah dilakukan pra-proses tampak seperti tabel 8, yang menampilkan format data mahasiswa

setelah ditransformasi sesuai dengan klasifikasi masing – masing atribut data.

Nilai Entropy dan Gain dihitung, kemudian hasil dari perhitungan tersebut dimasukkan ke dalam tabel 9.

Tabel 9. Perhitungan Node Awal

Dari perhitungan tabel 9 dapat diketahui bahwa atribut dengan gain tertinggi adalah Jumlah Semester N/A sebesar 0,591. Berarti Jumlah Semester N/A dapat menjadi node akar.

Ada 2 nilai atribut dari Jumlah Semester N/A yaitu Memenuhi dan Tidak Memenuhi. Dari nilai atribut tersebut, Tidak Memenuhi sudah mempunyai keputusan “DO” dan Memenuhi perlu dilakukan perhitungan, seperti pada gambar 2 :

Jumlah Semester N/A

1.1 DO

Mem

enuhi Tidak M

emen uhi

Gambar 2. Pohon Keputusan Hasil Perhitungan Node Awal

Selanjutnya akan diteruskan

perhitungan node 1.1, yang akan

(8)

Kopertis Wilayah X Jurnal menghasilkan pohon keputusan seperti

gambar 3 :

Jumlah Semester N/A

DO Mem

enuhi Tidak M

emenuhi

Masa Studi

Tidak DO

Tidak Melebihi M elebihi

Gambar 3. Pohon Keputusan Hasil Perhitungan Node 1.1

Berdasarkan pohon keputusan terakhir yang terbentuk pada gambar 4.4 di atas, maka aturan atau rule yang terbentuk adalah sebagai berikut :

1. If Jumlah Semester N/A = Tidak Memenuhi Then Keputusan = DO.

2. If Jumlah Semester N/A = Memenuhi And Masa Studi = Tidak Melebihi Then Keputusan = Tidak.

3. Jumlah Semester N/A = Memenuhi And Masa Studi = Melebihi Then Keputusan = DO.

HASIL DAN PEMBAHASAN

Implementasi dilakukan untuk menentukan DO dan tidak mahasiswa Institut Teknologi Padang. Dimana implementasi ini dilakukan menggunakan algoritma C4.5 dengan bantuan software Weka.

Pengujian terhadap hasil analisa data, sangat penting dilakukan untuk menentukan dan memastikan apakah hasil dari sebuah analisa tersebut benar atau tidak, berikut ini adalah tampilan decision

tree yang diperoleh dari implementasi dan pengujian pada Weka.

1. Dataset yang diuji terdiri dari 21 record data dan berisi variabel-variabel atribut kondisi yang terdiri dari variabel Total SKS, IPK, Masa Studi, dan Jumlah Semester N/A, sedangkan atribut keputusannya adalah DO dan tidak. Data mahasiswa tersebut disimpan dengan extension file .CSV (datamahasiswa.csv).

Gambar 4. Tampilan tipe File Weka 2. Selanjutnya Jika file berhasil di load

maka akan muncul tampilan sebagai berikut :

Gambar 5. Tampilan File sukses di load Weka

3. Selanjutnya klik tombol Start untuk

memproses data mahasiswa, seperti

tampilan berikut :

(9)

Kopertis Wilayah X Jurnal Gambar 6. Tampilan Proses Data

Mahasiswa

4. Pilih visualize tree, maka akan muncul seperti tampilan sebagai berikut :

Gambar 7. Tampilan Pohon Keputusan (Decision Tree)

Hasil rule dan knowledge yang diperoleh sama dengan perhitungan manual pada tahap analisa dan perancangan, yaitu :

1. If Jumlah Semester N/A = Tidak Memenuhi Then Keputusan = DO.

2. If Jumlah Semester N/A = Memenuhi And Masa Studi = Tidak Melebihi Then Keputusan = Tidak.

3. Jumlah Semester N/A = Memenuhi And Masa Studi = Melebihi Then Keputusan = DO.

SIMPULAN

Metode pohon keputusan (decision tree) yang diproses dengan software Weka lebih efektif dan cepat dalam pengolahan datanya jika digunakan pada proses pengklasifikasian mahasiswa potensial dropout.

Pemilihan variabel (atribut kondisi dan attribut keputusan) yang akan digunakan dalam menentukan sebuah klasifikasi juga sangat mempengaruhi rule atau knowledge yang dihasilkan.

Algoritma C4.5 dianggap sebagai algoritma yang sangat membantu dalam melakukan klasifikasi data karena karakteristik data yang diklasifikasi dapat diperoleh dengan jelas, baik dalam bentuk struktur pohon keputusan (decision tree) maupun dalam aturan rule If – Then sehingga memudahkan pengguna dalam melakukan penggalian informasi terhadap data yang bersangkutan.

UCAPAN TERIMA KASIH

Ucapan terima kasih kepada Rektor Universitas Putra Indonesia UPI-YPTK Padang.

DAFTAR PUSTAKA

Anik, A. 2012. Penerapan Algoritma C4.5 Pada Program Klasifikasi Mahasiswa Dropout, Seminar Nasional Matematika 2012.

Hermawati, dan Astuti. 2013. Data Mining. Yogyakarta: Andi.

Khafiizh, H. 2012. Analisis Komparasi Algoritma Klasifikasi Data Mining Untuk Prediksi Mahasiswa Non Aktif, Seminar Nasional Teknologi Informasi & Komunikasi Terapan 2012. (Semantik, 2012).

Kusrini dan Luthfi. 2009. Algoritma Data Mining. Yogyakarta: Andi.

Liliana, S. 2013. Penerapan Algoritma

C4.5 Untuk Penentuan Jurusan

Mahasiswa, Jurnal GEMA

AKTUALITA, Vol.2 No.1, Juni

2013. 1, (1), 1-5.

(10)

Kopertis Wilayah X Jurnal Meilani dan Dwi. 2011. Klasifikasi Data

Karyawan Untuk Menentukan Jadwal Kerja Menggunakan Decision Tree. 2, (2), 1-6.

Prasetyo, E. 2012. Data Mining Konsep dan Aplikasi menggunakan MATLAB Yogyakarta: Andi.

Subekti, M. 2011. Pemanfaatan Data Mining Untuk Perkiraan Cuaca, Jurnal Meteorologi Dan Geofisika Vol. 12 No. 2. September 2011.