• Tidak ada hasil yang ditemukan

Model yang didapatkan dari kedua metode decision tree C4.5 dan naïve byes kemudian dilakukan pengujian menggunakan k-fold cross validation. Cross- validation adalah bentuk sederhana dari teknik statistik. Jumlah fold standar untuk memprediksi tingkat error dari data adalah dengan menggunakan 10-fold cross validation (Witten, et al, 2011: 153).

Data yang digunakan dibagi secara acak ke dalam k subset yaitu

, , … , dengan ukuran yang sama. Dataset akan dibagi menjadi data training

dan data testing. Proses training dan testing dilakukan sebanyak k kali secara berulang-ulang. Pada iterasi ke-i, partisi disajikan sebagai data testing dan partisi sisanya digunakan secara bersamaan dan berurutan sebagai data training. Iterasi kedua, subset , , … , akan dites pada , dan selanjutnya hingga (Han, et al, 2012: 364). Gambar 2.8 berikut adalah contoh ilustrasi 4-fold cross validation.

Gambar 2.8 Ilustrasi 4-Fold Cross Validation

Berdasarkan Gambar 2.8 ditunjukkan bahwa nilai fold yang digunakan adalah 4-fold cross validation. Berikut diberikan langkah-langkah pengujian data dengan 4-fold cross validation.

a. Dataset yang digunakan dibagi menjadi 4 bagian, yaitu , , , dan . ,

= , , , digunakan sebagai data testing dan dataset lainnya sebagai data

training.

b. Tingkat akurasi dihitung pada setiap iterasi ( iterasi-1, iterasi-2, iterasi-3, iterasi-4), kemudian dihitung rata-rata tingkat akurasi dari seluruh iterasi untuk mendapatkan tingkat akurasi data keseluruhan.

Evaluasi hasil klasifikasi dilakukan dengan metode confusion matrix. Confusion matrix adalah tool yang digunakan sebagai evaluasi model klasifikasi untuk memperkirakan objek yang benar atau salah. Sebuah matrix dari prediksi yang akan dibandingkan dengan kelas sebenarnya atau dengan kata lain berisi informasi nilai sebenarnyadan prediksi pada klasifikasi (Gorunescu, 2011: 319).

Tabel 2.7 Tabel Confusion Matrix Dua Kelas

Clasification Predicted class

Class=Yes Class=No

Class=Yes a (true positive) b (false negative) Class=No c (false positive) d (true negative)

Pada tabel confusion matrix di atas, true positive (TP) adalah jumlah record positif yang diklasifikasikan sebagai positif, false positive (FP) adalah jumlah record negatif yang diklasifikasikan sebagai positif, false negatives (FN) adalah jumlah record positif yang diklasifikasikan sebagai negatif, true negatives (TN) adalah jumlah record negatif yang diklasifikasikan sebagai negatif. Setelah data uji diklasifikasikan maka akan didapatkan confusion matrix sehingga dapat dihitung jumlah sensitivitas, spesifisitas, dan akurasi (Henny Lediyana, 2013: 69).

Sensitivitas adalah proporsi dari class=yes yang teridentifikasi dengan benar. Spesifisitas adalah proporsi dari class=no yang teridentifikasi dengan benar. Contohnya dalam klasifikasi pelanggan komputer dimana class=yes adalah pelanggan yang membeli computer sedangkan class=no adalah pelanggan yang tidak membeli komputer. Dihasilkan sensitivitas sebesar 95%, artinya ketika dilakukan uji klasifikasi pada pelanggan yang membeli, maka pelanggan tersebut berpeluang 95% dinyatakan positive (membeli komputer). Apabila dihasilkan spesifisitas sebesar 85%, artinya ketika dilakukan uji klasifikasi pada pelanggan yang tidak membeli, maka pelanggan tersebut berpeluang 95% dinyatakan negative (tidak membeli).

Rumus untuk menghitung akurasi, spesifisitas, dan sensitivitas pada confusion matrix adalah sebagai berikut (Gorunescu, 2011: 319)

� = � + � + � + � =� + � + + + .+

= � + � = + .� = � + � = + .F. Waikato Environment for Knowledge (WEKA)

The Waikato Environment for Knowledge Analysis (WEKA) adalah sebuah sistem data mining open source yang berbasis java. Sistem ini dikembangkan oleh Universitas Waikato di Selandia Baru dan merupakan perangkat lunak free yang tersedia di bawah GNU (General Public License). WEKA menyediakan dukungan yang luas untuk seluruh proses data mining mulai dari menyiapkan data masukkan, evaluasi pembelajaran, skema statistik, visualisasi data input dan hasil

pembelajaran. Metode atau teknik yang digunakan pada WEKA adalah Predictive dan Descriptive karena sistem ini mendukung teknik-teknik data preprocessing, clustering, classification, regression, visualization, dan feature Reduction. (Witten, et all, 2011: 403-404 ).

Gambar 2.9 Tampilan Awal GUI WEKA

WEKA mulai dikembangkan sejak tahun 1994 dan telah menjadi software data mining open source yang paling popular. WEKA mempunyai kelebihan seperti mempunyai banyak algoritma data mining dan machine learning, kemudahan dalam penggunaannya, selalu up-to-date dengan algoritma-algoritma yang baru. Software WEKA tidak hanya digunakan untuk akademik saja namun cukup banyak dipakaioleh perusahaan untuk meramalkan bisnis dari suatu perusahaan.

WEKA mendukung beberapa format file untuk inputnya, yaitu:

1. Comma Separated Values (CSV): Merupakan file teks dengan pemisah tanda koma (,) yang cukup umum digunakan. File ini dapat dibuat dengan menggunakan Microsoft Excel atau membuat sendiri dengan menggunakan notepad.

2. Format C45: Merupakan format file yang dapat diakses dengan menggunakan aplikasi WEKA.

3. Attribute-Relation File Format (ARFF): Merupakan tipe file teks yang berisi berbagai instance data yang berhubungan dengan suatu set atribut data yang dideskripsikan serta di dalam file tersebut.

4. SQL Server/ MySql Server: Dapat mengakses database dengan menggunakan SQL Server/MySql Server.

Beberapa menu dalam tampilan WEKA, diantaranya yaitu

1. Explorer, menu ini memberikan akses untuk semua fasilitas yang menggunakan pilihan menu dan pengisian data. Pada menu ini terdapat enam sub-menu pada bagian atas window, sub-menu tersebut yaitu:

a. Preprocess, proses pemilihan dataset yang akan diolah pemilihan filter, b. Classify, terdapat berbagai macam teknik klasifikasi dan evaluasinya

yang digunakan untuk mengolah data,

c. Cluster, terdapat berbagai macam teknik cluster yang dapat digunakan untuk mengolah data,

d. Associate, terdapat berbagai macam teknik association rules yang dapat digunakan untuk mengolah data,

e. Select Atribut, proses pemilihan aspek yang mempunyai hubungan paling relevan pada data,

f. Visualize, proses menampilan berbagai plot dua dimensi yang dibentuk dari pengolahan data.

2. Experimenter, menu ini digunakan untuk mengatur percobaan dalam skala besar, dimulai dari running, penyelesaian, dan menganalisis data secara statistik.

3. Knowledge Flow, pada tampilan menu ini, pengguna memilih komponen WEKA dari toolbar untuk memproses dan menganalisis data serta memberikan alternatif pada menu Explorer untuk kondisi aliran data yang melewati sistem. Selain itu, Knowledge Flow juga berfungsi untuk memberikan model dan pengaturan untuk mengolahan data yang tidak bisa dilakukan oleh Explorer.

4. Simple CLI, menu yang menggunakan tampilan command-line. Menu ini menggunakan tampilan command-line untuk menjalankan class di weka.jar, dimana langkah pertama variabel Classpath dijelaskan di file Readme. Pada sub-menu klsifikasi WEKA terdapat test options yang digunakan untuk menguji kinerja model klasifikasi. Ada empat model tes yaitu:

1. Use training set

Pengetesan dilakukan dengan menggunakan data training itu sendiri. Akurasi akan sangat tinggi, tetapi tidak memberikan estimasi akurasi yang sebenarnya terhadap data yang lain (data yang tidak dipakai untuk training). 2. Supplied test set

Pengetesan dilakukan dengan menggunakan data lain (file training dan testing tersedia secara terpisah). Dengan menggunakan option inilah bisa dilakukan prediksi pada data tes.

Pada cross-validation, akan ada pilihan banyaknya fold yang akan digunakan. Nilai default-nya yaitu 10.

4. Percentage split

Hasil klasifikasi akan dites menggunakan k% dari data tersebut, dimana k adalah proporsi dari dataset yang digunakan untuk data training. Persentase di kolom adalah bagian dari data yang dipakai sebagai training set. Pada option ini data training dan testing terdapat dalam satu file.

Dokumen terkait