BAB IV HASIL PENELITIAN DAN PEMBAHASAN
1. Support Vector Machine (SVM)
2.1.10 Pengujian K-Fold Cross Validation
Validation merupakan proses untuk mengevaluasi keakurasian prediksi dari model data mining. K-Fold Cross Validation merupakan sebuah teknik validasi dengan cara membagi data secara acak kedalam k bagian dan masing-masing bagian akan dilakukan proses klasifikasi (Han, Jiawei, Micheline Kamber, 2012).
Dengan menggunakan K-Fold Cross Validation akan dilakukan percobaan sebanyak k. Tiap percobaan akan menggunakan satu data testing dan k-1 bagian akan menjadi data training, kemudian data testing itu akan ditukar dengan satu buah data training sehingga untuk tiap percobaan akan didapatkan data testing yang berbeda-beda. Data training adalah data yang akan dipakai dalam melakukan pembelajaran sedangkan data testing adalah data yang belum pernah dipakai sebagai pembelajaran dan akan berfungsi sebagai data pengujian kebenaran atau keakurasian hasil pembelajaran (Witten, H. I., Frank, E., & Hall, 2011)
K-Fold cross validation merupakan bentuk dasar lintas validasi dimana kasus k-fold cross validation akan melibatkan putaran berulang sebanyak K validation.
Misalnya pada kasus 10 fold cross validation maka data akan dibagi menjadi 10 set bagian, kemudian akan dilakukan 10 kali putaran (iterasi) untuk pengujian dan validasi (Saumi Ramdhani, 2016).
Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri 2.1.11 Evaluasi dan Model Validasi
Evaluasi pada algoritma Decision Tree dan naive bayes menggunakan model confusion matrix dan kurva ROC (Receiver Operating Characteristic).
1. Confusion Matrix
Confusion Matrix adalah alat yang sangat berguna untuk menganalisa seberapa baik pengklasifikasi bias mengenali tuple dari class yang berbeda (Utami, 2017). Evaluasi dengan menggunakan fungsi confusion matrix akan menghasilkan nilai accuracy, precision dan recall.
Kurva ROC akan digunakan untuk mengukur Area Under Curve (AUC).
Kurva ROC membagi hasil positif dalam sumbu y dan hasil negative dalam sumbu x sehingga semakin besar area yang berada dibawah kurva, semakin baik pula hasil prediksi.
Tabel 2.1. Model Confusion Matrix
Keterangan :
True Positive (TP) : proporsi positif dalam dataset yang diklasifikasikan positif
True Negative (TN) : proporsi negative dalam dataset yang diklasifikasikan negative
False Positive (FP) : proporsi negatif dalam dataset yang diklasifikasikan positif
False Negative (FN) : proporsi negative dalam dataset yang dikalsifikasikan negatif
3
Setelah data uji dimasukkan ke dalam confusion matrix, hitung nilai-nilai yang telah dimasukkan tersebut untuk dihitung jumlah sensitivity (recall), spesificity, precision dan accuracy. Sensitivity digunakan untuk membandingkan jumlah TP terhadap jumlah record yang positif sedangkan specificity adalah perbandingan jumlah TN terhadap jumlah record yang
Classification Predited Class
Observed Class
Class = Yes Class = No
Class = Yes A (true positive–TP) B (false negative–FN) Class = No C (false positive–FP) D (true negative–TN)
Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri negatif. Untuk menghitung digunakan persamaan dibawah ini (Irfansyah, 2016).
a.
TP+TN
∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙(8)
Accuracy =
TP+TN +FP +FN b.
Sensitivity= tp ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙(9) tp+ fn
c.
Specitivity = tn ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙(10) tn+ fp
d.
PPN= tp
∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ (9) tp+ fp
e.
NPV = tn ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙ (12) tn +fn
Keterangan:
TP = True Positif TN = True Negatif
FP = False Positif FN = False Negatif
Sensitivity juga dapat dikatakan true positive rate (TP rate) atau recall.
Sebuah sensitivity 100% berarti bahwa pengklasifikasian mengakui sebuah kasus yang diamati positif.
2. Kurva ROC
Fungsi kurva ROC adalah untuk menunjukan akurasi dan membandingkan klasifikasi secara visual. ROC mengekspresikan confusion matrix, ROC adalah grafik dua dimensi dengan false positive sebagai garis horizontal dan true positive sebagai garis vertical (N. Nuraeni, 2017).
3.
ROC (Receive Operating Characteristic) merupakan cara yang digunakan untuk menggambarkan akurasi diskriminasi dari suatu pengujian diagnosis untuk menentukan apakah seseorang menderita suatu penyakit tertentu atau
Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri tidak. Kurva ROC adalah plot dari sensitifity terhadap 1-specificity untuk beberapa nilai threshold yang digunakan untuk menerangkan ketepatan uji dalam berbagai tingkatan titik potong dalam membaca specificity yang sesuai dengan sensitivity yang ada (Nugroho & Emiliyawati, 2017).
Sumber : Nuraeni, 2017
Gambar 2.9 Model Grafik ROC
Hasil perhitungan dapat divisualisasikan dengan kurva ROC (Receiver Operating Characteristic) atau AUC (Area Under Curve). Berikut tingkat nilai diagnosa dari ROC, yaitu : (Gorunescu, 2011).
a. Akurasi bernilai 0.90 – 1.00 = Excellent classification b. Akurasi bernilai 0.80 – 0.90 = Good classification c. Akurasi bernilai 0.70 – 0.80 = Fair classification d. Akurasi bernilai 0.60 – 0.70 = Poor classification e. Akurasi bernilai 0.50 – 0.60 = Failure’
2.1.12 RapidMiner
RapidMiner merupakan perangkat lunak yang bersifat terbuka (open source).
RapidMiner adalah sebuah solusi untuk melakukan analisis terhadap data mining, text mining dan analisis prediksi. RapidMiner menggunakan berbagai teknik deskriftif dan prediksi dalam memberikan wawasan kepada pengguna sehingga dapat membuat keputusan yang paling baik. RapidMiner memiliki kurang lebih 500 operator data mining, termasuk operator untuk input, output, data preprocessing dan visualisasi. RapidMiner merupakan software yang berdiri sendiri untuk analisis data dan sebagai mesin data mining yang dapat diintegrasikan pada produknya sendiri. RapidMiner ditulis dengan menggunakan bahasa java sehingga dapat
Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri bekerja di semua sistem operasi (Aprilia et al., 2013)
RapidMiner sebelumnya bernama YALE (Yet Another Learning Environmet), dimana versi awalnya mulai dikembangkan pada tahun 2001 oleh RalfKlinkenberg, Ingo Mierswa, dan Simon Fischer di Artificial Intelligence Unit dari University of Dortmund, RapidMiner didistribusikan di bawah licensi AGPL (GNU Affero General Public License) versi 3. Hingga saat ini telah ribuan aplikasi yang dikembangkan menggunakan RapidMiner di lebih dari 40 negara. RapidMiner sebagai software open source untuk data mining tidak perlu diragukan lagi karena software ini terkemuka di dunia. RapidMiner menempati peringkat pertama sebagai Software data minig pada polling oleh Kdnuggets, sebuah portal data mining pada 2010-2011.
RapidMiner menyediakan GUI (Graphic User Interface) untuk merancang sebuah pipeline analitis. GUI ini akan menghasilkan file XML (Extensible Markup Language) yang mendefinisikan proses analitis keinginan pengguna untuk diterapkan ke data. File ini kemudian dibaca oleh RapidMiner untuk menjalakan analisis secara otomatis.
RapidMiner memiliki beberapa sifat dalam pengolahan data antara lain sebagai berikut:
1. Ditulis dengan bahsa pemrograman Java sehingga dapat dijalankan di berbagai sistem operasi.
2. Proses penemuan pengetahuan dimodelkan sebagai operator trees.
3. Representasi XML internal untuk memastikan format standar pertukaran data.
4. Bahasa scripting memungkinkan untuk eksperimen skala besar dan otomatisasi eksperimen.
5. Konsep multi-layer untuk menjamin tampilan data yang efisien dan menjamin penangan data.
6. Memiliki GUI, command line mode, dan Jawa API yang dapat dipanggil dari program lain.
7. Ada banyak fitur yang ada dalam RapidMiner beikut beberapa fitur dari RapidMiner, antara lain:
Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri 1) Banyaknya algoritma data mining, seperti decision tree dan
self-organization map.
2) Bentuk grafis yang canggih, seperti tumpang tindih diagram histogram, tree chart dan 3D Scatter plots
3) Banyaknya variasi plugin, seperti text plugin utuk melakukan analisis text.
4) Menyediakan prosedur data mining dan machine learning termasuk: ETL (extraction, transformation loading), data preprocessing, visualisasi, modelling dan evaluasi.
5) Proses data mining tersusun atar operator-operator yang nestable, dideskripsikan dengan XML, dan dibuat dengan GUI.