Metode Penelitian Data Mining - SKRIPSI IMPLEMENTASI DATA MINING UNTUK DIAGNOSA PREDIKSI PENYAK

Naïve Bayes merupakan sebuah pengklasifikasian probalistik sederhana yang menghitung sekumpulan probabilitas dengan menjumlahkan frekuensi dan kombinasi nilai dari dataset yang diberikan. Algoritma menggunakan Teorema Bayes dan mengasumsikan semua atribut independen atau tidak saling ketergantungan yang diberikan oleh nilai pada variable kelas. Naïve Bayes juga didefinisikan sebagai pengklasifikasian dengan metode probabilitas dan statistik yang dikemukakan oleh ilmuan inggris Thomas Bayes yaitu memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya (Saleh, 2015).

Naïve Bayes didasarkan pada asumsi penyederhanaan bahwa nilai atribut secara kondisional saling bebas jika diberikan nilai output. Dengan kata lain diberikan nilai output, probabilitas mengamati secara bersama adalah produk dari probabilitas individu. Keuntungan penggunaan Naïve Bayes adalah bahwa metode ini hanya membutuhkan jumlah data pelatihan (Training Data) yang kecil untuk menentukan estimasi parameter yang diperlukan dalam proses pengklasifikasian. Naïve Bayes

sering bekerja jauh lebih baik dalam kebanyakan situasi dunia nyata yang kompleks daripada yang diharapkan (Saleh, 2015).

Persamaan dari Teorema Bayes dapat dilihat dibawah ini :

𝑃 (𝐻 | 𝑋) =^{P(X|H). P(H)} P(H)

Dimana :

X : Data dengan class yang belum diketahui

H : Hipotesis data menggunakan suatu class spesifik

P(H|X) : Probabilitas hipotesis H berdasarkan kondisi X (parteriori probabilitas) P(H) : Probabilitas hipotesis H (prior probabilitas)

P(X|H) : Probabilitas X berdasarkan kondisi pada hipotesis H P(X) : Probabilitas H

2.10.2 Naïve Bayes Untuk Klasifikasi

Kaitan antara naïve bayes dengan klasifikasi, korelasi hipotesis dan bukti klasifikasi adalah bahwa hipotesis dalam teorema bayes merupakan label kelas yang menjadi target pemetaan dalam klasifikasi, sedangkan bukti merupakan fitur – fitur yang menjadikan masukkan dalam model klasifikasi. Jika X adalah vector masukkan yang berisi fitur dan Y adalah label kelas, naïve bayes dituliskan dengan P(X|Y). Notasi tersebut berarti probabilitas label kelas Y didapatkan setelah fitur – fitur X diamati. Notasi ini disebut juga probabilitas akhir (posterior probability) untuk Y, sedangkan P(Y) disebut probabilitas awal (prior probability) Y.

Konsep Klasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan utama yang dilakukan, yaitu :

1. Pembangunan model seperti prototype untuk disimpan sebagai memori.

2. Penggunaan model tersebut untuk melakukan pengenalan / klasifikasi / prediksi pada suatu objek data lain agar diketahui di kelas mana objek data tersebut dalam model yang mudah disimpan.

Contohnya adalah bagaimana melakukan diagnosis penyakit kulit kanker melanoma (Amaliyah, 2011) yaitu dengan melakukan pembangunan model berdasarkan data latih yang ada, kemudian menggunakan model tersebut untuk mengidentifikasi penyakit pasien baru sehingga diketahui apakah pasien tersebut menderita kanker atau tidak. 2.10.3 Model Klasifikasi

Model dalam klasifikasi mempunyai arti yang sama dengan kotak hitam, dimana ada suatu model yang menerima masukan, kemudian mampu melakukan pemikiran terhadap masukan tersebut dan memberikan jawaban sebagai keluaran dari hasil pemikirannya. Kerangka kerja (framework) klasifikasi ditunjukkan pada gambar 2.1, pada gambar tersebut disediakan sejumlah data latih (x,y) untuk digunakan sebagai data pembangunan model. Model tersebut kemudian dipakai untuk memprediksi kelas dari data uji (x,y) sehingga diketahui kelas y yang sesungguhnya. Menurut Amaliyah (2011) berikut adalah contoh proses klasifikasi data latih

Gambar 2.3 Proses Klasifikasi (Amaliyah, 2011)

Model yang sudah dibangun pada saat pelatihan kemudian dapat digunakan untuk memprediksi label kelas baru yang belum diketahui. Dalam pembangunan model selama proses pelatihan tersebut diperlukan suatu algoritma untuk membangunnya, yang disebut algoritma pelatihan (learning algorithm). Ada banyak algoritma pelatihan yang sudah dikembangkan oleh para peneliti seperti K-Nearest Neighbor, Artificial Neural Network, Support Vector Machine dsb. Setiap algoritma mempunyai kelebihan dan kekurangan, tetapi semua algoritma berprinsip sama yaitu melakukan suatu pelatihan sehingga di akhir pelatihan model dapat memetakan (memprediksi) setiap vektor masukan ke label kelas keluaran dengan benar.

Contoh studi kasus hasil pengujian akurasi :

Hasil dari pengujian akurasi dengan sampel 40 data uji mendapat 35 hasil yang akurat dan 5 hasil tidak akurat. Untuk mencari nilai persentase akurasi sistem diperoleh dari menghitung jumlah data yang akurat dibagi jumlah seluruh data uji, setelah mendapat hasil pembagian kemudian dikali 100. Nilai akurasi dihitung dengan menggunakan persamaan 2 (Gardenia dkk, 2015) dan memperoleh hasil seperti berikut :

𝑎𝑘𝑢𝑟𝑎𝑠𝑖 =^{𝑗𝑢𝑚𝑙𝑎ℎ 𝑑𝑎𝑡𝑎 𝑦𝑎𝑛𝑔 𝑎𝑘𝑢𝑟𝑎𝑡}

𝑗𝑢𝑚𝑙𝑎ℎ 𝑑𝑎𝑡𝑎 ^{𝑥 100}

= ³⁵

40 𝑥 100 = 87,5%

Dari hasil perhitungan akurasi di dapatkan persentase sebesar 87,5%. Terdapat 5 kesalahan hasil diagnosis sistem, kesalahan terjadi disebabkan karena gejala dimiliki oleh dua penyakit sedangkan sistem hanya dapat menghasilkan satu output penyakit. Dapat dikatakan semakin banyak gejala spesifik yang digunakan maka akurasi semakin tinggi, semakin banyak gejala umum yang digunakan maka akurasi semakin rendah.

2.11 Metode – metode Pilihan dan Klasifikasi

Berikut merupakan beberapa metode yang digunakan pada klasifikasi secara umum, diantaranya adalah :

1. Klasifikasi berdasarkan pohon keputusan (Decission Tree)

Pohon keputusan atau decission tree merupakan proses pelatihan data set yang memiliki atribut dengan dasaran nominal, yaitu bersifat kategoris dan setiap nilai

tidak bisa dijumlahkan atau dikurangkan. Pada umumnya, ciri khusus berikut cocok untuk diterapkan pada decission tree :

a. Data / example dinyatakan dengan pasangan atribut dan nilainya b. Label / output data biasanya bernilai diskrit

c. Data mempunyai missing value 2. Klasifikasi Bayesian

Klasifikasi Bayesian merupakan klasifikasi berdasarkan statistic classifier. Ini dapat mengklasifikasikan sebuah kelas dengan probabilitas dari setiap klasifikasi Bayesian didasarkan pada Bayes Theorem. Beberapa penelitian yang membandingkan algoritma klasifikasi telah menemukan sebuah klasifikasi Bayesian sederhana yang dikenal dengan nama Naïve Bayes Classifier. Algoritma ini telah dibandingkan dengan decission tree dan selektif Neoral Network secara performansi. Klasifikasi Bayesian juga memiliki tingkat akurasi yang tinggi dan cepat jika diterapkan pada database yang besar. Naïve Bayes Classifier mengenali setiap atribut pada data set sebagai atribut yang independen, sehingga disebut algoritma yang naïve.

3. Klasifikasi berdasarkan Propagasi Balik (Back Propagation)

Propagasi Balik atau Back Propagation merupakan sebuah algoritma pembelajaran dari Neural Network. Secara umum, neural network merupakan satu set input / output yang terhubung pada setiap koneksi memiliki weight. Input / Output yang terhubung tersebut mengadopsi system syaraf manusia, yang pemrosesan utamanya adalah di otak. Bagian terkecil dari otak manusia adalah sel syaraf yang disebut

Unit Dasar pemroses informasi atau neuron. Ada sekitar 10 miliar neuron dalam otak manusia dan sekitar 60 triliun koneksi dengan menggunakan neuron tersebut secara simultan, otak manusia dapat memproses informasi secara parallel dan cepat, bahkan lebih cepat dari komputer tercepat saat ini. Dengan analogi system kinerja otak tersebut, neural network terdiri dari unit proses yang disebut neuron yang berisi penambah dan fungsi aktivasi, sejumlah bobot, sejumlah vector masukan. Fungsi aktivasi berguna untuk mengatur keluaran yang diberikan oleh neuron. Propagasi Balik mempelajari data dengan memprediksi setiap jaringan pada setiap atribut dan kemudian mengklasifikasikannya kedalam kelas target. Kelas target dapat diketahui melalui training pada data set.

4. Support Vector Machine (SVM)

SVM merupakan metode klasifikasi yang berakar dari teori pembelajaran statistik yang hasilnya sangat menjanjikan untuk memberikan hasil yang lebih baik daripada metode yang lain. SVM juga bekerja dengan baik pada set data berdimensi tinggi, bahkan SVM yang menggunakan teknik kernel yang harus memetakan data asli dari dimensi asalnya menjadi dimensi lain yang relative lebih tinggi. Pada SVM, data latih yang akan dipelajari hanya data terpilih saja yang berkontribusi untuk membentuk model yang digunakan dalam klasifikasi yang akan dipelajari. Hal ini menjadi kelebihan SVM karena tidak semua data latih akan dipandang untuk dilibatkan dalam setiap iterasi pelatihannya. Data yang berkontribusi tersebut disebut Support Vector sehingga metodenya disebut Support Vector Machine.

2.12 UML (Unified Modelling Language)

Unified Modelling Language (UML) adalah salah satu standar bahasa yang banyak digunakan untuk mengkombinasikan, membuat analisis dan desain, serta menggambarkan arsitektur dalam pemograman berorientasi objek. UML merupakan bahasa visual untuk pemodelan dan komunikasi mengenai sebuah sistem dengan menggunakan diagram dan teks – teks pendukung. UML muncul karena adanya kebutuhan pemodelan visual untuk menspesifikasikan, menggambarkan, membangun, dan dokumentasi dari sistem perangkat lunak. UML hanya berfungsi untuk melakukan permodelan. Jadi penggunaan UML tidak terbatas pada metodologi tertentu, meskipun pada kenyataannya UML paling banyak digunakan pada metodologi berorientasi objek (Rosa A.S dan M. Shalahudin, 2014:133)

UML adalah bahasa yang telah menjadi standar untuk visualisasi, menetapkan, membangun dan mendokumentasikan suatu sistem perangkat lunak (Hend, 2006:5).

UML adalah alat bantu analis serta perancangan perangkat lunak berbasis objek (Adi Nugroho, 2005:3).

UML adalah keluarga notasi grafis yang di dukung oleh meta-model 28 tunggal yang membantu pendeskripsian dan desain sistem perangkat lunak khususnya sistem yang dibangun menggunakan pemograman berorientasi objek (Martin Fowler, 2005:1). UML adalah bahasa standar untuk membuat rancangan software. UML biasanya digunakan untuk menggambarkan dan membangun dokumen dari software – intensive system (Booch, 2005:7).

UML adalah bahasa pemodelan untuk sistem atau perangkat lunak yang berparadigma “berorientasi objek”. Pemodelan (modelling) sesungguhnya digunakan untuk penyederhanaan permasalahan – permasalahan yang kompleks sedemikian rupa sehingga lebih mudah dipelajari dan dipahami (Nugroho, 2010:6).

UML adalah metodologi kolaborasi antara metoda – metoda Booch, OMT (Object Modelling Technique) serta OOSE (Object Oriented Software Enginering) dan beberapa metoda lainnya merupakan metodologi yang paling sering digunakan saat ini untuk analisa dan perancangan sistem dengan metodologi berorientasi objek mengadaptasi maraknya pengguna Bahasa pemograman berorientasi objek (OOP) (Nugroho, 2009:4).

Beberapa literature menyebutkan bahwa UML menyediakan 9 diagram, yang lainnya menyebutkan 8 diagram karena ada beberapa diagram yang digabung misalnya diagram komunikasi, diagram urutan dan diagram perwaktuan digabung menjadi diagram interaksi (Heriawati, 2011)

UML adalah Bahasa pemodelan standar yang memiliki sintak dan semantik (Widodo, 2011)

Berdasarkan beberapa pendapat yang dikemukakan dapat ditarik kesimpulan bahwa Unified Modelling Language (UML) adalah Bahasa grafis untuk mendokumentasikan, mengspesifikasikan dan membangun system perangkat lunak.

Dalam dokumen SKRIPSI IMPLEMENTASI DATA MINING UNTUK DIAGNOSA PREDIKSI PENYAKIT TUBERCULOSIS (TBC) MENGGUNAKAN ALGORITMA NAÏVE BAYES (Halaman 35-44)