1 1.1 Latar Belakang dan Permasalahan
Dalam era yang semakin berkembang ini, penggunaan data mining semakin banyak dalam berbagai bidang dan menjadi bagian dari perkembangan teknologi informasi yang tak terhindarkan. Setiap hari selalu terkumpul sejumlah besar data, di mana data-data tersebut perlu untuk dianalisa. Data tersebut berasal dari berbagai bidang seperti bisnis, keuangan, kesehatan, ilmu pengetahuan dan teknologi, dan hampir semua aspek kehidupan manusia.
Dengan banyaknya data yang tersedia tersebut, dibutuhkan metode untuk mengetahui pola dan informasi bermakna yang terkandung di dalam data tersebut secara cepat, efisien, dan mudah dipahami. Proses demikian menjadi cikal bakal dari data mining. Data mining merupakan proses penggalian informasi yang bermakna dari sejumlah besar data, dengan melalui berbagai prosedur dan metode.
Salah satu fungsi yang paling sering digunakan dalam data mining adalah klasifikasi. Klasifikasi telah banyak digunakan dalam berbagai aplikasi, misalnya; pemilihan calon pelanggan potensial yang akan dihubungi dan diberi penawaran produk tertentu dalam strategi promosi/bisnis, perkiraan jenis komputer yang akan dibeli berdasar profil dari calon pelanggan, menentukan kreditur suatu bank berkarakter baik atau buruk (kredit macet), pencegahan tindak kriminalitas melalui identifikasi data pada profil kekayaan dan kebiasaan/perilaku seseorang, proses diagnosa penyakit seorang pasien berdasarkan ciri-ciri yang muncul, penentuan langkah penanganan/pengobatan spesifik yang dibutuhkan pada pasien dengan kondisi tertentu, penempatan calon murid pada suatu kelas berdasar kemampuan dan keistimewaan yang dimiliki, teknologi untuk mengetahui identitas seseorang dari bagian tubuh (sidik jari, retina, suara, DNA)
ataupun dari kebiasaan/perilaku (hal ini biasa disebut dengan sistem biometrika), dan lain sebagainya.
Disebutkan Gupta dkk. (2011) dalam bidang kedokteran, penggunaan data mining mempunyai peranan yang cukup penting dan evolusioner yang dapat mengubah cara pandang para dokter, praktisi dan peneliti kesehatan dalam melakukan proses deteksi penyakit kanker payudara pada seorang pasien. Terdapat 2 aplikasi klasifikasi di dalamnya, yaitu proses diagnosa (diagnosis) sel kanker yang membedakan antara tumor (kanker jinak) atau kanker ganas dan proses prognosa (prognosis) untuk mengetahui kemungkinan munculnya kembali sel kanker pada pasien yang telah dioperasi di masa yang akan datang. Penelitian dalam bidang ini, biasanya dilakukan secara klinis/biologi dan penelitian secara statistik hanya sebagai pelengkap. Namun proses diagnosa dan prediksi ini termasuk aplikasi klasifikasi yang sering dibahas secara luas oleh para peneliti di bidang lain seperti data mining, ilmu komputer, dan statistik. Karena untuk dapat menekan angka kematian akibat kanker payudara salah satunya adalah dengan melakukan diagnosa dan prediksi secara akurat dan cepat (lebih dini).
Banyak peneliti yang telah melakukan penelitian tentang metode-metode dalam teknik klasifikasi. Diperoleh hasil bahwa setiap metode memiliki keunggulan dan kelemahan masing-masing. Pada kenyataannya, untuk menangani suatu tipe data tertentu dibutuhkan metode tertentu pula, tidak bisa disamakan, misal data tipe A harus menggunakan metode A. Namun demikian, tiap metode dapat dilihat efisiensi dan performanya masing-masing, sehingga dapat dipilih metode yang lebih baik dari metode lainnya dalam menangani suatu data tertentu.
Salah satu metode klasifikasi yang cukup populer di kalangan praktisi data mining adalah Bayesian Belief Networks (BBN). Metode BBN adalah metode klasifikasi yang menerapkan prinsip teorema Bayes dalam perhitungannya, selain diperoleh hasil klasifikasi akan diketahui pula hubungan kausalitas antar variabelnya. Dan berdasar hasil penelitian sebelumnya diketahui bahwa metode
klasifikasi Bayesian Belief Networks (BBN) merupakan metode yang cukup baik di antara metode klasifikasi yang ada. Maka pada karya tulis ini, penulis ingin mengetahui performa dari metode BBN dalam mengklasifikasi data.
1.2 Batasan Masalah
Pada karya tulis ini, perlu dilakukan pembatasan masalah mengingat cakupan dari tema ini cukup luas dan beragam, dan agar memperoleh hasil kesimpulan yang terfokus dan tidak menyimpang dari tujuan awal. Maka pada karya tulis ini pembahasan akan difokuskan pada proses pembentukan model BBN berdasar nilai probabilitas suatu event akan terjadi atau tidak, dan pada hasil prediksi model BBN terhadap event baru. Parameter yang digunakan sebagai acuan dalam pemilihan model adalah dengan melihat nilai akurasi dari model, luas daerah kurva ROC (AUC) dan nilai rata-rata galat absolut (Mean
Absolute Error).
1.3 Tujuan dan Manfaat Karya Tulis
Tujuan dalam penulisan skripsi ini agar lebih mengenal, memahami dan dapat menerapkan metode Bayesian Belief Networks dalam studi kasus hingga diperoleh model klasifikasi ‘terbaik’ yang dapat dipergunakan berdasar data historis yang dimiliki. Selain itu, manfaat dari karya tulis ini Penulis harapkan dapat:
a. memperoleh model klasifikasi yang dapat digunakan untuk
mengklasifikasikan sekumpulan data baru yang dapat dimanfaatkan oleh para praktisi dan peneliti bidang kesehatan sebagai bahan acuan dan pertimbangan pengambilan keputusan (decision making).
b. menambah wawasan dan khazanah dalam ilmu statistika, terutama dalam bidang data mining dan klasifikasi, dengan metode Bayesian Belief
c. mengenalkan metode-metode dalam data mining menjadi salah satu teknik analisa data dalam statistika untuk menangani data yang berjumlah sangat besar.
1.4 Tinjauan Pustaka
Sejarah data mining dimulai sejak tahun 1960. Teknologi dalam basis data dan informasi berkembang dari sistem yang sederhana menjadi sistem basis data yang modern dan kuat. Setelah itu, teknologi basis data berkembang lagi menjadi sistem basis data, data warehouse dan data mining lebih lanjut yang membuat analisa data menjadi lebih maju dan basis data berbasis jaringan.
Dalam data mining terdapat 6 aplikasi utama, yaitu estimasi, prediksi, klasifikasi, pengelompokan (clustering), deskripsi, dan asosiasi (Berry dan Linoff, 2004). Klasifikasi menjadi salah satu bahasan yang paling sering dibicarakan dalam data mining karena cakupan penerapannya yang cukup luas seperti dalam bidang bisnis, keuangan, kesehatan, keamanan, ilmu pengetahuan dan teknologi, dan hampir semua aspek kehidupan manusia.
Contoh penerapan klasifikasi dalam bidang kesehatan adalah proses deteksi penyakit kanker payudara pada seorang pasien. Gupta dkk. (2011) menyebutkan bahwa penelitian tentang diagnosa dan prognosa penyakit kanker payudara menggunakan berbagai macam metode klasifikasi telah banyak dilakukan. Dengan berbagai macam metode tersebut didapatkan hasil klasifikasi yang memuaskan dan meyakinkan. Metode-metode dalam data mining dan klasifikasi memberikan harapan besar terhadap kemajuan bidang kesehatan, dalam hal ini penanganan medis yang tepat bagi pasien penderita kanker payudara. Karena metode-metode tersebut dapat menemukan pola-pola yang tersembunyi dalam data, sehingga dapat membantu para dokter dalam pengambilan keputusan medis terhadap pasien kanker payudara.
Salah satu hasil penelitian yang menginspirasi penulisan karya tulis ini adalah penelitian Choi, dkk (2009) tentang prognosa kanker payudara dengan
menggunakan metode Hybrid Bayesian Network dan penelitian Hesar (2012) tentang diagnosa dan prognosa kanker payudara menggunakan pendekatan
Bayesian Classifier. Dalam kedua karya tersebut metode Bayesian Belief Networks memiliki tingkat akurasi yang baik dan hasil interpretasi yang diperoleh
mudah dipahami para dokter dan praktisi kesehatan yang awam dengan hasil pemodelan jaringan syaraf (neural network) yang berdasar pada prinsip “kotak hitam” (black box).
Dalam penulisan skripsi ini, penulis mencoba untuk melakukan pemodelan dan diagnosa/prediksi pasien apakah negatif atau positif kanker payudara menggunakan metode klasifikasi Bayesian Belief Networks (BBN). Selain itu, metode ini adalah pengembangan dari penelitian Wulandari (2013) tentang metode Naive Bayes Classification (NBC) yang menggunakan prinsip dan teorema Bayes yang sama dengan BBN namun menggunakan asumsi yang berbeda. Pada NBC digunakan asumsi bahwa setiap variabel input bersifat saling independen bersyarat (conditionally independent) sedang dalam BBN menggunakan asumsi bahwa variabel input bersifat saling independen bersyarat secara bersama (joint conditionally independent).
1.5 Metode Penulisan
Metode yang digunakan dalam penulisan skripsi ini adalah studi literatur, yang diperoleh dari dari buku-buku yang tersedia di perpustakaan, buku-buku elektronik, artikel, jurnal-jurnal ilmiah, situs-situs penunjang di internet serta dari berbagai sumber lain yang mendukung penulisan skripsi ini. Data pada studi kasus yang digunakan berasal dari data sekunder yang berasal dari internet yang dapat dipertanggungjawabkan.
Selain itu pengerjaan skripsi ini menggunakan beberapa perangkat lunak, seperti WEKA dan Microsoft Excel.
1.6 Sistematika Penulisan
Penulisan skripsi ini disajikan dalam urutan sebagai berikut: BAB I PENDAHULUAN
Bab ini berisi Latar Belakang dan Permasalahan, Batasan Masalah, Tujuan dan Manfaat Karya Tulis, Tinjauan Pustaka, Metode Penulisan dan Sistematika Penulisan.
BAB II LANDASAN TEORI
Bab ini berisi tentang teori-teori dasar dan penunjang yang digunakan dalam pembahasan utama mengenai klasifikasi menggunakan metode Bayesian Belief Networks.
BAB III PEMBAHASAN
Bab ini berisi tentang proses dan teori penting dari metode Bayesian
Belief Networks.
BAB IV STUDI KASUS
Bab ini berisi tentang data yang digunakan sebagai studi kasus dan hasil klasifikasi label kelas menggunakan metode Bayesian Belief
Networks.
BAB V PENUTUP
Bab ini berisi kesimpulan dan saran yang diperoleh dari pembahasan pada bab-bab sebelumnya.