• Tidak ada hasil yang ditemukan

Bab ini berisi kesimpulan dari pembahasan tugas akhir secara keseluruhan yang tentunya berkaitan dengan rumusan masalah dan tujuan tugas akhir. Bab ini juga akan berisi saran dari penulis untuk pengembangan lebih lanjut aplikasi yang dibuat.

BAB II

LANDASAN TEORI

Pada bab ini akan dibahas hal-hal yang berkaitan dengan pengertian datamining, pengelompokan data mining, tahap-tahap data mining, jenis atribut suatu data, metode pelatihan, pohon keputusan (decision tree), macam-macam pohon keputusan, algoritma ID3, 1-rule, entropi, information gain, kelebihan dan kekurangan pohon keputusan.

2.1 Pengertian DataMining

Beberapa pengertian datamining dari beberapa pendapat adalah sebagai berikut : 1. Secara sederhana dapat didefinisikan bahwa data mining adalah ekstraksi informasi atau pola yang penting atau menarik dari data yang ada di database yang besar sehingga menjadi informasi yang sangat berharga. (Larose, 2005) 2. Data mining merupakan proses semi otomatik yang menggunakan teknik

statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi pengetahuan potensial dan berguna yang bermanfaat yang tersimpan di dalam database. (Turban, 2005 ) 3. Datamining adalah suatu pola yang menguntungkan dalam melakukan pencarian

pada sebuah database yang terdapat pada sebuah model. Proses ini dilakukan berulang-ulang (iterasi) hingga didapat satu set pola yang memuaskan yang dapat berfungsi sesuai yang diharapkan. (Fairuz, 1996)

4. Datamining adalah sebuah class dari suatu aplikasi database yang mencari pola-pola yang tersembunyi di dalam sebuah group data yang dapat digunakan untuk memprediksi prilaku yang akan datang. (Thomas, 2004)

Berdasarkan beberapa pengertian diatas dapat ditarik kesimpulan bahwa data mining adalah analisa otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang sebelumnya tidak diketahui. Istilah data mining sering disalahgunakan untuk menggambarkan perangkat lunak yang mengolah data dengan cara yang baru. Sebenarnya perangkat lunak datamining bukan hanya mengganti presentasi, tetapi benar-benar menemukan sesuatu yang sebelumnya belum diketahui menjadi muncul diantara sekumpulan data yang ada. Bahkan dengan menggunakan data mining dapat memprediksikan prilaku dan trend yang akan terjadi kemudian, sehingga dapat mengambil keputusan dengan benar.

2.2 Pengelompokan Data Mining

Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan, yaitu (Larose, 2005) :

1. Description

Terkadang peneliti dan analis hanya mencoba mencari cara untuk mendeskripsikan pola dan trend yang dimiliki oleh data tersebut. Deksripsi pola dan trend seringkali memberikan penjelasan yang masuk akal untuk pola dan

trend. Model data mining harus dibuat sejelas (transparan) mungkin, yang berarti hasil dari model data mining harus mendeskripsikan pola jelas yang sesuai dengan interpretasi dan penjelasan intuitif. Metode data mining tertentu lebih sesuai dari metode lain dalam hal interpretasi transparan. Deskripsi yang berkualitas tinggi seringkali diperoleh melalui exploratory data analysis, metode grafis dalam eksplorasi data dalam pencarian pola dan trend.

2. Estimation

Estimasi hampir sama dengan klasifikasi kecuali bahwa variabel targetnya berupa numerik bukan kategori. Metode estimasi pada umumnya menggunakan analisis statistik termasuk point estimation dan confidence interval estimation, simple linear regression and correlation dan multiple regression.

3. Prediction

Prediksi hampir sama dengan klasifikasi dan estimasi. Perbedaan mendasar yaitu, hasil dari prediksi adalah di masa depan. Contoh dari prediksi adalah memprediksi harga saham selama 3 bulan mendatang. Semua metode dan teknik yang digunakan untuk klasifikasi dan estimasi dapat pula digunakan untuk prediksi dalam situasi yang sesuai.

4. Classification

Dalam klasifikasi terdapat sebuah target variabel kategori, misalnya income bracket, dimana misalnya dapat dipartisi menjadi 3 kelas atau kategori: high income, middle income, dan low income. Model datamining meneliti set record dalam jumlah besar, dimana tiap record berisi informasi mengenai variable

target serta satu set input. Metode data mining yang umum untuk klasifikasi adalah k‐nearest neighbor, decision tree, dan neural network.

5. Clustering

Clustering merupakan pengelompokkan record, observasi, atau kasus ke dalam kelas‐kelas dengan objek yang serupa. Sebuah cluster adalah koleksi record yang sama satu sama lain, dan tidak sama dengan record di cluster lain. Clustering berbeda dengan classification karena tidak ada variabel target dalam clustering. Clustering tidak mengklasifikasi, estimasi ataupun prediksi nilai dari variabel target. Akan tetapi algoritma clustering mencari segmen dari keseluruhan set data ke dalam subgrup yang relatif homogen atau cluster di mana keserupaan (similarity) record dalam cluster adalah maksimal dan keserupaan record di luar cluster adalah minimal. Contoh clustering adalah target pemasaran produk dari bisnis kecil dengan budget marketing yang terbatas.

6. Assosiation

Tugas asosiasi atau sering disebut juga sebagai “market basket analysis” dalam data mining adalah menemukan relasi atau korelasi diantara himpunan item-item dan menemukan atribut yang muncul dalam satu waktu. Asosiasi menggunakan unsupervised learning. Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter, support dan confidence.

2.3 Tahap-Tahap Data Mining

Istilah data mining dan Knowledge Discovery in Database (KDD) sering kali digunakan secara bergantian untuk menjelaskan proses penggalian informasi tersembunyi dalam suatu basis data yang besar. Sebenarnya kedua istilah tersebut memiliki konsep yang berbeda, tetapi berkaitan satu sama lain. Dan salah satu tahapan dalam keseluruhan proses KDD adalah data mining. Proses KDD secara garis besar dapat diilustrasikan pada Gambar 2.1. (Fayyad, 1996)

Gambar 2.1. Tahapan Dalam KDD Databases Flat files Cleaning and Integration Data Mining Evaluation and Presentation Data warehouse Selection and Transformation Patterns Knowledge

1. Pembersihan data (untuk membuang data yang tidak konsisten dan noise)

Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang tidak relevan dengan hipotesa data mining yang kita miliki. Pembersihan data yang tidak relevan akan mempengaruhi performasi dari sistem data mining karena data yang ditangani akan berkurang jumlah dan kompleksitasnya.

2. Integrasi data (penggabungan data dari beberapa sumber)

Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan entitas-entitas yang unik. Integrasi data perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Dalam integrasi data ini juga perlu dilakukan transformasi dan pembersihan data karena seringkali data dari dua database berbeda tidak sama cara penulisannya atau bahkan data yang ada di satu database ternyata tidak ada di database lainnya. Hasil integrasi data sering diwujudkan dalam sebuah data warehouse.

3. Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining) Beberapa teknik data mining membutuhkan format data yang khusus sebelum bisa diaplikasikan. Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Transformasi dan pemilihan data ini juga menentukan kualitas dari hasil data mining nantinya karena ada beberapa karakteristik dari teknik-teknik data mining tertentu yang tergantung pada tahapan ini.

4. Aplikasi teknik data mining

Aplikasi teknik data mining sendiri hanya merupakan salah satu bagian dari proses data mining. Beberapa teknik data mining sudah umum dipakai. Ada kalanya teknik-teknik data mining umum yang tersedia di pasar tidak mencukupi untuk melaksanakan data mining di bidang tertentu atau untuk data tertentu. 5. Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai)

Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa ada beberapa alternatif yang dapat diambil seperti : menjadikannya umpan balik untuk memperbaiki proses data mining, mencoba teknik data mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang mungkin bermanfaat.

6. Presentasi pola yang ditemukan untuk menghasilkan aksi

Tahap terakhir dari proses data mining adalah bagaimana memformulasikan keputusan atau aksi dari hasil analisa yang didapat. Ada kalanya hal ini harus melibatkan orang-orang yang tidak memahami data mining. Karenanya presentasi hasil data mining dalam bentuk pengetahuan yang bisa dipahami semua orang adalah satu tahapan yang diperlukan dalam proses data mining.

2.4 Jenis Atribut Suatu Data

Atribut suatu data berdasarkan jenisnya dapat dikelompokkan sebagai berikut (Tan, Steinbach, Kumar, 2006) :

1. Kualitatif  Nominal

Variabel yang nilainya berupa simbol, nilainya sendiri hanya berfungsi sebagai label atau memberi nama, tidak ada hubungan antar nilai nominal, tidak bisa diurutkan atau diukur jaraknya dan hanya uji persamaan yang bisa dilakukan. Contoh data nominal adalah kode pos, nomor ID pegawai, warna mata, jenis kelamin.

 Ordinal

Nilai dari suatu atribut ordinal memberikan informasi yang cukup untuk urutan objek. Contoh data ordinal adalah nilai.

2. Kuantitatif  Interval

Variabel yang nilainya bisa diurutkan, dan diukur dengan tetap dan unit yang sama. Contoh data interval adalah kalender, temperatur dalam Celcius atau Fahrenheit.

 Rasio

Variabel yang mempunyai nilai nol yang mutlak. Nilai variable rasio diperlakukan sebagai bilangan riil. Semua operasi matematika, seperti

penjumlahan, pengurangan, pembagian dan sebagainya, bisa dilakukan terhadap nilai rasio. Contoh data rasio adalah temperatur dalam Kelvin, umur.

2.5 Metode Pelatihan

Metode pelatihan adalah cara berlangsungnya pembelajaran atau pelatihan dalam data mining. Secara garis besar metode pelatihan dibedakan ke dalam dua pendekatan:

1. Pelatihan yang terawasi (Supervised Learning)

Pada pembelajaran terawasi, kumpulan input yang digunakan, output-outputnya telah diketahui.

2. Pelatihan Tak terawasi (Unsupervised Learning)

Dalam pelatihan tak terawasi, metode diterapkan tanpa adanya latihan (training) dan tanpa ada guru (teacher). Guru disini adalah label dari data.

2.6 Pohon Keputusan (Decision Tree)

Decision tree merupakan salah satu model dalam data mining. Decision tree adalah sebuah metode untuk memperkirakan fungsi target nilai diskrit, dimana fungsi yang dipelajari ditampilkan dengan pohon keputusan (decision tree).

Decision tree merupakan salah satu metode klasifikasi yang menggunakan representasi struktur pohon (tree) dimana setiap node merepresentasikan atribut, cabangnya merepresentasikan nilai dari atribut, dan daun merepresentasikan kelas. Node yang paling atas dari pohon keputusan disebut sebagai root.

Pohon keputusan merupakan metode klasifikasi yang paling populer digunakan. Selain karena pembangunannya relatif cepat, hasil dari model yang dibangun mudah untuk dipahami. Pada pohon keputusanterdapat 3 jenis node , yaitu :

1. Root Node (akar)

Merupakan node paling atas, pada node ini tidak ada input dan bisa tidak mempunyai output atau mempunyai output lebih dari satu.

2. Internal Node (simpul anak)

Merupakan node percabangan, pada node ini hanya terdapat satu input dan mempunyai output minimal dua.

3. Leaf node atau terminal node (daun)

Merupakan node akhir, pada node ini hanya terdapat satu input dan tidak mempunyai output

Gambar 2.2. Contoh Pohon Keputusan Cuaca Cerah  Mendung  Hujan  Kelembaban  Ya  Angin  Akar Cabang  Simpul Anak  Tinggi  Normal  Tidak  Ya  Tidak  Ya  Kuat  Lemah  Daun 

Pembentukan pohon keputusanterdiri dari beberapa tahap, yaitu (Han & Kamber 2001) :

1. Konstruksi pohon, yaitu pembuatan pohon yang diawali dengan pembentukan bagian akar, kemudian data terbagi berdasarkan atribut – atribut yang cocok untuk dijadikan leaf node.

2. Pemangkasan pohon (tree pruning), yaitu mengidentifikasi dan membuang cabang yang tidak diperlukan pada pohon yang telah terbentuk. Ada dua metode dalam melakukan pemangkasan dalam pohon keputusan, yaitu :

a. prepruning : pemangkasan dilakukan sejak awal pembentukan pohon. b. postpruning : pemangkasan dilakukan saat pohon telah terbentuk secara utuh 3. Pembentukan aturan keputusan, yaitu membuat aturan keputusan dari pohon

yang telah dibentuk.

2.6.1 Macam-Macam Pohon Keputusan Macam-macam pohon keputusan adalah : 1. ID3 (Iterative Dichotomiser 3)

Dalam ID3 (Iterative Dichotomiser 3) mengunakan kriteria information gain untuk memilih atribut yang akan digunakan untuk pemisahan obyek. Atribut yang mempunyai information gain paling tinggi dibanding atribut yang lain relatif terhadap set y dalam suatu data, dipilih untuk melakukan pemecahan. 2. CART (Classification And Regresion Trees)

CART (Classification And Regresion Trees) merupakan metode partisi rekursif yang digunakan baik untuk regresi maupun klasifikasi. CART dibangun dengan melakukan pemecahan subset-subset dari dataset menggunakan variable prediktor untuk membuat dua child node secara berulang, dimulai dari keseluruhan dataset. Tujuannya adalah menghasilkan subset data yang sehomogen mungkin untuk mengklasifikasikan variable target.

3. CHAID (Chi-Squared Automatic Interaction Detection)

Metode CHAID (Chi-Squared Automatic Interaction Detection) adalah berdasarkan tes chi-square terhadap asosiasi. Pohon CHAID adalah decision tree yang dibangun dengan memecah/splitting subset-subset secara berulang ke dalam dua atau lebih child node yang dimulai dari keseluruhan dataset.

4. C4.5

C4.5 adalah algoritma yang sudah banyak dikenal dan digunakan untuk klasifikasi data yang memiliki atribut-atribut numerik dan kategorial. Hasil dari proses klasifikasi yang berupa aturan-aturan dapat digunakan untuk memprediksi nilai atribut bertipe diskret dari record yang baru. Algortima C4.5 sendiri merupakan pengembangan dari algortima ID3, dimana pengembangan dilakukan dalam hal bisa mengatasi missing data, bisa mengatasi data kontiyu dan pruning.

2.6.2 Algoritma ID3

Dalam pohon keputusan, ID3 (Iterative Dichotomiser 3) adalah algoritma yang digunakan untuk menghasilkan pohon keputusan. Ditemukan oleh Ross Quinlan. ID3 adalah awal dari algoritma C4.5.

Dalam ID3 mengunakan kriteria information gain untuk memilih atribut yang akan digunakan untuk pemisahan obyek. Atribut yang mempunyai information gain paling tinggi dibanding atribut yang lain relatif terhadap set y dalam suatu data, dipilih untuk melakukan pemecahan. (Mitchell, 1997)

Algoritma ID3 (Iterative Dichotomiser 3) mempelajari pohon keputusan dengan membangunnya dari atas ke bawah, dimulai dengan pertanyaan “atribut mana yang harus di uji pada simpul akar?”. Untuk menjawab pertanyaan tersebut, tiap atributinstans dievaluasi dengan menggunakan pengujian statistik untuk menentukan seberapa baik suatu atribut mengklasifikasikan sampel-pelatihan. Atribut terbaik kemudian dipilih dan digunakan sebagai pengujian pada simpul akar. Menurun dari simpul akar, selanjutnya dibuat untuk tiap kemungkinan nilai pada atribut, dan sampel-pelatihan yang diasosiasikan dengan tiap simpul, menurun untuk memilih atribut terbaik untuk diuji pada titik itu.

Algoritma ID3 dapat dijelaskan sebagai berikut : Input : sampel training, label training, atribut.

Jika semua sampel positif, berhenti dengan suatu pohon dengan satu simpul akar, beri label +

Jika semua sampel negatif, berhenti dengan suatu pohon dengan satu simpul akar, beri label –

Jika atribut kosong, berhenti dengan suatu pohon dengan satu simpul akar dengan label sesuai.

Nilai yang terbanyak yang ada pada label training. Untuk yang lain,

Mulai

A ←atribut yang mengklasifikasikan sampel dengan hasil terbaik (berdasarkan information gain).

Atribut keputusan untuk simpul akar ← A. Untuk setiap nilai, vi, yang mungkin untuk A.

Tambahkan cabang di bawah akar yang berhubungan dengan A = vi.

Tentukan sampel Svi sebagai subset dari sampel yang mempunyai nilai vi untuk atribut A.

Jika sampel Svi kosong,

Di bawah cabang tambahkan simpul daun dengan label = nilai yang terbanyak yang ada pada label training.

ID3 (sampel training, label training, atribut – [A]). Berhenti

2.6.2.11-Rule

Data yang bertipe numerik diolah dengan menggunakan proses 1-rule untuk memecah-mecah data menjadi aturan-aturan. Untuk memproses 1-rule, pertama-tama data dari setiap atribut diurutkan terlebih dahulu dari yang terkecil sampai yang terbesar. Setelah data diurutkan, output dari data tersebut yang berubah dipecah-pecah. Dari output data yang sudah dipecah-pecah itu tadi kemudian output data tersebut dikelompokan sesuai minimum member yang telah ditentukan dari setiap atribut. Minimum member yang dipilih yang memberikan total error paling optimal. Dari kelompok-kelompok tersebut kemudian dipilih output yang paling dominan untuk dijadikan output rulenya. Setelah didapat output rule dari masing-masing kelompok, maka jika ada output rule yang sama dapat digabungkan dan kemudian terbentuklah rule/aturan-aturan dari setiap atribut. Berdasarkan penjelasan diatas dapat ditarik kesimpulan bahwa 1-Rule adalah teknik untuk memecah-mecah dan mengelompokan data-data yang bertipe numerik menjadi aturan-aturan berdasarkan minimum member tertentu. (Witten & Frank, 2005) 

2.6.2.2Entropi

Algoritma ID3 berangkat dari pemilihan atribut mana yang paling baik untuk mengklasifikasikan sampel information gain sebagai property statistik, mampu mengukur seberapa baik atribut yang diberikan, membagi sampel-pelatihan berdasarkan klasifikasi targetnya.

Atribut yang harus ditanyakan di suatu simpul adalah atribut yang memungkinkan untuk mendapatkan pohon keputusan yang paling kecil ukurannya. Atau ukuran lain adalah atribut yang bisa memisahkan obyek menurut kelasnya. Secara heuristic, dipilih atribut yang menghasilkan simpul yang paling “purest” (paling bersih). Kalau dalam suatu cabang anggotanya berasal dari satu kelas maka cabang ini disebut pure. Semakin pure suatu cabang, semakin baik. Ukuran purity dinyatakan dengan tingkat impurity. Kriteria impurity adalah information gain. Jadi dalam memilih atribut untuk memecah obyek dalam beberapa kelas harus dipilih atribut yang menghasilkan information gain yang paling besar.

Sebelum menghitung information gain, perlu menghitung dulu nilai informasi dalam satuan bits dari suatu kumpulan obyek. Cara menghitung dilakukan dengan menggunakan konsep entropi. Entropi menyatakan suatu impurity suatu kumpulan obyek. Jika diberikan sekumpulan obyek dengan label atau output y yang terdiri dari obyek berlabel 1, 2 sampai n, entropi dari obyek dengan n kelas ini dihitung dengan rumus berikut

2.6.2.3Information Gain

Information gain bisa dihitung dari output data atau variable depedent y yang dikelompokkan berdasarkan atribut A, dinotasikan dengan gain (y,A). Information gain, gain (y,A), dari atribut A relatif terhadap output data y adalah :

gain(y,A)=entropi(y) - ∑ entropi (yc)………..(2.2)

dimana nilai (A) adalah semua nilai yang mungkin dari atribut A, dan yc adalah subset dari y dimana A mempunyai nilai c. Term pertama dalam persamaan di atas adalah entropi total y dan term kedua adalah entropi sesudah dilakukan pemisahan data berdasarkan atribut A.

Secara umum terdapat mekanisme untuk melakukan perhitungan information gain, yaitu (Kantardzic 2003) :

1. Standar test yang dilakukan pada data atribut dengan tipe diskrit, dengan satu nilai keluaran dan satu cabang untuk setiap nilai atribut yang mungkin.

2. Jika atribut Y adalah atribut dengan tipe numerik, perhitungan akan dilakukan dengan Y <= Z dan Y > Z, dimana Z merupakan nilai perbandingan. Untuk mencari nilai perbandingan dapat digunakan nilai tengah dari tiap interval dari data yang digunakan

……...………..(2.3)

(v

i

+ v

i+1)

Dari formula tersebut, vi adalah nilai ke -i dari data yang digunakan.

3. Pengujian yang lebih kompleks juga terjadi pada atribut diskrit, dimana nilai yang mungkin dialokasikan untuk setiap kelompok variabel dengan satu keluaran dan cabang untuk setiap grup.

2.6.3 Kelebihan dan Kekuranga Pohon Keputusan Kelebihan pohon keputusan adalah :

1. Daerah pengambilan keputusan yang sebelumnya kompleks dan sangat global, dapat diubah menjadi lebih simpel dan spesifik.

2. Eliminasi perhitungan-perhitungan yang tidak diperlukan, karena ketika menggunakan metode pohon keputusan maka sample diuji hanya berdasarkan kriteria atau kelas tertentu.

3. Fleksibel untuk memilih fitur dari internal node yang berbeda, fitur yang terpilih akan membedakan suatu kriteria dibandingkan kriteria yang lain dalam node yang sama. Kefleksibelan metode pohon keputusan ini meningkatkan kualitas keputusan yang dihasilkan jika dibandingkan ketika menggunakan metode penghitungan satu tahap yang lebih konvensional.

4. Dalam analisis multivariat, dengan kriteria dan kelas yang jumlahnya sangat banyak, seorang penguji biasanya perlu untuk mengestimasikan baik itu distribusi dimensi tinggi ataupun parameter tertentu dari distribusi kelas tersebut. Metode pohon keputusan dapat menghindari munculnya permasalahan

ini dengan menggunakan kriteria yang jumlahnya lebih sedikit pada setiap node internal tanpa banyak mengurangi kualitas keputusan yang dihasilkan.

Kekurangan pohon keputusan adalah :

1. Terjadi overlap terutama ketika kelas-kelas dan kriteria yang digunakan jumlahnya sangat banyak. Hal tersebut juga dapat menyebabkan meningkatnya waktu pengambilan keputusan dan jumlah memori yang diperlukan.

2. Pengakumulasian jumlah error dari setiap tingkat dalam sebuah pohon keputusan yang besar.

3. Kesulitan dalam mendesain pohon keputusan yang optimal. Hasil kualitas keputusan yang didapatkan dari metode pohon keputusan sangat tergantung pada bagaimana pohon tersebut didesain.

METODOLOGI PENELITIAN

Pada bab ini akan dibahas hal-hal yang berkaitan dengan data histori untuk data kuantitatif, kualitatif dan campuran, training dan testing, akurasi, contoh perhitungan manual ID3 data campuran, desain interface, spesifikasi perangkat lunak.

3.1 Data Histori

Dalam pembuatan aplikasi ini, data yang digunakan ada 3 macam jenis data, yaitu data kuantitatif (blood transfusion), data kualitatif (car), dan data campuran (cencus income).

3.1.1 Data Kuantitatif

Data kuantitatif menggunakan data blood transfusion. Data diambil dari Blood Transfusion Service Center di Hsin-Chu City di Taiwan. Data kuantitatif terdiri dari 4 atribut yaitu recency, frequency, monetary dan time. Atribut recency untuk bulan sejak terakhir kali mendonorkan darah. Atribut frequency untuk total berapa kali mendonorkan darah. Atribut monetary untuk total mendonorkan darah dalam c.c. atribut time untuk bulan sejak pertama kali mendonorkan darah. Outputnya ada dua yaitu 1 dan 0. Nilai 1 jika mendonorkan darah dan nilai 0 jika tidak mendonorkan darah. Jumlah data blood transfusion adalah 748.

Data kualitatif menggunakan data car. Data diambil dari Car Evaluation Database. Data kualitatif terdiri dari 6 atribut yaitu buying, maint, doors, persons, lug_boot dan safety. Atribut buying memiliki nilai vhigh, high, med dan low. Atribut maint memiliki nilai vhigh, high, med dan low. Atribut doors memiliki

Dokumen terkait