Machine Learning:
WEKA Tutorial
Practicing WEKA
• What is WEKA ?
• Formatting the data into ARFF
• Klasifkasi
– Tahapan membangun classifer
– Contoh kasus : Klasifkasi bunga iris
– Tahapan membangun classifer
– Merangkum hasil eksperimen k-Nearest
Neighbor Classifer
– Eksperimen memakai classifer yang lain (JST,
SVM)
3
What is WEKA ?
• Machine learning/data mining software written
in Java (distributed under the GNU Public
License)
• Used for research, education, and applications
• Complements “Data Mining” by Witten & Frank
• Main features:
– Comprehensive set of data pre-processing tools,
learning algorithms and evaluation methods
– Graphical user interfaces (incl. data visualization)
– Environment for comparing learning algorithms
• Weka versions
– WEKA 3.4: “book version” compatible with
description in data mining book
Formatting Data into ARFF
@relation iris
@attribute sepallength real
@attribute sepalwidth real
@attribute petallength real
@attribute petalwidth real
5
Practicing WEKA
• What is WEKA ?
• Formatting the data into ARFF
•
Klasifkasi
– Tahapan membangun classifer
– Contoh kasus : Klasifkasi bunga iris
– Tahapan membangun classifer
– Merangkum hasil eksperimen k-Nearest
Neighbor Classifer
– Eksperimen memakai classifer yang lain (JST,
SVM)
– Classifcation of cancers based on gene
expression
– Parkinson Disease Detection
Tahapan membangun Classifer
1. Tentukan manakah informasi yang merupakan
(a) attribute/feature
(b) class
(c) training & testing set
(d) skenario pengukuran akurasi
2. Tentukan kombinasi parameter model, dan
7
Contoh Kasus : Klasifkasi bunga iris
• Data set yang paling terkenal
• Author: R.A. Fisher
• Terdiri dari 3 kelas,
masing-masing memiliki 50 samples
(instances)
• Attribute information:
– Sepal (kelopak) length in cm
– sepal width in cm
– Petal (mahkota) length in cm
– petal width in cm
– class: (1) Iris Setosa (2) Iris
Versicolour (3)Iris Virginica
9
Tahapan membangun Classifer
1. Tentukan manakah informasi yang merupakan
(a) attribute/feature : sepal length (panjang
(b) class:
iris setosa
iris versicolor
iris virginica
(c) training & testing set
11
13
15
IB1 : 1-Nearest Neighbor
Classifer)
17
SMO singkatan dari
19
Misalnya kita pilih
Selanjutnya pilihlah skenario
Pengukuran akurasi. Dari 4
Options yang diberikan, pilihlah
“Supplied test set” dan klik
Button “Set” untuk memiilih
21
Tahapan membangun Classifer
Iris-training.arf
1. Naïve Bayes
2. K-Nearest Neighbor Classifer
(lazy
iBk)
3. Artifcial Neural Network
(function
multilayer
perceptron)
Apakah yang dimaksud “mengukur akurasi”
• Testing set “iris-testing.arf” dilengkapi dengan
23
Berbagai cara pengukuran akurasi
• “Using training set” : memakai seluruh data sebagai training set, sekaligus
testing set. Akurasi akan sangat tinggi, tetapi tidak memberikan estimasi
akurasi yang sebenarnya terhadap data yang lain (yang tidak dipakai untuk
training)
• Hold Out Method : Memakai sebagian data sebagai training set, dan sisanya sebagai testing set. Metode yang lazim dipakai, asal jumlah sampel cukup
Berbagai cara pengukuran akurasi
• Cross Validation Method
( fold = 5 atau 10 ) : teknik
estimasi akurasi yang
dipakai, jika jumlah sampel
terbatas. Salah satu bentuk
khusus CV adalah
Leave-one-out Cross Validation
(LOOCV) : dipakai jka
25
Ilustrasi Cross Validation (k=5)
1. Data terdiri dari 100 instances (samples), dibagi ke dalam 5 blok dengan jumlah sampel yang sama. Nama blok : A, B, C, D dan E, masing-masing terdiri dari 20 instances
2. Kualitas kombinasi parameter tertentu diuji dengan cara sbb.
step 1:
training memakai A,B,C,D testing memakai E
akurasi a
step 2:
training memakai A,B,C,E testing memakai D
akurasi b
step 3:
training memakai A,B, D,E testing memakai C
akurasi c
step 4:
training memakai A, C,D,E testing memakai B
akurasi d
step 5:
training memakai B,C,D,E testing memakai A
akurasi e
3. Rata-rata akurasi : (a+b+c+d+e)/5 mencerminkan kualitas parameter yang dipilih
27
Klik button “Start”
• Baris pertama “25 0 0” menunjukkan bahwa ada (25+0+0)
instances class Iris-setosa di dalam fle iris-testing.arf dan
semua benar diklasifkasikan sebagai Iris setosa
• Baris kedua “0 24 1” menunjukkan bahwa ada (0+24+1)
instances class Iris-versicolor di dalam fle iris-testing.arf dan
1 salah diklasifkasikan sebagai Iris-virginica
• Baris ketiga “0 2 24” menunjukkan bahwa ada (0+2+23)
Inst# : nomer urut data pada fle
“iris-testing.arf”
actual : class yang sebenarnya
predicted: class yang diprediksi
Error: jika ada misclassifcation, akan diberikan
tanda “+”
Merangkum hasil eksperimen
No.
K
Correct Classification Rate
Iris setosa
Iris versicolor
Iris virginica
Total
33
Eksperimen memakai Neural Network
• Untuk eksperimen memakai
neural network, caranya sama
dengan k-Nearest Neighbor
Classifer.
• Parameter yang dituning
meliputi antara lain:
– hiddenLayers: banyaknya
neuron pada hidden layer.
Default “a” : rata-rata jumlah
neuron pada input & output
layer
– LearningRate : biasanya nilai
kecil (0.1, 0.01, 0.2, 0.3 dsb)
– Momentum: biasanya nilai
besar (0.6, 0.9 dsb)
– trainingTime: maksimum
35
Eksperimen memakai SVM
C: complexity
parameter (biasanya
mengambil nilai
besar. 100, 1000
dst)
37
Classifcation of cancers based on
gene expression
• Biological reference:
Classifcation and diagnostic prediction of cancers using
gene expression profling and artifcial neural networks,
J. Khan, et al., Nature Medicine 7, pp.673-679, 2001
(http://www.thep.lu.se/~carsten/pubs/lu_tp_01_06.pdf )
• Data is available from
http://research.nhgri.nih.gov/microarray/Supplement/
• Small Round Blue Cell Tumors (SRBCT) has two class:
– Ewing Family of Tumors (EWS)
– NB: Neuroblastoma
– BL: Burkitt lymphomas
– RMS: Rhabdomyosarcoma : RMS
• Characteristic of the data
– Training samples
:
63 (EWS:23 BL:8 NB:12
RMS:20)
Experiment using k-Nearest Neighbor Classifer
• Training and testing set are given as
separated arf fle
• Use training set to build a classifer: k-Nearest
Neighbor (k=1)
• Evaluate its performance on the testing set.
• Change the value of k into 3,5,7 and 9 and
repeat step 1 to 3 for each value.
Experiment using Artifcial Neural Network
• Do the same experiment using Multilayer
39
Parkinson Disease Detection
Max Little (Oxford University) recorded speech signals and measured the biomedical voice from 31 people, 23 with Parkinson Disease (PD). In the dataset which will be distributed during fnal examination,
each column in the table is a particular voice measure, and each row corresponds one of 195 voice recording from these individuals
("name" column). The main aim of the data is to discriminate healthy people from those with PD, according to "status" column which is set to 0 for healthy and 1 for PD. There are around six recordings per patient, making a total of 195 instances. (Ref. 'Exploiting Nonlinear Recurrence and Fractal Scaling Properties for Voice Disorder
Detection', Little MA, McSharry PE, Roberts SJ, Costello DAE, Moroz IM. BioMedical Engineering OnLine 2007, 6:23, 26 June 2007).
Experiment using k-Nearest Neighbor Classifer
Conduct classifcation experiments using k-Nearest Neighbor
Parkinson Disease Detection
Max Little (Oxford University) recorded speech signals and measured the biomedical voice from 31 people, 23 with Parkinson Disease (PD). In the dataset which will be distributed during fnal examination,
each column in the table is a particular voice measure, and each row corresponds one of 195 voice recording from these individuals
("name" column). The main aim of the data is to discriminate healthy people from those with PD, according to "status" column which is set to 0 for healthy and 1 for PD. There are around six recordings per patient, making a total of 195 instances. (Ref. 'Exploiting Nonlinear Recurrence and Fractal Scaling Properties for Voice Disorder
Detection', Little MA, McSharry PE, Roberts SJ, Costello DAE, Moroz IM. BioMedical Engineering OnLine 2007, 6:23, 26 June 2007).
Experiment using k-Nearest Neighbor Classifer
Conduct classifcation experiments using k-Nearest Neighbor
41
Practicing WEKA
• What is WEKA ?
• Formatting the data into ARFF
• Klasifkasi
– Tahapan membangun classifer
– Contoh kasus : Klasifkasi bunga iris
– Tahapan membangun classifer
– Merangkum hasil eksperimen k-Nearest
Neighbor Classifer
– Eksperimen memakai classifer yang lain (JST,
SVM)
– Classifcation of cancers based on gene
expression
K-Means Clustering : Step by Step
• Pilihlah k buah data sebagai initial centroid
• Ulangi
– Bentuklah K buah cluster dengan
meng-assign tiap data ke centroid
terdekat
43
45
1
Klik untuk memilih algoritma
clustering
49
maxIterations:
untuk menghentikan
proses clustering jika
iterasi melebih nilai
tertentu
numClusters: nilai k
(banyaknya
51