• Tidak ada hasil yang ditemukan

DATA MINING 2015 4 Klasifikasi KNN

N/A
N/A
Protected

Academic year: 2018

Membagikan "DATA MINING 2015 4 Klasifikasi KNN"

Copied!
13
0
0

Teks penuh

(1)

Klasifikasi

Nearest Neighbor

Data Mining

Materi 3

(2)
(3)

K-Nearest Neighbor

Algoritma yang melakukan klasifikasi berdasarkan

kedekatan lokasi (jarak) suatu data dengan data

yang lain.

Prinsip sederhana yang diadopsi oleh algoritma

K-NN adalah: “

Jika suatu hewan berjalan seperti

bebek, bersuara kwek-kwek seperti bebek, dan

penampilannya seperti bebek, maka hewan itu

mungkin bebek

”.

Pada algoritma K-NN, data berdimensi

q

, dapat

dihitung jarak dari data tersebut ke data yang lain,

Nilai jarak ini yang digunakan sebagai nilai

(4)

K-Nearest Neighbor

1 tetangga terdekat (1-NN)

2 tetangga terdekat (2-NN)

(5)

Algoritma K-NN

z = (x’,y’), adalah data uji dengan

vektor x’ dan label kelas y’ yang belum

diketahui

Hitung jarak d(x’,x), jarak diantara

(6)

Contoh

Data uji adalah data (3,4), fitur X=3, Y=4.

Akan dilakukan prediksi, masuk dalam

kelas yang manakah seharusnya ?

Gunakan jarak Euclidean !

(7)

Nomor

data

x

y

Kelas

asli

Jarak data uji

ke data latih

1-NN 3-NN 7-NN

1

1

1

1

3.6055

---

---

(8)

Nomor

(9)

Prediksi dengan K-NN

Untuk K=1

Data latih yang terdekat adalah data nomor 9 (4,4) dengan kelas 2,

maka data uji (3,4) diprediksi masuk kelas 2.

Untuk K=3

Data latih yang terdekat adalah data nomor 9 (4,4) dengan kelas 2,

data nomor 7 (2,3) dan data nomor 4 (3,2) dengan kelas 1, karena

kelas 2 berjumlah 1 dan kelas 1 berjumlah 2 (

lebih banyak kelas 1

daripada kelas 2

) maka data uji (3,4) diprediksi masuk kelas 1.

Untuk K=7

(10)

K-NN di matlab

Class = knnclassify(Sample, Training, Group, k, distance, rule)

Parameter Keterangan

Sample Matrik dimana baris merupakan data, kolom merupakan fitur. Sample merupakan data uji yang akan diklasifikasikan kedalam kelas. Matrik Sample harus mempunyai jumlah kolom (fitur) yang sama dengan matrik Training.

Training Matrik yang digunakan untuk mengelompokkan baris didalam matrik Sample. Matrik Traning harus mempunyai jumlah kolom yang sama dengan Sample. Setiap baris dalam matrik Training mempunyai relasi kelas pada baris yang sama pada matrik Group.

Group Vektor (matrik 1 kolom) yang setiap barisnya menyatakan kelas dari baris yang sama dalam matrik Training. k Jumlah tetangga terdekat yang digunakan untuk klasifikasi. Nilai defaultnya adalah 1.

distance String yang menyatakan metrik jarak yang digunakan untuk mencari tetangga terdekat, pilihannya: ‘euclidean’, jarak Euclidean (default)

‘cityblock’, jarak Manhattan atau jumlah absolut perbedaan nilai antar fitur ‘cosine’, jarak 1 – cos(sudut antara 2 titik)

‘correlation’, jarak 1 – korelasi diantara titik (nilai sekuen)

‘hamming’, jarak prosentase bit yang berbeda (cocok untuk data biner)

(11)

%Nama file: contoh_knn.m

dataset_buatan

idx_latih = [1:8 10:18];

idx_uji = [9];

data_latih = data(idx_latih,1:2);

data_uji = data(idx_uji,1:2);

kelas_latih = data(idx_latih,3);

K = 1;

kelas_uji = knnclassify(data_uji, data_latih, kelas_latih, K)

(12)

Evaluasi K-NN

Algoritma yang menggunakan seluruh data latih untuk melakukan proses

klasifikasi (

complete storage

).

Mengakibatkan untuk data dalam jumlah yang sangat besar, proses prediksi

menjadi sangat lama.

Tidak membedakan setiap fitur dengan suatu bobot

Pada ANN (Artificial Neural Network) yang berusaha menekan fitur yang tidak

punya kontribusi terhadapklasifikasi menjadi 0 pada bagian bobot,

NN tidak ada bobot untuk masing-masing fitur.

Menyimpan sebagian atau semua data dan hampir tidak ada proses

pelatihan,

maka K-NN sangat cepat dalam proses training (karena memang tidak ada) tetapi

sangat lambat dalam proses prediksi.

Hal yang rumit adalah menentukan nilai K yang paling sesuai

K-NN pada prinsipnya memilih tetangga terdekat,

Parameter jarak juga penting untuk dipertimbangkan sesuai dengan kasus

(13)

ANY QUESTION ?

Referensi

Dokumen terkait

• Mampu menurunkan pengertian dari data yang kompleks dan tidak jelas dan dapat digunakan pula untuk mengekstrak pola dan mendeteksi tren2 yang sangat kompleks untuk

C4.5 adalah bagian dari algoritma untuk klasifikasi dalam pembelajaran machine learning dan data mining. C4.5 merupakan algoritma yang cocok digunakan untuk masalah

Klasifikasi adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data dengan tujuan untuk memperkirakan

Beberapa permasalahan seperti jumlah populasi data yang besar, banyaknya data yang menyimpang (anomali data), dimensi yang terlalu tinggi, banyaknya fitur yang tidak

• Mampu menurunkan pengertian dari data yang kompleks dan tidak jelas dan dapat digunakan pula untuk mengekstrak pola dan mendeteksi tren2 yang sangat kompleks untuk

Teknik statistik saja mungkin tidak cukup untuk mengatasi beberapa masalah yang lebih menantang dalam data mining, terutama yang timbul dari kumpulan data yang sangat besar.. Meskipun