PRESENTASI TUGAS AKHIR KI091391

(1)

IMPLEMENTASI KD-TREE K-MEANS CLUSTERING PADA KLASTERISASI DOKUMEN

(Kata kunci: KD-Tree K-Means Clustering, Klasterisasi Dokumen, K- Dimensional Tree, K-Means Clustering)

PRESENTASI TUGAS AKHIR – KI091391

Penyusun Tugas Akhir :

Eric Budiman Gosno (NRP : 5109.100.153)

Dosen Pembimbing :

Isye Arieshanti, S.Kom, M.Phil.

Rully Soelaiman, S.Kom., M.Kom.

(2)

10 Juli 2013 Tugas Akhir - KI091391 2

TAHAPAN PRESENTASI

Latar Belakang

Rumusan Masalah

Batasan Masalah

Tujuan

Pendahuluan

Sistem Klasterisasi Dokumen

Uji Coba

Kesimpulan dan Saran

(3)

 K-Means Clustering sensitif terhadap inisialisasi posisi titik tengah klaster. Inisialisasi posisi titik tengah yang buruk akan algoritma K-Means Clustering menghasilkan solusi local optimum.

 KD-Tree K-Means Clustering adalah perbaikan dari metode K- Means Clustering dengan inisialisasi titik tengah klaster menggunakan struktur data K-Dimensional Tree dan nilai kerapatan/density

 Hasil evaluasi oleh Redmond et al tidak melingkupi performa KD- Tree K-Means Clustering pada data set dokumen.

LATAR BELAKANG

(4)

26 Juli 2013 Tugas Akhir – KI091391 4

1. Bagaimana mengimplementasikan algoritma KD-Tree K-Means Clustering pada kasus klasterisasi dokumen?

2. Bagaimana hasil dan performa dari algoritma KD-Tree K-Means Clustering dibandingkan dengan metode K-Means Clustering pada kasus klasterisasi dokumen?

RUMUSAN MASALAH

(5)

1. Data set yang digunakan untuk uji performa implementasi pada klasterisasi non dokumen adalah data set Pen-Based Recognition of Handwritten Digits(http://archive.ics.uci.edu/ml/datasets/Pen- Based+Recognition+of+Handwritten+Digits) dan data set

Image Segmentation

(http://archive.ics.uci.edu/ml/datasets/Image+Segmentation) dari UCI Machine Learning Repository.

2. Data set yang digunakan untuk uji performa pada klasterisasi dokumen adalah data set 20 newsgroup dari KDD UCI Archive (http://kdd.ics.uci.edu/databases/20newsgroups/20newsgroups.

html)

3. Algoritma yang digunakan sebagai perbandingan performa KD- Tree K-Means pada klasterisasi dokumen adalah K-Means

Clustering dengan inisialisasi Forgy’s Method

BATASAN MASALAH

(6)

26 Juli 2013 Tugas Akhir – KI091391 6

4. Parameter evaluasi yang digunakan adalah distorsi euclidean distance dan Normalized Information Gain

5. Metode stemmer yang digunakan pada pra proses dokumen adalah porter stemmer

BATASAN MASALAH

(7)

1. Mengimplementasikan algoritma KD-Tree K-Means Clustering dalam permasalahan klasterisasi dokumen.

2. Melakukan uji performa dari algoritma KD-Tree K-Means Clustering dalam permasalahan klasterisasi dokumen.

TUJUAN

(8)

10 Juli 2013 Tugas Akhir - KI091391 8

TAHAPAN PRESENTASI

Gambaran umum sistem

Pendahuluan

Sistem Klasterisasi Dokumen

Uji Coba

Kesimpulan dan Saran

Alur Sistem Klasterisasi Dokumen

Tahap Pra Proses

K-Dimensional Tree

KD-Tree K-Means Clustering

(9)

GAMBARAN UMUM SISTEM

Data set Kumpulan Dokumen / Artikel

Dokumen-dokumen yang

telah diklasterisasi

(10)

Tahap Pra-Proses Dokumen

26 Juli 2013 Tugas Akhir – KI091391 10

ALUR SISTEM KLASTERISASI DOKUMEN

Data set Kumpulan Dokumen / Artikel

Data set dengan format bag of word

Input data set &

Term Weighting Proses Klasterisasi

Dokumen

Dokumen-dokumen yang

telah diklasterisasi

(11)

Penghapusan stop word

Data set Kumpulan

Dokumen / Artikel Data set dengan format bag of word

Tahap Pra – Proses Dokumen

Proses

Stemmming kata

Proses seleksi kata typo

Menghapus kata yang

merupakan stop word dalam Bahasa Inggris

Menyederhanakan kata ke dalam

Bentuk stem

Hapus kata yang hanya muncul Pada satu dokumen

Hasil data set bag of word

(12)

 Bertujuan untuk memberikan bobot penilaian pada setiap kata yang menjadi fitur

 Menggunakan perhitungan Term Frequency – Inverse Document Frequency (TF-IDF)

Proses pembobotan kata (term weighting)

26 Juli 2013 Tugas Akhir – KI091391 12

(13)

Proses pembobotan kata (term weighting)

Data set sebelum term weighting

Data set setelah term

weighting

(14)

 Data struktur yang bersifat space-partitioning dan merupakan kasus spesial dari binary space partitioning tree

 Setiap node non-leaf pada KD-Tree merupakan garis yang memisakan sebuah ruang menjadi 2 bagian

 Menggunakan nilai median atau mean sebagai nilai pivot

K-Dimensional Tree

26 Juli 2013 Tugas Akhir – KI091391 14

(15)

K-Dimensional Tree

Pemilihan atribut pemisah/pivot

Penentuan nilai pemisah/pivot value

Pembuatan child subtree kiri dan kanan

Proses rekursif pada subtree child

subtree adalah

leaf

Fungsi selesai

ya tidak

Proses pemilihan atribut pemisah:

Umumnya ditentukan

berdasarkan kedalaman dari node saat ini

axis = depth mod k atau

axis = longest dimension Pivot Value dapat menggunakan Nilai median atau mean dari Nilai-nilai pada atribut pemisah Nilai median lebih sering

digunakan karena menghasilkan tree lebih balance dibandingkan nilai mean

Child subtree sebelah kiri akan memiliki data dengan nilai

atribut < pivot value. Sedangkan Child subtree sebelah kanan

akan memiliki data dengan nilai atribut > pivot value

node.leftChild := kdtree(points <

pivot value, depth+1);

node.rightChild := kdtree(points

> pivot value, depth+1);

Jika subtree telah memenuhi kriteria leaf (kedalaman tertentu / jumlah data maksimal)

Maka fungsi rekursif selesai Jika tidak, maka lanjutkan

proses rekursif ke child subtree

(16)

K-Dimensional Tree

26 Juli 2013 Tugas Akhir – KI091391 16

Contoh hasil partisi K-Dimensional Tree pada data set 2 dimensi

(17)

 Metode K-Means Clustering dengan perbaikan pada proses inisialisasi titik tengah klaster

 Menggunakan struktur data K-Dimensional Tree dan nilai/ranking kerapatan dari leaf bucket untuk memilih posisi awal titik tengah

 Nilai kerapatan = ( : Banyak poin pada leaf bucket, : Volume area leaf bucket). nilai volume V _j : hasil perkalian dari semua rentang dimensi pada leaf bucket. Dimensi dengan nilai rentang nol akan digantikan dengan nilai geometric mean dari nilai rentang dimensi yang tidak bernilai nol.

 Leaf bucket yang dipilih sebagai titik tengah adalah leaf bucket yang memiliki jarak terjauh dari titik tengah dan nilai kerapatan

KD-Tree K-Means Clustering

(18)

KD-Tree K-Means Clustering

26 Juli 2013 Tugas Akhir – KI091391 18

Pembentukan struktur data KD-Tree dari data

set

Perhitungan nilai kerapatan dari setiap leaf bucket

Proses pemilihan titik tengah dari leaf bucket

Penghapusan 20%

Leaf bucket dengan nilai kerapatan

terendah

dan proses diulang

Jumlah titik tengah =

Jumlah klaster

ya

tidak

K-Means Clustering dengan hasil inisialisasi

titik tengah

Pembentukan K-Dimensional Tree dari data set. K-

Dimensional Tree yang dibuat akan memiliki leaf bucket

dengan jumlah data maksimal 20 per leaf bucket.

Untuk setiap leaf

bucket(L

₁

,L

₂

,…,L

_j

) , kalkulasi nilai kerapatan(P

_j

) dari setiap leaf bucket L

_j

, dan kalkulasi nilai titik tengah leaf bucket(M

_j

) dengan mencari nilai rerata dari semua point yang ada pada leaf bucket L

_j

.

=

• Untuk t = 1, pilih titik tengah klaster pertama C

₁

= M

_z

, dimana = arg max .

• Untuk t = 2,…,K:

Untuk j = 1,...,q kalkulasi nilai ranking leaf bucket (G

_j

) dengan fomula

= = 1 … , ×

Pilih titik tengah klaster C

_t

= M

_z

, dimana = arg max .

Jalankan algoritma K-Means Clustering dengan nilai

inisialisasi titik tengah (C

₁

,...,C

_k

) dan (ĉ

₁

, ĉ

₂

,…, ĉ

_k

).

Hapus 20% leaf bucket dengan

nilai kerapatan terendah, ulangi

proses dan kalkulasi posisi K

titik tengah klaster baru (ĉ

₁

,

ĉ

₂

,…, ĉ

_k

).

(19)

 Nilai dapat diganti dengan ranking density ( ). Leaf Bucket dengan nilai terendah memiliki nilai = 1 dan leaf bucket dengan nilai tertinggi memiliki nilai = n. Tujuan dari penggunaan ranking density adalah untuk mencegah nilai kerapatan yang terlalu dominan dibandingkan dengan jarak leaf bucket ke titik tengah

 Tujuan dari menghapus 20% leaf bucket terendah adalah untuk mencegah leaf bucket yang merupakan outlier menjadi titik tengah

KD-Tree K-Means Clustering

(20)

Leaf Bucket Density : 17,35 Leaf Bucket Density : 18,00 Leaf Bucket Density : 18,04 Leaf Bucket Density : 18,22 Leaf Bucket

Density Rank : 4 Leaf Bucket

Density : 18,409

Leaf Bucket

Density Rank : 1 Leaf Bucket

Density Rank : 2 Leaf Bucket

Density Rank : 3 Leaf Bucket

Density Rank : 5

KD-Tree K-Means Clustering

26 Juli 2013 Tugas Akhir – KI091391 20

Centroid 1

Distance : 193,28

Distance : 9,635

Distance : 145,195

Centroid 2

Distance : 200,915

Distance : 139,92 min Distance : 9,635

min Distance : 9,635

min Distance :139,92

Centroid 3

(21)

TAHAPAN PRESENTASI

Skenario Uji Coba

Pendahuluan

Sistem Klasterisasi Dokumen

Uji Coba

Kesimpulan dan Saran

Evaluasi Performa

Parameter Uji Coba

Hasil Skenario Uji Coba 1

Hasil Skenario Uji Coba 2

(22)

 Skenario 1 : Uji coba implementasi KD-Tree K-Means Clustering pada klasterisasi non dokumen menggunakan data set Image Segmentation dan Pen-Based Recognition of Handwritten Digits.

 Skenario 2 : Uji coba perbandingan hasil klasterisasi dokumen KD-Tree K-Means Clustering dan K-Means Clustering pada data set dokumen 20 newsgroup.

 Uji coba dilakukan dengan membandingkan performa hasil KD- Tree K-Means Clustering dengan 15 kali proses K-Means Clustering.

SKENARIO UJI COBA

26 Juli 2013 Tugas Akhir – KI091391 22

(23)

EVALUASI PERFORMA (1)

D = nilai distorsi data set

n = jumlah data pada data set K = jumlah klaster hasil

Perhitungan menggunakan nilai distorsi euclidean distance (Nilai total kuadrat euclidean distance data ke titik tengah klaster)

X _i = data ke-i pada data set C _j = klaster ke-j

D(…,….) = Perhitungan jarak euclidean distance

(24)

Perhitungan menggunakan Normalized Information Gain

EN

_TOTAL

: nilai Total Entropy atau rerata informasi yang ada di setiap data pada data set

EVALUASI PERFORMA (2)

26 Juli 2013 Tugas Akhir – KI091391 24

= −

L = Jumlah label pada kelas data set c _l = Jumlah data yang memiliki label l

pada data set

(25)

EVALUASI PERFORMA (3)

wEN: Rerata informasi data pada setiap klaster, memberikan nilai 0 pada saat semua klaster homogen

En _k : Nilai entropy dari sebuah klaster

K =Jumlah klaster

n _k = Jumlah data pada klaster k n = Jumlah data pada data set

K =Jumlah label pada kelas data set

n _k = Jumlah data pada klaster k c _l ^k = Jumlah data yang memiliki

label l pada klaster k

(26)

PARAMETER UJI COBA (1)

26 Juli 2013 Tugas Akhir – KI091391 26

Nama

Parameter

Deskripsi

K Jumlah klaster pada proses klasterisasi m Jumlah fitur pada data set

row Jumlah data pada data set

D

_kd

Nilai distorsi dari proses klasterisasi dokumen menggunakan algoritma KD-Tree K-Means Clustering Dmin

_fa

Nilai distorsi minimum dari 15 kali proses klasterisasi

dokumen menggunakan algoritma K-Means Clustering μ

_fa

Nilai rerata distorsi dari 15 kali proses klasterisasi

dokumen menggunakan algoritma K-Means Clustering σ

_fa

Standar deviasi distorsi dari 15 kali proses klasterisasi

dokumen menggunakan algoritma K-Means Clustering

N

_fa>kd

Jumlah proses klasterisasi dokumen dari 15 kali iterasi

menggunakan algoritma K-Means Clustering yang

memiliki nilai distorsi lebih baik daripada KD-Tree K-

Means Clustering

(27)

PARAMETER UJI COBA (2)

Nama Parameter

Deskripsi

N

fa=kd

Jumlah proses klasterisasi dokumen dari 15 kali iterasi

menggunakan algoritma K-Means Clustering yang memiliki nilai distorsi sama dengan KD-Tree K-Means Clustering

N

fa <kd

Jumlah proses klasterisasi dokumen dari 15 kali iterasi

menggunakan algoritma K-Means Clustering yang memiliki nilai distorsi lebih buruk daripada KD-Tree K- Means Clustering

NIG

kd

Nilai NIG dari proses klasterisasi dokumen menggunakan algoritma KD-Tree K-Means Clustering NIG

fa

Nilai NIG maksimum dari 15 kali proses klasterisasi

dokumen menggunakan algoritma K-Means Clustering T

kd

Waktu eksekusi dari proses klasterisasi dokumen

menggunakan algoritma KD-Tree K-Means Clustering Tmin

fa

Waktu eksekusi minimum dari 15 kali proses klasterisasi

dokumen menggunakan algoritma K-Means Clustering Tmax

fa

Waktu eksekusi maksimum dari 15 kali proses

klasterisasi dokumen menggunakan algoritma K-Means

Clustering

(28)

Hasil Uji Coba Skenario 1

28 26 Juli 2013 Tugas Akhir – KI091391

SKENARIO 1 : UJI KINERJA KLASTERISASI NON- DOKUMEN KD-TREE K-MEANS CLUSTERING

Hasil KD-Tree K-Means Clustering memiliki nilai NIG 0,06 lebih buruk dibandingkan nilai NIG maksimum K-Means Clustering. Tetapi menghasilkan hasil distorsi sama dengan nilai minimum distorsi dan lebih baik 6 × 10

⁵

dibandingkan dengan rerata nilai distorsi K- Means Clustering.

Selain itu dari 15 proses K-Means Clustering hanya 4 proses saja yang memiliki nilai distorsi lebih baik dibandingkan hasil dari KD-Tree K- Means Clustering.

Parameter Image

Segmentation

K 7

m 19

row 2310

D

_kd

1,40 × 10

⁷

Dmin

_fa

1,40 × 10

⁷

μ

_fa

1,46 × 10

⁷

σ

_fa

1,82 × 10

⁶

N

_fa>kd

4 N

_fa=kd

0 N

_{fa <kd}

11 NIG

_kd

0,49

NIG

_fa

0,55

T

_kd

3876

Tmin

_fa

2884

Tmax

_fa

11535

Ttotal

fa

84645

(29)

Hasil Uji Coba Skenario 1

SKENARIO 1 : UJI KINERJA KLASTERISASI NON- DOKUMEN KD-TREE K-MEANS CLUSTERING

Hasil KD-Tree K-Means Clustering memiliki nilai NIG 0,02 lebih buruk dibandingkan nilai NIG maksimum K-Means Clustering. Tetapi menghasilkan hasil distorsi lebih baik 1,7 × 10

⁶

dibandingkan dengan rerata nilai distorsi K- Means Clustering.

Selain itu dari 15 proses K-Means Clustering hanya 2 proses saja yang memiliki nilai distorsi lebih baik dibandingkan hasil dari KD-Tree K- Means Clustering.

Parameter Pen-based Recognition

Handwritten Digits

K 10

m 16

row 10992

D

_kd

5,01 × 10

⁷

Dmin

fa

5,00 × 10

⁷

μ

_fa

5,17 × 10

⁷

σ

_fa

1,27 × 10

⁶

N

_fa>kd

2 N

_fa=kd

0 N

_{fa <kd}

13 NIG

_kd

0,67

NIG

_fa

0,69

T

_kd

33497

Tmin

_fa

20449

Tmax

fa

134524

Ttotal 675462

(30)

Hasil Uji Coba Skenario 2

SKENARIO 2 : UJI PERFORMA KD-TREE K-MEANS CLUSTERING PADA DATA SET DOKUMEN

Hasil uji coba menunjukkan bahwa hasil klasterisasi dokumen menggunakan KD- Tree K-Means Clustering memiliki nilai distorsi lebih buruk 2 × 10

⁵

dibandingkan nilai distorsi minimum hasil K-Means Clustering. Namun Hasil ini lebih baik 3

× 10

⁵

dibandingkan dengan nilai rerata distorsi dari K-Means Clustering.

Pada perhitungan nilai NIG, hasil dari KD-Tree K-Means Clustering memiliki nilai NIG 0,18. Hasil ini lebih baik 0,09 dibandingkan dengan nilai NIG

maksimum yang didapatkan oleh K- Means Clustering.

Parameter Nilai

K 20

m 20536

D

_kd

4,14 x 10

⁷

Dmin

_fa

4,12 x 10

⁷

μ

_fa

4,17 x 10

⁷

σ

_fa

3,00 x 10

⁵

N

_fa>kd

4 N

_{fa <kd}

11 NIG

_kd

0,18

NIG

fa

0,09

T

_kd

13295630

Tmin

_fa

2535463

Tmax

fa

12619237

Ttotal

_fa

105325216

(31)

TAHAPAN PRESENTASI

Pendahuluan

Sistem Klasterisasi Dokumen

Uji Coba

Kesimpulan dan Saran

(32)

1. Performa klasterisasi yang dihasilkan oleh metode KD-Tree K- Means Clustering pada data set non dokumen yaitu Image Segmentation dan Pen-Based Recognition of Handwritten Digits memiliki hasil distorsi yang lebih baik dibandingkan dengan nilai rerata distorsi 15 kali proses K-Means Clustering. Selain itu, metode KD-Tree K-Means Clustering juga memiliki waktu eksekusi yang relatif sama dengan waktu eksekusi dari K-Means Clustering.

2. Performa yang dihasilkan oleh metode KD-Tree K-Means Clustering pada klasterisasi dokumen data set 20 newsgroup memiliki nilai distorsi 3 × 10 ⁵ lebih rendah dibandingkan dengan nilai rerata distorsi dari K-Means Clustering. Selain itu nilai NIG KD-Tree K-Means Clustering 0,09 lebih baik dibandingkan nilai NIG maksimum K-Means Clustering.

KESIMPULAN

26 Juli 2013 Tugas Akhir – KI091391 32

(33)

1. Performa dari KD-Tree K-Means Clustering untuk klasterisasi dokumen dapat ditingkatkan salah satunya dengan melakukan proses seleksi fitur. Akan tetapi pemilihan metode seleksi fitur harus dilakukan secara hati-hati sesuai dengan karakteristik dan problem dari klasterisasi teks yang berdimensi tinggi.

2. Perbaikan lain yang bisa dilakukan adalah dengan memperbaiki efisiensi running time dari KD-Tree K-Means Clustering karena KD-Tree K-Means Clustering membutuhkan waktu training yang lama pada klasterisasi data set berdimensi tinggi seperti data set dokumen.

SARAN

(34)