Tugas Ujian Tengah Semester (UTS) Data Mining Lanjut ABSTRAK

(1)

1

PERBANDINGAN KLASIFIKASI KNN DAN NAIVE BAYESIAN SERTA PERBANDINGAN CLUSTERING SIMPLE K-MEANS YANG MENGGUNAKAN DISTANCE FUNCTION MANHATTAN DISTANCE DAN EUCLIDIAN DISTANCE

PADA DATASET “Dresses_Attribute_Sales”

Mirza Triyuna Putra Mahasiswa Jurusan Informatika

Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Syiah Kuala

KOPELMA Darussalam Banda Aceh 23111 Telp (+62)85213783445

Email : [email protected] Tugas Ujian Tengah Semester (UTS)

Data Mining Lanjut

ABSTRAK

Klasifikasi merupakan metode analisis data yang digunakan untuk membentuk model yang mendeskripsikan kelas data yang penting, atau model yang memprediksikan trend data. Pada klasifikasi ini data yang digunakan yaitu dresses_atribut_sales yang terdiri dari 14 class diantaranya style, price, rating, size, dan lain-lain yang terkait dengan atribut model pakaian. Klasifikasi yang akan digunakan sebagai perbandingan hasil yaitu K-Nearest Neighbor (KNN) Classifier dan Naive Bayesian Classifier. Hasil summary dari kedua klasifikasi akan menentukan jenis klasifikasi mana yang lebih cocok diterapkan pada dataset tersebut. Selain itu, akan dilakukan juga perbandingan hasil clustering metode Simple K-Means yang menggunakan algortima distance function Manhattan Distance dan Euclidian Distance. Perbandingan clustering dilakukan untuk melihat perbedaan pembagian kelas pada kedua function tersebut. Software pendukung yang digunakan adalah Weka.

Kata Kunci : knn classifier, naive bayesian klassifier, simple k-means, manhattan distance, euclidian distance, dresses_atribut_sales..

1. PENDAHULUAN 1.1. Latar Belakang

Perkembangan data mining (DM) yang pesat tidak terlepas dari perkembangan teknologi informasi yang memungkinkan data dalam jumlah besar terakumulasi. Seiring dengan semakin dibutuhkannya data mining, muncul beberapa algoritma untuk memproses Data dalam jumlah besar, diantaranya yaitu K-Nearest Neightbor (KNN) Classifier dan Naive Bayesian classifier. Selain klasifikasi, data dalam jumlah besar juga dapat dikelompokkan ke dalam beberapa bagian berdasarkan kedekatan-kedekatan yang dimiliki. Agar data- data tersebut dapat dikelompokkan dengan mudah, salah satu algortima yang dapat digunakan yaitu simple K-Means.

Klasifikasi adalah proses pembelajaran secara terbimbing (supervised learning) [1].

Klasifikasi Naive Bayesian Adalah metode classifier yang berdasarkan probabilitas dan Teorema Bayesian dengan asumsi bahwa setiap variabel X bersifat bebas (independence) [2]. Klasifikasi KNN merupakan metode klasifikasi yang menentukan label (class) dari suatu objek baru berdasarkan class yang mayoritas dari k- neighbor dalam traing set [3].

Clustering adalah suatu metode pengelompokan berdasarkan ukuran kedekatan (kemiripan) [4]. Salah satu jenis algoritma yang dapat digunakan pada metode ini yaitu Simple K-Means. Pada algortima simple k-means sendiri terdapat teknik pengelompokan dengan

(2)

2 empat fungsi core, yaitu chebyshevDistance, ManhattanDistance, dan EuclidianDistance.

ManhattanDistance dan EuclidianDistance merupakan fungsi core yang paling sering digunakan dan memberikan hasil lebih baik dibandingkan dua fungsi core lainnya.

Perbandingan metode klasifikasi dilakukan untuk menentukan jenis klasifikasi yang paling cocok digunakan dengan data yang memiliki class atribut dan kategori atribut seperti dataset dresses_atribut_sales.

Sedangkan perbandingan metode clustering dilakukan untuk melihat perbedaan pengelompokan terhadap data yang sama dengan metode k-means dan hanya dibedekan fungsi core yang digunakan.

1.2. Rumusan Permasalahan

Perumusan masalah pada penulisan paper ini didasarkan pada bagaimana perbandingan dua metode klasifikasi dan dua fungsi core clustering terhadapa dataset dresses_atribut_sales. Dengan demikian, perumusan masalah yang akan dibahas dalam paper ini adalah sebagai berikut :

1. Bagaimana perbandingan hasil klasifikasi KNN dan Naive Bayesian terhadap dataset dresses_atribut_sales?

2. Bagaimana perbandingan hasil clustering Simple K-Means dengan fungsi core ManhattanDistance dan EuclidianDistance?

1.3. Batasan Permasalahan

Batasan masalah dalam papaer ini adalah metode klasifikasi yang digunakan hanya dua saja, yaitu KNN classifier dan Naive Bayesian classifier.

2. LANDASAN TEORI

2.1. K-Nearest Neigtbor Classifier

(k-NN atau KNN) adalah sebuah metode untuk melakukanklasifikasi terhadap objek berdasarkan data pembelajaran yang jaraknya

paling dekat dengan objek tersebut. Data pembelajaran diproyeksikan ke ruang berdimensi banyak, dimana masing-masing dimensi merepresentasikan fitur dari data.

Ruang ini dibagi menjadi bagian-bagian berdasarkan klasifikasi data pembelajaran.

Nilai k yang terbaik untuk algoritma ini tergantung pada data; secara umumnya, nilai k yang tinggi akan mengurangi efek noise pada klasifikasi, tetapi membuat batasan antarasetiap klasifikasi menjadi lebih kabur. Nilai k yang bagus dapat dipilih dengan optimasi parameter, misalnya dengan menggunakan cross-validation. Kasus khusus di mana klasifikasidiprediksikan berdasarkan data pembelajaran yang paling dekat (dengan kata lain, k = 1) disebut algoritma nearest neighbor. [5]

2.2. Naive Bayesian Classifier

Naïve Bayes adalah metode Bayesian Learning yang paling cepat dan sederhana.

Hal ini berasal dari teorema Bayes dan hipotesis kebebasan, menghasilkan klasifier statistik berdasarkan peluang. Ini adalah teknik sederhana, dan harus digunakan sebelum mencoba metode yang lebih kompleks.

Naïve Bayes dapat dirumuskan sebagai berikut : [6]

P(A|B) = ^{𝐏(𝐁|𝐀)𝐏(𝐀)}

𝑷(𝑩) ......(1)

2.3. K-Means Clustering

Clustering adalah proses membuat pengelompokan, sehingga semua anggota dari tiap partisi mempunyai persamaan berdasarkan matrik tertentu. Sebuah klaster adalah sekumpulan objek yang digabung bersama karena persamaan atau kedekatannya. Clustering berdasarkan persamaannya adalah teknik yang mentranslasi ukuran yang intuitif menjadi ukuran yang kuantitatif [7].

(3)

3 3. PEMBAHASAN

3.1. Klasifikasi Metode Naive Bayesian

Metode klasifikasi Naive Bayesian menggunakan dua data, yaitu training set untuk menghasilkan model dan testing set untuk menguji keakuratan hasil klasifikasi.

Data training set diambil 80% dari total data secara keseluruhan, sedangkan data testing set diambil 20% sisa dari data secara keseluruhan.

Berikut tampilan data training set beserta hasil setelah diklasifikasi dengan metode Naive Bayes :

Gambar 3.1. Tampilan klasifikasi training set

Gambar 3.2. Hasil klasifikasi Naive Bayesian terhadap class atribut style training set

Dataset Dresses_Atribut_sales memiliki 11 class fitur bertype nominal, berikut tabel summary dari kesebelas class bertype nominal yang terdapat pada dataset dresses :

Nama Class Correctly Classified Instances

Incorrectly Classified Instances

Style 49.75 % 50.25 %

Price 55.0251 % 44.9749 %

Size 47.25 % 52.75 %

Season 36.4322 % 63.5678 % Neckline 54.386 % 45.614 % SleeveLength 45.25 % 54.75 %

Waiseline 56.6416 % 43.3584 % Material 42.3559 % 57.6441 % FabricType 54.8872 % 45.1128 % Decoration 44.8622 % 55.1378 % PatternType 47.8697 % 52.1303 %

Tabel 3.1. Summary Correctly dan Incorrectly Classified Instance Training set

Dari hasil di atas terlihat bahwasanya hampir semua class, tingkat kebenaran klasifikasinya berkisar diantara 36-56%.

Nama Class Precission Recall F- Measure

Style 0.405 0.498 0.416

Price 0.493 0.55 0.507

Size 0.403 0.473 0.424

Season 0.318 0.364 0.323

Neckline 0.429 0.544 0.472 Sleeve

Length

0.38 0.453 0.405 Waiseline 0.494 0.566 0.515 Material 0.347 0.424 0.378 FabricType 0.459 0.549 0.49 Decoration 0.333 0.449 0.371 PatternType 0.426 0.479 0.416 Tabel 3.2. Precission, Recall dan F-Measure

Training set

Tabel di atas menampilkan average (nilai rata-rata) dari hasil Precission, Recall dan F-Measure tiap-tiap class. Nilai Precission berkisar pada rentang 31-49%, nilai Recall berada pada rentang 36-56%, dan nilai F- Measure pada rentang 37-51%.

Berikut tampilan data testing set beserta hasil setelah diklasifikasi dengan metode Naive Bayes :

Gambar 3.3. Tampilan klasifikasi testing set Berikut tampilan summary dari kesebelas class pada testing set :

(4)

4 Gambar 3.4. Hasil klasifikasi Naive Bayesian

Terhadap class atribut style testing set

Nama Class Correctly Classified Instances

Style 42 % 58 %

Price 44 % 56 %

Size 35 % 65 %

Season 30 % 70 %

Neckline 44 % 56 %

SleeveLength 44 % 56 %

Waiseline 62 % 38 %

Material 39 % 61 %

FabricType 67 % 33 %

Decoration 45 % 55 %

PatternType 35 % 64 %

Tabel 3.3. Summary Correctly dan Incorrectly Classified Instance Testing set

Nama Class Precission Recall F- Measure

Style 0.325 0.42 0.359

Price 0.355 0.44 0.39

Size 0.283 0.35 0.305

Season 0.256 0.3 0.273

Neckline 0.376 0.44 0.406

Sleeve Length

Testing set

Tabel di atas menampilkan average (nilai rata-rata) dari hasil Precission, Recall dan F-Measure tiap-tiap class. Nilai Precission berkisar pada rentang 25%-61%, nilai Recall berada pada rentang 30-67%, dan nilai F-Measure pada rentang 27-62%.

3.2. Klasifikasi Metode KNN

Sama halnya seperti klasifikasi naive bayesian, metode klasifikasi KNN juga menggunakan dua data, yaitu training set dan testing set. Data testing digunakan untuk menguji keakuratan hasil. Data training set diambil 80% dari total data secara keseluruhan, sedangkan data testing set diambil 20% sisa dari data secara keseluruhan.

Berikut tampilan hasil klasifikasi KNN terhadap data training set.

Gambar 3.5. Hasil klasifikasi KNN Terhadap class atribut style training set

Berikut tabel Correctly dan Incorrectly classified instance yang dihasilkan dari tiap-tiap class :

Nama Class

Correctly Classified Instances

Style 36 % 63 %

Price 48 % 51 %

Size 40 % 60 %

Season 24 % 75 %

Neckline 40 % 60 %

Sleeve Length

53 % 46 %

Waiseline 28 % 71 %

Material 45 % 54 %

PatterbType 36 % 63 %

Tabel 3.5. Summary Correctly dan Incorrectly Classified Instance KNN Training set

(5)

5 Dari hasil di atas terlihat bahwasanya hampir semua class, tingkat kebenaran klasifikasinya berkisar diantara 28-53%.

Nama Class Precission Recall F- Measure Style 0.373 0.363 0.367 Price 0.488 0.482 0.484 Size 0.396 0.4 0.397 Season 0.249 0.249 0.248 Neckline 0.43 0.436 0.432

Sleeve Length

Klasifikasi KNN Training set

Tabel di atas menampilkan average (nilai rata-rata) dari hasil Precission, Recall dan F-Measure tiap-tiap class. Nilai Precission berkisar pada rentang 24%-52%, nilai Recall berada pada rentang 24-53%, dan nilai F-Measure pada rentang 24-52%.

Berikut tampilan data testing set beserta hasil setelah diklasifikasi dengan metode KNN :

Gambar 3.5. Hasil klasifikasi KNN Terhadap class atribut style testing set

Berikut tabel Correctly dan Incorrectly classified instance yang dihasilkan dari tiap-tiap class :

Nama Class

Correctly Classified Instances

Incorrectly Classified

Instances

Style 38 % 62 %

Price 35 % 65 %

SIze 29 % 71 %

Season 28 % 72 %

Neckline 38 % 62 %

Sleeve Length

42 % 58 %

Waiseline 49 % 51 %

Material 44 % 56 %

PatternType 40 % 60 %

Tabel 3.7. Summary Correctly dan Incorrectly Classified Instance Testing set

Nama Class Precission Recall F- Measure Style 0.365 0.38 0.371 Price 0.338 0.35 0.344 Size 0.324 0.29 0.305 Season 0.284 0.28 0.278 Neckline 0.404 0.38 0.391

Sleeve Length

Klasifikasi KNN Testing set

Tabel di atas menampilkan average (nilai rata-rata) dari hasil Precission, Recall dan F-Measure tiap-tiap class.

Nilai Precission berkisar pada rentang 28%-53%, nilai Recall berada pada rentang 28-56%, dan nilai F-Measure pada rentang 27-54%.

3.3. Clustering K-Means ManhattanDistance

Pada proses clustering, data yang digunakan yaitu data secara keseluruhan / 100% dari dataset Dresses_atribut_sales.

Nilai yang dibedakan untuk menguji hasil cluster yaitu numCluster dari tiap-tiap tes.

Berikut akan ditampilkan hasil cluster berdasarkan numCluster.

(6)

6

grp ^nc 2

nc 3

nc 4

nc 5

nc 6

1 ³⁹ ²⁹ ¹⁶ ¹³ ¹³

2 ⁶¹ ⁴⁶ ⁴¹ ²⁸ ²⁹

3 - 25 17 19 19

4 ^- ^- ²⁶ ²⁴ ¹⁸

5 - - - 15 12

6 ^- ^- ^- ^- ⁸

Tabel 3.9. Pembagian grup hasil cluster ManhattanDistance

Tabel di atas menampilkan hasil clustering dengan nilai numCluster yang dari 2 s.d. 6. Hasil yang ditampilkan dalam bentuk persentase secara keseluruhan.

Clustering K-Means EuclidianDistance

Selain menggunakan algoritma manhattanDistance percobaan juga dilakukan pada algortima EuclidianDistance untuk membandingkan hasil dari kedua algortima.

Berikut akan ditampilkan hasil dari clustering EuclidianDistance.

grp ^nc 2

nc 3

nc 4

nc 5

nc 6

1 ⁴¹ ³¹ ²² ¹¹ ⁹

2 ⁵⁹ ⁴⁷ ³⁷ ³⁵ ²⁶

3 - 22 15 17 22

4 ^- ^- ²⁶ ²⁴ ²⁰

5 - - - 13 14

6 ^- ^- ^- ^- ⁹

Tabel 3.10. Pembagian grup hasil cluster EuclidianDistance

4. PEMBAHASAN DAN ANALISA

Berdasarkan hasil pengujian pada bab sebelumnya, dapat dibahas dan dianalisa beberapa hal sebagai berikut.

1. Hasil klasifikasi Training set :

 36-56 % (Naive Bayesian)

 28-53 % (KNN)

Hasil klasifikasi Testing set :

 37-67 % (Naive Bayesian)

 28-56 % (KNN)

Precission, Recall, dan F-Measure Training set :

 49%, 56%, 51% (Naive Bayesian)

 52%, 53%, 52% (KNN)

Precission, Recall, dan F-Measure Testing set :

 61%, 67%, 62% (Naive Bayesian)

 53%, 56%, 54% (KNN)

2. Berdasarkan hasil di atas, sebenarnya tingkat keakuratan hasil dari kedua metode jauh dari baik. Hal ini karena hasil correct data jauh dari 100%.

Akan tetapi, model yang dihasilkan dapat dikatakan baik, karena hasil pengujian dari training set dan testing set meghasilkan persentase yang relatif pada rentang yang sama.

3. Jika ditinjau dari nilai precission, Recall, dan F-Measure hasilnya juga tidak bisa dikatakan baik. Hal ini juga karena nilai yang dihasilkan jauh dari 100%.

4. Hasil Clustering :

 Jika ditinjau dari hasil clustering yang dilakukan, terlihat bahwasanya pembagian kelas-kelas oleh metode K-Means dengan algoritma

ManhattanDistance dan

EuclidianDistance memiliki kemiripan. Kemiripan yang dimaksud yaitu pada setiap numCluster memiliki urutan nilai terbesar ke terkecil pada kelas yang sama. Hanya saja, nilai yang dihasilkan menunjukkan sedikit perbedaan.

5. KESIMPULAN DAN SARAN 5.1. Kesimpulan

Berdasarkan hasil pembahasan dan analisa pada bab sebelumnya, dapat ditarik beberapa kesimpulan sebagai berikut :

1. Pemilihan metode terbaik adalah yang mempunyai tingkat akurasi yang tinggi dan juga dipastikan simpangan bakunya yang cenderung lebih kecil.

Dari data yang terangkum di atas, metode yang lebih baik untuk dataset Dresses_atribute_sales yaitu Naive Bayesian. Meskipun perbedaan yang dihasilkan tidak terlalu jauh berbeda, baik dari correctly dan incorrectly classified instance maupun nilai precission, recall, dan F-Measure.

2. Karena dataset dresses memiliki 3 class yang bernilai numerik, jika ingin

(7)

7 Melihat hasil klasifikasi yang bernilai numerik, maka harus digunakan metode KNN.

3. Metode K-Means cluster yang diterapkan pada percobaan ini, menghasilkan pembagian kelas yang relatif sama antara algoritma manhattanDistance dan EuclidianDistance.

5.2. Saran

Saran-saran yang bisa disampaikan dari hasil perobaan ini adalah sebagai berikut :

1. Untuk melihat dataset yang memiliki nilai class bertipe numerik, digunakan metode yang support terhadap data numerik. Dalam kasus ini yaitu KNN.

2. Jika ingin melihat data bertype nominal (nom), menurut hasil percobaan ini metode Naive Bayesian menghasilkan summary yang sedikit leih baik.

3. Metode clustering K-Means dengan algoritma ManhattanDistance dan EuclidianDistance menghasilkan kelas yang realtif sama, akan tetapi untuk hasil yang akurat perlu dilakukan penelitian yang lebih mendalam.

4. Perlu penelitian yang lebih mendalam untuk menarik kesimpulan secara akurat tehadap kedua masalah yang diangkat.

6.DAFTAR PUSTAKA

[1] Abidin, Taufik Fuadi, “Naive Bayesian Classifier”, Jurusan Informatika Unsyiah, bahan kuliah Data Mining program study Informatika FMIPA-Unsyiah

[2] Abidin, Taufik Fuadi, “Accuracy Measure; Preciisiion, Recallll & F- Measure”, Jurusan Informatika Unsyiah bahan kuliah Data Mining program study Informatika FMIPA-Unsyiah

[3] DMIR, “K-Nearest Neighbor Classifier”, Data Mining adn Information Retrievl – Research Grup, Jurusan Matematika FMIPA-Unsyiah

[4] Striyanto, Edi, “Clustering”, Electronic Engineering Polytechnic Institute of Surabaya (EEPIS)

[5] Peace, Alifah, “Metode KNN”, http://www.academia.edu/3660286/

Tgs_proposal

[6] A.W, Ebranda, Mardiani, Tinaliah,

“Penerapan Metode Naive Bayes untuk Sistem Klasifikasi SMS pada Smartphone Android”, Teknik Informatika STMIK MDP

[7] Yunita, “Analisis dan Implementasi Clustering Data Kategori Menggunakan Metode scaLable InforMation Bottleneck ( LIMBO )”, Tugas Akhir.