PENENTUAN KELAS DENGAN NEAREST NEIGHBOR CLUSTERING DAN PENGGUNAAN METODE NAÏVE BAYES UNTUK KLASIFIKASI DOKUMEN

(1)

PENENTUAN KELAS DENGAN NEAREST NEIGHBOR

CLUSTERING DAN PENGGUNAAN METODE NAÏVE BAYES

UNTUK KLASIFIKASI DOKUMEN

Handry Wardoyo

1)

Jeanny Pragantha

2)

Viny Christanti M.

3)

1) 2) 3)

Teknik Informatika Universitas Tarumanagara

Jl. S. Parman No.1, Jakarta 11440 Indonesia

email : 1) [email protected], 2) [email protected], 3) [email protected]

ABSTRACT

Clustering is a process of grouping documents that will form into several classes. The difference between clustering with classification is the classification will determine the class of the new document and the result is the new document will be joined into one class. In this research, clustering or grouping is used to group documents into classes based on threshold values. Several experiment is conducted to get the optimal threshold value. The optimal threshold will be used to train data clustering for naive bayes. The results of naive bayes training is used to determine the class of new document in testing phase. Results of clustering and classification depends on the words in the document, the narrower the discussion, the more accurate the results obtained from clustering and classification.

Key words

Classification, Clustering, Naïve Bayes, Nearest Neighbor, Threshold

1. Pendahuluan

Searching atau pencarian adalah kegiatan yang sering dilakukan setiap hari. Misalnya dalam pencarian buku di perpustakaan yang memiliki ribuan buku. Pasti akan sulit apabila mencari sebuah buku dalam tumpukan buku-buku yang jumlahnya ribuan. Tetapi karena buku-buku-buku-buku yang berjumlah ribuan itu sudah dikelompokkan maka pencarian menjadi lebih mudah.

Masalah pengelompokan sering juga terjadi dalam dokumen-dokumen yang ada di dalam komputer. Terutama jika banyak dokumen yang belum sempat dirapikan sehingga hanya diletakkan di desktop atau di folder My Document. Pada saat dibutuhkan, dokumen-dokumen tersebut akan lebih mudah dicari apabila dokumennya sudah tersusun rapi dalam folder-folder yang sudah dikelompokkan.

Salah satu metode untuk pengelompokan atau clustering yang sering digunakan yaitu Nearest Neighbor. Prinsipnya yaitu mencari tetangga paling terdekat atau

dokumen yang paling mirip dengan menghitung probabilitas kemiripan antar dokumen. Dokumen yang yang dianggap mirip akan bergabung menjadi satu kelompok atau cluster.

Proses pengelompokan dilakukan satu kali untuk mendapatkan kelas-kelas dari semua dokumen. Dokumen baru yang akan ditambahkan nantinya akan diklasifikasikan ke dalam kelas yang sudah dibuat.

Klasifikasi tidak dapat dilakukan apabila dokumen belum memiliki kelas, oleh karena itu dengan bantuan clustering Nearest Neighbor maka dokumen dapat dikelompokkan ke kelasnya masing-masing. Apabila dokumennya hanya dikelompokkan sekali maka dokumen baru harus diklasifikasikan secara manual. Klasifikasi secara manual akan memakan waktu lama karena dokumen pada setiap kelas harus dibaca terlebih dahulu agar dapat diketahui isi dokumen dari kelas tersebut. Oleh karena itu dibutuhkan klasifikasi secara otomatis agar dapat mempersingkat waktu klasifikasi. Salah satu metode klasifikasi secara otomatis yang dapat digunakan adalah adalah metode Naive Bayes.

Proses pengelompokan dengan Nearest Neighbor akan menghasilkan beberapa kelas yang akan digunakan sebagai training untuk metode Naive Bayes. Kemudian pada tahap testing dokumen-dokumen yang baru akan diklasifikasikan ke dalam kelas dengan probabilitas paling tinggi.

2. Clustering dan Klasifikasi

Langkah-langkah penelitian clustering dan klasifikasi yang akan dilakukan dapat dilihat pada gambar 1.

(2)

Gambar 1 Tahapan Penelitian

Tahapan yang akan dilakukan sesuai dengan gambar 1 yaitu:

1. Pada tahap awal kumpulan dokumen akan dibagi menjadi dua kelompok. Kelompok pertama akan digunakan untuk clustering dan juga sebagai data training. Kelompok kedua akan digunakan untuk testing dengan klasifikasi Naive Bayes. Pembagian dokumen akan dilakukan secara acak dengan jumlah dokumen berdasarkan eksperimen yang akan dilakukan.

2. Tahap kedua proses yang harus dilakukan sebelum dilakukan clustering dan klasifikasi yaitu preprocessing. Proses preprocessing untuk dokumen Training dan dokumen Testing akan dilakukan secara terpisah karena frekuensi kata yang dari keseluruhan

dokumen training dan testing berbeda. Preprocessing pada dokumen training akan dilakukan proses tokenizing, stop word removing, stemming, indexing, perhitungan TF*IDF dan terakhir normalisasi.. Hasil normalisasi akan digunakan untuk perhitungan jarak Euclidean Distance untuk proses clustering. Untuk dokumen testing akan dilakukan preprocessing dari tokenizing, stop word removing, stemming, sampai indexing. Dari hasil indeks akan digunakan untuk menghitung jumlah kemunculan kata dalam proses testing metode Naive Bayes.

3. Tahap ketiga akan melakukan proses pengelompokan pada keseluruhan dokumen yang digunakan untuk training. Pengelompokan menggunakan Nearest Neighbor membutuhkan perhitungan jarak antar dokumen. Untuk perhitungan jarak menggunakan persamaan Euclidean Distance. Clustering akan menghasilkan beberapa folder yang berisi dokumen yang sudah dikelompokkan. Setiap folder menyatakan setiap kelas atau cluster dan isi dokumen pada satu folder merupakan satu kumpuluan dokumen yang mempunyai jarak paling dekat. Penentuan suatu dokumen untuk bergabung menjadi satu kelas ditentukan oleh threshold atau batasan. Suatu dokumen akan menjadi satu kelas apabila nilai jarak yang diperoleh antar kedua dokumen mempunyai nilai di bawah threshold. Dokumen yang mempunyai nilai di atas threshold akan berpisah dan menjadi kelas yang baru.

4. Tahap keempat yaitu tahap training, data yang digunakan adalah data dari hasil clustering Nearest Neighbor dengan akurasi terbaik berdasarkan hasil evaluasi clustering. Dari setiap kelompok dokumen hasil dari clustering akan dihitung rata-rata fitur dokumen untuk mempelajari ciri khas dari setiap kelompok dokumen. Hasil dari tahap training akan digunakan untuk testing penentuan kelas Naive Bayes. 5. Tahap kelima yaitu testing, akan dilakukan ujicoba

dari hasil training sebelumnya. Tahap ini akan mengklasifikasikan semua dokumen yang digunakan untuk testing. Setiap dokumen akan dihitung probabilitasnya untuk masuk ke salah satu kelas hasil clustering.

6. Tahap akhir dari penelitian yaitu tahap evaluasi. Tahap ini bertujuan menghitung akurasi dari hasil clustering dan klasifikasi. Kedua proses tersebut mempunyai cara yang berbeda dalam perhitungan akurasi. Perhitungan akurasi clustering akan dilakukan dengan mencari nilai kemurnian atau purity. Evaluasi clustering akan dilakukan setelah didapat kelas-kelas dari proses clustering. Evaluasi clustering dilakukan terlebih dahulu untuk menentukan akurasi terbaik dari clustering yang nantinya akan digunakan untuk training Naive Bayes. Evaluasi ini akan membandingkan hasil clustering otomatis dengan clustering manual. Clustering manual dilakukan dengan cara memberi label pada kelas sesuai dengan yang diharapkan. Perhitungan akurasi klasifikasi

(3)

akan dilakukan dengan membandingkan hasil klasifikasi dokumen yang benar dengan jumlah keseluruhan dokumen yang diklasifikasikan. Hasil perhitungan akurasi klasifikasi adalah persentasi keakuratan dengan jarak antara [0,100].

2.1. Preprocessing

Proses awal dari preprocessing yaitu tokenizing, proses ini memecah kata agar mudah diproses oleh sistem. Proses selanjutnya proses pembuangan stopword atau kata umum, dilakukan untuk mempersingkat proses pengelompokan dan klasifikasi karena kata-kata umum tidak memiliki makna sehingga tidak memberikan pengaruh yang besar dalam proses pengelompokan dan klasifikasi.

Setelah pembuangan stopword, setiap kata akan dilakukan pemotongan imbuhan dengan menggunakan algoritma Nazief dan Adriani. Algoritma Bobby Nazief dan Mirna Adriani memiliki keakuratan paling tinggi dibandingkan dengan algoritma stemming yang lainnya [6]. Tetapi dalam prosesnya, algoritma ini memerlukan waktu yang lebih lama dari algoritma lainnya karena ada beberapa kata yang harus dibandingkan dari daftar kata.

Proses selanjutnya yaitu perhitungan bobot dilakukan dengan menghitung frekuensi kata dalam dokumen dan menghitung nilai Turn Frequensi (TF) dengan persamaan 1 [1] dan dikalikan dengan Inverse Dokumen Frekuensi (IDF) dalam persamaan 2 [1]. Hasil yang didapat akan dinormalisasikan dengan persamaan 3 [1].

equency DocumentFr ent TotalDocum word IDF( )=log ....(1)

)

(

*

)

(

)

(

word

i

TF

word

i

IDF

word

i

w

=

....(2) ) ( ... ) ( ) ( ) ( ) ( 2 2 2 1 2 n i i word w word w word w word w word w + + + = ....(3 )

2.2. Nearest Neighbor

Nearest Neighbor adalah salah satu algoritma yang digunakan dalam clustering dengan pendekatan partisi dan merupakan algoritma clustering yang paling sederhana karena algoritma ini hanya berdasarkan pada tetangga terdekat dari suatu objek [3]. Algoritma ini membandingkan jarak antar dokumen dan jarak terdekat akan diambil dan dibandingkan dengan nilai threshold. Apabila jarak kedua dokumen tersebut kurang dari nilai threshold maka keduanya akan bergabung menjadi satu kelas dan apabila nilai jarak lebih dari nilai threshold maka dokumen yang dibandingkan akan membuat kelas baru. Algoritma Nearest Neighbor [3] yaitu:

1. Set i ← 1 dan k ← 1. Dokumen x1 dimasukkan ke

dalam cluster C1.

2. Set i ← i+1. Cari tetangga terdekat xi. dm akan

menentukan jarak xi dengan tetangga terdekat.

Diasumsikan tetangga terdekatnya adalah m.

3. Jika dm ≤ t, maka Cm ← xi. Jika tidak, maka k ← k+1

dan masukkan xi ke dalam cluster baru yaitu Ck.

4. Jika semua pola sudah bergabung dengan cluster maka proses berhenti. Jika belum maka lanjutkan ke langkah 2.

2.3. Euclidean Distance

Proses Euclidean Distance adalah proses yang akan digunakan untuk perhitungan jarak antar dokumen. Jarak ini akan digunakan dalam clustering Nearest Neighbor untuk membandingkan jarak antar dokumen dengan nilai threshold. Persamaan 4 [2] adalah persamaan yang digunakan untuk menghitung jarak antar dokumen.

2 2 2 2 2 1 1 ) ( ) ... ( ) ( ) , (x y x y x y xp yp d = − + − + + − ...(4) Keterangan:

(x,y) = jarak dokumen x dan y

Perhitungan Euclidean Distance menggunakan bobot yang diperoleh dari proses preprocessing. Bobot dokumen x akan dikurangi dengan bobot dokumen y kemudian dipangkat dan hasil akarnya akan diperoleh jarak antara dokumen x dan y.

2.4. Naïve Bayes

Naive Bayes merupakan suatu metode klasifikasi yang mengasumsikan bahwa setiap kata adalah independent atau dapat diartikan bahwa setiap kata tidak tergantung dari kata yang lain [4]. Metode ini

memanfaatkan teori probabilitas yang dikemukakan oleh ilmuwan Inggris Thomas Bayes, yaitu memprediksi kemungkinan yang akan muncul dengan berdasarkan pengalaman yang didapat sebelumnya [4]. Kelebihan dari metode Naive Bayes adalah metode ini hanya membutuhkan sedikit data training agar dapat mengestimasi kelas dokumen yang akan diklasifikasi. Ada 2 proses utama yang dilakukan algoritma Naïve Bayes dalam penentuan kelas, yaitu tahap training dokumen dan testing dokumen.

2.4.1. Training Naïve Bayes

Training Naïve Bayes akan menggunakan data dari hasil clustering Nearest Neighbor. Dari masing-masing kelas yang diperoleh hasil clustering akan dihitung probabilitas tiap kelas dan kata dalam kelas dengan persamaan 5 dan persamaan 6 [5].

(4)

|wk| = jumlah kata pada kategori k.

|xk| = jumlah seluruh kata yang digunakan

sebagai training.

nk = jumlah kemunculan kata wk pada kategori cj.

n = jumlah semua kata pada kategori cj.

|kosakata| = jumlah kata pada semua data training.

2.4.2. Testing Naïve Bayes

Setelah proses training maka akan dilakukan proses testing Naïve Bayes untuk menentukan kelas dari suatu dokumen. Proses testing Naïve Bayes dihitung dengan persamaan 7 [5].

∏

=

d i ki j j j MAP

P

c

P

w

c

v

1

(

,

|

)

(

max

arg

....(7)

Algoritma Naïve Bayes secara keseluruhan yaitu: 1. Pada setiap kelas lakukan:

a. Hitung

P

(

c

j

)

dengan persamaan 5.

b. Hitung

P

(

w

_k

|

c

_j

)

untuk setiap kata Wk dengan

persamaan 6.

2. Hitung Vmap dengan persamaan 7 dan hasil tertinggi

dari setiap kelas akan menjadi kelas dari dokumen baru.

Hasil dari testing Naïve Bayes yaitu dokumen yang digunakan sebagai testing akan bergabung ke salah satu kelas hasil clustering Nearest Neighbor.

3. Implementasi

Spesifikasi komputer yang digunakan dalam menjalankan sistem yaitu:

Sistem Operasi : Windows 7 Ultimate

RAM : 4GB

Processor : Intel ® Core™ i5-2430M CPU @

2.40 GHz

Perangkat Lunak : Visual Basic .NET

4. Hasil Percobaan

Ada 3 percobaan yang dilakukan dalam penelitian. Ketiga percobaannya yaitu:

1. Percobaan 1, yaitu percobaan penentuan nilai threshold. Pada saat melakukan clustering nilai threshold akan ditentukan berkisar antara 0.5 sampai dengan 1.5. Eksperimen ini akan menggunakan 100 dokumen untuk dikelompokkan dan hasil clustering

dengan nilai threshold yang optimal akan dievaluasi dengan menghitung akurasi dari cluster. Perhitungan akurasi dengan nilai threshold yang optimal akan dilakukan sebanyak 10 kali. Hasil eksperimen 10 kali akan dihitung rata-rata akurasi dan jumlah cluster yang diperoleh. Tujuan dari percobaan ini adalah untuk mencari nilai threshold yang optimal. Daftar eksperimen percobaan 1 dapat dilihat pada tabel 1.

Tabel 1 Eksperimen Clustering Percobaan 1 Eksperimen Jumlah Dokumen Threshold

1 100 0.5 2 100 0.6 3 100 0.7 4 100 0.8 5 100 0.9 6 100 1.0 7 100 1.1 8 100 1.2 9 100 1.3 10 100 1.4 11 100 1.5

2. Percobaan 2, yaitu percobaan klasifikasi. Nilai threshold yang optimal yang diperoleh dari percobaan 1 akan digunakan untuk mengelompokan dokumen yang akan digunakan sebagai data training Naïve Bayes. Kemudian akan dilakukan testing dokumen baru dan dihitung nilai akurasi yang didapat. Daftar eksperimen percoban 2 dapat dilihat pada tabel 2.

Tabel 2 Eksperimen Klasifikasi Percobaan 2 Eksperimen Dokumen Training Dokumen Testing 1 800 100 2 600 100 3 400 100 4 200 100 5 100 100

3. Percobaan 3 akan dilakukan 2 eksperimen. Setiap eksperimen akan mengelompokan 100 dokumen yang terdiri dari 5 kategori dan kemudian dilakukan proses klasifikasi dengan 25 dokumen testing yang terdiri dari 5 kategori. Eksperimen I akan menggunakan 5 kategori dan setiap kategori membahas topik yang berbeda-beda. Eksperimen II akan menggunakan 5 kategori yang dokumennya diseleksi terlebih dahulu sehingga setiap kategori hanya membahas satu topik. Jumlah dokumen yang digunakan dalam percobaan 3 dapat dilihat pada tabel 3.

Tabel 3 Jumlah dokumen percobaan 3. No

.

Kategori Jumlah Dokumen Training Jumlah Dokumen Testing 1 Ekonomi 20 5 2 Entertainment 20 5 3 Kesehatan 20 5

(5)

4 Olahraga 20 5

5 Politik 20 5

4.1. Hasil Pengujian

4.1.1. Hasil Percobaan 1

Hasil percobaan pertama yang dilakukan yaitu percobaan untuk menentukan nilai threshold yang optimal. Hasil yang diperoleh dari percobaan ini dapat dilihat pada grafik gambar 2.

100 100 100 100 99 95 93 90 76 19 1 1 0 20 40 60 80 100 120 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6 Nilai Thresold J u m la h C lu s te r

Gambar 2 Hasil Clustering 100 Dokumen Dengan Threshold 0.5 - 1.6 Dari hasil percobaan pada gambar 2 didapat kesimpulan apabila nilai threshold semakin rendah maka jumlah kelas yang didapat semakin banyak sebaliknya nilai threshold semakin tinggi maka jumlah kelas yang didapat semakin berkurang hingga akhirnya semua dokumen akan bergabung menjadi satu kelas.

Percobaan di atas dari nilai threshold antara 1.3 sampai 1.42 sebagai nilai threshold yang optimal dengan jumlah cluster berkisar antara 76 sampai 14, sehingga dilakukan percobaan clustering dengan threshold 1.3-1.42. Hasil percobaan dapat dilihat pada grafik gambar 3.

76 72 71 68 ₆₂ 57 57 48 38 ₃₁ 19 7 ₁ 0 10 20 30 40 50 60 70 80 1.3 1.31 1.32 1.33 1.34 1.35 1.36 1.37 1.38 1.39 1.4 1.41 1.42 Nilai Threshold J u m la h C lu s te r

Gambar 3 Hasil Clustering 100 Dokumen Dengan Threshold 1.3 - 1.42

Hasil pengujian pada Gambar 3 menggambarkan nilai threshold tertinggi adalah 1.42 untuk 100 dokumen karena dari 1.42 dan seterusnya jumlah cluster yang didapat adalah satu. Dari hasil ini juga akan diuji hasil clustering dengan nilai threshold 1.37 sampai 1.41. Nilai ini dipilih karena jumlah cluster yang didapat sudah cukup optimal yaitu antara 48 cluster sampai 7 cluster.

Pengujian berikutnya adalah dengan nilai threshold 1.37 sampai 1.41 sebanyak 10 eksperimen dan akan

dihitung akurasi dari clustering dengan cara menghitung jumlah dokumen yang masuk pada kategori yang kurang tepat. Apabila dalam satu cluster terdapat dua dokumen yang tidak berhubungan maka akan dihitung satu kesalahan. Hasil akurasi rata-rata 10 eksperimen clustering dengan nilai threshold 1.37 sampai 1.41 dapat dilihat pada tabel 4.

Tabel 4 Hasil 10 Eksperimen Clustering 100 Dokumen Dengan

Threshold 1.37-1.41 No. Jumlah Dokumen Threshold Rata-rata Jumlah Cluster Kesalahan Akurasi 1 100 1.37 43.6 7.2 92.80% 2 100 1.38 36.9 9.6 90.40% 3 100 1.39 28.1 12.9 87.10% 4 100 1.4 17.6 19.5 80.50% 5 100 1.41 6.6 46.2 53.80%

Dari hasil penelitian pada tabel 4, akan diambil nilai threshold yang di tengah yaitu 1.39 karena nilai ini yang paling mendekati nilai rata-rata dari percobaan pada tabel 4. Nilai 1.39 nantinya akan digunakan untuk clustering dokumen yang akan menjadi data training Naïve Bayes.

4.1.2. Hasil Percobaan 2

Percobaan berikut adalah percobaan kedua, dilakukan untuk menghitung akurasi klasifikasi yang didapat dengan menggunakan data training dari hasil clustering Nearest Neighbor. Percobaan dimulai dengan mengklasifikasikan dokumen menggunakan data training dari kelas hasil clustering Nearest Neighbor dengan nilai threshold 1.39. Hasil dari klasifikasi menggunakan 100 dan 50 dokumen testing dapat dilihat pada tabel 5.

Tabel 5 Hasil Percobaan 2 dengan menggunakan 100 dan 50 Dokumen Testing.

No. Jumlah Dokumen Training Cluster yang didapat Jumlah dokumen testing Kesalahan Akurasi 1 800 82 100 12 88% 2 600 66 100 14 86% 3 400 61 100 9 91% 4 200 42 100 10 90% 5 100 33 100 11 89%

Hasil rata-rata yang diperoleh untuk akurasi clustering yaitu 85.32% dan 88.8% untuk klasifikasi. Dari hasil percobaan ini terlihat perbedaan yang tidak terlalu signifikan walaupun jumlah dokumen training yang digunakan berbeda-beda.

(6)

4.1.3. Hasil Percobaan 3

Percobaan terakhir yaitu percobaan clustering dan klasifikasi dokumen dengan menggunakan dokumen yang dipilih. Percobaan ini dilakukan untuk membandingkan 2 eksperimen. Eksperimen pertama terdiri dari 125 dokumen yang terbagi menjadi 5 kategori yang setiap kategorinya membahas masalah yang berbeda. Eksperimen kedua terdiri dari 125 dokumen yang terbagi menjadi 5 dan setiap kategori dokumennya sudah dipilih agar memiliki pembahasan dalam lingkup yang lebih sempit. Misalnya dalam kategori kesehatan hanya diambil pembahasan tentang “diet”. Setelah itu dilakukan proses clustering dan hasilnya dapat dilihat pada tabel 6.

Tabel 6 Tabel Hasil Percobaan 3

No Nama Eksperimen Jumlah Dokumen Threshold Jumlah Cluster Akurasi 1 Eksperimen I 100 1.411 5 46% 2 Eksperimen II 100 1.397 5 100%

Hasil eksperimen pertama memberikan hasil akurasi yang kurang baik karena dokumen yang digunakan untuk setiap kategorinya diambil secara acak sehingga pada setiap kategori yang berisi 20 dokumen isinya membahas lebih dari satu topik. Selain itu nilai threshold yang dibutuhkan untuk memperoleh 5 cluster adalah 1.411 yang sudah tergolong tinggi sehingga beberapa dokumen yang tidak relevan dapat bergabung menjadi satu kelas.

Eksperimen kedua menggunakan dokumen yang diseleksi terlebih dahulu dan memberikan hasil yang maksimal yaitu 100%. Eksperimen kedua mendapatkan hasil yang baik karena dokumen yang digunakan dalam eksperimen ini sudah diseleksi sehingga pada setiap kategori memiliki 20 dokumen yang hanya membahas satu topik. Nilai threshold yang dibutuhkan untuk mendapatkan 5 kelas yaitu 1.397.

Pengujian selanjutnya akan melakukan proses klasifikasi dengan menggunakan 100 data training hasil dari eksperimen I dan II. Dokumen testing yang akan digunakan pada data hasil eksperimen I adalah 25 dokumen yang terdiri dari 5 kategori dengan setiap kategori membahas lebih dari satu topik. Dokumen testing yang akan digunakan pada data hasil eksperimen II adalah 25 dokumen yang terdiri dari 5 kategori yang setiap kategori hanya membahas satu topik. Hasil pengujian ini dapat dilihat pada tabel 7.

Tabel 4 Hasil Klasifikasi Eksperimen I dan II

No. Nama Eksperimen Jumlah Dokumen Training Jumlah Dokumen Testing Akurasi 1 Eksperimen I 100 25 68% 2 Eksperimen II 100 25 100%

Hasil akurasi yang didapat untuk eksperimen I adalah 68%. Kesalahan terjadi karena pada setiap kelas terdapat lebih dari satu kategori sehingga pada saat testing ada kemungkinan untuk bergabungnya kategori lain ke dalam kelas tersebut. Eksperimen II mendapat hasil yang akurat yaitu 100% karena setiap kelas hanya terdiri dari satu kategori, dan dokumen testing yang digunakan hanya membahas satu topik untuk setiap kategorinya sehingga probabilitasnya sangat tinggi untuk bergabung ke kelas yang tepat.

4.2. Pembahasan

Hasil percobaan dengan akurasi terbaik yang diperoleh pada percobaan 1 dengan nilai threshold 1.37-1.41 dengan rata-rata akurasi 92.8% tetapi jumlah cluster yang didapat yaitu 42. Jumlah ini tergolong kurang efisien dalam hal pengelompokan. Sebaliknya pada saat jumlah cluster 7 dengan threshold 1.41, maka akurasi yang didapat terlalu rendah. Oleh karena itu akan diambil nilai tengahnya yaitu dengan threshold 1.39 sehingga diperoleh 31 cluster dan rata-rata akurasi yang cukup baik, yaitu 87.1%.

Nilai threshold 1.39 digunakan dalam percobaan 2 sebagai nilai threshold untuk data training Naïve Bayes. Dari hasil percobaan 2 nilai akurasi klasifikasi tertinggi adalah 91% dengan data training 100 dokumen.

Kesalahan yang terjadi karena dalam cluster hasil clustering banyaknya dokumen bervariasi, sehingga probabilitas cluster yang paling tinggi adalah cluster dengan dokumen terbanyak.

Banyak dokumen dalam cluster bervariasi karena walaupun dokumen dalam masing-masing kategori yang akan dikelompokkan jumlahnya sama tetapi dalam setiap kategori tersebut topik pembahasan setiap dokumen berbeda-beda. Misalnya dalam kategori olahraga terdapat dokumen yang membahas basket dan ada juga yang membahas bulu tangkis. Perbedaan ini mempengaruhi isi kata yang ada dalam dokumen sehingga pada saat proses pengelompokan kedua dokumen ini kemungkinan tidak akan bergabung menjadi satu kelas. Tetapi apabila kedua dokumen berisi kata-kata yang sama misalnya kata-kata “skor” yang umum digunakan dalam kategori olahraga, maka kedua dokumen ini dapat bergabung menjadi satu kelas.

Percobaan 3 dilakukan percobaan dengan menentukan jumlah cluster adalah 5 dan pada eksperimen I menggunakan data training dengan kategori yang diseleksi, agar setiap kategori hanya membahas satu topik dan hasil yang didapat sangat akurat yaitu 100%, dengan nilai threshold 1.397 untuk mendapat 5 cluster. Sebaliknya pada eksperimen II dengan menggunakan 5 kategori dengan setiap kategori membahas topik yang berbeda, hasil yang didapatkan kurang baik yaitu 46% dan nilai threshold yang dibutuhkan untuk mendapatkan 5 kelas yaitu 1.411.

(7)

Hasil akurasi klasifikasi pada percobaan 3 dengan menggunakan data hasil eksperimen I kurang baik yaitu 68% karena pada setiap kelas yang akan ditraining memiliki lebih dari satu kategori sehingga pada saat proses testing probabilitas dokumen untuk bergabung ke kelas yang salah lebih tinggi. Sebaliknya pada eksperimen II, hasil akurasi yang didapat sangat baik yaitu 100% karena data training yang digunakan setiap kelasnya hanya membahas satu topik sehingga pada tahap testing hasilnya akurat.

Kesimpulan dari seluruh percobaan adalah penggunaan kata-kata dalam dokumen sangat mempengaruhi hasil pengelompokan dan klasifikasi. Sehingga dokumen hanya akan bergabung apabila memiliki kemiripan dalam penggunaan kata-kata atau istilah meskipun topiknya berbeda.

5. Kesimpulan

Kesimpulan yang diperoleh dari penelitian ini adalah: 1.Hasil pengelompokan terbaik yaitu eksperimen dengan

menggunakan dokumen yang diseleksi terlebih dahulu. Eksperimen ini memberikan hasil 100% akurasi, dengan kondisi dokumen yang digunakan sudah diseleksi terlebih dahulu sehingga setiap kategori hanya membahas satu topik. Hasil akurasi pengelompokan terbaik tanpa seleksi diperoleh rata-rata akurasi 92.8% dari 10 kali eksperimen dan nilai threshold yang digunakan adalah 1.37.

2.Hasil akurasi klasifikasi terbaik yaitu klasifikasi dengan menggunakan hasil clustering dengan akurasi 100% sebagai data training. Akurasi yang diperoleh saat klasifikasi yaitu 100% dengan kondisi dokumen testing yang digunakan memiliki topik yang sama dengan data training. Hasil akurasi klasifikasi tertinggi tanpa seleksi terlebih dahulu yaitu 91% dengan 400 dokumen training dan 100 dokumen testing serta nilai threshold yang ditentukan adalah 1.39.

Saran untuk penelitian berikutnya adalah:

1.Nilai akurasi clustering dapat ditingkatkan dengan cara mencari kata kunci terlebih dahulu. Pencarian kata kunci ini bisa menggunakan metode feature selection. 2.Sebelum dilakukan klasifikasi, tiap cluster yang

diperoleh dari hasil clustering dapat diberi label terlebih dahulu dengan menambahkan proses penentuan label secara otomatis. Proses ini memberikan label dengan cara melihat kata kunci yang ada dalam dokumen.

3.Dalam proses clustering dapat menggunakan perhitungan centroid terlebih dahulu untuk mencari nilai tengah dari setiap cluster. Nilai centroid ini didapat dari perhitungan rata-rata dari tiap dokumen yang ada dalam cluster. Nilai centroid yang didapat akan digunakan dalam perhitungan jarak sebagai titik dari satu cluster.

REFERENSI

[1] Amin Mantrach and Nicolas van Zeebroeck, “Text Mining”,

http://www.vanzeebroeck.net/documents/seminar_textmini ng.pdf, diakses 10 September 2012.

[2] Michiel de Hoon, Seiya Imoto, and Satoru Miyano, 2002, “The C Clustering Library”, University of Tokyo, Tokyo. [3] Anil K. Jain and Richard C. Dubes, 1988, “Algorithms for

Clustering Data”, Prentice Hall, Upper Saddle River. [4] Yudi Wibisono, Agustus 2005, “Klasifikasi Berita

Berbahasa Indonesia menggunakan Naïve Bayes Classifier”, Seminar Nasional Matematika UPI.

[5] Tom M. Mitchell, “Generative and Discriminative Classifier: Naive Bayes and Logistic Regression”. http://www.cs.cmu.edu/~tom/mlbook/NBayesLogReg.pdf, diakses 10 September 2012.

[6] Ledy Agusta, November 2009, “Perbandingan Algoritma Stemming Porter Dengan Algoritma Nazief dan Adriani Untuk Stemming Dokumen Teks Bahasa Indonesia”, Konferensi Nasional Sistem dan Informatika, Vol. 036. [7] Yosi Amelia Putri, “Stemming Untuk Teks Berbahasa

Indonesia dan Pengaruhnya dalam Kategorisasi”, http://digilib.ittelkom.ac.id/index.php?option=com_reposit ory&Itemid=34&task=detail&nim=113050049, diakses 4 September 2012.

Penulis Pertama, mahasiswa Universitas Tarumanagara

Fakultas Teknologi Informasi

Penulis Kedua, memperoleh gelar Ir dari Departemen Teknik

Fisika Institut Teknologi Bandung, Indonesia. Kemudian memperoleh gelar M. Eng dari Department of Computer Science Asian Institute of Technology, Bangkok, Thailand.

Penulis Ketiga, memperoleh gelar S.Kom dari Universitas

Tarumanagara, Jakarta, Indonesia. Kemudian memperoleh gelar M.Kom dari Universitas Indonesia, Depok, Indonesia.