Kata kunci: Cosine Similarity,

(1)

(2)

(3)

Intisari

Jumlah berita

online

semakin hari semakin meningkat. Hal ini akan menyulitkan

editor

berita

dalam mengkategorikan dokumen berita secara manual. Oleh karena itu, dibutuhkan proses

pengkategorian berita secara otomatis menggunakan klasifikasi. Klasifikasi adalah salah satu bagian

dari

data mining

yang digunakan untuk menentukan kelas dari suatu objek yang belum diketahui

kelasnya. Salah satu metode klasifikasi adalah K-Nearest Neighbor (K-NN), yaitu metode untuk

menghitung jarak terdekat dari dua buah objek kemudian mengelompokan objek yang berdekatan ke

dalam satu kelas. Pada penelitian ini, dilakukan perbandingan metode untuk menghitung jarak

dokumen terdekat yaitu Cosine Similarity dan

ℓ

2

𝑑

istance

pada klasifikasi menggunakan metode

K-NN.

Dari dari penelitian yang telah dilakukan, metode

Cosine Similarity

memberikan hasil yang

lebih baik daripada metode

ℓ

2

𝑑

istance

. Nilai

precision

terbesar untuk metode

Cosine Similarity

adalah 0.97 dan nilai

recall

sebesar 0.97. Sementara itu, untuk metode

ℓ

2

𝑑

istance

, nilai

precision

yang didapatkan yaitu 0.81 dan nilai

recall

sebesar 0.41.

(4)

Abstract

The number of online news is increasing day by day. It is not easy for the news editor to

categorize the news article manually. Therefore, an automatic news category classifier is needed.

Classification is a part of data mining that is used to determine the class of unclassified object. One

of the classification methods is K-Nearest Neighbor (K-NN), which is a method to calculate the

distance between two objects and put the objects whose closest distance into one class. In this

research, two distance calculation methods, Cosine Similarity and

ℓ

2

d

istance are compared in

classification using K-NN.

My experimental results show that Cosine similarity outperforms the

ℓ

2

d

istance. With the

precision and recall for Cosine Similarity are 0.97 and 0.97 respectively. For the

ℓ

2

d

istance, it reaches

0.81 and 0.41 respectively.

(5)

Klasifikasi Berita Menggunakan Metode

K-Nearest Neighbor (K-NN)

(

News Classification using K-Nearest Neighbor

(K-NN))

Baiq Pratiwi Komalasari

[1]

_{, Budi Irmawati}

[1]

_{, Ario Yudo Husodo}

[1]

[1]_{Program Studi Teknik Informatika, Fakultas Teknik, Universitas Mataram}

Jl. Majapahit 62, Mataram, Lombok NTB, INDONESIA

Email: baiqpratiwikomalasari@gmail.com, yzakodek@gmail.com, ario@unram.ac.id

Abstract The number of online news is increasing day by day. It is not easy for the news editor to categorize the news article manually. Therefore, an automatic news category classifier is needed. Classification is a part of data mining that is used to determine the class of unclassified object. One of the classification methods is K-Nearest Neighbor (K-NN), which is a method to calculate the distance between two objects and put the objects whose closest distance into one class. In this research, two distance calculation methods, Cosine Similarity and 𝓵𝟐𝐝istance are compared in classification using K-NN.

My experimental results show that Cosine similarity outperforms the 𝓵𝟐𝐝istance. With the precision and recall for Cosine Similarity are 0.97 and 0.97 respectively. For the

𝓵𝟐_𝐝_{istance, it reaches 0.81 and 0.41 respectively.}

Key words:Document classification, k-NN, VSM, Cosine Similarity, 𝓵𝟐𝒅istance.

I.PENDAHULUAN

Secara umum, berita dapat dikelompokkan menjadi beberapa kategori seperti berita nasional, internasional, ekonomi, teknologi, kesehatan, dan lain-lain. Sejauh ini pengelompokan berita masih menggunakan tenaga manusia atau manual. Sebelum artikel berita di-publish, editor harus mengetahui isi berita secara keseluruhan untuk selanjutnya dikelompokkan. Jika jumlah artikel berita yang akan di-publish semakin banyak, hal ini akan menghabiskan banyak waktu, terlebih jika dokumen tersebut memiliki kategori yang beragam. Permasalahan lain yaitu ketika dokumen yang dikelompokkan memiliki kemiripan isi, misalnya: untuk kategori teknologi bisa juga memiliki hubungan dengan kategori ilmu pengetahuan dan juga kategori kesehatan. Hal ini dibutuhkan ketelitian dan waktu yang tidak sebentar bagi editor untuk dapat mengelompokkannya.

Oleh karena itu, dibutuhkan suatu proses untuk mengklasifikasikan berita secara otomatis sesuai dengan kategori berita yang ada. Salah satu cara yang digunakan yaitu dengan metode K-Nearest Neighbor (K-NN) sebagai metode klasifikasinya. Metode K-NN merupakan metode dalam klasifikasi berita yang menggunakan perhitungan jarak terdekat antara dokumen latih dan dokumen uji.

Sehingga pada penelitian ini digunakan perbandingan metode Cosine Similarity dengan metode ℓ2distance untuk mendapatkan hasil terbaik dalam melakukan perhitungan jarak dokumen.

II.TINJAUANPUSTAKA

Palinoan [1] melakukan penelitian tentang sistem klasifikasi dokumen bahasa Jawa dengan metode k-NN. Pada penelitian ini, input nilai k memiliki pengaruh penting dalam proses klasifikasi. Jika nilai k yang dipilih sangat kecil, maka kategori dokumen uji hanya bergantung pada beberapa dokumen latih sehingga belum mewakili karakteristik data secara general. Akibatnya pemilihan dokumen yang menjadi data latih akan sangat mempengaruhi hasil klasifikasi. Hasil penelitian ini memperoleh nilai akurasi tertinggi yaitu 95% dengan kesalahan klasifikasi 5% pada 3 fold dengan k=4.

Purwanti [2] melakukan penelitian tentang klasifikasi jurnal bahasa Inggris menggunakan metode k-NN. Ia menggunakan data latih sebanyak 160 dokumen dan data uji sebanyak 20 dokumen untuk 4 kategori yang dipilih. Pada penelitian ini, dilakukan tiga kali percobaan dengan nilai k= {37, 41, 43}. Tingkat keberhasilan yang cukup baik didapat dalam klasifikasi dokumen pada nilai k=43 dengan memperoleh nilai F-Measure sebesar 0.539, nilai precision sebesar 0.519, dan nilai recall sebesar 0.501.

(6)

dianggap tidak perlu pada tahap proses preprocessing untuk meningkatkan hasil klasifikasi dokumen.

Hamzah [4] melakukan penelitian tentang klasifikasi teks berita dan tulisan ilmiah dengan Naïve Bayes

Classifier (NCB). Ia menggunakan 1000 dokumen berita

dengan berbagai kategori sebagai dokumen uji dan dokumen latih. Untuk dokumen akademik, digunakan 450 dokumen. Ia memperoleh nilai akurasi 91% untuk klasifikasi artikel berita dan 82% untuk klasifikasi tulisan ilmiah.

Gambar 1. Gambaran umum sistem.

Gambar 1 merupakan gambaran umum sistem pada saat klasifikasi menggunakan metode k-NN. Berikut tapahan pengerjaannya:

1. Proses input data

Data latih dan data uji yang dimasukkan untuk klasifikasi adalah berita bahasa Inggris dengan format txt. 2. Tokenisasi

Pada tahap ini terdapat proses pengubahan huruf pada teks dokumen menjadi huruh kecil (case folding), kemudian terdapat penghilangan karakter selain huruf

‘a’…’z’, kemudian yang terakhir adalah memecah kata

-kata dari string penyusunnya.

3. Stopwods removal

Menghilangkan kata-kata umum yang tidak mempengaruhi hasil klasifikasi.

4. Stemming

Proses mengubah kata bentukan menjadi kata dasarnya dengan menghilangkan akhiran (suffixes) dari kata aturannya.

5. TF-IDF

Proses ini memberikan bobot kata pada tiap dokumen latih berdasarkan dokumen uji sebagai masukan.

6. Cosine Similarity dan ℓ2distance

Cosine similarity dan ℓ2distance merupakan proses menghitung kedekatan antara dokumen uji dan dokumen latih berdasarkan perhitungan bobot kata pada TF-IDF. 7. k-NN

Proses klasifikasi penentuan kategori dokumen berdasarkan kelas terdekat pada dokumen latih berdasarkan nikai k yang sudah ditentukan.

B. Teknik Pengujian

Teknik pengujian yang digunakan untuk mengukur kualitas retrieval, yaitu dengan menggunakan perhitungan recall, precision, dan waktu pengujian sistem.

Berikut persamaan untuk menghitung nilai recall dan

precision, menggunakan Persamaan 1 dan persamaan 2.

𝑅𝑒𝑐𝑎𝑙𝑙 = |𝑅𝑎|_|𝑅| dimana:

|Ra |= Jumlah dokumen relevan yang ditemukembalikan. |R| = Jumlah dokumen relevan.

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = |𝑅𝑎| |𝐴| dimana:

|Ra| = Jumlah dokumen relevan yang ditemukembalikan. |A| = Jumlah hasil temu kembali.

IV. HASILDANPEMBAHASAN

Dalam penelitian ini data yang digunakan sebanyak 1000 dokumen yaitu 200 dokumen mewakili masing-masing kategori. Pengujian yang dilakukan pada penelitian ini menggunakan cross validation dengan nilai k fold=5.

Pengujian dilakukan sebanyak lima kali, yaitu: dengan masukan nilai k pada k-NN =1, 3, 5, 7, 9, 11, 13, 15, dan 17. Berikut hasil pengujian yang telah dilakukan:

1. Percobaan 1

Pengujian percobaan 1 dilakukan dengan nilai k=1 pada masukan nilai k-NN, sehingga didapatkan hasil pengujian yang ditunjukkan pada Tabel 1.



(7)

Tabel 1. Pengujian menggunakan nilai k=1

Berikut hasil waktu komputasi menggunakan metode Cosine Similarity dan ℓ2distance yang ditunjukkan pada Tabel 2.

Tabel 2.Waktu perhitungan menggunakan nilai k=1.

2. Percobaan 2

Tabel 3. Pengujian menggunakan nilai k=3.

Tabel 4. Waktu perhitungan menggunakan nilai k=3.

3. Percobaan 3

4. Percobaan 4

(8)

Tabel 8. Waktu pengujian menggunakan nilai k=7.

5. Percobaan 5

Tabel 9. Perhitungan menggunakan nilai k=9.

6. Percobaan 6

7. Percobaan 7

8. Percobaan 8

(9)

9. Percobaan 9

Nilai precision dari tiap-tiap percobaan menggunakan metode Cosine Similarity dan ℓ2𝑑istance akan dijelaskan padaGambar 2.

Gambar 2. Nilai precision pengujian menggunakan cross validation.

Nilai recall dari tiap-tiap percobaan menggunakan metode Cosine Similarity dan ℓ2𝑑istance akan dijelaskan pada Gambar 3.

Gambar 3. Nilai recall pengujian menggunakan cross validation.

(10)

Tabel 16. Waktu perhitungan metode Cosine Similarity dan ℓ2𝑑istance menggunakan cross validation.

A. Pembahasan

Hasil dari pengujian yang dilakukan, diketahui bahwa metode Cosine Similariy mendapatkan nilai precision dan recall yang lebih tinggi daripada metode ℓ2𝑑istance. Hal ini dikarenakan prinsip perhitungan menggunakan kedua metode tersebut. Misalnya, terdapat vektor A, Vektor B, dan Vektor C dengan nilai tertentu yang akan digambarkan pada koordinat kartesius pada Gambar 4.

Gambar 4. Koordinat Kartesius Vektor A, Vektor B, dan Vektor C.

Dari koordinat kartesian diatas, berdasarkan dot product pada metode Cosine Similarity, sudut antara A ke B dan B ke C sama besar, maka bisa dikatakan bahwa vektor A dan vektor C memiliki tingkat kemiripan yang sama dengan vektor B, jika diputar secara perlahan sampai

360˚ sudutnya tidak akan berubah. Berbeda halnya ketika

menggunakan panjang vektor pada metode ℓ2𝑑istance, akan menghasilkan jarak yang berbeda pada saat panjang

vektor tersebut diputar secara perlahan hingga 360˚. Inilah

yang menyebabkan hasil klasifikasi menggunakan metode Cosine Similarity lebih baik atau bagus dibandingkan metode ℓ2𝑑istance pada klasifikasi teks.

Waktu komputasi menggunakan metode Cosine Similarity menunjukkan waktu proses yang lebih lama

dibandingkan metode ℓ2𝑑istance. Hal tersebut dikarenakan metode Cosine Similarity memiliki tahapan perhitungan yang lebih lama dari metode ℓ2𝑑istance, yaitu sebelum melakukan perhitungan klasifikasi terlebih dahulu dilakukan perhitungan untuk mencari jarak query, jarak dokumen dan juga perhitungan inner product.

Dari Hasil pengujian yang dilakukan, dapat disimpulkan bahwa perhitungan jarak menggunakan metode Cosine Similarity lebih cocok atau baik digunakan daripada metode ℓ2𝑑istance untuk klasifikasi teks dokumen. Hal ini dilihat dari pengujian dengan metode

Cosine Similarity yang memperoleh nilai precision

terbesar yaitu 0.97 atau 97% dan nilai recall sebesar 0.97 atau 97% yang didapatkan pada pengujian menggunakan nilai k=17. Sedangkan untuk pengujian menggunakan metode ℓ2𝑑istance mendapatkan nilai precision terbesar yaitu 0.81 atau 81% pada nilai k=3 dan nilai recall terbesar pada nilai k=1 yaitu 0.41 atau 41%.

V.KESIMPULANDANSARAN

A. Kesimpulan

Melalui penelitian yang dilakukan, dapat disimpulkan bahwa:

1. Metode Cosine Similarity lebih baik digunakan dalam proses perhitungan jarak dokumen dibandingkan dengan metode ℓ2distance.

2. Hasil pengujian tertinggi menggunakan metode Cosine Similarity memperoleh nilai precision = 0.96 atau 96% dan recall = 0.96 atau 96%, sedangakan untuk metode ℓ2_distance_{memperoleh nilai}_precision_{= 0.04 atau 4%} dan nilai recall = 0.2 atau 20%.

3. Waktu komputasi menggunakan metode ℓ2distance lebih singkat dibandingkan dengan metode Cosine Similarity.

B. Saran

1. Metode untuk menghitung jarak dokumen juga dapat menggunakan metode perhitungan yang lainnya, seperti: metode Jaccard, Tanimoto Coefficient, ataupun metode Manhattan untuk membandingkan hasil dari pengujian menggunakan metode Cosine Similarity dan metode ℓ2𝑑istance.

2. Penggunaan proses klasifikasi dengan metode k-NN dapat menggunakan metode klasifikasi yang lainnya, seperti: Naïve Bayes Classifier (NBC), Support Vector

Machine (SVM), atau Neural Network (NN).

(11)

sangat berpengaruh pada masukan jumlah nilai k pada hasil akhir klasifikasi.

DAFTARPUSTAKA

[1] Palinoan, V. W., 2014, Sistem Klasifikasi Dokumen Bahasa Jawa Menggunakan Metode K-Nearest Neighbor, Universitas Sanata Dharma, Yogyakarta.

[2] Purwanti, E., 2015, Klasifikasi Dokumen Temu Kembali Informasi dengan K-Nearest Neighbor, Record and Library Journal, Vol. 01, No. 2, p.137.

[3] Chandra, D. N., Indrawan, G. & Sukajaya, I. N., 2016,

Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naive Bayes dengan Fitur N-Gram, Jurnal Ilmiah Teknologi dan Informasi ASIA, Vol. 10, No. 1, p. 19. [4] Hamzah, A., 2010, Klasifikasi Teks dengan Naive Bayes