KLASIFIKASI DOKUMEN TUGAS AKHIR MENGGUNAKAN ALGORITMA K-MEANS. Wulan Fatin Nasyuha¹, Husaini 2 dan Mursyidah 3 ABSTRAK

(1)

33 KLASIFIKASI DOKUMEN TUGAS AKHIR MENGGUNAKAN ALGORITMA K-MEANS

Wulan Fatin Nasyuha¹, Husaini

2

dan Mursyidah

3

1,2,3 Teknologi Informasi dan Komputer, Politeknik Negeri Lhokseumawe, Jalan banda Aceh-Medan KM.275,5, Buketrata- Lhokseumawe, 24301,P.O.Box 90 Telepon (0645) 4278, fax.42785, Indonesia.

E-mail: [email protected], [email protected], [email protected]

ABSTRAK

Klasifikasi dokumen merupakan pengelompokkan dokumen yang mempunyai beberapa katagori. jumlah dokumen semakin lama semakin bertambah dan beragam. ditawarkan satu alternatif dengan membuat sebuah aplikasi yang dapat membantu dalam proses pencarian dan penyajian dokumen menjadi lebih mudah sehingga dokumen tersebut dapat disesuai dengan katagori masing – masing. Tujuan penelitian pada pembuatan tugas akhir ini adalah untuk membahas proses klasifikasi dokumen tugas akhir menggunakan algoritma k-means dan menggunakan bahasa pemrograman C#. Dengan adanya teks yang dapat diolah menjadi sebuah data yang menunjukkan pengelompokan atau kategori dari isi teks tersebut. Dokumen tugas akhir yang berisi judul dan kata kunci abstrak yang menjadi penelitian, dan terdapat delapan katagori yaitu aplikasi android, jaringan komputer, keamanan jaringan, multimedia, pengolahan citra, sistem informasi, sistem informasi geografis, sistem pakar. Database yang digunakan adalah MySQL. Adapun tingkat keberhasilan yang telah diuji mendapatkan akurasi 90%.

Kata kunci : klasifikasi dokumen, algoritma k-means, MySQL

1. PENDAHULUAN

Perkembangan jumlah dokumen setiap tahun semakin lama semakin bertambah dan beragam. Oleh karena itu, proses pencarian dan penyajian dokumen menjadi lebih sulit sehingga akan lebih mudah jika dokumen tersebut sudah tersedia sesuai dengan katagori masing – masing. Dokumen agar mudah di cari kembali bila sudah ditempatkan secara sistematis berdasarkan katagori tertentu. Perpustakaan Politeknik Negeri Lhokseumawe merupakan salah satu UPT yang menyediakan berbagai dokumen, baik dalam berbentuk buku, tugas akhir, jurnal dan sebagainya.

Perpustakan Politeknik Negeri Lhokseumawe memang sudah menyediakan dokumen dengan semaksimal mungkin, namun dokumen yang disediakan menurut bidang masing – masing. Oleh kerena itu, klasifikasi dokumen tugas akhir yang sesuai dengan katagori/tema memiliki teknik yang lebih spesifikasi untuk dokumen seperti ekstraksi teks secara otomatis. Hal ini untuk memberikan manfaat bagi pengguna yang ingin mencari tema dokumen tugas akhir secara otomatis, dan bertujuan untuk membahas proses klasifikasi dokumen tugas akhir menggunakan pengelomkolan atau kategori dari isi teks tersebut.

2. METODE PENELITIAN

2.1 ALGORITMA K-MEANS

Algoritma k-means merupakan salah satu algoritma untuk mengklasifikasi dokumen teks. Adapun penerapan Algoritma K-Means sebagai berikut [1]:

1. Tentukan k (jumlah cluster) yang ingin dibentuk.

2. Bangkitkan k centroid (titik pusat cluster) awal secara random.

3. Untuk setiap record, temukan pusat cluster

terdekat dengan mengukur jarak record

dengan pusat cluster. Metode perhitungan jarak yang digunakan adalah Metode cosinus similarity.

4. Untuk setiap k cluster, temukan pusat cluster

dan ubah lokasi dari setiap pusat cluster

dengan nilai centroid yang baru. Pusat cluster

diperoleh dengan cara menghitung nilai rata-rata dari data-data yang berada pada cluster

yang sama.

5. Kembali ke langkah 3 – 5 sampai konvergen. 2.2 METODE COSINUS SIMILARITY

Cosine Similarity merupakan metode yang digunakan untuk menghitung similarity (tingkat kesamaan) antar dua buah objek. Perhitungan cosine

(2)

34

similarity yang memperhitungkan perhitungan pembobotan kata pada suatu dokumen dapat dinyatakan dengan persamaan 2.1 berikut [2]:

 





 



  



t k t j ij ij t k ik jk ij

d

1 1 2 2 1

.

cos



(2.1) Diketahui: ik

d

= Nilai Pembobotan kata training jk

d

= Nilai Pembobotan kata uji 2.3 Pembobotan TF-IDF

Pembobotan kata (term weighting) adalah proses pembobotan pada kata. Pembobotan dasar dilakukan dengan menghitung frekuensi kemunculan term dalam dokumen. Frekuensi kemunculan (term frequency) merupakan petunjuk sejauh mana term tersebut mewakili isidokumen. Semakin besar kemunculan suatu term dalam dokumen akan memberikan nilai kesesuian yang semakin besar. Nilai idf sebuah term dapat dihitung menggunakan persamaan 2.2 sebagai berikut [3]:















df

D

IDF

log

(2.2) Diketahui: D = jumlah dokumen

df = jumlah kemunculan (frekuensi) term

terhadap D

Adapun persamaan yang digunakan untuk menghitung bobot (W) masing-masing dokumen terhadap kata kunci (query), menggunakan persamaan 2.3 berikut: t dt dt

tf

IDF

W



*

(2.3) Diketahui : d = dokumen uji t = term training

tf = term frekuensi/frekuensi kata

Wd.t = bobot dokumen ke–d terhadap term ke–t.

Metode penelitian diperoleh dari beberapa dokumen dan kategori tema tugas akhir 2014 – 2015 di perpustakaan Politeknik Negeri Lhokseumawe. Adapun daftar pengumpulan data ditunjukkan pada tabel 2.1 berikut ini.

Table 2.1 Daftar Pengumpulan Data

No Katagori Jumlah 1 Aplikasi Android 19 2 Jaringan Komputer 24 3 Keamanan Jaringan 16 4 Multimedia 22 5 Pengolahan Citra 18 6 Sistem Informasi 24

7 Sistem Informasi Geografis 21

8 Sistem Pakar 26

Pengumpulan dokumen yang telah diambil diimplementasikan menggunakan notepad dimana judul dan kata kunci abstrak dari setiap buku tugas akhir disimpan dalam format *.txt. adapun blok diagram proses klasifikasi ditunjukkan pada gambar 3.3 berikut ini.

Gambar 3.3 Blok Diagram Klasifikasi Dokumen Adapun proses kerja blok diagram ialah di tentukan k sebanyak 8, dari teks yang di uji maka akan bangkit k centroid yaitu kata android, karena kata tersebut masuk ke dalam 4 k. Selanjutnyan Proses pembobotan tf-idf, proses tf di tunjuukkan pada tabel 2.2 berikut ini:

Tabel 2.2 Proses tf id kata TF 1 2 3 4 5 6 7 8 9 1 _fisher 2 2 _mysql 1 ₁ ₇ 3 _database 1 4 4 _mobile 1 ₇ ₂ ₃ 5 _android 2 ₂₈ ₂ ₁₃ ₁₂ 6 _pengacakan 1 7 _shuffle 2 8 _yates 2 9 _eclipse ₂ ₁ 10 _java ₁ 2 ₃ ₁

Input Teks

Proses Tokenezing dan

Filtering

Proses Algotirma K-Means

Proses TF-IDF

(3)

35

Selanjutnya mencari nilai df dengan jumlahkan nilai tf setiap kata dan dan mencari idf dengan menggunakan persamaan 2.2. Adapun proses df dan idf di tunjukkan pada tablel 2.3 berikut ini:

Tabel 2.3 proses df dan idf

df idf log(D/df) 2 _0.653213 9 ₀ 5 _0.255273 13 _-0.1597 57 _-0.80163 1 _0.954243 2 _0.653213 2 _0.653213 3 _0.477121 7 _0.109144

Untuk mencari bobot masing-masing kata menggunakan persamaan 2.3 di tunjukkan pada tabel 2.4 berikut ini:

Tabel 2.4 Pembobotan tf-idf

1 2 3 4 5 6 7 8 9 1.306 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.255 0 0 0 0 0 1.021 0 0 -0.16 -1.12 0 -0.32 0 0 0 -0.48 0 -1.6 -22.5 0 -1.6 0 0 0 -10.4 -9.62 0.954 0 0 0 0 0 0 0 0 1.306 0 0 0 0 0 0 0 0 1.306 0 0 0 0 0 0 0 0 0 0.954 0 0 0 0 0 0.477 0 0 0.109 0 0 0.218 0 0.327 0 0.109 W=T F*IDF

Adapun pencari penbobotan kata dengan data uji di tunjukkan pada tabel 2.4 berikut ini:

Tabel 2.4 pembobotan kata dengan data uji

2 3 4 5 6 7 8 9 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.261 0 0 0.179 0 0.051 0 0 0 0.077 0 35.99 0 2.57 0 0 0 16.71 15.42 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 W(UJI)*W(T FIDF)

Selanjutnya mencari rata-rata setiap k (cluster) menggunakan persamaan panjang vektor, ditunjukkan pada tabel 2.5 berikut ini:

Tabel 2.5 Panjang vektor

1 2 3 4 5 6 7 8 9 1.707 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.065 0 0 0 0 0 1.043 0 0 0.026 1.25 0 0.102 0 0 0 0.23 0 2.57 503.8 0 2.57 0 0 0 108.6 92.54 0.911 0 0 0 0 0 0 0 0 1.707 0 0 0 0 0 0 0 0 1.707 0 0 0 0 0 0 0 0 0 0.911 0 0 0 0 0 0.228 0 0 0.012 0 0 0.048 0 0.107 0 0.012 2.948 22.54 8.953 7.958 10.11 9.046 9.618 14.33 15.99 PANJANG VEKT OR

Selanjutnya untuk mengklasifikasi menggunakan algoritma k-means, nilai rata-rata dari setiap k dihitung jarak terdekat dengan data uji. Adapun klasifikasi dokumen menggunakan algoritma k-means di tunjukkan pada tabel 2.6 berikut ini:

Tabel 2.6 Klasifikasi menggunakan algoritma k-means

NILAI JARAK ANTAR KATAGORI DENGAN KLASIFIKASI K-MEANS 2,1 3,1 4,1 5,1 6,1 7,1 8,1 9,1 0.54423 0 0.11173 0 0 0.00919 0.3973 0.32714 PRESENTASI 54.4232 0 11.173 0 0 0.91923 39.7302 32.7139 Diketahui: 1 = Uji 2 = Android 3 = Jaringan Komputer 4 = Keamanan Jaringan 5 = Multimedia 6 = Pengolahan Citra

(4)

36

7 = Sistem Informasi

8 = Sistem Informasi Geografis 9 = Sistem Pakar

3. HASIL DAN PEMBAHASAN

Dalam pengujian klasifikasi dokumen yang sesuai dengan teks yang dimasukkan menggunakan algoritma k-means, berikut pengujian dari Kategori Aplikasi Android:

Tabel 3.7 Hasil Pengujian Kategori Aplikasi Android

N o

Isi Teks Nilai Jarak Klasifikasi 1 fisher yates shuffle pengacakan android android mobile database mysql fisher yates shuffle

Aplikasi Android 54.4232 Aplikasi Android 54.4232% Jaringan Komputer 0 Keamanan Jaringan 11.1730 Multimedia 0 Pengolahan Citra 0 Sistem Informasi 0.91923 Sistem Informasi Geografis 39.7301 Sistem Pakar 32.6101 2 android hashing levenshtein distance android hashing levenshtein distance

Aplikasi Android 64.6326 Aplikasi Android 64.6326% Jaringan Komputer 0 Keamanan Jaringan 13.0732 Multimedia 0 Pengolahan Citra 1.11978 Sistem Informasi 0 Sistem Informasi Geografis 47.1889 Sistem Pakar 38.9011 3 warna android android warna

Aplikasi Android 95.1173 Aplikasi Android 95.1174% Jaringan Komputer 0 Keamanan Jaringan 19.2393 Multimedia 0.73552 Pengolahan Citra 10.4141 Sistem Informasi 0 Sistem Informasi Geografis 69.4461 Sistem Pakar 57.2493 4 linear congruent method lcm android uml android sdk eclipse lcm

Aplikasi Android 64.2479 Aplikasi Android 64.2479% Jaringan Komputer 0 Keamanan Jaringan 12.7582 Multimedia 3.14218 Pengolahan Citra 0 Sistem Informasi 1.74627 Sistem Informasi Geografis 46.4057 Sistem Pakar 37.9639 5 android fuzzy android mobile sdk mobile

Aplikasi Android 83.1638 Aplikasi Android 83.1639% Jaringan Komputer 0 Keamanan Jaringan 17.3474 Multimedia 0

device Pengolahan Citra 0 Sistem Informasi 0 Sistem Informasi Geografis

60.0191 Sistem Pakar 55.5139 Berdasarkan hasil pengujian kategori aplikasi android tingkat akurasinya ialah 100% berhasil, dikarenakan teks yang diinput sesuai dengan hasil klasifikasi katagorinya. Adapun terdapat pendekatan dengan katagori lain, tetapi nilai yang menunjukkan untuk kategori aplikasi android lebih besar. Adapun grafik dari teks no 1 yang digunakan pada tabel 3.2 yaitu “fisher yates shuffle pengacakan android android mobile database mysql fisher yates shuffle” sebagai berikut:

Gambar 1: Grafik Hasil Klasifikasi dari Teks "fisher yates shuffle pengacakan android android mobile

database mysql fisher yates shuffle".

4. SIMPULAN

Setelah melakukan penelitian dan pembahasan mengenai klasifikasi dokumen tugas akhir menggunakan algoritma k-means pada bab terdahulu, maka dapat diambil simpulan sebagai berikut:

1. Klasifikasi dokumen memiliki tingkat persentase keakuratan yang cukup baik dalam melakukan proses pengelompokan berdasarkan data uji dengan data yang berasal dari database,

yaitu tingkat keakuratan mencapai 90%. 2. Jumlah kata yang disimpan dalam database

lebih banyak karena semakin banyak jumlah kata yang disimpan maka akan semakin banyak nilai frekuensi kata yang akan dibandingkan dengan teks uji. Namun akan semakin lama juga waktu yang dibutuhkan untuk proses klasifikasi dokumen.

3. Kesalahan pada saat tidak sesuai pengklasifikasi dokumen ialah karena terdapat kata yang sama dan nilai pembobotan kata dari kategori lain lebih besar. Hal ini mengakibatkan klasifikasi teks yang diinput lebih mendekati kategori lain.

DAFTAR ACUAN

[1] Wicaksono, G. W. 2012, (Desember). K-Means. hal. 1-1 (online),

(5)

37

http://galih.staff.umm.ac.id/2012/12/k-means/, diakses 03 Desember 2015

[2] Alexander, B. (2015). “The Distance Formula,” jurnal Interactive Mathematics Miscellany and Puzzles, (online),

http://www.cut-the-knot.org/pythagoras/DistanceFormula.shtml, diakses 03 December 2015

[3] I.G.A Oka, W. N. (2011). “Data Mining Metode Clasifikation K-Nearst Neighbor (Knn),” (online)

https://id.scribd.com/doc/57208138/Metode-Algoritma-KNN#download, diakses 08 Mei 2016