• Tidak ada hasil yang ditemukan

PENERAPAN ALGORITMA K-MEANS UNTUK CLUSTERING DOKUMEN E-JURNAL STMIK GI MDP

N/A
N/A
Protected

Academic year: 2021

Membagikan "PENERAPAN ALGORITMA K-MEANS UNTUK CLUSTERING DOKUMEN E-JURNAL STMIK GI MDP"

Copied!
9
0
0

Teks penuh

(1)

Hal - 1 

PENERAPAN ALGORITMA K-MEANS UNTUK CLUSTERING

DOKUMEN E-JURNAL STMIK GI MDP

Ernie Kurniawan

(deepblue_nie_k@yahoo.com),

Maria Fransiska

(mariafransiska09@yahoo.com)

Tinaliah (

tinaliah@mdp.ac.id),

Rachmansyah

(rachmansyah@gmail.com)

Program Studi Teknik Informatika

STMIK GI MDP

Abstrak : Banyaknya dokumen jurnal yang terus bertambah membuat pengelompokkan dokumen jurnal

semakin sulit karena memperlambat pencarian dokumen. Oleh karena itu, pengelompokkan dokumen jurnal diperlukan untuk mempercepat pencarian yang diperoleh dari query yang diinput pengguna dan menghasilkan hasil yang relevan dengan query tersebut. Penelitian ini bertujuan untuk menerapkan algoritma K-Means dalam mengelompokkan dokumen jurnal yang sesuai dengan query yang diinput sehingga menghasilkan kelompok-kelompok yang sesuai dengan query. Dalam prosesnya dilakukan tahap preprocessing yaitu tokenization, penghilangan stopwords dan stemming. Selanjutnya, pengelompokkan dokumen dilakukan dengan algoritma K-Means menggunakan bahasa pemrograman PHP dengan menggunakan proses stemming dan non-stemming untuk mengetahui kerelevanan hasil yang diperoleh dari masing-masing proses. Hasil dari pengelompokkan dokumen dengan menggunakan proses stemming menghabiskan waktu lebih banyak dibandingkan dengan proses non-stemming karena proses stemming harus menemukan terlebih dahulu kata dasar dari query yang diinput sedangkan dalam proses non-stemming tidak diperlukan proses pencarian kata dasar, hasil pengelompokan menggunakan proses stemming lebih relevan dibandingkan dengan pengelompokan dengan menggunakan proses non-stemming, pengujian dengan menggunakan dataset yang sedikit membuat pengembang kesulitan dalam membedakan hasil kelompok antara proses stemming dan proses non-stemming, penentuan titik pusat awal sangat berpengaruh terhadap jumlah cluster yang terbentuk serta pengelompokan dokumen ini juga dapat membantu pengguna menemukan dokumen yang relevan sesuai dengan query yang diinput.

Kata Kunci : Clustering, K-Means, stemming, PHP

Abstract : The amount of journal documents which increase continously make the classified of journal document more difficult is slow down the document research. Therfore the classification of journal document is needed to speed the research which get from query that input by the user and produce a relevant result from the query. The purpose of the research is to imply K-Means algorithm in classify the journal document based on the query which already input so produce the groups as query. In that process, there is preprocessing step which is call tokenization, the omit of stopwords and stemming. Next, the classification of documents are done with K-Means algorithm use PHP programming language with use stemming and non-stemming process to know the relevance result with get from each process. The result from document classification with use stemming process spend more times compare with non-stemming process because the stemming process should be found the basic words of query which already input. While in non-stemming process isn't needed of the basic words research process. The result of this classification with use stemming process is more relevant compare with the classification by non-stemming process. The testing with use a little dataset make the developer find the difficulty in comparing the result of groups between stemming and non-stemming process, the determination of the beginning of center is very influence to the amount of cluster which is formed beside that the classification of this document can help the user find the relevant document as suit as query which is input.

(2)

1 PE Pe kompu penggu dibutuh membu hanya media website inform inform kompu website inform pendid Ba mengg inform mahasi website website perpus pengel mahasi jurnal. cender dengan harus buku te Pe merupa web te berdasa dengan Pengel lebih s judul cepat web se menan sulit mengid D ini, ma tugas a membe dengan penelit dikaren algoritm ENDAHULU erkembangan uter saat ini una akan tek hkan. Saat uat teknologi sebagai hibu komunikasi e. Media masi seperti b masi lain sang uter. Selain e juga bi masi yang dikan. anyak per gunakan med masi secara iswanya den e perguruan e dapat disis takaan digita ompokan do iswa yang in Hal ini dis rung lebih suk n menggunak ke perpustak ersebut. engelompoka akan sebuah ersebut terda arkan penge n kategori yan lompokan dok spesifik untuk otomatis dan atau filtering ering member ggapi permi bagi pengg dentifikasi inf engan adany ahasiswa han akhirnya, lalu erikan doku n judul yang tian dengan nakan di dal ma yang dapa UAN n teknologi i sangat cep knologi komp ini banyak baru yang be uran melainka yang berbasi website ber erita, iklan, p at membantu iklan secara isa dimasuk berkaitan guruan tin dia web untu langsung ngan cukup m tinggi terse ipkan dengan al yang di dal okumen berb ngin mencari sebabkan kar ka memilih b kan kompute kaan untuk an dokumen situs web di apat sistem elompokan d ng dibuat ole kumen memi k dokumen s n pencarian g. Misalnya, rikan ribuan intaan pengg una untuk formasi yang ya pengelomp nya perlu men

u secara otom men-dokume dimasukan ag judul yang am website t at mengelomp informasi d pat, kebutuh puter sangatl k pengemba ermanfaat buk an juga sebag is visual sepe risi bermaca permainan se u para penggu online, dal kkan berbag dengan dun nggi memi uk memberik kepada p mengakses l ebut. Teknolo n menggunak lamnya terdap basis web b i buku ataup rena mahasis

uku yang dic er dibandingk mengecek d berbasis w imana di dal yang dibent dokumen sesu eh pengemban liki teknik ya seperti ekstra informasi ya mesin penc halaman dal guna, sehing mencari at relevan. pokan dokum ngetikkan jud matis web ak en yang mi

gar tidak terj sama. Hal terdapat sebu pokan dokum dan han lah ang kan gai erti am erta una am gai nia ilih kan ara ink ogi kan pat agi pun wa cari kan data web am tuk uai ng. ang aksi ang cari am gga tau men dul kan irip adi ini uah men berd atau berf jurn dala kem yang 2 2.1 peng dike ruan mer doku dan rupa ditem doku clus Frie 2.2 algo seba ke d anta seda pada angg kede clus clus 2012 men dasarkan kesa u berdasarkan Dengan ad fungsi untuk nal ini, dap am pencaria miripan yang g diberikan o LANDASA Clustering Clustering ggelompokan elompokan de ng pencaria respon suatu umen yang b hukum dap a sehingga mpatkan dal umen hukum ster hukum (G eder, 2004, h. Algoritma K Algoritm oritma yang m anyak k dan dalam k clust ar anggota angkan tingk a cluster la gota terhad ekatan objek ster atau da ster atau pusa

2). Berikut nentukan juml Berikut r d(x,y) =|| amaan antar kelompokny danya sebua k mengelom at memperm an jurnal paling sesu leh pengguna AN TEORI g adalah sua n dokumen engan konten an yang d u query. M berisi dokume pat dikelompo semua lam satu cl m ditempat Grossman, D 105). K-Means ma K-Mea membutuhka membagi sek ter sehingga dalam satu kat kemiripan ain sangat re dap cluster k terhadap apat disebut at massa. (Na ini adalah lah cluster : rumus penguk |x-y||2 = dokumen ter ya. ah sistem mpokan dok mudah maha dengan ti uai dengan a. atu metode dimana dok untuk mengu diperlukan d Misalnya ko en-dokumen m okkan sedem dokumen m luster dan s tkan dalam avid A. dan ans merup an parameter kumpulan n tingkat kemi u cluster t n dengan an endah. Kem diukur de nilai mean sebagai cen ango, Dwi No h rumus kuran jarak : rsebut yang kumen asiswa ingkat query untuk kumen urangi dalam oleksi medis mikian medis semua satu Ophir pakan input objek iripan tinggi nggota iripan engan pada ntroid oviati, untuk (1) (2)

(3)

Hal - 3  Adapun rumus perhitungan jarak lainnya

didefinisikan sebagai berikut :

, (3)

Keterangan : d = titik dokumen x = data record y = data centroid

Jarak yang terpendek antara centroid dengan dokumen menentukan posisi cluster suatu dokumen. Misalnya dokumen A mempunyai jarak yang paling pendek ke centroid 1 dibanding ke yang lain, maka dokumen A masuk ke group 1. Hitung kembali posisi centroid baru untuk tiap-tiap centroid (Ci..j) dengan mengambil rata- rata dokumen yang masuk pada cluster awal (Gi..j). Iterasi dilakukan terus hingga posisi group tidak berubah.

Berikut rumus dari penentuan centroid.

| |∑ ̅ (4) Adapun rumus iterasi lainnya didefinisikan sebagai berikut :

.. …

∑ (5) Keterangan :

x1 = nilai data record ke-1 x2 = nilai data record ke-2

Σx = jumlah data record

Menurut Adiningsih (2007), tahap penyelesaian algoritma K-Means adalah sebagai berikut:

a. Menentukan K buah titik yang merepresentasikan obyek pada setiap cluster (centroid awal).

b. Menetapkan setiap objek pada cluster dengan posisi centroid terdekat.

c. Jika semua objek sudah dikelompokkan maka dilakukan perhitungan ulang dalam menentukan centroid yang baru.

d. Ulangi langkah ke-2 dan ke-3 sampai centroid tidak berubah.

Ilustrasi Algoritma K-Means dapat dilihat dibawah ini:

Sumber : http://www.mathworks.com

 

 

Gambar 1.1 Algoritma K-Means

2.3 PHP Script Language

PHP: HyperText Preprocessor merupakan secara umum dikenal sebagai bahasa pemrograman script-script yang membuat dokumen HTML secara on the file yang dieksekusi di server web, dokumen HTML yang dihasilkan dari suatu aplikasi bukan dokumen HTML yang dibuat dengan menggunakan editor teks atau editor HTML (Sidik, Bertha, 2012, h.7).

2.4 MySQL

MySQL merupakan software database yang termasuk paling populer di lingkungan Linux. Kepopuleran ini karena ditunjang performansi query dari database-nya yang saat itu paling cepat dan jarang bermasalah. Berangkat dari software database yang shareware MySQL populer, kini mulai versi 3.23 MySQL menjadi software open source yang berarti free. MySQL dapat digunakan untuk kepentingan komersial ataupun personal (Sidik, Bertha, 2012, h.333).

(4)

3 RANCANGAN ALGORITMA DAN PROGRAM

3.1 Metodologi RUP

Dalam mengembangkan aplikasi ini, metodologi yang digunakan adalah metodologi RUP. RUP (Rational Unified Process) merupakan sebuah proses pengembangan perangkat lunak yang berfungsi untuk memastikan hasil yang diperoleh dari pengembangan perangkat lunak dan sesuai dengan jadwal serta anggaran yang telah dirancang. Proses ini lebih menekankan pada pengembangan dan pemeliharaan yang terus diperbaharui agar menghasilkan perangkat lunak yang lebih baik lagi (Simarmata, Janner, 2009, h.81).

Di dalam metodologi ini terdapat tahapan - tahapan dalam menjalankan prosesnya yang terdiri dari:

1. Inception (permulaan)

Pada tahapan ini merupakan tahap dalam proses menentukan dan mencari kebutuhan yang diperlukan dalam proses pembuatan sebuah sistem dan dampak/manfaat dari pengembangan sistem tersebut. Aktivitas yang dilakukan pada tahap ini antara lain mencakup analisis sistem, perumusan sistem target, penentuan arsitektur global target, identifikasi kebutuhan, perumusan persyaratan, perumusan kebutuhan pengujian (level unit, integrasi, sistem, performansi, fungsionalitas, keamanan), pemodelan diagram UML, dan pembuatan dokumentasi. Di dalam tahapan ini terdapat perincian sebagai berikut :

a. Studi Literatur (Inception)

Mengumpulkan informasi dan data mengenai algoritma K-Means dan proses clustering dokumen dari buku ataupun jurnal, mengumpulkan data-data jurnal serta mempersiapkan semua data-data yang dibutuhkan yaitu dokumen jurnal skripsi STMIK GI MDP.

2. Elaboration (perluasan)

Pada tahapan ini merupakan proses dimana hasil dari tahapan inception dievaluasi lagi mengenai desain dan kebutuhan yang diperlukan, apakah masih terdapat kebutuhan ataupun desain yang diperlukan untuk melengkapi sistem agar lebih baik lagi. Pada tahap desain ini menggunakan pemodelan kasus use case dimana terdapat interaksi antara aktor-aktor dan sistem yang berinteraksi di dalamnya yang mencakup pembuatan desain arsitektur subsistem (architecture pattern), desain komponen sistem, desain format data (protokol komunikasi), desain database, desain user interface, pemodelan diagram UML, dan pembuatan dokumentasi.

3. Construction (pembuatan)

Pada tahapan ini merupakan proses dimana pengembang melakukan pengimplementasian mengenai sistem yang akan dibuat dengan menggunakan bahasa pemrograman PHP. Aktivitas yang dilakukan pada tahap ini antara lain mencakup pengujian hasil analisis dan desain, pendataan kebutuhan implementasi lengkap, penentuan coding pattern yang digunakan, pembuatan program, pengujian, optimasi program, pendataan berbagai kemungkinan pengembangan / perbaikan lebih lanjut, dan pembuatan dokumentasi. 4. Transition (peralihan)

Tahapan ini merupakan tahapan akhir dari metodologi sistem RUP yang mana pada tahapan ini dilakukan transisi agar pengguna dapat mengerti dalam menggunakan sistem yang telah dibangun/dikembangkan. Pada tahap peralihan ini, sistem yang telah dibangun diuji coba dengan cara mendemokan cara penggunaannya sehingga user bisa menguji hasil dari sistem, apakah sistem berjalan sesuai dengan yang diharapkan atau tidak.

(5)

Hal - 5  3.3 Flowchart

Flowchart adalah sebuah diagram dengan simbol-simbol grafis yang menyatakan aliran algoritma atau proses yang menampilkan langkah-langkah yang disimbolkan dalam bentuk kotak, beserta urutannya dengan menghubungkan masing-masing langkah tersebut menggunakan tanda panah.

3.3.1 Flowchart Tahap Preprocessing

Flowchart tahap preprocessing merupakan flowchart yang berisi proses penghilangan tanda baca (tokenization), proses penghilangan kata yang tidak penting (stopwords), serta proses pengambilan kata dasar (stemming).

3.3.2 Flowchart Mencari Jumlah Cluster

Flowchart mencari jumlah cluster merupakan flowchart yang berisi proses pencarian jumlah cluster dengan cara membagi dua jumlah dari seluruh dokumen kemudian diakarkan.

3.3.3 Flowchart Mencari Jarak

Flowchart mencari jarak merupakan flowchart yang berisi proses pencarian jarak antara dokumen dengan titik centroid dimana proses dilakukan dengan menghitung nilai frekuensi kata yang ada pada tiap dokumen, kemudian dilakukan perhitungan jarak dengan Euclidean.

(6)

3.3.4 Flowchart Mencari Centroid Baru

Flowchart mencari centroid baru merupakan flowchart yang berisi proses pencarian centroid (titik pusat) baru dengan cara membagi jumlah seluruh dokumen dengan jumlah cluster yang terbentuk.

3.3.5 Flowchart Algoritma K-Means

Flowchart

Algoritma K-Means

merupakan

flowchart

yang berisi urutan

proses dari mencari

frekuensi kemunculan

kata (Tf), mencari jumlah cluster,

menentukan

centroid (titik pusat) awal,

mencari jarak, mengelompokkan dokumen

berdasarkan jarak terdekat dengan centroid,

serta proses mencari centroid baru.

4 IMPLEMENTASI DAN ANALISIS

PROGRAM

4.1 Prosedur Uji Coba Program

4.1.1 Tampilan Antarmuka Menu Utama Ketika user menjalankan aplikasi maka halaman pertama yang akan tampil adalah halaman menu utama. Berikut adalah tampilan antarmuka menu utama yang dapat dilihat pada Gambar 4.1.

(7)

Hal - 7  Gambar 4.1 Antarmuka Halaman Menu

Utama

4.1.2 Tampilan Antarmuka Halaman

Pencarian

Pada saat user memasukan query yang ingin dicari dan menekan tombol cari maka akan tampil halaman pencarian.

Gambar 4.2 Tampilan Antarmuka Halaman Pencarian dengan Stemming

Gambar 4.3 Tampilan Antarmuka Halaman Pencarian Non-Stemming

4.1.3 Tampilan Antarmuka Halaman Isi Dokumen

Pada saat user memilih salah satu jurnal maka akan menampilkan halaman isi dokumen.

Gambar 4.4 Tampilan Antarmuka Halaman Isi Dokumen

4.1.4 Tampilan Antarmuka Halaman Admin

Gambar 4.5 Tampilan Antarmuka Halaman Admin

4.1.5 Tampilan Antarmuka Menu Ubah Dokumen

Menu ubah dokumen pada Gambar 4.6 adalah menu yang disediakan bagi admin untuk melakukan perbaikan apabila ada kesalahan dalam penginputan data.

(8)

Gambar 4.6Tampilan Antarmuka Menu Ubah Dokumen

4.1.6 Tampilan Antarmuka Menu Tab Tambah Dokumen

Menu tab tambah dokumen pada Gambar 4.7 menampilkan sebuah daftar yang harus dimasukkan oleh admin yaitu berupa sebuah file .pdf jurnal, sebuah file .txt jurnal, judul jurnal, nama pengarang, tahun dan abstrak.

Gambar 4.7 Tampilan Antarmuka Menu Tab Tambah Dokumen

4.2 Analisis Hasil Pengujian Program 4.2.1 Uji Coba Pertama

Uji coba pertama dilakukan untuk menguji keakuratan sistem dengan membandingkan hasil yang diperoleh dari aplikasi menggunakan algoritma K-Means dengan klasifikasi judul yang ada pada database aplikasi dimana dilakukan proses pencarian

dengan cara memasukkan 5 query yang sama ke dalam masing-masing aplikasi.

Nilai akurasi =

jumlah dokumen yang sama antara dan klasi ikasi jumlah dokumen keseluruhan

Query = “ perancangan sistem informasi ”

Tabel 4.1 Hasil Hasil Kesamaan Clustering dan Klasifikasi Clustering Klasifikasi J0001 J0004 J0007 J0007 J0016 J0008 J0017 J0016 J0028 J0017 J0040 J0018 J0060 J0026 J0074 J0027 J0076 J0028 J0077 J0077

Pada Tabel 4.1 diperoleh bahwa terdapat 5 buah dokumen yang sama pada aplikasi clustering dan klasifikasi sehingga dapat diperoleh nilai akurasinya adalah sebagai berikut :

Nilai akurasi = x 100% = 50% 4.2.2 Uji Coba Kedua

Hasil uji coba waktu antara proses stemming dengan proses non-stemming dengan query : “aplikasi pembelian barang” terhadap 300 dokumen jurnal.

Gambar 4.8 Uji Coba Pengujian Waktu

2.85 1.48 0 1 2 3

(9)

Hal - 9  5 PENUTUP

5.1 Kesimpulan

Setelah banyak tahapan dalam pengembangan perangkat lunak dimulai dari analisis kebutuhan sampai dengan implementasi dan pengujian maka ada beberapa kesimpulan yang didapat setelah skripsi ini yaitu sebagai berikut :

1. Algoritma K-Means dapat melakukan pengelompokan dokumen dalam jumlah yang banyak akan tetapi belum efisien dalam mengelompokan dokumen secara tepat. 2. Penentuan centroid (titik pusat) pada tahap

awal Algoritma K-Means sangat berpengaruh pada hasil cluster seperti pada hasil pengujian yang dilakukan dengan menggunakan 300 dataset dengan centroid yang berbeda menghasilkan hasil cluster yang berbeda juga.

3. Proses clustering menggunakan stemming akan menghabiskan waktu lebih lama dibandingkan dengan non-stemming, hal ini dapat dilihat pada hasil uji coba 2.

4. Semakin sedikit dokumen yang dipakai, maka semakin sulit untuk membedakan cluster antara stemming dan non-stemming.

5.2 Saran

Berikut ini beberapa saran yang bertujuan mengembangkan Aplikasi Penerapan Algoritma K-Means untuk Clustering Dokumen E-jurnal STMIK MDP yang penulis buat adalah sebagai berikut:

1. Untuk meningkatkan hasil pengelompokan dokumen yang lebih relevan sebaiknya algoritma K-Means digabung dengan algoritma lain seperti Algoritma Hierarchical Clustering.

2. Aplikasi ini dapat dikembangkan dengan cara menambah fitur convert file dan standarisasi sehingga dapat mempermudah kerja admin.

3. Agar aplikasi dapat digunakan untuk umum, sebaiknya aplikasi dibuat secara online.

DAFTAR PUSTAKA

[1] Grossman, David A. dan Ophir Frieder 2004.Information Retrieval Algorithms and Heuristics Second Edition. Springer, The Netherlands.

[2] Determining the number of clusters

in a data set.

http://en.wikipedia.org/wiki/

Determining_the_number_of_clusters_in _a_data_set. Diakses pada tanggal 10 Januari 2014.

[3] Nango, Dwi Noviati 2012. Penerapan Algoritma K-means untuk Clustering Data Anggaran Pendapatan Belanja Daerah di Kabupaten XYZ. http://sro.web.id. Diakses pada tanggal 16 Agustus 2013.

[4] Ken 2009. Clustering Analysis, Part II:

K-Means Clustering.

http://www.centerspace.net. Diakses pada tanggal 10 September 2013.

[5] Sidik, Bertha 2012. Pemrograman Web PHP (Edisi Revisi). Informatika, Bandung.

[6] Rational Unifed Process 2006. http://www.skillresource.com. Diakses pada tanggal 12 Desember 2013.

[7] Simarmata, Janner 2009. Rekayasa Perangkat Lunak. Andi, Yogyakarta. [8] Suryana,Taryana 2007. Metode RUP.

sms.unikom.ac.id. Diakses pada tanggal 10 November 2013.

Gambar

Ilustrasi Algoritma K-Means dapat  dilihat dibawah ini:
Gambar 4.2 Tampilan Antarmuka Halaman  Pencarian dengan Stemming
Gambar 4.6 Tampilan Antarmuka Menu  Ubah Dokumen

Referensi

Dokumen terkait

Penelitian ini didasarkan pada fenomena yang terjadi yaitu banyaknya jumlah pelaksanaan akad nikah yang dilaksanakan di luar balai nikah sedangkan di KUA Kec.Buduran

Namun, kerapatan sel Inokulum M terlihat lebih besar di kolom air dibandingkan dengan di biofilm (Tabel 2) yang menunjukkan bahwa mikroorganisme pada inokulum

Di Indonesia hasil Survey Kesehatan Reproduksi Remaja Indonesia (SKKRI) 2012 mengungkapkan beberapa perilaku berpacaran remaja yang belum menikah, antara lain: remaja

Hasil penelitian menunjukkan Likuiditas, Cash flow dan Pertumbuhan penjualan berpengaruh signifikan terhadap profitabilitas pada perusahaan pertanian yang terdaftar di Bursa

dijadikan sebagai sarana motivasi para guru SMA dan SMK untuk melakukan kompetensi secara internal baik melalui membaca maupun berdiskusi dengan sesama guru.Untuk

Alat pengambil sekret endometrium adalah balai endometre yang di indonesiakan menjadi sapu endometrium, yaitu alat berbentuk seperti sonde inseminasi yang terbuat

Bagi hasil maksimal sesuai syariah + keuntungan Uchrawi 2,5% (I 0 +R)x 700.. • Komposisi portofolio investasi saat ini yang tidak memberikan hasil optimal. • Dibentuk

Berdasarkan tabel hasil analisis jalur di atas, dapat diuraikan sebagai berikut, yaitu Variabel remunerasi mempunyai pengaruh searah terhadap efektivitas kerja di Kantor