Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 4, No. 1, Tahun

(1)

Sistem Pendeteksi Kemiripan Proyek Akhir Berdasarkan Abstrak Dengan Representasi Vector Space Model Menggunakan Cosine Similarity

Fenny Changriana, Syefrida Yulina Dan Kartina Diah Kesuma Wardhani

Jurnal Aksara Komputer Terapan

Politeknik Caltex Riau

Website : https://jurnal.pcr.ac.id/index.php/jakt/about

Email : [email protected]

Sistem Pendeteksi Kemiripan Proyek

Akhir Berdasarkan Abstrak Dengan Representasi

Vector Space Model Menggunakan Cosine Similarity

Fenny Changriana1_{, Syefrida Yulina}2_{dan Kartina Diah Kesuma Wardhani}3

1_{Program Studi Sistem Informasi, Politeknik Caltex Riau, email:}_{[email protected]} 2_{Program Studi Teknik Informatika, Politeknik Caltex Riau, email:[email protected]}

3_{Program Studi Teknik Informatika, Politeknik Caltex Riau, email: [email protected]}

Abstrak

Karya ilmiah merupakan hasil dari pemikiran peneliti. Akan tetapi, suatu karya ilmiah yang bukan merupakan ide asli dari pemikiran peneliti dianggap plagiarisme, yaitu tindakan yang menjiplak karya seseorang dimana karya tersebut diakui sebagai karya sendiri. Oleh karena itu, perlu adanya pembangunan suatu sistem yang dapat mendeteksi kemiripan pada Proyek Akhir (PA), khususnya abstrak yang merupakan uraian ringkas, cermat, dan menyeluruh dari isi suatu karangan ilmiah. Penelitian ini menggunakan Vector Space Model dengan algoritma Term Frequency – Inverse Document Frequency (TF-IDF) untuk pembobotan kata dan cosine similarity untuk melakukan perhitungan kemiripan antar dokumen abstrak jurnal yang dibandingkan. Hasil pengujian menunjukkan Vector Space Model dengan representasi cosine similarity dapat digunakan untuk mendeteksi kemiripan abstrak jurnal PA dengan fungsionalitas sistem pada aplikasi yang dapat dipenuhi sebesar 100%, hasil pengujian keluaran sistem dengan manual mendapatkan nilai akurasi sebesar 86,76%, dapat mengambil abstrak jurnal dengan nilai akurasi 68%, dan preprocessing menggunakan Porter Stemmer mendapatkan nilai akurasi sebesar 96,55%.

Kata kunci: Abstrak PA, Vector Space Model, TF-IDF, Cosine Similarity Abstract

A scientific paper is the result from researcher thoughts. However, a scientific paper which isn’t an original idea from researcher thoughts is considered plagiarism, i.e. the act of plagiarizing the work of a person where the work is recognized as the work itself. Therefore, we need to develop a system that can detect a resemblance of a Final Project (PA) at the Polytechnic Caltex Riau (PCR), especially abstract which is a brief, careful, and thorough description of the contents in a scientific essay. This study uses a Vector Space Model with Term Frequency – Inverse Document Frequency (TF-IDF) algorithm for word weighting and cosine similarity to perform a similarity calculation between the compared documents of journal abstracts. The test results shows that the PA abstract similarity checking system using Vector Space Model with

(2)

TF-IDF and cosine similarity algorithms can be used to detect similarities of PA abstract journal with system functionality in application that can be fulfilled by 100% and the system is able to check the similarities in abstract so it can minimize the possibility of PA plagiarism with an accuracy of 93.33%.

Keywords: PA Abstract, Vector Space Model, TF-IDF, Cosine Similarity

1. Pendahuluan

Menulis suatu karya ilmiah merupakan bagian yang tidak dapat dipisahkan dari kehidupan akademik seorang mahasiswa [9]. Menurut Soeparno, karya ilmiah adalah sebuah tulisan yang berisi suatu permasalahan yang diungkapkan dengan metode ilmiah [5]. Dalam karya ilmiah, kita tentunya sudah tidak asing lagi mendengar kata abstrak. Surachman berpendapat bahwa abstrak adalah pemadatan dari sebuah karya seperti laporan penelitian, artikel majalah atau jurnal, prosiding, dan lain-lain. Abstrak biasanya dikumpulkan sesuai dengan subjek atau kekhususan informasinya dan disusun menurut abjad [7].

Dengan berkembangnya teknologi yang digunakan saat ini, perolehan informasi menjadi sangat mudah sehingga menyebabkan banyak mahasiswa yang mengambil jalan pintas dalam membuat karya ilmiah dengan cara menyalin sebagian atau keseluruhan karya ilmiah dari orang lain tanpa mencantumkan sumbernya. Hal ini disebut plagiarisme. Menurut kamus Merriam-Webster, kata plagiarisme berasal dari kata kerja transitif yaitu ‘to plagiarize’ yang berarti “to steal and pass off (the ideas

or words of another) as one’s own; use (another’s production) without crediting the source” [4].

Studi mengatakan bahwa 70% mahasiswa melakukan pekerjaannya menggunakan plagiarisme dan 40% mahasiswa hanya melakukan copy paste pekerjaan yang diberikan [3]. Hal ini menyebabkan mahasiswa menjadi lebih nyaman dalam melakukan plagiarisme.

Sehubungan dengan masalah tersebut, maka diperlukan sebuah sistem untuk melakukan pemeriksaan terhadap karya ilmiah, khususnya pada abstrak. Oleh

karena itu, dibangunlah sebuah web yang mengimplementasikan algoritma TF-IDF dan Vector Space Model untuk mendeteksi kemiripan abstrak PA.

2. Landasan Teori

2.1 Proyek akhir

Proyek Akhir merupakan kristalisasi ide atau buah pikiran yang dilakukan dengan menerapkan pengetahuan yang telah dipelajari selama di politeknik sehingga terbangun identitas dan kepercayaan diri yang profesional di bidangnya.

2.2 Document Preprocessing

Koleksi dokumen diproses terlebih dahulu sebelum digunakan dalam program. Proses ini disebut document preprocessing.

Document preprocessing bertujuan untuk

mengurangi volume kosakata, menyeragamkan kata dan menghilangkan

noise [1]. Proses document preprocessing

terdiri dari:

1. Case Folding

adalah pengubahan semua huruf dalam dokumen menjadi huruf kecil. Karakter selain huruf dihilangkan dan dianggap delimiter [10].

2. Tokenizing

Tokenizing adalah pemisahan teks

menjadi kalimat dan kata-kata. Dokumen dapat dipecah menjadi per bab, per bagian, per paragraf, per kalimat, per kata, dan bahkan per suku kata [10].

3. Filtering

Filtering adalah pengambilan

kata-kata penting dari hasil tokenizing. Pada tahapan filtering akan dilakukan penghapusan stopwords.

(3)

Stopwords dapat berupa kata depan,

kata penghubung, dan kata pengganti [1].

4. Stemming

Stemming merupakan suatu proses

yang mentransformasi kata-kata yang terdapat dalam suatu dokumen ke kata-kata dasarnya dengan menggunakan aturan-aturan tertentu [10].

Stemming ini menggunakan Porter

Stemmer for Bahasa Indonesia

dikembangkan oleh Fadillah Z. Tala yang didasarkan pada English

Porter Stemmer yang

dikembangkan oleh W.B. Frakes [8].

2.3 Vector Space Model

Vector Space Model (VSM) adalah

suatu metode untuk melihat tingkat kedekatan yang kemiripan (similarity) term dengan cara melakukan pembobotan term. Yates menyatakan bahwa dokumen dan kata kunci dipandang sebagai sebuah vektor yang memiliki jarak dan arah. Relevansi sebuah dokumen ke sebuah query

didasarkan pada similaritas diantara vektor dokumen dan vektor query.

Pada Vector Space Model, setiap dokumen dan kata kunci dari pengguna direpresentasikan sebagai ruang vektor berdimensi n. Kata kunci dan dokumen dianggap sebagai vektor-vektor pada ruang n-dimensi. Selanjutnya akan dihitung nilai

cosinus sudut dari dua vektor, yaitu W

(bobot) dari tiap dokumen dan W0 dari kata kunci. Penentuan relevansi dokumen dengan kata kunci dipandang sebagai pengukuran kesamaan (similarity measure) antara vektor dokumen dengan vektor kata kunci. Semakin mirip suatu vektor dokumen dengan vektor kata kunci maka dokumen dapat dilihat sangat relevan dengan kata kunci [1].

2.4 TF-IDF (Term Frequency Inversed

Document Frequency)

TF-IDF adalah suatu algoritma yang menggambarkan seberapa pentingnya kata (term) dalam sebuah dokumen dan

corpus. Proses ini digunakan untuk menilai

bobot relevansi term dari sebuah dokumen terhadap seluruh dokumen dalam corpus [6].

Formula yang digunakan untuk menghitung bobot (w) masing-masing dokumen terhadap kata kunci adalah [2]:

Rumus :

(1) Ket :

d = dokumen ke-d

t = kata ke-t dari kata kunci

w = bobot dokumen ke-d terhadap kata ke-t

Rumus mencari nilai IDF : (2) Setelah bobot (w) masing-masing dokumen diketahui, maka dilakukan proses

sorting atau pengurutan dimana semakin

besar nilai w, maka besar tingkat similaritas dokumen tersebut terhadap kata yang dicari, demikian sebaliknya [2].

2.5 Cosine Similarity

Cosine Similarity adalah metode

similaritas yang digunakan untuk menghitung similaritas dua buah dokumen. Berikut rumus metode perhitungan cosine

similarity [2]:

(3)

Ket :

A = bobot TF-IDF dari kata kunci B = bobot TF-IDF dari dokumen

= penjumlahan TF-IDF dari kata kunci

= penjumlahan TF-IDF dari dokumen

(4)

Fenny Changriana, Syefrida Yulina Dan Kartina Diah Kesuma Wardhani Berdasarkan rumus di atas, rumus

cosine similarity dapat diuraikan menjadi

sebagai berikut:

1. Rumus perhitungan panjang vektor: (4) 2. Rumus dot product:

(5)

3. Metodologi Penelitian 3.1 Use Case Diagram

Berikut ini perancangan use case

diagram pada sistem ini:

Gambar 1 Use Case Diagram

4. Hasil dan Pembasan

4.1 Hasil Implementasi

Berikut ini adalah hasil

implementasi antar muka sistem yang ada pada aplikasi yang telah dibuat:

1. Halaman beranda

Halaman ini merupakan halaman beranda utama pada web. Halaman ini memiliki beberapa menu, seperti Beranda, Pendeteksi Kemiripan, Data Jurnal, dan Tentang Kami.

Gambar 2 Halaman beranda 2. Halaman data jurnal

Halaman ini merupakan halaman yang digunakan untuk menambah data jurnal terdahulu.

Gambar 3 Halaman tambah data jurnal

3. Halaman pendeteksi kemiripan Halaman ini adalah halaman dimana user dapat memasukkan jurnal yang diinginkan untuk dicari persentase kemiripannya dengan jurnal terdahulu.

(5)

Fenny Changriana, Syefrida Yulina Dan Kartina Diah Kesuma Wardhani Gambar 4 Halaman pendeteksi

kemiripan 4. Halaman tentang kami

Halaman ini berisi tentang profil pembuat aplikasi.

Gambar 5 Halaman tentang kami

4.2 Pengujian sistem

4.2.1 Pengujian Black Box Testing

Pengujian black box testing

dilakukan pada 4 fungsionalitas use case, yaitu tambah data jurnal terdahulu, lihat persentase kemiripan abstrak PA, simpan abstrak jurnal ke database, dan melihat halaman tentang kami. Pada tambah data jurnal terdahulu, ada 5 kondisi yang diuji, yaitu data masukan tidak lengkap, data yang dimasukkan bukan berformat .pdf,

jurnal yang dimasukkan bukan format jurnal PCR, menambah jurnal yang sama, dan berhasil menambah jurnal. Pada lihat persentase kemiripan abstrak PA, ada 5 kondisi yang diuji, yaitu data masukan tidak lengkap, data yang dimasukkan bukan berformat .pdf, jurnal yang dimasukkan bukan format jurnal PCR, mencari nilai kemiripan, dan simpan jurnal yang telah dideteksi di database. Pada simpan abstrak jurnal ke database, ada 3 kondisi yang diuji, yaitu berhasil menyimpan abstrak di

database, tidak memasukkan abstrak di database, dan abstrak jurnal yang dideteksi

sudah ada di database. Dari 13 kondisi dengan 4 fungsionalitas yang diuji dapat dilihat bahwa hasil pengujian berhasil dilakukan dengan persentase 100%.

4.2.2 Pengujian Perhitungan Keluaran Sistem dengan Perhitungan Manual

Pengujian ini dilakukan untuk melihat apakah perhitungan algoritma pada sistem sudah sesuai dengan perhitungan algoritma manual. Pengujian ini dilakukan dengan cara membandingkan 10 jurnal uji tahun 2012, 10 jurnal uji tahun 2013, dan 10 jurnal uji 55 tahun 2014 dengan 70 jurnal yang telah di-preprocessing pada

database.

Proses pengujian ini dilakukan dengan melakukan preprocessing pada 30 jurnal uji dan 70 jurnal yang ada di

database sistem secara manual. Kemudian,

hasil preprocessing dari 30 jurnal uji dan 70 jurnal yang ada di database tersebut dihitung dengan algoritma TF-IDF untuk pencarian bobot. Setelah bobot diketahui, bobot tersebut akan dihitung panjang vektor, dihitung dot product-nya, dan dihitung kemiripannya dengan cosine

similarity dan diurutkan 3 yang paling besar

kemiripannya. Setelah dihitung secara manual, kita akan membandingkan hasil perhitungan manual dengan sistem untuk dilihat statusnya apakah Benar atau Salah. Jika berstatus Benar, maka hasil manual dengan hasil sistem sama. Jika berstatus

(6)

Fenny Changriana, Syefrida Yulina Dan Kartina Diah Kesuma Wardhani Salah, maka hasil manual dengan hasil

sistem berbeda.

4.2.3 Pengujian Pengambilan Abstrak Jurnal

Pada penelitian ini dari 147 file .pdf yang diuji didapatkan 100 file .pdf yang berhasil, sedangkan 47 file lainnya gagal diidentifikasi. Untuk menentukan nilai akurasi, akurasi dihitung dengan jumlah data yang benar dibagi jumlah seluruh data dikali dengan 100%. Oleh karena itu, nilai akurasi yang didapat adalah:

4.2.4 _Pengujian _{Preprocessing} _pada

Proses Stemming

Pengujian ini dilakukan untuk melihat apakah proses stemming pada sistem dan manual berjalan dengan benar. Proses stemming yang digunakan adalah

Porter Stemmer untuk Bahasa Indonesia.

Pengujian ini dilakukan dengan membandingkan hasil stemming manual dengan hasil stemming sistem. Pengujian ini dilakukan pada 1 jurnal yang telah diambil abstraknya. Hasil manual dihitung berdasarkan aturan Porter Stemmer untuk Bahasa Indonesia. Setelah itu, hasil manual akan dibandingkan dengan hasil sistem untuk ditentukan statusnya apakah Sesuai atau Tidak. Jika berstatus Sesuai, maka hasil manual dengan hasil sistem sama. Jika berstatus Tidak Sesuai, maka hasil manual dengan hasil sistem berbeda.

Pada pengujian ini terdapat 1 kondisi dari 5 aturan stemming yang salah. Nilai akurasi yang didapat adalah 97,37% dari kata yang diuji.

4.3 Analisis Sistem

4.3.1 Analisis Black Box Testing Pengujian black box testing dilakukan dengan menguji 4 test case yang tersedia. Test case tersebut ada 4, yaitu tambah data jurnal terdahulu, lihat hasil

persentase kemiripan abstrak PA, simp-an abstrak jurnal ke database, dan melihat halaman tentang kami sesuai dengan yang tertera pada use case diagram. Dari test

case yang telah diuji, maka black box testing dapat dikatakan berhasil karena dari

4 test case yang diuji tidak ada test case yang tidak berhasil dilakukan sehingga memiiki persentase 100%.

4.3.2 Analisis Perhitungan Keluaran Sistem dengan Perhitungan Manual Dari hasil pengujian didapatkan nilai akurasi sebesar 93,33% dan dari 30 data yang diuji terdapat 2 data yang memiliki hasil perhitungan yang berbeda antara hasil keluaran sistem dengan manual. Penyebab 2 data tersebut mempunyai hasil yang berbeda karena adanya error pada kata-kata yang terdapat di jurnal yang diuji, seperti kesalahan dalam penulisan kata dan ada kata yang tergabung. Penulisan kata dalam abstrak jurnal yang asli berpengaruh pada perhitungan nilai TF-IDF karena kata yang seharusnya berjumlah dua menjadi satu di tabel term. Meskipun demikian, sistem yang dibuat ini hanyalah berupa

decision support untuk memberikan

informasi kepada user berupa persentase kemiripan. Keputusan terakhir tetap user yang menentukan.

4.3.3 Analisis Pengambilan Abstrak dari Jurnal

Berdasarkan pengujian

pengambilan abstrak dapat kita lihat bahwa sistem berhasil mengambil abstrak jurnal pada Gambar 4.5 dengan benar. Dari 147

file .pdf yang diuji, didapatkan 100 file .pdf

yang berhasil dan 47 file lainnya gagal diidentifikasi dan nilai akurasi yang didapat sebesar 68%. Penyebab 47 file tersebut gagal teridentifikasi karena penulisan yang salah pada kata “Abstrak”, tidak ada tulisan “Abstrak” yang ditemui, format jurnal bukan format jurnal Politeknik Caltex Riau, penulisan kata “Abstrak” dan “Abstract” yang memakai huruf capital semua, abstrak yang tidak mempunyai kata kunci, abstrak

(7)

Fenny Changriana, Syefrida Yulina Dan Kartina Diah Kesuma Wardhani yang tidak mempunyai kata kunci dan kata

“Abstract”, dan penulisan yang salah pada kata “Kata kunci”. Penulisan kata

“Abstrak”, “Kata kunci”, dan “Abstract” yang benar mempengaruhi pengambilan abstrak karena bagian abstrak yang diambil adalah bagian setelah kata “Abstrak” dan sebelum kata “Kata” atau “Abstract”. 4.3.4 Analisis Preprocessing pada Proses

Stemming

Pada pengujian preprocessing

dapat dilihat bahwa nilai akurasi yang didapat adalah 97,37% dari kata yang diuji berdasarkan aturan dari Porter Stemmer terdapat 1 kondisi yang berbeda antara hasil yang diharapkan dan hasil aktual. Penyebab 1 kondisi tersebut berbeda hasil karena adanya ambiguitas dalam aturan morfologi Bahasa Indonesia dan algoritma ini berbasis aturan sehingga dapat mempengaruhi akurasi hasil akhir.

5. Kesimpulan dan Saran

5.1 Kesimpulan

Setelah dilakukan pengujian beserta analisa pada penelitian ini, maka dapat diambil kesimpulan yaitu:

1. Sistem pengecekan kemiripan abstrak PA yang menggunakan

Vector Space Model dengan

algoritma TF-IDF untuk pembobotan kata dan cosine

similarity untuk pengecekan

kemiripan dapat digunakan untuk mendeteksi kemiripan abstrak jurnal PA dengan fungsionalitas sistem pada aplikasi yang dapat dipenuhi sebesar 100%.

2. Berdasarkan pengujian hasil keluaran sistem dan manual, sistem dapat melakukan pengecekan kemiripan pada abstrak sehingga dapat memperkecil kemungkinan terjadinya plagiarisme PA.

3. Penulisan kata yang baik dapat mempengaruhi hasil TF-IDF dan

cosine similarity.

4. Porter Stemmer untuk Bahasa Indonesia dapat menghasilkan kata yang ambigu dan tidak sesuai dengan aturan morfologi Bahasa Indonesia.

5.2 Saran

Untuk pengembangan aplikasi ini, maka beberapa hal yang dapat penulis sarankan adalah:

1. Pengembangan integrasi dengan sistem informasi proyek akhir yang ada.

2. Pengembangan pendeteksian seluruh jurnal dengan format berbeda, seperti jurnal AES, ABEC, dan lain-lain.

Daftar Pustaka

[1] Annisa, N, “Implementasi Algoritma Vector Space Model pada Pencarian E-book”, Sistem Informasi, Politeknik Caltex Riau, Rumbai, 2014.

[2] Damanik, R. M. U., “Pembangunan Aplikasi Pencarian Dokumen Menggunakan Text Mining Berbasis Web, Teknik Informatika, Universitas Atma Jaya Yogyakarta, Yogyakarta, 2013.

[3] Hariharan, S., “Automatic Plagiarism Detection Using Similarity Analysis”. The International Arab Journal of Information Technology, 322–326, 2012.

[4] Herqutanto, “Plagiarisme, Runtuhnya Tembok Kejujuran Akademik”, eJurnal Kedokteran Indonesia, 1-3, 2013.

[5] Mukhlish, “Pedoman Penulisan Karya Ilmiah (Laporan Penelitian)”,

(8)

Fenny Changriana, Syefrida Yulina Dan Kartina Diah Kesuma Wardhani Dinas Pendidikan, Pemuda, dan

Olahraga, 2012.

[6] Saadah, M. N., “Sistem Temu Kembali Dokumen Teks Dengan Pembobotan TF-IDF dan LCS”, JUTI, 17-20, 2013.

[7] Surachman, A., “Penelusuran Informasi: sebuah pengenalan”, UPU

Perpustakaan UGM

https://akupunktursolo.files.wordpres s.com/2012/09/penelusuran_informas i.docx, (2015, Februari 3).

[8] Tala, F. Z., “A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia”, Institute for Logic, Language and Computation Universiteit Van Amsterdam, Amsterdam, 2003.

[9] Universitas Pendidikan Indonesia, “Pedoman Penulisan Karya Ilmiah Universitas Pendidikan Indonesia Tahun 2014”, Universitas Pendidikan Indonesia, 2014.

[10] Yuliana, “Sistem Pengelolaan Proyek Akhir Menggunakan Text Mining pada Politeknik Caltex Riau”, Sistem Informasi, Politeknik Caltex Riau, Rumbai, 2014.