Sistem Pendeteksi Kemiripan Proyek Akhir Berdasarkan Abstrak Dengan Representasi Vector Space Model Menggunakan Cosine Similarity
Fenny Changriana, Syefrida Yulina Dan Kartina Diah Kesuma Wardhani
Jurnal Aksara Komputer Terapan
Politeknik Caltex Riau
Website : https://jurnal.pcr.ac.id/index.php/jakt/about
Email : [email protected]
Sistem Pendeteksi Kemiripan Proyek
Akhir Berdasarkan Abstrak Dengan Representasi
Vector Space Model Menggunakan Cosine Similarity
Fenny Changriana1, Syefrida Yulina2 dan Kartina Diah Kesuma Wardhani3
1Program Studi Sistem Informasi, Politeknik Caltex Riau, email:[email protected] 2Program Studi Teknik Informatika, Politeknik Caltex Riau, email:[email protected]
3Program Studi Teknik Informatika, Politeknik Caltex Riau, email: [email protected]
Abstrak
Karya ilmiah merupakan hasil dari pemikiran peneliti. Akan tetapi, suatu karya ilmiah yang bukan merupakan ide asli dari pemikiran peneliti dianggap plagiarisme, yaitu tindakan yang menjiplak karya seseorang dimana karya tersebut diakui sebagai karya sendiri. Oleh karena itu, perlu adanya pembangunan suatu sistem yang dapat mendeteksi kemiripan pada Proyek Akhir (PA), khususnya abstrak yang merupakan uraian ringkas, cermat, dan menyeluruh dari isi suatu karangan ilmiah. Penelitian ini menggunakan Vector Space Model dengan algoritma Term Frequency – Inverse Document Frequency (TF-IDF) untuk pembobotan kata dan cosine similarity untuk melakukan perhitungan kemiripan antar dokumen abstrak jurnal yang dibandingkan. Hasil pengujian menunjukkan Vector Space Model dengan representasi cosine similarity dapat digunakan untuk mendeteksi kemiripan abstrak jurnal PA dengan fungsionalitas sistem pada aplikasi yang dapat dipenuhi sebesar 100%, hasil pengujian keluaran sistem dengan manual mendapatkan nilai akurasi sebesar 86,76%, dapat mengambil abstrak jurnal dengan nilai akurasi 68%, dan preprocessing menggunakan Porter Stemmer mendapatkan nilai akurasi sebesar 96,55%.
Kata kunci: Abstrak PA, Vector Space Model, TF-IDF, Cosine Similarity Abstract
A scientific paper is the result from researcher thoughts. However, a scientific paper which isn’t an original idea from researcher thoughts is considered plagiarism, i.e. the act of plagiarizing the work of a person where the work is recognized as the work itself. Therefore, we need to develop a system that can detect a resemblance of a Final Project (PA) at the Polytechnic Caltex Riau (PCR), especially abstract which is a brief, careful, and thorough description of the contents in a scientific essay. This study uses a Vector Space Model with Term Frequency – Inverse Document Frequency (TF-IDF) algorithm for word weighting and cosine similarity to perform a similarity calculation between the compared documents of journal abstracts. The test results shows that the PA abstract similarity checking system using Vector Space Model with
Sistem Pendeteksi Kemiripan Proyek Akhir Berdasarkan Abstrak Dengan Representasi Vector Space Model Menggunakan Cosine Similarity
Fenny Changriana, Syefrida Yulina Dan Kartina Diah Kesuma Wardhani
TF-IDF and cosine similarity algorithms can be used to detect similarities of PA abstract journal with system functionality in application that can be fulfilled by 100% and the system is able to check the similarities in abstract so it can minimize the possibility of PA plagiarism with an accuracy of 93.33%.
Keywords: PA Abstract, Vector Space Model, TF-IDF, Cosine Similarity
1. Pendahuluan
Menulis suatu karya ilmiah merupakan bagian yang tidak dapat dipisahkan dari kehidupan akademik seorang mahasiswa [9]. Menurut Soeparno, karya ilmiah adalah sebuah tulisan yang berisi suatu permasalahan yang diungkapkan dengan metode ilmiah [5]. Dalam karya ilmiah, kita tentunya sudah tidak asing lagi mendengar kata abstrak. Surachman berpendapat bahwa abstrak adalah pemadatan dari sebuah karya seperti laporan penelitian, artikel majalah atau jurnal, prosiding, dan lain-lain. Abstrak biasanya dikumpulkan sesuai dengan subjek atau kekhususan informasinya dan disusun menurut abjad [7].
Dengan berkembangnya teknologi yang digunakan saat ini, perolehan informasi menjadi sangat mudah sehingga menyebabkan banyak mahasiswa yang mengambil jalan pintas dalam membuat karya ilmiah dengan cara menyalin sebagian atau keseluruhan karya ilmiah dari orang lain tanpa mencantumkan sumbernya. Hal ini disebut plagiarisme. Menurut kamus Merriam-Webster, kata plagiarisme berasal dari kata kerja transitif yaitu ‘to plagiarize’ yang berarti “to steal and pass off (the ideas
or words of another) as one’s own; use (another’s production) without crediting the source” [4].
Studi mengatakan bahwa 70% mahasiswa melakukan pekerjaannya menggunakan plagiarisme dan 40% mahasiswa hanya melakukan copy paste pekerjaan yang diberikan [3]. Hal ini menyebabkan mahasiswa menjadi lebih nyaman dalam melakukan plagiarisme.
Sehubungan dengan masalah tersebut, maka diperlukan sebuah sistem untuk melakukan pemeriksaan terhadap karya ilmiah, khususnya pada abstrak. Oleh
karena itu, dibangunlah sebuah web yang mengimplementasikan algoritma TF-IDF dan Vector Space Model untuk mendeteksi kemiripan abstrak PA.
2. Landasan Teori
2.1 Proyek akhir
Proyek Akhir merupakan kristalisasi ide atau buah pikiran yang dilakukan dengan menerapkan pengetahuan yang telah dipelajari selama di politeknik sehingga terbangun identitas dan kepercayaan diri yang profesional di bidangnya.
2.2 Document Preprocessing
Koleksi dokumen diproses terlebih dahulu sebelum digunakan dalam program. Proses ini disebut document preprocessing.
Document preprocessing bertujuan untuk
mengurangi volume kosakata, menyeragamkan kata dan menghilangkan
noise [1]. Proses document preprocessing
terdiri dari:
1. Case Folding
adalah pengubahan semua huruf dalam dokumen menjadi huruf kecil. Karakter selain huruf dihilangkan dan dianggap delimiter [10].
2. Tokenizing
Tokenizing adalah pemisahan teks
menjadi kalimat dan kata-kata. Dokumen dapat dipecah menjadi per bab, per bagian, per paragraf, per kalimat, per kata, dan bahkan per suku kata [10].
3. Filtering
Filtering adalah pengambilan
kata-kata penting dari hasil tokenizing. Pada tahapan filtering akan dilakukan penghapusan stopwords.
Sistem Pendeteksi Kemiripan Proyek Akhir Berdasarkan Abstrak Dengan Representasi Vector Space Model Menggunakan Cosine Similarity
Fenny Changriana, Syefrida Yulina Dan Kartina Diah Kesuma Wardhani
Stopwords dapat berupa kata depan,
kata penghubung, dan kata pengganti [1].
4. Stemming
Stemming merupakan suatu proses
yang mentransformasi kata-kata yang terdapat dalam suatu dokumen ke kata-kata dasarnya dengan menggunakan aturan-aturan tertentu [10].
Stemming ini menggunakan Porter
Stemmer for Bahasa Indonesia
dikembangkan oleh Fadillah Z. Tala yang didasarkan pada English
Porter Stemmer yang
dikembangkan oleh W.B. Frakes [8].
2.3 Vector Space Model
Vector Space Model (VSM) adalah
suatu metode untuk melihat tingkat kedekatan yang kemiripan (similarity) term dengan cara melakukan pembobotan term. Yates menyatakan bahwa dokumen dan kata kunci dipandang sebagai sebuah vektor yang memiliki jarak dan arah. Relevansi sebuah dokumen ke sebuah query
didasarkan pada similaritas diantara vektor dokumen dan vektor query.
Pada Vector Space Model, setiap dokumen dan kata kunci dari pengguna direpresentasikan sebagai ruang vektor berdimensi n. Kata kunci dan dokumen dianggap sebagai vektor-vektor pada ruang n-dimensi. Selanjutnya akan dihitung nilai
cosinus sudut dari dua vektor, yaitu W
(bobot) dari tiap dokumen dan W0 dari kata kunci. Penentuan relevansi dokumen dengan kata kunci dipandang sebagai pengukuran kesamaan (similarity measure) antara vektor dokumen dengan vektor kata kunci. Semakin mirip suatu vektor dokumen dengan vektor kata kunci maka dokumen dapat dilihat sangat relevan dengan kata kunci [1].
2.4 TF-IDF (Term Frequency Inversed
Document Frequency)
TF-IDF adalah suatu algoritma yang menggambarkan seberapa pentingnya kata (term) dalam sebuah dokumen dan
corpus. Proses ini digunakan untuk menilai
bobot relevansi term dari sebuah dokumen terhadap seluruh dokumen dalam corpus [6].
Formula yang digunakan untuk menghitung bobot (w) masing-masing dokumen terhadap kata kunci adalah [2]:
Rumus :
(1) Ket :
d = dokumen ke-d
t = kata ke-t dari kata kunci
w = bobot dokumen ke-d terhadap kata ke-t
Rumus mencari nilai IDF : (2) Setelah bobot (w) masing-masing dokumen diketahui, maka dilakukan proses
sorting atau pengurutan dimana semakin
besar nilai w, maka besar tingkat similaritas dokumen tersebut terhadap kata yang dicari, demikian sebaliknya [2].
2.5 Cosine Similarity
Cosine Similarity adalah metode
similaritas yang digunakan untuk menghitung similaritas dua buah dokumen. Berikut rumus metode perhitungan cosine
similarity [2]:
(3)
Ket :
A = bobot TF-IDF dari kata kunci B = bobot TF-IDF dari dokumen
= penjumlahan TF-IDF dari kata kunci
= penjumlahan TF-IDF dari dokumen
Sistem Pendeteksi Kemiripan Proyek Akhir Berdasarkan Abstrak Dengan Representasi Vector Space Model Menggunakan Cosine Similarity
Fenny Changriana, Syefrida Yulina Dan Kartina Diah Kesuma Wardhani Berdasarkan rumus di atas, rumus
cosine similarity dapat diuraikan menjadi
sebagai berikut:
1. Rumus perhitungan panjang vektor: (4) 2. Rumus dot product:
(5)
3. Metodologi Penelitian 3.1 Use Case Diagram
Berikut ini perancangan use case
diagram pada sistem ini:
Gambar 1 Use Case Diagram
4. Hasil dan Pembasan
4.1 Hasil Implementasi
Berikut ini adalah hasil
implementasi antar muka sistem yang ada pada aplikasi yang telah dibuat:
1. Halaman beranda
Halaman ini merupakan halaman beranda utama pada web. Halaman ini memiliki beberapa menu, seperti Beranda, Pendeteksi Kemiripan, Data Jurnal, dan Tentang Kami.
Gambar 2 Halaman beranda 2. Halaman data jurnal
Halaman ini merupakan halaman yang digunakan untuk menambah data jurnal terdahulu.
Gambar 3 Halaman tambah data jurnal
3. Halaman pendeteksi kemiripan Halaman ini adalah halaman dimana user dapat memasukkan jurnal yang diinginkan untuk dicari persentase kemiripannya dengan jurnal terdahulu.
Sistem Pendeteksi Kemiripan Proyek Akhir Berdasarkan Abstrak Dengan Representasi Vector Space Model Menggunakan Cosine Similarity
Fenny Changriana, Syefrida Yulina Dan Kartina Diah Kesuma Wardhani Gambar 4 Halaman pendeteksi
kemiripan 4. Halaman tentang kami
Halaman ini berisi tentang profil pembuat aplikasi.
Gambar 5 Halaman tentang kami
4.2 Pengujian sistem
4.2.1 Pengujian Black Box Testing
Pengujian black box testing
dilakukan pada 4 fungsionalitas use case, yaitu tambah data jurnal terdahulu, lihat persentase kemiripan abstrak PA, simpan abstrak jurnal ke database, dan melihat halaman tentang kami. Pada tambah data jurnal terdahulu, ada 5 kondisi yang diuji, yaitu data masukan tidak lengkap, data yang dimasukkan bukan berformat .pdf,
jurnal yang dimasukkan bukan format jurnal PCR, menambah jurnal yang sama, dan berhasil menambah jurnal. Pada lihat persentase kemiripan abstrak PA, ada 5 kondisi yang diuji, yaitu data masukan tidak lengkap, data yang dimasukkan bukan berformat .pdf, jurnal yang dimasukkan bukan format jurnal PCR, mencari nilai kemiripan, dan simpan jurnal yang telah dideteksi di database. Pada simpan abstrak jurnal ke database, ada 3 kondisi yang diuji, yaitu berhasil menyimpan abstrak di
database, tidak memasukkan abstrak di database, dan abstrak jurnal yang dideteksi
sudah ada di database. Dari 13 kondisi dengan 4 fungsionalitas yang diuji dapat dilihat bahwa hasil pengujian berhasil dilakukan dengan persentase 100%.
4.2.2 Pengujian Perhitungan Keluaran Sistem dengan Perhitungan Manual
Pengujian ini dilakukan untuk melihat apakah perhitungan algoritma pada sistem sudah sesuai dengan perhitungan algoritma manual. Pengujian ini dilakukan dengan cara membandingkan 10 jurnal uji tahun 2012, 10 jurnal uji tahun 2013, dan 10 jurnal uji 55 tahun 2014 dengan 70 jurnal yang telah di-preprocessing pada
database.
Proses pengujian ini dilakukan dengan melakukan preprocessing pada 30 jurnal uji dan 70 jurnal yang ada di
database sistem secara manual. Kemudian,
hasil preprocessing dari 30 jurnal uji dan 70 jurnal yang ada di database tersebut dihitung dengan algoritma TF-IDF untuk pencarian bobot. Setelah bobot diketahui, bobot tersebut akan dihitung panjang vektor, dihitung dot product-nya, dan dihitung kemiripannya dengan cosine
similarity dan diurutkan 3 yang paling besar
kemiripannya. Setelah dihitung secara manual, kita akan membandingkan hasil perhitungan manual dengan sistem untuk dilihat statusnya apakah Benar atau Salah. Jika berstatus Benar, maka hasil manual dengan hasil sistem sama. Jika berstatus
Sistem Pendeteksi Kemiripan Proyek Akhir Berdasarkan Abstrak Dengan Representasi Vector Space Model Menggunakan Cosine Similarity
Fenny Changriana, Syefrida Yulina Dan Kartina Diah Kesuma Wardhani Salah, maka hasil manual dengan hasil
sistem berbeda.
4.2.3 Pengujian Pengambilan Abstrak Jurnal
Pada penelitian ini dari 147 file .pdf yang diuji didapatkan 100 file .pdf yang berhasil, sedangkan 47 file lainnya gagal diidentifikasi. Untuk menentukan nilai akurasi, akurasi dihitung dengan jumlah data yang benar dibagi jumlah seluruh data dikali dengan 100%. Oleh karena itu, nilai akurasi yang didapat adalah:
4.2.4 Pengujian Preprocessing pada
Proses Stemming
Pengujian ini dilakukan untuk melihat apakah proses stemming pada sistem dan manual berjalan dengan benar. Proses stemming yang digunakan adalah
Porter Stemmer untuk Bahasa Indonesia.
Pengujian ini dilakukan dengan membandingkan hasil stemming manual dengan hasil stemming sistem. Pengujian ini dilakukan pada 1 jurnal yang telah diambil abstraknya. Hasil manual dihitung berdasarkan aturan Porter Stemmer untuk Bahasa Indonesia. Setelah itu, hasil manual akan dibandingkan dengan hasil sistem untuk ditentukan statusnya apakah Sesuai atau Tidak. Jika berstatus Sesuai, maka hasil manual dengan hasil sistem sama. Jika berstatus Tidak Sesuai, maka hasil manual dengan hasil sistem berbeda.
Pada pengujian ini terdapat 1 kondisi dari 5 aturan stemming yang salah. Nilai akurasi yang didapat adalah 97,37% dari kata yang diuji.
4.3 Analisis Sistem
4.3.1 Analisis Black Box Testing Pengujian black box testing dilakukan dengan menguji 4 test case yang tersedia. Test case tersebut ada 4, yaitu tambah data jurnal terdahulu, lihat hasil
persentase kemiripan abstrak PA, simp-an abstrak jurnal ke database, dan melihat halaman tentang kami sesuai dengan yang tertera pada use case diagram. Dari test
case yang telah diuji, maka black box testing dapat dikatakan berhasil karena dari
4 test case yang diuji tidak ada test case yang tidak berhasil dilakukan sehingga memiiki persentase 100%.
4.3.2 Analisis Perhitungan Keluaran Sistem dengan Perhitungan Manual Dari hasil pengujian didapatkan nilai akurasi sebesar 93,33% dan dari 30 data yang diuji terdapat 2 data yang memiliki hasil perhitungan yang berbeda antara hasil keluaran sistem dengan manual. Penyebab 2 data tersebut mempunyai hasil yang berbeda karena adanya error pada kata-kata yang terdapat di jurnal yang diuji, seperti kesalahan dalam penulisan kata dan ada kata yang tergabung. Penulisan kata dalam abstrak jurnal yang asli berpengaruh pada perhitungan nilai TF-IDF karena kata yang seharusnya berjumlah dua menjadi satu di tabel term. Meskipun demikian, sistem yang dibuat ini hanyalah berupa
decision support untuk memberikan
informasi kepada user berupa persentase kemiripan. Keputusan terakhir tetap user yang menentukan.
4.3.3 Analisis Pengambilan Abstrak dari Jurnal
Berdasarkan pengujian
pengambilan abstrak dapat kita lihat bahwa sistem berhasil mengambil abstrak jurnal pada Gambar 4.5 dengan benar. Dari 147
file .pdf yang diuji, didapatkan 100 file .pdf
yang berhasil dan 47 file lainnya gagal diidentifikasi dan nilai akurasi yang didapat sebesar 68%. Penyebab 47 file tersebut gagal teridentifikasi karena penulisan yang salah pada kata “Abstrak”, tidak ada tulisan “Abstrak” yang ditemui, format jurnal bukan format jurnal Politeknik Caltex Riau, penulisan kata “Abstrak” dan “Abstract” yang memakai huruf capital semua, abstrak yang tidak mempunyai kata kunci, abstrak
Sistem Pendeteksi Kemiripan Proyek Akhir Berdasarkan Abstrak Dengan Representasi Vector Space Model Menggunakan Cosine Similarity
Fenny Changriana, Syefrida Yulina Dan Kartina Diah Kesuma Wardhani yang tidak mempunyai kata kunci dan kata
“Abstract”, dan penulisan yang salah pada kata “Kata kunci”. Penulisan kata
“Abstrak”, “Kata kunci”, dan “Abstract” yang benar mempengaruhi pengambilan abstrak karena bagian abstrak yang diambil adalah bagian setelah kata “Abstrak” dan sebelum kata “Kata” atau “Abstract”. 4.3.4 Analisis Preprocessing pada Proses
Stemming
Pada pengujian preprocessing
dapat dilihat bahwa nilai akurasi yang didapat adalah 97,37% dari kata yang diuji berdasarkan aturan dari Porter Stemmer terdapat 1 kondisi yang berbeda antara hasil yang diharapkan dan hasil aktual. Penyebab 1 kondisi tersebut berbeda hasil karena adanya ambiguitas dalam aturan morfologi Bahasa Indonesia dan algoritma ini berbasis aturan sehingga dapat mempengaruhi akurasi hasil akhir.
5. Kesimpulan dan Saran
5.1 Kesimpulan
Setelah dilakukan pengujian beserta analisa pada penelitian ini, maka dapat diambil kesimpulan yaitu:
1. Sistem pengecekan kemiripan abstrak PA yang menggunakan
Vector Space Model dengan
algoritma TF-IDF untuk pembobotan kata dan cosine
similarity untuk pengecekan
kemiripan dapat digunakan untuk mendeteksi kemiripan abstrak jurnal PA dengan fungsionalitas sistem pada aplikasi yang dapat dipenuhi sebesar 100%.
2. Berdasarkan pengujian hasil keluaran sistem dan manual, sistem dapat melakukan pengecekan kemiripan pada abstrak sehingga dapat memperkecil kemungkinan terjadinya plagiarisme PA.
3. Penulisan kata yang baik dapat mempengaruhi hasil TF-IDF dan
cosine similarity.
4. Porter Stemmer untuk Bahasa Indonesia dapat menghasilkan kata yang ambigu dan tidak sesuai dengan aturan morfologi Bahasa Indonesia.
5.2 Saran
Untuk pengembangan aplikasi ini, maka beberapa hal yang dapat penulis sarankan adalah:
1. Pengembangan integrasi dengan sistem informasi proyek akhir yang ada.
2. Pengembangan pendeteksian seluruh jurnal dengan format berbeda, seperti jurnal AES, ABEC, dan lain-lain.
Daftar Pustaka
[1] Annisa, N, “Implementasi Algoritma Vector Space Model pada Pencarian E-book”, Sistem Informasi, Politeknik Caltex Riau, Rumbai, 2014.
[2] Damanik, R. M. U., “Pembangunan Aplikasi Pencarian Dokumen Menggunakan Text Mining Berbasis Web, Teknik Informatika, Universitas Atma Jaya Yogyakarta, Yogyakarta, 2013.
[3] Hariharan, S., “Automatic Plagiarism Detection Using Similarity Analysis”. The International Arab Journal of Information Technology, 322–326, 2012.
[4] Herqutanto, “Plagiarisme, Runtuhnya Tembok Kejujuran Akademik”, eJurnal Kedokteran Indonesia, 1-3, 2013.
[5] Mukhlish, “Pedoman Penulisan Karya Ilmiah (Laporan Penelitian)”,
Sistem Pendeteksi Kemiripan Proyek Akhir Berdasarkan Abstrak Dengan Representasi Vector Space Model Menggunakan Cosine Similarity
Fenny Changriana, Syefrida Yulina Dan Kartina Diah Kesuma Wardhani Dinas Pendidikan, Pemuda, dan
Olahraga, 2012.
[6] Saadah, M. N., “Sistem Temu Kembali Dokumen Teks Dengan Pembobotan TF-IDF dan LCS”, JUTI, 17-20, 2013.
[7] Surachman, A., “Penelusuran Informasi: sebuah pengenalan”, UPU
Perpustakaan UGM
https://akupunktursolo.files.wordpres s.com/2012/09/penelusuran_informas i.docx, (2015, Februari 3).
[8] Tala, F. Z., “A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia”, Institute for Logic, Language and Computation Universiteit Van Amsterdam, Amsterdam, 2003.
[9] Universitas Pendidikan Indonesia, “Pedoman Penulisan Karya Ilmiah Universitas Pendidikan Indonesia Tahun 2014”, Universitas Pendidikan Indonesia, 2014.
[10] Yuliana, “Sistem Pengelolaan Proyek Akhir Menggunakan Text Mining pada Politeknik Caltex Riau”, Sistem Informasi, Politeknik Caltex Riau, Rumbai, 2014.