PENDETEKSIAN PLAGIASI DENGAN SISTEM PENGUKURAN SIMILARITAS PADA DOKUMEN KARYA ILMIAH MENGGUNAKAN STRING MATCHING ALGORITMA RABIN-KARP

(1)

11

PENDETEKSIAN PLAGIASI DENGAN SISTEM PENGUKURAN SIMILARITAS PADA DOKUMEN KARYA

ILMIAH MENGGUNAKAN STRING MATCHING ALGORITMA RABIN-KARP

JUNAIDI NOH, ST, MT

Dosen Program Study Teknik Informatika UMMU Ternate

ABSTRAK

Paper ini mendiskusikan tentang deteksi plagiasi dengan menggunakan metode string matching algoritma rabin-karp. Metode diimplementasikan dalam aplikasi berbasis web untuk mendeteksi plagiasi dengan cara menguji teks (huruf) yang ada pada dokumen abstraksi dari karya skripsi ataupun jurnal mahasiswa. Output yang dihasilkan berupa prosentasi tingkat kemiripan dan tag info tentang status dokumen. Dari hasil uji coba yang dilakukan, menunjukkan bahwa metode algoritma rabin-karp mampu mendeteksi kalimat yang sama pada judul, abstraksi dan kata kunci serta antara file terbanding dengan file yang ada di dalam repositori.

Kata kunci : Plagiasi , String Matching, Rabin-Karp Algoritma , Aplikasi Berbasis Web.

PENDAHULUAN

Plagiasi merupakan sebuah tindakan jalan pintas yang dilakukan untuk menjiplak karya orang lain secara ilegal. Plagiasi juga merupakan kegiatan yang marak diera digital saat ini. Seiring berkembangnya teknologi informasi khususnya internet, tindakan

menjiplak karya orang lain tidak hanya dilakukan dikalangan orang biasa tapi juga sudah menyasar hingga di kalangan akademisi dan birokrasi.

Dikalangan mahasiswa kegiatan plagiasi sudah menjadi budaya meskipun ada sanksi berat yang menanti jika diketahui sebuah karya

(2)

12

ilmiah tersebut merupakan hasil plagiasi. Jika hal seperti ini dibiarkan maka akan muncul para intelektual karbitan, yang hanya mengandalkan plagiat sebagai cara untuk mencapai tujuannya.

Oleh karena itu perlu ada upaya preventif dengan menghadirkan sistem atau cara digital yang dapat meminimalisir terjadinya kegiatan plagiat tersebut. Membuat sistem deteksi plagiasi dengan pendekatan metode tertentu juga merupakan solusi tepat untuk meminimalisir maraknya tindakan plagiasi.

Berbagai kajian metode untuk pendeteksian plagiasi telah banyak dilakukan, diantaranya pendeteksian plagiasi menggunakan fingerprinting dari dokumen oleh (Schelimer, et all, 2003), kemudian (Dreher, 2007), dengan conceptual footprint yang menggunakan thesaurus. selanjutnya (Anzelmi, et al, 2011), dengan deteksi plagiasi menggunakan database daftar sinonim. Lalu ada juga kajian

pendeteksian plagiasi berbasis citasi (Gipp, et al, 2011).

Selain metode metode yang disebutkan sebelumnya, ada juga metode lain yang dapat digunakan untuk mendeteksi plagiasi, yaitu metode pencocokan string (string matching) dengan model Rabin-Karp, atau sering disebut dengan algoritma Rabin-Karp.

Algoritma Rabin-Karp merupakan algoritma pencocokan string yang menggunakan fungsi hash sebagai pembanding antara string yang dicari (m) dengan substring pada teks (n).

Algoritma Rabin-Karp didasarkan pada fakta jika dua buah string sama maka harga hash value-nya pasti sama.

Oleh karena itu pada penelitian ini akan dikaji tentang pembuatan sistem pendeteksian plagiasi dengan sistem pengukuran similaritas pada dokumen karya ilmiah menggunakan string matching algoritma rabin-kap. Tujuan dari pembuatan sistim ini adalah untuk mendeteksi plagiasi pada judul,

(3)

13 abstraksi dan dokumen PDF jurnal dan

skripsi mahasiswa.

METODE PENELITIAN Tahapan Penelitian

Gambar 1 Tahapan penelitian

Data Penelitian

Data yang diuji dalam sistem ini adalah dokumen teks yang mempunyai ekstensi .pdf, berupa judul dan abstraksi skripsi serta dokumen latih, ketentuan dari dokumen latih yang digunakan adalah sebagai berikut:

1. 100% sama: adalah dokumen uji yang isi teksnya sama persis.

2. 20% kata: adalah dokumen uji yang isi teksnya dilakukan pemotongan sebanyak 20% kata secara acak dari dokumen asli.

3. 40% kata: adalah dokumen uji yang isi teksnya dilakukan pemotongan sebanyak 40% kata secara acak dari dokumen asli.

4. Tukar kalimat 20%: adalah dokumen uji yang isi dokumen nya mengalami penukaran 20% dari susunan kalimat secara acak dari dokumen asli.

5. Tukar kalimat 40%: adalah dokumen uji yang isi dokumen nya mengalami penukaran 40% dari susunan kalimat secara acak dari dokumen asli.

6. Ganti 10%: adalah dokumen uji yang mengalami penggabungan perubahan mulai dari pemotongan kata 10%, penukaran susunan kalimat dan perubahan.

(4)

14

Gambar 2

Flowchart Perancangan sistem Sistem Perancangan Sistem

Adapun perancangan sistem untuk mendeteksi plagiasi dengan

menggunakan algoritma Rabin-Karp adalah dengan mengikuti skema flowchart pada gambar 2 :

START

User menginputkan Teks/judul atau Abstraksi, kata kunci

dan memilih nilai k- gram

PREPROCESSING {case folding, tokenizing,

filtering, stemming ECS Stemmer}

Text_terbanding, Load data_terbanding Data Pembanding

For i=0 to count{data_terbanding

PARSING K-GRAM

HASHING MODIFIKASI

Hasil_similaritas[i][nilai] = array_nilai_hasil;

Hasil_similaritas[i][id] = array_data_id

Hasil Similaritas

Ranking

STOP i

STRING MATCHING IMPROVED

(5)

15 3. HASIL DAN PEMBAHASAN

Perhitungan Manual

Berikut contoh simulasi perhitungan manual dalam pengecekan dua buah Teks. Teks 1:“Suatu tindakan menjiplak karya seseorang dan kemudian mengakuinya sebagai karya sendiri disebut plagiarisme”.

Teks 2:“Plagiarisme adalah suatu tindakan menjiplak karya seseorang dan kemudian mengakuinya sebagai karya sendiri”.

Selanjutnya untuk meyelesaikan kasus diatas, maka proses pertama yang dilakukan adalah tokenizing, filtering dan stemming. Adapun hasilnya adalah sebagai berikut:

Teks1:

tindakanjiplakkaryaorangakuikaryasen dirisebutplagiat

Teks2:

Plagiattindakanjiplakkaryaorangakuika ryasendiri.

Selanjutnya adalah proses kedua, proses ini merupakan tahapan parsing K-gram dengan panjang K = 4.

Hasilnya tersaji pada tabel 1.

Tabel 1 Hasil Parsing K-Gram

No. Parsing Teks 1

Parsing Teks 2

1 Tind Plag

2 Inda Lagi

3 Ndak Agia

… … …

42 Ebut Endi

43 Butp Ndir

… … …

Kemudian dalam proses ini juga kita melakukan perhitungan hashing dengan merubah char menjadi decimal berdasarkan ASCII dengan K-gram = 4 dan Modulo = 101.

Contoh Pattern = ‘tind’

Hashing = 116 * 10³ + 105 * 10² + 110

* 10¹ + 100 * 10⁰mod 101 = 127700 mod 101 = 36, Remainder = 127700/101 = 1264,356. Selanjutnya dengan cara yang sama sebagaimana pada contoh perhitungan hashing diatas, maka untuk seluruh parsing teks

(6)

16

1 dan teks 2, diperoleh hasil sebagaimana tersaji dalam tabel 2.

Tabel 2

Hasil perhitungan modulo dan remainder

No. Teks 1 Teks 2

Parsing Hashmod Remainder Parsing Hashmod Remainder

1 tind 36 1264,356 plag 47 1226,465

2 inda 38 1159,376 lagi 62 1176,613

3 ndak 79 1198,782 agia 3 1074,029

4 daka 70 1097,693 giat 49 1137,485

5 akan 3 1077,029 iatt 99 1177,980

6 kanj 39 1167,386 atti 81 1087,801

… … … … … … …

Proses ketiga, dari hasil perhitungan nilai-nilai pada tabel 2, kemudian dicocokkan menggunakan string matching dan di ambil nilai match yes, maka hasilnya sebagaimana tersaji dalam tabel 3. Selanjutnya Proses keempat, yaitu proses mendapatkan tingkat similarity.

Untuk mendapatkan informasi tingkat similarity, maka dilakukan pembobotan menggunakan Dice’s Similarity Coefficient.

P Similarity = (2*41)/(42+44)*100%

= 82/93*100% = 88,17%.

Dari proses similarity kemudian dibuat prosentasi perbandingan kemiripan antara Teks 1 dan Teks 2, maka diperoleh tingkat kemiripan yang dimiliki adalah = 88,17%.

Dengan demikian dapat dikatakan bahwa dokumen tersebut terdeteksi sebagai hasil plagiasi.

(7)

17 Tabel 3

Hasil String Matching

No.

Teks 1 Teks 2 h Matc

Parsing Hashmod Remainder Parsing Hashmod Remainder

1 tind 36 1264,356 Tind 36 1264,356 Yes

2 inda 38 1159,376 Inda 38 1159,376 Yes

3 ndak 79 1198,782 Ndak 79 1198,782 Yes

4 daka 70 1097,693 Daka 70 1097,693 Yes

5 akan 3 1077,029 Akan 3 1077,029 Yes

6 kanj 39 1167,386 Kanj 39 1167,386 Yes

7 anji 85 1080,841 Anji 85 1080,841 Yes

8 njip 57 1205,564 Njip 57 1205,564 Yes

9 jipl 63 1165,623 Jipl 63 1165,623 Yes

… … … … … … … …

Gambar 3

Tampilang Halaman Utama (Index)

Hasil Perancangan Sistem Hasil Program yang dirancang adalah berupa sebuah website

(8)

18

dengan beberapa halaman dianataranya adalah Halaman Utama (Index). Pada Halaman ini terdapat menu dan penjelasan singkat dari program. serta grid menu untuk

memilih metode scaning, berupa scan the title, Scan The Abstract and Keyword, Scan Between Document.

Gambar tampilan halaman tersebut terdapat pada gambar 3.

Gambar 4

Tampilan Halaman Scan The Title

Halaman Scan The Title

Halaman ini merupakan tampilan scan the title dengan inputan berupa input title, select k-

gram value dan button check similarity. Ilustrasi halaman ini dapat dilihat pada gambar 4, 5, dan 6.

(9)

19 Gambar 5 Tampilan

parsing, hashing key, fingerprint pada Halaman Scan The Title

Gambar 6

Tampilan plagiarism detection result by similarity Pada Halaman Scan The Title

(10)

20

KESIMPULAN

Dari hasil dan pembahasan, diperoleh kesimpulan:

1. Sistem sudah mampu melakukan pengecekan terhadap judul skripsi atau dokumen abstraksi dari dokumen terbanding dengan dokumen pembanding yang ada pada database dengan akurat.

2. Algoritma Rabin-Karp dengan teknik hashing dapat mendeteksi similaritas pada dokumen.

3. Penggunaan konversi dokumen teks yang berekstensi pdf memberikan kemudahan dalam proses penginputan secara menyeluruh.

SARAN

String matching algoritma rabin karp adalah metode mendeteksi kemiripan. Oleh karena itu metode ini dapat diterapkan pada pembuatan system yang lain.

DAFTAR PUSTAKA

Abdeen, Ali., Rawan, 2011,An Algorithm forString Searching BasedonBrute- Force algorithm, International Journalof Computer Scienceand Network Security, Vol.11 No.7.

Andres, Christopher, Saloko, Penelaan Algoritma Rabin-Karb dan Perbandingan Peosesnya dengan Algoritma Knut-Morris-Pratt, Departemen Teknik Informatika, Institut Teknologi Bandung, 2006.

Anzelmi,Daniele., et.Al, 2011, Plagiarism Detection Based SCAM Algorithm, Proceedings of the International Multi Conferenceof Engineersand Computer Scientist 2011, Vol.1.

Deddy Winarsono, Daniel O Siahaan, Umi Yuhana, Sistem Penilaian Otomatis Kemiripan Kalimat Menggunakan Syntatics-Semantic Similarity Pada

(11)

21 Sistem E-Learning, Jurnal Ilmiah KURSOR Menuju Solusi Teknologi Informasi, Vol. 5, No. 2.

Dreher,Heinz,2007,Automatic Conceptual Analysisfor Plagiarism Detection, Issues inInforming Science and Information Technology Volume 4, Firdaus, Bagus, 2008,Deteksi Plagiat Dokumen Menggunakan Algoritma Rabin-

Karp, MakalahIf2251 Strategi Algoritmik Tahun2008.

Maharani.,Puanta Della,et.al.,2012, Penilai Otomatis Praktikum Pemrograman dengan Pendeteksi Plagiarisme untuk Praktikum Pengenalan Teknologi Informasi (PTI) B, Jurnal SarjanaInstitut Teknologi Bandung Bidang Teknik Elektro danInformatika Volume 1, Number2, Juli2012.

Martin, Brian, 1994, Plagiarism: a misplaced emphasis, Journal of Information Ethics, Vol. 3, No. 2.

Mutiara,Benny.A, Agustina., Sinta,2008, Anti Plagiarism Applicationwith Algorithm Karp-Rabin at ThesisinG unadharma University,Gunadharma University, Jakarta.

Nanda Zanniba Harisma, Implementasi Sistem Penilaian Esai Otomatis Metode LSA Dengan Tiga Bobot Kata Kunci, Universitas Indonesia, 2008.

Rizqi Bayu Aji P, ZK. Abdurrahman Baizal, Yaunar Firdaus, 2011, Automatic Essay Grading System Menggunakan Metode Latent Semantic Analysis, Seminar Nasional Aplikasi Teknologi Informasi (SNATI), 2011.

Sahriar Hamza, M. Sarosa, Purnomo Budi Santoso, 2013, Sistem Koreksi Soal Essay Otomatis Dengan Menggunakan Metode Rabin Karp, Jurnal EECCIS Vol. 7, No. 2.

Oktavianti, Cegah Plagiarisme, Dosen Darmajaya Bentuk Sistem Pendeteksi Plagiarisme Multi Bahasa, Informatics & Business Institute Darmajaya Lampung, http://www.darmajaya.ac.id, diakses pada 08 November 2015.