Pre-processing - PENDETEKSIAN PLAGIARISME PADA DOKUMEN TEKS DENGAN MENGGUNAKAN ALGORITMA SMITH-

Faktor-faktor yang digunakan untuk mengidentifikasi plagiarisme menurut Clough (2000:5) sebagian besar dapat diimplementasikan ke dalam bidang pemrograman komputer menggunakan algoritma standar Smith-Waterman dengan fungsi sequence alignment-nya. Akan tetapi, algoritma standar tersebut memiliki sifat yang hanya membandingkan secara eksplisit dua string tanpa mengetahui sifat karakter-karakter yang membentuk kedua string tersebut. Oleh karena itu dibutuhkan proses bantuan (pre-processing) dalam bentuk modul-modul tambahan, modul-modul tersebut tersebar di dalam proses pembobotan sesuai fungsi masing-masing modul. Pre-processing ini tentu akan menambah waktu proses sistem secara menyeluruh, tetapi

dengan adanya pereduksian noise yang dilakukan proses bantuan ini diharapkan dapat mengurangi kompleksitas pada saat pembandingan oleh algoritma Smith-Waterman. Adapun macam pre-processing yang dilakukan adalah:

4.3.1 Stemming

Stemming adalah proses mengembalikan berbagai macam bentukan kata ke dalam sebuah representasi yang sama. Misalnya kata “berlari” dan “dilarikan” akan diubah menjadi sebuah kata yang sama yaitu “lari”. Metode stemming memerlukan masukan berupa kata yang terdapat dalam suatu dokumen, dengan menghasilkan keluaran berupa root word. Mencari kata dasar (akar kata) dari suatu kata yang berimbuhan di dalam bahasa Indonesia merupakan pekerjaan yang kompleks. Berbeda dengan bahasa Inggris yang hanya memiliki imbuhan berupa suffixes (akhiran), kata-kata dalam bahasa Indonesia bisa memiliki imbuhan yang terdiri dari prefixes (awalan), suffixes (akhiran), infixes (sisipan) dan confixes (kombinasi dari awalan, akhiran dan sisipan). Penggunaan imbuhan di dalam bahasa Indonesia bisa memakai lebih dari satu prefiks dan sufiks dalam satu kata. Sebuah kata dengan awalan bisa memiliki arti yang berbeda dari kata dasarnya. hal ini disebut derivation word. selain itu sebuah awalan juga dapat mengubah huruf awal suatu akar kata yang biasa disebut peluluhan, sehingga dibutuhkan pengkodean ulang (recode) untuk menemukan kembali akar kata berdasarkan penggunaan awalan.

Banyak algoritma yang digunakan untuk memroses stemming dalam bahasa Indonesia antara lain algoritma Nazief dan Adriani, algoritma Arifin dan Setiono, algoritma Idris dan Mustofa, algoritma Vega, algoritma Ahmad, Yussof dan Sembok. Menurut Jelita Asian (2006) berdasarkan aturan morfologi bahasa Indonesia dapat dinyatakan bahwa algoritma Nazief dan Adriani adalah algoritma yang memiliki hasil terbaik. Nazief dan Adriani menyimpulkan sebuah kata dasar dapat ditambahkan imbuhan berupa derivation prefix (DP) di awal dan/atau diakhiri secara berurutan oleh derivation suffix (DS), possesive pronoun (PP) dan particle (P) yang masin-masing bersifat optional. Keterangan diatas dapat dirumuskan sebagai berikut:

DP + DP + DP + root word + DS + PP + P

Gambar 2.6 Format Kata Berimbuhan dalam Bahasa Indonesia

Adapun langkah-langkah yang digunakan oleh algoritma Nazief dan Adriani yaitu sebagai berikut:

1. Kata dicari di dalam daftar kamus. Bila kata tersebut ditemukan di dalam kamus, maka dapat diasumsikan kata tersebut adalah kata dasar sehingga algoritma dihentikan.

2. Bila kata di dalam langkah pertama tidak ditemukan di dalam kamus, maka diperiksa apakah sufiks tersebut yaitu sebuah partikel (“-lah” atau “-kah”). Bila ditemukan, maka partikel tersebut dihilangkan.

3. Pemeriksaan dilanjutkan pada kata ganti milik (“-ku”, “-mu”, “-nya”). Bila ditemukan, maka kata ganti tersebut dihilangkan.

4. Memeriksa akhiran (“-i”, “-an”). Bila ditemukan, maka akhiran tersebut dihilangkan.

Hingga langkah ke-4 dibutuhkan ketelitian untuk memeriksa apakah akhiran “-an” merupakan hanya bagian dari akhiran “-k“-an”, dan memeriksa lagi apakah partikel (“-lah”, “-kah”) dan kata ganti milik (“-ku”, “-mu”, “-nya”) yang telah dihilangkan pada langkah 2 dan 3 bukan merupakan bagian dari kata dasar.

5. Memeriksa awalan (“se-“, ”ke-“, “di-“, “te-“, “be-“, “pe-“, “me-“). Bila ditemukan, maka awalan tersebut dihilangkan. Pemeriksaan dilakukan dengan berulang mengingat adanya kemungkinan multi-prefix.

Langkah ke-5 ini juga membutuhkan ketelitian untuk memeriksa kemungkinan peluluhan awalan (Tabel 2.1), perubahan prefix yang disesuaikan dengan huruf-awal kata (Tabel 2.2) dan aturan kombinasi prefix-suffix yang diperbolehkan (Tabel 2.3).

6. Setelah menyelesaikan semua langkah dengan sukses, maka algoritma akan mengembalikan kata dasar yang ditemukan.

Tabel 2.1 Daftar Prefiks yang Meluluh

Jenis Prefiks Huruf Hasil Peluluhan

pe-/me- k -ng-

pe-/me- p -m-

pe-/me- s -ny-

pe-/me- t -n-

Tabel 2.2 Daftar Kemungkinan Perubahan Prefiks

Prefiks Perubahan

se- tidak berubah

ke- tidak berubah

di- tidak berubah

be- ber-

te- ter-

pe- per-, pen-, pem-, peng-

me- men-, mem-, meng-

Tabel 2.3 Daftar Kombinasi Prefiks dan Sufiks yang tidak diperbolehkan

Prefiks Sufiks yang tidak diperbolehkan

be- -i

di- -an

ke- -i, -kan

me- -an

se- -i,-kan

te- -an

pe- -kan

Antonio (1997) menyimpulkan bahwa Structural Characteristic adalah struktur pengindeksan internal dari tiap-tiap dokumen yang dihasilkan dengan menggabungkan struktur pohon dokumen beserta himpunan kata kuncinya. Di dalam pengimplementasian pendeteksian plagiarisme, structural characteristic atau yang disebut sebagai kesamaan struktural, akan digunakan untuk menguji dua buah dokumen yang akan dibandingkan lebih jauh lagi karena adanya persamaan kata kunci yang terkandung di dalam dua dokumen tersebut. Hal ini bisa dilihat dari himpunan kata kunci yang unik.

Bila kedua dokumen memiliki himpunan kata kunci yang relatif berbeda, maka dianggap bahwa kedua dokumen tersebut memiliki kandungan atau isi dokumen yang berbeda. Sebaliknya bila kedua dokumen memiliki hmpunan kata kunci yang relatif sama, maka dapat dianggap bahwa salah satu dokumen mungkin saja plagiat terhadap dokumen yang lain. Dengan demikian, proses selanjutnya yaitu pembandingan kalimat per kalimat. Di dalam proses ini juga dilakukan proses kesamaan struktural level dua. Bila dua kalimat memiliki himpunan kata kunci yang relatif berbeda, maka diasumsikan bahwa kedua kalimat tersebut memiliki makna semantik yang berbeda, dan sebaliknya. Melalui cara ini, dapat diharapkan pembandingan dengan algoritma Smith-Waterman hanya dilakukan bila kesamaan struktural kedua kalimat di dalam dua dokumen relatif memiliki kesamaan. Arti kata relatif di sini akan ditentukan dengan pendefinisian nilai ambang batas (threshold) yang dianggap significant untuk mendeteksi plagiarisme.

Misalkan terdapat dokumen A dan dokumen B, maka penghitungan kelayakan kesamaan strukturalAB adalah proses pembagian jumlah kemunculan kata kunci dari dokumen A di dalam dokumenB dengan jumlah kata kunci yang dimiliki oleh dokumen A. Sama saja dengan penghitungan kelayakan kesamaan strukturalBA, hanya saja pembagian dilakukan dengan jumlah kata kunci yang dimiliki oleh dokumen B. Nilai tertinggi dari hasil kedua penghitungan ini merupakan nilai structural characteristic yang dicari.

Nilai yang dihasilkan dari proses kesamaan struktural merupakan nilai awal kecenderungan dua dokumen yang diidentifikasikan plagiat. Dilihat dari fungsi

structural characteristic yang menghitung derajat kata kunci yang unik dari dua dokumen, maka proses ini telah menjadi usaha awal untuk mendeteksi plagiarisme kata per kata, plagiarisme parafrase maupun plagiarisme struktur sumber. Dengan tujuan mempermudah penghitungan bobot dengan menggunakan algoritma Smith-Waterman, maka nilai kesamaan struktural merupakan bagian proses perhitungan bobot plagiarisme oleh sistem.

4.3.3 Proses Tambahan

Proses tambahan bertujuan menghilangkan noise pada dokumen untuk mempermudah pembandingan (memperkecil kompleksitas) pada saat pembobotan oleh algoritma Smith-Waterman. Penghilangan noise terdiri atas:

1. Pengubahan penulisan angka secara numerik menjadi penulisan angka secara alphabet.

Proses ini lebih bersifat mempermudah pembadingan kata dengan menyeragamkan penulisan angka tanpa bermaksud mengubah makna dari kalimat.

2. Penghilangan kata yang tergolong closed-class word dan stop words,

Menurut Ruli Manurung (2008) closed-class word adalah kelas kata yang keanggotaannya biasanya kecil dan stabil. Kebalikan dari closed-class word adalah open-class word, yaitu kelompok kata yang keanggotaannya biasanya besar dan senantiasa bertambah, hal ini bisa dikarenakan faktor serapan bahasa lain, teknologi baru ataupun adanya imbuhan. Yang termasuk di dalam closed-class word yaitu preposition, determiner, pronoun, conjuction, auxiliary verb, particle dan numeral.

Oleh karena closed-class word merupakan bahasa yang jumlahnya terbatas maka dapat dilakukan proses eliminasi pada pendeteksian plagiarisme, tetapi tidak semua kelas kata akan dihilangkan karena ada beberapa kelas kata yang mempunyai nilai semantik yang dapat mengubah makna dari suatu kalimat atapun memberikan efek ambigu. Kelas kata yang tidak akan dihilangkan dari

proses eliminasi yaitu kelas kata determiner, numeral, particle, pronoun, dan sebagian preposition.

Menurut penjelasan Yudi Wibisono dari blog-nya, stop words adalah kata umum (common words) yang biasanya muncul dalam jumlah besar dan dianggap tidak memiliki makna. Stop words umumnya dimanfaatkan dalam task information retrieval. stop words untuk bahasa Inggris diantaranya ‘of’, ‘the’, sedangkan untuk bahasa Indonesia diantaranya ‘yang’, ‘di’, ‘ke’.

3. Penghilangan string yang merupakan kalimat kutipan langsung.

Didalam penulisan karya ilmiah, kutipan langsung sering digunakan sebagai pencatatan sumber-sumber tertulis. Kutipan langsung merupakan copy-an dari tulisan asli dengan menyatakan sumbernya, sehingga tidak terhitung tindakan plagiat. Kutipan langsung yang sering dipakai dalam penulisan skripsi adalah kutipan langsung yang terdiri kurang dari empat baris dan memiliki aturan terikat dimana kutipan harus ditulis didalam tanda kutip dua (“...”). sedangkan kutipan tidak langsung bersifat tidak terikat yang artinya isi dari tulisan merupakan pendapat bebas yang dikemukakan kembali dengan suatu perubahan. Oleh karena itu, proses identifikasi hanya mempertimbangkan kutipan yang berjenis kutipan langsung yang terdiri kurang dari empat baris.

BAB III

Dalam dokumen PENDETEKSIAN PLAGIARISME PADA DOKUMEN TEKS DENGAN MENGGUNAKAN ALGORITMA SMITH-WATERMAN SKRIPSI AUDI NOVANTA (Halaman 26-33)