PENDETEKSIAN PLAGIARISME PADA DOKUMEN TEKS DENGAN MENGGUNAKAN ALGORITMA SMITH-WATERMAN SKRIPSI AUDI NOVANTA

(1)

Audi Novanta : Pendeteksian Plagiarisme Pada Dokumen Teks Dengan Menggunakan Algoritma Smith-Waterman, 2009.

PENDETEKSIAN PLAGIARISME PADA DOKUMEN TEKS DENGAN MENGGUNAKAN ALGORITMA

SMITH-WATERMAN

SKRIPSI

Diajukan untuk melengkapi tugas akhir dan memenuhi syarat mencapai gelar Sarjana Komputer

AUDI NOVANTA 041401034

PROGRAM STUDI STRATA 1 ILMU KOMPUTER DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA

MEDAN 2009

(2)

PERSETUJUAN

Judul : PENDETEKSIAN PLAGIARISME PADA

DOKUMEN TEKS DENGAN MENGGUNAKAN ALGORITMA SMITH-WATERMAN

Kategori : SKRIPSI

Nama : AUDI NOVANTA

Nomor Induk Mahasiswa : 041401034

Program Studi : SARJANA (S1) ILMU KOMPUTER Departemen : ILMU KOMPUTER

Fakultas : MATEMATIKA DAN ILMU PENGETAHUAN

ALAM (FMIPA) UNIVERSITAS SUMATERA UTARA

Diluluskan di

Medan, Januari 2009 Komisi Pembimbing :

Pembimbing 2 Pembimbing 1

Drs. Sawaluddin, MIT Drs. James Piter Marbun, M.Kom

NIP 132206298 NIP 131639804

Diketahui/Disetujui oleh

Departemen Ilmu Komputer FMIPA USU Ketua,

Prof. Dr. Muhammad Zarlis NIP 131570434

(3)

PERNYATAAN

PENDETEKSIAN PLAGIARISME PADA DOKUMEN TEKS DENGAN MENGGUNAKAN ALGORITMA SMITH-WATERMAN

SKRIPSI

Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing disebutkan sumbernya.

Medan, Desember 2008

Audi Novanta 041401034

(4)

PENGHARGAAN

Puji dan syukur penulis panjatkan kehadirat Tuhan Yang Maha Esa, dengan segala berkat dan karunia-Nya penulisan skripsi ini berhasil diselesaikan dalam waktu yang telah ditetapkan.

Pada kesempatan ini penulis mengucapkan terima kasih kepada Drs. James P. Marbun, M.Kom dan Drs. Sawaluddin, MIT selaku pembimbing yang telah membantu mengarahkan dengan kesabaran dan penuh kepercayaan kepada penulis untuk menyelesaikan penulisan skripsi ini. Ucapan terima kasih juga disampaikan kepada Ketua dan Sekretaris Program Studi Ilmu Komputer, Prof. Dr. Muhammad Zarlis dan Syahriol Sitorus, S.Si, MIT, Dekan dan Pembantu Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Sumatera Utara, seluruh dosen, pegawai/staf dan rekan-rekan mahasiswa terutama stambuk 2004 di Program Studi S-1 Ilmu Komputer FMIPA USU dan ucapan terima kasih khusus buat Ayah, Ibu dan Saudara/i saya tercinta yang telah memberikan bantuan materil dan spritual dalam membantu menyelesaikan penulisan skripsi ini.

Akhirnya penulis berharap semoga skripsi ini bermanfaat bagi pribadi, keluarga, masyarakat, organisasi dan negara.

(5)

ABSTRAK

Plagiarisme merupakan tindakan yang harus dihindari, tetapi masih banyak orang yang belum mengenal dan mengerti tentang plagiarisme. Selain mencegah, mendeteksi plagiarisme merupakan salah satu usaha untuk mengurangi tindakan plagiat. Permasalahan plagiarisme yang sering ditemukan terutama di kalangan pelajar/mahasiswa adalah plagiarisme pada dokumen teks. Kajian ini bertujuan membangun sistem pendeteksi plagiarisme pada dokumen teks dengan menggunakan algoritma Smith-Waterman secara terkomputerisasi. Sistem pendeteksi plagiarisme ini bersifat membantu mendeteksi tindakan plagiat dengan memberikan sugesti kepada pengguna berupa bobot/nilai kemiripan dan kesamaan sekuens dari dua dokumen yang dibandingkan. Sistem yang dibangun merupakan proses dasar yang dapat dikembangkan lebih lanjut untuk membangun aplikasi pendeteksi tindakan plagiat yang lebih baik.

(6)

Plagiarism Detection On The Text Document Using Smith-Waterman Algorithm

ABSTRACT

Plagiarism is the action that should be avoided, but still many people who have not yet know and understand about plagiarism. In addition to prevent, plagiarism detection is one of the measures to reduce plagiarism. Plagiarism problems that are often found, especially among students is plagiarism on the text document. This study aims to build the system plagiarism popular in the text document using the Smith-Waterman algorithm in computerization. This system is popular plagiarism help detect plagiarism action with persuade to give users a weight / value similarity and the similarity of the two documents sequence than that. The system is built is a basic process that can be developed further to build popular applications plagiarism action better.

(7)

DAFTAR ISI Halaman Persetujuan ii Pernyataan iii Penghargaan iv Abstrak v Abstract vi

Daftar Isi vii

Daftar Gambar ix Daftar Tabel x Bab 1 Pendahuluan 1 1.1Latar Belakang 1 1.2Perumusan Masalah 2 1.3Batasan Masalah 2 1.4Tujuan 3 1.5Manfaat 3 1.6Metodologi 4 1.7Sistematika Penulisan 5

Bab 2 Landasan Teori 6

2.1 Plagiarisme 6

2.1.1 Bentuk Plagiarisme 7 2.1.2 Jenis Pendeteksian Plagiarisme 11

2.2 Algoritma Smith-Waterman 12

2.3 Pre-processing 17

2.3.1 Stemming 17

2.3.2 Structural Characteristic 20

2.3.3 Proses Tambahan 22

Bab 3 Analisis dan Perancangan Sistem 24

3.1 Analisis Masalah Umum 24

3.2 Spesifikasi Umum Kebutuhan Sistem 26

3.2.1 Fungsi Sistem 27

3.2.2 Tujuan Sistem 27

3.2.3 Masukan dan Keluaran Sistem 27

3.2.4 Batasan Sistem 28

3.3 Pemodelan Fungsi 28

3.3.1 Data Flow Diagram (DFD) 29

3.4 Perancangan Sistem 37

Bab 4 Implementasi dan Pengujian Sistem 42

(8)

4.1.1 Lingkungan Implementasi 43 4.1.2 Batasan Implementasi 44 4.2 Pengujian 44 4.2.1 Tujuan Pengujian 45 4.2.2 Data Pengujian 45 4.2.3 Skenario Pengujian 46 4.2.4 Hasil Pengujian 47

4.2.5 Analisis Hasil Pengujian 51

Bab 5 Kesimpulan Dan Saran 53

5.1 Kesimpulan 53

5.2 Saran 54

Daftar Pustaka 55

Lampiran A : Listing Program 57

(9)

DAFTAR GAMBAR

Halaman Gambar 2.1 Proses kerja Intra-Corporal Detection 11 Gambar 2.2 Proses Kerja Internet-based Detection 12 Gambar 2.3 Ilustrasi Konversi Algoritma Smith-Waterman dari Bidang

Bioinformatika ke Pemrograman Komput er 13 Gambar 2.4 Optimal Alignment dari dua substring 15 Gambar 2.5 Nilai Perbandingan pada Sequence Alignment 16 Gambar 2.6 Format Kata Berimbuhan dalam Bahasa Indonesia 18

Gambar 3.1 Diagram Konteks 30

Gambar 3.2 DFD Level 1 31

Gambar 3.3 DFD Level 2 33

Gambar 3.4 Flowchart Untuk Proses Baca Dokumen 34

Gambar 3.5 Flowchart Untuk Proses Optimasi 35

Gambar 3.6 Flowchart Untuk Proses Pembobotan Algoritma Smith-Waterman 37 Gambar 3.7 Antarmuka Menu Awal Sistem Pendeteksi Plagiarisme 37 Gambar 3.8 Antarmuka Submenu Pilihan Pertama 38 Gambar 3.9 Antarmuka Proses Pembandingan pada Submenu Pilihan Pertama 38 Gambar 3.10 Antarmuka Hasil Pembandingan pada Submenu Pilihan Pertama 39 Gambar 3.11 Antarmuka Submenu Pilihan Kedua 39 Gambar 3.12 Flowchart Sistem Pendeteksi Plagiarisme 40

(10)

DAFTAR TABEL

Halaman

Tabel 2.1 Daftar Prefiks yang Meluluh 20

Tabel 2.2 Daftar Kemungkinan Perubahan Prefiks 20 Tabel 2.3 Daftar Kombinasi Prefiks dan Sufiks yang tidak diperbolehkan 20

Tabel 3.1 Entitas Data pada DFD Level 1 32

Tabel 3.2 Tanggung Jawab Modul 41

Tabel 4.1 Hasil Pengujian Akurasi Data Set I Menggunakan Algoritma Smith-

Waterman dan Pre-Processing 48

Tabel 4.2 Hasil Pengujian Akurasi Data Set II Menggunakan Algoritma

Smith-Waterman dan Pre-Processing 48

Tabel 4.3 Hasil Pengujian Akurasi Data Set I Menggunakan Algoritma Standar

Smith-Waterman 49

Tabel 4.4 Hasil Pengujian Akurasi Data Set I Menggunakan Algoritma Standar

Smith-Waterman 49

Tabel 4.5 Hasil Pengujian Waktu Proses Data Deterministik Menggunakan

(11)

BAB I

PENDAHULUAN

5.1 Latar Belakang

Pada dasarnya manusia menginginkan kemudahan dalam segala hal. Sifat tersebut akan memicu tindakan negatif apabila dilatarbelakangi oleh motivasi untuk berbuat curang dan rendahnya kemampuan masyarakat berkreasi dan berinovasi menciptakan suatu karya yang original. Dalam hal ini tindakan negatif yang dimaksud adalah plagiarisme.

Fenomena plagiarisme yang lebih spesifik sering terjadi di dunia akademis. Hal ini dikarenakan kegiatan tulis-menulis sering dilakukan oleh mahasiswa untuk menyelesaikan tugas kuliah. Praktik menduplikasikan beberapa bagian atau keseluruhan tulisan milik orang lain tanpa mencantumkan sumbernya secara teliti dan lengkap merupakan hal yang sering ditemui dalam penulisan laporan, tugas, makalah ataupun skripsi mahasiswa.

Ada dua cara untuk mengatasi permasalahan plagiarisme, yaitu dengan mencegah dan mendeteksi. Mencegah berarti menjaga atau menghalangi agar plagiarisme tidak dilakukan. Usaha seperti ini harus dilakukan sedini mungkin terutama pada sistem pendidikan dan moral masyarakat. Mendeteksi berarti melakukan usaha untuk menemukan tindakan plagiat yang telah dilakukan.

Banyak institusi dan tenaga pengajar menerapkan sanksi akademis terhadap pelaku plagiat untuk mengurangi plagiarisme. Yang menjadi permasalahannya adalah bagaimana cara untuk mengetahui apakah seorang mahasiswa melakukan plagiarisme

(12)

atau tidak dalam membuat suatu karya tulis. Untuk mengetahuinya perlu dilakukan pengecekan secara teliti terhadap hasil tulisan mahasiswa tersebut, kemudian dibandingkan dengan hasil tulisan mahasiswa yang lainnya. Tetapi usaha tersebut akan memerlukan waktu yang lama dan ketelitian yang tinggi jika pembandingan tersebut dilakukan secara manual. Oleh karena itu diperlukan suatu sistem pendeteksian plagiarisme pada dokumen teks yang dilakukan secara terkomputerisasi.

5.2 Perumusan Masalah

Masalah yang akan dikaji dalam penulisan skripsi ini adalah:

1. Bagaimana mengimplementasikan algoritma Smith-Waterman untuk membangun sistem pendeteksi plagiarisme pada dokumen teks digital.

2. Bagaimana performa dan akurasi dari sistem pendeteksi plagiarisme yang mengimplementasikan algoritma Smith-Waterman.

3. Bagaimana menentukan dan mengimplementasikan faktor-faktor yang dapat digunakan oleh sistem pendeteksi plagiarisme yang menggunakan algoritma Smith-Watrman agar dapat meningkatkan proses pendeteksian plagiarisme.

5.3 Batasan Masalah

Yang menjadi batasan masalah dalam penulisan skripsi ini adalah:

1. Sistem hanya dapat mendeteksi tindakan plagiarisme pada dokumen-dokumen internal yang terkumpul secara offline, tidak memverifikasi isi dokumen internal dengan dokumen eksternal yang berada di internet.

2. Dokumen teks yang akan dideteksi adalah file teks digital yang bersifat plain text, yaitu file yang hanya terdiri dari huruf-huruf dan angka-angka saja, tidak mencakup gambar, tabel, dan sejenisnya.

3. Pembandingan oleh sistem dilakukan dengan membandingkan dua dokumen teks yang telah dikonversi ke format text document (.txt).

(13)

4. Sistem hanya memproses dokumen teks berbahasa Indonesia.

5. Hasil pembandingan dengan sistem pendeteksi plagiarisme yang dibuat tidak menunjukan bahwa mutlak telah atau tidak terjadi plagiarisme antara dua dokumen teks. Hasil tersebut hanya sebagai panduan agar memberi perhatian lebih terhadap dua teks tersebut.

5.4 Tujuan

Penulisan skripsi ini memiliki beberapa tujuan, yaitu:

1. Membangun sistem pendeteksi plagiarisme pada dokumen teks yang mengimplementasikan algoritma Smith-Waterman.

2. Membuktikan akurasi algoritma Smith-Waterman dalam mendeteksi local similarities dengan mengimplementasikannya dengan cara membandingkan dua dokumen teks untuk membantu mendeteksi plagiarisme.

3. Meneliti performa algoritma Smith-Waterman dan faktor-faktor pendeteksi apa saja yang dapat mempengaruhi sistem dalam meningkatkan pendeteksian plagiarisme.

5.5 Manfaat

Penulisan skripsi ini bermanfaat bagi institusi atau tenaga pengajar untuk mempermudah pengecekan terhadap hasil tulisan mahasiswa dengan membandingkan tulisan mahasiswa lainnya dengan waktu yang lebih cepat, ketelitian yang lebih tinggi dan usaha yang lebih kecil dibandingkan pendeteksian manual.

(14)

5.6 Metodologi

Skripsi ini akan dikerjakan dengan metodologi sebagai berikut:

1. Studi Literatur

Metode ini dilaksanakan dengan melakukan studi kepustakaan melalui hasil penelitian lainnya yang relevan maupun artikel–artikel yang didapatkan melalui internet, serta mempelajari lebih dalam teori-teori tentang plagiarisme dan teknik pengimplementasian algorima Smith-Waterman.

2. Observasi

Metode ini dilaksanakan dengan melakukan pengamatan dan pengujian terhadap beberapa aplikasi yang dapat mendeteksi plagiarisme dengan melakukan penelusuran di internet. Dengan pengamatan secara langsung tersebut akan diperoleh pengetahuan bagaimana bentuk sistem yang ada dan telah diimplementasikan.

3. Analisis dan Perancangan Algoritma

Metode ini akan dilaksanakan dengan melakukan analisis terhadap masalah yang ada, batasan yang dimiliki dan kebutuhan yang diperlukan.

4. Implementasi Algoritma

Metode ini akan dilaksanakan dengan melakukan perancangan aplikasi yang akan dibangun sebagai pendeteksi plagiarisme dan mengimplementasikan algoritma Smith-Waterman dalam membangun aplikasi tersebut.

5. Pengujian

Metode ini akan dilaksanakan dengan melakukan pembandingkan dokumen teks berupa data deterministik dan undeterministik menggunakan aplikasi yang telah dibuat dengan sebelum atau sesudahnya teks tersebut diperiksa secara manual. Selanjutnya dilakukan analisis terhadap hasil dan performa perangkat lunak maupun algoritmanya.

(15)

5.7 Sistematika Penulisan

Dalam penulisan skripsi ini, sistematika penulisan dibagi menjadi lima bab, yaitu:

1. Bab I Pendahuluan, berisi penjelasan mengenai latar belakang, rumusan masalah, tujuan, batasan masalah, metodologi, serta sistematika penulisan yang digunakan untuk menyusun laporan.

2. Bab II Landasan Teori, berisi dasar teori yang digunakan dalam analisis, perancangan dan implementasi skripsi.

3. Bab III Analisis dan Perancangan Sistem, berisi analisis, perancangan algoritma yang akan dibangun sebagai dasar tahap implementasi dan pemodelan sistem secara fungsional.

4. Bab IV Implementasi dan Pengujian Sistem, berisi implementasi, skenario pengujian, hasil pengujian, dan analisis hasil pengujian.

5. Bab V Kesimpulan dan Saran, berisi kesimpulan dan saran yang didapatkan selama penulisan skripsi.

(16)

BAB II

LANDASAN TEORI

5.1 Plagiarisme

Plagiarisme sesuai dengan pendapat Ir. Balza Achamd, M.Sc.E adalah berbuat sesuatu seolah-olah karya orang lain tersebut adalah karya kita dan mengakui hasil karya tersebut adalah milik kita, sedangkan menurut Brotowidjoyo (1993:86) plagiarisme merupakan pembajakan berupa fakta, penjelasan, ungkapan, dan kalimat orang lain secara tidak sah. Plagiarisme dianggap tindakan kriminal karena merupakan tindakan mencuri hak cipta orang lain. Di Indonesia perlindungan hak cipta diatur dalam Undang-Undang Republik Indonesia Nomor 19 Tahun 2002 Tentang Hak Cipta. Oleh karena itu kegiatan plagiarisme atau yang lebih dikenal dengan kata plagiat harus dihindari.

Plagiarisme merupakan permasalahan yang tidak hanya melanggar hak cipta atau kepemilikan. Apabila dipandang dari sisi para pembaca, plagiarisme juga merupakan tindakan yang membohongi dan menimbulkan kesalahpahaman mengenai orisinalitas dari penulis yang sebenarnya. Para siswa/mahasiswa atau peneliti diperbolehkan untuk menciptakan suatu karya baru yang timbul dari pengembangan ide orang lain. Tetapi pemanfaatan ide orang lain tanpa membubuhkan pernyataan sumber atau keterangan yang menyatakan pengakuan bahwa karya tersebut berasal dari pengembangan ide orang lain, hal ini merupakan tindakan yang tidak dapat diterima.

(17)

Banyak orang menganggap bahwa tindakan plagiarisme sama dengan perbuatan meng-copy hasil karya orang lain atau mengambil ide asli orang lain. Pemikiran ini seperti menegatifkan kata copy atau yang sering disebut mencontek. Berdasarkan pendapat Julissar dalam blog-nya, mencontek ini sesungguhnya adalah suatu metode belajar yang paling primer. Hal ini dapat dibuktikan dari metode belajar yang diterapkan pada kelompok bermain (play group) anak-anak balita ataupun taman kanak-kanak (kinder garden), yaitu proses menjiplak, meniru ataupun mencontoh dari sumber yang telah ada. Oleh karena itu lulusan dari kelompok tersebut merupakan individu yang bersifat meniru atau meng-copy. Yang menjadi permasalahannya adalah proses jenjang pendidikan selanjutnya, dimana telah terjadi kegagalan transformasi metode proses belajar dari tahap dasar yaitu meniru menjadi tahap analitis (pemeriksaan), sintetis (penyimpulan), improvisatif (pemanfaatan), kreatif (memiliki daya cipta) hingga tahap inovatif (menghasilkan ide). Efek dari kegagalan transformasi ini menimbulkan kebiasaan/perilaku yang dominan, yaitu tetap pada tahap dasar.

4.1.1 Bentuk Plagiarisme

Dalam lingkup dunia akademis, tindakan plagiarisme berhubungan dengan bidang kepustakaan atau kesusasteraan (plagiarisme dalam literatur). Bentuk-bentuk plagiarisme yang sering terjadi di dunia akademis berdasarkan artikel Clough (2003:2) adalah:

1. Plagiarisme kata per kata, merupakan penyalinan kalimat secara langsung dari sebuah dokumen teks tanpa adanya pengutipan atau perizinan.

2. Plagiarisme parafrase, merupakan penulisan ulang dengan mengubah kata atau sintaksis, tetapi teks aslinya masih dapat dikenali.

3. Plagiarisme sumber sekunder, merupakan perbuatan mengutip kepada sumber asli yang didapat dari sumber sekunder dengan menghiraukan teks asli dari sumber yang sebenarnya.

(18)

4. Plagiarisme struktur sumber, merupakan penyalinan/penjiplakan struktur suatu argumen dari sebuah sumber.

5. Plagiarisme ide, merupakan penggunaan ulang suatu gagasan/pemikiran asli dari sebuah sumber teks tanpa bergantung bentuk teks sumber.

6. Plagiarisme authorship, merupakan pembubuhan nama sendiri secara langsung pada hasil karya orang lain.

Bila dilihat dari berbagai macam bentuk-bentuk plagiarisme diatas, dapat disimpulkan bahwa tindakan plagiarisme yang terjadi di dunia akademis lebih cenderung kepada tindakan menggunakan kembali suatu bagian dokumen teks berupa kata/kalimat dari suatu sumber yang tidak mengikuti tata aturan hak cipta, seperti aturan pengutipan (citation) ataupun ketidakjelasan sumber/pengarang asli (bibliography).

Beberapa faktor yang dapat digunakan untuk mengidentifikasikan plagiarisme menurut Clough (2000:5) yaitu:

1. Penggunaan kosa kata.

Menganalisis kosa kata yang digunakan dalam suatu tugas terhadap penggunaan kosa kata sebelumnya dapat membantu menentukan apakah mahasiswa benar-benar telah menulis teks tersebut. Dengan menemukan suatu kosa kata baru dalam jumlah yang besar (terutama kosa kata lanjut) dapat menentukan apakah mahasiswa menulis teks tanpa melakukan plagiarisme.

2. Perubahan kosa kata.

Apabila penggunaan kosa kata berubah secara significant dalam suatu teks, hal ini dapat mengindikasikan plagiarisme dengan cara copy and paste.

(19)

Apabila alur dari suatu teks tidak halus dan tidak konsisten, hal ini mengindikasikan penulis tidak menulis menggunakan pemikirannya sendiri atau beberapa bagian dari tulisannya bukanlah hasil karyanya.

4. Penggunaan tanda baca.

Tidak wajar apabila dua orang penulis menggunakan tanda baca yang persis sama dalam membuat suatu karya tulis.

5. Jumlah kemiripan teks.

Pasti ada beberapa kemiripan antara beberapa teks yang menulis dengan topik yang sama seperti nama-nama, istilah-istilah dan sebagainya. Bagaimanapun, tidak wajar bila beberapa teks yang berbeda memiliki kesamaan atau kemiripan teks dalam jumlah yang besar.

6. Kesalahan ejaan yang sama

Merupakan hal yang biasa terjadi bagi seorang penulis dalam membuat suatu karya tulis. Menjadi tidak wajar bila beberapa teks yang berbeda memiliki kesalahan-kesalahan yang sama dalam pengejaan atau jumlah ejaan salah yang sama.

7. Distribusi kata-kata.

Tidak wajar apabila distribusi penggunaan kata dalam teks yang berbeda memiliki kesamaan. Sebagai contoh, suatu teks memiliki parameter yang sama untuk suatu distribusi statisitk yang digunakan untuk menjelaskan penggunaan istilah.

8. Struktur sintaksis teks

Hal ini menunjukan plagiarisme mungkin saja telah terjadi jika dua teks secar jelas memiliki kesamaan struktur sintaksis. Hal yang wajar bila penggunaan struktur sintaksis yang digunakan oleh beberapa penulis akan berbeda.

9. Rangkaian-rangkaian panjang kata yang sama.

Tidak wajar apabila suatu teks yang berbeda (bahkan yang menggunakan judul yang sama) memiliki rangkaian/urutan karakter yang sama.

(20)

10. Orde kemiripan antar teks.

Hal ini bisa mengindikasikan plagiarisme apabila orde kecocokan kata atau frase antar dua teks sama. Meskipun diajarkan untuk menyajikan fakta-fakta dalam suatu aturan (contohnya pendahulan, isi, kemudian kesimpulan), kurang wajar jika fakta-fakta yang sama dilaporkan dalam orde yang sama.

11. Ketergantungan pada kata atau frase tertentu.

Seorang penulis mungkin memilih penggunaan suatu kata atau frase tertentu. Kekonsistenan penggunaan kata-kata tersebut dalam suatu teks yang ditulis oleh orang lain dengan menggunakan kata yang berbeda dapat mengindikasikan plariarisme.

12. Frekuensi kata

Tidak wajar apabila kata-kata dari dua teks yang berbeda digunakan dengan frekuensi yang sama.

13. Keputusan untuk menggunakan kalimat panjang atau kalimat pendek.

Tanpa sepengetahuan kita, para penulis tentu memiliki keputusan penggunaan panjang kalimat yang tidak biasa dikombinasikan dengan fitur-fitur lain.

14. Teks yang dapat dibaca.

Penggunaan metrik/ukuran seperti index Gunning FOG, Flesch Reading Ease Formula atau SMOG dapat membantu menentukan suatu skor kemampuan. Tidak wajar apabila penulis yang berbeda akan memiliki skor yang sama.

15. Referensi yang tidak jelas.

Apabila referensi yang muncul dalam suatu teks tetapi tidak terdapat pada daftar pustaka, hal ini dapat mengindikasikan plagiarisme cut and paste, dimana penulis tidak menyalin referensinya secara lengkap.

(21)

4.1.2 Jenis Pendeteksian Plagiarisme

Berdasarkan batasan ruang lingkup pemeriksaan lokasi dokumen, pendeteksian plagiarisme dapat dibagi menjadi dua jenis, yaitu:

1. Intra-Corporal Detection

Jenis pendeteksian ini dilakukan secara offline, yang berarti dokumen teks yang diidentifikasi plagiat (copy documents) diperiksa dengan dokumen teks yang dianggap asli (source documents) dibatasi pada sebuah lokasi (folder) tertentu yang terdiri dari beberapa dokumen (corpus) yang akan dibandingkan, dimana proses pengumpulan koleksi dokumen dilakukan secara manual. Biasanya jenis pendeteksian seperti ini digunakan untuk mendeteksi hasil kerja berupa karya tulis siswa/mahasiswa atau peneliti dalam bidang tertentu.

Gambar 2.1 Proses kerja Intra-Corporal Detection

2. Internet-based Detection

Jenis pendeteksian ini dilakukan secara online, yang berarti dokumen teks yang diidentifikasi plagiat (copy documents) diperiksa dengan dokumen teks (source documents) yang berada tersebar pada jaringan World Wide Web.

(22)

Salah satu teknik yang digunakan adalah exhaustive searching (Knight, 2003) yaitu pencarian dengan membandingkan keseluruhan copy dokumen teks dengan source dokumen teks yang berada di internet. Pendekatan yang lain adalah window based, yaitu proses memecah dokumen teks ke dalam beberapa kalimat tunggal dan menjadikan kalimat tunggal tersebut menjadi sebuah query yang akn berfungsi sebagai keyword pecarian dokumen yang relevan yang tersebar di internet.

Gambar 2.2 Proses Kerja Internet-based Detection

5.2 Algoritma Smith-Waterman

Algoritma Smith-Waterman pertama kali diusulkan oleh Temple Smith dan Michael Waterman pada tahun 1981. Algoritma Smith-Waterman memiliki proses sequence alignment yang mengaplikasikan secara dasar dynamic programming. Secara umum langkah-langkah yang biasa digunakan dalam mengaplikasikan pemrograman dinamis adalah:

1. Memecahkan suatu permasalahan umum menjadi sub-permasalahan yang lebih sederhana.

(23)

2. Memecahkan semua sub-permasalahan secara optimal.

3. Mengonstruksikan pemecahan optimal subpermasalahan sebagai pemecahan optimal permasalahan secara umum.

Menurut artikel yang terdapat dalam situs wikipedia.org berbahasa Indonesia, algoritma Smith-Waterman merupakan algoritma klasik yang telah dikenal luas dalam bidang bioinformatika sebagai metode yang dapat mengidentifikasi local similarities (penyejajaran sekuens) yaitu proses penyusunan dua local sequences (rangkaian/susunan atau rentetan) nucleotide atau protein sequences sehingga kemiripan antara dua sequence tersebut akan terlihat. Berdasarkan fungsi proses penyejajaran sekuens tersebut, maka algoritma ini dapat dikonversikan ke dalam pemrograman komputer untuk digunakan membantu proses pendeteksian dokumen teks yang dianggap cenderung plagiat dengan cara melihat kesamaan isi (local similarities) dari beberapa dokumen teks.

Gambar 2.3 Ilustrasi Konversi Algoritma Smith-Waterman dari Bidang Bioinformatika ke Pemrograman Komputer

Anggap simbol X dan simbol Y merupakan dua sequence string yang masing-masing berasal dari dokumen yang berbeda, dengan panjang X dan Y masing-masing-masing-masing sebagai m dan n. Dari dua string ini dapat dihitung nilai goodness of fit yang diperoleh dari pembandingan substring X dari string X dengan substring Y dari string Y. Proses pembandingan ini akan menghasilkan penyejajaran yang identik/mirip (hit) dengan atau tanpa perubahan sekuens seperti penghilangan (deletion), penyisipan (insertion)

(24)

dan penggantian (replacement). Anggap h adalah kontribusi positif yang merepresentasikan hit atau cocok. d untuk kontribusi negatif yang merepresentasikan insertion atau deletion (atau bisa disebut indel), sedangkan r adalah kontribusi negatif yang dibuat dengan menggantikan satu simbol dengan simbol yang lain (replacement). Model yang lebih umum pada khususnya digunakan di dalam bidang biologi komputasional. Dengan menggunakan nilai positif untuk hit dan nilai negatif untuk deletion dan replacement, maka pembentukan nilai dari tiap-tiap simbol dari dua buah string tersebut dapat direpresentasikan di dalam bentuk matriks. Tetapi masih belum diketahui secara jelas nilai hubungan h, d, dan r. Pada intinya di dalam mengidentifikasi kesamaan string ini memakai prinsip reward and punishment. h merupakan simbol yang mengimplementasikan reward, sedangkan d dan r merepresentasikan punishment. Dapat diasumsikan bahwa reward dan punishment memiliki bobot yang sama. Dengan demikian dapat dianggap nilai dari masing-masing h, d, dan r adalah 1.

Sebagai contoh, bila substring X = abcbadbca dan substring Y = abbdbda, dengan alignment yang optimal didapatkan 6 hit, 2 indel, dan 1 replacement, seperti yang ditunjukkan pada gambar di bawah ini, dan didapatkan nilai untuk dua string yang diberikan ini, yaitu 6h - 2d - r, atau 6 - 2 - 1 = 3 untuk kasus h = d = r = 1 dengan keterangan tanda “|” menunjukan kecocokan atau match, sedangkan tanda “-“ menunjukan adanya kesenjangan atau gap di antara dua sekuens string.

Gambar 2.4 Optimal Alignment dari dua substring

Tujuan dari pembandingan substring ini yaitu menemukan kemiripan yang significant sesuai dengan nilai ambang batas (threshold). Bila nilai hasil

(25)

pembandingan di bawah nilai ambang batas, maka dianggap kemiripannya tidak significant dan bila nilainya di atas atau sama dengan nilai ambang batas, maka dianggap kemiripannya significant.

Algoritma standar Smith-Waterman yang dipakai untuk penghitungan local alignment berdasarkan dokumen dari situs Baylor College of Medicine HGSC adalah:

1. Menambahkan sebuah nilai pada setiap perbandingan a. Menggunakan nilai positif, apabila memiliki kemiripan. b. Menggunakan nilai negatif, apabila memiliki perbedaan. 2. Inisialisasi awal matriks dengan nilai 0 (nol).

3. Semua nilai yang terdapat dalam matriks apabila lebih kecil dari 0 (nol), maka nilai dianggap 0 (nol).

4. Memulai traceback dari nilai yang tertinggi yang ditemukan dimanapun pada matriks.

5. Penghitungan dilanjutkan hingga skor bernilai 0 (nol).

Gambar 2.5 Nilai Perbandingan pada Sequence Alignment

Robert W. Irving (2004:5) merumuskan skema pemrograman dinamis algoritma klasik Smith-Waterman kedalam dua bagian, yaitu:

(26)

1. Didefinisikan Sij menjadi nilai maksimum yang didapatkan dari proses

perbandingan sebuah substring A pada posisi ke-i dengan sebuah substring B pada posisi ke-j. Hubungan rekurens standar untuk Sij, yaitu:

- Jika A(i) = B(j) maka Sij = Si-1,j-1+h, atau

- Jika A(i) ≠ B(j) maka Sij = max(0,Si-1,j-d,Si,j-1-d,Si-1,j-1-r)

- Dimana kondisi awal adalah Si,0 = S0, j = 0 untuk semua i,j.

2. Digunakan ide traceback path untuk mengkonstruksikan sebuah local alignment yang optimal pada posisi ke-i substring A dan posisi ke-j substring B agar lebih jelas terlihat. Dengan diberikan sel (i,j), dapat didefinisikan sebuah sel parent sebagai berikut:

- Jika Sij = 0, maka sel (i,j) tidak mempunyai parent

- Jika A(i) = B(j), maka sel (i,j) mempunyai parent sel (i-1,j-1)

- Sebagai tambahan, sel (i,j) mempunyai parent yaitu untuk sel (p,q) ∈ {(i-1,j),(i,j-1)} sehingga Sij = Spq-d, dan/atau sel (i-1,j-1) jika Sij = Si-1,j-1-r

Jadi, setiap sel yang mengandung nilai tidak nol mempunyai paling tidak sedikitnya satu parent, dan juga mungkin saja dapat memiliki tiga buah parent.

5.3 Pre-processing

Faktor-faktor yang digunakan untuk mengidentifikasi plagiarisme menurut Clough (2000:5) sebagian besar dapat diimplementasikan ke dalam bidang pemrograman komputer menggunakan algoritma standar Smith-Waterman dengan fungsi sequence alignment-nya. Akan tetapi, algoritma standar tersebut memiliki sifat yang hanya membandingkan secara eksplisit dua string tanpa mengetahui sifat karakter-karakter yang membentuk kedua string tersebut. Oleh karena itu dibutuhkan proses bantuan (pre-processing) dalam bentuk modul-modul tambahan, modul-modul tersebut tersebar di dalam proses pembobotan sesuai fungsi masing-masing modul. Pre-processing ini tentu akan menambah waktu proses sistem secara menyeluruh, tetapi

(27)

dengan adanya pereduksian noise yang dilakukan proses bantuan ini diharapkan dapat mengurangi kompleksitas pada saat pembandingan oleh algoritma Smith-Waterman. Adapun macam pre-processing yang dilakukan adalah:

4.3.1 Stemming

Stemming adalah proses mengembalikan berbagai macam bentukan kata ke dalam sebuah representasi yang sama. Misalnya kata “berlari” dan “dilarikan” akan diubah menjadi sebuah kata yang sama yaitu “lari”. Metode stemming memerlukan masukan berupa kata yang terdapat dalam suatu dokumen, dengan menghasilkan keluaran berupa root word. Mencari kata dasar (akar kata) dari suatu kata yang berimbuhan di dalam bahasa Indonesia merupakan pekerjaan yang kompleks. Berbeda dengan bahasa Inggris yang hanya memiliki imbuhan berupa suffixes (akhiran), kata-kata dalam bahasa Indonesia bisa memiliki imbuhan yang terdiri dari prefixes (awalan), suffixes (akhiran), infixes (sisipan) dan confixes (kombinasi dari awalan, akhiran dan sisipan). Penggunaan imbuhan di dalam bahasa Indonesia bisa memakai lebih dari satu prefiks dan sufiks dalam satu kata. Sebuah kata dengan awalan bisa memiliki arti yang berbeda dari kata dasarnya. hal ini disebut derivation word. selain itu sebuah awalan juga dapat mengubah huruf awal suatu akar kata yang biasa disebut peluluhan, sehingga dibutuhkan pengkodean ulang (recode) untuk menemukan kembali akar kata berdasarkan penggunaan awalan.

Banyak algoritma yang digunakan untuk memroses stemming dalam bahasa Indonesia antara lain algoritma Nazief dan Adriani, algoritma Arifin dan Setiono, algoritma Idris dan Mustofa, algoritma Vega, algoritma Ahmad, Yussof dan Sembok. Menurut Jelita Asian (2006) berdasarkan aturan morfologi bahasa Indonesia dapat dinyatakan bahwa algoritma Nazief dan Adriani adalah algoritma yang memiliki hasil terbaik. Nazief dan Adriani menyimpulkan sebuah kata dasar dapat ditambahkan imbuhan berupa derivation prefix (DP) di awal dan/atau diakhiri secara berurutan oleh derivation suffix (DS), possesive pronoun (PP) dan particle (P) yang masin-masing bersifat optional. Keterangan diatas dapat dirumuskan sebagai berikut:

(28)

DP + DP + DP + root word + DS + PP + P

Gambar 2.6 Format Kata Berimbuhan dalam Bahasa Indonesia

Adapun langkah-langkah yang digunakan oleh algoritma Nazief dan Adriani yaitu sebagai berikut:

1. Kata dicari di dalam daftar kamus. Bila kata tersebut ditemukan di dalam kamus, maka dapat diasumsikan kata tersebut adalah kata dasar sehingga algoritma dihentikan.

2. Bila kata di dalam langkah pertama tidak ditemukan di dalam kamus, maka diperiksa apakah sufiks tersebut yaitu sebuah partikel (“-lah” atau “-kah”). Bila ditemukan, maka partikel tersebut dihilangkan.

3. Pemeriksaan dilanjutkan pada kata ganti milik (“-ku”, “-mu”, “-nya”). Bila ditemukan, maka kata ganti tersebut dihilangkan.

4. Memeriksa akhiran (“-i”, “-an”). Bila ditemukan, maka akhiran tersebut dihilangkan.

Hingga langkah ke-4 dibutuhkan ketelitian untuk memeriksa apakah akhiran “-an” merupakan hanya bagian dari akhiran “-k“-an”, dan memeriksa lagi apakah partikel (“-lah”, “-kah”) dan kata ganti milik (“-ku”, “-mu”, “-nya”) yang telah dihilangkan pada langkah 2 dan 3 bukan merupakan bagian dari kata dasar.

5. Memeriksa awalan (“se-“, ”ke-“, “di-“, “te-“, “be-“, “pe-“, “me-“). Bila ditemukan, maka awalan tersebut dihilangkan. Pemeriksaan dilakukan dengan berulang mengingat adanya kemungkinan multi-prefix.

Langkah ke-5 ini juga membutuhkan ketelitian untuk memeriksa kemungkinan peluluhan awalan (Tabel 2.1), perubahan prefix yang disesuaikan dengan huruf-awal kata (Tabel 2.2) dan aturan kombinasi prefix-suffix yang diperbolehkan (Tabel 2.3).

(29)

6. Setelah menyelesaikan semua langkah dengan sukses, maka algoritma akan mengembalikan kata dasar yang ditemukan.

Tabel 2.1 Daftar Prefiks yang Meluluh

Jenis Prefiks Huruf Hasil Peluluhan

pe-/me- k -ng-

pe-/me- p -m-

pe-/me- s -ny-

pe-/me- t -n-

Tabel 2.2 Daftar Kemungkinan Perubahan Prefiks

Prefiks Perubahan

se- tidak berubah

ke- tidak berubah

di- tidak berubah

be- ber-

te- ter-

pe- per-, pen-, pem-, peng-

me- men-, mem-, meng-

Tabel 2.3 Daftar Kombinasi Prefiks dan Sufiks yang tidak diperbolehkan

Prefiks Sufiks yang tidak diperbolehkan

be- -i

di- -an

ke- -i, -kan

me- -an

se- -i,-kan

te- -an

pe- -kan

(30)

Antonio (1997) menyimpulkan bahwa Structural Characteristic adalah struktur pengindeksan internal dari tiap-tiap dokumen yang dihasilkan dengan menggabungkan struktur pohon dokumen beserta himpunan kata kuncinya. Di dalam pengimplementasian pendeteksian plagiarisme, structural characteristic atau yang disebut sebagai kesamaan struktural, akan digunakan untuk menguji dua buah dokumen yang akan dibandingkan lebih jauh lagi karena adanya persamaan kata kunci yang terkandung di dalam dua dokumen tersebut. Hal ini bisa dilihat dari himpunan kata kunci yang unik.

Bila kedua dokumen memiliki himpunan kata kunci yang relatif berbeda, maka dianggap bahwa kedua dokumen tersebut memiliki kandungan atau isi dokumen yang berbeda. Sebaliknya bila kedua dokumen memiliki hmpunan kata kunci yang relatif sama, maka dapat dianggap bahwa salah satu dokumen mungkin saja plagiat terhadap dokumen yang lain. Dengan demikian, proses selanjutnya yaitu pembandingan kalimat per kalimat. Di dalam proses ini juga dilakukan proses kesamaan struktural level dua. Bila dua kalimat memiliki himpunan kata kunci yang relatif berbeda, maka diasumsikan bahwa kedua kalimat tersebut memiliki makna semantik yang berbeda, dan sebaliknya. Melalui cara ini, dapat diharapkan pembandingan dengan algoritma Smith-Waterman hanya dilakukan bila kesamaan struktural kedua kalimat di dalam dua dokumen relatif memiliki kesamaan. Arti kata relatif di sini akan ditentukan dengan pendefinisian nilai ambang batas (threshold) yang dianggap significant untuk mendeteksi plagiarisme.

Misalkan terdapat dokumen A dan dokumen B, maka penghitungan kelayakan kesamaan strukturalAB adalah proses pembagian jumlah kemunculan kata kunci dari

dokumen A di dalam dokumenB dengan jumlah kata kunci yang dimiliki oleh

dokumen A. Sama saja dengan penghitungan kelayakan kesamaan strukturalBA, hanya

saja pembagian dilakukan dengan jumlah kata kunci yang dimiliki oleh dokumen B. Nilai tertinggi dari hasil kedua penghitungan ini merupakan nilai structural characteristic yang dicari.

Nilai yang dihasilkan dari proses kesamaan struktural merupakan nilai awal kecenderungan dua dokumen yang diidentifikasikan plagiat. Dilihat dari fungsi

(31)

structural characteristic yang menghitung derajat kata kunci yang unik dari dua dokumen, maka proses ini telah menjadi usaha awal untuk mendeteksi plagiarisme kata per kata, plagiarisme parafrase maupun plagiarisme struktur sumber. Dengan tujuan mempermudah penghitungan bobot dengan menggunakan algoritma Smith-Waterman, maka nilai kesamaan struktural merupakan bagian proses perhitungan bobot plagiarisme oleh sistem.

4.3.3 Proses Tambahan

Proses tambahan bertujuan menghilangkan noise pada dokumen untuk mempermudah pembandingan (memperkecil kompleksitas) pada saat pembobotan oleh algoritma Smith-Waterman. Penghilangan noise terdiri atas:

1. Pengubahan penulisan angka secara numerik menjadi penulisan angka secara alphabet.

Proses ini lebih bersifat mempermudah pembadingan kata dengan menyeragamkan penulisan angka tanpa bermaksud mengubah makna dari kalimat.

2. Penghilangan kata yang tergolong closed-class word dan stop words,

Menurut Ruli Manurung (2008) closed-class word adalah kelas kata yang keanggotaannya biasanya kecil dan stabil. Kebalikan dari closed-class word adalah open-class word, yaitu kelompok kata yang keanggotaannya biasanya besar dan senantiasa bertambah, hal ini bisa dikarenakan faktor serapan bahasa lain, teknologi baru ataupun adanya imbuhan. Yang termasuk di dalam closed-class word yaitu preposition, determiner, pronoun, conjuction, auxiliary verb, particle dan numeral.

Oleh karena closed-class word merupakan bahasa yang jumlahnya terbatas maka dapat dilakukan proses eliminasi pada pendeteksian plagiarisme, tetapi tidak semua kelas kata akan dihilangkan karena ada beberapa kelas kata yang mempunyai nilai semantik yang dapat mengubah makna dari suatu kalimat atapun memberikan efek ambigu. Kelas kata yang tidak akan dihilangkan dari

(32)

proses eliminasi yaitu kelas kata determiner, numeral, particle, pronoun, dan sebagian preposition.

Menurut penjelasan Yudi Wibisono dari blog-nya, stop words adalah kata umum (common words) yang biasanya muncul dalam jumlah besar dan dianggap tidak memiliki makna. Stop words umumnya dimanfaatkan dalam task information retrieval. stop words untuk bahasa Inggris diantaranya ‘of’, ‘the’, sedangkan untuk bahasa Indonesia diantaranya ‘yang’, ‘di’, ‘ke’.

3. Penghilangan string yang merupakan kalimat kutipan langsung.

Didalam penulisan karya ilmiah, kutipan langsung sering digunakan sebagai pencatatan sumber-sumber tertulis. Kutipan langsung merupakan copy-an dari tulisan asli dengan menyatakan sumbernya, sehingga tidak terhitung tindakan plagiat. Kutipan langsung yang sering dipakai dalam penulisan skripsi adalah kutipan langsung yang terdiri kurang dari empat baris dan memiliki aturan terikat dimana kutipan harus ditulis didalam tanda kutip dua (“...”). sedangkan kutipan tidak langsung bersifat tidak terikat yang artinya isi dari tulisan merupakan pendapat bebas yang dikemukakan kembali dengan suatu perubahan. Oleh karena itu, proses identifikasi hanya mempertimbangkan kutipan yang berjenis kutipan langsung yang terdiri kurang dari empat baris.

(33)

BAB III

ANALISIS DAN PERANCANGAN SISTEM

5.1 Analisis Masalah Umum

Algoritma Smith-Waterman merupakan algoritma yang telah dipakai di dalam bidang bioinformatika yang kemudian diimplementasikan ke dalam pemrograman komputer. Dalam bidang pemrograman komput er, algoritma Smith-Waterman digunakan sebagai algoritma dasar untuk membangun prototype suatu sistem dengan tujuan dapat mendeteksi plagiarisme antara dua dokumen teks. Secara default algoritma Smith-Waterman memiliki kemampuan yang sangat baik dalam mengidentifikasi kemiripan dua sequences, tetapi dalam penerapannya (memeriksa dan membandingkan dokumen teks berbahasa Indonesia), muncul permasalahan yang mungkin tidak ditemukan pada saat pembandingan nucleotide atau protein sequences di bidang bioinformatika.

Permasalahan yang ditemukan dalam mengidentifikasi local alignment antara dua buah dokumen teks menggunakan algoritma Smith-Waterman, yaitu:

1. Algoritma Smith-Waterman membutuhkan sumber memori dan waktu proses yang besar untuk membandingkan dua buah dokumen dalam sekali proses. Besar memori dan lamanya proses tergantung dari panjangnya dokumen. Panjang dokumen yang dimaksud adalah banyaknya kalimat yang dikandung oleh dokumen tersebut dan banyaknya kata dari masing-masing kalimat.

(34)

Dengan panjang dokumen A adalah m dan panjang dokumen B adalah n maka diketahui bahwa kompleksitas yang dimiliki oleh algoritma Smith-Waterman adalah O(mn). Kebutuhan waktu dan space tentu sangat mempengaruhi proses pembandingan dua sequence pada implementasi pemrograman komputer. Untuk mengurangi kompleksitas tersebut dipakai penghitungan kesamaan struktural sebagai gerbang penentu setiap proses pembandingan. Dalam sekali proses pembandingan terdapat dua tingkatan penghitungan kesamaan struktural, yaitu proses pembandingan dokumen dan proses pembandingan kalimat. Apabila nilai hasil penghitungan kesamaan struktural lebih kecil dari threshold (nilai ambang batas), maka ditentukan bahwa sequence tidak membutuhkan proses lebih lanjut.

2. Dalam membandingkan dua sequence, algoritma Smith-Waterman akan merepresentasikan tiap kata yang sama dari dua buah kalimat yang berbeda menjadi sebuah simbol yang sama, proses ini disebut tokenisasi. Terdapat kemungkinan walupun kecil suatu kalimat mengandung kata-kata yang sama sekali berbeda terhadap kata-kata yang dikandung oleh kalimat lain. Bila asumsi tersebut terjadi, proses tokenisasi tentunya harus membutuhkan source simbol yang lebih besar dibandingkan jumlah kata dari dua kalimat tersebut. Apabila sistem menggunakan karakter ASCII (American Standard Code for Information Interchange) yang terdiri atas 128 karakter sebagai source simbol sedangkan kedua kalimat yang dibandingkan memiliki lebih dari 128 kata, maka tidak akan terjadi proses pembandingan yang sempurna karena keterbatasan simbol. Dalam skripsi ini, source simbol yang dipakai adalah token numerik yang bertipe data positif integer yang memiliki rentang nilai 0 hingga 231-1 (berjumlah 2147483647 angka yang berbeda).

3. Algoritma Smith-Waterman hanya membandingkan secara eksplisit dua buah string tanpa mengetahui sifat-sifat karakter pembangun kedua string yang dibandingkan. Dua buah kata yang ditulis berbeda bisa bermakna sama dalam hal bentukan maupun arti oleh karena itu butuhkan proses pengkodean dengan simbol yang sama untuk mengoptimalkan proses tokenisasi. Dalam penulisan

(35)

skripsi ini, pengkodean dengan simbol yang sama yang dikerjakan hanya bersifat sama bentuk melalui proses stemming. Sedangkan pengkodean dengan simbol yang sama dalam hal kesamaan arti seperti konversi sinonim ataupun penentuan jenis kata seperti metode part of speech-tagging belum dapat diimplementasikan. Permasalahan yang lain ialah adanya kemunculan kata-kata yang sebaiknya dibuang karena tidak terlalu mempengaruhi susunan dan makna dari suatu kalimat. Seperti yang sudah dijelaskan pada bab 2, untuk mengurangi noise tersebut digunakan proses eliminasi closed-class word dan eliminasi stop-words.

Berbeda dengan mendeteksi plagiarisme pada source code program yang memiliki aturan dan penulisan yang jelas dan teratur, mendeteksi plagiarisme antara dua dokumen teks lebih sulit dikarenakan bahasa manusia lebih bersifat dinamis yaitu terus mengalami perubahan dan memiliki banyak faktor pengubah yang juga ikut berubah (fleksibel). Oleh karena itu sistem yang dibangun bersifat hanya membantu semaksimal mungkin pengguna mempercepat dan mempertepat mengidentifikasi suatu dokumen teks yang terdeteksi plagiat.

5.2 Spesifikasi Umum Kebutuhan Sistem

Dalam skripsi ini, dibangun sebuah sistem pendeteksi plagiarisme pada dokumen teks yang mengimplementasikan algoritma Smith-Waterman. Sistem ini dirancang menggunakan metode pendekatan atas-bawah (Top-Down Approach) sehingga perancangan dimulai dari bentuk yang paling umum, kemudian diturunkan secara bertahap menjadi bentuk yang lebih detail. Spesifikasi umum kebutuhan sistem menjelaskan dasar pembuatan rancangan sistem yang terdiri dari fungsi sistem, tujuan sistem, masukan dan keluaran sistem, dan batasan sistem.

4.2.1 Fungsi Sistem

(36)

1. Membaca plain text document yang berekstensi txt.

2. Menghitung kesamaan struktural untuk menentukan kata kunci.

3. Melakukan parsing atau penguraian kalimat dan kata dari suatu dokumen. 4. Melakukan tokenisasi kata.

5. Menampilkan local alignment dengan membandingkan dua buah sekuens. 6. Menghitung bobot nilai dari local alignment.

4.2.2 Tujuan Sistem

Sistem yang dibuat harus memiliki tujuan sebagai berikut:

1. Menunjukan local alignment dalam matriks dua dimensi yang menunjukan hasil pembandingan dua buah dokumen dan hasil pembandingan tiap-tiap kalimat dari kedua dokumen.

2. Memberikan pembobotan nilai yang mengidentifikasi kecenderungan terjadinya plagiarisme.

4.2.3 Masukan dan Keluaran Sistem

Masukan (input) yang dibutuhkan sistem berupa:

1. copy document, yaitu dokumen yang dianggap hasil plagiat 2. source document, yaitu dokumen yang dianggap sumber ide 3. Batasan nilai (threshold)

Keluaran (output) yang dihasilkan dari sistem adalah local alignment yang ditampilkan masing-masing dalam bentuk dua dimensi untuk setiap pembandingan kalimat dan bobot/nilai kecenderungan plagiarisme dari pembandingan kedua dokumen.

(37)

Sistem yang dibuat memilki batasan-batasan sebagai berikut:

1. Sistem hanya dapat memproses dokumen teks berbahasa Indonesia yang diasumsikan sesuai dengan aturan penulisan karya ilmiah.

2. Sistem hanya membandingkan dua buah dokumen dalam sekali proses.

3. Sistem hanya menerima masukan dokumen yang berasal dari koleksi uji yang berlokasi sama denga lokasi program.

4. Sistem tidak memberikan keputusan mutlak terhadap dokumen yang diidentifikasi plagiat.

5.3 Pemodelan Fungsi

Pada sistem pendeteksi plagiarisme pada dokumen teks yang menggunakan algoritma Smith-Waterman terdapat empat proses utama. Empat proses utama ini terdiri dari proses pembacaan dokumen, proses penghitungan kesamaan struktural, proses optimasi dan proses penghitungan bobot dengan algoritma Smith-Waterman. Proses penghitugan kesamaan struktural dilakukan dua kali dalam tingkat yang berbeda. Proses kesamaan struktural tingkat I berfungsi menghitung derajat keanggotaan kata-kata yang menyusun dua string dokumen. Sedangkan proses kesamaan struktural tingkat II berfungsi menghitung derajat keanggotan kata-kata yang menyusun dua string kalimat. Selain keempat proses utama diatas, terdapat proses parsing.

4.3.1 Data Flow Diagram (DFD)

Untuk membantu perancangan sistem digunakan DFD (Data Flow Diagram), yaitu pemodelan fungsi yang menggambarkan secara umum proses sistem yang terjadi dengan menggunakan notasi-notasi yang memperlihatkan dan mendefinisikan dengan jelas masukan dan keluaran data pada masing-masing proses. Model fungsional ini berfungsi membantu memahami cara kerja sistem dan hubungan setiap proses dalam sistem secara terstruktur dan logis.

(38)

Dengan mengidentifikasikan semua kesatuan luar yang terlibat dengan sistem dan semua masukan dan keluaran yang berhubungan dengan kesatuan luar, maka dapat dijelaskan bahwa input merupakan pilihan menu yang terdiri atas tiga option, yaitu:

1. Deteksi plagiarisme 2. Informasi sistem 3. Keluaran dari sistem

Sistem pendeteksi akan memberikan output sesuai pilihan yang di-input oleh user. Output yang mungkin dihasilkan oleh sistem adalah sebagai berikut:

1. Tampilan teks pada layar komputer yang memberikan keterangan mengenai sistem pendeteksi plagiarisme.

2. Bobot kecenderungan plagiarisme dan local similarities yang dihasilkan.

Dari penjelasan input-output sistem pendeteksi plagiarisme di atas, mak dapat digambarkan DFD level 0 atau diagram konteks dari sistem pendeteksi plagiarisme seperti di bawah ini.

PEMERIKSA SISTEM PENDETEKSI

PLAGIARISME Informasi_Sistem

Pilihan_Menu

Bobot_Plagiarisme dan Local_Similarities

(39)

Diagram konteks berfungsi menggambarkan hubungan antara entitas luar, berupa masukan dan keluaran sistem. Dari Gambar 3.1 dapat dilihat hanya terdapat sebuah entitas luar, yaitu pemeriksa. Pemeriksa merupakan source terminal yang memberikan masukan ke sistem dan juga merupakan sink terminal yang menerima keluaran dari sistem.

Dalam konteks pemakaian sistem pendeteksi plagiarisme, maka definisi pemeriksa yang melakukan proses input dan menerima output merupakan pengguna yang bertingkat, sebagai contoh pengguna I adalah dosen dan pengguna II adalah mahasiswa. Dengan penjelasan, pengguna I menggunakan secara langsung sistem pendeteksi plagiarisme dan hasilnya dapat diberikan kepada pengguna II. Pengguna tingkat kedua merupakan pengguna yang tidak berinteraksi langsung dengan sistem sehingga pengguna tingkat kedua tidak digambarkan pada diagram konteks.

Data pilihan menu pada diagram konteks terdiri dari tiga option. Seperti yang telah dijelaskan sebelumnya bahwa pilihan ketiga adalah perintah untuk keluar dari sistem, maka DFD level 1 hanya terdiri atas dua proses, yaitu proses tampilkan informasi dan proses deteksi plagiarisme. DFD level 1 dapat digambarkan sebagai berikut. PEMERIKSA TAMPILKAN INFORMASI Informasi_Sistem Bobot_Plagiarisme dan Local_Similarities 1.1* DETEKSI PLAGIARISME 1.2 Option_1 Option_2 Path_Source_File Path_Copy_File Database Source File Database Copy File Source_File Copy_File

(40)

Gambar 3.2 DFD Level 1

Proses tampilkan informasi (1.1) adalah proses tambahan pada sistem yang berguna menampilkan teks informasi pada layar monitor. Sedangkan proses deteksi plagiarisme (1.2) merupakan proses utama dari sistem pendeteksi plagiarisme. Proses ini membutuhkan data masukan berupa path source file dan path copy file yang menentukan lokasi dokumen yang akan dibandingkan.

Masing-masing entitas data yang tercantum pada DFD level 1 ditampilkan pada tabel di bawah ini.

Tabel 3.1 Entitas Data pada DFD Level 1

Nama Keterangan

Option_1 Pilihan yang di-input pemeriksa yang menandakan

pemeriksa ingin mendeteksi plagiarisme

Option_2 Pilihan yang di-input pemeriksa yang ingin

menampilkan informasi mengenai sistem pendeteksi plagiarisme

Informasi_sistem Informasi tekstual yang ditampilkan sistem pada layar monitor komputer mengenai sistem pendeteksi plagiarisme

Bobot_plagiarisme dan local_similarities

Output yang dihasilkan sistem pendeteksi plagiarisme yang memberi nilai kecenderungan tindakan plagiat Path_source_file Lokasi source file yang berada dalam harddisk

komputer

Path_copy_file Lokasi copy file yang berada dalam harddisk komputer Source_file Dokumen yang diasumsikan sumber ide dari tindakan

plagiat

(41)

Proses deteksi plagiarisme terdiri dari tiga proses, yaitu proses baca dokumen, proses optimasi dan proses pembobotan. Proses optimasi pada DFD level 2 merupakan proses bantuan pre-processing, sehingga proses optimasi ini hanya mengoptimalkan source dan copy file yang dibandingkan. DFD level 2 untuk proses deteksi plagiarisme dapat digambarkan sebagai berikut.

PEMERIKSA Bobot_Plagiarisme dan Local_Similarities BACA DOKUMEN 1.2.1* Path_Copy_File Database Source File Database Copy File Source_File Copy_File Path_Source_File OPTIMASI PEMBOBOTAN 1.2.2* 1.2.3* Copy_File Source_File Copy_File_TerOptimasi Source_File_TerOptimasi Gambar 3.3 DFD Level 2

Proses baca dokumen (1.2.1) berfungsi membaca dokumen dari corpus (kumpulan dokumen) yang merupakan lokasi source file dan copy file yang ingin dibandingkan. Untuk memperoleh kedua file tersebut, pengguna harus memasukan kedua path file tersebut terlebih dahulu. Proses baca dokumen memiliki fungsionalitas sebagai berikut:

a. Pembacaan karakter dari tiap dokumen

b. Penghapusan string yang berada di dalam tanda kutip dua c. Konversi huruf besar menjadi huruf kecil

(42)

Proses baca dokumen dimulai dengan membaca file karakter per karakter dan melakukan konversi semua karakter dokumen menjadi huruf kecil. Karakter yang dikumpulkan dibentuk menjadi kalimat sebelum dilakukan pemeriksaan kalimat yang diasumsikan tergolong kutipan langsung. Proses baca dokumen akan mengembalikan pasangan file menjadi pasangan string dokumen. Alur proses baca dokumen dapat dilihat pada gambar flowchart di bawah ini

mulai file Baca file perkarakter Karakter==null selesai ya

Konversi huruf besar menjadi huruf kecil

(karakter==null) atau (karakter==angka) Kalimat += karakter Kalimat kutipan langsung Dokumen += kalimat dokumen tidak

tidak Hapus kalimat

ya tidak

(43)

Gambar 3.4 Flowchart Untuk Proses Baca Dokumen

Proses optimasi berfungsi mengoptimalkan kalimat dengan mengurangi noise berupa penghilangan kata yang tergolong closed-class word dan stop words dalam masing-masing kalimat dan mengembalikan bentukan dasar dari kata yang berimbuhan. Proses optmiasi merupakan proses yang mengolah dokumen dalam bentuk kata per kata. Alur proses optimasi dapat dilihat pada gambar flowchart di bawah ini.

mulai

dokumen

parsing

Cek jenis kata

Hapus kata

Ambil sebuah kata

Dokumen += kata dokumen Dokumen==null selesai Kata tergolong closed-class word

dan stop word

stemming

ya

tidak

ya

(44)

Gambar 3.5 Flowchart Untuk Proses Optimasi

Proses optimasi (1.2.2) berguna untuk mengoptimalkan pasangan dokumen yang dibandingkan secara keseluruhan dengan menghilangkan data noise. Proses ini mengandung subproses:

a. Eliminasi closed-class word b. Eliminasi stop words

c. Stemming

Di dalam proses optimasi terdapat proses parsing. Proses ini berguna memecah file/dokumen menjadi bagian yang lebih sederhana yaitu menguraikan dokumen menjadi kalimat-kalimat dan menguraikan kalimat menjadi kata-kata. Pada proses optimasi juga terdapat proses stemming. Proses ini memiliki beberapa subproses yaitu:

1. Pemeriksaan awalan (prefix) 2. Pemeriksaan akhiran (suffix)

3. Pemeriksaan partikel (particle) dan kata ganti orang (possesive pronoun)

Pembuatan setiap file di dalam database kamus yang digunakan pada proses stemming merupakan file plain text, dimana setiap kata di dalam file merupakan kata dasar dan digolongkan ke dalam 26 file tekstual yang mewakili masing-masing huruf awal dari tiap kata. Sebagai contoh kata “saya” akan dimasukkan ke dalam file a.txt, sedangkan kata “pergi” dimasukkan ke dalam file p.txt. Format penulisan kata-kata di dalam file ditulis terurut dan satu kata dengan kata yang lain dipisahkan oleh tanda titik tanpa spasi.

Proses yang terakhir adalah proses pembobotan melalui pembandingan dengan menggunakan algoritma Smith-Waterman. Di dalam proses ini terdapat proses tokenisasi yaitu proses yang merepresentasikan tiap kata dari dokumen menjadi simbol numerik. Alur penghitungan bobot/nilai menggunakan algoritma Smith-Waterman dapat digambarkan seperti flowchart di bawah ini.

(45)

mulai kalimat tokenisasi Pembandingan dengan algoritma Smith-Waterman Bobot plagiarisme dan local similarities selesai

Gambar 3.6 Flowchart Untuk Proses Pembobotan Algoritma Smith-Waterman

3.4 Perancangan Sistem

Rancangan antarmuka dari sistem ini masih menggunakan command line interface (CLI) karena penelitian skripsi ini lebih difokuskan pada analisis algoritma Smith-Waterman dan pengimplementasinya di dalam pemrograman komputer. Sehingga sisi interface tidak begitu diperhatikan.

(46)

Gambar 3.8 Antarmuka Submenu Pilihan Pertama

(47)

Gambar 3.10 Antarmuka Hasil Pembandingan pada Submenu Pilihan Pertama

(48)

Berdasarkan analisis rancangan sistem DFD yang dibuat, maka dapat digambarkan arsitektur algoritma sistem pendeteksi plagiarisme secara menyeluruh dalam bentuk flowchart.

MULAI ERROR ya SELESAI DOKUMEN BACA DOKUMEN PARSING DOKUMEN HITUNG KESAMAAN STRUKTURAL i Nilai Kesamaan Struktural > Threshold tidak PARSING KALIMAT HITUNG KESAMAAN STRUKTURAL II Nilai Kesamaan Struktural > Threshold tidak

OPTIMASI HITUNG BOBOT

CEK KALIMAT SELANJUTNYA Kalimat==null tidak ya ya ya BOBOT tidak

(49)

Dari Gambar 3.5 dapat dijelaskan bahwa sistem pendeteksi plagiarisme menggunakan algoritma Smith-Waterman tersusun atas modul-modul yang disesuaikan dengan DFD yang telah dijelaskan pada subbab sebelumnya terdiri dari enam modul penting. Berikut adalah tanggung jawab untuk masing-masing modul:

Tabel 3.2 Tanggung Jawab Modul

No. Modul Tanggung Jawab

1 Utama/Main Menampilkan antarmuka dan sebagai modul utama dari sistem pendeteksi plagiarisme 2 Pembacaan Dokumen Melakukan pembacaan plain text document

yang berformat *.txt secara karakter per karakter

3 Penghitungan Kesamaan Struktural

Menghitung derajat keanggotaan kata-kata yang menyusun dua string kalimat yang diperiksa.

4 Optimasi Menghapus semua kata yang tergolong kelas closed-class word dan stop words.

5 Stemming Mengembalikan berbagai macam bentukan

kata ke dalam representasi dasar kata 6 Penghitungan Bobot

menggunakan algoritma Smith-Waterman

Menghitung bobot masing-masing pasangan dokumen dengan mengidentifikasikan local similarities setiap pasangan string kalimat.

(50)

BAB IV

IMPLEMENTASI DAN PENGUJIAN SISTEM

5.1 Implementasi

Proses implementasi yang dilakukan bertujuan untuk merancang sebuah aplikasi pendeteksi plagiarisme menggunakan algoritma standar Smith-Waterman dengan proses bantuan pre-processing.

Aplikasi yang dihasilkan dari proses implementasi pada pembuatan skripsi ini merupakan sebuah aplikasi sistem. Dikatakan aplikasi sistem karena aplikasi yang dibangun merupakan jaringan kerja yang terdiri dari prosedur-prosedur yang saling berhubungan satu sama lain untuk melakukan suatu usaha atau sasaran tertentu, yaitu mendeteksi plagiarisme. Pada umumnya di dalam sebuah sistem terdapat fungsi-fungsi teknologi seperti input, process, output, storage dan communication. Selain hardware, software, informasi dan prosedur-prosedur dalam bentuk program, faktor brainware sebagai salah satu esensi sistem juga dibutuhkan. Sistem pendeteksi plagiarisme yang dirancang dalam penulisan skripsi ini mengadopsi penjelasan tersebut dengan mengikut-sertakan pengguna sebagai user, operator dan decision maker terhadap bobot/nilai hasil keluaran sistem dalam menentukan pasangan dokumen apakah termasuk hasil tindakan plagiat atau tidak. Hal ini menjelaskan bahwa bobot yang dihasilkan oleh sistem pendeteksi plagiarisme ini merupakan nilai relatif.

Nilai ambang batas (threshold) yang digunakan dalam sistem pendeteksi plagiarisme ini tidak hanya menjadi nilai pembanding terhadap nilai hasil proses kesamaan struktural yang digunakan sebagai syarat untuk melanjutkan proses

(51)

penghitungan bobot plagiarisme. Nilai threshold juga dimanfaatkan sebagai faktor yang menentukan bobot plagiarisme dari dua dokumen yang dibandingkan. Rumus perhitungan tersebut dapat dilihat sebagai berikut:

Bobot Sistem = threshold + (( 1 – threshold ) * bobot Smith-Waterman)

Secara default nilai threshold yang digunakan adalah 0.5 dengan asumsi apabila hasil pembandingan dua buah dokumen bernilai diatas 50%, maka pasangan dokumen dianggap hasil tindakan plagiat. Bobot Smith-Waterman merupakan bobot yang dihasilkan oleh algoritma Smith-Waterman secara standar. Sedangkan bobot sistem merupakan output akhir dari seluruh proses yang akan diterima oleh user. Sebagai pendeteksi plagiarisme, sistem tidak hanya memberi keluaran berupa bobot/nilai dalam bentuk persentase kecenderungan tindakan plagiat. Sistem juga akan memberikan keluaran berupa hasil pembandingan tiap token (kata) dari dua kalimat yang dibandingkan berupa local alignment yang berbentuk tabel, sehingga pengguna dapat melihat local similarities tiap kalimat dari dua dokumen yang dibandingkan dari tabel tersebut.

4.1.1 Lingkungan Implementasi

Lingkungan implementasi yang akan dijelaskan merupakan lingkungan perangkat keras (hardware) dan perangkat lunak (software) yang digunakan dalam penulisan skripsi ini.

Spesifikasi perangkat keras yang digunakan adalah sebagai berikut: 1. Processor Intel(R) Core(TM) 2 T5300 1.73 GHz

2. Memory RAM 1526 MB 3. Harddisk Fujitsu 80 GB

4. Perangkat output berupa monitor LCD Widescreen 14.1” 5. Perangkat input berupa mouse dan keyboard

(52)

Spesifikasi perangkat lunak yang digunakan adalah sebagai berikut: 1. Operating system Microsoft Windows VistaTM Ultimate

2. JDK6, mencakup Java versi 1.6.0 dan Java(TM) SE Runtime Environment 3. Java Editor Netbeans 5.5.1

4. Text Editor Notepad

4.1.2 Batasan Implementasi

Batasan yang didefinisikan untuk implementasi sistem pendeteksi ini adalah sebagai berikut:

1. Mengasumsikan bahwa pengguna atau user hanya memasukan data berupa dokumen berbahasa Indonesia,.

2. Hanya dapat membandingkan dua dokumen dalam sekali proses pengidentifikasian plagiarisme.

3. Hanya memproses file dokumen dengan format *.txt (tekstual), sehingga tidak membandingkan gambar, tabel atau objek semacamnya.

4. Mengasumsikan bahwa dokumen merupakan tulisan ilmiah seperti laporan, tugas, makalah ataupun skripsi mahasiswa, maka sistem menganggap penulisan dokumen telah sesuai dengan aturan-aturan penulisan dokumen berbahasa Indonesia secara resmi.

5.2 Pengujian

Di dalam pengujian ini dilakukan dua buah pendekatan yaitu pendekatan yang hanya menggunakan algoritma Smith-Waterman secara standar dan pendekatan yang telah menggunakan proses tambahan pre-processing untuk mengoptimalkan algoritma Smith-Waterman. Proses pengujian sistem ini dilakukan pada sebuah komputer yang bersifat offline atau tidak terhubung dengan jaringan.

(53)

4.2.1 Tujuan Pengujian

Beberapa hal yang menjadi tujuan dari pelaksanaan pengujian sistem pendeteksi plagiarisme ini adalah:

1. Membuktikan akurasi algoritma Smith-Waterman dalam mendeteksi local similarities antara dua dokumen teks berbahasa Indonesia.

2. Meneliti performa pre-processing yang dipakai dalam sistem dan pengaruhnya terhadap algoritma Smith-Waterman dalam meningkatkan kemampuan mengidentifikasi dokumen yang tidak dan terbukti plagiat.

3. Membuktikan bahwa algoritma Smith-Waterman merupakan algoritma yang sesuai untuk membangun sistem pendeteksi plagiarisme pada dokumen teks berbahasa Indonesia.

4.2.2 Data Pengujian

Di dalam mengidentifikasi plagiarisme terdapat pertimbangan dalam menentukan data pengujian yang tepat. Pertimbangan yang dimaksud adalah data pengujian yang memiliki definisi jelas antara dokumen yang merupakan plagiat (100% plagiat) dan dokumen yang bukan merupakan plagiat (0% plagiat). Data yang digunakan sebagai bahan pengujian masing-masing hanya terdiri dari sebuah paragraf dan merupakan file dokumen yang dibuat secara manual, hal ini dikarenakan tidak adanya standar atau parameter yang jelas yang digunakan sebagai pengukur seberapa besar tingkat plagiarisme yang dilakukan. Untuk mempermudah identifikasi dan penentuan batas ukur performa sistem, maka objek berupa gambar, tabel tidak diikutsertakan dalam proses pembandingan. Berdasarkan jenis pengujiannya data set terdiri atas:

1. Data Set Deterministik 1, yaitu data set yang terdiri atas dokumen yang memanipulasi pengubahan struktur kalimat di dalam paragraf.

2. Data Set Deterministik 2, yaitu data set yang terdiri atas dokumen yang memanipulasi pengubahan struktur kata di dalam kalimat.

(54)

4.2.3 Skenario Pengujian

Dengan memanfaatkan pembandingan hasil keluaran algoritma standar Smith-Waterman dengan algoritma Smith-Smith-Waterman yang telah dibantu dengan proses pre-processing, maka dapat dilihat perbedaan akurasi dan performanya. Berdasarkan data set, maka di dalam pengujian tingkat akurasi dilakukan dua jenis pengujian sekaligus dalam sekali proses pembandingan yaitu:

1. Pengujian pengubahan struktur kalimat.

Pengujian ini ditujukan untuk melihat akurasi dari algoritma Smith-Waterman yang telah dibantu oleh proses pre-processing dalam membandingkan dua dokumen yang sama tetapi telah mengalami perubahan struktur paragraf yang diplagiat dengan mengubah paragraf berjenis deduktif menjadi berjenis induktif, atau sebaliknya. Sedangkan untuk pengubahan struktur kata di dalam kalimat dapat dilakukan dengan mengubah kalimat aktif menjadi pasif atau sebaliknya dengan penukaran posisi subjek ataupun kata keterangan dan perubahan kata yang berimbuhan. Misalnya tiga kalimat di bawah ini:

a. Tadi siang Abul memukul Panji di dalam kelas. b. Di dalam kelas Panji dipukul Abul siang tadi. c. Abul memukul Panji didalam kelas siang tadi.

2. Pengujian pengkonversian angka, eliminasi closed-class word dan stop words, pendeteksian kutipan dan stemming.

Pengujian ini ditujukan untuk melihat kemampuan dari fungsi pre-processing yang bertugas membantu proses pembandingan dan pembobotan oleh algoritma Smith-Waterman.

(55)

Selain pengujian akurasi, juga dilakukan pengujian waktu proses. Pengujian ini ditujukan untuk mengamati secara eksplisit waktu proses pre-processing yang diimplementasikan di dalam sistem pendeteksi plagiarisme sehingga dapat diketahui performa keseluruhan sistem yang telah mengandung proses bantuan. Data set yang digunakan di dalam pengujian ini sama dengan data set yang digunakan pada pengujian akurasi. Penggunaan data set yang sama merupakan cara untuk mempermudah melihat hubungan akurasi dan performa dari proses pembandingan oleh sistem.

4.2.4 Hasil Pengujian

Output hasil pengujian sistem ditampilkan dalam bentuk tabel. Nilai yang ditampilkan di setiap sel merupakan bobot/nilai keseluruhan dari pembandingan dua buah dokumen uji, dimana nilai tiap pembandingan dokumen merupakan nilai pembulatan. Untuk setiap pembandingan dua kalimat yang dideteksi plagiat, sistem sebenarnya akan menampilkan pasangan-pasangan kalimat yang terdeteksi plagiat disertai local alignment dalam matriks dua dimensi dan memberikan hasil akhir berupa bobot/nilai plagiarisme. Berdasarkan skenario yang telah dijelaskan pada subbab 4.2.3 dan dengan menggunakan nilai threshold sebesar 0.5, maka didapat setiap hasil pengujian sebagai berikut:

1. Hasil Pengujian Akurasi

Memperlihatkan hasil pengujian dari empat kali percobaan yang terdiri dari dua jenis data set dengan menggunakan algoritma standar Smith-Waterman dan bantuan proses tambahan pre-processing dan algoritma standar Smith-Waterman