• Tidak ada hasil yang ditemukan

PENDETEKSIAN KESAMAAN PADA DOKUMEN TEKS MENGGUNAKAN KOMBINASI ALGORITMA ENHANCED CONFIX STRIPPING DAN ALGORITMA WINNOWING SKRIPSI ADE CHANIA SION SAGALA 091402044

N/A
N/A
Protected

Academic year: 2019

Membagikan "PENDETEKSIAN KESAMAAN PADA DOKUMEN TEKS MENGGUNAKAN KOMBINASI ALGORITMA ENHANCED CONFIX STRIPPING DAN ALGORITMA WINNOWING SKRIPSI ADE CHANIA SION SAGALA 091402044"

Copied!
11
0
0

Teks penuh

(1)

PENDETEKSIAN KESAMAAN PADA DOKUMEN TEKS

MENGGUNAKAN KOMBINASI ALGORITMA

ENHANCED CONFIX STRIPPING

DAN

ALGORITMA

WINNOWING

SKRIPSI

ADE CHANIA SION SAGALA

091402044

PROGRAM STUDI S1 TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA

MEDAN

(2)

PENDETEKSIAN KESAMAAN PADA DOKUMEN TEKS

MENGGUNAKAN KOMBINASI ALGORITMA

ENHANCED CONFIX STRIPPING

DAN

ALGORITMA

WINNOWING

SKRIPSI

Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana Teknologi Informasi

ADE CHANIA SION SAGALA

091402044

PROGRAM STUDI S1 TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA

MEDAN

(3)

PERSETUJUAN

Judul : PENDETEKSIAN KESAMAAN PADA DOKUMEN TEKS MENGGUNAKAN KOMBINASI ALGORITMA ENHANCED CONFIX STRIPPING DAN ALGORITMA WINNOWING

Kategori : SKRIPSI

Nama : ADE CHANIA SION SAGALA Nomor Induk Mahasiswa : 091402044

Program Studi : SARJANA (S1) TEKNOLOGI INFORMASI Departemen : TEKNOLOGI INFORMASI

Fakultas : ILMU KOMPUTER DAN TEKNOLOGI

INFORMASI (FASILKOM-TI) UNIVERSITAS SUMATERA UTARA

Diluluskan di

Medan, 29 Agustus 2014

Komisi Pembimbing:

Pembimbing 2 Pembimbing 1

Romi Fadillah Rahmat, B.Comp.Sc., M.Sc. Maya Silvi Lydia, B.Sc., M.Sc. NIP 19860303 201012 1 004 NIP 19740127 200212 2 001

Diketahui/Disetujui oleh

Program Studi S1 Teknologi Informasi Ketua,

(4)

iii

PERNYATAAN

PENDETEKSIAN KESAMAAN PADA DOKUMEN TEKS MENGGUNAKAN KOMBINASI ALGORITMA ENHANCED CONFIX STRIPPING

DAN ALGORITMA WINNOWING

SKRIPSI

Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.

Medan, 29 Agustus 2014

(5)

UCAPAN TERIMA KASIH

Segala puji dan syukur penulis sampaikan kepada Tuhan Yesus yang telah memberikan berkat-Nya yang melimpah sehingga penulis dapat menyelesaikan skripsi ini dengan baik untuk memperoleh gelar Sarjana Teknologi Informasi, Program Studi S1 Teknologi Informasi Universitas Sumatera Utara.

Dengan segala kerendahan hati penulis ucapkan terima kasih kepada:

1. Ayah penulis, alm. Alfanus Februanto Sagala, S.H., ibu penulis, Chitra Dewi Siregar, dan adik penulis satu-satunya Milca Satriyani Sagala, A.md yang telah memberikan doa dan dukungan moral kepada penulis untuk menyelesaikan skripsi ini beserta keluarga besar yang telah turut mendoakan penulis.

2. Ibu Maya Silvi Lydia, B.Sc., M.Sc. dan Bapak Romi Fadillah Rahmat, B.Comp.Sc., M.Sc. selaku dosen pembimbing penulis yang telah meluangkan waktu, pikiran, saran, dan kritiknya untuk penulis dalam menyelesaikan skripsi ini.

3. Ibu Sarah Purnamawati, S.T., M.Sc dan Ibu Dr. Erna Budhiarti, M.IT. yang telah bersedia menjadi dosen penguji dan memberikan saran dan kritik yang membangun dalam penyelesaian skripsi ini.

4. Ketua dan Sekretaris Program Studi S1 Teknologi Informasi, Bapak M. Anggia Muchtar, S.T., MM.IT. dan Bapak Mohammad Fadly Syahputra, B.Sc., M.Sc.IT.

5. Seluruh dosen yang mengajar serta Ibu Delima dan Bang Faisal, sebagai staf Tata Usaha Program Studi Teknologi Informasi Universitas Sumatera Utara. 6. Sahabat-sahabat yang selalu mendukung dan memberi semangat kepada

penulis, Fida Elvi Anderia Sebayang, S.TI, Stella Maris Harefa, S.TI, Cynthia Arilla Sembiring, S.TI, Riska Vinesia Butarbutar, S.TI, Jihan Meutia Fauzen, S.TI, Annifa Iqramitha, S.TI, dan semua teman angkatan 2009.

7. Sahabat penulis Maria Fransiska Sinaga, S.T., Septina Veronika Bancin, S.KG, dan Dewi Tambunan yang selalu mendoakan dan memberi semangat.

8. Seluruh rekan kuliah sejawat yang tidak dapat disebutkan satu persatu.

(6)

v

ABSTRAK

Maraknya tindakan plagiarisme di dunia perkuliahan, baik plagiarisme dalam hal penyelesaian tugas maupun penyusunan karya ilmiah dapat mengurangi bahkan mematikan kreativitas seseorang dalam berkarya. Oleh karena itu, dibutuhkan sebuah aplikasi untuk mendeteksi tingkat kesamaan (similarity) sebuah dokumen teks dengan dokumen yang sudah ada. Penelitian ini menggunakan kombinasi dari algoritma Enhanced Confix Stripping (ECS) Stemmer untuk proses stemming teks yang dimasukkan dan algoritma Winnowing untuk menghitung tingkat kesamaannya (similarity) dengan dokumen dari database. Dengan ditentukannya nilai gram dan window pada perhitungan algoritma Winnowing, diharapkan dapat memudahkan user menggunakan aplikasi ini tanpa harus bingung menentukan nilai gram dan window-nya untuk menghasilkan nilai similarity yang akurat. Hasil pengujian menyimpulkan nilai kesamaan (similarity) sekitar 23-26% dengan percobaan 3 jurnal yang berkategori sama dengan jurnal pembanding. Dan untuk pendeteksian tanpa stemming menghasilkan tingkat kesamaan (similarity) sekitar 35-40% dengan jumlah jurnal dan kategori yang sama pula.

(7)

SIMILARITY DETECTION FOR TEXT DOCUMENTS USING COMBINATION OF ENHANCED CONFIX

STRIPPING STEMMER ALGORITHM AND WINNOWING ALGORITHM

ABSTRACT

The plethora of plagiarism in lecturing, such as for finishing projects or making scientific papers can diminish even stifle someone‟s creativity. Therefore, an application to detect a document for the similarity level of plagiarism with the existing one is needed. This research uses the combination of Enhanced Confix Stripping (ECS) Stemmer algorithm to stem the input text and Winnowing algorithm to numerate the similarity level with a document in database. The value of gram and window for the calculation of Winnowing algorithm are determined along with, so that it can abridge the user to use this application without being confused to determine the value of its gram and window to get an accurate similarity. The result concludes that the similarity is about 23-26% by three-same-category testing journals with the correlate journal in database. And the result of the nonstemming detection of similarity is about 35-40% with the same total of journals and category.

(8)

vii

DAFTAR ISI

Halaman

PERSETUJUAN ii

PERNYATAAN iii

UCAPAN TERIMA KASIH iv

ABSTRAK v

1.4. Tujuan Penelitian 3

1.5. Manfaat Penelitian 3

1.6. Metodologi Penelitian 3

1.7. Sistematika Penulisan 4

BAB 2 TINJAUAN PUSTAKA 6

2.1. Plagiarisme 6

2.1.1. Pengertian Plagiarisme 6 2.1.2. Peraturan dan Hukum yang Mengatur Plagiarisme 8

2.2. Citasi 9

2.3. Algoritma Stemming Bahasa Indonesia 10 2.3.1. Algoritma Enhanced Confix Stripping Stemmer 11

2.4. Algoritma Winnowing 14

2.4.1. Rolling Hash 15

2.4.2. Tahapan Penerapan Algoritma Winnowing 16 2.4.3. Pengukuran Dan Persentase Similarity 17

2.5. Penelitian Terdahulu 18

BAB 3 ANALISIS DAN PERANCANGAN SISTEM 20

3.1. Analisis Data 20

3.1.1. Data Jurnal 20

3.1.2. Tabel Kata Dasar 21

3.1.3. Tabel Stoplist 21

3.2. Analisis Sistem 22

3.2.1. Proses Admin 22

(9)

Halaman

3.2.2. Proses User 45

3.3. Perancangan Sistem 46

3.3.1. Arsitektur Umum (General Architecture) 46

3.3.2. Diagram Use Case 46

3.3.3. Realisasi Definisi Use Case 47 3.4. Perancangan Tampilan Antarmuka 49 3.4.1. Rancangan Halaman Utama User 49 3.4.2. Rancangan Halaman Hasil Pendeteksian 49 3.4.3. Rancangan Halaman Home Admin 50 3.4.4. Rancangan Halaman Profile Admin 51 3.4.5. Rancangan Halaman Edit Dictionary Admin 51 3.4.6. Rancangan Halaman Proses Stemming 52 3.4.7. Rancangan Halaman Nilai Hash dan Fingerprint 53

BAB 4 IMPLEMENTASI DAN PENGUJIAN 54

4.1. Implementasi Sistem 54

4.1.1. Spesifikasi Perangkat Keras Dan

Perangkat Lunak Yang Digunakan 54 4.1.2. Implementasi Perancangan Antarmuka 54 a. Tampilan Halaman Utama User 54 b. Tampilan Halaman Hasil Pendeteksian 55 c. Tampilan Halaman Home Admin 55 d. Tampilan Halaman Profile Admin 56 e. Tampilan Halaman Edit Dictionary Admin 56 f. Tampilan Halaman Proses Stemming 57 g. Tampilan Halaman Nilai Hash dan Fingerprint 57

4.2. Pengujian Sistem 58

4.2.1. Pengujian pada Proses yang Dilakukan Admin 58 4.2.2. Pengujian pada Proses yang Dilakukan User 60 4.2.3. Pengujian Kinerja Sistem 60 4.2.4. Hasil Pengujian Sistem 61 a. Hasil Pengujian Dengan Proses Stemming 61 b. Hasil Pengujian Tanpa Proses Stemming 62

BAB 5 KESIMPULAN DAN SARAN 64

5.1. Kesimpulan 64

5.2. Saran 64

DAFTAR PUSTAKA 65

LAMPIRAN A: Kode Program 68

(10)

ix

DAFTAR TABEL

Halaman Tabel 2.1. Aturan Dasar Awalan - Akhiran Yang Berlaku 11 Tabel 2.2. Urutan Pengembalian Akhiran 11 Tabel 2.3. Aturan Pemenggalan Awalan Algoritma Stemmer

Nazief dan Adriani 11

Tabel 2.4. Aturan Pemenggalan Awalan Algoritma

Enhanced Confix Stripping Stemmer 13 Tabel 2.5. Penelitian Terdahulu 19

Tabel 3.1. Tabel Kategori 20

Tabel 3.2. Tabel Keyword 24

Tabel 3.3. Tabel Kata Dasar 21

Tabel 3.4. Tabel Stoplist 22

Tabel 3.5. Nilai Fungsi Hash Kalimat 1 31 Tabel 3.6. Nilai Fungsi Hash Kalimat 2 38 Tabel 3.7. Realisasi Definisi Use case 47

Tabel 4.1. Daftar Jurnal Uji 60

(11)

DAFTAR GAMBAR

Halaman Gambar 3.1. Flowchart Proses Admin 25 Gambar 3.2. FlowchartText Preprocessing 26 Gambar 3.3. Flowchart Penghapusan Stopwords 25 Gambar 3.4. FlowchartStemming ECS 29 Gambar 3.5. Flowchart Proses User 45 Gambar 3.6. General Architecture 46

Gambar 3.7. Diagram Use case 47

Referensi

Dokumen terkait

Menimbang, bahwa setelah memperhatikan segala uraian dalam berita acara sidang, pertimbangan hukum dan amar putusan sebagaimana tercantum di dalam Putusan

dapat menggunakan waktu sisanya untuk mengerjakan apapun yang anda suka, tetapi jika anda tidak dapat menyelesaikan dalam waktu yang telah direncanakan maka anda harus mengambil

Penelitian Pengaruh Marketing Mix terhadap Volume Penjualan pada Perumahan Komersial Graha Loka Estate Pangkalpinang”.. Responden

fotokopi kartu keluarga ayah atau ibu warga negara Indonesia... awak Alat

Diharapkan nantinya dapat dipakai sebagai acuan untuk perbaikan genetik ternak, serta diperoleh data akurat yang dapat digunakan dalam peremajaan dan akan berdampak pada perbaikan

[r]

54 Tahun 2010 tentang Pengadaan Barang dan Jasa Pemerintah, Surat Penetapan Pemenang Pelelangan Pengadaan/Pemasangan Roll O’ Pact Kementerian Agama Tahun Anggaran 2011 Nomor

Dalam r angka penguatan per an, tugas dan fungsi PPID sesuai dengan pelaksanaan Undang-Undang Nomor 14 Tahun 2008 tentang Keter bukaan Infor masi Publik, Per atur