• Tidak ada hasil yang ditemukan

IMPLEMENTASI VECTOR SPACE MODEL DENGAN METODE COSINE SIMILARITY DAN CONDITIONAL PROBABILITY UNTUK SISTEM DETEKSI PLAGIARISME DOKUMEN SKRIPSI MAHASISWA

N/A
N/A
Protected

Academic year: 2021

Membagikan "IMPLEMENTASI VECTOR SPACE MODEL DENGAN METODE COSINE SIMILARITY DAN CONDITIONAL PROBABILITY UNTUK SISTEM DETEKSI PLAGIARISME DOKUMEN SKRIPSI MAHASISWA"

Copied!
14
0
0

Teks penuh

(1)

IMPLEMENTASI VECTOR SPACE MODEL DENGAN

METODE COSINE SIMILARITY DAN CONDITIONAL

PROBABILITY UNTUK SISTEM DETEKSI PLAGIARISME

DOKUMEN SKRIPSI MAHASISWA

SKRIPSI

Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu Program Studi Informatika

Disusun oleh :

ADE IRAWAN

M0510001

PROGRAM STUDI INFORMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET

SURAKARTA 2016

(2)

i HALAMAN JUDU L

SKRIPSI

IMPLEMENTASI VECTOR SPACE MODEL DENGAN

METODE COSINE SIMILARITY DAN CONDITIONAL

PROBABILITY UNTUK SISTEM DETEKSI PLAGIARISME

DOKUMEN SKRIPSI MAHASISWA

Disusun Oleh :

ADE IRAWAN

M0510001

ditulis dan diajukan untuk memenuhi sebagian persyaratan memperoleh gelar Strata Satu Program Studi Informatika

PROGRAM STUDI INFORMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET

SURAKARTA 2016

(3)

ii HALAMAN P ERSET UJUAN

SKRIPSI

IMPLEMENTASI VECTOR SPACE MODEL DENGAN

METODE COSINE SIMILARITY DAN CONDITIONAL

PROBABILITY UNTUK SISTEM DETEKSI PLAGIARISME

DOKUMEN SKRIPSI MAHASISWA

Disusun oleh :

ADE IRAWAN

M0510001

Telah disetujui oleh pembimbing pada tanggal

Pembimbing I Pembimbing II

Ristu Saptono, S.Si.,M.T. Heri Prasetyo, S.Kom., M.Sc.Eng., Ph.D.

NIP. 19790210 200212 1 001 NIP. 19830302 2016 1 001

(4)

iii HALAMAN P ENGESA HAN

SKRIPSI

IMPLEMENTASI VECTOR SPACE MODEL DENGAN

METODE COSINE SIMILARITY DAN CONDITIONAL

PROBABILITY UNTUK SISTEM DETEKSI PLAGIARISME

DOKUMEN SKRIPSI MAHASISWA

Disusun oleh :

ADE IRAWAN

M0510001

Skripsi ini telah disetujui untuk dipertahankan di hadapan dewan penguji pada tanggal :

Susunan Dewan Penguji 1. Ristu Saptono, S.Si.,M.T.

NIP. 19790210 200212 1 001

( )

2. Heri Prasetyo, S.Kom., M.Sc.Eng., Ph.D.

NIP. 19830302 2016 1 001

( )

3. Dr.techn. Dewi Wisnu Wardani, S.Kom,M.S.

NIP. 19781026 200501 2 002

( )

4. Haryono Setiadi, ST., M.Eng

NIP. 19800327 200501 1 002

( )

Disahkan Oleh :

Kepala Program Studi Informatika

Drs. Bambang Harjito, M.App.Sc.,Ph.D.

(5)

iv

HALAMAN MOTTO

“Life is like riding a bicycle. To keep your balance you must keep moving” (Albert Einstein)

(6)

v

HALAMAN PERSEMBAHAN

“Skripsi ini saya persembahkan untuk orang tua dan keluarga tercinta,

(7)

vi

KATA PENGANTAR

Segala puji penulis panjatkan kehadirat Allah SWT atas limpahan rahmat dan hidayah-Nya, sehingga penulis dapat menyelesaikan skripsi yang berjudul “Implementasi Vector Space Model dengan Metode Cosine Similarity dan

Conditional Probability untuk Sistem Deteksi Plagiarisme Dokumen Skripsi

Mahasiswa”.

Penulis mengucapkan terima kasih kepada beberapa pihak yang telah meluangkan waktu untuk memberikan bimbingan, dukungan, dan saran, sehingga laporan ini dapat terselesaikan sebagaimana yang diharapkan, terutama kepada:

1. Allah SWT atas segala limpahan rahmat dan karunia-Nya sehingga skripsi ini dapat diselesaikan.

2. Orang tua dan keluarga Penulis, yang selalu memberikan dukungan dan doa kepada Penulis.

3. Bapak Drs. Bambang Harjito, M.App.Sc., Ph.D selaku Kepala Program Studi Informatika, Fakultas MIPA, Universitas Sebelas Maret.

4. Bapak Ristu Saptono, S.Si.,M.T. selaku dosen pembimbing I yang telah memberikan bimbingan dalam penyusunan skripsi ini.

5. Bapak Heri Prasetyo, S.Kom., M.Sc.Eng., Ph.D. selaku dosen pembimbing II yang telah memberikan bimbingan dalam penyusunan skripsi ini.

6. Bapak dan Ibu Dosen Program Studi Informatika FMIPA UNS yang telah memberikan pengajaran kepada Penulis selama menempuh masa studi. 7. Teman-teman S1 Informatika yang telah memberikan semangat dalam

penyelesaian skripsi ini.

Penulis berharap agar skripsi ini dapat bermanfaat bagi berbagai pihak.

Surakarta,

Penulis

(8)

vii

ABSTRACT

Plagiarism is one of negative impact derived from the internet growth. It can takes place in various place, one of the example is higher education environment. Plagiarism can cause many disadvantageous to another parties. So, there must be a detection system to avoid this kind of bad thing. In this proposed research, there will be made a plagiarism detection system by implementing Vector Space Model (VSM). Cosine Similarity used to make the rank of the pragraphs based on the formed angle from query vector and collection vector. The number of the taken words from the query paragraph will derived from the calculation of the conditional probability value. After testing phase has been finished, there will be a conclusion that VSM can be implemented in the system. There are 10 testing paragraph that compared with the collection paragraphs. The result of the comparation are 65.05% for the number of the average precision and 98.57% for the average recall with threshold 0.3 for the conditional probability and 0.25 for cosine similarity.

Keywords : plagiarism, paragraph, Vector Space Model; Cosine Similarity;

(9)

viii

ABSTRAK

Plagiarisme merupakan salah satu contoh dari dampak negatif yang muncul akibat perkembangan internet yang sangat cepat. Plagiarisme dapat terjadi di berbagai tempat, salah satu contohnya yaitu di Perguruan Tinggi. Hal ini tentunnya dapat merugikan berbagai pihak. Oleh karena itu, diperlukan sistem deteksi yang dapat mencegah terjadinya tindak plagiarisme. Pada penelitian ini, akan dibuat suatu sistem deteksi plagiarisme dengan mengimplementasikan Vector

Space Model. Cosine Similarity digunakan untuk meranking paragraf-paragraf

berdasarkan pada nilai sudut yang terbentuk antara vector query dan vector library. Banyak kata yang diambil oleh paragraf query akan dihitung dengan menggunakan teori Conditional Probability. Setelah dilakukan pengujian, maka dapat diambil kesimpulan bahwa VSM dapat diimplementasikan pada sistem. Terdapat 10 paragraf testing yang akan dibandingkan dengan paragraf koleksi. Hasil perbandingan menunjukkan nilai sebesar 65.05% untuk rata-rata nilai precision dan 98.57% untuk rata-rata recall dengan threshold yang digunakan adalah 0.3 untuk

conditional probability dan 0.25 untuk Cosine Similarity.

Kata Kunci : plagiarisme, paragraf, Vector Space Model, Cosine Similarity,

Conditional Probability, precision, recall, threshold

(10)

ix

DAFTAR ISI

Table of Contents

HALAMAN JUDUL ... i

HALAMAN PERSETUJUAN ... ii

HALAMAN PENGESAHAN ... iii

HALAMAN MOTTO ... iv HALAMAN PERSEMBAHAN ... v KATA PENGANTAR ... vi ABSTRACT ... vii ABSTRAK ... viii DAFTAR ISI ... ix DAFTAR TABEL ... xi

DAFTAR GAMBAR ... xii

DAFTAR LAMPIRAN ... xiii

1 BAB I. PENDAHULUAN ... 1 1.1 Latar Belakang ... 1 1.2 Rumusan Masalah ... 4 1.3 Batasan Masalah ... 4 1.4 Tujuan Penelitian ... 4 1.5 Manfaat Penelitian ... 5 1.6 Sistematika Penulisan ... 5

2 BAB II. TINJAUAN PUSTAKA ... 6

2.1 Dasar Teori... 6

2.1.1 Plagiarisme ... 6

(11)

x

2.1.3 Algoritma Nazief Adriani ... 8

2.1.4 Pembobotan Term Frequency-Inverse Document Frequency (TF-IDF) ... 10

2.1.5 Vector Space Model ... 11

2.1.6 Cosine Similarity ... 13

2.1.7 Conditional Probability ... 15

2.2 Penelitian Terkait ... 17

3 BAB III. METODOLOGI PENELITIAN ... 23

3.1 Pengumpulan Data ... 23

3.2 Preprocessing dan Indexing Library ... 23

3.3 Implementasi Vector Space Model ... 25

3.4 Implementasi Sistem ... 27

3.5 Pengujian dan Analisis Hasil ... 28

4 BAB IV. PEMBAHASAN ... 29

4.1 Pengumpulan Data ... 29

4.2 Preprocessing dan Indexing Library ... 29

4.3 Implementasi Vector Space Model ... 34

4.4 Implementasi Sistem ... 39

4.5 Pengujian dan Analisis Hasil ... 40

5 BAB V. PENUTUP ... 53 5.1 Kesimpulan ... 53 5.2 Saran ... 53 DAFTAR PUSTAKA ... 54 LAMPIRAN ... 57 digilib.uns.ac.id

(12)

xi

DAFTAR TABEL

Tabel 2.1 Kombinasi Awalan Akhiran yang Tidak Diijinkan (Agusta, 2009) ... 10

Tabel 2.2 PenelitianTerkait ... 20

Tabel 4.1 Detail Jumlah Data ... 29

Tabel 4.2 Contoh Hasil Tokenization ... 31

Tabel 4.3 Index kata dasar hasil stemming ... 32

Tabel 4.4 Contoh hasil pembobotan TF-IDF ... 33

Tabel 4.5 Contoh hasil pembobotan TF-IDF pada query ... 38

Tabel 4.6 Contoh hasil perihitungan Cosine dan Conditional ... 39

Tabel 4.7 Data paragraf testing ... 40

Tabel 4.8 Paragraf terambil Id 1630 ... 44

Tabel 4.9 Paragraf terambil Id 2507 ... 46

Tabel 4.10 Paragraf terambil Id 3701 ... 48

Tabel 4.11 Hasil precision, recall, dan F-measure skenario I ... 49

Tabel 4.12 Hasil precision, recall, dan F-measure skenario II ... 50

Tabel 4.13 Hasil precision, recall, dan F-measure skenario III ... 50

(13)

xii

DAFTAR GAMBAR

Gambar 2.1 Representasi Dokumen dan Vektor pada Ruang Vektor (Mandala &

Setiawan, 2002) ... 12

Gambar 2.2 Matriks Term-Dokumen (Mandala, 2006) ... 13

Gambar 2.3 Ilustrasi Peluang Bersyarat (Sahoo, 2013) ... 16

Gambar 3.1 Diagram Metodologi Penelitian ... 23

Gambar 3.2 Tahap Preprocessing dan Indexing Library ... 25

Gambar 3.3 Tahap Implementasi Vector Space Model ... 27

Gambar 4.1 Contoh salah satu paragraf hasil parsing ... 30

Gambar 4.2 Contoh hasil Case Folding ... 30

Gambar 4.3 Contoh 100 kata pada daftar StopWord Tala (Tala, 2003) ... 32

Gambar 4.4 User Interface halaman testing untuk Id dokumen library 123 ... 35

Gambar 4.5 Detail paragraf query Id 20 dengan paragraf nomor 1 pada library . 36 Gambar 4.6 User Interface halaman testing untuk Id dokumen library 63 ... 37

Gambar 4.7 Detail paragraf query Id 10 dengan paragraf nomor 2 pada library . 37 Gambar 4.8 Contoh Parsing Paragraf Query ... 38

Gambar 4.9 Isi paragraf dengan id :1630 ... 44

Gambar 4.10 Isi paragraf dengan id :2507 ... 46

Gambar 4.11 Isi paragraf dengan id :3701 ... 47

(14)

xiii

DAFTAR LAMPIRAN

Lampiran 1 Data StopWord Tala ... 57

Lampiran 2 Hasil Pengujian pada Skenario 1 ... 64

Lampiran 3 Hasil Pengujian pada Skenario 2 ... 73

Lampiran 4 Hasil Pengujian pada Skenario 3 ... 80

Lampiran 5 Hasil Pengujian pada Skenario 4 ... 85

Lampiran 6 Tipe Awalan dan Aturan Pemenggalannya ... 90

Referensi

Dokumen terkait

" Analisa Rise Time Budget dan Power Link Budget dari STO ke Pelanggan Infrastruktur GPON (Gigabit Passive Optical Network ) PT. Perancangan Jaringan FTTH

Pada pelaksanaan tindakan siklus ketiga ini awal pembelajaran biasa dilakukan dengan mengadakan apersepsi dan motivasi dengan memberi pertanyaan pada peserta didik

Nilai retensi ini menggambarkan bahwa FK pakan pada kadar tersebut berperan dalam meningkatkan pemanfaatan protein dan lemak untuk struktur tubuh, sehingga pada

Kontroler PID akan berfungsi baik untuk daerah yang luas dari dinamika proses berumpan-balik3. 0.4 0.6 0.8 1 DYNAMIC SIMULATION ri abl e mengembangkan korelasi penyetelan untuk

Berdasarkan hasil analisis pada bab III dalam lirik lagu Live Like We're Dying, I’m Yours, The End Where I Begin, You Won’t Feel A Thing, If You Could See Me Now, Hall of Fame,

Dari penelitian yang telah dilakukan, dapat diketahui bahwa gaya kepemimpinan yang ada di Head Office PT Marifood adalah gaya kepemimpinan demokratis yang dapat mempengaruhi

4 Sehingga dari paparan di atas dapat diketahui bahwa pendidikan anak usia dini adalah jenjang pendidikan kelompok anak yang berada dalam proses pertumbuhan dan

Karena adanya perbedaan alur kembang ban yaitu RIB sederhana, RIB kompleks, LUG sederhana dan LUG kompleks otomatis akan menghasilkan luas kontak permukaan ban