PENDETEKSI KEMIRIPAN PARAGRAF PADA DOKUMEN KARYA ILMIAH MENGGUNAKAN ALGORITMA WU PALMER DAN COSINE SIMILARITY SKRIPSI BAYU AJI NURMANSAH

(1)

PENDETEKSI KEMIRIPAN PARAGRAF PADA DOKUMEN KARYA ILMIAH MENGGUNAKAN ALGORITMA WU PALMER

DAN COSINE SIMILARITY

SKRIPSI

BAYU AJI NURMANSAH 161402035

PROGRAM STUDI S1-TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA

MEDAN 2021

(2)

PENDETEKSI KEMIRIPAN PARAGRAF PADA DOKUMEN KARYA ILMIAH MENGGUNAKAN ALGORITMA WU PALMER

DAN COSINE SIMILARITY

SKRIPSI

Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana Teknologi Informasi

BAYU AJI NURMANSAH 161402035

PROGRAM STUDI S1-TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA

MEDAN 2021

(3)

(4)

PERNYATAAN

PENDETEKSI KEMIRIPAN PARAGRAF PADA DOKUMEN KARYA ILMIAH MENGGUNAKAN ALGORITMA WU PALMER

DAN COSINE SIMILARITY

SKRIPSI

Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.

Medan, 8 Februari 2021

Bayu Aji Nurmansah 161402035

(5)

UCAPAN TERIMA KASIH

Alhamdulillah, puji dan syukur penulis sampaikan kehadirat Allah SWT yang telah memberikan rahmat dan izin-Nya sehingga penulis dapat menyelesaikan skripsi ini sebagai syarat untuk memperoleh gelar sarjana Komputer pada Program Studi S1 Teknologi Informasi Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara. Selama pengerjaan tugas akhir ini, banyak sekali bantuan dan dukungan serta doa dari berbagai pihak sehingga penulis dapat menyelesaikan tugas akhir ini dengan baik. Oleh karena itu, penulis ingin menyampaikan ucapan terima kasih sedalam-dalamnya dan penghargaan kepada :

1. Kedua orang tua penulis, Ayahanda Suwarno dan Ibunda Tantriati, yang tidak pernah berhenti memberikan dukungan serta doanya kepada penulis. Orangtua penulis selama ini tidak pernah memberikan tekanan dalam hal apapun kepada penulis dan selalu mengerti keadaan penulis, sehingga menjadi motivator terbesar penulis dalam menjalani masa perkuliahan serta penulis dapat menyelesaikan tugas akhir dengan baik. Ucapan terima kasih juga kepada abang penulis, Didik Nugroho yang telah memberikan dukungan dan doa kepada penulis.

2. Bapak Prof. Dr. Opim Salim Sitompul, M.Sc selaku dosen pembimbing pertama dan kepada Ibu Dr. Erna Budhiarti Nababan, M.IT selaku dosen pembimbing kedua yang telah bersedia meluangkan waktu dan fikirannya untuk membimbing penulis dalam menyelesaikan tugas akhir ini, baik dalam pengerjaan program maupun penulisan skripsi.

3. Penulis juga mengucapkan terima kasih kepada Bapak Baihaqi Siregar S.Si., MT selaku dosen pembanding pertama dan Bapak Indra Aulia,S.TI.,M.Kom selaku dosen pembanding kedua yang telah memberikan kritik dan saran pada hasil penelitian penulis dan penulisan skripsi penulis.

4. Penulis mengucapkan terima kasih kepada dosen, pegawai, dan staff di lingkungan Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara yang telah membantu dalam penyelesaian administrasi dan membimbing penulis selama masa perkuliahan.

(6)

5. Penulis mengucapkan terima kasih kepada sahabat penulis yang sudah berteman dekat semasa kuliah, Anwar Irawan Mendrofa, Muhammad Reza Irsyad Harahap, Muhammad Yudha Kurniawan, Ray Handri Kesuma Sinaga, Muhammad Imam Al-Amin, Ray Syadera Lingga, sahabat yang selalu berbagi pengalaman dan menjadi tempat bercerita semasa perkuliahan, serta selalu memberikan kritik dan saran dalam proses pengerjaan skripsi. Sahabat yang sudah seperti keluarga sendiri yang saling mendukung dan memberikan motivasi semasa perkuliahan hingga sekarang.

6. Ucapan terima kasih kepada seluruh teman angkatan Teknologi Informasi 2016 yang sudah berteman baik selama ini dan saling berjuang bersama dalam mengerjakan skripsi terkhusus kepada Elwin Duha, Aldo Stepanus, dan John Rendy Sortono yang telah membagikan waktu dan ilmunya untuk membantu penulis dalam proses pengerjaan skripsi.

7. Penulis mengucapkan terima kasih kepada HIMATIF USU dan PEMA FASILKOM-TI USU yang telah menjadi tempat bagi penulis dalam belajar berorganisasi.

8. Terima kasih juga penulis ucapkan untuk semua pihak yang telah terlibat dalam masa perkuliahan dan pengerjaan tugas akhir, sehingga penulis dapat menyelesaikan tugas akhir ini dengan baik.

Semoga Allah SWT melimpahkan berkah, rahmat, dan karunia-Nya kepada semua pihak yang telah memberikan bantuan, perhatian dan dukungan kepada penulis dalam menyelesaikan skripsi ini.

Medan, 8 Februari 2021

Penulis

(7)

ABSTRAK

Perkembangan internet yang semakin pesat telah membawa dampak positif terhadap kemajuan teknologi informasi, salah satu manfaat yang dapat dirasakan adalah kemudahan dalam mengumpulkan dokumen referensi penelitian yang banyak tersedia di internet. Akan tetapi bersamaan dengan kemudahan ini juga terdapat satu masalah dimana banyak penulis yang melakukan kutipan teks baik itu dari segi kalimat ataupun paragraf tanpa melakukan parafrasa terlebih dahulu yang tentu saja hal ini akan membuat teks tersebut memiliki kemiripan yang selanjutnya akan menimbulkan pelanggaran hak cipta. Untuk itu diperlukan pendeteksian kemiripan teks khususnya pada bagian paragraf secara otomatis. Proses pendeteksian teks khususnya pada bagian paragraf yang dilakukan pada penelitian ini menggunakan algoritma Wu Palmer dan Cosine Similarity dengan bantuan database WordNet. Data dokumen uji diambil dari website repositori usu berjumlah 11 dokumen dengan total paragraf uji sebanyak 372 dan dokumen pembanding sebanyak 40 dokumen dengan total paragraf pembanding sebanyak 891. Pada pengujian didapatkan nilai threshold terbaik untuk mendeteksi kemiripan paragraf adalah 0.6 yang menghasilkan 80% nilai presisi, 90% nilai recall, dan 0.84 nilai F-Measure.

Kata Kunci : Kemiripan teks, Wu Palmer, WordNet, Kemiripan Kosinus.

(8)

PARAGRAPH SIMILARITY IN SCIENTIFIC PAPER DOCUMENTS USING WU PALMER AND COSINE SIMILARITY

ABSTRACT

Rapid development of the internet has had a positive impact on technological advances, one of the benefits that can be felt is in collecting reference documents available on the internet. But along with this there is also a problem where many authors quote both in terms of sentences or paragraphs without paraphrasing first, which of course will make the text have similarities which in turn will cause copyright infringement. For this reason, it is necessary to detect text Similarity, especially in paragraphs, automatically.

The text detection process, especially in paragraph sections, was carried out in this study using the "Wu Palmer" and "Cosine Similarity" algorithms with the help of the WordNet database. The test document data was taken from the website repository used to test 11 documents with a total of 372 test paragraphs and 40 comparative documents with a total of 891 comparison paragraphs. In testing the best threshold value for checking the Similarity of paragraphs was 0.6 which resulted in 80% precision, 90% recall, and 0.84 F-Measure.

Keyword : Text Similarity , Wu Palmer, WordNet, Cosine Similarity.

(9)

DAFTAR ISI

Hal.

PERSETUJUAN ii

PERNYATAAN iii

UCAPAN TERIMAKASIH iv

ABSTRAK vi

ABSTRACT vii

DAFTAR ISI viii

DAFTAR TABEL x

DAFTAR GAMBAR xi

BAB 1 PENDAHULUAN 1

1.1. Latar Belakang 1

1.2. Rumusan Masalah 3

1.3. Batasan Masalah 3

1.4. Tujuan Penelitian 3

1.5. Manfaat Penelitian 4

1.6. Metodologi Peneltian 4

1.7. Sistematika Penulisan 4

BAB 2 LANDASAN TEORI 6

2.1. Kemiripan Teks 6

2.2. WordNet 8

2.3. Natural Language Processing 9

2.4. Wu Palmer 9

2.5. Cosine Similarity 10

2.6. Penelitian Terdahulu 10

(10)

BAB 3 ANALISIS DAN PERANCANGAN 13

3.1 Data yang digunakan 13

3.2 Analisis Sistem 14

3.3 Diagram Aktivitas Sistem 29

3.4 Flowchart Kemiripan Paragraf 29

3.5 Perancangan Antarmuka Sistem 31

BAB 4 IMPLEMENTASI DAN PENGUJIAN 34

4.1 Implementasi Sistem 35

4.2 Pengujian Sistem 37

BAB 5 KESIMPULAN DAN SARAN 48

5.1 Kesimpulan 48

5.2 Saran 48

DAFTAR PUSTAKA 48

(11)

DAFTAR TABEL

Hal

TABEL 2.1 Penelitian Tedahulu 11

TABEL 3.1 Data Sebelum dan Setelah Case Folding 16 TABEL 3.2 Data Sebelum dan Setelah Tokenizing 17 TABEL 3.3 Proses Filtering dengan algoritma Stopwords 18 TABEL 3.4 Proses Stemming pada Bahasa Inggris 19 TABEL 3.5 Proses Stemming (kah, lah, mu, nya, ku) 21 TABEL 3.6 Proses Stemming yang tidak menghapus akhiran(i, an, kan) 21

TABEL 3.7 Proses tahap 4 dan tahap 5 21

TABEL 3.8 Kombinasi awalan dan akhiran yang dilarang 21

TABEL 3.9 Daftar POS Tag Bahasa Indonesia 22

TABEL 3.10 Daftar POS Tag Bahasa Inggris 23

TABEL 3.11 Contoh POS Tagging Bahasa Indonesia 24

TABEL 3.12 Contoh POS Tagging Bahasa Inggris 24

TABEL 3.13 Word Similarity pada Cosine Similarity 25 TABEL 3.14 Word Similarity dengan menggunakan Wu Palmer 26 TABEL 4.1 Hasil Pengujian dengan nilai threshold 0.5 39 TABEL 4.2 Perhitungan presisi, recall, F-Measure pada threshold 0.5 41 TABEL 4.3 Hasil Pengujian dengan nilai threshold 0.6 42 TABEL 4.4 Perhitungan presisi, recall, F-Measure pada threshold 0.6 44 TABEL 4.5 Hasil pengujian dengan nilai threshold 0.7 44

(12)

TABEL 4.6 Perhitungan presisi, recall, F-Measure pada threshold 0.7 47 TABEL 4.7 Perbandingan tingkat presisi, recall, dan F-Measure 47

(13)

DAFTAR GAMBAR

Hal

GAMBAR 2.1 String-Based Similarity 6

GAMBAR 2.2 Corpus-Based Similarity 7

GAMBAR 2.3 Knowldege-Based Similarity 8

GAMBAR 3.1 Contoh Dokumen Uji 13

GAMBAR 3.2 Contoh Dokumen Pembanding 14

GAMBAR 3.3 Arsitektur Umum 15

GAMBAR 3.4 Daftar stopword pada library Sastrawi 18

GAMBAR 3.5 Daftar stopword pada library NLTK 18

GAMBAR 3.6 Contoh File Intermediate Document 25

GAMBAR 3.7 Hasil Vektor Paragraf Uji 28

GAMBAR 3.8 Hasil Vektor Paragraf Pembanding 28

GAMBAR 3.9 Diagram Aktivitas Sistem 29

GAMBAR 3.10 Flowchart Perhitungan Kemiripan Paragraf 31

GAMBAR 3.11 Tampilan Beranda 32

GAMBAR 3.12 Layout Upload Dokumen 33

GAMBAR 3.13 Layout Hasil Kemiripan 34

GAMBAR 4.1 Tampilan Beranda 36

GAMBAR 4.2 Tampilan Upload 36

GAMBAR 4.3 Tampilan Hasil 37

(14)

BAB 1

PENDAHULUAN

1.1. Latar Belakang

Pada saat sekarang ini teknologi informasi sudah bertumbuh semakin pesat dimana hal itu dibuktikan dengan semakin mudahnya pekerjaan manusia saat ini. Manfaat terbesar yang telah dirasakan saat ini adalah dalam hal kemudahan mengumpulkan informasi, seperti misalnya mengumpulkan informasi untuk digunakan sebagai penelitian karya ilmiah yang banyak tersedia di internet dalam bentuk dokumen.

Dokumen adalah tanda fisik atau simbolik yang diarsipkan atau direkam yang dimaksudkan untuk mewakili, membangun, atau untuk menunjukkan fenomena fisik atau konseptual (Buckland 1997). Dokumen adalah karya cipta milik seseorang, dan apabila seorang penulis ingin menggunakannya sebagai referensi maka penulis wajib mencantumkan sitasi terkait dokumen tersebut dan melakukan parafrasa untuk menghindari kemiripan teks baik itu dari segi kata, kalimat, ataupun paragraf yang akan terindikasi sebagai tindakan plagiat. Selain itu, mengganti kata yang dikutip pada dokumen dengan kata yang memiliki makna sama juga dapat dikatakan bahwa kata tersebut memiliki kemiripan.

Kemiripan teks terutama pada bagian paragraf dokumen karya ilmiah masih sering terjadi dikarenakan semakin mudah untuk mengaksesnya melalui internet, dan beberapa penulis secara sengaja melakukan tindakan copy-paste tanpa menyebutkan sitasi atau melakukan parafrasa. Oleh karena itu perlu dilakukan suatu metode untuk mendeteksi kemiripan paragraf pada dokumen khususnya dokumen karya ilmiah secara otomatis baik itu dari segi struktur kata, ataupun makna.

(15)

Sebelumnya telah dilakukan beberapa penelitian tentang pendeteksian kemiripan teks pada dokumen diantaranya adalah Imbar et al (2014),Firdaus et al(2014) ,Ariantini et al. (2016).

Imbar et al (2014) melakukan penelitian tentang implementasi Cosine Similarity dan Algoritma Smith-Waterman untuk mendeteksi kemiripan teks. Penelitian ini menggunakan Cosine Similarity untuk mengukur kesamaan teks berdasarkan kemunculan kata – kata dalam teks tersebut, dan algoritma Smith – Waterman untuk menghitung kemiripan teks berdasarkan urutan kata.

Firdaus et al (2014) melakukan penelitian tentang pendeteksian dokumen teks dengan menggunakan metode Cosine Similarity dan algoritma Nazief & Andriani, pada penelitian ini terlebih dahulu kata diubah kedalam bentuk dasar dengan menggunakan algoritma Nazief & Andriani untuk selanjutnya dilakukan perhitungan dengan menggunakan metode Cosine Similarity

Ariantini, et.al. (2016) dalam penelitiannya mengukur kemiripan dokumen teks bahasa Indonesia, dalam hal ini mereka menggunakan metode Cosine Similarity.

Penelitian ini menghitung tingkat kemiripan dengan cara menghitung nilai TF (Term Frequencyi) untuk mengitung kemunculan kata, setelah itu menyimpannya ke database dan menghitung kata yang sama.

Namun, penelitian - penelitian tersebut hanya berfokus untuk menghitung kemiripan teks berdasarkan kata yang sama, atau berdasarkan urutan kata, dan tidak menghitung kata yang memiliki makna sama(sinonim/semantik) dan juga tidak mampu membandingkan teks dalam dua bahasa seperti misalnya teks uji adalah bahasa indonesia dan teks pembanding adalah bahasa inggris atau sebaliknya. Oleh karena itu, dibutuhkan suatu metode yang dapat menghitung kemiripan teks tidak hanya berdasarkan kata yang sama, urutan kata, tetapi juga dapat menghitung kemiripan kata,kalimat, ataupun paragraf yang memiliki sinonim atau hubungan semantik dengan dokumen karya ilmiah lain dan dapat juga digunakan mendeteksi dokumen dalam dua bahasa.

Wu Palmer adalah algoritma path based yang mengukur kemiripan semantik, baik itu dari derajat keterkaitan , relevansi dokumen , atau kemiripan antara term (Millah &

Nurazizah 2017).

Cosine Similarity adalah algoritma yang digunakan untuk mengukur kemiripan teks antara vektor yang merupakan hasil dari sebuah inner product space yang diukur

(16)

dengan menggunakan fungsi kosinus untuk menentukan atau melihat apakah kedua vektor menunjuk ke arah yang sama atau tidak (Han, et al. 2012).

Berdasarkan latar belakang diatas penulis bermaksud menggunakan algoritma Wu Palmer dan Cosine Similarity untuk mendeteksi kemiripan dokumen karya ilmiah berdasarkan paragraf yang mendeteksi kemiripan kata baik itu dari segi struktur , urutan kata , dan makna kata (sinonim/semantik). Oleh karena itu, penulis mengajukan judul penelitian “PENDETEKSI KEMIRIPAN PARAGRAF PADA DOKUMEN KARYA ILMIAH MENGGUNAKAN ALGORITMA WU PALMER DAN COSINE SIMILARITY”.

1.2.Rumusan Masalah

Kemiripan teks terutama pada bagian paragraf dokumen karya ilmiah masih sering terjadi dikarenakan semakin mudah untuk mengaksesnya melalui internet, dan beberapa penulis secara sengaja melakukan tindakan copy – paste tanpa menyebutkan sitasi atau melakukan parafrasa. .Oleh karena itu perlu dilakukan suatu metode untuk mendeteksi kemiripan paragraf pada dokumen khususnya dokumen karya ilmiah secara otomatis baik itu dari segi struktur kata, ataupun makna.

1.3.Batasan Masalah

Berikut adalah beberapa batasan dalam penelitian ini :

1. Dokumen yang di input hanya dalam format .txt, .doc, dan .docx.

2. Dokumen yang terkunci tidak dapat diproses oleh aplikasi ini.

3. Hanya dapat digunakan untuk dokumen bahasa Indonesia dan bahasa Inggris.

4. Hanya data teks yang akan diuji

5. Data yang diuji adalah data pada bagian Bab Landasan Teori

1.4.Tujuan Penelitian

Penelitian ini bertujuan untuk mendeteksi kemiripan isi dokumen karya ilmiah berdasarkan paragraf secara otomatis dengan menggunakan algoritma Wu Palmer dan Cosine Similarity.

(17)

1.5. Manfaat Penelitian

Manfaat dari penelitian ini yaitu:

1. Membantu penguji untuk menemukan kemiripan isi dokumen karya ilmiah berdasarkan paragraf secara otomatis.

1.6. Metodologi Penelitian

Dalam penelitian ini ada beberapa tahapan penelitan yang dilakukan, yaitu:

1. Studi Literatur

Tahap ini bertujuan untuk pengumpulan bahan yang akan digunakan sebagai referensi yang diperoleh dari jurnal, buku, artikel, juklak, panduan mengenai algoritma Wu Palmer dan Cosine Similarity.

2. Pengumpulan Data

Data uji pada penelitian ini didapatkan dari website Repositori USU.

3. Analisis Permasalahan

Tahap ini akan melakukan analisis tentang penelitian yang dilakukan untuk mendapatkan pengetahuan dan metode yang diterapkan yakni perhitungan word-to-word Similarity dengan algoritma Wu Palmer dan perhitungan Similarity dengan menggunakan proses Cosine Similarity serta parameter lainnya.

4. Perancangan Sistem

Tahap ini berisi tentang rancangan arsitektur umum program, informasi tentang data penelitian, rancangan interface program. Perancangan sistem digunakan untuk menyelesaikan masalah-masalah yang sebelumnya telah dijelaskan pada bab sebelumnya.

1.7.Sistematika Penulisan

Sistematika penulisan pada penelitian ini terdiri dari beberapa bagian utama yaitu:

(18)

Bab 1: Pendahuluan

Berisi tentang penjelasan latar belakang, penjelasan rumusan masalah, penjelasan batasan masalah, penjelasan tujuan penelitian, penjelasan manfaat penelitian, penjelasan metodologi penelitian, dan penjelasan sistematika penulisan.

Bab 2: Landasan Teori

Berisi tentang penjelasan teori yang diperlukan untuk menyelesaikan masalah yang dibahas pada penelitian ini. Bagian ini akan menjelaskan teori-teori tentang WordNet, Wu Palmer, dan Cosine Similarity.

Bab 3: Analisis dan Perancangan Sistem

Bab ini berisi analisis dan penerapan WordNet, algoritma Wu Palmer, dan Cosine Similarity untuk melakukan proses perhitungan. Nilai word Similarity yang didapat dengan metode Wu Palmer akan diproses dengan menggunakan Cosine Similarity sehingga didapatkan nilai kemiripan antar paragraf.

Bab 4: Implementasi dan Pengujian

Berisi tentang implementasi dari rancangan penerapan sistem yang sebelumnya telah dijabarkan pada bab 3. Bab ini juga akan menjelaskan tentang hasil yang didappatkan dari pengujian sistem.

Bab 5: Kesimpulan dan Saran

Berisi tentang ringkasan serta kesimpulan dari implementasi sistem dan pemecahan masalah yang sebelumnya telah dijelaskan di bab 4 dan bagian ini juga berisi tentang saran yang dapat dilakukan untuk peneltian selanjutnya.

(19)

BAB 2

LANDASAN TEORI

2.1. Kemiripan Teks

Kemiripan teks bertujuan untuk menentukan seberapa dekat dua bagian teks dari segi permukaan (kemiripan leksikal) atau dari segi kemiripan makna (kemiripan semantik).

Kemiripan leksikal berfokus apakah dua bagian teks disusun atas kata - kata yang sama sedangkan kemiripan semantik berfokus pada kedekatan makna antar kata - kata penyusun dari kedua bagian teks tersebut ( Ganesan,2015).

Kemiripan leksikal atau disebut juga string based Similarity dibedakan menjadi character based (7 Algoritma) dan term based (7 Algoritma), untuk lebih jelas seperti pada Gambar 2.1.

Gambar 2.1 String-Based Similarity (Gomaa & Fahmi, 2013)

(20)

Character Based Similarity akan membandingkan kemiripan teks atau kata berdasarkan komposisi karakter pada setiap kata pada teks pertama dan teks kedua.

Sedangkan term based Similarity akan membandingkan kemiripan teks berdasarkan kemunculan kata pada teks pertama dan teks kedua.

Kemiripan semantik terbagi menjadi dua bagian yaitu corpus-based Similarity dan knowledge-Similarity. Kemiripan semantik berfokus untuk menemukan kemiripan kata melalu makna kata, dimana kata dengan struktur yang berbeda belum tentu tidak saling berkaitan.

2.1.1 Corpus-Based Similarity

Adalah kemiripan semantik yang menetukan kemiripan antar kata berdasarkan sebuah korpora yang besar, data korpora dapat berisi kumpulan teks tertulis ataupun lisan (Gomaa & Fahmi, 2013). Beberapa algoritma Corpus-Based Similarity seperti pada Gambar 2.2.

Gambar 2.2 Corpus-Based Similarity (Gomaa & Fahmi, 2013)

2.1.2 Knowledge-Based Similarity

Adalah kemiripan semantik berdasarkan pada identifikasi derajat kemiripan antar word dengan menggunakan pengetahuan atau informasi jaringan semantik ( Gomaa & Fahmi,

(21)

2013). Dalam pengukuran kemiripan semantik dengan metode knowledge-based jaringan semantik yang paling sering digunakan adalah WordNet. Beberapa algoritma knowledge based seperti pada Gambar 2.3.

Gambar 2.3 Knowldege-Based Similarity (Gouma & Fahmi, 2013)

Penelitian ini akam digunakan algoritma Cosine Similarity dan Wu Palmer (wup) dengan jaringan semantik WordNet.

2.2. WordNet

WordNet adalah jaringan semantik online yang desainnya terinspirasi oleh teori psikolinguistik terkini dari memori leksikal manusia (Miller et al. 1990). Kamus WordNet terdiri dari verb (kata kerja), noun (kata benda), adjective (kata sifat), dan adverb (kata keterangan) dalam bahasa Inggris yang diatur ke dalam kumpulan synsets (synonim sets) yang masing-masing mewakili satu konsep leksikal yang mendasarinya.

Hubungan yang berbeda menghubungkan kumpulan sinonim. Saat ini WordNet berisi sekitar 155.327 kata, 175.979 synsets dan 207.016 pasangan kata. Data ini didapat dari Wikipedia. Keunggulan yang dimiliki WordNet berkat konsep synset nya adalah kemampuan nya dalam melihat kedekatan kata dari segi holonim, meronim, hipernim, hiponim, sinonim, dan antonim.

Bahasa Indonesia adalah salah satu bahasa yang tersedia dalam Wordnet, Struktur WordNet Bahasa Indonesia dikembangkan oleh Lab Information Retrieval Fakultas

(22)

Ilmu Komputer Universitas Indonesia. WordNet dalam bahasa Indonesia dengan WordNet dalam bahasa Inggris yang dikembangkan oleh Universitas Priceton memiliki struktur yang sama.

2.3. Natural Language Processing

Natural Language Processing adalah sebuah teknik komputasi yang digunakan untuk memproses teks kedalam sebuah sistem komputer pada satu atau lebih tingkat analisis ilmu bahasa untuk mencapai tujuan pemrosesan bahasa yang mirip dengan bahasa manusia (Liddy, 2001).

NLP adalah salah satu cabang dalam ilmu AI yang memiliki fokus untuk menerjemahkan bahasa manusia. NLP memiliki tujuan agar komputer mampu memahami dengan baik input dari user.

2.4. Wu Palmer

Wu Palmer adalah algoritma semantic similarity yang dapat mengukur derajat keterkaitan antar dokumen. Wu Palmer memiliki nilai correct rate sebesar 88% (Wu &

Palmer, 1994) adalah salah satu fungsi yang tersedia dalam library NLTK pada python.Wu Palmer pada WordNet bekerja dengan cara membandingkan kedekatan diantar dua synsets, seperti yang diberikan pada persamaan 2.1.

𝑊𝑢 𝑃𝑎𝑙𝑚𝑒𝑟 = 2 ∗ 𝐷𝑒𝑝𝑡ℎ 𝐿𝐶𝑆(𝑆1,𝑆2)

𝑑𝑒𝑝𝑡ℎ (𝑆1)+𝑑𝑒𝑝𝑡ℎ (𝑆2) ( 2.1 )

Dengan keterangan :

LCS = Nilai terendah diantara synset1 dan synset2 Depth (Si) = Posisi synset ke-i pada WordNet

Algoritma Wu Palmer tidak akan memberikan nilai 0 atau negatif karena LCS tidak akan bernilai 0 atau bernilai negatif, rentang nilai yang dihasilkan algoritma ini adalah 0,01 sampai 1.

(23)

2.5. Cosine Similarity

Cosine Similarity adalah algoritma yang digunakan untuk mengukur kemiripan teks antara vektor yang merupakan hasil dari sebuah inner product space yang diukur dengan menggunakan fungsi kosinus untuk menentukan atau melihat apakah kedua vektor menunjuk ke arah yang sama atau tidak (Han, et al. 2012). Proses Cosine Similarity seperti pada persamaan 2.2.

𝐶𝑜𝑠𝑆𝑖𝑚(𝑋, 𝑌) = ^𝑋∗𝑌

||𝑋||∗||𝑌|| ( 2.2 )

Dengan keterangan : X = Vector X Y = Vector Y

||X|| = Eucledian Norm vector X

||Y|| = Eucledian Norm vector Y

Cosine Similarity akan memberikan hasil dengan rentang nilai antara 0 dan 1. Apabila dokumen sama sekali tidak mirip akan memberikan 0 dan apabila dokumen mirip maka akan menghasilkan nilai 1.

2.6. Penelitian Terdahulu

Penelitian kemiripan dokumen teks yang dilakukan oleh Firdaus et al (2014) dengan menggunakan metode Cosine Similarity dan algoritma Nazief & Andriani. Pada penelitian ini dokumen - dokumen yang akan diuji terlebih dahulu melalui proses PreProcessing. Khusus pada bagian stemming akan diterapkan algoritma Nazief &

Andriani. Algoritma ini dipilih karena pengembangan algoritma ini didasari pada morfologi Bahasa Indonesia yang telah dikelompokkan dari imbuhan menjadi awalan, sisipan, dan akhiran. Setelah proses stemming selesai maka dilakukan perhitungan kemiripan dengan menghitung term frequency kata. Penelitian dengan bantuan algoritma Nazief & Andriani memperoleh hasil 5,98% lebih tinggi.

(24)

Penelitian kemiripan teks pernah dilakukan oleh Imbar et al (2014) melakukan penelitian tentang implementasi Algoritma Smith-Waterman dan Cosine Similarity dimana algoritma tersebut berfungsi untuk mendeteksi kemiripan teks. Penelitian ini menggunakan Cosine Similarity untuk mengukur kesamaan teks berdasarkan struktur teks, dan algoritma Smith – Waterman berfungsi untuk menghitung kemiripan teks yang didasari oleh urutan kata dan ouput yang diberikan adalah hasil kemiripan dari struktur teks dan hasil kemiripan dari urutan kata.

Penelitian kemiripan dokumen teks yang dilakukan oleh Ariantini et al (2016) dengan menggunakan metode Cosine Similarity. Penelitian ini menghitung tingkat kemiripan dengan cara menghitung nilai TF (Term Frequency) untuk mengitung kemunculan kata kemudian menghitung kemiripan dokumen teks dengan metode Cosine Similarity dan menyimpannya ke database.

Penelitian kemiripan teks yang dilakukan oleh Neculoiu et al (2016) dengan menggunakan metode Siamese Recurent Networks. Penelitian ini menghitung kemiripan teks dengan metode Siamese yang dipengaruhi oleh 4 parameter yaitu typos,composition,extra words, dan annotation. Hasil penelitian menunjukkan jika document yang diberikan extra word akan menghasilkan persentase lebih baik.

Selanjutnya ada penelitian kemiripan text yang dilakukan oleh Prasetya et al (2018) dengan menggunakan beberapa metode kemiripan yaitu string-based , corpus-based, knowledge-based, dan hybrid Similarity. Pada hasil penelitian ini algoritma Wu Palmer sebagai algoritma semantik tidak menghasilkan nilai 0 atau empty pada 3 pair pengujian dengan nilai tertinggi pada pengujian pair 2 dengan nilai 0.9091, sedangkan Cosine Similarity sebagai algoritma string-based menghasilkan nilai 0 pada pair 2 dan pair 3.

Rangkuman dapat dilihat pada Tabel 2.1.

Tabel 2.1 Penelitian Terdahulu

No Peneliti Metode Keterangan

1 Firdaus et al.

(2016)

Cosine Similarity Nazief & Andriani

Penelitian menggunakan algoritma stemming Nazief & Andriani dan perhitungan kemiripan dengan algoritma CosineSimilarity dan

(25)

Tabel 2.1 Penelitian Terdahulu (Lanjutan)

didapatkan jika pengujian dengan stemming Nazief & Andriani menghasilkan 5.98% nilai lebih tinggi

2 Imbar et al.

(2016)

Cosine Similarity Smith-Waterman

Penelitian mendeteksi kemiripan teks dengan menggunakan dua cara yaitu dari struktur kata dengan menggunakan algoritma Cosine Similarity dan dari segi urutan kata dengan algoritma Smith- Waterman.

3 Ariantini et al

(2016) Cosine Similarity

Penelitian ini menghitung tingkat kemiripan dengan cara menghitung nilai TF (Term Frekuensi) untuk mengitung kemunculan kata kemudian menghitung kemiripan dokumen teks dengan metode CosineSimilarity dan

menyimpannya ke database.Selisih antara nilai aktual dan prediksi 9 - 15%

4

Neculoiu et al

(2016) Siamese Recurent Networks

Penelitian ini menghitung kemiripan teks dengan metode Siamese yang dipengaruhi oleh 4 parameter yaitu typos, composition, extra words, dan annotation. Hasil penelitian menunjukkan jika document yang dengan extra word akan menghasilkan persentase lebih baik.

5

Prasetya et al (2018)

String-based Corpus-based Knowledge-based Hybrid Similarity

Pada hasil penelitian ini algoritma Wu Palmer sebagai algoritma semantik tidak menghasilkan nilai 0 atau empty pada 3 pair pengujian dengan nilai tertinggi pada pengujian pair 2 dengan nilai 0.9091

(26)

BAB 3

ANALISIS DAN PERANCANGAN

3.1.Data yang digunakan

Data pada penelitian ini akan menggunakan data yang diperoleh dari website repositori usu (data uji) dan data pembanding yang digunakan diambil dari referensi karya ilmiah yang terdapat di dalam dokumen uji dengan format .txt , .pdf , ataupun .docx. Dokumen Uji dan Dokumen Pembanding harus menggunakan style penulisan satu kolom, apabila ditemukan style penulisan dua kolom atau lebih maka akan dikonversi menjadi penulisan satu kolom secara manual. Contoh data dokumen uji dan dokumen pembanding seperti yang diberikan pada Gambar 3.1 dan Gambar 3.2.

Gambar 3.1 Contoh Dokumen Uji

(27)

Gambar 3.2 Contoh Dokumen Pembanding

3.2.Analisis Sistem

Data-data yang telah terkumpul terlebih dahulu akan melewati tahapan Pre-Processing yaitu Case Folding (perubahan kata menjadi huruf besar atau huruf kecil), Tokenizing (pemecahan karakter), Filtering (tahap mengambil kata penting dari hasil proses token), Stemming (tahap mengubah kata menjadi bentuk kata dasar) hanya untuk dokumen dalam bahasa indonesia dan Part-of-Speech Tag (Mengelompokkan kata berdasarkan kelas katanya baik itu verb,adverb,adjective atau noun. Setelah selesai selanjutnya akan masuk ke tahap proses, tahap proses berisi perhitungan kemiripan dengan algoritma Wu Palmer dan Cosine Similarity. Untuk lebih jelasnya dapat dilihat pada Gambar 3.3.

(28)

Gambar 3.3 Arsitektur Umum

3.2.1. Input

Input terdiri dari dokumen uji dan dokumen pembanding. Data yang digunakan untuk dokumen uji adalah data skripsi mahasiswa USU yang dipilih secara acak dengan menggunakan data mahasiswa tahun 2015 sampai 2017 yang diperoleh melalui website repositori usu , sedangkan untuk data dokumen pembanding diperoleh melalui browsing dengan memperhatikan referensi/daftar pustaka pada data dokumen uji.

Input

(29)

3.2.2. Pre-processing

Tahap ini akan melakukan beberapa proses agar data dokumen uji dan data dokumen pembanding siap diolah pada tahap proses. Tahapan-tahapan pada tahap proses, yaitu:

3.2.2.1. Case Folding

Merupakan proses perubahan kata menjadi Uppercase atau Lowercase pada proses ini juga dilakukan perubahan tanda kurung menjadi tanda kurung siku, hal ini agar memudahkan proses pengambilan sitasi . Proses ini dilakukan untuk memudahkan sistem dalam menganalisa teks. Contoh seperti pada Tabel 3.1

Tabel 3.1 Data sebelum dan setelah Case Folding

Sebelum Case Folding Setelah Case Folding Guru itu di undang untuk mengikuti pelatihan

pada tanggal 20 Agustus 2020

guru itu di undang untuk mengikuti pelatihan pada tanggal agustus

The teacher has been invited to attend the training on August 20, 2020

the teacher has been invited to attend the training on august 20, 2020

3.2.2.2. Remove Citations

Setelah sebelumnya dilakukan tahap Case Folding pada dokumen uji dan dokumen pembanding, selanjutnya dokumen uji akan melewati tahapan penyimpanan sitasi kedalam aray dan tahap penghapusan sitasi. Sitasi yang dapat dikenali oleh program adalah sitasi yang dirujuk melalui buku pedoman penulisan skripsi yang ditulis oleh Sitompul et al (2014) yaitu sebagai berikut :

1. Sitasi dengan gaya penulisan : bayu (2016).

2. Sitasi dengan gaya penulisan : (bayu, 2016) 3. Sitasi dengan gaya penulisan : bayu & aji (2016) 4. Sitasi dengan gaya penulisan : (bayu & aji 2016) 5. Sitasi dengan gaya penulisan : bayu et al. (2016) 6. Sitasi dengan gaya penulisan : (bayu, et al. 2016)

(30)

3.2.2.3. Tokenizing

Adalah proses pemetaan kalimat menjadi kata(Guo, 1997). Hal ini sangat membantu dalam proses penelitian dikarenakan dalam sebuah karya ilmiah tentu tidak hanya terdapat satu paragraf ataupun satu kalimat saja. Tahapan Tokeizing akan memudahkan penelitian ini karena akan memecah kalimat pada paragraf menjadi kata sehingga proses pada algoritma Wu & Palmer dan Cosine Similarity menjadi lebih optimal. Contoh data sebelum dan sesudah Tokenizing seperti pada Tabel 3.2.

Tabel 3.2 Data sebelum dan setelah Tokenizing

Sebelum Tokenizing Setelah Tokenizing

guru itu di undang untuk mengikuti pelatihan pada tanggal agustus

[‘guru’,’itu’,’di’,’undang’,’untuk’,

’mengikuti,’pelatihan’,’pada’,

’tanggal’,’agustus’]

the teacher has been invited to attend the training on august 20, 2020

[‘the’,’teacher’,’has’,’been’,’invited’,

‘to’,’attned’,’the’,training’,’on’,

‘20’,’august’,’2020’]

3.2.2.4. Filtering

Pada tahap ini penulis akan menyeleksi teks yang dianggap kurang penting misalnya kata “yang” , “di” , “itu”, proses ini dapat menggunakan menggunakan algoritma stop list atau word list. Pada penelitian ini proses Filtering dibutuhkan untuk mempercepat proses perhitungan dan proses ini juga diperlukan agar nilai persentase semakin maksimal. Pada tahapan ini penulis akan memanfaatkan library python Sastrawi untuk melakukan proses filtering dengan metode Stoplist (stopword removal).

Pada tahap ini akan penulis akan memanfaatkan library Sastrawi pada python untuk melakukan stopword removal pada teks dengan bahasa Indonesia dan menggunakan library nltk pada teks dengan bahasa Inggris. Daftar stopword pada library Sastrawi seperti pada gambar 3.4 dan gambar 3.5

(31)

Gambar 3.4 Daftar stopword pada library Sastrawi

Gambar 3.5 Daftar stopword pada library NLTK

Setelah sebelumnya melalui tahap tokenizing selanjutnya akan dilakukan tahap filtering dengan menggunakan daftar kata stopword pada masing - masing bahasa.

Contoh proses seperti pada Tabel 3.3.

Tabel 3.3 Proses Filtering dengan algoritma Stopwords.

Kata masukan Stopwords Hasil filtering

guru Tidak Guru

itu Ya -

di Ya -

undang Tidak undang

(32)

Tabel 3.3 Proses Filtering dengan algoritma Stopwords. (Lanjutan)

untuk Ya -

mengikuti Tidak mengikuti

pelatihan Tidak pelatihan

pada Ya -

tanggal Tidak tanggal

agustus Tidak agustus

Setelah proses filtering selesai, maka kata yang telah dipotong menjadi beberapa bagian tadi akan disatukan kembali untuk selanjutnya masuk ke tahap Stemming (Apabila dokumen dalam format bahasa Indonesia). Apabila dokumen dalam format bahasa Inggris maka akan langsung masuk ke tahap POS Tagging.

3.2.2.5. Stemming

Proses Stemming tidak akan dilakukan pada teks bahasa Inggris dikarenakan teks sering sekali kehilangan huruf yang tentu saja hal ini akan mempengaruh pengujian, dikarenakan WordNet tidak mampu memperbaiki teks tersebut maka diputuskan untuk tidak menggunakan stemming pada Bahasa Inggris. Contoh stemming seperti pada Tabel 3.4

Tabel 3.4 Proses Stemming pada Bahasa Inggris

Algoritma Kata Hasil Stemming

Porter

article articl

trouble troubl

troubling troubl

troubled troubl

Lancaster

article artic

trouble troubl

troubling troubl

troubled troubl

(33)

Pada tahap ini kata akan diubah menjadi bentuk kata dasar (root word) hal ini dibutuhkan agar WordNet dapat mendeteksi kata bahasa indonesia dengan baik. Pada penelitian Fatonah et al (2020) didapat kesimpulan jika tahapan stemming membuat proses program menjadi lebih cepat.

Pada tahap ini penulis memilih menggunakan stemming Sastrawi karena pada penelitian Fatonah et al (2020) algoritma ini menghasilkan proses paling cepat jika dibandingkan algoritma Nazief-Andriani, dan algoritma Sastrawi memiliki tingkat akurasi yang tinggi. Tahapan proses stemming pada algoritma sastrawi adalah sebagai berikut :

1. Algoritma akan melakukan cek kata per-kata, jika kata tersedia didalam kamus maka pengecekan berhenti, jika tidak maka pengecekan akan berlanjut.

2. Jika ditemukan kata dengan akhiran (kah, lah, mu, nya, ku) maka akhiran tersebut akan dihilangkan. Akan tetapi jika kata tersebut adalah adalah particles (tah, pun, lah, kah,) langkah ini akan diulangi untuk melihat apakah terdapat kata ganti (mu , ku , nya), jika iya maka akan dihapus. Contoh tahap ini seperti pada Tabel 3.5

3. Jika kata dengan akhiran ( i , an , kan) terdapat di dalam dictionary maka algoritma otomatis berhenti, jika tidak maka akan masuk ke tahap berikutnya.

Contoh tahap ini seperti pada Tabel 3.6

4. Jika kata dengan akhiran (an) telah dihapus dan huruf terakhir dari kata tersebut adalah ( k ) maka akhiran ( k ) tersebut akan dihapus, lalu cek apakah kata tersedia di dalam kamus, jika tidak maka kata dengan akhiran tersebut akan dikembalikan seperti semula. Contoh seperti pada Tabel 3.7

5. Jika pada tahap 4 ada kata yang dihapus maka dilanjutkan dengan pemeriksaan awalan. Apakah terdapat awalan dari kata tersebut, jika iya maka awalan akan dihapus, jika kata tidak tidak mengandung awalan dan akhiran yang tidak di ijinkan maka stemming dilakukan. Awalan dan akhiran yang tidak diijinkan seperti pada Tabel 3.8

6. Proses stemming selesai

(34)

Tabel 3.5 Proses Stemming (kah,lah,mu , nya, ku)

Kata Akhiran Hasil Stemming

milikku ku milik

kamu mu kamu

salahkah kah salah

apakah kah apakah

Tabel 3.6 Proses Stemming yang tidak menghapus akhiran(i,an,kan)

abrasi i abrasi

aman an aman

dekan kan dekan

Tabel 3.7 Proses tahap 4 dan tahap 5

andaikan kan andai

makanan an makan

bahkan kan bahkan

Tabel 3.8 Kombinasi awalan dan akhiran yang dilarang

Awalan Akhiran

be i

di an

ke i , kan

me an

se i , kan

Setelah tahap ini selesai selanjutnya masuk ke tahap POS Tagging.

(35)

3.2.2.6. POS Tagging

Tahap ini digunakan dikarenakan synset (synonim set) pada WordNet dikelompokkan ke dalam kelas - kelas kata yaitu verb,adverb,adjective,dan noun. Dengan bantuan POS Tag juga dapat mempercepat proses word Similarity pada Wu Palmer. Pada tahapan ini akan menggunakan dua library berbeda, libray crf tagger dengan dataset yang dikembangkan oleh Dinakaramani et al (2010) untuk POS Tag bahasa Indonesia, dan library NLTK untuk POS Tag bahasa Inggris. Dataset POS Tag bahasa Indonesia yang dikembangkan oleh Dinakaramai et al mengandung 10.000 kata. Daftar tag pada POS Tag bahasa Indonesia seperti pada Tabel 3.9 Dinakaramani et al (2010) , dan daftar tag pada POS Tag bahasa Inggris seperti Tabel 3.10.

Tabel 3.9 Daftar POS Tag Bahasa Indonesia

(36)

Tabel 3.10 Daftar POS Tag Bahasa Inggris

Contoh POS Tag pada bahasa Indonesia seperti pada Tabel 3.11 dan bahasa Inggris seperti pada Tabel 3.12

(37)

Tabel 3.11 Contoh POS Tagging Bahasa Indonesia

Kata Masukan POS Tagging

guru NN

undang VB

ikut VB

latih VB

tanggal VB

Tabel 3.12 Contoh POS Tagging Bahasa Inggris

Kata Masukan POS Tagging

teacher NN

invite VB

present ADJ

trained NN

tanggal NN

august NN

Setelah tahap ini selesai selanjutnya masuk ke tahap proses, yaitu tahap perhitungan kemiripan paragraf dengan menggunakan Wu Palmer dan Cosine Similarity.

3.2.3. Intermediate Document

Setelah melewati tahapan Pre-Processing tahapan selanjutnya adalah menyimpan dokumen uji dan dokumen pembanding kedalam sebuah file berbentuk plain text dengan format .txt. Dokumen ini berguna apabila dokumen uji yang digunakan akan diuji ke dokumen pembanding yang lain maka tidak perlu lagi melewati proses Pre- Processing, dan tentu saja hal ini akan menghemat waktu pemrosesan, dan begitu juga dengan dokumen pembanding. Contoh Intermediate Document seperti pada Gambar 3.6.

(38)

Gambar 3.6 Contoh File Intermediate Document

Setelah tahapan ini selesai akan langsung masuk ke tahap proses untuk melakukan perhitungan dengan algoritma Wu Palmer dan Cosine Similarity.

3.2.4. Proses

Pada tahap proses akan dilakukan metode perhitungan yaitu menggunakan algoritma Wu & Palmer, dan Cosine Similarity dengan acuan pada kamus WordNet bahasa Indonesia dan bahasa Inggris.

3.2.4.1. Wu Palmer

Pada metode konvensional, Cosine Similarity dihitung dengan menggunakan term frequency kata pada teks uji dan teks pembanding yang hanya membandingkan kemiripan kata dari kesamaan kata nya , apabila kata nya sama maka akan memberikan nilai 1 jika tidak maka akan memberkan nilai 0 tanpa memperhatikan apakah kata tersebut memiliki hubungan semantik atau tidak, dengan menggunakan algoritma Wu Palmer masalah tersebut dapat diatasi, dengan catatan agar hasil kemiripan tidak over value maka pada nilai kemiripan kata yang didapat dengan Wu Palmer ini akan diberikan threshold sebesar 0.6 , nilai ini didapat dari penelitian yang dilakukan oleh Thamrin & Sabardila (2015). Apabila Wu Palmer menghasilkan nilai word Similarity kurang dari 0,6 maka kemiripan kata tersebut akan dianggap 0. Contoh wup (Wu Palmer) seperti pada Tabel 3.13 dan 3.14

Tabel 3.13 Word Similarity pada Cosine Similarity Konvensional

Kata Uji Kata Pembanding Word Similarity

Guru Pria 0

Undang Undang 1.00

(39)

Tabel 3.13 Word Similarity pada Cosine Similarity Konvensional (Lanjutan)

Ikut Hadir 0

Latih Ajar 0

Tanggal Tanggal 1.00

Agustus Agustus 1.00

Makan Dahar 0

Cantik Wanita 0

Tabel 3.14 Word Similarity dengan menggunakan Wu Palmer

Kata Uji Kata Pembanding POS Word Similarity

Guru Pria Noun 0.6666

Undang Undang Verb 1.00

Ikut Hadir Verb 0.5

Latih Ajar Verb 0.9090

Tanggal Tanggal Verb 1.00

Agustus Agustus Noun 1.00

Makan Dahar Verb 0.8571

Cantik (Adj) Wanita (Nn) Adjective -

Noun None

Dapat dilihat pada Tabel diatas Word Similarity dengan menggunakan Wu Palmer menghasilkan hasil yang lebih baik karena dapat mengukur tingkat semantik kata, akan tetapi pengujian Wu Palmer akan menghasilkan nilai None jika POS Tag kata yang dibandingkan berbeda, hal ini terjadi karena kata yang dibandingkan tidak memiliki shortest path pada taksonomi WordNet.

3.2.4.2. Cosine Similarity

Pada tahap ini akan dilakukan perhitungan dengan menggunakan metode kosinus untuk menemukan kemiripan pada paragraf uji dan paragraf pembanding. Agar algoritma Cosine Similarity dapat menghitung kemiripan paragraf, maka terlebih dahulu dimensi

(40)

vektor paragraf uji dan dimensi vektor paragraf pembanding harus sama, yaitu dengan cara menggabungkan paragraf uji dan paragraf pembanding dan menghilangkan kata duplikat (metode Cosine konvensional).Seperti pada contoh.

Contoh perhitungan kemiripan paragraf

Paragraf Uji setelah PreProcessing:

['komputer-NN', 'alat-NN', 'pakai-VB', 'olah-SC', 'data-NN', 'prosedur-NN', 'telah-MD', 'rumus-JJ']

Paragraf Pembanding setelah PreProcessing:

['computers-NNS', 'tools-NNS', 'used-VBN', 'process-NN', 'data-NNS', 'according-VBG', 'formulated-VBN', 'procedures-NNS']

Gabungan Paragraf Uji dan Paragraf Pembanding:

['komputer-NN', 'alat-NN', 'pakai-VB', 'olah-SC', 'data-NN', 'prosedur-NN', 'telah-MD', 'rumus-JJ', 'computers-NNS', 'tools-NNS', 'used-VBN', 'process- NN','according-VBG', 'formulated-VBN', 'procedures-NNS']

Selanjutnya dilakukan pencarian kemiripan kata - perkata dengan menggunakan algoritma Wu Palmer dengan menggunakan persamaan 2.1.

dan hasilnya seperti pada Gambar 3.7 dan Gambar 3.8.

(41)

Gambar 3.7 Hasil Vektor Paragraf Uji

Selanjutnya untuk membentuk vektor paragraf uji ambil nilai maksimal dari setiap cell dan di dapatkan vektor paragraf uji = [ 1,1,1,1,1,1,1,1,1,1,0.33,1,0.5,0.25,1 ]

Gambar 3.8 Hasil Vektor Paragraf Pembanding

Selanjutnya untuk membentuk vektor paragraf pembanding ambil nilai maksimal dari setiap cell dan di dapatkan vektor paragraf pembanding =

[1,1,0.5,0,0.72,1,0,0,1,1,1,1,1,1,1]

Dikarenakan nilai threshold adalah 0.6 (Thamrin & Sabardila, 2015) maka vektor nya menjadi

Vektor paragraf uji = [ 1,1,1,1,1,1,1,1,1,1,0,1,0,0,1 ]

Vektor paragraf pembanding = [1,1,0,0,0.72,1,0,0,1,1,1,1,1,1,1]

(42)

Lalu dilakukan perhitungan Cosine Similarity dengan menggunakan persamaan (2.2) dan hasilnya adalah 0.6871

3.2.5. Output

Output akan ditampilkan dalam rentang nilai 0 sampai 1 dari masing masing paragraf yang telah di kelompokkan menjadi tidak mirip, dan mirip.

3.3. Diagram Aktivitas Sistem

Tahap ini berisikan alur dari aktivitas sitem, dimana user akan melakukan input dokumen uji dan dokumen pembanding untuk kemudian dihitung tingkat kemiripannya lalu selanjutnya hasil perhitungan akan langsung terlihat atau bisa juga disimpan terlebih dahulu kedalam database. Diagram aktivitas kemiripan teks seperti pada Gambar 3.9.

Gambar 3.9 Diagram Aktivitas Sistem

3.4.Flowchart Kemiripan Paragraf

Flowchart akan memberikan gambaran tentang jalannya proses perhitungan kemiripan teks pada setiap paragraf. Flowchart peroses perhitungan kemiripan sepeti pada Gambar 3.10

(43)

Gambar 3.10 Flowchart perhitungan kemiripan paragraf

Penjelasan flowchart adalah sebagai berikut:

a. Mulai menjalankan sistem.

b. Upload dokumen uji dan dokumen pembanding dengan format .doc , .docx, atau .txt.

(44)

c. Melakukan tahap Pre-Processing pada dokumen uji dan dokumen pembanding.

d. Melakukan tahapan word Similarity dengan menggunakan Wu Palmer dan WordNet Corpus.

e. Selanjutnya dilakukan pengecekan apakah nilai word Similarity lebih dari atau sama dengan 0.6 , jika iya maka nilai tidak akan di konversi menjadi 0.

f. Setelah tahap word Similarity selesai dilakukan pada setiap kata dalam paragraf, maka dilakukan pembentukan vektor paragraf uji dan paragraf pembanding dengan memilih nilai maksimal pada setiap cell seperti yang terlihat pada gambar 3.2 dan 3.3.

g. Selanjutnya masuk ke tahap perhitungan paragraph Similarity dengan metode Cosine Similarity, dan output dari program adalah nilai kemiripan dengan rentang nilai 0 sampai 1.

h. Program selesai

3.5. Perancangan Antarmuka Sistem

Rancangan antarmuka sistem akan menggunakan interface berbasis web yang terdiri dari menu Beranda, menu Deteksi Kemiripan.

3.5.1. Rancangan Tampilan Beranda

Beranda akan muncul pertama kali ketika aplikasi dijalankan. Beranda berisi navigasi menuju menu deteksi kemiripan. Layout beranda dapat dilihat pada Gambar 3.10.

(45)

Gambar 3.11 Tampilan Beranda

3.5.2. Rancangan Tampilan Deteksi Kemiripan

Tampilan deteksi kemiripan ini terbagi menjadi dua bagian utama , proses upload file dan hasil kemiripan.

3.5.2.1. Rancangan Halaman Upload File

Tampilan ini berisi form upload dokumen uji dan dokumen pembanding, pada bagian ini juga terdapat menu preview untuk melihat isi dokumen uji dan dokumen pembanding sebelum di upload dan dilakukan pengujian, dan ada menu pilih dokumen uji dan dokumen pembanding yang telah di upload sebelumnya,selanjutnya ada submit button yang akan melakukan proses algoritma pada bagian backend. Rancangan halaman seperti yang terlihat pada Gambar 3.11.

(46)

Gambar 3.12 Layout Upload Dokumen

3.5.2.2. Rancangan Halaman Hasil Kemiripan

Halaman ini akan menampilkan output kemiripan pada dokumen yang telah diuji sebelumnya, pada halaman ini juga terdapat menu Simpan untuk menyimpan hasil kemiripan kedalam database. Rancangan halaman ini seperti yang terlihat pada Gambar 3.12.

(47)

Gambar 3.13 Layout Hasil Kemiripan

(48)

BAB 4

IMPLEMENTASI DAN PENGUJIAN

4.1. Implementasi Sistem

4.1.1. Spesifikasi Perangkat Keras dan Perangkat Lunak

Adapun Spesifikasi hardware dalam pengembangan sistem adalah sebagai berikut:

1. Processor Intel(R) Pentium(R) CPU B950 @ 2.10 GHz 2. RAM 2GB

Spesifikasi minimum perangkat lunak yang digunakan dalam pengembangan sistem dijelaskan secara rinci sebagai berikut:

1. Sistem Operasi Windows 10 Pro 32-bit

2. Menggunakan bahasa pemrograman Python (versi 3.6) dengan library yang digunakan adalah Flask (versi 1.1.2), NLTK (versi 3.5) , numpy (versi 1.19.4), Sastrawi (versi 1.0.1).

3. Google Collaboratory 4. Sublime Text Editor

4.1.2. Implementasi Perancangan Tampilan Antarmuka

Berikut ini adalah implementasi dari rancangan interface yang telah disebutkan pada bab 3, yaitu :

1. Tampilan Beranda , sesuai dengan penjelasan pada bab sebelumnya tampilan ini memuat beberapa informasi dasar dan navigasi menuju menu deteksi kemiripan, implementasi dapat dilihat pada gambar 4.1.

(49)

Gambar 4.1 Tampilan Beranda

1. Tampilan Deteksi Kemiripan, sesuai dengan penjelasan pada bab sebelumnya tampilan ini terdiri atas dua bagian yaitu halaman upload file dan hasil deteksi.

Tampilan upload file berisi form upload dan pilih dokumen uji dan dokumen pembanding yang sebelumnya telah di upload. Tampilan hasil deteksi berisi output dari kemiripan dokumen uji dan dokumen pembanding dan button simpan hasil untuk menyimpan hasil deteksi kedalam database. Implementasi tampilan dapat dilihat pada Gambar 4.2 dan 4.3.

Gambar 4.2 Tampilan Upload

(50)

Gambar 4.3 Tampilan Hasil

4.2. Pengujian sistem

Pengujian sistem bertujuan untuk mengetahui seberapa baik program dalam menemukan kemiripan teks. Dalam pengujian sistem digunakan data uji sebanyak 11 dokumen dengan total paragraf uji sebanyak 374 dan data pembanding sebanyak 40 dokumen dengan total paragraf pembanding sebanyak 867. Pengujian ini akan mencocokkan hasil yang dilakukan oleh manusia (tenaga ahli) dengan hasil yang diberikan oleh sistem.

Setelah validasi data didapatkan selanjutnya akan dihitung nilai akurasi, presisi, recall, dan F-Measure. Untuk menghitung keempat data tersebut diperlukan nilai TP, TN, FN, dan FP.

1. TP atau True Positive adalah data positif yang diprediksi sebagai data benar oleh sistem. Contoh paragraf mirip yang diprediksi mirip oleh sistem.

2. TN atau True Negative adalah data negatif yang diprediksi sebagai data salah oleh sistem. Contoh paragraf tidak mirip yang diprediksi tidak mirip oleh sistem 3. FP atau False Positive adalah data negatif yang diprediksi sebagai data benar

oleh sistem. Contoh paragraf tidak mirip yang diprediksi mirip oleh sistem.

4. FN atau False Negative adalah data positif yang diprediksi sebagai data salah oleh sistem. Contoh paragraf mirip yang diprediksi tidak mirip oleh sistem.

Selanjutnya akan dijelaskan mengenai apa itu akurasi, presisi, recall, dan F- Measure seperti berikut:

(51)

a. Akurasi

Adalah tingkat kemampuan sistem untuk mengukur secara akurat antara jawaban yang diberikan sistem dengan jawaban sebenarnya. Persamaan untuk menghitung akurasi adalah seperti pada persamaan 4.1 :

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = ^{𝑇𝑃+𝑇𝑁}

𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁 𝑥 100% ( 4.1 )

b. Presisi

Adalah tingkat kemampuan sistem untuk mengukur ketepatan antara jawaban yang diberikan oleh sistem dengan jawaban sebenarnya. Persamaan untuk menghitung presisi seperti pada persamaan 4.2 berikut:

𝑃𝑟𝑒𝑠𝑖𝑠𝑖 = ^𝑇𝑃

𝑇𝑃+ 𝐹𝑃 𝑥 100% ( 4.2 ) c. Recall

Recall adalah kemampuan sistem untuk menemukan kembali jawaban yang diminta oleh pengguna. Persamaan untuk menghitung recall seperti pada persamaan 4.3 berikut:

𝑅𝑒𝑐𝑎𝑙𝑙 = ^𝑇𝑃

𝐹𝑁+ 𝑇𝑃 𝑥 100% (4.3) d. F-Measure

F-Measure atau disebut juga sebagai (F1 - score) adalah nilai harmonic rata - rata (mean) dari recall dan presisi. Persamaan untuk menghitung f-measure seperti pada persamaan 4.4 berikut

𝐹 − 𝑀𝑒𝑎𝑠𝑢𝑟𝑒 = 2 𝑥 𝑝𝑟𝑒𝑠𝑖𝑠𝑖 𝑥 𝑟𝑒𝑐𝑎𝑙𝑙

𝑝𝑟𝑒𝑠𝑖𝑠𝑖+𝑟𝑒𝑐𝑎𝑙𝑙 ( 4.4 )

Nilai atau output kemiripan yang diberikan oleh algoritma Wu Palmer dan Cosine Similarity adalah sebuah angka dengan rentang nilai 0 sampai 1, agar sistem mampu mengenali paragraf mirip dan tidak mirip perlu dilakukan pengukuran nilai threshold (ambang batas) yang cocok agar sistem mampu memprediksi dengan baik. Pada bagian

(52)

ini akan ditentukan berapa nilai threshold yang cocok untuk di implementasikan kepada program, nilai yang diajukan adalah 0.5, 0.6, dan 0.7.

a. Pengujian dengan threshold 0.5. Hasil pengujian seperti pada Tabel 4.1.

Tabel 4.1 Hasil pengujian dengan nilai threshold 0.5

(53)

Tabel 4.1 Hasil pengujian dengan nilai threshold 0.5 (Lanjutan)

(54)

Pada percobaan dengan nilai threshold 0.5 didapatkan data TP, FN, FP, Akurasi, Presisi, Recall, F-Measure seperti yang ditunjukkan pada Tabel 4.2.

Tabel 4.2 Perhitungan akurasi, presisi, recall, F-Measure pada threshold 0.5 Prediksi

Paragraf

TP TN FP FN Akurasi (%)

Presisi (%)

Recall (%)

F- Measure

374 74 155 144 1 61.2 33.9 98 0.5

b. Selanjutnya pengujian dengan nilai threshold 0,6. Hasil pengujian seperti pada Tabel 4.3.

(55)

(56)

(57)

Dengan memeriksa paragraf kembali secara manual didapatkan 7 data paragraf FN yaitu paragraf yang diprediksi tidak mirip oleh sistem akan tetapi hasilnya mirip ketika diuji oleh penguji (tenaga ahli). Pada percobaan dengan nilai threshold 0.6 didapatkan data TP, FN, FP, Presisi, Recall, F-Measure. Nilai-nilai tersebut dapat dilihat pada Tabel 4.4.

Tabel 4.4 Perhitungan akurasi, presisi, recall , F-Measure pada threshold 0.6 Prediksi

Paragraf

Presisi (%)

Recall (%)

F- Measure

374 68 283 16 7 93 80.9 90.6 0.85

c. Selanjutnya pengujian dengan nilai threshold 0,7. Hasil dari pengujian threshold dapat dilihat pada Tabel 4.5.

(58)

(59)

Dengan memeriksa paragraf kembali secara manual di dapatkan 33 data paragraf FN yaitu paragraf yang diprediksi tidak mirip oleh sistem akan tetapi hasilnya mirip ketika diuji oleh penguji (tenaga ahli). Pada percobaan dengan nilai threshold 0.7 didapatkan data TP, FN, FP, Akurasi, Presisi, Recall, F-Measure seperti yang ditunjukkan pada Tabel 4.6

(60)

Tabel 4.6 Perhitungan nilai akurasi, nilai presisi, nilai recall ,nilai F-Measure pada threshold 0.7

Prediksi Paragraf

Presisi (%)

Recall (%)

F- Measure

374 42 298 1 33 90.9 97 56 0.71

Hasil pengujian tingkat threshold pada nilai 0.5,0.6,dan 0.7 menghasilkan tingkat presisi,recall, dan F-Measure berbeda - beda. Hasil pengujian dari masing - masing tingkatan threshold dapat dilihat pada Tabel 4.7

Tabel 4.7 Perbandingan tingkat presisi,recall, dan F-Measure Nilai threshold Akurasi

(%)

Presisi (%)

Recall (%)

F-Measure

0.5 61.2 33.9 98 0.5

0.6 93 80.9 90.6 0.85

0.7 90.9 97 56 0.71

Dapat dilihat nilai perbandingan pada Tabel 4.7 dimana nilai recall terbaik adalah pengujian dengan nilai threshold 0.5 dengan nilai 98% akan tetapi akurasi, presisi dan recall nya sangat kecil, selanjutnya pada pengujian dengan threshold 0.7 menghasilkan nilai presisi terbaik yaitu sebesar 97% akan tetapi nilai recall nya hanya 56%, lalu pada pengujian dengan threshold 0.6 didapatkan akurasi sebesar 93%, presisi sebesar 80.9%

. recall 90.6%, dan F-Measure tertinggi yaitu 0.85 dan diambil kesimpulan jika pengujian terbaik adalah dengan menggunakan nilai threshold sebesar 0.6

(61)

BAB 5

KESIMPULAN DAN SARAN

5.1 Kesimpulan

Dari hasil pengujian kemiripan paragraf pada dokumen karya ilmiah menggunakan metode Wu Palmer dan Cosine Similarity didapatkan kesimpulan sebagai berikut:

1. Metode Wu Palmer dan Cosine Similarity dapat digunakan untuk mendeteksi kemiripan paragraf pada dokumen karya ilmiah dari segi leksikal atau semantik.

2. Pengujian mampu mendeteksi paragraf uji dan paragraf pembanding dalam dua bahasa (Bahasa Inggris dan Bahasa Indonesia).

3. Hasil terbaik pengujian didapatkan dengan menggunakan threshold 0.6 untuk memisahkan paragraf tidak mirip dan mirip dengan nilai Akurasi sebesar 93%, Presisi sebesar 80.9%, Recall sebesar 90.6% , dan F-Measure sebesar 0.85.

5.2. Saran

Setelah melakukan penelitian ini penulis memiliki saran untuk pengembangan berikutnya, dijelaskan secara rinci sebagai berikut:

1. Menambahkan metode crawling sehingga data untuk dokumen paragraf pembanding tidak diinput secara manual

2. Menerapkan algoritma atau metode lain agar memperoleh hasil yang maksimal dengan nilai presisi, nilai recall, dan nilai F-Measure yang lebih tinggi

(62)

DAFTAR PUSTAKA

Ariantini, D.A.R., Lumenta, A.S.M. & Jacobus, A. 2016. Pengukuruan Kemiripan Dokumen Teks Bahasa Indonesia Menggunakan Metode Cosine Similarity. E- Journal Teknik Informatika 9(1): 1-8. (Online) https://ejournal.unsrat.ac.id/index.php/informatika/article/view/13752 (10 Desember 2020 )

Buckland, M.K. 1997. What Is a Document. Journal Of The American Society For Information Science 48(9) : 804-809.

Dinakaramani, A., Rashel, F., Luthfi, A. & Manurung, R. 2014. Designing an Indonesian Part of speech Tagset and Manually Tagged Indonesian Corpus.

International Conference on Asian Language Processing (IALP), pp. 66-69.

Fatonah, S., Hadinegoro, A. & Hartanto, A.D. 2020. Deteksi Kemiripan Abstraksi Tugas Akhir Diploma Informatika Universitas AMIKOM Yogyakarta dengan Algoritma Rabin Karp. JURIKOM (Jurnal Riset Komputer) 7(1): 1-6.

Firdaus, A., Ernawati. & Firdaus, A.V. 2014. Aplikasi Pendeteksi Kemiripan Pada Dokumen Teks Menggunakan Algoritma Nazief & Andriani Dan Metode Cosine Similarity. Jurnal Teknologi Informasi 10(1) : 96-109.

Ganesan, K. 2015. What is Text Similarity. (Online) https://kavita-ganesan.com/what- is-text-Similarity/#.X_XE4FMxdkw (10 Desember 2020)

Gomaa, W.H. & Fahmy, A.A. 2013. A Survey of Text Similarity Approaches.

International Journal of Computer Applications 68(13): 13-18.

Guo, J. 1997 . Critical Tokenization and its Properties. Computational Linguistics 20(4): 569-596.

Han, J., Kamber, M. & Pei, J. 2012. Data Mining: Concepts and Techniques. 3^rd Edition. Elsevier : Amsterdam

(63)

Imbar, R.V., Adelia., Ayub, M. & Rehatta, A. 2014. Implementasi Cosine Similarity dan Algoritma Smith-Waterman untuk Mendeteksi Kemiripan Teks. Jurnal Informatika 10(1): 31 - 42.

Liddy, E.D. 2001. Encyclopedia of Library And Information Science. 2^ndEdition.

Marcel Decker: New York.

Millah, A. & Nurazizah, S. 2017. Perbandingan Penggunaan Algoritma Cosinus dan Wu Palmer untuk Mencari Kemiripan Kata dalam Plagiarism Checker. Jurnal Ilmu Komputer dan Desain Komunikasi Visual (JIKDISKOMVIS) 2(1) : 15-25.

Miller, G.A., Beckwith, R., Fellbaum, C., Derek, G. & Miller, K.J. 1990. Introduction to WordNet: An On-line Lexical Database. International Journal of Lexicography 3(4): 235-244.

Neculoiu, P., Versteegh, M. & Rotaru, M. 2016. Learning Text Similarity with Siamese Recurrent Networks. Proceedings of the 1^st Workshop on Representation Learning for NLP, pp. 148-157.

Prasetya, D.D., Wibawa, A.P. & Hirashima, T. 2018 . The performance of text Similarity algorithms. International Journal of Advances in Intelligent Informatics 4(1): 63-69.

Thamrin, H. & Sabardilla, A. 2015. Efektivitas Algoritma Semantik dengan Keterkaitan Kata dalam Mengukur Kemiripan Teks Bahasa Indonesia. Jurnal Ilmu Komputer dan Informatika 1(1): 7-11.

Wu, Z. & Palmer, M. 1994. Verb Semantics And Lexical Selection. Proceedings of the 32^nd Annual Meeting on Association for Computational Linguistics, pp. 133-138.

(64)

LAMPIRAN Lampiran 1

Hasil Pengujian data uji dan data pembanding dalam bahasa indonesia

(65)

(66)

(67)

(68)

(69)

(70)

(71)

(72)

(73)