PENDETEKSI KEMIRIPAN PARAGRAF PADA DOKUMEN KARYA ILMIAH MENGGUNAKAN ALGORITMA WU PALMER
DAN COSINE SIMILARITY
SKRIPSI
BAYU AJI NURMANSAH 161402035
PROGRAM STUDI S1-TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
MEDAN 2021
PENDETEKSI KEMIRIPAN PARAGRAF PADA DOKUMEN KARYA ILMIAH MENGGUNAKAN ALGORITMA WU PALMER
DAN COSINE SIMILARITY
SKRIPSI
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana Teknologi Informasi
BAYU AJI NURMANSAH 161402035
PROGRAM STUDI S1-TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
MEDAN 2021
PERNYATAAN
PENDETEKSI KEMIRIPAN PARAGRAF PADA DOKUMEN KARYA ILMIAH MENGGUNAKAN ALGORITMA WU PALMER
DAN COSINE SIMILARITY
SKRIPSI
Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan, 8 Februari 2021
Bayu Aji Nurmansah 161402035
UCAPAN TERIMA KASIH
Alhamdulillah, puji dan syukur penulis sampaikan kehadirat Allah SWT yang telah memberikan rahmat dan izin-Nya sehingga penulis dapat menyelesaikan skripsi ini sebagai syarat untuk memperoleh gelar sarjana Komputer pada Program Studi S1 Teknologi Informasi Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara. Selama pengerjaan tugas akhir ini, banyak sekali bantuan dan dukungan serta doa dari berbagai pihak sehingga penulis dapat menyelesaikan tugas akhir ini dengan baik. Oleh karena itu, penulis ingin menyampaikan ucapan terima kasih sedalam-dalamnya dan penghargaan kepada :
1. Kedua orang tua penulis, Ayahanda Suwarno dan Ibunda Tantriati, yang tidak pernah berhenti memberikan dukungan serta doanya kepada penulis. Orangtua penulis selama ini tidak pernah memberikan tekanan dalam hal apapun kepada penulis dan selalu mengerti keadaan penulis, sehingga menjadi motivator terbesar penulis dalam menjalani masa perkuliahan serta penulis dapat menyelesaikan tugas akhir dengan baik. Ucapan terima kasih juga kepada abang penulis, Didik Nugroho yang telah memberikan dukungan dan doa kepada penulis.
2. Bapak Prof. Dr. Opim Salim Sitompul, M.Sc selaku dosen pembimbing pertama dan kepada Ibu Dr. Erna Budhiarti Nababan, M.IT selaku dosen pembimbing kedua yang telah bersedia meluangkan waktu dan fikirannya untuk membimbing penulis dalam menyelesaikan tugas akhir ini, baik dalam pengerjaan program maupun penulisan skripsi.
3. Penulis juga mengucapkan terima kasih kepada Bapak Baihaqi Siregar S.Si., MT selaku dosen pembanding pertama dan Bapak Indra Aulia,S.TI.,M.Kom selaku dosen pembanding kedua yang telah memberikan kritik dan saran pada hasil penelitian penulis dan penulisan skripsi penulis.
4. Penulis mengucapkan terima kasih kepada dosen, pegawai, dan staff di lingkungan Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara yang telah membantu dalam penyelesaian administrasi dan membimbing penulis selama masa perkuliahan.
5. Penulis mengucapkan terima kasih kepada sahabat penulis yang sudah berteman dekat semasa kuliah, Anwar Irawan Mendrofa, Muhammad Reza Irsyad Harahap, Muhammad Yudha Kurniawan, Ray Handri Kesuma Sinaga, Muhammad Imam Al-Amin, Ray Syadera Lingga, sahabat yang selalu berbagi pengalaman dan menjadi tempat bercerita semasa perkuliahan, serta selalu memberikan kritik dan saran dalam proses pengerjaan skripsi. Sahabat yang sudah seperti keluarga sendiri yang saling mendukung dan memberikan motivasi semasa perkuliahan hingga sekarang.
6. Ucapan terima kasih kepada seluruh teman angkatan Teknologi Informasi 2016 yang sudah berteman baik selama ini dan saling berjuang bersama dalam mengerjakan skripsi terkhusus kepada Elwin Duha, Aldo Stepanus, dan John Rendy Sortono yang telah membagikan waktu dan ilmunya untuk membantu penulis dalam proses pengerjaan skripsi.
7. Penulis mengucapkan terima kasih kepada HIMATIF USU dan PEMA FASILKOM-TI USU yang telah menjadi tempat bagi penulis dalam belajar berorganisasi.
8. Terima kasih juga penulis ucapkan untuk semua pihak yang telah terlibat dalam masa perkuliahan dan pengerjaan tugas akhir, sehingga penulis dapat menyelesaikan tugas akhir ini dengan baik.
Semoga Allah SWT melimpahkan berkah, rahmat, dan karunia-Nya kepada semua pihak yang telah memberikan bantuan, perhatian dan dukungan kepada penulis dalam menyelesaikan skripsi ini.
Medan, 8 Februari 2021
Penulis
ABSTRAK
Perkembangan internet yang semakin pesat telah membawa dampak positif terhadap kemajuan teknologi informasi, salah satu manfaat yang dapat dirasakan adalah kemudahan dalam mengumpulkan dokumen referensi penelitian yang banyak tersedia di internet. Akan tetapi bersamaan dengan kemudahan ini juga terdapat satu masalah dimana banyak penulis yang melakukan kutipan teks baik itu dari segi kalimat ataupun paragraf tanpa melakukan parafrasa terlebih dahulu yang tentu saja hal ini akan membuat teks tersebut memiliki kemiripan yang selanjutnya akan menimbulkan pelanggaran hak cipta. Untuk itu diperlukan pendeteksian kemiripan teks khususnya pada bagian paragraf secara otomatis. Proses pendeteksian teks khususnya pada bagian paragraf yang dilakukan pada penelitian ini menggunakan algoritma Wu Palmer dan Cosine Similarity dengan bantuan database WordNet. Data dokumen uji diambil dari website repositori usu berjumlah 11 dokumen dengan total paragraf uji sebanyak 372 dan dokumen pembanding sebanyak 40 dokumen dengan total paragraf pembanding sebanyak 891. Pada pengujian didapatkan nilai threshold terbaik untuk mendeteksi kemiripan paragraf adalah 0.6 yang menghasilkan 80% nilai presisi, 90% nilai recall, dan 0.84 nilai F-Measure.
Kata Kunci : Kemiripan teks, Wu Palmer, WordNet, Kemiripan Kosinus.
PARAGRAPH SIMILARITY IN SCIENTIFIC PAPER DOCUMENTS USING WU PALMER AND COSINE SIMILARITY
ABSTRACT
Rapid development of the internet has had a positive impact on technological advances, one of the benefits that can be felt is in collecting reference documents available on the internet. But along with this there is also a problem where many authors quote both in terms of sentences or paragraphs without paraphrasing first, which of course will make the text have similarities which in turn will cause copyright infringement. For this reason, it is necessary to detect text Similarity, especially in paragraphs, automatically.
The text detection process, especially in paragraph sections, was carried out in this study using the "Wu Palmer" and "Cosine Similarity" algorithms with the help of the WordNet database. The test document data was taken from the website repository used to test 11 documents with a total of 372 test paragraphs and 40 comparative documents with a total of 891 comparison paragraphs. In testing the best threshold value for checking the Similarity of paragraphs was 0.6 which resulted in 80% precision, 90% recall, and 0.84 F-Measure.
Keyword : Text Similarity , Wu Palmer, WordNet, Cosine Similarity.
DAFTAR ISI
Hal.
PERSETUJUAN ii
PERNYATAAN iii
UCAPAN TERIMAKASIH iv
ABSTRAK vi
ABSTRACT vii
DAFTAR ISI viii
DAFTAR TABEL x
DAFTAR GAMBAR xi
BAB 1 PENDAHULUAN 1
1.1. Latar Belakang 1
1.2. Rumusan Masalah 3
1.3. Batasan Masalah 3
1.4. Tujuan Penelitian 3
1.5. Manfaat Penelitian 4
1.6. Metodologi Peneltian 4
1.7. Sistematika Penulisan 4
BAB 2 LANDASAN TEORI 6
2.1. Kemiripan Teks 6
2.2. WordNet 8
2.3. Natural Language Processing 9
2.4. Wu Palmer 9
2.5. Cosine Similarity 10
2.6. Penelitian Terdahulu 10
BAB 3 ANALISIS DAN PERANCANGAN 13
3.1 Data yang digunakan 13
3.2 Analisis Sistem 14
3.3 Diagram Aktivitas Sistem 29
3.4 Flowchart Kemiripan Paragraf 29
3.5 Perancangan Antarmuka Sistem 31
BAB 4 IMPLEMENTASI DAN PENGUJIAN 34
4.1 Implementasi Sistem 35
4.2 Pengujian Sistem 37
BAB 5 KESIMPULAN DAN SARAN 48
5.1 Kesimpulan 48
5.2 Saran 48
DAFTAR PUSTAKA 48
DAFTAR TABEL
Hal
TABEL 2.1 Penelitian Tedahulu 11
TABEL 3.1 Data Sebelum dan Setelah Case Folding 16 TABEL 3.2 Data Sebelum dan Setelah Tokenizing 17 TABEL 3.3 Proses Filtering dengan algoritma Stopwords 18 TABEL 3.4 Proses Stemming pada Bahasa Inggris 19 TABEL 3.5 Proses Stemming (kah, lah, mu, nya, ku) 21 TABEL 3.6 Proses Stemming yang tidak menghapus akhiran(i, an, kan) 21
TABEL 3.7 Proses tahap 4 dan tahap 5 21
TABEL 3.8 Kombinasi awalan dan akhiran yang dilarang 21
TABEL 3.9 Daftar POS Tag Bahasa Indonesia 22
TABEL 3.10 Daftar POS Tag Bahasa Inggris 23
TABEL 3.11 Contoh POS Tagging Bahasa Indonesia 24
TABEL 3.12 Contoh POS Tagging Bahasa Inggris 24
TABEL 3.13 Word Similarity pada Cosine Similarity 25 TABEL 3.14 Word Similarity dengan menggunakan Wu Palmer 26 TABEL 4.1 Hasil Pengujian dengan nilai threshold 0.5 39 TABEL 4.2 Perhitungan presisi, recall, F-Measure pada threshold 0.5 41 TABEL 4.3 Hasil Pengujian dengan nilai threshold 0.6 42 TABEL 4.4 Perhitungan presisi, recall, F-Measure pada threshold 0.6 44 TABEL 4.5 Hasil pengujian dengan nilai threshold 0.7 44
TABEL 4.6 Perhitungan presisi, recall, F-Measure pada threshold 0.7 47 TABEL 4.7 Perbandingan tingkat presisi, recall, dan F-Measure 47
DAFTAR GAMBAR
Hal
GAMBAR 2.1 String-Based Similarity 6
GAMBAR 2.2 Corpus-Based Similarity 7
GAMBAR 2.3 Knowldege-Based Similarity 8
GAMBAR 3.1 Contoh Dokumen Uji 13
GAMBAR 3.2 Contoh Dokumen Pembanding 14
GAMBAR 3.3 Arsitektur Umum 15
GAMBAR 3.4 Daftar stopword pada library Sastrawi 18
GAMBAR 3.5 Daftar stopword pada library NLTK 18
GAMBAR 3.6 Contoh File Intermediate Document 25
GAMBAR 3.7 Hasil Vektor Paragraf Uji 28
GAMBAR 3.8 Hasil Vektor Paragraf Pembanding 28
GAMBAR 3.9 Diagram Aktivitas Sistem 29
GAMBAR 3.10 Flowchart Perhitungan Kemiripan Paragraf 31
GAMBAR 3.11 Tampilan Beranda 32
GAMBAR 3.12 Layout Upload Dokumen 33
GAMBAR 3.13 Layout Hasil Kemiripan 34
GAMBAR 4.1 Tampilan Beranda 36
GAMBAR 4.2 Tampilan Upload 36
GAMBAR 4.3 Tampilan Hasil 37
BAB 1
PENDAHULUAN
1.1. Latar Belakang
Pada saat sekarang ini teknologi informasi sudah bertumbuh semakin pesat dimana hal itu dibuktikan dengan semakin mudahnya pekerjaan manusia saat ini. Manfaat terbesar yang telah dirasakan saat ini adalah dalam hal kemudahan mengumpulkan informasi, seperti misalnya mengumpulkan informasi untuk digunakan sebagai penelitian karya ilmiah yang banyak tersedia di internet dalam bentuk dokumen.
Dokumen adalah tanda fisik atau simbolik yang diarsipkan atau direkam yang dimaksudkan untuk mewakili, membangun, atau untuk menunjukkan fenomena fisik atau konseptual (Buckland 1997). Dokumen adalah karya cipta milik seseorang, dan apabila seorang penulis ingin menggunakannya sebagai referensi maka penulis wajib mencantumkan sitasi terkait dokumen tersebut dan melakukan parafrasa untuk menghindari kemiripan teks baik itu dari segi kata, kalimat, ataupun paragraf yang akan terindikasi sebagai tindakan plagiat. Selain itu, mengganti kata yang dikutip pada dokumen dengan kata yang memiliki makna sama juga dapat dikatakan bahwa kata tersebut memiliki kemiripan.
Kemiripan teks terutama pada bagian paragraf dokumen karya ilmiah masih sering terjadi dikarenakan semakin mudah untuk mengaksesnya melalui internet, dan beberapa penulis secara sengaja melakukan tindakan copy-paste tanpa menyebutkan sitasi atau melakukan parafrasa. Oleh karena itu perlu dilakukan suatu metode untuk mendeteksi kemiripan paragraf pada dokumen khususnya dokumen karya ilmiah secara otomatis baik itu dari segi struktur kata, ataupun makna.
Sebelumnya telah dilakukan beberapa penelitian tentang pendeteksian kemiripan teks pada dokumen diantaranya adalah Imbar et al (2014),Firdaus et al(2014) ,Ariantini et al. (2016).
Imbar et al (2014) melakukan penelitian tentang implementasi Cosine Similarity dan Algoritma Smith-Waterman untuk mendeteksi kemiripan teks. Penelitian ini menggunakan Cosine Similarity untuk mengukur kesamaan teks berdasarkan kemunculan kata – kata dalam teks tersebut, dan algoritma Smith – Waterman untuk menghitung kemiripan teks berdasarkan urutan kata.
Firdaus et al (2014) melakukan penelitian tentang pendeteksian dokumen teks dengan menggunakan metode Cosine Similarity dan algoritma Nazief & Andriani, pada penelitian ini terlebih dahulu kata diubah kedalam bentuk dasar dengan menggunakan algoritma Nazief & Andriani untuk selanjutnya dilakukan perhitungan dengan menggunakan metode Cosine Similarity
Ariantini, et.al. (2016) dalam penelitiannya mengukur kemiripan dokumen teks bahasa Indonesia, dalam hal ini mereka menggunakan metode Cosine Similarity.
Penelitian ini menghitung tingkat kemiripan dengan cara menghitung nilai TF (Term Frequencyi) untuk mengitung kemunculan kata, setelah itu menyimpannya ke database dan menghitung kata yang sama.
Namun, penelitian - penelitian tersebut hanya berfokus untuk menghitung kemiripan teks berdasarkan kata yang sama, atau berdasarkan urutan kata, dan tidak menghitung kata yang memiliki makna sama(sinonim/semantik) dan juga tidak mampu membandingkan teks dalam dua bahasa seperti misalnya teks uji adalah bahasa indonesia dan teks pembanding adalah bahasa inggris atau sebaliknya. Oleh karena itu, dibutuhkan suatu metode yang dapat menghitung kemiripan teks tidak hanya berdasarkan kata yang sama, urutan kata, tetapi juga dapat menghitung kemiripan kata,kalimat, ataupun paragraf yang memiliki sinonim atau hubungan semantik dengan dokumen karya ilmiah lain dan dapat juga digunakan mendeteksi dokumen dalam dua bahasa.
Wu Palmer adalah algoritma path based yang mengukur kemiripan semantik, baik itu dari derajat keterkaitan , relevansi dokumen , atau kemiripan antara term (Millah &
Nurazizah 2017).
Cosine Similarity adalah algoritma yang digunakan untuk mengukur kemiripan teks antara vektor yang merupakan hasil dari sebuah inner product space yang diukur
dengan menggunakan fungsi kosinus untuk menentukan atau melihat apakah kedua vektor menunjuk ke arah yang sama atau tidak (Han, et al. 2012).
Berdasarkan latar belakang diatas penulis bermaksud menggunakan algoritma Wu Palmer dan Cosine Similarity untuk mendeteksi kemiripan dokumen karya ilmiah berdasarkan paragraf yang mendeteksi kemiripan kata baik itu dari segi struktur , urutan kata , dan makna kata (sinonim/semantik). Oleh karena itu, penulis mengajukan judul penelitian “PENDETEKSI KEMIRIPAN PARAGRAF PADA DOKUMEN KARYA ILMIAH MENGGUNAKAN ALGORITMA WU PALMER DAN COSINE SIMILARITY”.
1.2.Rumusan Masalah
Kemiripan teks terutama pada bagian paragraf dokumen karya ilmiah masih sering terjadi dikarenakan semakin mudah untuk mengaksesnya melalui internet, dan beberapa penulis secara sengaja melakukan tindakan copy – paste tanpa menyebutkan sitasi atau melakukan parafrasa. .Oleh karena itu perlu dilakukan suatu metode untuk mendeteksi kemiripan paragraf pada dokumen khususnya dokumen karya ilmiah secara otomatis baik itu dari segi struktur kata, ataupun makna.
1.3.Batasan Masalah
Berikut adalah beberapa batasan dalam penelitian ini :
1. Dokumen yang di input hanya dalam format .txt, .doc, dan .docx.
2. Dokumen yang terkunci tidak dapat diproses oleh aplikasi ini.
3. Hanya dapat digunakan untuk dokumen bahasa Indonesia dan bahasa Inggris.
4. Hanya data teks yang akan diuji
5. Data yang diuji adalah data pada bagian Bab Landasan Teori
1.4.Tujuan Penelitian
Penelitian ini bertujuan untuk mendeteksi kemiripan isi dokumen karya ilmiah berdasarkan paragraf secara otomatis dengan menggunakan algoritma Wu Palmer dan Cosine Similarity.
1.5. Manfaat Penelitian
Manfaat dari penelitian ini yaitu:
1. Membantu penguji untuk menemukan kemiripan isi dokumen karya ilmiah berdasarkan paragraf secara otomatis.
1.6. Metodologi Penelitian
Dalam penelitian ini ada beberapa tahapan penelitan yang dilakukan, yaitu:
1. Studi Literatur
Tahap ini bertujuan untuk pengumpulan bahan yang akan digunakan sebagai referensi yang diperoleh dari jurnal, buku, artikel, juklak, panduan mengenai algoritma Wu Palmer dan Cosine Similarity.
2. Pengumpulan Data
Data uji pada penelitian ini didapatkan dari website Repositori USU.
3. Analisis Permasalahan
Tahap ini akan melakukan analisis tentang penelitian yang dilakukan untuk mendapatkan pengetahuan dan metode yang diterapkan yakni perhitungan word-to-word Similarity dengan algoritma Wu Palmer dan perhitungan Similarity dengan menggunakan proses Cosine Similarity serta parameter lainnya.
4. Perancangan Sistem
Tahap ini berisi tentang rancangan arsitektur umum program, informasi tentang data penelitian, rancangan interface program. Perancangan sistem digunakan untuk menyelesaikan masalah-masalah yang sebelumnya telah dijelaskan pada bab sebelumnya.
1.7.Sistematika Penulisan
Sistematika penulisan pada penelitian ini terdiri dari beberapa bagian utama yaitu:
Bab 1: Pendahuluan
Berisi tentang penjelasan latar belakang, penjelasan rumusan masalah, penjelasan batasan masalah, penjelasan tujuan penelitian, penjelasan manfaat penelitian, penjelasan metodologi penelitian, dan penjelasan sistematika penulisan.
Bab 2: Landasan Teori
Berisi tentang penjelasan teori yang diperlukan untuk menyelesaikan masalah yang dibahas pada penelitian ini. Bagian ini akan menjelaskan teori-teori tentang WordNet, Wu Palmer, dan Cosine Similarity.
Bab 3: Analisis dan Perancangan Sistem
Bab ini berisi analisis dan penerapan WordNet, algoritma Wu Palmer, dan Cosine Similarity untuk melakukan proses perhitungan. Nilai word Similarity yang didapat dengan metode Wu Palmer akan diproses dengan menggunakan Cosine Similarity sehingga didapatkan nilai kemiripan antar paragraf.
Bab 4: Implementasi dan Pengujian
Berisi tentang implementasi dari rancangan penerapan sistem yang sebelumnya telah dijabarkan pada bab 3. Bab ini juga akan menjelaskan tentang hasil yang didappatkan dari pengujian sistem.
Bab 5: Kesimpulan dan Saran
Berisi tentang ringkasan serta kesimpulan dari implementasi sistem dan pemecahan masalah yang sebelumnya telah dijelaskan di bab 4 dan bagian ini juga berisi tentang saran yang dapat dilakukan untuk peneltian selanjutnya.
BAB 2
LANDASAN TEORI
2.1. Kemiripan Teks
Kemiripan teks bertujuan untuk menentukan seberapa dekat dua bagian teks dari segi permukaan (kemiripan leksikal) atau dari segi kemiripan makna (kemiripan semantik).
Kemiripan leksikal berfokus apakah dua bagian teks disusun atas kata - kata yang sama sedangkan kemiripan semantik berfokus pada kedekatan makna antar kata - kata penyusun dari kedua bagian teks tersebut ( Ganesan,2015).
Kemiripan leksikal atau disebut juga string based Similarity dibedakan menjadi character based (7 Algoritma) dan term based (7 Algoritma), untuk lebih jelas seperti pada Gambar 2.1.
Gambar 2.1 String-Based Similarity (Gomaa & Fahmi, 2013)
Character Based Similarity akan membandingkan kemiripan teks atau kata berdasarkan komposisi karakter pada setiap kata pada teks pertama dan teks kedua.
Sedangkan term based Similarity akan membandingkan kemiripan teks berdasarkan kemunculan kata pada teks pertama dan teks kedua.
Kemiripan semantik terbagi menjadi dua bagian yaitu corpus-based Similarity dan knowledge-Similarity. Kemiripan semantik berfokus untuk menemukan kemiripan kata melalu makna kata, dimana kata dengan struktur yang berbeda belum tentu tidak saling berkaitan.
2.1.1 Corpus-Based Similarity
Adalah kemiripan semantik yang menetukan kemiripan antar kata berdasarkan sebuah korpora yang besar, data korpora dapat berisi kumpulan teks tertulis ataupun lisan (Gomaa & Fahmi, 2013). Beberapa algoritma Corpus-Based Similarity seperti pada Gambar 2.2.
Gambar 2.2 Corpus-Based Similarity (Gomaa & Fahmi, 2013)
2.1.2 Knowledge-Based Similarity
Adalah kemiripan semantik berdasarkan pada identifikasi derajat kemiripan antar word dengan menggunakan pengetahuan atau informasi jaringan semantik ( Gomaa & Fahmi,
2013). Dalam pengukuran kemiripan semantik dengan metode knowledge-based jaringan semantik yang paling sering digunakan adalah WordNet. Beberapa algoritma knowledge based seperti pada Gambar 2.3.
Gambar 2.3 Knowldege-Based Similarity (Gouma & Fahmi, 2013)
Penelitian ini akam digunakan algoritma Cosine Similarity dan Wu Palmer (wup) dengan jaringan semantik WordNet.
2.2. WordNet
WordNet adalah jaringan semantik online yang desainnya terinspirasi oleh teori psikolinguistik terkini dari memori leksikal manusia (Miller et al. 1990). Kamus WordNet terdiri dari verb (kata kerja), noun (kata benda), adjective (kata sifat), dan adverb (kata keterangan) dalam bahasa Inggris yang diatur ke dalam kumpulan synsets (synonim sets) yang masing-masing mewakili satu konsep leksikal yang mendasarinya.
Hubungan yang berbeda menghubungkan kumpulan sinonim. Saat ini WordNet berisi sekitar 155.327 kata, 175.979 synsets dan 207.016 pasangan kata. Data ini didapat dari Wikipedia. Keunggulan yang dimiliki WordNet berkat konsep synset nya adalah kemampuan nya dalam melihat kedekatan kata dari segi holonim, meronim, hipernim, hiponim, sinonim, dan antonim.
Bahasa Indonesia adalah salah satu bahasa yang tersedia dalam Wordnet, Struktur WordNet Bahasa Indonesia dikembangkan oleh Lab Information Retrieval Fakultas
Ilmu Komputer Universitas Indonesia. WordNet dalam bahasa Indonesia dengan WordNet dalam bahasa Inggris yang dikembangkan oleh Universitas Priceton memiliki struktur yang sama.
2.3. Natural Language Processing
Natural Language Processing adalah sebuah teknik komputasi yang digunakan untuk memproses teks kedalam sebuah sistem komputer pada satu atau lebih tingkat analisis ilmu bahasa untuk mencapai tujuan pemrosesan bahasa yang mirip dengan bahasa manusia (Liddy, 2001).
NLP adalah salah satu cabang dalam ilmu AI yang memiliki fokus untuk menerjemahkan bahasa manusia. NLP memiliki tujuan agar komputer mampu memahami dengan baik input dari user.
2.4. Wu Palmer
Wu Palmer adalah algoritma semantic similarity yang dapat mengukur derajat keterkaitan antar dokumen. Wu Palmer memiliki nilai correct rate sebesar 88% (Wu &
Palmer, 1994) adalah salah satu fungsi yang tersedia dalam library NLTK pada python.Wu Palmer pada WordNet bekerja dengan cara membandingkan kedekatan diantar dua synsets, seperti yang diberikan pada persamaan 2.1.
𝑊𝑢 𝑃𝑎𝑙𝑚𝑒𝑟 = 2 ∗ 𝐷𝑒𝑝𝑡ℎ 𝐿𝐶𝑆(𝑆1,𝑆2)
𝑑𝑒𝑝𝑡ℎ (𝑆1)+𝑑𝑒𝑝𝑡ℎ (𝑆2) ( 2.1 )
Dengan keterangan :
LCS = Nilai terendah diantara synset1 dan synset2 Depth (Si) = Posisi synset ke-i pada WordNet
Algoritma Wu Palmer tidak akan memberikan nilai 0 atau negatif karena LCS tidak akan bernilai 0 atau bernilai negatif, rentang nilai yang dihasilkan algoritma ini adalah 0,01 sampai 1.
2.5. Cosine Similarity
Cosine Similarity adalah algoritma yang digunakan untuk mengukur kemiripan teks antara vektor yang merupakan hasil dari sebuah inner product space yang diukur dengan menggunakan fungsi kosinus untuk menentukan atau melihat apakah kedua vektor menunjuk ke arah yang sama atau tidak (Han, et al. 2012). Proses Cosine Similarity seperti pada persamaan 2.2.
𝐶𝑜𝑠𝑆𝑖𝑚(𝑋, 𝑌) = 𝑋∗𝑌
||𝑋||∗||𝑌|| ( 2.2 )
Dengan keterangan : X = Vector X Y = Vector Y
||X|| = Eucledian Norm vector X
||Y|| = Eucledian Norm vector Y
Cosine Similarity akan memberikan hasil dengan rentang nilai antara 0 dan 1. Apabila dokumen sama sekali tidak mirip akan memberikan 0 dan apabila dokumen mirip maka akan menghasilkan nilai 1.
2.6. Penelitian Terdahulu
Penelitian kemiripan dokumen teks yang dilakukan oleh Firdaus et al (2014) dengan menggunakan metode Cosine Similarity dan algoritma Nazief & Andriani. Pada penelitian ini dokumen - dokumen yang akan diuji terlebih dahulu melalui proses PreProcessing. Khusus pada bagian stemming akan diterapkan algoritma Nazief &
Andriani. Algoritma ini dipilih karena pengembangan algoritma ini didasari pada morfologi Bahasa Indonesia yang telah dikelompokkan dari imbuhan menjadi awalan, sisipan, dan akhiran. Setelah proses stemming selesai maka dilakukan perhitungan kemiripan dengan menghitung term frequency kata. Penelitian dengan bantuan algoritma Nazief & Andriani memperoleh hasil 5,98% lebih tinggi.
Penelitian kemiripan teks pernah dilakukan oleh Imbar et al (2014) melakukan penelitian tentang implementasi Algoritma Smith-Waterman dan Cosine Similarity dimana algoritma tersebut berfungsi untuk mendeteksi kemiripan teks. Penelitian ini menggunakan Cosine Similarity untuk mengukur kesamaan teks berdasarkan struktur teks, dan algoritma Smith – Waterman berfungsi untuk menghitung kemiripan teks yang didasari oleh urutan kata dan ouput yang diberikan adalah hasil kemiripan dari struktur teks dan hasil kemiripan dari urutan kata.
Penelitian kemiripan dokumen teks yang dilakukan oleh Ariantini et al (2016) dengan menggunakan metode Cosine Similarity. Penelitian ini menghitung tingkat kemiripan dengan cara menghitung nilai TF (Term Frequency) untuk mengitung kemunculan kata kemudian menghitung kemiripan dokumen teks dengan metode Cosine Similarity dan menyimpannya ke database.
Penelitian kemiripan teks yang dilakukan oleh Neculoiu et al (2016) dengan menggunakan metode Siamese Recurent Networks. Penelitian ini menghitung kemiripan teks dengan metode Siamese yang dipengaruhi oleh 4 parameter yaitu typos,composition,extra words, dan annotation. Hasil penelitian menunjukkan jika document yang diberikan extra word akan menghasilkan persentase lebih baik.
Selanjutnya ada penelitian kemiripan text yang dilakukan oleh Prasetya et al (2018) dengan menggunakan beberapa metode kemiripan yaitu string-based , corpus-based, knowledge-based, dan hybrid Similarity. Pada hasil penelitian ini algoritma Wu Palmer sebagai algoritma semantik tidak menghasilkan nilai 0 atau empty pada 3 pair pengujian dengan nilai tertinggi pada pengujian pair 2 dengan nilai 0.9091, sedangkan Cosine Similarity sebagai algoritma string-based menghasilkan nilai 0 pada pair 2 dan pair 3.
Rangkuman dapat dilihat pada Tabel 2.1.
Tabel 2.1 Penelitian Terdahulu
No Peneliti Metode Keterangan
1 Firdaus et al.
(2016)
Cosine Similarity Nazief & Andriani
Penelitian menggunakan algoritma stemming Nazief & Andriani dan perhitungan kemiripan dengan algoritma CosineSimilarity dan
Tabel 2.1 Penelitian Terdahulu (Lanjutan)
didapatkan jika pengujian dengan stemming Nazief & Andriani menghasilkan 5.98% nilai lebih tinggi
2 Imbar et al.
(2016)
Cosine Similarity Smith-Waterman
Penelitian mendeteksi kemiripan teks dengan menggunakan dua cara yaitu dari struktur kata dengan menggunakan algoritma Cosine Similarity dan dari segi urutan kata dengan algoritma Smith- Waterman.
3 Ariantini et al
(2016) Cosine Similarity
Penelitian ini menghitung tingkat kemiripan dengan cara menghitung nilai TF (Term Frekuensi) untuk mengitung kemunculan kata kemudian menghitung kemiripan dokumen teks dengan metode CosineSimilarity dan
menyimpannya ke database.Selisih antara nilai aktual dan prediksi 9 - 15%
4
Neculoiu et al
(2016) Siamese Recurent Networks
Penelitian ini menghitung kemiripan teks dengan metode Siamese yang dipengaruhi oleh 4 parameter yaitu typos, composition, extra words, dan annotation. Hasil penelitian menunjukkan jika document yang dengan extra word akan menghasilkan persentase lebih baik.
5
Prasetya et al (2018)
String-based Corpus-based Knowledge-based Hybrid Similarity
Pada hasil penelitian ini algoritma Wu Palmer sebagai algoritma semantik tidak menghasilkan nilai 0 atau empty pada 3 pair pengujian dengan nilai tertinggi pada pengujian pair 2 dengan nilai 0.9091
BAB 3
ANALISIS DAN PERANCANGAN
3.1.Data yang digunakan
Data pada penelitian ini akan menggunakan data yang diperoleh dari website repositori usu (data uji) dan data pembanding yang digunakan diambil dari referensi karya ilmiah yang terdapat di dalam dokumen uji dengan format .txt , .pdf , ataupun .docx. Dokumen Uji dan Dokumen Pembanding harus menggunakan style penulisan satu kolom, apabila ditemukan style penulisan dua kolom atau lebih maka akan dikonversi menjadi penulisan satu kolom secara manual. Contoh data dokumen uji dan dokumen pembanding seperti yang diberikan pada Gambar 3.1 dan Gambar 3.2.
Gambar 3.1 Contoh Dokumen Uji
Gambar 3.2 Contoh Dokumen Pembanding
3.2.Analisis Sistem
Data-data yang telah terkumpul terlebih dahulu akan melewati tahapan Pre-Processing yaitu Case Folding (perubahan kata menjadi huruf besar atau huruf kecil), Tokenizing (pemecahan karakter), Filtering (tahap mengambil kata penting dari hasil proses token), Stemming (tahap mengubah kata menjadi bentuk kata dasar) hanya untuk dokumen dalam bahasa indonesia dan Part-of-Speech Tag (Mengelompokkan kata berdasarkan kelas katanya baik itu verb,adverb,adjective atau noun. Setelah selesai selanjutnya akan masuk ke tahap proses, tahap proses berisi perhitungan kemiripan dengan algoritma Wu Palmer dan Cosine Similarity. Untuk lebih jelasnya dapat dilihat pada Gambar 3.3.
Gambar 3.3 Arsitektur Umum
3.2.1. Input
Input terdiri dari dokumen uji dan dokumen pembanding. Data yang digunakan untuk dokumen uji adalah data skripsi mahasiswa USU yang dipilih secara acak dengan menggunakan data mahasiswa tahun 2015 sampai 2017 yang diperoleh melalui website repositori usu , sedangkan untuk data dokumen pembanding diperoleh melalui browsing dengan memperhatikan referensi/daftar pustaka pada data dokumen uji.
Input
3.2.2. Pre-processing
Tahap ini akan melakukan beberapa proses agar data dokumen uji dan data dokumen pembanding siap diolah pada tahap proses. Tahapan-tahapan pada tahap proses, yaitu:
3.2.2.1. Case Folding
Merupakan proses perubahan kata menjadi Uppercase atau Lowercase pada proses ini juga dilakukan perubahan tanda kurung menjadi tanda kurung siku, hal ini agar memudahkan proses pengambilan sitasi . Proses ini dilakukan untuk memudahkan sistem dalam menganalisa teks. Contoh seperti pada Tabel 3.1
Tabel 3.1 Data sebelum dan setelah Case Folding
Sebelum Case Folding Setelah Case Folding Guru itu di undang untuk mengikuti pelatihan
pada tanggal 20 Agustus 2020
guru itu di undang untuk mengikuti pelatihan pada tanggal agustus
The teacher has been invited to attend the training on August 20, 2020
the teacher has been invited to attend the training on august 20, 2020
3.2.2.2. Remove Citations
Setelah sebelumnya dilakukan tahap Case Folding pada dokumen uji dan dokumen pembanding, selanjutnya dokumen uji akan melewati tahapan penyimpanan sitasi kedalam aray dan tahap penghapusan sitasi. Sitasi yang dapat dikenali oleh program adalah sitasi yang dirujuk melalui buku pedoman penulisan skripsi yang ditulis oleh Sitompul et al (2014) yaitu sebagai berikut :
1. Sitasi dengan gaya penulisan : bayu (2016).
2. Sitasi dengan gaya penulisan : (bayu, 2016) 3. Sitasi dengan gaya penulisan : bayu & aji (2016) 4. Sitasi dengan gaya penulisan : (bayu & aji 2016) 5. Sitasi dengan gaya penulisan : bayu et al. (2016) 6. Sitasi dengan gaya penulisan : (bayu, et al. 2016)
3.2.2.3. Tokenizing
Adalah proses pemetaan kalimat menjadi kata(Guo, 1997). Hal ini sangat membantu dalam proses penelitian dikarenakan dalam sebuah karya ilmiah tentu tidak hanya terdapat satu paragraf ataupun satu kalimat saja. Tahapan Tokeizing akan memudahkan penelitian ini karena akan memecah kalimat pada paragraf menjadi kata sehingga proses pada algoritma Wu & Palmer dan Cosine Similarity menjadi lebih optimal. Contoh data sebelum dan sesudah Tokenizing seperti pada Tabel 3.2.
Tabel 3.2 Data sebelum dan setelah Tokenizing
Sebelum Tokenizing Setelah Tokenizing
guru itu di undang untuk mengikuti pelatihan pada tanggal agustus
[‘guru’,’itu’,’di’,’undang’,’untuk’,
’mengikuti,’pelatihan’,’pada’,
’tanggal’,’agustus’]
the teacher has been invited to attend the training on august 20, 2020
[‘the’,’teacher’,’has’,’been’,’invited’,
‘to’,’attned’,’the’,training’,’on’,
‘20’,’august’,’2020’]
3.2.2.4. Filtering
Pada tahap ini penulis akan menyeleksi teks yang dianggap kurang penting misalnya kata “yang” , “di” , “itu”, proses ini dapat menggunakan menggunakan algoritma stop list atau word list. Pada penelitian ini proses Filtering dibutuhkan untuk mempercepat proses perhitungan dan proses ini juga diperlukan agar nilai persentase semakin maksimal. Pada tahapan ini penulis akan memanfaatkan library python Sastrawi untuk melakukan proses filtering dengan metode Stoplist (stopword removal).
Pada tahap ini akan penulis akan memanfaatkan library Sastrawi pada python untuk melakukan stopword removal pada teks dengan bahasa Indonesia dan menggunakan library nltk pada teks dengan bahasa Inggris. Daftar stopword pada library Sastrawi seperti pada gambar 3.4 dan gambar 3.5
Gambar 3.4 Daftar stopword pada library Sastrawi
Gambar 3.5 Daftar stopword pada library NLTK
Setelah sebelumnya melalui tahap tokenizing selanjutnya akan dilakukan tahap filtering dengan menggunakan daftar kata stopword pada masing - masing bahasa.
Contoh proses seperti pada Tabel 3.3.
Tabel 3.3 Proses Filtering dengan algoritma Stopwords.
Kata masukan Stopwords Hasil filtering
guru Tidak Guru
itu Ya -
di Ya -
undang Tidak undang
Tabel 3.3 Proses Filtering dengan algoritma Stopwords. (Lanjutan)
untuk Ya -
mengikuti Tidak mengikuti
pelatihan Tidak pelatihan
pada Ya -
tanggal Tidak tanggal
agustus Tidak agustus
Setelah proses filtering selesai, maka kata yang telah dipotong menjadi beberapa bagian tadi akan disatukan kembali untuk selanjutnya masuk ke tahap Stemming (Apabila dokumen dalam format bahasa Indonesia). Apabila dokumen dalam format bahasa Inggris maka akan langsung masuk ke tahap POS Tagging.
3.2.2.5. Stemming
Proses Stemming tidak akan dilakukan pada teks bahasa Inggris dikarenakan teks sering sekali kehilangan huruf yang tentu saja hal ini akan mempengaruh pengujian, dikarenakan WordNet tidak mampu memperbaiki teks tersebut maka diputuskan untuk tidak menggunakan stemming pada Bahasa Inggris. Contoh stemming seperti pada Tabel 3.4
Tabel 3.4 Proses Stemming pada Bahasa Inggris
Algoritma Kata Hasil Stemming
Porter
article articl
trouble troubl
troubling troubl
troubled troubl
Lancaster
article artic
trouble troubl
troubling troubl
troubled troubl
Pada tahap ini kata akan diubah menjadi bentuk kata dasar (root word) hal ini dibutuhkan agar WordNet dapat mendeteksi kata bahasa indonesia dengan baik. Pada penelitian Fatonah et al (2020) didapat kesimpulan jika tahapan stemming membuat proses program menjadi lebih cepat.
Pada tahap ini penulis memilih menggunakan stemming Sastrawi karena pada penelitian Fatonah et al (2020) algoritma ini menghasilkan proses paling cepat jika dibandingkan algoritma Nazief-Andriani, dan algoritma Sastrawi memiliki tingkat akurasi yang tinggi. Tahapan proses stemming pada algoritma sastrawi adalah sebagai berikut :
1. Algoritma akan melakukan cek kata per-kata, jika kata tersedia didalam kamus maka pengecekan berhenti, jika tidak maka pengecekan akan berlanjut.
2. Jika ditemukan kata dengan akhiran (kah, lah, mu, nya, ku) maka akhiran tersebut akan dihilangkan. Akan tetapi jika kata tersebut adalah adalah particles (tah, pun, lah, kah,) langkah ini akan diulangi untuk melihat apakah terdapat kata ganti (mu , ku , nya), jika iya maka akan dihapus. Contoh tahap ini seperti pada Tabel 3.5
3. Jika kata dengan akhiran ( i , an , kan) terdapat di dalam dictionary maka algoritma otomatis berhenti, jika tidak maka akan masuk ke tahap berikutnya.
Contoh tahap ini seperti pada Tabel 3.6
4. Jika kata dengan akhiran (an) telah dihapus dan huruf terakhir dari kata tersebut adalah ( k ) maka akhiran ( k ) tersebut akan dihapus, lalu cek apakah kata tersedia di dalam kamus, jika tidak maka kata dengan akhiran tersebut akan dikembalikan seperti semula. Contoh seperti pada Tabel 3.7
5. Jika pada tahap 4 ada kata yang dihapus maka dilanjutkan dengan pemeriksaan awalan. Apakah terdapat awalan dari kata tersebut, jika iya maka awalan akan dihapus, jika kata tidak tidak mengandung awalan dan akhiran yang tidak di ijinkan maka stemming dilakukan. Awalan dan akhiran yang tidak diijinkan seperti pada Tabel 3.8
6. Proses stemming selesai
Tabel 3.5 Proses Stemming (kah,lah,mu , nya, ku)
Kata Akhiran Hasil Stemming
milikku ku milik
kamu mu kamu
salahkah kah salah
apakah kah apakah
Tabel 3.6 Proses Stemming yang tidak menghapus akhiran(i,an,kan)
Kata Akhiran Hasil Stemming
abrasi i abrasi
aman an aman
dekan kan dekan
Tabel 3.7 Proses tahap 4 dan tahap 5
Kata Akhiran Hasil Stemming
andaikan kan andai
makanan an makan
bahkan kan bahkan
Tabel 3.8 Kombinasi awalan dan akhiran yang dilarang
Awalan Akhiran
be i
di an
ke i , kan
me an
se i , kan
Setelah tahap ini selesai selanjutnya masuk ke tahap POS Tagging.
3.2.2.6. POS Tagging
Tahap ini digunakan dikarenakan synset (synonim set) pada WordNet dikelompokkan ke dalam kelas - kelas kata yaitu verb,adverb,adjective,dan noun. Dengan bantuan POS Tag juga dapat mempercepat proses word Similarity pada Wu Palmer. Pada tahapan ini akan menggunakan dua library berbeda, libray crf tagger dengan dataset yang dikembangkan oleh Dinakaramani et al (2010) untuk POS Tag bahasa Indonesia, dan library NLTK untuk POS Tag bahasa Inggris. Dataset POS Tag bahasa Indonesia yang dikembangkan oleh Dinakaramai et al mengandung 10.000 kata. Daftar tag pada POS Tag bahasa Indonesia seperti pada Tabel 3.9 Dinakaramani et al (2010) , dan daftar tag pada POS Tag bahasa Inggris seperti Tabel 3.10.
Tabel 3.9 Daftar POS Tag Bahasa Indonesia
Tabel 3.10 Daftar POS Tag Bahasa Inggris
Contoh POS Tag pada bahasa Indonesia seperti pada Tabel 3.11 dan bahasa Inggris seperti pada Tabel 3.12
Tabel 3.11 Contoh POS Tagging Bahasa Indonesia
Kata Masukan POS Tagging
guru NN
undang VB
ikut VB
latih VB
tanggal VB
Tabel 3.12 Contoh POS Tagging Bahasa Inggris
Kata Masukan POS Tagging
teacher NN
invite VB
present ADJ
trained NN
tanggal NN
august NN
Setelah tahap ini selesai selanjutnya masuk ke tahap proses, yaitu tahap perhitungan kemiripan paragraf dengan menggunakan Wu Palmer dan Cosine Similarity.
3.2.3. Intermediate Document
Setelah melewati tahapan Pre-Processing tahapan selanjutnya adalah menyimpan dokumen uji dan dokumen pembanding kedalam sebuah file berbentuk plain text dengan format .txt. Dokumen ini berguna apabila dokumen uji yang digunakan akan diuji ke dokumen pembanding yang lain maka tidak perlu lagi melewati proses Pre- Processing, dan tentu saja hal ini akan menghemat waktu pemrosesan, dan begitu juga dengan dokumen pembanding. Contoh Intermediate Document seperti pada Gambar 3.6.
Gambar 3.6 Contoh File Intermediate Document
Setelah tahapan ini selesai akan langsung masuk ke tahap proses untuk melakukan perhitungan dengan algoritma Wu Palmer dan Cosine Similarity.
3.2.4. Proses
Pada tahap proses akan dilakukan metode perhitungan yaitu menggunakan algoritma Wu & Palmer, dan Cosine Similarity dengan acuan pada kamus WordNet bahasa Indonesia dan bahasa Inggris.
3.2.4.1. Wu Palmer
Pada metode konvensional, Cosine Similarity dihitung dengan menggunakan term frequency kata pada teks uji dan teks pembanding yang hanya membandingkan kemiripan kata dari kesamaan kata nya , apabila kata nya sama maka akan memberikan nilai 1 jika tidak maka akan memberkan nilai 0 tanpa memperhatikan apakah kata tersebut memiliki hubungan semantik atau tidak, dengan menggunakan algoritma Wu Palmer masalah tersebut dapat diatasi, dengan catatan agar hasil kemiripan tidak over value maka pada nilai kemiripan kata yang didapat dengan Wu Palmer ini akan diberikan threshold sebesar 0.6 , nilai ini didapat dari penelitian yang dilakukan oleh Thamrin & Sabardila (2015). Apabila Wu Palmer menghasilkan nilai word Similarity kurang dari 0,6 maka kemiripan kata tersebut akan dianggap 0. Contoh wup (Wu Palmer) seperti pada Tabel 3.13 dan 3.14
Tabel 3.13 Word Similarity pada Cosine Similarity Konvensional
Kata Uji Kata Pembanding Word Similarity
Guru Pria 0
Undang Undang 1.00
Tabel 3.13 Word Similarity pada Cosine Similarity Konvensional (Lanjutan)
Ikut Hadir 0
Latih Ajar 0
Tanggal Tanggal 1.00
Agustus Agustus 1.00
Makan Dahar 0
Cantik Wanita 0
Tabel 3.14 Word Similarity dengan menggunakan Wu Palmer
Kata Uji Kata Pembanding POS Word Similarity
Guru Pria Noun 0.6666
Undang Undang Verb 1.00
Ikut Hadir Verb 0.5
Latih Ajar Verb 0.9090
Tanggal Tanggal Verb 1.00
Agustus Agustus Noun 1.00
Makan Dahar Verb 0.8571
Cantik (Adj) Wanita (Nn) Adjective -
Noun None
Dapat dilihat pada Tabel diatas Word Similarity dengan menggunakan Wu Palmer menghasilkan hasil yang lebih baik karena dapat mengukur tingkat semantik kata, akan tetapi pengujian Wu Palmer akan menghasilkan nilai None jika POS Tag kata yang dibandingkan berbeda, hal ini terjadi karena kata yang dibandingkan tidak memiliki shortest path pada taksonomi WordNet.
3.2.4.2. Cosine Similarity
Pada tahap ini akan dilakukan perhitungan dengan menggunakan metode kosinus untuk menemukan kemiripan pada paragraf uji dan paragraf pembanding. Agar algoritma Cosine Similarity dapat menghitung kemiripan paragraf, maka terlebih dahulu dimensi
vektor paragraf uji dan dimensi vektor paragraf pembanding harus sama, yaitu dengan cara menggabungkan paragraf uji dan paragraf pembanding dan menghilangkan kata duplikat (metode Cosine konvensional).Seperti pada contoh.
Contoh perhitungan kemiripan paragraf
Paragraf Uji setelah PreProcessing:
['komputer-NN', 'alat-NN', 'pakai-VB', 'olah-SC', 'data-NN', 'prosedur-NN', 'telah-MD', 'rumus-JJ']
Paragraf Pembanding setelah PreProcessing:
['computers-NNS', 'tools-NNS', 'used-VBN', 'process-NN', 'data-NNS', 'according-VBG', 'formulated-VBN', 'procedures-NNS']
Gabungan Paragraf Uji dan Paragraf Pembanding:
['komputer-NN', 'alat-NN', 'pakai-VB', 'olah-SC', 'data-NN', 'prosedur-NN', 'telah-MD', 'rumus-JJ', 'computers-NNS', 'tools-NNS', 'used-VBN', 'process- NN','according-VBG', 'formulated-VBN', 'procedures-NNS']
Selanjutnya dilakukan pencarian kemiripan kata - perkata dengan menggunakan algoritma Wu Palmer dengan menggunakan persamaan 2.1.
dan hasilnya seperti pada Gambar 3.7 dan Gambar 3.8.
Gambar 3.7 Hasil Vektor Paragraf Uji
Selanjutnya untuk membentuk vektor paragraf uji ambil nilai maksimal dari setiap cell dan di dapatkan vektor paragraf uji = [ 1,1,1,1,1,1,1,1,1,1,0.33,1,0.5,0.25,1 ]
Gambar 3.8 Hasil Vektor Paragraf Pembanding
Selanjutnya untuk membentuk vektor paragraf pembanding ambil nilai maksimal dari setiap cell dan di dapatkan vektor paragraf pembanding =
[1,1,0.5,0,0.72,1,0,0,1,1,1,1,1,1,1]
Dikarenakan nilai threshold adalah 0.6 (Thamrin & Sabardila, 2015) maka vektor nya menjadi
Vektor paragraf uji = [ 1,1,1,1,1,1,1,1,1,1,0,1,0,0,1 ]
Vektor paragraf pembanding = [1,1,0,0,0.72,1,0,0,1,1,1,1,1,1,1]
Lalu dilakukan perhitungan Cosine Similarity dengan menggunakan persamaan (2.2) dan hasilnya adalah 0.6871
3.2.5. Output
Output akan ditampilkan dalam rentang nilai 0 sampai 1 dari masing masing paragraf yang telah di kelompokkan menjadi tidak mirip, dan mirip.
3.3. Diagram Aktivitas Sistem
Tahap ini berisikan alur dari aktivitas sitem, dimana user akan melakukan input dokumen uji dan dokumen pembanding untuk kemudian dihitung tingkat kemiripannya lalu selanjutnya hasil perhitungan akan langsung terlihat atau bisa juga disimpan terlebih dahulu kedalam database. Diagram aktivitas kemiripan teks seperti pada Gambar 3.9.
Gambar 3.9 Diagram Aktivitas Sistem
3.4.Flowchart Kemiripan Paragraf
Flowchart akan memberikan gambaran tentang jalannya proses perhitungan kemiripan teks pada setiap paragraf. Flowchart peroses perhitungan kemiripan sepeti pada Gambar 3.10
Gambar 3.10 Flowchart perhitungan kemiripan paragraf
Penjelasan flowchart adalah sebagai berikut:
a. Mulai menjalankan sistem.
b. Upload dokumen uji dan dokumen pembanding dengan format .doc , .docx, atau .txt.
c. Melakukan tahap Pre-Processing pada dokumen uji dan dokumen pembanding.
d. Melakukan tahapan word Similarity dengan menggunakan Wu Palmer dan WordNet Corpus.
e. Selanjutnya dilakukan pengecekan apakah nilai word Similarity lebih dari atau sama dengan 0.6 , jika iya maka nilai tidak akan di konversi menjadi 0.
f. Setelah tahap word Similarity selesai dilakukan pada setiap kata dalam paragraf, maka dilakukan pembentukan vektor paragraf uji dan paragraf pembanding dengan memilih nilai maksimal pada setiap cell seperti yang terlihat pada gambar 3.2 dan 3.3.
g. Selanjutnya masuk ke tahap perhitungan paragraph Similarity dengan metode Cosine Similarity, dan output dari program adalah nilai kemiripan dengan rentang nilai 0 sampai 1.
h. Program selesai
3.5. Perancangan Antarmuka Sistem
Rancangan antarmuka sistem akan menggunakan interface berbasis web yang terdiri dari menu Beranda, menu Deteksi Kemiripan.
3.5.1. Rancangan Tampilan Beranda
Beranda akan muncul pertama kali ketika aplikasi dijalankan. Beranda berisi navigasi menuju menu deteksi kemiripan. Layout beranda dapat dilihat pada Gambar 3.10.
Gambar 3.11 Tampilan Beranda
3.5.2. Rancangan Tampilan Deteksi Kemiripan
Tampilan deteksi kemiripan ini terbagi menjadi dua bagian utama , proses upload file dan hasil kemiripan.
3.5.2.1. Rancangan Halaman Upload File
Tampilan ini berisi form upload dokumen uji dan dokumen pembanding, pada bagian ini juga terdapat menu preview untuk melihat isi dokumen uji dan dokumen pembanding sebelum di upload dan dilakukan pengujian, dan ada menu pilih dokumen uji dan dokumen pembanding yang telah di upload sebelumnya,selanjutnya ada submit button yang akan melakukan proses algoritma pada bagian backend. Rancangan halaman seperti yang terlihat pada Gambar 3.11.
Gambar 3.12 Layout Upload Dokumen
3.5.2.2. Rancangan Halaman Hasil Kemiripan
Halaman ini akan menampilkan output kemiripan pada dokumen yang telah diuji sebelumnya, pada halaman ini juga terdapat menu Simpan untuk menyimpan hasil kemiripan kedalam database. Rancangan halaman ini seperti yang terlihat pada Gambar 3.12.
Gambar 3.13 Layout Hasil Kemiripan
BAB 4
IMPLEMENTASI DAN PENGUJIAN
4.1. Implementasi Sistem
4.1.1. Spesifikasi Perangkat Keras dan Perangkat Lunak
Adapun Spesifikasi hardware dalam pengembangan sistem adalah sebagai berikut:
1. Processor Intel(R) Pentium(R) CPU B950 @ 2.10 GHz 2. RAM 2GB
Spesifikasi minimum perangkat lunak yang digunakan dalam pengembangan sistem dijelaskan secara rinci sebagai berikut:
1. Sistem Operasi Windows 10 Pro 32-bit
2. Menggunakan bahasa pemrograman Python (versi 3.6) dengan library yang digunakan adalah Flask (versi 1.1.2), NLTK (versi 3.5) , numpy (versi 1.19.4), Sastrawi (versi 1.0.1).
3. Google Collaboratory 4. Sublime Text Editor
4.1.2. Implementasi Perancangan Tampilan Antarmuka
Berikut ini adalah implementasi dari rancangan interface yang telah disebutkan pada bab 3, yaitu :
1. Tampilan Beranda , sesuai dengan penjelasan pada bab sebelumnya tampilan ini memuat beberapa informasi dasar dan navigasi menuju menu deteksi kemiripan, implementasi dapat dilihat pada gambar 4.1.
Gambar 4.1 Tampilan Beranda
1. Tampilan Deteksi Kemiripan, sesuai dengan penjelasan pada bab sebelumnya tampilan ini terdiri atas dua bagian yaitu halaman upload file dan hasil deteksi.
Tampilan upload file berisi form upload dan pilih dokumen uji dan dokumen pembanding yang sebelumnya telah di upload. Tampilan hasil deteksi berisi output dari kemiripan dokumen uji dan dokumen pembanding dan button simpan hasil untuk menyimpan hasil deteksi kedalam database. Implementasi tampilan dapat dilihat pada Gambar 4.2 dan 4.3.
Gambar 4.2 Tampilan Upload
Gambar 4.3 Tampilan Hasil
4.2. Pengujian sistem
Pengujian sistem bertujuan untuk mengetahui seberapa baik program dalam menemukan kemiripan teks. Dalam pengujian sistem digunakan data uji sebanyak 11 dokumen dengan total paragraf uji sebanyak 374 dan data pembanding sebanyak 40 dokumen dengan total paragraf pembanding sebanyak 867. Pengujian ini akan mencocokkan hasil yang dilakukan oleh manusia (tenaga ahli) dengan hasil yang diberikan oleh sistem.
Setelah validasi data didapatkan selanjutnya akan dihitung nilai akurasi, presisi, recall, dan F-Measure. Untuk menghitung keempat data tersebut diperlukan nilai TP, TN, FN, dan FP.
1. TP atau True Positive adalah data positif yang diprediksi sebagai data benar oleh sistem. Contoh paragraf mirip yang diprediksi mirip oleh sistem.
2. TN atau True Negative adalah data negatif yang diprediksi sebagai data salah oleh sistem. Contoh paragraf tidak mirip yang diprediksi tidak mirip oleh sistem 3. FP atau False Positive adalah data negatif yang diprediksi sebagai data benar
oleh sistem. Contoh paragraf tidak mirip yang diprediksi mirip oleh sistem.
4. FN atau False Negative adalah data positif yang diprediksi sebagai data salah oleh sistem. Contoh paragraf mirip yang diprediksi tidak mirip oleh sistem.
Selanjutnya akan dijelaskan mengenai apa itu akurasi, presisi, recall, dan F- Measure seperti berikut:
a. Akurasi
Adalah tingkat kemampuan sistem untuk mengukur secara akurat antara jawaban yang diberikan sistem dengan jawaban sebenarnya. Persamaan untuk menghitung akurasi adalah seperti pada persamaan 4.1 :
𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 𝑇𝑃+𝑇𝑁
𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁 𝑥 100% ( 4.1 )
b. Presisi
Adalah tingkat kemampuan sistem untuk mengukur ketepatan antara jawaban yang diberikan oleh sistem dengan jawaban sebenarnya. Persamaan untuk menghitung presisi seperti pada persamaan 4.2 berikut:
𝑃𝑟𝑒𝑠𝑖𝑠𝑖 = 𝑇𝑃
𝑇𝑃+ 𝐹𝑃 𝑥 100% ( 4.2 ) c. Recall
Recall adalah kemampuan sistem untuk menemukan kembali jawaban yang diminta oleh pengguna. Persamaan untuk menghitung recall seperti pada persamaan 4.3 berikut:
𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑃
𝐹𝑁+ 𝑇𝑃 𝑥 100% (4.3) d. F-Measure
F-Measure atau disebut juga sebagai (F1 - score) adalah nilai harmonic rata - rata (mean) dari recall dan presisi. Persamaan untuk menghitung f-measure seperti pada persamaan 4.4 berikut
𝐹 − 𝑀𝑒𝑎𝑠𝑢𝑟𝑒 = 2 𝑥 𝑝𝑟𝑒𝑠𝑖𝑠𝑖 𝑥 𝑟𝑒𝑐𝑎𝑙𝑙
𝑝𝑟𝑒𝑠𝑖𝑠𝑖+𝑟𝑒𝑐𝑎𝑙𝑙 ( 4.4 )
Nilai atau output kemiripan yang diberikan oleh algoritma Wu Palmer dan Cosine Similarity adalah sebuah angka dengan rentang nilai 0 sampai 1, agar sistem mampu mengenali paragraf mirip dan tidak mirip perlu dilakukan pengukuran nilai threshold (ambang batas) yang cocok agar sistem mampu memprediksi dengan baik. Pada bagian
ini akan ditentukan berapa nilai threshold yang cocok untuk di implementasikan kepada program, nilai yang diajukan adalah 0.5, 0.6, dan 0.7.
a. Pengujian dengan threshold 0.5. Hasil pengujian seperti pada Tabel 4.1.
Tabel 4.1 Hasil pengujian dengan nilai threshold 0.5
Tabel 4.1 Hasil pengujian dengan nilai threshold 0.5 (Lanjutan)
Tabel 4.1 Hasil pengujian dengan nilai threshold 0.5 (Lanjutan)
Pada percobaan dengan nilai threshold 0.5 didapatkan data TP, FN, FP, Akurasi, Presisi, Recall, F-Measure seperti yang ditunjukkan pada Tabel 4.2.
Tabel 4.2 Perhitungan akurasi, presisi, recall, F-Measure pada threshold 0.5 Prediksi
Paragraf
TP TN FP FN Akurasi (%)
Presisi (%)
Recall (%)
F- Measure
374 74 155 144 1 61.2 33.9 98 0.5
b. Selanjutnya pengujian dengan nilai threshold 0,6. Hasil pengujian seperti pada Tabel 4.3.
Tabel 4.3 Hasil pengujian dengan nilai threshold 0.6
Tabel 4.3 Hasil pengujian dengan nilai threshold 0.6 (Lanjutan)
Tabel 4.3 Hasil pengujian dengan nilai threshold 0.6 (Lanjutan)
Dengan memeriksa paragraf kembali secara manual didapatkan 7 data paragraf FN yaitu paragraf yang diprediksi tidak mirip oleh sistem akan tetapi hasilnya mirip ketika diuji oleh penguji (tenaga ahli). Pada percobaan dengan nilai threshold 0.6 didapatkan data TP, FN, FP, Presisi, Recall, F-Measure. Nilai-nilai tersebut dapat dilihat pada Tabel 4.4.
Tabel 4.4 Perhitungan akurasi, presisi, recall , F-Measure pada threshold 0.6 Prediksi
Paragraf
TP TN FP FN Akurasi (%)
Presisi (%)
Recall (%)
F- Measure
374 68 283 16 7 93 80.9 90.6 0.85
c. Selanjutnya pengujian dengan nilai threshold 0,7. Hasil dari pengujian threshold dapat dilihat pada Tabel 4.5.
Tabel 4.5 Hasil pengujian dengan nilai threshold 0.7
Tabel 4.5 Hasil pengujian dengan nilai threshold 0.7 (Lanjutan)
Tabel 4.5 Hasil pengujian dengan nilai threshold 0.7 (Lanjutan)
Dengan memeriksa paragraf kembali secara manual di dapatkan 33 data paragraf FN yaitu paragraf yang diprediksi tidak mirip oleh sistem akan tetapi hasilnya mirip ketika diuji oleh penguji (tenaga ahli). Pada percobaan dengan nilai threshold 0.7 didapatkan data TP, FN, FP, Akurasi, Presisi, Recall, F-Measure seperti yang ditunjukkan pada Tabel 4.6
Tabel 4.6 Perhitungan nilai akurasi, nilai presisi, nilai recall ,nilai F-Measure pada threshold 0.7
Prediksi Paragraf
TP TN FP FN Akurasi (%)
Presisi (%)
Recall (%)
F- Measure
374 42 298 1 33 90.9 97 56 0.71
Hasil pengujian tingkat threshold pada nilai 0.5,0.6,dan 0.7 menghasilkan tingkat presisi,recall, dan F-Measure berbeda - beda. Hasil pengujian dari masing - masing tingkatan threshold dapat dilihat pada Tabel 4.7
Tabel 4.7 Perbandingan tingkat presisi,recall, dan F-Measure Nilai threshold Akurasi
(%)
Presisi (%)
Recall (%)
F-Measure
0.5 61.2 33.9 98 0.5
0.6 93 80.9 90.6 0.85
0.7 90.9 97 56 0.71
Dapat dilihat nilai perbandingan pada Tabel 4.7 dimana nilai recall terbaik adalah pengujian dengan nilai threshold 0.5 dengan nilai 98% akan tetapi akurasi, presisi dan recall nya sangat kecil, selanjutnya pada pengujian dengan threshold 0.7 menghasilkan nilai presisi terbaik yaitu sebesar 97% akan tetapi nilai recall nya hanya 56%, lalu pada pengujian dengan threshold 0.6 didapatkan akurasi sebesar 93%, presisi sebesar 80.9%
. recall 90.6%, dan F-Measure tertinggi yaitu 0.85 dan diambil kesimpulan jika pengujian terbaik adalah dengan menggunakan nilai threshold sebesar 0.6
BAB 5
KESIMPULAN DAN SARAN
5.1 Kesimpulan
Dari hasil pengujian kemiripan paragraf pada dokumen karya ilmiah menggunakan metode Wu Palmer dan Cosine Similarity didapatkan kesimpulan sebagai berikut:
1. Metode Wu Palmer dan Cosine Similarity dapat digunakan untuk mendeteksi kemiripan paragraf pada dokumen karya ilmiah dari segi leksikal atau semantik.
2. Pengujian mampu mendeteksi paragraf uji dan paragraf pembanding dalam dua bahasa (Bahasa Inggris dan Bahasa Indonesia).
3. Hasil terbaik pengujian didapatkan dengan menggunakan threshold 0.6 untuk memisahkan paragraf tidak mirip dan mirip dengan nilai Akurasi sebesar 93%, Presisi sebesar 80.9%, Recall sebesar 90.6% , dan F-Measure sebesar 0.85.
5.2. Saran
Setelah melakukan penelitian ini penulis memiliki saran untuk pengembangan berikutnya, dijelaskan secara rinci sebagai berikut:
1. Menambahkan metode crawling sehingga data untuk dokumen paragraf pembanding tidak diinput secara manual
2. Menerapkan algoritma atau metode lain agar memperoleh hasil yang maksimal dengan nilai presisi, nilai recall, dan nilai F-Measure yang lebih tinggi
DAFTAR PUSTAKA
Ariantini, D.A.R., Lumenta, A.S.M. & Jacobus, A. 2016. Pengukuruan Kemiripan Dokumen Teks Bahasa Indonesia Menggunakan Metode Cosine Similarity. E- Journal Teknik Informatika 9(1): 1-8. (Online) https://ejournal.unsrat.ac.id/index.php/informatika/article/view/13752 (10 Desember 2020 )
Buckland, M.K. 1997. What Is a Document. Journal Of The American Society For Information Science 48(9) : 804-809.
Dinakaramani, A., Rashel, F., Luthfi, A. & Manurung, R. 2014. Designing an Indonesian Part of speech Tagset and Manually Tagged Indonesian Corpus.
International Conference on Asian Language Processing (IALP), pp. 66-69.
Fatonah, S., Hadinegoro, A. & Hartanto, A.D. 2020. Deteksi Kemiripan Abstraksi Tugas Akhir Diploma Informatika Universitas AMIKOM Yogyakarta dengan Algoritma Rabin Karp. JURIKOM (Jurnal Riset Komputer) 7(1): 1-6.
Firdaus, A., Ernawati. & Firdaus, A.V. 2014. Aplikasi Pendeteksi Kemiripan Pada Dokumen Teks Menggunakan Algoritma Nazief & Andriani Dan Metode Cosine Similarity. Jurnal Teknologi Informasi 10(1) : 96-109.
Ganesan, K. 2015. What is Text Similarity. (Online) https://kavita-ganesan.com/what- is-text-Similarity/#.X_XE4FMxdkw (10 Desember 2020)
Gomaa, W.H. & Fahmy, A.A. 2013. A Survey of Text Similarity Approaches.
International Journal of Computer Applications 68(13): 13-18.
Guo, J. 1997 . Critical Tokenization and its Properties. Computational Linguistics 20(4): 569-596.
Han, J., Kamber, M. & Pei, J. 2012. Data Mining: Concepts and Techniques. 3rd Edition. Elsevier : Amsterdam
Imbar, R.V., Adelia., Ayub, M. & Rehatta, A. 2014. Implementasi Cosine Similarity dan Algoritma Smith-Waterman untuk Mendeteksi Kemiripan Teks. Jurnal Informatika 10(1): 31 - 42.
Liddy, E.D. 2001. Encyclopedia of Library And Information Science. 2nd Edition.
Marcel Decker: New York.
Millah, A. & Nurazizah, S. 2017. Perbandingan Penggunaan Algoritma Cosinus dan Wu Palmer untuk Mencari Kemiripan Kata dalam Plagiarism Checker. Jurnal Ilmu Komputer dan Desain Komunikasi Visual (JIKDISKOMVIS) 2(1) : 15-25.
Miller, G.A., Beckwith, R., Fellbaum, C., Derek, G. & Miller, K.J. 1990. Introduction to WordNet: An On-line Lexical Database. International Journal of Lexicography 3(4): 235-244.
Neculoiu, P., Versteegh, M. & Rotaru, M. 2016. Learning Text Similarity with Siamese Recurrent Networks. Proceedings of the 1st Workshop on Representation Learning for NLP, pp. 148-157.
Prasetya, D.D., Wibawa, A.P. & Hirashima, T. 2018 . The performance of text Similarity algorithms. International Journal of Advances in Intelligent Informatics 4(1): 63-69.
Thamrin, H. & Sabardilla, A. 2015. Efektivitas Algoritma Semantik dengan Keterkaitan Kata dalam Mengukur Kemiripan Teks Bahasa Indonesia. Jurnal Ilmu Komputer dan Informatika 1(1): 7-11.
Wu, Z. & Palmer, M. 1994. Verb Semantics And Lexical Selection. Proceedings of the 32nd Annual Meeting on Association for Computational Linguistics, pp. 133-138.
LAMPIRAN Lampiran 1
Hasil Pengujian data uji dan data pembanding dalam bahasa indonesia
Lampiran 2
Data uji Bahasa Indonesia , data Pembanding Bahasa Inggris