Sistem Deteksi Kemiripan antar Dokumen Teks Menggunakan Model Bayesian pada Term Latent Semantic Analysis (LSA)

(1)

“Sistem Deteksi Kemiripan antar Dokumen

Teks Menggunakan Model Bayesian pada

Term Latent Semantic Analysis (LSA)”

Oleh:

Danang Wahyu Wicaksono

(1210100027)

Pembimbing:

1. Prof. DR. Mohammad Isa Irawan, MT

2. Alvida Mustika Rukmi, S.Si, M.Si

(2)

Yang Akan Dipaparkan

Manfaat

4 Latar Belakang

1 Permasalahan

2 Tujuan

3 Tinjauan Pustaka

5 Metode Penelitian

6 Pembahasan

7

(3)

Latar Belakang

DOC A

DOC B

DOC C

Copy-Paste

VALIDASI

(4)

Latar Belakang

LSA

Kemampuan

Menemukan hubungan, keterkaitan,

dan

kemiripan

antar

dokumen-dokumen

dengan

memanfaatkan

komputasi statistik untuk menggali

dan merepresentasikan konteks yang

digunakan sebagai sebuah arti kata.

Kelemahan

Tidak memperhatikan

urutan tata letak kata

Makna???

Source :

Landauer, Thomas K., Peter W. Foltz & Darrell Laham. 1998. “An Introduction to Latent Semantic Analysis”.

Department of Psychology, University of Colorado. (page 5 of 41 )

(5)

Permasalahan



Cara kerja aplikasi?

(6)

Batasan Masalah



File dokumen teks berbahasa Indonesia dalam

format doc, docx, dan txt.



Model Bayesian digunakan pada term yang

dihasilkan oleh LSA dari dokumen uji sebagai

kejadian (event) bersyarat untuk pembentukan

pola (urutan) term.



Kata yang diproses dari dokumen adalah dalam

bentuk kata dasar.



Menggunakan bahasa pemrograman Java

dengan bantuan tool NetBeans IDE 8.0.



Luaran (output) berupa software yang

menampilkan pola term dan hasil kemiripan

pada dokumen-dokumen uji dan digunakan

sebagai bahan pertimbangan untuk langkah

lebih lanjut.

(7)

Tujuan



Membangun aplikasi sebagai interface sistem yang mampu

membandingkan kemiripan antar dokumen teks dengan

menggunakan pola term yang dihasilkan oleh LSA (Latent

Semantic Analysis) berdasarkan konsep model Bayesian.



Membentuk algoritma hasil kombinasi metode LSA dengan

model Bayesian untuk deteksi kemiripan antar dokumen teks.

(8)

Manfaat



Modifikasi metode yang dilakukan dapat menambah kinerja

dan tingkat keakuratan metode untuk hasil deteksi kemiripan

dokumen yang lebih baik.



Sebagai salah satu referensi metode deteksi kemiripan antar

dokumen teks yang selanjutnya dapat digunakan untuk

(9)

Tinjauan Pustaka



Latent Semantic Analysis



Menemukan hubungan, keterkaitan, dan kemiripan antar

dokumen-dokumen dengan memanfaatkan

komputasi

statistik

untuk menggali dan merepresentasikan konteks

sebagai sebuah arti kata untuk sejumlah corpus yang

besar. Corpus adalah kumpulan teks yang memiliki

kesamaan subjek/tema.

(10)

Tinjauan Pustaka

(11)

Tinjauan Pustaka



Model Bayesian



Model Bayesian disebut juga Bayesian Network, Bayes

Network, belief network, atau probabilistic directed acyclic

graphical model.



Sebuah model probabilitas grafikal (graphical model) yang

merepresentasikan

variabel-variabel

acak

dengan

hubungan kondisionalnya (kebersyaratan kejadian) melalui

sebuah directed acyclic graph (DAG).

(12)

Tinjauan Pustaka



Struktur Data Linked-List



Hasil modifikasi dari struktur data list dimana linked-list

memanfaatkan penggunaan pointer.

(13)

Metode Penelitian

Penyusunan Laporan Tugas Akhir

Uji Coba dan Evaluasi Sistem

Menampilkan pola term pada setiap dokumen uji serta

melakukan maintenance pada aplikasi untuk mendapatkan

hasil aplikasi yang user friendly.

Implementasi Desain dan Algoritma

Sistem

Menerapkan algoritma serta fungsi-fungsi yang telah

didesain melalui tool NetBeans 8.0.

Data Uji

Dokumen teks (txt, doc,

docx) yang diujikan dengan

LSA dan Term hasil uji.

Desain dan Analisis Sistem

Implementasi linked-list untuk model

Bayesian pada term.

Mendefinisikan fungsi-fungsi yang

dibutuhkan untuk algoritma program

Studi Literatur

Metode LSA, model

Bayesian, Linked-List

(14)

Perancangan

Diagram Alur Aplikasi

dan Ruang Lingkup

Penulis

(15)

Statechart diagram pada

(16)

Sequence diagram pada

(17)

(18)

(19)

(20)

(21)

(22)

(23)

(24)

Linked-list untuk pola term

kode term kata alamat next

Dalam bentuk urutan: T19 -> T2

Artinya -> T2 muncul didahului oleh T19

(25)

Pembentukan pola term

(26)

Pembentukan pola term

(lanjutan)

(27)

Pembentukan pola term

(lanjutan)

(28)

Pembahasan



Loading Data

Loading data yang ditempatkan di folder yang diakses oleh

aplikasi (folder data).

(29)

Pembahasan



Pembentukan Pola Term

Scanning term dilakukan pada masing-masing dokumen teks

yang diuji untuk pembentukan pola (urutan) term yang ada

pada setiap kalimat pada dokumen-dokumen uji.

(30)

Pembahasan



Pembentukan Pola Term

Proses pembentukan pola sekuensial pada term

menghasilkan pola term berbentuk urutan (sekuensial)

kemunculan term yang terjadi di setiap kalimat pada setiap

dokumen teks yang diuji.

Pola term yang terbentuk adalah sebagai berikut:

Dokumen-1.txt kalimat-1 = T19 T2 T1

Dokumen-1.txt kalimat-2 = T9 T7 T1 T2 T1 T3

Dokumen-1.txt kalimat-3 = T1 T4 T18 T9 T8 T8 T2

Dokumen1.txt kalimat4 =

-Dokumen-1.txt kalimat-5 = T1 T5 T7 T2 T18 T2 T5 T4 T3

Dokumen-2.docx kalimat-1 = T1 T4 T18 T9 T8 T8 T2

Dokumen-2.docx kalimat-2 = T1 T5 T7 T2 T18 T2 T5 T4 T3

Dokumen-2.docx kalimat-3 = T19 T2 T1

Dokumen-2.docx kalimat-4 = T9 T7 T1 T2 T1 T3

Dokumen2.docx kalimat5 =

-Dokumen-5.doc kalimat-1 = T10 T17 T12 T17 T16 T15 T11 T10

Dokumen-5.doc kalimat-2 = T12 T10 T15

Dokumen-5.doc kalimat-3 = T10 T19 T10

Dokumen-5.doc kalimat-4 = T10 T11 T11

Dokumen-5.doc kalimat-5 = T11 T10 T16 T14 T13

Dokumen-5.doc kalimat-6 = T12 T14 T13 T12 T13

Dokumen-5.doc kalimat-7 = T19 T2 T1

Dokumen-5.doc kalimat-8 = T9 T7 T1 T2 T1 T3

Dokumen-5.doc kalimat-9 = T1 T4 T18 T9 T8 T8 T2

Dokumen5.doc kalimat10 =

-Dokumen-5.doc kalimat-11 = T1 T5 T7 T2 T18 T2 T5 T4 T3

(31)

Pembahasan



Display Pola Term

(32)

Pembahasan



Display Pola Term

(33)

Pembahasan



Penilaian dan Hasil Kemiripan

Data pola term yang terbentuk pada masing-masing

dokumen disimpan yang kemudian dijadikan acuan untuk

menghitung presentase kemiripan antar dokumen uji.

𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 𝑑𝑜𝑐

_𝑖

, 𝑑𝑜𝑐

_{𝑗 𝑑𝑖𝑚𝑎𝑛𝑎 𝑖≠𝑗}

=

𝑗𝑚𝑙_𝑡𝑏(𝑑𝑜𝑐

𝑖

, 𝑑𝑜𝑐

𝑗

)

𝑡𝑜𝑡_𝑡𝑒𝑟𝑚(𝑑𝑜𝑐

_𝑖

, 𝑑𝑜𝑐

_𝑗

𝑥100%

Keterangan:

𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 𝑑𝑜𝑐

_𝑖

, 𝑑𝑜𝑐

_𝑗

= nilai kemiripan antara dokumen-i dan

dokumen-j dimana i≠j.

𝑗𝑚𝑙_𝑡𝑏(𝑑𝑜𝑐

_𝑖

, 𝑑𝑜𝑐

_𝑗

)

= jumlah term yang sama secara berurutan

antara

dokumen-i dan dokumen-j.

(34)

Contoh Penghitungan

Kemiripan

Dokumen-1.txt kalimat-1 = T19 T2 T1

Dokumen-1.txt kalimat-2 = T9 T7 T1 T2 T1 T3

Dokumen-1.txt kalimat-3 = T1 T4 T18 T9 T8 T8 T2

Dokumen1.txt kalimat4 =

-Dokumen-1.txt kalimat-5 = T1 T5 T7 T2 T18 T2 T5 T4 T3

Dokumen-5.doc kalimat-1 = T10 T17 T12 T17 T16 T15 T11 T10

Dokumen-5.doc kalimat-2 = T12 T10 T15

Dokumen-5.doc kalimat-3 = T10 T19 T10

Dokumen-5.doc kalimat-4 = T10 T11 T11

Dokumen-5.doc kalimat-5 = T11 T10 T16 T14 T13

Dokumen-5.doc kalimat-6 = T12 T14 T13 T12 T13

Dokumen-5.doc kalimat-7 = T19 T2 T1

Dokumen-5.doc kalimat-8 = T9 T7 T1 T2 T1 T3

Dokumen-5.doc kalimat-9 = T1 T4 T18 T9 T8 T8 T2

Dokumen5.doc kalimat10 =

-Dokumen-5.doc kalimat-11 = T1 T5 T7 T2 T18 T2 T5 T4 T3

Nama Dokumen

Total Term

Dokumen-1.txt

25 Dokumen-5.doc

52 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 𝑑𝑜𝑐

₁

, 𝑑𝑜𝑐

₅

=

3 + 6 + 7 + 9 + (3 + 6 + 7 + 9)

25 + 52

𝑥100%

=

50

77 𝑥100% = 𝟔𝟒. 𝟗𝟑𝟓𝟎%

(35)

Uji Pengacakan Dokumen



Dokumen-1.txt diacak sehingga urutan term berubah

dan dokumen menjadi tidak berarti, dinamakan

Dokumen-1a.txt. Kemudian pola term yang terbentuk

adalah sebagai berikut

Dokumen-1a.txt kalimat-1 = T1 T2 T5 T19

Dokumen-1a.txt kalimat-2 = T7 T1 T3 T2 T1

Dokumen-1a.txt kalimat-3 = T1 T9 T4 T18 T8 T9 T8 T2

Dokumen-1a.txt kalimat-4 = T2

(36)

(37)

Kesimpulan



Deteksi kemiripan antar dokumen teks pada LSA

(Latent Semantic Analysis) hanya mengacu pada

frekuensi kata (term) yang ada di dokumen dan

tidak memperhatikan urutan tata letak kata

sehingga struktur kalimat pada dokumen

diabaikan, dan hal ini berpengaruh pada makna

pada setiap dokumen yang diujikan.



Kombinasi metode LSA dengan model Bayesian

yang mana model Bayesian berperan dalam

menjaga urutan term yang secara tidak langsung

berarti menjaga struktur kalimat yang ada pada

dokumen tersebut. Sehingga hasil deteksi kemiripan

yang dihasilkan bisa lebih baik karena deteksi

kemiripan yang dilakukan tidak hanya mengacu

pada frekuensi term tetapi juga menjaga makna

yang terkandung pada dokumen yang

(38)

Daftar Pustaka

 [1] Kamus Besar Bahasa Indonesia Daring (Dalam Jaringan). 2008. http://bahasa.kemdiknas.go.id/kbbi/index.php.

Diakses tanggal 17 Juli 2014.

 [2] Cosma, Georgina & Mike Joy. 2012. Evaluating the Performance of LSA for Source-code Plagiarism Detection.

Journal of Informatica, Vol. 36, Hal. 409-424.

 [3] Mozgovoy, Maxim, Tuomo Kakkonen & Georgina Cosma. 2010. Automatic Student Plagiarism Detection: Future

Perspectives. Journal of Educational Computing Research, Vol. 43, Hal. 511-531.

 [4] Cosma, Georgina. 2008. An Approach to Source-Code Plagiarism Detection and Investigation Using Latent

Semantic Analysis. Thesis for Doctor of Philosophy in Computer Science, University of Warwick.

 [5] Landauer, Thomas K., Peter W. Foltz & Darrell Laham. 1998. An Introduction to Latent Semantic Analysis.

Department of Psychology, University of Colorado.

 [6] Huang, Anna. 2009. Similarity Measures for Text Document Clustering. Department of Computer Science, The

University of Waikato.

 [7] Griffiths, Thomas L., Charles Kemp & Joshua B. Tenenbaum. 2006. “Bayesian Models of Cognition”. Journal of

Annual Meeting of Cognitive Science Society, Vol.10, Issue 7.

 [8] Murphy, Kevin. 1998. A Brief Introduction to Graphical Models and Bayesian Networks.

http://www.cs.ubc.ca/~murphyk/Bayes/bnintro.html. Diakses tanggal 18 Juli 2014.

 [9] Wikipedia. 2003. Directed Acyclic Graph. http://en.wikipedia.org/wiki/Directed_acyclic_graph. Diakses tanggal

17 Juli 2014.

 [10] Nirosh. 2013. Introduction to Object Oriented Programming (OOP) Concept and More.

http://www.codeproject.com/Articles/22769/Introduction-to-Object-Oriented-Programming-Concep. Diakses tanggal 25 Juli 2014.

 [11] Shaffer, Clifford A. 2012. Data Structures and Algorithm Analysis. Blackburg: Virginia Tech.

 [12] JavaTM_{Platform Standard 8. Class DefaultMutableTreeNode.}

http://docs.oracle.com/javase/8/docs/api/javax/swing/tree/DefaultMutableTreeNode.html. Diakses tanggal 17 Juli 2014.

 [13] Kasim, Steven. 2012. Pembuatan Aplikasi untuk Mendeteksi Plagiarisme dengan Metode Latent Semantic

(39)