“Sistem Deteksi Kemiripan antar Dokumen
Teks Menggunakan Model Bayesian pada
Term Latent Semantic Analysis (LSA)”
Oleh:
Danang Wahyu Wicaksono
(1210100027)
Pembimbing:
1.
Prof. DR. Mohammad Isa Irawan, MT
2.
Alvida Mustika Rukmi, S.Si, M.Si
Yang Akan Dipaparkan
Manfaat
4
Latar Belakang
1
Permasalahan
2
Tujuan
3
Tinjauan Pustaka
5
Metode Penelitian
6
Pembahasan
7
Latar Belakang
DOC A
DOC B
DOC C
Copy-Paste
VALIDASI
Latar Belakang
LSA
Kemampuan
Menemukan hubungan, keterkaitan,
dan
kemiripan
antar
dokumen-dokumen
dengan
memanfaatkan
komputasi statistik untuk menggali
dan merepresentasikan konteks yang
digunakan sebagai sebuah arti kata.
Kelemahan
Tidak memperhatikan
urutan tata letak kata
Makna???
Source :
Landauer, Thomas K., Peter W. Foltz & Darrell Laham. 1998. “An Introduction to Latent Semantic Analysis”.
Department of Psychology, University of Colorado. (page 5 of 41 )
Permasalahan
Cara kerja aplikasi?
Batasan Masalah
File dokumen teks berbahasa Indonesia dalam
format doc, docx, dan txt.
Model Bayesian digunakan pada term yang
dihasilkan oleh LSA dari dokumen uji sebagai
kejadian (event) bersyarat untuk pembentukan
pola (urutan) term.
Kata yang diproses dari dokumen adalah dalam
bentuk kata dasar.
Menggunakan bahasa pemrograman Java
dengan bantuan tool NetBeans IDE 8.0.
Luaran (output) berupa software yang
menampilkan pola term dan hasil kemiripan
pada dokumen-dokumen uji dan digunakan
sebagai bahan pertimbangan untuk langkah
lebih lanjut.
Tujuan
Membangun aplikasi sebagai interface sistem yang mampu
membandingkan kemiripan antar dokumen teks dengan
menggunakan pola term yang dihasilkan oleh LSA (Latent
Semantic Analysis) berdasarkan konsep model Bayesian.
Membentuk algoritma hasil kombinasi metode LSA dengan
model Bayesian untuk deteksi kemiripan antar dokumen teks.
Manfaat
Modifikasi metode yang dilakukan dapat menambah kinerja
dan tingkat keakuratan metode untuk hasil deteksi kemiripan
dokumen yang lebih baik.
Sebagai salah satu referensi metode deteksi kemiripan antar
dokumen teks yang selanjutnya dapat digunakan untuk
Tinjauan Pustaka
Latent Semantic Analysis
Menemukan hubungan, keterkaitan, dan kemiripan antar
dokumen-dokumen dengan memanfaatkan
komputasi
statistik
untuk menggali dan merepresentasikan konteks
sebagai sebuah arti kata untuk sejumlah corpus yang
besar. Corpus adalah kumpulan teks yang memiliki
kesamaan subjek/tema.
Tinjauan Pustaka
Tinjauan Pustaka
Model Bayesian
Model Bayesian disebut juga Bayesian Network, Bayes
Network, belief network, atau probabilistic directed acyclic
graphical model.
Sebuah model probabilitas grafikal (graphical model) yang
merepresentasikan
variabel-variabel
acak
dengan
hubungan kondisionalnya (kebersyaratan kejadian) melalui
sebuah directed acyclic graph (DAG).
Tinjauan Pustaka
Struktur Data Linked-List
Hasil modifikasi dari struktur data list dimana linked-list
memanfaatkan penggunaan pointer.
Metode Penelitian
Penyusunan Laporan Tugas Akhir
Uji Coba dan Evaluasi Sistem
Menampilkan pola term pada setiap dokumen uji serta
melakukan maintenance pada aplikasi untuk mendapatkan
hasil aplikasi yang user friendly.
Implementasi Desain dan Algoritma
Sistem
Menerapkan algoritma serta fungsi-fungsi yang telah
didesain melalui tool NetBeans 8.0.
Data Uji
Dokumen teks (txt, doc,
docx) yang diujikan dengan
LSA dan Term hasil uji.
Desain dan Analisis Sistem
Implementasi linked-list untuk model
Bayesian pada term.
Mendefinisikan fungsi-fungsi yang
dibutuhkan untuk algoritma program
Studi Literatur
Metode LSA, model
Bayesian, Linked-List
Perancangan
Diagram Alur Aplikasi
dan Ruang Lingkup
Penulis
Statechart diagram pada
Sequence diagram pada
Linked-list untuk pola term
kode term kata alamat next
Dalam bentuk urutan: T19 -> T2
Artinya -> T2 muncul didahului oleh T19
Pembentukan pola term
Pembentukan pola term
(lanjutan)
Pembentukan pola term
(lanjutan)
Pembahasan
Loading Data
Loading data yang ditempatkan di folder yang diakses oleh
aplikasi (folder data).
Pembahasan
Pembentukan Pola Term
Scanning term dilakukan pada masing-masing dokumen teks
yang diuji untuk pembentukan pola (urutan) term yang ada
pada setiap kalimat pada dokumen-dokumen uji.
Pembahasan
Pembentukan Pola Term
Proses pembentukan pola sekuensial pada term
menghasilkan pola term berbentuk urutan (sekuensial)
kemunculan term yang terjadi di setiap kalimat pada setiap
dokumen teks yang diuji.
Pola term yang terbentuk adalah sebagai berikut:
Dokumen-1.txt kalimat-1 = T19 T2 T1
Dokumen-1.txt kalimat-2 = T9 T7 T1 T2 T1 T3
Dokumen-1.txt kalimat-3 = T1 T4 T18 T9 T8 T8 T2
Dokumen1.txt kalimat4 =
-Dokumen-1.txt kalimat-5 = T1 T5 T7 T2 T18 T2 T5 T4 T3
Dokumen-2.docx kalimat-1 = T1 T4 T18 T9 T8 T8 T2
Dokumen-2.docx kalimat-2 = T1 T5 T7 T2 T18 T2 T5 T4 T3
Dokumen-2.docx kalimat-3 = T19 T2 T1
Dokumen-2.docx kalimat-4 = T9 T7 T1 T2 T1 T3
Dokumen2.docx kalimat5 =
-Dokumen-5.doc kalimat-1 = T10 T17 T12 T17 T16 T15 T11 T10
Dokumen-5.doc kalimat-2 = T12 T10 T15
Dokumen-5.doc kalimat-3 = T10 T19 T10
Dokumen-5.doc kalimat-4 = T10 T11 T11
Dokumen-5.doc kalimat-5 = T11 T10 T16 T14 T13
Dokumen-5.doc kalimat-6 = T12 T14 T13 T12 T13
Dokumen-5.doc kalimat-7 = T19 T2 T1
Dokumen-5.doc kalimat-8 = T9 T7 T1 T2 T1 T3
Dokumen-5.doc kalimat-9 = T1 T4 T18 T9 T8 T8 T2
Dokumen5.doc kalimat10 =
-Dokumen-5.doc kalimat-11 = T1 T5 T7 T2 T18 T2 T5 T4 T3
Pembahasan
Display Pola Term
Pembahasan
Display Pola Term
Pembahasan
Penilaian dan Hasil Kemiripan
Data pola term yang terbentuk pada masing-masing
dokumen disimpan yang kemudian dijadikan acuan untuk
menghitung presentase kemiripan antar dokumen uji.
𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 𝑑𝑜𝑐
𝑖
, 𝑑𝑜𝑐
𝑗 𝑑𝑖𝑚𝑎𝑛𝑎 𝑖≠𝑗
=
𝑗𝑚𝑙_𝑡𝑏(𝑑𝑜𝑐
𝑖
, 𝑑𝑜𝑐
𝑗
)
𝑡𝑜𝑡_𝑡𝑒𝑟𝑚(𝑑𝑜𝑐
𝑖
, 𝑑𝑜𝑐
𝑗
𝑥100%
Keterangan:
𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 𝑑𝑜𝑐
𝑖
, 𝑑𝑜𝑐
𝑗
= nilai kemiripan antara dokumen-i dan
dokumen-j dimana i≠j.
𝑗𝑚𝑙_𝑡𝑏(𝑑𝑜𝑐
𝑖
, 𝑑𝑜𝑐
𝑗
)
= jumlah term yang sama secara berurutan
antara
dokumen-i dan dokumen-j.
Contoh Penghitungan
Kemiripan
Dokumen-1.txt kalimat-1 = T19 T2 T1
Dokumen-1.txt kalimat-2 = T9 T7 T1 T2 T1 T3
Dokumen-1.txt kalimat-3 = T1 T4 T18 T9 T8 T8 T2
Dokumen1.txt kalimat4 =
-Dokumen-1.txt kalimat-5 = T1 T5 T7 T2 T18 T2 T5 T4 T3
Dokumen-5.doc kalimat-1 = T10 T17 T12 T17 T16 T15 T11 T10
Dokumen-5.doc kalimat-2 = T12 T10 T15
Dokumen-5.doc kalimat-3 = T10 T19 T10
Dokumen-5.doc kalimat-4 = T10 T11 T11
Dokumen-5.doc kalimat-5 = T11 T10 T16 T14 T13
Dokumen-5.doc kalimat-6 = T12 T14 T13 T12 T13
Dokumen-5.doc kalimat-7 = T19 T2 T1
Dokumen-5.doc kalimat-8 = T9 T7 T1 T2 T1 T3
Dokumen-5.doc kalimat-9 = T1 T4 T18 T9 T8 T8 T2
Dokumen5.doc kalimat10 =
-Dokumen-5.doc kalimat-11 = T1 T5 T7 T2 T18 T2 T5 T4 T3
Nama Dokumen
Total Term
Dokumen-1.txt
25
Dokumen-5.doc
52
𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 𝑑𝑜𝑐
1
, 𝑑𝑜𝑐
5
=
3 + 6 + 7 + 9 + (3 + 6 + 7 + 9)
25 + 52
𝑥100%
=
50
77
𝑥100% = 𝟔𝟒. 𝟗𝟑𝟓𝟎%
Uji Pengacakan Dokumen
Dokumen-1.txt diacak sehingga urutan term berubah
dan dokumen menjadi tidak berarti, dinamakan
Dokumen-1a.txt. Kemudian pola term yang terbentuk
adalah sebagai berikut
Dokumen-1a.txt kalimat-1 = T1 T2 T5 T19
Dokumen-1a.txt kalimat-2 = T7 T1 T3 T2 T1
Dokumen-1a.txt kalimat-3 = T1 T9 T4 T18 T8 T9 T8 T2
Dokumen-1a.txt kalimat-4 = T2
Kesimpulan
Deteksi kemiripan antar dokumen teks pada LSA
(Latent Semantic Analysis) hanya mengacu pada
frekuensi kata (term) yang ada di dokumen dan
tidak memperhatikan urutan tata letak kata
sehingga struktur kalimat pada dokumen
diabaikan, dan hal ini berpengaruh pada makna
pada setiap dokumen yang diujikan.
Kombinasi metode LSA dengan model Bayesian
yang mana model Bayesian berperan dalam
menjaga urutan term yang secara tidak langsung
berarti menjaga struktur kalimat yang ada pada
dokumen tersebut. Sehingga hasil deteksi kemiripan
yang dihasilkan bisa lebih baik karena deteksi
kemiripan yang dilakukan tidak hanya mengacu
pada frekuensi term tetapi juga menjaga makna
yang terkandung pada dokumen yang
Daftar Pustaka
[1] Kamus Besar Bahasa Indonesia Daring (Dalam Jaringan). 2008. http://bahasa.kemdiknas.go.id/kbbi/index.php.
Diakses tanggal 17 Juli 2014.
[2] Cosma, Georgina & Mike Joy. 2012. Evaluating the Performance of LSA for Source-code Plagiarism Detection.
Journal of Informatica, Vol. 36, Hal. 409-424.
[3] Mozgovoy, Maxim, Tuomo Kakkonen & Georgina Cosma. 2010. Automatic Student Plagiarism Detection: Future
Perspectives. Journal of Educational Computing Research, Vol. 43, Hal. 511-531.
[4] Cosma, Georgina. 2008. An Approach to Source-Code Plagiarism Detection and Investigation Using Latent
Semantic Analysis. Thesis for Doctor of Philosophy in Computer Science, University of Warwick.
[5] Landauer, Thomas K., Peter W. Foltz & Darrell Laham. 1998. An Introduction to Latent Semantic Analysis.
Department of Psychology, University of Colorado.
[6] Huang, Anna. 2009. Similarity Measures for Text Document Clustering. Department of Computer Science, The
University of Waikato.
[7] Griffiths, Thomas L., Charles Kemp & Joshua B. Tenenbaum. 2006. “Bayesian Models of Cognition”. Journal of
Annual Meeting of Cognitive Science Society, Vol.10, Issue 7.
[8] Murphy, Kevin. 1998. A Brief Introduction to Graphical Models and Bayesian Networks.
http://www.cs.ubc.ca/~murphyk/Bayes/bnintro.html. Diakses tanggal 18 Juli 2014.
[9] Wikipedia. 2003. Directed Acyclic Graph. http://en.wikipedia.org/wiki/Directed_acyclic_graph. Diakses tanggal
17 Juli 2014.
[10] Nirosh. 2013. Introduction to Object Oriented Programming (OOP) Concept and More.
http://www.codeproject.com/Articles/22769/Introduction-to-Object-Oriented-Programming-Concep. Diakses tanggal 25 Juli 2014.
[11] Shaffer, Clifford A. 2012. Data Structures and Algorithm Analysis. Blackburg: Virginia Tech.
[12] JavaTMPlatform Standard 8. Class DefaultMutableTreeNode.
http://docs.oracle.com/javase/8/docs/api/javax/swing/tree/DefaultMutableTreeNode.html. Diakses tanggal 17 Juli 2014.
[13] Kasim, Steven. 2012. Pembuatan Aplikasi untuk Mendeteksi Plagiarisme dengan Metode Latent Semantic