Algoritma Jaccard Similarity untuk Deteksi Kemiripan Judul Disertasi dengan Pendekatan Variasi Stop Word Removal
Liga Mayola1,*, M. Hafizh2, Deri Marse Putra1
1Fakultas Ilmu Komputer, Sistem Informasi, Universitas Putra Indonesia YPTK, Padang, Indonesia
2Fakultas Ilmu Komputer, Teknik Informatika, Universitas Putra Indonesia YPTK, Padang, Indonesia Email: 1,*[email protected], 2[email protected], 3[email protected]
Email Penulis Korespondensi: [email protected]
Abstrak−Memilih judul disertasi yang unik adalah sebuah tantangan. Jumlah judul disertasi meningkat seiring dengan bertambahnya mahasiswa. Judul disertasi harus berbeda antar mahasiswa. Antisipasi yang bisa dilakukan adalah dengan mengadopsi algoritma similarity untuk deteksi kemiripan judul disertasi. Algoritma similarity yang dipilih adalah Algoritma Jaccard Similarity. Algoritma Jaccard dapat digunakan untuk mendeteksi kemiripan dokumen. Proses analisis diawali dengan text prepocessing. Tahapan text preprocessing yaitu case folding, tokenizing, stop word removal dan stemming. Pada penelitian ini diuji-cobakan variasi stop word removal dan menguji hasil akurasi yang diperoleh setelah dianalisis dengan Jaccard Similarity. Peneliti menyebutnya Stop Word Removal Versi Satu (SWR1) dan Stop Word Removal Versi Dua (SWR2). Pada SWR1 hanya dihapus kata preposisi dan konjungsi. Sedangkan SWR2; yang dilakukan adalah penghapusan kata pada SWR1 ditambah dengan penghapusan kata yang sering digunakan dalam judul namun tidak memberikan kontribusi yang signifikan terhadap makna judul. Tujuan pendekatan ini adalah untuk menguji akurasi yang dihasilkan Jaccard terhadap kedua pendekatan Stop Word Removal ini. Hasil penelitian menunjukkan akurasi Jaccard dengan SWR2 memiliki akurasi sebesar 97,8% dan akurasi SWR1 sebesar 57,7%. Tahapan text prepocessing khususnya stop word removal merupakan tahapan kritis dalam menentukan kemiripan serta berpengaruh secara signifikan terhadap hasil Algoritma Jaccard.
Kata Kunci: Jaccard Similarity; Text Preprocessing; Stop Word Removal ; Deteksi; Kemiripan
Abstract−Choosing an unique dissertation title is a challenge. The number of dissertation titles rises as the number of students increases. The title of the dissertation must differ between students. Anticipation that can be done is to adopt a similarity algorithm to detect similarities in dissertation titles. The similarity algorithm chosen is the Jaccard Similarity Algorithm.
Jaccard algorithm can be used to detect document similarities. Analysis process begins with preprocessing text. The stages of preprocessing text are case folding, tokenizing, stop word removal and stemming. In this study, variations of stop word removal were tested and the accuracy results obtained were tested after being analyzed using Jaccard Similarity. Researchers call it Stop Word Removal Version One (SWR1) and Stop Word Removal Version Two (SWR2). In SWR1 only prepositions and conjunctions are deleted. Meanwhile SWR2; what was done was the deletion of words in SWR1 plus the deletion of words that were often used in the title but did not make a significant contribution to the meaning of the title. The aim of this approach is to test the accuracy produced by Jaccard against these two stop word removal approaches. The research results show that Jaccard accuracy with SWR2 has an accuracy of 97.8% and SWR1 accuracy is 57.7%. stop word removal , is a critical stage in determining similarity and has a significant influence on the results of the Jaccard Algorithm.
Keywords: Jaccard Similarity; Text Preprocessing; Stop Word Removal ; Detection; Similarity
1. PENDAHULUAN
Memilih judul disertasi yang unik adalah sebuah tantangan. Disertasi merupakan salah satu syarat yang harus dipenuhi oleh seorang mahasiswa untuk menamatkan studi doktoral[1]. Jumlah judul disertasi akan terus meningkat seiring dengan pertumbuhan jumlah mahasiswa. Judul disertasi yang dipilih harus berbeda setiap mahasiswa. Adanya kesamaan atau kemiripan yang substansial dapat dikategorikan sebagai tindakan plagiarisme [2]. Memilih judul disertasi tanpa didukung oleh penggunaan metode tentu akan sulit dilakukan. Sehingga diperlukan sebuah metode deteksi similarity yang efektif untuk membandingkan kemiripan judul-judul tersebut.
Perkembangan teknologi semakin hari semakin pesat. Teknologi informasi dapat membantu manusia bekerja lebih efektif dan meminimalisir human error [3]. Mendeteksi kesamaan antar judul penting dalam pengelolaan judul disertasi. Hal ini dapat membantu meminimalkan duplikasi dan memastikan bahwa setiap judul bersifat homogen.
Tindakan preventif permasalahan kemiripan judul disertasi dapat diatasi dengan menggunakan algoritma similarity. Ada 3 teknik untuk mengukur similarity yaitu probabilistic-based similarity measure, feature-based similarity measure dan distance-based similarity measure [4].
Salah satu algoritma similarity adalah Jaccard Coefficient atau Algoritma Jaccard yang merupakan salah satu algoritma distance-based similarity measure. Algoritma Jaccard merupakan algoritma yang efektif untuk mengukur kemiripan antara dua himpunan jika diproses dengan text prepocessing yang baik. Formula Jaccard dapat digunakan untuk menghitung sejauh mana dua kumpulan himpunan kata memiliki elemen yang menunjukkan tingkat kesamaan [5], [6], [7].
Algoritma similarity tidak bisa langsung dieksekusi tanpa melalui tahapan text prepocessing. Tahapan dari text prepocessing yaitu case folding, tokenizing, stop word removal [8], dan stemming [9]. Stop word removal adalah langkah pra-pemrosesan teks yang kritis untuk analisis kesamaan. Stop word removal mempengaruhi pencarian informasi secara signifikan [10]. Pendekatan variasi stop word removal memungkinkan untuk mengetahui pengaruhnya terhadap hasil analisis.
Fokus dari penelitian ini adalah pendekatan pada stop word removal . Stop word removal adalah kata-kata umum seperti "dan," "atau," dan "yang" yang sering diabaikan dalam proses analisis teks karena tidak bermakna [11]. Penghilangan kata pada stop word removal dapat mempengaruhi hasil pengukuran kemiripan teks, apalagi jika dilakukan dengan pendekatan yang berbeda [12]. Oleh karena itu, penelitian ini menyelidiki dua jenis variasi untuk menghilangkan kata-kata pada stop word removal . Tujuannya adalah untuk meningkatkan akurasi dan ketepatan deteksi kesamaan judul disertasi.
Hasil penelitian diharapkan dapat memberikan kontribusi terhadap pengembangan teknik deteksi kemiripan teks secara umum. Variasi stop word removal diharapkan memberikan pengetahuan baru terkait efektivitas dan keandalan Algoritma Jaccard Similarity. Penggunaan Algoritma Jaccard Similarity dan pendekatan variasi stop word removal diharapkan dapat memberikan hasil yang lebih akurat dalam deteksi kemiripan judul disertasi.
Peningkatan ketelitian ini akan mendukung pendidikan tinggi dalam menjaga kualitas penelitian dan menjamin orisinalitas setiap disertasi. Dengan adanya metode yang efektif untuk deteksi kemiripan judul disertasi, pendidikan tinggi dapat memastikan bahwa setiap disertasi yang dihasilkan merupakan kontribusi unik dan signifikan terhadap pengetahuan di bidang tertentu.
Berbagai penelitian terdahulu telah banyak menggunakan Algoritma Jaccard Similarity dalam menghitung kesamaan teks atau dokumen. Hasil analisis Algoritma Jaccard dijadikan sebagai acuan dalam pelatihan model Artificial Neural Network (ANN), Latent Semantic Index (LSI) dalam mendeteksi kemiripan jawaban essay e- learning. Metode similarity ini dijadikan acuan karena terbukti andal dalam fitur sintaksis data [13]. Metode Jaccard mampu mengidentifikasi cyberbullying whatsapp messenger [14]. Selain itu, Metode Jaccard Similarity juga digunakan untuk menilai kemiripan dari model bisnis pengembangan proyek sistem informasi yaitu PMBoK dan Scrum untuk menekan tingkat kegagalan pengembangan sebuah proyek [15]. Penggunaan Metode Jaccard mampu menangani beberapa kondisi ketika mencocokan menu pada chatbot. Pencocokan menu berbasis keywords pada chatbot dengan metode Jaccard dapat diterapkan pada bahasa pemprograman PHP. Penggunaan metode Jaccard mampu menangani beberapa kondisi seperti ketika pesan terdiri dari keseluruhan kata kunci, sebagian kata kunci, maupun beberapa kata kunci dengan posisi yang ditukar. Pencocokan menu dengan memanfaatkan metode Jaccard dinilai sangat efektif karena tidak memperhitungkan posisi string pada suatu menu [16]. Algoritma Jaccard Similarity digunakan untuk mendeteksi plagiasi pada dokumen tugas akhir mahasiswa. Hasil menunjukkan bahwa kemiripan tugas akhir dapat dideteksi oleh Algoritma Jaccard. Algoritma Jaccard dapat menghitung nilai perbandingan dari dokumen uji dengan dokumen asli [17].
Dari uraian penelitian terdahulu dapat disimpulkan bahwa kemiripan teks dapat dideteksi oleh Algoritma Jaccard. Penelitian ini mengangkat topik Jaccard Similarity dengan variasi stop word removal dengan tujuan untuk mendeteksi kesamaan judul disertasi. Tahapan teks prepossessing khususnya stop word removal menjadi bagian penting pada penelitian ini sekaligus menjadi perbedaan metode dari penelitian-penelitian terdahulu. Hasil analisis stop word removal menjadi data awal yang akan diproses oleh Algoritma Jaccard. Temuan dari penelitian berupa perbandingan kemiripan Jaccard pada pemilihan kata/ stop word removal, sehingga untuk mencapai tujuan penelitian hasil stop word removal dengan akurasi yang terbaik dapat dipilih untuk diterapkan.
2. METODOLOGI PENELITIAN
2.1 Tahapan Penelitian
Metodologi penelitian merupakan kerangka atau tahapan penelitian. Tahapan penelitian yang dilakukan diawali dengan pengumpulan data, kemudian dilanjutkan dengan analisis text preprocessing. Tahapan text prepocessing yaitu case folding, tokenizing, stop word removal dan stemming. Case folding adalah tahapan merubah huruf besar menjadi huruf kecil dengan tujuan menyetarakan huruf, sehingga semua huruf dianggap sama saat dibandingkan.
Tokenizing adalah tahapan memecah atau memisahkan teks menjadi token atau kata individual. Stop word removal adalah tahapan menghapus kata yang tidak penting [18]. Stemming adalah tahapan merubah kata menjadi kata dasar [19]. Setelah itu dihitung term frequency (TF), kemudian analisis dengan Algoritma Jaccard, pengujian hasil dengan confusion matrix [20] dan penarikan kesimpulan.
Pada Gambar 1 merupakan proses rancangan perhitungan kemiripan judul disertasi melalui tahapan preprocessing; case folding, tokenizing, stop word removal dan stemming. Stop word removal yang dilakukan terbagi kedalam dua versi; yang pertama hanya menghapus kata-kata yang tidak penting dari suatu judul berupa;
konjungsi, preposisi dan sejenisnya. Versi kedua melakukan proses penghapusan kata seperti versi pertama dan ditambah dengan menghilangkan kata-kata yang sering muncul dalam sebuah judul namun kurang memberikan makna atau kontribusi penting terhadap pemahaman konten judul disertasi, seperti pengolahan, pengembangan dan sejenisnya. Pada stop word removal versi dua ini, kata-kata yang disisakan sedapat mungkin hanya pada metode dan objek penelitian saja. Hal ini bertujuan untuk melihat dampak dari variasi stop word removal terhadap keakurasian analisis Algoritma Jaccard. Setelah preprocessing dilakukan, berikutnya pembobotan Term Frequency (TF). Proses TF menghitung jumlah kata per judul (panjang dokumen), kemunculan kata di setiap judul. Hasil proses pembobotan TF akan digunakan untuk perhitungan Algoritma Jaccard. Setelah itu dilakukan pengujian kemiripan dari hasil perhitungan Algoritma Jaccard dengan membandingkan nilai algoritma dengan pendekatan
stop word removal versi satu dan stop word removal versi dua dengan confusion matrix. Langkah terakhir adalah penarikan kesimpulan. Berikut adalah metodologi penelitian yang dimaksud yang diilustrasikan dalam Gambar 1.
Gambar 1. Kerangka Penelitian 2.2 Text Preprocessing
Text mining memerlukan pra pemrosesan atau text prepocessing dalam analisisnya. Text mining biasanya digunakan untuk mendeteksi kesamaan atau plagiarisme [21]. Tahapan prepocessing dimulai dari case folding, tokenizing, stop word removal dan stemming. Case folding merupakan tahapan mengubah huruf besar menjadi kecil dengan tujuan agar semua karakter dianggap sama dalam pemrosesan [22]. Tokenizing merupakan tahapan memecah kalimat menjadi kata-kata yang berdiri sendiri atau individual text. Stop word removal merupakan tahapan menghapus kata yang tidak diperlukan dalam pemrosesan, berupa preposisi, konjungsi, tanda baca dsb.
Stemming merupakan tahapan mengembalikan kata ke bentuk kata dasar [23].
2.3 Algoritma Jaccard
Algoritma Jaccard merupakan salah satu algoritma text mining. Algoritma Jaccard merupakan salah satu metode yang bisa digunakan untuk menghitung kemiripan antara 2 objek atau item [24], [17], [25], [26]. Nilai kemiripan Algoritma Jaccard berkisar antara 0% hingga 100% [27]. Nilai kemiripan berbanding lurus dengan tingkat kemiripan. Algoritma Jaccard dituliskan dalam bentuk formula (1).
Kemiripan (A, B) =|A∩B|
|A∪B| (1)
Dimana, A adalah dokumen A B adalah dokumen B
A∩B adalah elemen yang sama antara himpunan A dan himpunan B A∪B adalah gabungan elemen himpunan A dan himpunan B 2.4 Pengujian Hasil dengan Confusion Matrix
Confusion matrix merupakan pengujian yang dapat digunakan untuk menghitung kinerja atau tingkat kebenaran proses klasifikasi dengan Persamaan (2) [28]. Ada 4 (empat) term sebagai representasi hasil proses klasifikasi, keempat term tersebut adalah benar positif (TP), benar negatif (TN), positif palsu (FP) dan negatif palsu (FN).
True Positive (TP) adalah jumlah positif data yang diperoleh dengan benar. Nilai True Negative (TN) adalah jumlah data negatif yang dikumpulkan dengan benar [29]. Dalam Bahasa Inggris TP adalah True Positif, TN adalah True Negatif, FP adalah False Positif, FN adalah False Negatif.
Accuracy = TP+TN
TP+TN+FP+FNx100% (2)
3. HASIL DAN PEMBAHASAN
Analisis yang dilakukan dengan melakukan variasi teknik pada stop word removal . Hal ini bertujuan untuk menguji pengaruh stop word removal dalam deteksi kemiripan. Variasi teknik stop word removal pada penelitian ini diistilahkan dengan nama stop word removal versi satu dan stop word removal versi dua.
3.1 Analisis Jaccard dengan Stop word removal Versi Satu
Analisis dengan Algoritma Jaccard tidak bisa langsung dieksekusi tanpa text preprocessing. Text preprocessing merupakan tahap kritis dalam pemrosesan teks. Tujuan dari text prepocessing adalah untuk membersihkan dan menyiapkan data yang dapat dianalisis oleh algoritma. Data yang digunakan dalam penelitian ini adalah data kumpulan judul disertasi yang diajukan oleh mahasiswa ke Program Studi Doktor Teknologi Informasi. Peneliti mendapatkan data tersebut dari Program Studi. Kumpulan data sampel atau teks yang akan diproses dengan text prepocessing dapat dilihat pada Tabel 1.
Tabel 1. Data Judul Disertasi
No Kode
Judul Judul Disertasi
1 J1 Pengembangan Metode Transformasi Affine dalam Rekonstruksi pada Motif Songket (Studi Kasus Songket Silungkang
2 J2 Deteksi Penyakit Tuberkulosis Ekstra Paru Menggunakan Fitur Bentuk dan Tekstur
3 J3 Similarity Measurement pada Citra Logo Menggunakan Metode CBIR (Content Based Image Retrieval)
4 J4 Pemodelan Hybrid Untuk Mengklasifikasi Dan Mendeteksi Outlier Pada Dataset Teks Multilabel Berbasis Konten Dan Konteks
5 J5 Pengembangan Algoritma Stemming Untuk Bahasa Minangkabau Berdasarkan Morfologi Bahasa Minangkabau
6 J6 Pengembangan Metode Segmentasi Citra Pada CT Scan Temporal Untuk Pengukuran Area Dan Identifikasi Jenis Mastoid
7 J7 Peningkatan Citra Bentuk dan tekstur Ultrasonografi (USG) untuk mendeteksi Kista Multiple pada Ginjal
8 J8 Pengembangan Teknik Segmentasi Dan Ekstraksi Citra Image Magnetic Resonance Cholangiopancreatography (MRCP) Dalam Pendeteksian Kandungan Batu Empedu
9 J9 Pengolahan Citra Ultrasound Image Untuk Identifikasi Batu Ginjal
10 J10 Pengembangan Teknik Enhancement Dalam Mengidentifikasi Batu di Sistem Saluran Empedu
Tabel 1 merupakan sampel judul disertasi yang akan diproses dengan text prepocessing. Judul disertasi tersebut berjumlah 10 sampel judul. Setiap judul diberikan kode J1, J2, J3, J4, J5, J6, J7, J8, J9, J10. Beberapa judul di Tabel 10 memiliki kemiripan apabila kita lihat secara kasat mata. Hal tersebut sengaja dilakukan untuk menguji keakuratan algoritma dan tahapan text prepocessing. Analisis text prepocessing dapat dilihat pada Tabel 2.
Tabel 2. Text Preprocessing Kode
Judul Case folding Tokenizing Stop Word Removal
Versi Satu Stemming
J1
pengembangan metode transformasi affine dalam rekonstruksi pada motif songket (studi kasus songket silungkang)
pengembangan, metode, transformasi, affine, dalam, rekonstruksi, pada, motif, songket, (studi, kasus, songket, silungkang)
pengembangan, metode, transformasi, affine, rekonstruksi, motif, songket, studi, kasus, songket, silungkang
kembang, metode, transformasi, affine, konstruksi, motif, studi, kasus, songket, silungkang
J2
deteksi penyakit tuberkulosis ekstra paru menggunakan fitur bentuk dan tekstur
deteksi, penyakit, tuberkulosis, ekstra, paru, menggunakan, fitur, bentuk, dan, tekstur
deteksi, penyakit, tuberkulosis, ekstra, paru, fitur, bentuk, tekstur
deteksi, sakit, tuberkulosis, ekstra, paru, fitur, bentuk, tekstur
J3
similarity measurement pada citra logo
menggunakan metode cbir (content based image retrieval)
similarity, measurement, pada, citra, logo, menggunakan, metode, cbir, (content, based, image, retrieval)
similarity,
measurement, citra, logo, metode, content, based, image, retrieval
similarity, measurement, citra, logo, metode, content, based, image, retrieval
J4
pemodelan hybrid untuk mengklasifikasi dan mendeteksi outlier pada dataset teks multilabel berbasis konten dan konteks
pemodelan, hybrid, untuk, mengklasifikasi, dan, mendeteksi, outlier, pada, dataset, teks, multilabel, berbasis, konten, dan, konteks
pemodelan, hybrid, mengklasifikasi, outlier, dataset, teks, multilabel, berbasis, konten, konteks
model, hybrid, klasifikasi, outlier, dataset, teks, multilabel, basis, konten, konteks
Kode
Judul Case folding Tokenizing Stop Word Removal
Versi Satu Stemming
J5
pengembangan algoritma stemming untuk bahasa minangkabau berdasarkan morfologi bahasa
minangkabau
pengembangan, algoritma, stemming, untuk, bahasa, minangkabau,
berdasarkan, morfologi, bahasa, minangkabau
pengembangan, algoritma, stemming, bahasa, minangkabau, morfologi
kembang, algoritma, stemming, bahasa, minangkabau, morfologi
J6
pengembangan metode segmentasi citra pada ct scan temporal untuk pengukuran area dan identifikasi jenis mastoid
pengembangan, metode, segmentasi, citra, pada, ct, scan, temporal, untuk, pengukuran, area, dan, identifikasi, jenis, mastoid
pengembangan, metode, segmentasi, citra, ct, scan, temporal, pengukuran, area, identifikasi, jenis, mastoid
kembang, metode, segmentasi, citra, ct, scan, temporal, ukur, area, identifikasi, jenis, mastoid
J7
peningkatan citra bentuk dan tekstur ultrasonografi (usg) untuk mendeteksi kista multiple pada ginjal
peningkatan, citra, bentuk, dan, tekstur,
ultrasonografi, (usg), untuk, mendeteksi, kista, multiple, pada, ginjal
peningkatan, citra, bentuk, tekstur, ultrasonografi, mendeteksi, kista, multiple, ginjal
tingkat, citra, bentuk, tekstur, ultrasonografi, deteksi, kista, multiple, ginjal
J8
pengembangan teknik segmentasi dan ekstraksi citra image magnetic resonance
cholangiopancreatography (mrcp) dalam
pendeteksian kandungan batu empedu
pengembangan, teknik, segmentasi, dan, ekstraksi, citra, image, magnetic, resonance,
cholangiopancreatography, (mrcp), dalam,
pendeteksian, kandungan ,batu, empedu
pengembangan, teknik, segmentasi, ekstraksi, citra, image, magnetic, resonance,
cholangiopancreatography, (mrcp), pendeteksian, kandungan, batu, empedu
kembang, teknik, segmentasi, ekstraksi, citra, image, magnetic, resonance,
cholangiopancreatography, deteksi, kandung, batu, empedu
J9
pengolahan citra ultrasound image untuk identifikasi batu ginjal
pengolahan, citra, ultrasound, image, untuk, dentifikasi, batu, ginjal
pengolahan, citra, ultrasound, image, identifikasi, batu, ginjal
olah, citra, ultrasound, image, identifikasi, batu, ginjal
J10
pengembangan teknik enhancement dalam mengidentifikasi batu di sistem saluran empedu
pengembangan, teknik, enhancement, dalam, mengidentifikasi, batu, di, sistem, saluran, empedu
pengembangan, teknik, enhancement,
mengidentifikasi, batu, sistem, saluran, empedu
kembang, teknik,
enhancement, identifikasi, batu, sistem, saluran, empedu
Tabel 2 merupakan analisis text preprocessing dengan tahapan case folding, tokenizing, stop word removal versi satu dan stemming. Stop word removal versi satu adalah tahapan menghapus kata preposisi, konjungsi, dan sejenisnya. Langkah berikutnya adalah menghitung frekuensi kata yang muncul (term frequency) di setiap judul.
Kemudian menghitung panjang dokumen. Analisis term frequency dan panjang dokumen dapat dilihat pada Tabel 3.
Tabel 3. Term Frequency dan Panjang Dokumen
No Term Term Frequency (TF)
J1 J2 J3 J4 J5 J6 J7 J8 J9 J10
1 kembang 1 0 0 0 1 1 0 1 0 1
2 metode 1 0 1 0 0 1 0 0 0 0
3 transformasi 1 0 0 0 0 0 0 0 0 0
4 affine 1 0 0 0 0 0 0 0 0 0
5 konstruksi 1 0 0 0 0 0 0 0 0 0
6 motif 1 0 0 0 0 0 0 0 0 0
7 studi 1 0 0 0 0 0 0 0 0 0
8 kasus 1 0 0 0 0 0 0 0 0 0
9 songket 1 0 0 0 0 0 0 0 0 0
10 silungkang 1 0 0 0 0 0 0 0 0 0
11 deteksi 0 1 0 0 0 0 1 1 0 0
12 sakit 0 1 0 0 0 0 0 0 0 0
13 tuberkulosis 0 1 0 0 0 0 0 0 0 0
14 ekstra 0 1 0 0 0 0 0 0 0 0
15 paru 0 1 0 0 0 0 0 0 0 0
16 fitur 0 1 0 0 0 0 0 0 0 0
17 bentuk 0 1 0 0 0 0 1 0 0 0
18 tekstur 0 1 0 0 0 0 1 0 0 0
… dst …
No Term Term Frequency (TF)
J1 J2 J3 J4 J5 J6 J7 J8 J9 J10
91 saluran 0 0 0 0 0 0 0 0 0 1
Panjang Dokumen 10 8 9 10 6 12 9 13 7 8
Tabel 3 merupakan analisis perhitungan kemunculan setiap kata pada judul. Nilai 1 menandakan kemunculan kata pada judul dan nilai 0 sebaliknya. Sebagai contoh kata ’kembang’ muncul di judul J1, J5, J6, J8 dan J10. Kemudian dilakukan perhitungan panjang dokumen atau jumlah kata setiap judul. Langkah selanjutnya membandingkan semua judul, menghitung irisan kata (intersection) dan himpunan kata (union) judul. Setelah diketahui jumlah irisan dan himpunan kata maka data tersebut dapat dieksekusi dengan Algoritma Jaccard.
Analisis Algoritma Jaccard menggunakan formula (1). Setiap judul akan dibandingkan kemiripannya dengan semua judul yang sudah ada. Sampel data ada 10 judul yang dikodekan dengan J1 sampai dengan J10. J1 akan dibandingkan dengan J2, J3, J4, J5, J6, J7, J8, J9 dan J10. Kemudian untuk J2 akan dibandingkan dengan J3, J4, J5, J6, J7, J8, J9, J10, dan seterusnya.
Selanjutnya dengan Algoritma Jaccard ; intersection akan dibagi dengan union mengacu ke formula (1).
Hasil perhitungan Algoritma Jaccard pada judul J1 dan J2 adalah 0% dengan makna kedua judul tidak memiliki kemiripan. Hal yang sama akan dilakukan untuk setiap judul. Perbandingan kemiripan setiap judul dapat dengan Algoritma Jaccard dapat dilihat pada Tabel 4.
Tabel 4. Perbandingan Kemiripan Judul
Keterangan
Perbandingan Kemiripan Judul J1,
J2 J1,
J3 J1, J4
J1, J5
J1, J6
J1, J7
J1, J8
J1, J9
J1, J10
J2,
J3 … J9, J10
Panjang Dokumen 18 19 20 16 22 19 23 17 18 17
… 15
Intersection 0 1 0 1 2 0 1 0 1 0 1
Union 18 19 20 16 22 19 23 17 18 18 15
Algoritma Jaccard 0 0,1 0 0,1 0,1 0 0 0 0,1 0 0,06
Kemiripan Dalam
Persen (%) 0 5,3 0 6,3 9,1 0 4,3 0 5,6 0 6,6
Tabel 4 menunjukkan hasil perbandingan kemiripan setiap judul. Hasil perhitungan kemiripan judul J1 dan J2 adalah 0 %, J1 dan J3 adalah 5,3% hingga perbandingan judul terakhir J9 dan J10 diperoleh nilai kemiripan 13%. Nilai kemiripan tertinggi yaitu judul J2 dengan J7 dengan nilai 17,7%. Grafik perbandingannya dapat dilihat pada Gambar 2.
Gambar 2. Grafik Perbandingan Nilai Kemiripan Judul dengan Stop Word Removal Versi Satu
Gambar 2 merupakan grafik perbandingan nilai kemiripan judul dengan pendekatan stop word removal versi satu. Maksimal kemiripan ada pada judul J2 dan J7. Kedua judul tersebut dapat dilihat pada Tabel 5.
Tabel 5. Judul dengan Kemiripan Tertinggi pada Stop Word Removal Versi Satu
Kode Stemming Judul
J2 tingkat, citra, bentuk, tekstur, ultrasonografi, deteksi, kista, multiple, ginjal J7 deteksi,sakit,tuberkulosis,ekstra,paru,fitur,bentuk,tekstur
Tabel 5 merupakan hasil Algoritma Jaccard dengan SWR1. Judul yang mirip diidentifikasi pada J2 dan J7.
Dari keduanya ternyata tidak mirip secara makna. Hasil analisis Jaccard dengan stop word removal versi satu dapat disimpulkan tidak akurat. Kedua judul tersebut tidaklah mirip dilihat dari sudut pandang maknanya, walaupun memang ada beberapa kata yang sama yang digunakan pada kedua judul tersebut.
0,0 5,0 10,0 15,0 20,0
J1,J2 J1,J4 J1,J6 J1,J8 J1,J10 J2,J4 J2,J6 J2,J8 J2,J10 J3,J5 J3,J7 J3,J9 J4,J5 J4,J7 J4,J9 J5,J6 J5,J8 J5,J10 J6.J8 J6.J10 J7,J9 J8,J9 J9, J10
0,0 5,3
0,0 6,3
9,1
0,0 4,3
0,0 5,6
0,00,00,00,0 17,7
4,8 0,00,00,00,0
9,5 5,6
9,1 12,5
0,00,00,00,00,00,00,0 5,6
0,0 5,3
0,0 7,1
4,8 12,010,510,09,1
6,3 0,0
10,0 14,3
6,7 PERBANDINGAN KEMIRIPAN JUDUL DENGAN VARIASI
STOPWORD REMOVAL VERSI SATU
3.2 Analisis Jaccard dengan Stop Word Removal Versi Dua
Stop word removal versi dua memiliki perbedaan dengan stop word removal versi satu. Stop word removal versi dua menghapus kata-kata yang sering muncul dalam sebuah judul akan tetapi tidak mempengaruhi makna secara signifikan. Stop word removal versi dua ini sedapat mungkin hanya menyisakan kata metode dan objek penelitian pada judul disertasi. Analisis text preprocessing pada tahapan ini dapat dilihat pada Tabel 5
Tabel 5. Text Preprosessing Kode
Judul Case folding Tokenizing Stop Word Removal
Versi Dua Stemming
J1
pengembangan metode transformasi affine dalam rekonstruksi pada motif songket (studi kasus songket silungkang)
pengembangan, metode, transformasi, affine, dalam, rekonstruksi, pada, motif, songket, (studi, kasus, songket, silungkang)
transformasi, affine, rekonstruksi, motif, songket, silungkang
transformasi, affine, konstruksi, motif, songket, silungkang
J2
deteksi penyakit tuberkulosis ekstra paru menggunakan fitur bentuk dan tekstur
deteksi, penyakit, tuberkulosis, ekstra, paru, menggunakan, fitur, bentuk, dan, tekstur
tuberkulosis, ekstra, paru, fitur
tuberkulosis, ekstra, paru, fitur, bentuk, tekstur
J3
similarity measurement pada citra logo
menggunakan metode cbir (content based image retrieval)
similarity, measurement, pada, citra, logo, menggunakan, metode, cbir, (content, based, image, retrieval)
similarity, measurement, logo, content, based, retrieval
similarity, measurement, logo, content, based, retrieval
J4
pemodelan hybrid untuk mengklasifikasi dan mendeteksi outlier pada dataset teks multilabel berbasis konten dan konteks
pemodelan, hybrid, untuk, mengklasifikasi, dan, mendeteksi, outlier, pada, dataset, teks, multilabel, berbasis, konten, dan, konteks
hybrid, mengklasifikasi, outlier, dataset, teks, multilabel, konten, konteks
hybrid, klasifikasi, outlier, dataset, teks, multilabel, konten, konteks
J5
pengembangan algoritma stemming untuk bahasa minangkabau berdasarkan morfologi bahasa
minangkabau
pengembangan, algoritma, stemming, untuk, bahasa, minangkabau,
berdasarkan, morfologi, bahasa, minangkabau
J6
pengembangan metode segmentasi citra pada ct scan temporal untuk pengukuran area dan identifikasi jenis mastoid
pengembangan, metode, segmentasi, citra, pada, ct, scan, temporal, untuk, pengukuran, area, dan, identifikasi, jenis, mastoid
J7
peningkatan citra bentuk dan tekstur ultrasonografi (usg) untuk mendeteksi kista multiple pada ginjal
peningkatan, citra, bentuk, dan, tekstur,
ultrasonografi, (usg), untuk, mendeteksi, kista, multiple, pada, ginjal
ultrasonografi, kista, multiple, ginjal
ultrasonografi, kista, multiple, ginjal
J8
pengembangan teknik segmentasi dan ekstraksi citra image magnetic resonance
cholangiopancreatography (mrcp) dalam
pendeteksian kandungan batu empedu
pengembangan, teknik, segmentasi, dan, ekstraksi, citra, image, magnetic, resonance,
cholangiopancreatography, (mrcp), dalam,
pendeteksian, kandungan ,batu, empedu
segmentasi, ekstraksi, magnetic, resonance, cholangiopancreatography, kandungan, batu, empedu
segmentasi, ekstraksi, magnetic, resonance, cholangiopancreatography, kandung, batu, empedu
J9
pengolahan citra ultrasound image untuk identifikasi batu ginjal
pengolahan, citra, ultrasound, image, untuk, dentifikasi, batu, ginjal
ultrasound, batu, ginjal ultrasound, batu, ginjal
J10
pengembangan teknik enhancement dalam mengidentifikasi batu di sistem saluran empedu
pengembangan, teknik, enhancement, dalam, mengidentifikasi, batu, di, sistem, saluran, empedu
enhancement, , batu, saluran, empedu
enhancement, batu, saluran, empedu
Tabel 5 merupakan versi kedua dari Tabel 2. Tahapan stop word removal pada Tabel 5 menghapus kata dalam judul yang tidak mempengaruhi makna secara signifikan. Hal ini dilakukan untuk melihat dampaknya terhadap akurasi Algoritma Jaccard. Langkah selanjutnya adalah menghitung term frekuensi dan panjang dokumen yang dapat dilihat pada Tabel 6.
Tabel 6. Term Frequency dan Panjang Dokumen
No Term Term Frequency
J1 J2 J3 J4 J5 J6 J7 J8 J9 J10
1 transformasi 1 0 0 0 0 0 0 0 0 0
2 affine 1 0 0 0 0 0 0 0 0 0
3 konstruksi 1 0 0 0 0 0 0 0 0 0
4 motif 1 0 0 0 0 0 0 0 0 0
5 songket 1 0 0 0 0 0 0 0 0 0
6 silungkang 1 0 0 0 0 0 0 0 0 0
7 tuberkulosis 0 1 0 0 0 0 0 0 0 0
8 ekstra 0 1 0 0 0 0 0 0 0 0
9 paru 0 1 0 0 0 0 0 0 0 0
10 fitur 0 1 0 0 0 0 0 0 0 0
…
38 ginjal 0 0 0 0 0 0 1 0 1 0
39 segmentasi 0 0 0 0 0 0 0 1 0 0
…
44 batu 0 0 0 0 0 0 0 1 1 1
45 empedu 0 0 0 0 0 0 0 1 0 1
… dst
48 saluran 0 0 0 0 0 0 0 0 0 1
Panjang Dokumen 6 4 0 0 0 0 1 3 2 3
Tabel 6 menunjukkan frekuensi kemunculan sebuah kata dan panjang dokumen sebuah judul. Semua kata yang diperoleh dari proses stop word removal versi dua ini adalah sebanyak 48 kata/ term. Term ’ginjal’ muncul pada judul J7 dan J9. Term ’batu’ muncul pada judul J8, J9, dan J10. Selanjutnya dilanjutkan dengan menghitung intersection dan union kata dalam judul, seperti yang dapat dilihat pada Tabel 7.
Tabel 7. Perbandingan Kemiripan Judul
Keterangan
Perbandingan Similarity Judul J1,
J2 J1,
J3 J1,
J4 J1,
J5 J1,
J6
J1, J7
J1, J8
J1, J9
J1, J10
J2,
J3 … J9, J10
Panjang Dokumen 10 13 14 10 11 10 13 17 16 11 … 7
Intersection 0 0 0 0 0 0 0 0 0 0 1
Union 10 0 14 10 11 10 13 17 16 11 7
Algoritma Jaccard 0 0 0 0 0 0 0 0 0 0 0,14
Kemiripan Dalam Persen (%)
0 0 0 0 0 0 0 0 0 0 14,29
Tabel 7 menunjukkan perbandingan similarity setiap judul. Hasil perhitungan kemiripan judul J1 dan J2 adalah 0 %, J1 dan J3 adalah 0% hingga perbandingan judul terakhir J9 dan J10 diperoleh nilai kemiripan 14,29%.
Nilai kemiripan tertinggi dideteksi pada judul J7 dengan J9 dengan nilai 28,5%. Grafik perbandingannya dapat dilihat pada Gambar 3.
Gambar 3. Grafik Perbandingan Kemiripan Judul Dengan Stopword Removal Versi Dua 0
5 10 15 20
J1,J2 J1,J4 J1,J6 J1,J8 J1,J10 J2,J4 J2,J6 J2,J8 J2,J10 J3,J5 J3,J7 J3,J9 J4,J5 J4,J7 J4,J9 J5,J6 J5,J8 J5,J10 J6.J8 J6.J10 J7,J9 J8,J9 J9, J10
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 14,3
0 10
18,2 14,3 P E R B A N D I N G A N K E M I R I P A N J U D U L D E N G A N
S T O P W O R D R E M O V A L V E R S I D U A
Gambar 3 merupakan perbandingan nilai kemiripan judul dengan pendekatan stop word removal versi dua.
Maksimal kemiripan ada pada judul J8 dan J10. Kemiripan kedua judul tersebut sebesar 18,2%.
Tabel 8. Judul dengan Kemiripan Tertinggi pada Stop Word Removal Versi Dua
Kode Stemming Judul
J8 segmentasi ekstraksi magnetic resonance cholangiopancreatography batu empedu
J10 enhancement batu saluran empedu
Tabel 8 menunjukkan 2 buah judul yang teridentifikasi mirip oleh stop word removal versi dua. Secara aktual kedua judul tersebut benar mirip. Akurasi Jaccard Similarity pada stop word removal versi dua menunjukkan akurasi yang lebih baik dari Jaccard Similarity stop word removal versi satu.
3.3 Perhitungan Akurasi dengan Confusion Matrix
Hasil kedua pendekatan ini memiliki perbedaan yang signifikan. Hasil pendekatan stop word removal versi satu lebih dari 20 perbandingan judul terdeteksi mirip. Hasil pendekatan stopword removal versi dua hanya mendeteksi 4 perbandingan dokumen yang mirip. Berdasarkan perbedaan hasil analisis kedua pendekatan stop word removal ini dan untuk mengukur akurasi dari kedua pendekatan digunakan rumus (2) confusion matrix [20]. Akurasi SWR1 dan SWR2 dapat dilihat pada Tabel 9 dan 10.
Tabel 9. Akurasi Stop Word Removal Versi Satu Stop Word Removal Versi Satu
TP TN FP FN
4 22 5 14
Tabel 10. Akurasi Stop Word Removal Versi Dua Stop Word Removal Versi Dua
TP TN FP FN
45 0 0 1
a. Akurasi Stop Word Removal Versi Satu (SWR1) Akurasi SWR = (TP+TN)/(TP+TN+FP+FN) x100%
= (4+22)/(4+22+5+14) x100%
= 57,7%
b. Akurasi Stop Word Removal Versi Satu (SWR2) Akurasi SWR2 = (TP+TN)/(TP+TN+FP+FN) x100%
= (45+0)/(45+0+0+1) x100%
= 97,8%
Berdasarkan perhitungan akurasi SWR1 dan SWR 2 yang telah dilakukan diperoleh akurasi SWR1 sebesar 57,7 % dan akurasi SWR2 sebesar 97,8 %. Dari kedua pendekatan tersebut Algoritma Jaccard dengan SWR2 menggungguli SWR1 sebesar 40%. Unggulnya SWR2 daripada SWR1 disebabkan oleh pemilihan kata pada proses stop word removal. Fokus SWR2 yang hanya memilih kata yang bermakna pada judul berupa metode dan objek penelitiannya saja telah membantu meningkatkan akurasi Algoritma Jaccard dalam perhitungan kemiripan.
Sedangkan pada SWR1 semua kata kecuali kata proposisi dan konjungsi dijadikan dasar dari perhitungan Algoritma Jaccard. Banyaknya kata yang sebenarnya tidak berarti pada SWR1 membuat akurasi Algoritma Jaccard semakin rendah. Dengan demikian dapat disimpulkan bahwa stop word removal berpengaruh secara signifikan terhadap hasil akurasi Algoritma Jaccard. Pendekatan SWR2 pada Algoritma Jaccard lebih baik daripada pendekatan SWR1 pada pendeteksian kemiripan judul disertasi.
4. KESIMPULAN
Penelitian ini menunjukkan bahwa algoritma kesamaan Jaccard dengan pendekatan SWR2 efektif untuk mengidentifikasi kesamaan antar judul disertasi. Tahapan pemilihan kata pada stop word removal menjadi kunci keberhasilan perhitungan Algoritma Jaccard. Hasil kemiripan disertasi dapat digunakan oleh program studi dan pihak terkait dalam mengambil keputusan sekaligus referensi dalam penilaian kontribusi suatu penelitian.
UCAPAN TERIMAKASIH
Terima kasih kepada Yayasan Perguruan Tinggi Komputer Padang yang telah mendanai penelitian ini. Terima kasih juga kepada segenap pimpinan Universitas Putra Indonesia YPTK Padang yang telah mendukung kami untuk melaksanakan penelitian ini.
REFERENCES
[1] W. Wiyarsih, “Analisis Trends Topik Penelitian Mahasiswa Fakultas MIPA UGM Periode 2016-2018,” UNILIB J.
Perpust., vol. 12, no. 1, pp. 1–15, 2021, doi: 10.20885/unilib.vol12.iss1.art1.
[2] A. N. Fadhullah, F. Fauziah, and W. Winarsih, “Aplikasi Deteksi Dini Plagiarism Penelitian Ilmiah Menggunakan Algoritma Consine Similarity Berbasis Web,” J. JTIK (Jurnal Teknol. Inf. dan Komunikasi), vol. 6, no. 3, pp. 325–334, 2022, doi: 10.35870/jtik.v6i3.427.
[3] R. L. Andharsaputri, “Rancang Bangun Sistem Informasi Pengadaan Barang Dan Jasa Berbasis Dekstop,” J. Ilm. Teknol.
Inf. Asia, vol. 15, no. 1, p. 1, 2021, doi: 10.32815/jitika.v15i1.529.
[4] N. Prima Putra and S. Sularno, “Penerapan Algoritma Rabin-Karp Dengan Pendekatan Synonym Recognition Sebagai Antisipasi Plagiarisme Pada Penulisan Skripsi,” J. Teknol. Dan Sist. Inf. Bisnis, vol. 1, no. 2, pp. 48–58, 2019, doi:
10.47233/jteksis.v1i2.52.
[5] M. E. Nahak, D. Nababan, and Y. O. . Rema, “Building A Web-Based Final Project Detection Information System with Incremental Method and Jaccard Similarity Algorithm,” J. Tek. Inform., vol. 16, no. 1, pp. 25–34, 2023, doi:
10.15408/jti.v16i1.29342.
[6] Murien Nugraheni, “Perbandingan Jaccard Similarity Dengan Extended Jaccard Similarity Pada Penalaran Berbasis Kasus,” PINTER J. Pendidik. Tek. Inform. dan Komput., vol. 4, no. 2, pp. 49–52, 2020, doi: 10.21009/pinter.4.2.10.
[7] M. Besta et al., “Communication-Efficient Jaccard similarity for High-Performance Distributed Genome Comparisons,”
in 2020 IEEE International Parallel and Distributed Processing Symposium (IPDPS), 2020, pp. 1122–1132. doi:
10.1109/IPDPS47924.2020.00118.
[8] S. Puad and A. Susilo Yuda Irawan, “Analisis Sentimen Masyarakat Pada Twitter Terhadap Pemilihan Umum 2024 Menggunakan Algoritma Naïve Bayes,” J. Mhs. Tek. Inform., vol. 7, no. 3, 2023.
[9] N. Nofiyani and W. Wulandari, “Implementasi Electronic Data Processing Untuk meningkatkan Efektifitas dan Efisiensi Pada Text Mining,” J. Media Inform. Budidarma, vol. 6, no. 3, p. 1621, 2022, doi: 10.30865/mib.v6i3.4332.
[10] A. K. Pandey and T. J. Siddiqui, “Evaluating Effect of Stemming and Stop-word,” pp. 317–325, 2012.
[11] R. Puspitasari, Y. Findawati, M. A. Rosid, P. S. Informatika, and U. M. Sidoarjo, “Sentiment Analysis of Post-Covid-19 Inflation Based on Twitter Using the K-Nearest Neighbor and Support Vector Machine Analisis Sentimen Terhadap Inflasi Pasca Covid-19 Berdasarkan Twitter Dengan Metode Klasifikasi K-Nearest Neighbor Dan,” vol. 4, no. 4, pp. 1–
11, 2023.
[12] W. G. S. Parwita, “Pengujian Akurasi Sistem Rekomendasi Berbasis Content-Based Filtering,” Inform. Mulawarman J.
Ilm. Ilmu Komput., vol. 14, no. 1, p. 27, 2019, doi: 10.30872/jim.v14i1.1272.
[13] I. M. S. Putra, Putu Jhonarendra, and Ni Kadek Dwi Rusjayanthi, “Deteksi Kesamaan Teks Jawaban pada Sistem Test Essay Online dengan Pendekatan Neural Network,” J. RESTI (Rekayasa Sist. dan Teknol. Informasi), vol. 5, no. 6, pp.
1070–1082, 2021, doi: 10.29207/resti.v5i6.3544.
[14] P. Widiandana, Imam Riadi, and Sunardi, “Implementasi Metode Jaccard pada Analisis Investigasi Cyberbullying WhatsApp Messenger Menggunakan Kerangka Kerja National Institute of Standards and Technology,” J. RESTI (Rekayasa Sist. dan Teknol. Informasi), vol. 4, no. 6, 2020, doi: 10.29207/resti.v4i6.2635.
[15] I. M. Aqimuddin, S. M. Pamungkas, C. Gunawan, and M. A. Yaqin, “Analisis Kemiripan Model Proses Bisnis PMBoK dan Scrum menggunakan Metode Jaccard Coefficient Similarity dan Semantic Similarity,” vol. 5, no. 2, pp. 53–64, 2023.
[16] I. G. Suarnata, I. M. Sukarsa, and K. S. Wibawa, “Pencocokan Menu Berbasis Keywords pada Chatbot dengan Metode Jaccard,” J. Ilm. Teknol. dan Komput., vol. 3, no. 1, pp. 786–793, 2022.
[17] S. Utomo, I. Much, I. Subroto, and A. Riansyah, “Deteksi plagiat tugas akhir dengan metode,” vol. 4, no. April, pp. 132–
141, 2020.
[18] I. K. P. Pinajeng, I. M. Sukarsa, and I. M. S. Putra, “Perbaikan Kata pada Sistem Chatbot dengan Metode Jaro Winkler,”
JITTER J. Ilm. Teknol. dan Komput., vol. 1, no. 2, pp. 86–95, 2020, [Online]. Available:
https://ojs.unud.ac.id/index.php/jitter/article/view/66062
[19] A. Y. A. Nugraha and F. F. Abdulloh, “Optimasi Naive Bayes dan Cosine Similarity Menggunakan Particle Swarm Optimization Pada Klasifikasi Hoax Berbahasa Indonesia,” J. Media Inform. Budidarma, vol. 6, no. 3, p. 1444, 2022, doi: 10.30865/mib.v6i3.4170.
[20] E. Suhailah and Hartatik, “Pembuatan Sistem Rekomendasi Pariwisata Yogyakarta Menggunakan Triangle Multiplaying Jaccard Creating a Yogyakarta Tourism Recommendation System Using Triangle Multiplaying Jaccard,” vol. 3, no. 2, pp. 115–126, 2023.
[21] A. D. Hartanto, A. Syaputra, and Y. Pristyanto, “Best parameter selection of rabin-Karp algorithm in detecting document similarity,” 2019 Int. Conf. Inf. Commun. Technol. ICOIACT 2019, no. February 2020, pp. 457–461, 2019, doi:
10.1109/ICOIACT46704.2019.8938458.
[22] W. Desena and A. Solichin, “Pencarian Abstrak Tugas Akhir Mahasiswa Berdasarkan Tingkat Kemiripan Menggunakan Algoritma Winnowing dan Jaccard Similarity pada Universitas Budi Luhur,” Inform. J. Ilmu Komput., vol. 17, no. 2, p.
112, 2021, doi: 10.52958/iftk.v17i2.3628.
[23] B. Bakiyev, “Method for Determining the Similarity of Text Documents for the Kazakh language, Taking Into Account Synonyms: Extension to TF-IDF,” SIST 2022 - 2022 Int. Conf. Smart Inf. Syst. Technol. Proc., pp. 28–30, 2022, doi:
10.1109/SIST54437.2022.9945747.
[24] T. wahyuningsih, “Text Mining an Automatic Short Answer Grading (ASAG), Comparison of Three Methods of Cosine Similarity, Jaccard Similarity and Dice’s Coefficient,” J. Appl. Data Sci., vol. 2, no. 2, pp. 45–54, 2021, doi:
10.47738/jads.v2i2.31.
[25] J. Soni, N. Prabakar, and H. Upadhyay, “Behavioral analysis of system call sequences using LSTM seq-seq, cosine similarity and jaccard similarity for real-time anomaly detection,” Proc. - 6th Annu. Conf. Comput. Sci. Comput. Intell.
CSCI 2019, pp. 214–219, 2019, doi: 10.1109/CSCI49370.2019.00043.
[26] A. Rana and K. Deeba, “Online book recommendation system using collaborative filtering (with jaccard similarity),” J.
Phys. Conf. Ser., vol. 1362, no. 1, 2019, doi: 10.1088/1742-6596/1362/1/012130.
[27] C. Agustina and E. Rahmawati, “Klasterisasi Objek Wisata Menggunakan Jaccard Similarity Coefficient Berdasarkan Attraction, Accessability, Amenity dan Ancilarry Service,” EVOLUSI J. Sains dan Manaj., vol. 11, no. 1, 2023, doi:
10.31294/evolusi.v11i1.15114.
[28] S. Proboningrum and Acihmah Sidauruk, “Sistem Pendukung Keputusan Pemilihan Supplier Kain Dengan Metode Moora,” JSiI (Jurnal Sist. Informasi), vol. 8, no. 1, pp. 43–48, 2021, doi: 10.30656/jsii.v8i1.3073.
[29] S. Maharani, H. Ridwanto, H. R. Hatta, D. M. Khairina, and M. R. Ibrahim, “Comparison of topsis and maut methods for recipient determination home surgery,” IAES Int. J. Artif. Intell., vol. 10, no. 4, pp. 930–937, 2021, doi:
10.11591/IJAI.V10.I4.PP930-937.