• Tidak ada hasil yang ditemukan

PERANCANGAN APLIKASI PENDETEKSIAN KEMIRIPAN DOKUMEN TEKS MENGGUNAKAN ALGORITMA COSINE SIMILARITY BERBASIS ANDROID

N/A
N/A
Protected

Academic year: 2022

Membagikan "PERANCANGAN APLIKASI PENDETEKSIAN KEMIRIPAN DOKUMEN TEKS MENGGUNAKAN ALGORITMA COSINE SIMILARITY BERBASIS ANDROID"

Copied!
5
0
0

Teks penuh

(1)

PERANCANGAN APLIKASI PENDETEKSIAN KEMIRIPAN DOKUMEN TEKS MENGGUNAKAN ALGORITMA COSINE SIMILARITY BERBASIS ANDROID

Rolina Pakpahan

Mahasiswa Teknik Informatika, STMIK Budidarma Medan Jl. Sisimangaraja No.338 Simpang Limun Medan

ABSTRAK

Dalam perancangan aplikasi pembuatan dokumen teks, banyak masalah yang dihadapi penulis, mulai dari pemahaman ecelipse sebagai software aplikasi yang digunakan, merancang aplikasi yang akan menjadi solusi, serta pembuatan dokumen teks didalam ecelipse, dalam perancangan aplikasi para pemrogram harus benar-benar dapat memahami bahasa pemrograman yang akan dirancang di dalam ecelipse agar bisa dapat berinteraksi dan menjadikan suatu rancangan dokumen teks yang akan dikembangkan. Dalam pemecahan diatas penulis mencoba metode cosine similarity string matching dalam menyelesaikan masalah peangaplikasian dokumen teks tersebut. ini merupakan pencaharian string matching dengan melihat karakter.

Ecelipse merupakan tools dalam pembuatan dokumen teks yang digunakan penulis agar dapat merancang dokumen teks yang lebih dapat dan mudah dipahami dan dikembangkan oleh pemrogram lainnya. Ecelipse ini digunakan untuk mengembangkan perangkat lunak dan dapat dijalankan disebuah flatfrom dan para pemrogram dalam pengembangan aplikasi skala kecil sampai ke skala besar dan dapat mengaplikasikan dokumen teks yang akan dirancang, dan dimana pemrogram akan mengimplementasikan menggunakan android yang cenderung mudah di pelajari bagi para pemula khusunya.

Kata Kunci : pencarian, string, aplikasi, dokumen teks, string matching

I. Pendahuluan

Pendeteksian Kemiripan dokumen teks merupakan pendeteksian kesamaan beberapa dokumen dengan membandingkan isi dokumen sehingga menghasilkan bobot atau nilai kemiripan dari dokumen yang dibandingkan. Salah satu kegunaan perbandingan dokumen adalah untuk membantu pengguna mengetahui apakah dokumen yang satu merupakan dokumen yang pada dasarnya sama dengan dokumen yang lain. Hal ini berguna untuk mengetahui apakah sebuah dokumen merupakan hasil ciplakan dari dokumen yang lain.

Perkembangan teknologi informasi berkembang dengan pesat, dan memberikan dampak positif. Dimana sistem informasi yang berbasis android dapat dimanfaatkan sebagai sarana untuk penigkatan informasi. Pemanfaatan yang sering terjadi antara lain dapat mempermudah pekerjaan seperti pengambilan data lebih cepat, menghemat waktu dan biaya. Sebagai contoh yaitu melakukan suatu pendeteksian, dimana manfaat yang dapat diambil dengan adanya proses pendeteksian untuk menghindari tindakan plagiarisme.

Plagiarisme atau penjiblakan dapat diartikan sebagai sebuah tindakan imitasi atau pemalsuan baik dari segi bahasa maupun ide dari orang lain dengan mempersentasikan hal tersebut sebagai hasil karyanya sendiri. Plagiarisme dalam bahasa latin diartikan sebagai pencurian, sehingga seseorang yang melakukan tindak penjiblakan dapat diartikan sebagai pencuri.

Adapun permasalahan yang sering dihadapi mahasiswa pada saat menentukan kemiripan suatu dokumen teks. Dimana mahasiswa harus membandingkan dua atau lebih berkas dokumen dan menelusuri paragraf per paragraf dan menentukan kata, kalimat atau paragraf yang memiliki kemiripan.

Dimana cara tersebut merupakan cara yang kurang efektif dan efesien. Untuk membangun aplikasi pendeteksian kemiripan pada dokumen teks, maka diperlukan suatu ilmu yang mengacu pada pengolahan teks. Text Mining adalah proses menganalisis teks

untuk mengekstrak informasi yang berguna untuk tujuan tertentu. Dimana tahap-tahap pada text mining secara umum terdiri dari case folding, tokenizing, filtering, stemming, tangging dan analyzing.

Untuk mengatasi masalah tersebut maka diperlukan suatu aplikasi yang bisa membantu mempermudah dalam proses pendeteksian kemiripan dokumen teks pada aplikasi android. Dimana aplikasi ini akan menampilkan letak kata, kalimat atau paragraf.

Untuk pendeteksian kemiripan dokumen teks pada aplikasi android maka diperlukan penerapan suatu algoritma, salah satunya adalah algoritma cosine similarity. Algoritma cosine similarity merupakan metode yang digunakan untuk menghitung tingkat kesamaan antar dua buah dokumen.[4].

II. TEORITIS A. Text Mining

Text mining adalah proses menganalisis teks untuk mengekstrak informsi ynag berguna untuk tujuan tertentu. Text mining memiliki tugas yang lebih kompleks karena melibatka data teks yang sifatya tidak terstruktur dan kabur (fuzzy). Text mining merupakan bidang multidisiplin yang melibatkan intampilanational retrieval, analisis teks, ekstraksi informasi, clustering, kategorisasim, visualisasi, teknologi basis data, machine learning, dan data mining. Perbedaan mendasar antara Text mining dan data mining terletak pada sumber data yang digunakan.

Pada data mining, pola-pola diekstrak dari basis data yang terstruktur, sedangkan di Text mining pola-pola diekstra dari data tekstual (natural language). Secara umum, basis data didesain untuk program dengan tjuan melakukan pemproses secara otomatis, sedangkan teks ditulis untuk dibaca langsung oleh manusia.

B. String Matching

String matching adalah proses pencarian semua kemunculan query yang selanjutnya disebut pattern ke dalam string yang lebih panjang (teks). Pattern

(2)

dilambangkan dengan x=x[0..m-1] dan panjangnya adalah m. Teks dilambangkan dengan y=y[0..n-1] dan panjangnya adalah n. Kesua string terdiri dari sekumpula karakter yang disebut alfabet yang dilambangkan dengan ∑ dan mempunyai ukuran Ơ.

Dimana string matching dibagi meenjadi dua, yakni exact matching dan heuristic atau statistical matching.[2].

C. Algoritma Cosine Similarity

Algoritma Cosine Similarity merupakan metode yang digunakan untuk mnghitung tingkat kesamaan (similarity) antar dua buah dokumen. Cosine Similarity dapat diterapkan dalam dua berkas dokumen teks, dimana parameter yang digunakan adalah jumlah kata- kata pada dua dokumen teks yang akan dibandingkan.

Dimana metode yang akan diperhitungkan adalah jarak antar vektor A dan B yang menghasilkan sudut cosine X diantar kedua vektor tersebut, dan nilai sudut cosinus antara dua vektor menentuan kesamaan dua buah objek yang akan dibandingkan dimana nilai terkecil adalah 0 dan nilai terbesar adalah 1. Berikut ini rumus metode perhitungan cosine similarity.[4].

Dimana A-B merupakan dot-product. dot- product merupakan nilai yang mengekspresikan sudut antara dua vektor. dot-product merupakan skalar nilai hasil dari operasi dua vektor yang memiliki jumlah komponen yang sama. Jika vektor A-B memiliki komponen sebanyak n, maka dot-product dapat dihitung dengan rumus berikut :

Dot-product dapat dihitung dengan menjumlahkan product dari masing-masing komponen pada kedua vektor. Jika vektor A dan vektor B merupakan vektor 3 dimensi, maka perhitungan dot-product adaalah sebagai berikut:

Sedangkan merupakan panjang Sedangkan merupakan panjang vektor. Panjang vektor dapat dihitung dengan rumus sebagai berikut :

Perhitungan untuk menentukan nilai persentase kemiripan antar dokumen, maka persentase kemiripan didapat dengan mengalikan nilai Cosine Similarity terhadap 100. Berikut rumus untuk menentukan nilai persentase kemiripan :

Dimana terdapat dua kalimat yang akan dibandingkan menggunakan metode Cosine Similarity.

Kalimat no.1 yaitu, “Komputer membantu pekerjaan manusia menjadi lebih mudah”. kalimat no.2 yaitu,

“Pekerjaan manusia manjadi lebih mudah bila dibantu oleh komputer” berikut contoh

Berdasarkan penjelasan diatas merupakan kata- kata yang menyusun kalimat pertama dan kedua.

Diman Metode cosine similarity menggunakan parameter jumlah kata yang sama dan tidak sama dari kedua kalimat untuk membentuk vektor. Berikut ini contoh vektor yang akan dihasilkan antara lain :

Keterangan:

A: Vektor untuk kalimat pertama B: Vektor untuk kalimat kedua

Tabel 1 Hasil perbandingan metode cosine similarity

III. ANALISA A. Analisa Masalah

Analisa adalah penguraian dari suatu pembahasan, dalam hal ini pembahasan mengenai membuat aplikasi untuk penerapan metode cosine similarity dalam mendeteksi kemiripan dokumen teks yang akan dibuat.

Analisa dokumen merupakan tahapan dimana dilakukannya análisa terhadap dokumen-dokumen apa saja yang diolah dalam sistem atau prosedur sebuah rancangan, dalam hal dokumen yang akan dibahas pada aplikasi string matching adalah berupa file berformat ekstensi (*.Docx).

Solusi dalam masalah yang ada adalah dengan membuat suatu sistem atau alat bantu yang mampu memberikan kemudahan dalam mengingat pada setiap kemiripan dokumen yang sama. Untuk mempermudah pendeteksian kemiripan dokumen teks tersebut perlu seseorang melakukan pencocokan string / terms dengan sebuah smartphone berbasis android dengan

(3)

menerapkan pencarian atau pendeteksian dengan algoritma cosine similarity. Alasan karena teknik string matching cosine similarity merupakan salah satu teknik yang digunakan untuk menghitung tingkat kesamaan antar dua buah dokumen.

B. Penyelesaiyan Algoritma Cosine -Similarity Cosine similarity adalah ukuran kesamaan yang lebih umum digunakan dalam information retrieval dan merupakan ukuran sudut antara vektor dokumen 𝐷𝑏 (titik (ax,bx)) dan 𝐷𝑏 (titik (ay,by)). Tiap vektor tersebut merepresentasikan setiap kata dalam setiap dokumen (teks) yang dibandingkan dan membentuk sebuah segitiga, sehingga dapat diterapkan hukum kosinus untuk menyatakan bahwa.

cos (C) = 𝑎2 + 𝑏2 - 𝑐2 / 2ab dimana:

Dan

Gantilah nilai-nilai tersebut untuk a,b,dan c sehinggan didapatkan :

Ketika dua dokumen identik,sudutnya adalah nol derajat (00) dan kesamaannya adalah satu (1); dan ketika dua dokumen tidak identik sama sekali, sudutnya adalah 90 derajat (900) dan kesamaannya adalah nol (0).

Diketahui terdapat 6 dokumen (D1 s.d. D3) sebagai berikut :

1. D1. Komisi Yudisial dengan Universitas resmi menjalin kerjasama dalam memberantas mafia peradilan.

2. D2. SAR trunojoyo mengadakan DIKLAT mereka di Bumi perkemahan wisata air Terjun Mojokerto.Acara itu dibuka langsung oleh Pembantu Rektor

3. D4. Pemerintah Kabupaten Pamekasan menghentikan sementara program bantuan beasiswa kepada mahasiswa Pamekasan yang kuliah di Universitas Trunojoyo.

Query yang dimasukkan adalah “universitas trunojoyo”.Jadi dokumen yang paling relevan adalah ? Langkah1. Preprocessing terhadap semua (n= 4) dokumen yang terlibat, yaitu Q, D1, D2, dan D3.

Berikut langkah-langkah perhitungan dengan algortima cosine similarity.

Langkah1.

Preprocessing terhadap semua (n= 4) dokumen yang terlibat, yaitu D1, D2

Berikut langkah-langkah perhitungan dengan algortima cosine similarity.

Langkah 1a

Lakukan tokenisasi. Hasilnya dapat di lihat pada tabel 2 berikut :

Langkah 1b

Tentukan bobot untuk setiap term dari 2 dokumen tersebut. Diketahui: n= 2

(4)

Langkah 2 :

Hitung kemiripan vektor [dokumen] query Q dengan setiap dokumen yang ada. Kemiripan antar dokumen dapat menggunakan cosine similarity. Rumusnya adalah sebagai berikut :

Langkah 2a:

Hitung hasil perkalian skalar antara D1 dan D2 dokumen lain. Hasilnya perkalian dari setiap dokumen aka dijumlahkan (sesuai pembilang rumus)

Langkah 2b:

Hitung panjang setiap dokumen, termasuk. Caranya, kuadratkan bobot setiap term dalam setiap dokumen, jumlahkan nilai kuadrat dan terakhir akarkan. Sisi kiri dari tabel di bawah ini mewakili langkah 2a dan sisi kanan memperlihatkan langkah 2b

.

Langkah 2c:

Terapkan rumus cosine similarity. Hitung kemiripan Q dengan D1, D2 dan seterusnya sampai dengan D3.

Cos (D1,D2) = 0.802672/(0.4478*0.8957) = 0.802672/0.401094= 2.001207

Cos (D2,D2) = 1.103674/(0.4478*1.0503) = 1.103674/0.470324 = 2.346625

Cos (Q, D3) = 0.903006/(0.4478*0.8957) = 0.802672/0.401094= 2.001207

Hasil perhitungan tersebut di perlihatkan pada tabel berikut

Langkah ke 3 :

Urutkan hasil perhitungan kemiripan, diperoleh :

Dokumen yang relevan dengan Query “universitas trunojoyo” yaitu D1 dan D3

Jika ketiga dokumen tersebut diserahkan kepada pengguna,maka

Recall = 3/3 x 100 % = 100%

Jika diberikan kepada pengguna ketiga dokumen tersebut, padahal hanya 2 dokumen yang relevan, maka: Presisi = 2/3 x 100 % = 66.66 %.

IV. IMPLEMENTASI

Tampilan program merupakan gambaran pemograman setelah dirancang dengan bahasa Pemograman. Disini program dirancang dengan menggunakan program C#

(C Sharp). Hasil-hasil yang telah dirancang dengan C#

akan di tampilkan seperti berikut ini : 1. Tampilan Form Login

Form login digunakan untuk melakukan authentication terhadap user yang hendak menggunakan suatu aplikasi.

(5)

Gambar 1 Form Login 2. Tampilan form halaman dokumen

Form antar dokumen merupakan halaman yang digunakan untuk daftar dokumen-dokumen.

Gambar 2 Form Tampilan Dokumen 3. Hasil Pengujian Program

Form pendeteksian kemiripan merupakan halaman yang digunakan untuk melakukan proses pendeteksian dengan menggunakan algoritma cosine similarity.

Gambar 4 Hasil Pengujian Program

V. KESIMPULAN

Setelah melakukan penelitian tentang perancangan aplikasi pendeteksian kemiripan dokumen teks maka penulis mengambil kesimpulan sebagai berikut :

1. Bedasarkan penelitian yang di lakukan oleh penulis, algoritma cosine similarity dapat bekerja di dalam aplikasi untuk menghitung tingkat kesaaman antar dua buah dokumen dan memberikan kemudahan kepada pengguna smartphone android dalam melakukan pencarian kemiripan dokumen yang memiliki kesamaan dengan kata dan kalimat yang dimput dan dengan kata yang telah di simpan sebelumnya di dalam database pencarian kemiripan dokumen teks.

2. Perancangan aplikasi pendeteksian kemiripan dokumen teks menggunakan software Eclipse Juno sebagai editor, Software Development Kit (SDK) sebagai platform, sebagai proses atau mesin dari pembuatan aplikasi, serta SQLite sebagai wadah perancangan database. Berdasarkan penelitian penulis software-software pendukung pembuatan aplikasi pendeteksian kemripan dokumen teks di atas telah bekerja dengan baik sehingga tercipta suatu aplikasi pencarian pendeteksian kemiripan dokumen teks.

REFERENCES

[1] H Abdurahman and A R Riswayah, "Aplikasi Pinjaman Pembayaran Secara Kredit Pada BANK Yudha Bhakti,"

Computech & Bisnis, vol. VIII, p. 62, Dec. 2014.

[2] A.Firdaus Ernawati A.Vatresia, "Aplikasi PendeteksianI Kemiripan Pada Dokumen Teks Menggunakan Algoritma Nazief Dan Adriani Dan Metode Cosine Similarity,"

TEKNOOGI Informasi, vol. 10 Nomor 1, April 2014.

[3] R Sarno, Y Anistyasari, and R Fitri, Semantic Search.

Yogyakarta: Andi Yogyakarta, 2012.

[4] A S Rosa and M Shalahuddin, Rekayasa Perangkat Lunak.

Bandung: Informatika, 2011.

[5] H N Lengkong, A A.E Sinsuw, and A S.M Lumenta,

"Perancangan Penunjuk Rute Pada Kendaraan Pribadi Menggunakan Aplikasi Mobile GIS Berbasis Android Yang Terintegrasi Pada Google Maps," Teknik Elektro dan Komputer, p. 20, 2015.

[6] A Sinsuw and X Najoan, "Prototipe Aplikasi Sistem Informasi Akademik pada Perangkat Android," Teknik Elektro dan Komputer, p. II, 2013.

Referensi

Dokumen terkait

Yang bertanda tangan di bawah ini saya, Rifqi Firdaus B., menyatakan bahwa skripsi dengan judul: Analisis Perbandingan Relevansi Nilai Informasi Akuntansi Sebelum dan Setelah

PT. Perkebunan Nusantara III Medan merupakan salah satu pabrik yang bergerak dalam pengolahan Kelapa Sawit menjadi minyak mentah, yang juga memiliki

Pengaruh Perlakuan Fisik dan Variasi Produk Second Grade terhadap Kebocoran dan Sifat Fisik pada Produk Industri Susu dalam Kemasan

Koleksi Perpustakaan Universitas Terbuka... Koleksi Perpustakaan

Selain mengokohkan merk Pondok sebagai salah satu produsen kue Satu yang paling dikenal di Madiun, dengan perancangan ulang produk kue Satu Pondok diberbagai aspek seperti

Pemberdayaan Kawasan Perbatasan melalui Pengelolaan Lingkungan dan Pengembangan Ekonomi Kreatif Berbasis Potensi Lokal Desa Tanjung Sari, Desa Sekanak Raya, Kecamatan

Pada tahapan oksidasi dengan TMNO, selain pembentukan lapisan shell oksida Fe yang terkendali sehingga diperoleh shell oksida Fe yang lebih tipis dan homogen setelah proses

Dari penelitian yang telah dilakukan, dapat diketahui bahwa gaya kepemimpinan yang ada di Head Office PT Marifood adalah gaya kepemimpinan demokratis yang dapat mempengaruhi