BAB 1
PENDAHULUAN
1.1Latar Belakang
Pemanfaatan kecanggihan di jaman globalisasi menjadi salah satu hal yang sangat
penting dalam penggunaan di kehidupan sehari-hari. Pemanfaatan-pemanfaatan
teknologi dalam kehidupan sehari-hari adalah untuk mencari, mengolah, atau
dapat juga menyimpan informasi dengan menggunakan kecanggihan komputer.
Informasi yang diperoleh biasanya berupa dokumen teks. Kemudahan mengakses
informasi dalam berupa dokumen teks bisa menimbulkan sifat manusia yang negatif,
yaitu dengan meniru atau mencontoh hasil karya orang lain melebihi batas normal
tolerir. Jika hanya mencontoh sedikit bagian atau mengutip untuk dijadikan referensi
mungkin tidak begitu masalah. Namun banyak juga kasus tingkat kemiripan dua
dokumen tersebut bisa sama hampir sepenuhnya. Kita dapat mengetahui berapa
tingkat kemiripan antara dua dokumen yang di sinyalir memiliki kesamaan dengan
bantuan suatu sistem.
Untuk mengatasi masalah yang marak tersebut, dibutuhkan aplikasi untuk
mendeteksi tingkat kesamaan suatu dokumen. Pada penelitian ini, menggunakan
algoritma Winnoning dan Porter Stemmer guna mendeteksi berapa persentase tingkat
kemiripan antara dua dokumen. Stemming sendiri merupakan suatu proses untuk
digunakan untuk meningkatkan performa IR dengan cara mentransformasi kata-kata
dalam sebuah dokumen teks ke kata dasarnya. Algoritma Stemming untuk bahasa
yang satu berbeda dengan algoritma stemming untuk bahasa lainnya.
Contoh salah satu Stemming adalah Stemming Porter. Algoritma Porter ditemukan
oleh Martin Porter 1980. Algoritma tersebut digunakan untuk stemming bahasa
inggris, kemudian karena proses stemming bahasa inggris berbeda dengan bahasa
indonesia maka, dikembangkan algoritma porter khusus untuk bahasa
indonesia (Porter Stemmer for Bahasa Indonesia) oleh W.B. Frakes pada tahun 1992.
untuk pendeteksian kesamaan dokumen itu sendiri menggunakan algoritma
Winnowing. Winnowing adalah suatu algoritma yang dipakai untuk melakukan proses
pengecekkan kesamaan suatu kata (document fingerprinting).
Winnowing menggunakan window sebagai metodenya, yaitu pembentukan
window setelah proses hashing.. Nilai hash sendiri merupakan nilai numerik yang
terbentuk dari perhitungan ASCII tiap karakter. Setelah pembentukan window yang
berisi nilai-nilai hash, maka dipilih nilai hash yang paling kecil dari setiap
window. Jika ada lebih dari satu nilai yang paling kecil di proses Windowing,
maka nilai yang terkecil pada window sebelumnya itu dipilih untuk dijadikan
document’s fingerprints. Fingerprints inilah yang akan dijadikan dasar
pembanding antar file-file teks yang telah dimasukkan, sehingga dapat diketahui
1.2Rumusan Masalah
Jurnal mahasiswa pada program studi S1 Ilmu Komputer Fasilkom TI USU yang
memiliki ekstensi (.pdf), akan dicek tingkat kemiripan dari judul antar jurnal,
sehingga didapatkan nilai kemiripan pada setiap jurnal. Setelah itu, dihitung
kemiripan dari isi jurnal yang di indikasikan sama. Sebelum dihitung tingkat
kemiripan, maka teks pada jurnal, akan dilakukan proses stemming, yaitu
penghapusan imbuhan. Teks yang digunakan untuk proses penghitungan tingkat
kemiripan adalah teks yang sudah dilakukan proses stemming. Bahasa pemrograman
yang digunakan adalah PHP dengan menggunakan database MySql .
1.3Batasan Masalah
Yang menjadi batasan masalah dalam penelitian ini ialah;
1. Data digunakan adalah jurnal mahasiswa S1 Ilmu Komputer Fasilkom TI USU
yang berbahasa Indonesia
2. File yang akan di input adalah berekstensi (.pdf) yang tidak di kunci dan bukan
hasil scann.
3. Pengindikasian kemiripan dilihat dari judul jurnal tersebut.
4. Algoritma yang digunakan adalah algoritma Winnowing dan Porter Stemmer.
5. Aplikasi yang dibuat menggunakan Bahasa Pemrograman PHP.
1.4Tujuan Penelitian
Tujuan penelitian ini adalah sebagai berikut:
1. Untuk merancang suatu aplikasi yang dapat memisahkan kalimat dalam bahasa
Indonesia menjadi beberapa suku kata yang sesuai dengan kata dasarnya.
2. Untuk mengimplementasikan algoritma Winnowing dan Stemming Potter dalam
pendeteksian kemiripan dua dokumen.
1.5 Manfaat Penelitian
Manfaat penelitian ini adalah untuk mengetahui sejauh mana kemiripan satu dokumen
dengan dokumen yang lain, dengan cara memisahkan sesuai kata dasarnya. Algoritma
Stemming Potter sendiri untuk memisahkan sesuai suku kata nya. Sehingga dapat
diketahui kata asli nya. Dan Winnowing melakukan proses pengecekkan kesamaan
suatu kata (document fingerprinting). Dengan adanya penelitian seperti ini, diharapkan
dapat mengetahui kecurangan-kecurangan yang terjadi, sehingga para oknum jera dan
tidak ada lagi yang berani atau tega menjiplak hasil karya orang tanpa seijin dari orang
tersebut .
1.6 Metodologi Penelitian
Tahapan yang dilakukan dalam penelitian ini adalah:
2. Perancangan Sistem
Pada tahap ini akan di susun perancangan sistem dengan menerapkan
algoritma Stemming Potter sebagai algoritma stemmer untuk pendeteksian
kemiripan dokumen.
3. Implementasi Sistem
Tahap ini merupakan tahap pengimplementasian sistem yang telah dibangun
ke dalam bahasa pemrograman.
4. Pengujian dan Penganalisaan Sistem
Dalam tahap ini dilakukan pengujian aplikasi yang sudah dibangun.
5. Pembuatan laporan skripsi bertujuan untuk dijadikan sebagai dokumentasi
hasil penelitian.
6. Penyusunan Laporan
7. Menyusun laporan hasil analisis dan perancangan kedalam bentuk format
skripsi.
1.7 Sistematika Penulisan
Sistematika penulisan dalam penyusunan tulisan ini adalah sebagai berikut :
Bab 1 : Pendahuluan
Membahas tentang Latar Belakang, Identifikasi Masalah, Rumusan Masalah, Batasan Masalah, Tujuan Penelitian, Manfaat Penelitian, Metodologi Penelitian dan Sistematika Penulisan.
Membahas tentang teori-teori yang berkaitan dengan information retrieval, natural
language processing, dan sistem penghitung kemiripan file.
Bab 3 : Analisa dan Perancangan
Bab ini mendeskripsikan fase-fase awal dalam pengembangan suatu sistem,
sehingga terdapat gambaran yang jelas terhadap sistem yang akan dibangun.
Bab 4 : Implementasi dan Pengujian
Bab ini akan membahas tentang hasil dari pengimplementasian analisa yang sudah dirancang sebelumnya, sehingga pada bab ini akan ditampilkan perancangan antar muka serta pengujiannya.
Bab 5 : Kesimpulan dan Saran
Bab terakhir akan memuat kesimpulan isi dari keseluruhan uraian bab-bab sebelumnya dan saran-saran dari hasil yang diperoleh dan diharapkan dapat bermanfaat dalam pengembangan selanjutnya.