RANCANG BANGUN APLIKASI PENGKATEGORIAN DOKUMEN DAN
PENGUKURAN TINGKAT SIMILARITAS DOKUMEN BERDASARKAN
KATA KUNCI
Oleh:
BAKHTIAR PUJI SANTOSA
NIM. 10650047
JURUSAN TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS ISLAM NEGERI MAULANA MALIK IBRAHIM MALANG
2014
Perkembangan jaman dan perkembangan jumlah pendidikan manusia terhadap perkembangan teknologi menuntut semakin meningkatnya kebutuhan manusia akan sumber informasi yang dapat dinikmati atau dirasakan secara cepat dan tepat. Dimana sumber informasi saat ini telah ditangani oleh tekhnologi. Karena itu, perlu adanya inovasi yang mampu memberikan kemudahan bagi manusia untuk mengakses informasi yang tersedia. Sebuah dokumen dapat dengan mudah di kategorikan secara manual oleh manusia, tetapi jika dilakukan secara terkomputerisasi maka akan memberikan waktu yang optimal serta kemudahan bagi penggunanya. Begitu juga dengan tingkat kemiripan atau similaritas sebuah dokumen memiliki tingkat kemiripan dengan dokumen yang lain atau tidak. untuk itu pada penelitian ini akan dibuat sebuah tools yang dapat mengkategorikan dokumen dan mencari tingkat nilai similaritas antar dokumen secara terkomputerisasi.
Dalampenelitian ini teknik yang digunakan untuk memecahkan masalah diatas adalah dengan menggunakan teknik text mining untuk pengkategorian dokumen penulisan ilmiah. Sedangkan untuk mencari nilai similaritas suatu dokumen dengan dokumen lainnya menggunakan kata kunci yang didapat dari hasil pengakategorian dokumen, dan algoritma yang digunakan adalah algoritma TF/IDF (Term Frequency –Inversed Document Frequency) dan Algoritma Vector Space Model.
Dengan penelitian ini diharapkan proses pengkategorian dokumen secara terkomputerisasi, hasilnya dapat sesuai dengan pengkategorian secara manual. Dan pengukuran tingkat similaritas dokumen dapat menunjukan seberapa besar nilai similaritas dokumen dengan dokumen lainnya.
BAB I
PENDAHULUAN
1.1. Latar belakang
Perkembangan jaman dan perkembangan jumlah pendidikan manusia terhadap perkembangan teknologi menuntut semakin meningkatnya kebutuhan manusia akan sumber informasi yang dapat dinikmati atau dirasakan secara cepat dan tepat. Dimana sumber informasi saat ini telah ditangani oleh tekhnologi. Karena itu, perlu adanya inovasi yang mampu memberikan kemudahan bagi manusia untuk mengakses informasi yang tersedia. Dengan adanya inovasi tersebut diharapkan pengguna dapat mencari sebuah informasi yang dibutuhkan dengan mudah dan cepat menurut kategori yang telah tersedia.
Sebuah dokumen dapat dengan mudah di kategorikan secara manual oleh manusia, tetapi jika dilakukan secara terkomputerisasi maka akan memberikan waktu yang optimal serta kemudahan bagi penggunanya. Begitu juga dengan tingkat kemiripan atau similaritas sebuah dokumen memiliki tingkat kemiripan dengan dokumen yang lain atau tidak. Untuk itu penelitian ini diharapkan bisa memudahkan kinerja serta kemudahan pengguna dalam pengelompokan atau pengkategorian serta mengetahui tingkat similaritas suatu dokumen tersebut.
Text mining adalah salah satu proses pengambilan data berupa text dari sebuah sumber dalam hal ini sumbernya adalah dokumen. Dengan Text mining dapat dicari kata kunci yang mewakili isi dari sebuah dokumen tersebut lalu di analisa seta dilakukan pencocokan antara isi dari dokumen dengan kata kunci di dalam database untuk menentukan ataupun mengklasifikasikan kategori suatu dokumen. Sedangkan proses pengukuran tingkat kesamaan antara dokumen dilakukan dengan membandingkan suatu kata kunci dengan dokumen yang lainnya. Kata kunci yang didapat dari proses ekstraksi dokumen pada proses pemilahan kategori dokumen.
Dalam penelitian yang akan dilaksanakan, peneliti akan membuat sebuah system pengklasifikasian suatu dokumen dengan metode TF-IDR (Term Frequensy – Inversed Document Frequency).
Bagaimana membangun sebuah aplikasi pengkategorian dokumen dan pengukuran tingkat similaritas dokumen berdasarkan kata kunci menggunakan metode TF-IDR (Tern Frequensy – Inversed Document Frequensy)?
1.3. Tujuan Penelitian
Tujuan dari penelitian ini adalah bagaimana membangun sebuah aplikasi pengkategorian dokumen dan pengukuran tingkat similaritas dari suatu dokumen berdasarkan kata kunci?
1.4. Manfaat Penelitian
Manfaat pembuatan aplikasi ini adalah memudahkan pencarian informasi dalam suatu dokumen, mencari dokumen itu sendiri, atau mencari kata kunci yang menggambarkan suatu dokumen dalam system temu balik informasi. Untuk dapat memberikan rekomendasi kepada pengguna, maka dirancanglah sebuah aplikasi pengkategorian dokumen dan pengukuran tingkat similaritas dokumen berdasarkan kata kunci yang dapat memberikan hasil pencarian yang paling akurat dan lebih optimal berdasarkan masukan pengguna. Sehingga system dapat memberikan rekomendasi yang baik.
BAB II
TINJAUAN PUSTAKA
2.1. TINJAUAN PUSTAKA
kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan antar dokumen tersebut.
Didalam proses text mining ada beberapa tahapan umum diantaranya tokenizing, filtering, stemming, tagging, dan analyzing. Tahap tokenizing adalah tahap pemotongan string input berdasarkan kata yang menyusunnya. Setelah teks input dilakukan, maka tahap selanjutnya dilakukan tahap filtering. Yaitu tahap mengambil kata - kata penting dari hasil token. Tahap selanjutnya adalah tahap stemming adalah tahap mencari dasar kata dari tiap kata hasil filtering. Setiap kata yang memiliki imbuhan seperti imbuhan awalan dan akhiran maka akan diambil kata dasarnya. Tahap berikutnya adalah Tahap tagging yang merupakan tahap mencari bentuk awal dari tiap kata lampau atau kata hasil stemming. Tahap ini tidak dipakai untuk teks bahasa Indonesia dikarenakan bahasa Indonesia tidak memiliki bentuk lampau. Tahap yang terakhir adalah tahap analyzing yaitu tahap penentuan seberapa jauh keterhubungan antar kata-kata antar dokumen yang ada. Adapun untuk melakukan analisa pada tahap analyzing kami menggunakan algoritma TF/IDF (Term Frequency –Inversed Document Frequency) dan Algoritma Vector Space Model.
BAB III
METODOLOGI PENELITIAN
3.1. Rancangan Penelitian
Kesimpulan
Pendekatan yang digunakan dalam penelitian ini adalah pendekatan kuantitatif dan kualitatif. Pendekatan kuantitatif dilakukan terlebih dahulu, kemudian pendekatan kualitatif. Pendekatan kuantitatif digunakan untuk memperoleh data mengenai penelitian yang tak mungkin dapat dijelaskan dengan menggunakan pendekatan secara kualitatif. Sebaliknya, pendekatan kualitatif digunakan di samping untuk mendeskripsikan (baik secara sinkomparatif maupun diakomparatif).
3.2. Sumber Data
Adapun sumber data yang kami peroleh untuk di jadikan sebuah acuan dalam meningkatkan penelitian yang kami lakukan adalah dengan tekhnik mewancarai informan dengan cara Tanya jawab bertatap muka antara informan dengan wawancara. Adapun informan disini adalah salah satu alumnus dari Universitas Uin Maulana Malik Ibrahim Malang Jurusan Tekhnik Informatika yang pernah mengambil dan meneliti “pengklasifikasian halaman web berdasarkan content menggunakan metode cosine similarity”.
3.3. Procedure Penelitian
Dalam penyusunan laporan penelitian ini, prosedur penelian masalah yang digunakan adalah sebagai berikut:
3.4. Instrumen Penelitian
Adapun teknik pengumpulan informasi yang dipilih peneliti adalah 1. Pengamatan/Observasi (Observation), dan
2. Wawancara (interview)
3.5. Metodologi Analis Data
Teknik yang digunakan untuk memecahkan masalah diatas adalah dengan menggunakan teknik text mining untuk pengkategorian suatu dokumen. Sedangkan untuk mencari nilai similaritas suatu dokumen dengan dokumen lainnya menggunakan kata kunci yang didapat dari hasil pengakategorian dokumen, dan algoritma yang digunakan adalah algoritma TF/IDF (Term Frequency –Inversed Document Frequency).
3.6. Daftar Pustaka Risa, BAB 11 Text
Mining,http://student.eepisits.edu/~risa/files/DataMining/chapter11.pdf, 24 april 2014
Ahmad kurnia, SPd,MM Instrumen penelitian,