Fakultas Ilmu Komputer
Universitas Brawijaya 5832
Sistem Rekomendasi Dosen Pembimbing Berdasarkan Dokumen Judul Skripsi di Bidang Komputasi Cerdas Menggunakan Metode BM25
Anak Agung Bagus Arisetiawan1, Indriati2, Dian Eka Ratnawati3
Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya Email: 1[email protected], 2[email protected], 3[email protected]
Abstrak
Di dalam text mining terdapat suatu proses untuk melakukan temu kembali informasi atau information retrieval. Permasalahan yang berkaitan tentang temu kembali informasi ditemukan pada perguruan tinggi khususnya di Fakultas Ilmu Komputer Universitas Brawijaya (FILKOM UB). Permasalahannya adalah pemilihan dosen pembimbing skripsi untuk program studi S1 Teknik Informatika FILKOM UB pada keminatan Komputasi Cerdas masih dilakukan secara manual. Penentuan dosen pembimbing hanya mengandalkan pengetahuan personal terkait dengan spesialisasi dosen yang diperlukan untuk membimbing selama pengerjaan skripsi. Permasalahan tersebut dapat diselesaikan melalui sistem rekomendasi berdasarkan information retrieval menggunakan metode BM25. Proses yang dilakukan adalah preprocessing dokumen, perhitungan score BM25 pada setiap dokumen, dan mengambil hasil scoring BM25 tertinggi sebanyak nilai k. Pada penelitian ini dilakukan pengujian sebanyak 3 kali. Setiap pengujian menggunakan data testing yang sama sejumlah 20 dokumen. Hasil rata-rata dari setiap pengujian memperoleh hasil rekomendasi terbaik yaitu pada nilai k=3, dengan nilai precision @k sebesar 0,87. Semakin tinggi nilai k yang digunakan dapat mempengaruhi hasil rekomendasi menjadi kurang maksimal karena semakin banyak dokumen tidak relevan yang ikut terhitung.
Kata kunci: rekomendasi, skripsi, information retrieval, text mining, BM25 Abstract
In the text mining there is a process for information retrieval. Problems related to information retrieval are found in universities, especially in the Faculty of Computer Science, University of Brawijaya (FILKOM UB). The problem is the selection of the thesis supervisor for the FILKOM UB Informatics Engineering S1 study program in the interest of Smart Computing is still done manually. Determination of supervisors only relies on personal knowledge related to the specialization of lecturers needed to guide during the execution of the thesis. These problems can be solved through a recommendation system based on information retrieval using the BM25 method. The process carried out is document preprocessing, calculation of BM25 score in each document, and taking the highest BM25 scoring result as much as k. In this study three tests were carried out. Each test uses the same testing data of 20 documents. The average results of each test obtained the best recommendation results, namely at the value k=3, with a value of precision @k of 0.87. The higher the value of k used can affect the recommendation results to be less optimal because more and more irrelevant documents are counted.
Keywords: recommendations, thesis, information retrieval, text mining, BM25
1. PENDAHULUAN
Program sarjana merupakan pendidikan akademik yang di tempuh dalam perguruan tinggi atau sederajat yang memiliki tujuan untuk memperoleh gelar sarjana, sehingga dapat mengamalkan Ilmu Pengetahuan dan Teknologi yang telah dipelajari melalui penalaran ilmiah.
Sebagai salah satu syarat untuk meraih gelar sarjana, maka setiap mahasiswa harus menyelesaikan skripsi. Skripsi merupakan karya
ilmiah yang dihasilkan melalui pembahasan suatu permasalahan yang berkaitan dengan ilmu program studi yang ditempuh dengan melakukan suatu penelitian.
Dalam menyusun skripsi, mahasiswa sangat membutuhkan adanya dosen pembimbing, karena dosen pembimbing nantinya akan membantu mahasiswa untuk berkonsultasi dalam menyelesaikan skripsi yang akan dikerjakan. Mahasiswa memerlukan dosen pembimbing yang menguasai bidang sesuai dengan topik skripsi untuk mendapatkan hasil
terbaik.
Pemilihan dosen pembimbing skripsi untuk program studi S1 Teknik Informatika FILKOM Universitas Brawijaya khususnya pada keminatan Komputasi Cerdas masih dilakukan secara manual. Penentuan dosen pembimbing hanya mengandalkan pengetahuan personal terkait dengan spesialisasi dosen yang diperlukan untuk membimbing selama pengerjaan skripsi. Maka dari itu, diperlukan adanya analisis terkait dengan judul skripsi yang diajukan oleh mahasiswa untuk mendapatkan dosen pembimbing yang sesuai dengan topik skripsi yang dikerjakan.
Pada dokumen skripsi, terdapat bagian judul. Judul merupakan salah satu bagian terpenting yang terdapat di dalam dokumen skripsi. Data teks berupa dokumen judul tersebut dapat dijadikan acuan dalam memberikan rekomendasi dosen pembimbing yang sesuai dengan topik yang dikerjakan. Sehingga diperlukan metode untuk melakukan pembobotan (Term Weighting) dan perangkingan dokumen sesuai dengan tingkat relevansinya.
Di dalam text mining terdapat beberapa metode untuk pembobotan kata, diantaranya adalah metode BM25. Metode BM25 merupakan formula terbaik dari kelas best match. Proses pembobotan menggunakan BM25 dikatakan memiliki performa yang lebih baik dibandingan dengan metode pembobotan TF- IDF (Yang, et al., 2012). Selain itu, metode BM25 juga memiliki kinerja yang efektif dan memiliki ketepatan yang baik untuk pemeringkatan dokumen berdasarkan query yang digunakan (Bintana, et al., 2012).
Berdasarkan permasalahan yang telah didapatkan, penelitian kali ini berfokus untuk memberikan rekomendasi dosen pembimbing skripsi berdasarkan penelitian di bidang Komputasi Cerdas menggunakan metode BM25.
Diharapkan sistem ini dapat menghasilkan performa yang baik sehingga dapat digunakan untuk menangani permasalahan yang dihadapi oleh mahasiswa dalam menentukan dosen pembimbing skripsi.
2. DASAR TEORI 2.1 Text Mining
Text mining merupakan penggalian data dari teks yang diperoleh dalam suatu dokumen
serta mencari kumpulan kata yang dapat dijadikan sebagai perwakilan dokumen untuk menganalisa keterhubungan antar dokumen.
Proses penganalisasian teks berguna untuk mendapatkan informasi yang bermanfaat untuk tujuan tertentu. Melalui identifikasi dan eksploitasi dokumen pada text mining, informasi yang berguna pada sumber data dapat diperoleh.
Pada text mining, data yang digunakan bersumber dari kumpulan teks dengan format yang tidak terstruktur. Proses text mining membutuhkan tahap awal yaitu text preprocessing yang berfungsi untuk mengubah data teks agar menjadi lebih terstruktur (Feldman, et al., 2007).
2.2 Preprocessing
Tahap preprocessing bertujuan untuk membuat representasi dokumen menjadi lebih rapi karena algoritme pada mesin pencarian tidak menerjemahkan dokumen teks secara langsung. Tujuan dari penterjemahan tersebut untuk menjadikan data numerik agar lebih mudah diproses pada komputer. Data numerik nantinya berguna untuk perhitungan pada tahap selanjutnya. Terdapat beberapa tahapan proses pada text preprocessing, diantaranya Case Folding, Tokenizing, Filtering, dan Stemming (Sebastiani, 2002).
2.2.1 Case Folding
Case folding adalah tahap pemrosesan dokumen yang berfungsi untuk pengubahan setiap huruf yang terdapat dalam setiap dokumen menjadi korpus huruf kecil atau non capital (Baldi, et al., 2003).
2.2.2 Tokenizing
Tokenizing adalah tahap pemrosesan dokumen yang berfungsi untuk mengubah kalimat menjadi potongan kata sesuai dengan spasi yang memisahkan (Baldi, et al., 2003).
2.2.3 Filtering
Filtering adalah tahap pemrosesan dokumen untuk mengambil kata (token) yang dapat digunakan dalam merepresentasikan dokumen. Dalam tahap ini diperlukan penghapusan stopword. Stopword berisi kumpulan kata yang dianggap tidak deskriptif dan dapat dihilangkan menggunakan pendekatan bag-of-words (Garcia, 2005).
2.2.4 Stemming
Stemming adalah tahap pemrosesan
dokumen yang berfungsi untuk mengubah setiap kata menjadi bentuk kata dasar dengan menghapus imbuhan kata (affixes), awalan kata (prefexes), sisipan kata (infixes), akhiran (suffixes), serta kombinasi awalan kata dan akhiran kata (confixes) yang terdapat pada kumpulan kata tersebut (Putri, 2009).
2.3 BM25
Proses yang terdapat pada text mining adalah pembobotan serta pemeringkatan dokumen. Salah satu metode yang dapat digunakan adalah metode BM25. Metode BM25 merupakan metode yang berfungsi dalam proses pemeringkatan set dokumen berdasarkan term query yang muncul pada setiap koleksi dokumen. Perhitungan BM25 akan dijelaskan pada Persamaan (1) berikut.
𝐵𝑀25 = ∑ 𝑖𝑑𝑓(𝑞𝑖)
|𝑞|
𝑖=1
. 𝑡𝑓(𝑞1,𝑑) .(𝑘1+ 1) 𝑡𝑓(𝑞1,𝑑)+ 𝑘1 . (1 − 𝑏 + 𝑏. |𝑑|
𝑑𝑙𝑎𝑣𝑒) (1)
Keterangan:
𝑖𝑑𝑓(𝑞𝑖) : nilai invers document frequency pada term query i.
𝑡𝑓(𝑞1,𝑑) : jumlah frekuensi term query i pada koleksi dokumen.
𝑘1 : 1,2 ≤ 𝑘1≤ 2,0.
𝑏 : 0,5 ≤ 𝑏 ≤ 0,8.
𝑑𝑙𝑎𝑣𝑒 : rata-rata panjang semua koleksi dokumen .
|𝑑| : panjang koleksi dokumen.
Untuk mendapatkan nilai IDF pada Persamaan (1), akan ditunjukan pada Persamaan (2) berikut.
𝐼𝐷𝐹(𝑡𝑖)= log (𝑁 − 𝑑𝑓(𝑡𝑖)+ 0,5
𝑑𝑓(𝑡𝑖)+ 0,5 ) (2) Keterangan:
𝑁 : jumlah seluruh koleksi dokumen.
𝑑𝑓(𝑞𝑖) : jumlah koleksi dokumen yang memiliki term query i.
𝐼𝐷𝐹(𝑞𝑖) : nilai invers document frequency pada term query i.
2.4 Evaluasi
Tujuan dari proses evaluasi adalah untuk mendapatkan ukuran terkait seberapa dekat angka dari hasil pengukuran dengan angka sebenarnya. Proses evaluasi yang digunakan
untuk temu kembali informasi dokumen dengan hasil pemeringkatan yaitu menggunakan precision @k.
2.4.1 Precision @K
Evaluasi menggunakan precision @k digunakan untuk perhitungan nilai precision berdasarkan peringkat dokumen teratas sebanyak nilai k yang digunakan, serta dokumen yang memiliki peringkat dibawah nilai k dapat diabaikan (Frinta, 2018). Perhitungan precision
@k akan dijelaskan pada persamaan (3) berikut.
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 @𝐾 = 𝑟
𝐾 (3)
Keterangan:
𝑟 : jumlah dokumen relevan pada dokumen teratas sebanyak nilai k.
𝐾 : nilai threshold peringkat.
3. METODOLOGI 3.1 Alur Algoritme
Pada penelitian ini dilakukan pemrosesan terhadap data training dan data testing. Alur algoritme berguna untuk memberi gambaran secara umum mengenai proses pada sistem rekomendasi yang diciptakan. Alur algoritme akan ditunjukan pada Gambar 1 dan berikut.
Gambar 1. Alur Data Training Mulai
Input: data latih
Preprocessing
Output: hasil training
Selesai
Gambar 2. Alur Data Testing
Tahap paling awal adalah mengumpulkan seluruh data yang akan digunakan, kemudian dilakukan preprocessing dokumen. Tahapan preprocessing meliputi case folding, tokenizing, filtering, dan stemming. Setelah melalui tahap preprocessing, selanjutnya menghitung nilai untuk TF, DF, dan IDF dari masing-masing term. Nilai tersebut nantinya digunakan untuk menghitung scoring BM25 pada setiap dokumen training sesuai dokumen testing yang digunakan. Setelah diperoleh hasil score BM25 untuk setiap dokumen training, kemudian dilakukan pemeringkatan hasil scoring dengan nilai terbesar. Proses rekomendasi dilakukan dengan mengambil score dokumen tertinggi sejumlah nilai k yang digunakan.
4. PENGUJIAN DAN ANALISIS 3.1 Hasil Pengujian Precision @K
Untuk dapat mengetahui hasil precision @k pada sistem rekomendasi yang telah diciptakan, maka dilakukan proses pengujian terhadap seluruh data. Pengujian dilakukan sebanyak tiga kali dengan menggunakan 20 data uji yang sama pada setiap pengujiannya. Pengujian pertama dilakukan dengan 400 data latih, kedua dilakukan dengan 500 data latih, dan ketiga dilakukan dengan 600 data latih. Hasil nilai rata- rata perhitungan precision @k berdasarkan nilai k akan ditampilkan pada Tabel 1 dan Gambar 3 berikut.
Tabel 1. Nilai Rata-rata Precision @K
k Pengujian 1 Pengujian 2 Pengujian 3
3 0.85 0.87 0.83
5 0.83 0.84 0.85
7 0.83 0.84 0.83
9 0.84 0.83 0.83
11 0.81 0.82 0.82
Gambar 3. Nilai Rata-rata Precision @K
Dari keseluruhan hasil evaluasi, diketahui jika faktor yang paling mempengaruhi hasil rekomendasi dengan metode BM25 adalah faktor nilai k dan jumlah data latih yang digunakan. Tinggi rendahnya nilai k yang digunakan berpengaruh terhadap hasil rekomendasi. Pada nilai k=3 sampai dengan nilai k=11, nilai precision @k mengalami fluktuatif dari setiap pengujian dengan rentang nilai yang sangat rendah.
Berdasarkan grafik yang ditampilkan pada Gambar 3, diperoleh hasil nilai rata-rata precision @k tertinggi terdapat pada k=3 dengan nilai 0,87 dan nilai rata-rata precision @k terendah terdapat pada k=11 dengan nilai 0.81.
Nilai tertinggi dalam pengujian precision
@k adalah 1. Dengan nilai precision @k= 1, berarti seluruh hasil rekomendasi relevan terhadap query yang digunakan. Pada setiap hasil pengujian sistem ini, diperoleh nilai precision @k= 1 terbanyak terdapat saat nilai k=3. Pada hasil pengujian 1, diperoleh sebanyak 14 query mendapatkan nilai precision @k= 1.
Pada hasil pengujian 2, diperoleh sebanyak 15 query mendapatkan nilai precision @k= 1. Pada hasil pengujian 3, diperoleh sebanyak 13 query mendapatkan nilai precision @k= 1.
Dengan hasil tersebut, rekomendasi dosen dengan menggunakan sistem dapat memberikan hasil rekomendasi yang sesuai berdasarkan spesialisasi keahlian dosen paling baik yaitu
0,8 0,81 0,82 0,83 0,84 0,85 0,86 0,87 0,88
K=3 K=5 K=7 K=9 K=11
nilai precision@k
nilai threshold
Pengujian 1 Pengujian 2 Pengujian 3
Mulai
Input: data uji, hasil
training
Preprocessing
Output: hasil rekomendasi
Selesai BM25
dengan 3 nama dosen teratas.
5. KESIMPULAN
Berdasarkan analisis hasil yang telah dilakukan, dapat ditentukan jika metode BM25 dapat diterapkan pada penelitian sistem rekomendasi dosen pembimbing berdasarkan dokumen judul skripsi di bidang komputasi cerdas.
Tinggi rendahnya nilai k yang digunakan sangat mempengaruhi hasil rekomendasi pada penelitian ini. Dari setiap pengujian, rata-rata nilai precision @k mengalami naik turun.
Semakin kecil nilai k maka semakin baik hasil relevansi dokumen terhadap query.
Jumlah data latih dan kesesuainnya dengan masing-masing label yang digunakan sangat mempengaruhi hasil sistem rekomendasi ini.
Hasil rekomendasi sistem terbaik terdapat pada k=3 dengan nilai precision @k sebesar 0,87. Dengan menggunakan k=3, diperoleh 3 hasil rekomendasi teratas yang sesuai dengan keahlian masing-masing dosen.
6. DAFTAR PUSTAKA
Baldi, P. P., Frasconi, P. & Smyth. 2003.
Modeling The Internet and The Web:
Probabilistic Methods and Algorithms.
England: John Wiley & son Publisher.
Bintana, R. R., Agustian, S., 2012. Penerapan Model OKAPI BM25 Pada Sistem
Temu Kembali Informasi. Pekanbaru:
Seminar Nasional Teknolosgi Informasi Komunikasi dan Industri (SNTKI) 4.
Feldman, R., Sanger, J., 2007. The Text Mining Handbook Advanced Approach in Analyzing Unstructured Data. New York: Cambridge University Press publisher.
Frinta, K., 2018. Pencarian Berita Berbahasa Indonesia Menggunakan Metode BM25.
JPTIIK, Volume 3(3), pp. 2589-2595.
Garcia, D. E., 2006. The Classic Vector Space Model (Description, Advantages and Limitations of the Classic Vector Space Model). http://www.miislita.com/.
Diakses tanggal 10 september 2018.
Putri, A. Y., 2009. Proses Tahap Stemming.
http://digilib.ittelkom.ac.id/index.php?
option=com_content&view=article&id
=574:stemming&catid=20:informatika
&Itemid=14. Diakses tanggal 10 september 2018.
Sebastiani, F., 2002. Machine Learning in Automated Text Categorization. ACM Computing Surveys, Volume 34(1), pp.
1-47.
Yang, C., Du, H., Wu, S. dan Chen, I., 2012.
Duplication Detection for Software Bug Reports based on BM25 Term Weighting.