Sistem Aplikasi Penilaian Jawaban Essay Test Calon Karyawan PT Siloam Hospitals TB Simatupang Menggunakan Algoritma Text Mining TF-IDF Berbasis Web

(1)

Sistem Aplikasi Penilaian Jawaban Essay Test Calon Karyawan PT Siloam Hospitals TB Simatupang Menggunakan Algoritma Text

Mining TF-IDF Berbasis Web

Agung Daniel Sipayung, Fauziah^*, Nurhayati

Fakultas Teknologi Komunikasi dan Informatika, Teknik Informatika, Universitas Nasional, Jakarta Selatan, Indonesia Email: ¹[email protected], ^2,*[email protected], ³[email protected]

Email Penulis Korespondensi: [email protected]

Abstrak–Komputer merupakan teknologi canggih yang banyak digunakan untuk saat ini, banyak pekerjaan yang dulunya menggunakan proses manual, sekarang telah diganti menjadi sistem terkomputerisasi, salah satu contohnya adalah proses penilaian jawaban essay test secara online, proses penilaian jawaban essay test yang saat ini penulis pergunakan yaitu dengan menggunakan algoritma text mining Tf-Idf, yang mana sistem aplikasi ini merupakan suatu pemodelan untuk melakukan proses penilaian jawaban essay test untuk calon karyawan di PT. Siloam Hospitals TB Simatupang. Tujuannya untuk mempercepat proses penilaian jawaban essay test calon karyawan di PT. Siloam Hospitals TB Simatupang.agar menjadikan sama antara frekuensi beberapa kata yang ada di dalam kalimat yang dapat menggunakan kemiripan Term Frequency, TF adalah keadaan yang dapat memastikan mutu dari kata yang berdasarkan atas banyaknya frekuensi kata pada setiap berkas, diambil 4 contoh soal essai, di dapat hasilnya jika calon karyawan menyelesaikan soal secara tepat dan hasil persamaannya didapat 1, berarti hasil yang didapat oleh calon karyawan adalah 100 : 4 = 25, Dari hasil penelitian bahwa sistem penilaian essay test menggunakan metode text mining sudah bekerja dengan baik dalam penerapan percobaan ujian essai memperlihatkan kecocokan penilaian pada aplikasi dengan yang nilai dibuat oleh HRD dengan average 73,51%.

Kata Kunci: Komputer, Text mining, Tf-Idf, Algoritma, Sistem Aplikasi

Abstract–The computer is a sophisticated technology that is widely used for now, a lot of work that used to use manual processes, has now been replaced by a computerized system, one example is the process of evaluating answers to essay tests online, the process of evaluating answers to essay tests that the authors currently use is by using the Tf-Idf text mining algorithm, which application system is a model for evaluating the essay test answers for prospective employees at PT. Siloam Hospitals TB Simatupang. The aim is to accelerate the process of evaluating essay test answers to prospective employees at PT. Siloam Hospitals TB Simatupang. In order to make the same frequency between several words in the sentence that can be used Term Frequency equation, Term Frequency is a factor that can determine word weight based on the number of word frequencies in each document, 4 sample essay questions are taken , the results can be if the prospective employee correctly solved the problem and the result or the value of the equation is 1, the value obtained by the prospective employee is 100: 4 = 25. From the results of the study that the essay test assessment system using text mining methods has worked well in the application Essay examination trials show the suitability of the assessment in the application with the scores made by HRD with an average of 73.51%.

Keywords: Computers, Text mining, Tf-Idf, Algorithms, Application Systems

1. PENDAHULUAN

Sebuah aplikasi dibuat dengan bahasa pemerograman yang bertujuan untuk membantu memecahkan masalah dengan aturan yang sesuai dengan bahasa pemerograman itu sendiri yang nantinya bisa mengolah data [1]. Ujian dengan metode essai merupakan bentuk evaluasi dengan proses suatu jawaban tidak tersedia, peserta wajib menyelesaikan secara menjabarkan perkataan [2]. Siloam Hospitals atau Rumah Sakit Siloam merupakan perusahaan yang bergerak dibidang kesehatan yaitu khususnya dalam bidang usaha Rumah Sakit. Untuk melakukan proses penerimaan calon karyawan ini. Pihak Rumah Sakit Siloam melakukan proses ujian untuk para calon karyawan, salah satu ujian yang diterapkan adalah ujian dengan menggunakan metode essay test.

Namun pihak manajemen mengeluhkan mengenai proses penilaian atas jawaban essay test calon karyawan yang cukup lambat dan perlu adanya aplikasi yang terkomputerisasi untuk menangani proses ujian essay test dan penilaian ini. agar dapat berjalan secara efektif dan efisien, serta meminimalisir penggunaan dari kertas. Dengan melihat permasalahan yang dihadapi Rumah Sakit Siloam khususnya penilaian ujian essay test ini, maka penulis ingin membuat suatu sistem ujian essay test yang berbasis web di Rumah Sakit Siloam.

Beberapa metode yang bisa digunakan untuk menyelesaikan masalah tersebut, seperti: Metode lainnya seperti Latent Semantic Analysis (LSA) yang pada awalnya digunakan untuk melakukan indexing pada sistem temu balik informasi[3], kemudian metode ini dikembangkan lagi dalam sebuah system yang bernama SIMPLE atau system penilaian esai otomatis untuk menilai ujian dalam bahasa Indonesia dimana setiap kalimat yang terdapat dalam setiap jawaban diekstraksi dan direpresentasikan kedalam bentuk matematik. Penulis menggunakan Metode Text Mining dengan TF-IDF yang merupakan metode untuk menghitung bobot setiap kata yang paling umum digunakan pada information retrieval. Metode ini juga terkenal efisien, mudah dan memiliki hasil yang akurat. Metode ini akan menghitung nilai Term Frequency (TF) dan Inverse Document Frequency (IDF) pada setiap token (kata) di setiap dokumen dalam korpus.

Menurut Jiawei (2012) text mining adalah suatu bidang yang inter-disiplin yang mengacu pada perolehan informasi data mining [4]. Dengan menggunakan metode Term Frequence ini merupakan frequency kehadiran

(2)

sebuah kata (term) dalam dokumen. maka, term frequence memiliki value yang beragam dari sebuah dokumen ke berkas lainnya bergantung pada kualitas kepentingan setiap term pada setiap dokumen. Semakin rutin setiap term terlihat pada suatu dokumen, term tersebut akan mendapatkan nilai tf yang lebih banyak daripada term-term lain yang tidak banyak muncul.Ini menunjukkan bahwa setiap term yang muncul di dokumen dalam koleksi tidak berguna untuk memisahkan dokumen berdasarkan topik tertentu.

Aplikasi perhitungan jawaban ujian essay test calon karyawan berbasis web dengan menggunakan algoritma text mining TF-Idf di PT. Siloam Hospital TB Simatupang dirancang dan dibuat dengan bahasa pemerograman PHP serta menggunakan database MySql[5]. Manfaat yang diharapkan dalam penulisan ini adalah Dapat mengidentifikasi masalah yang ada pada proses penilaian jawaban essay test calon karyawan di PT.

Siloam Hospital TB Simatupang, dengan tujuan menerapkan web menggunakan algoritma text minning tf-idf cosine similiarity guna untuk mengklasifikasikan dokumen secara otomatis yang dapat dipergunakan untuk mencari perhitungan penilaian jawaban ujian essy text dari calon karyawan, dengan objek penelitian ini adalah dokumen jawaban soal ujian tes calon karyawan berbentuk elektronik, dokumen jawaban calaon karyawan akan diklasifikasikan ke dalam beberapa kategori secara otomatis. Sehingga diharapkan sistem yang dihasilkan pada penelitian ini dapat membantu mempercepat penilaian HRD terhadap hasil calon karyawan.

2. METODOLOGI PENELITIAN

Pada pengembangan sistem yang saya buat ini menggunakan metode kuantitatif, yaitu metode yang memfokuskan kepada hasil dari sistem aplikasi yang dihasilkan nantinya, yang mana sistem aplikasi yang dibuat adalah Sistem Aplikasi Penilaian Jawaban Essay Test Calon Karyawan PT. Siloam Hospitals TB.

Simatupang Menggunakan Algoritma Text Mining dengan metode Tf-Idf Berbasis Web,dalam text mining data teks akan di proses menjadi data numerik agar data teks dapat diproses lebih lanjut, sehingga dalam text mining ada istilah preprocessing data, sebagai proses pendahuluan yang diterapkan terhadap data teks yang bertujuan untuk menghasilkan data numerik, seperti flowchart dibawah ini :

Gambar 1. Flowchart Preprocessing Penilaian

Dalam proses gambar diatas dapat dijelaskan Preprocessing Penilaian nya seperti dibawah ini :

1. Tokenizing adalah proses memecah dokumen menjadi kumpulan kata. Tokenizing dapat dilakukan dengan menghilangkan tanda baca dan memisahkan per spasi, tahapan ini juga menghilangkan karakter tertentu dan mengubah semua token ke huruf kecil.

2. Filtering merupakan proses penghilangan kata tidak penting pada deskripsi melalui pengecekan kata-kata hasil parsing deskripsi apakah termasuk di dalam daftar kata tidak penting (stoplist) atau tidak. Jika termasuk di dalam stoplist maka kata-kata tersebut akan di-remove dari deskripsi sehingga kata-kata yang tersisa di dalam deskripsi dianggap sebagai kata-kata penting atau keywords.

3. Stemming merupakan proses penghilangan prefix dan suffix dari kata untuk mendapatkan kata dasar.

Efektifitas algoritma stemming dapat diukur berdasarkan beberapa parameter, seperti proses, keakuratan, dan kesalahan.

4. Kemudian tahap preprocessing maka data akan disimpan dalam memori sementara dan nantinya akan diproses lebih lanjut ke dalam tahap analyzing menggunakan pembobotan TF-IDF dan klasifikasi dengan algoritma cosine similarity.

Kelebihan dari metode TF-IDF yaitu menghitung seluruh bobot text yang ada (N) secara efektif, simple dan mendapatkan hasil yang akurat. Metode ini akan menghitung nilai Term Frequency (TF) dan Inverse Document Frequency (IDF) pada setiap token (kata) di setiap dokumen dalam korpus, kekurangannya adalah Bila terdapat 2 bobot nilai text (N) maka tidak akan dapat mengurutkan secara tepat. Text mining adalah istilah

(3)

yang menjelaskan sebuah teknologi yang dapat menganalisa data teks terstruktur maupun tidak terstruktur, hal inilah yang jadi perbedaan dengan data mining antara data mining lainnya mengolah data yang sifatnya terstruktur.Nilai persamaan yang didapatkan pada penilaian manual disalin menjadi hasil ujian essai calon karyawan yang berdasarkan dari tahap penilaian subjektif perorangan, urutan penilaian dibawah berfokus dalam penelitian yang dibuat oleh Fuat tahun 2010[6]. Pada algoritma TF/IDF digunakan rumus untuk menghitung Hasil (N) dengan beberapa dokumen terhadap jawaban dengan perumusan yaitu:

Ndt = tfdf *IDF (1) Dimana:

d = dokumen ke-d t = kata ke-t dari jawaban

N = mutu dokumen ke-d terhadap kata ke-t

tf = kelipatan kata-kata yang dicari dalam satu dokumen IDF =Inversed Document Frequency IDF = log2 (D/df)

D = total dokumen

df = besarnya dokumen yang mengandung kata yang dicari

Consine Similarity digunakan untuk melakukan perhitungan kesamaan dari dokumen. Rumus yang digunakan oleh consine similarity adalah.

(2) Dimana:

A = Vektor A, yang akan dibandingkan kemiripannya B = Vektor B, yang akan dibandingkan kemiripannya A • B = dot data antara vektor A dan vektor B

|A| = panjang vektor A

|B| = panjang vektor B

|A||B| = cross data antara |A| dan |B

Metode pengklasifikasian yang digunakan pada aplikasi ini adalah dengan membandingkan kesamaan atau similaritas antara kunci jawaban dengan jawaban calon karyawan dengan kata kunci pertama, kemudian dibandingkan kembali dengan kunci jawaban dengan kata kunci kedua dan begitu seterusnya sampai mendapatkan nilai dari perhitungan cosine similarity nya. Setelah Hasil (N) setiap dokumen diketahui, maka dilakukan proses perataan dimana semakin besar nilai N, semakin besar tingkat similaritas dokumen tersebut terhadap kata kunci, begitu pun sebaliknya. beberapa urutan penilaian dibawah merupakan nilai telah dibuat seperti pada kolom (1).

Tabel 1. Urutan Penilaian Hasil Calon Karyawan Perbandingan Rentang Nilai

Nilai Persamaan Penilaian dari HRD

1 - 10 10

11 - 20 20

21 - 30 30

31 - 40 40

41 - 50 50

51 - 60 60

61 - 70 70

71 - 80 80

81 - 90 90

91 - 100 100

Output pada tabel 1 didapatkan dari jumlah pembagian soal yang ada, apabila ada 4 soal yang tersedia, maka jika calon karyawan menyelesaikan secara tepat dan score kesamaannya didapat jadi 1, jadi score diperoleh calon karyawan tersebut yaitu 25 = (100:4).

2.1 Metode Pengembangan Aplikasi

Cara Pengembangan Aplikasi penulis gunakan adalah metode pengembangan Aplikasi dengan Model RAD (Rapid Application Development),Model RAD tersebut terdiri dari beberapa Fase yaitu Fase planning, Fase Analisa, Fase Design, dan Fase Implementation. Penulis menggunakan Model Rapid Application Development dikarenakan program yang dikembangkan merupakan program yang simple oleh karena itu memakan waktu yang tidak lama.

(4)

Gambar 2. Metode Pengembangan Aplikasi RAD Dari Gambar 2 Metode Pengembangan Sistem RAD dapat dijabarkan seperti dibawah ini:

1. Fase Planning

Pada fase perencanaan ini penulis melakukan proses identifikasi tujuan aplikasi yang dibuat nantinya, serta melakukan proses indentifikasi kebutuhan-kebutuhan mengenai informasi yang diharapkan nantinya yaitu berupa hasil penilaian atas jawaban essay test yang cepat didapat.

2. Fase Analisa/Analisis

Proses ini dilakukan analisa sistem yang sekarang sudah berjalan agar dapat di analisa kembali pada sistem yang baru.

3. Fase Design

Pada fase perancangan yang akan dibuat penulis, seperti berikut:

1. Design Process

Adapun Design process yang penulis pergunakan nantinya yaitu dengan menggunakan UML, adapun diagram UML yang penulis pergunakan yaitu dengan menggunakan UseCase Diagram,Class Diagram,Sequence Diagram dan Activity Diagram.

2. Design Database

Pada perancangan tabel-tabel yang digunakan agar dapat menyimpan data berupa data admin, data calon karyawan, data soal, data kunci jawaban, data jawaban calon karyawan untuk diimplementasikan ke dalam program yang akan dibuat.

3. Design Interface

Design Interface yang akan penulis buat nantinya yaitu bersifat user interface, baik itu berupa form, keterangan yang dibutuhkan, serta hasil penilaian. Sehingga pengguna khususnya calon karyawan tidak bingung dalam membaca informasi yang ada.

4. Fase Implementasi

Ditahap Fase Implementasi ini penulis membuat program dan program yang penulis buat yaitu program website dengan menggunakan bahasa pemerograman PHP dan database MySQL.

Dilansir oleh Safrian Aswati (2016:1) “Rapid Application Development (RAD)” adalah sebuah proses Inovasi dari Software sequential linear yang merincikan siklus perkembangan dengan timing yang cepat. Tetapi Menurut Riffat Naz and M. N.A.Khan(2015:vol 9) “Rapid Application Development (RAD)[11] yaitu sebuah metodologi untuk mengembangkan perangkat lunak yang membutuhkan perencanaan minimum untuk pembuatan prototipe cepat”.

3. HASIL DAN PEMBAHASAN

Dari penelitian ini di dapatkan hasil yaitu, Pihak HRD / Personalia khususnya Recruitment Officer sudah tidak lagi melakukan proses penilaian jawaban essay test yang dilakukan oleh calon karyawan secara manual, karena proses jawaban tersebut telah otomatis dilakukan oleh sistem.Dengan hasil pada Penerapan Algoritma Text Mining TF-IDF untuk perhitungan soal ujian essay dibuat dengan menggunakan pemograman PHP, database MySQL dengan proses yang telah dibuat maka hasil ujian calon karyawan tersebut akan muncul seperti dibawah ini:

PERHITUNGAN COSINE SIMILARITY DAN PENILAIAN

COSINE SIMILARITY= 18/4.2851*4.2746=0.9827 NILAI= 0.9827 * 25=24.57 NILAI UJIAN CALON KARYAWAN: 73.51

Berdasarkan hasil ujian yang dilakukan pada calon karyawan oleh HRD dapat dibandingkan dengan penilaian secara manual digambarkan pada grafik di bawah ini:

Gambar 3. Grafik hasil ujian

(5)

Dari hasil pada proses aplikasi yang berjalan,berikut pembahasan proses pada aplikasi yang berjalan dan serta hasil yang di dapat:

Gambar 4. Login

Setiap calon karyawan diwajibkan untuk login terlebih dahulu sebelum melakukan ujian, dan pihak HRD akan memberikan username serta password setiap masing-masing calon karyawan seperti yang ditunjukkan Gambar 4.

Gambar 5. Tampilan Soal Ujian Calon Karyawan

Tampilan pada Gambar 5 adalah soal/pertanyaan yang sudah disediakan oleh pihak HRD, maka calon karyawan dapat memulai menjawab pertanyaan yang ada pada kolom jawaban.Setelah calon karyawan menjawab seluruh soal yang sudah tersedia tersebut,maka calon karyawan dapat mengklik tombol Proses Data, maka jawaban calon karyawan berhasil di simpan dan diproses oleh system.

Gambar 6. Processing pertanyaan

Dari Gambar 6 Pertanyaan dapat dijelaskan bahwa pertanyaan diolah untuk dicocokan oleh jawaban yang sudah di tersedia kemudian jawaban dari calon karyawan di lakukan tokenizing terlebih dahulu, kemudian dilakukan filtering pada sistem dan dilanjutkan stemming guna untuk mencocokan kata per kata antara jawaban yang sudah

(6)

tersedia dan jawaban yang di input oleh calon karyawan. Setelah itu maka dapat di lakukan proses pembobotan TF-IDF.

Gambar 7. Menghitung Pembobotan dan Konversi Data ke dalam Vektor

Dari Gambar.3 Menghitung Bobot dan Konversi Data ke dalam Vektor serta Hasil dapat dijelaskan bahwa dari perhitungan Algoritma Text Mining TF-IDF maka dilanjutkan untuk menghitung Bobot dari jawaban calon karyawan serta mengkonversikan data calon karyawan tersebut ke dalam Vektor yang sudah tersedia, setelah semua itu maka di dapatlah hasil cosine similarity yang sudah dilakukan pengkoreksian oleh sistem ini, begitu pun seterusnya setiap pertanyaan akan dilakukan proses yang sama. Setelah semua proses dilakukan oleh sistem dengan preprocessing pada cosine similarity,

4. KESIMPULAN

Telah berhasil dibuatnya sebuah aplikasi tentang penilaian jawaban ujian essay text yang berbasis web dengan menggunakan Algoritma Text Mining TF-IDF disertakan dengan hasil nilai dari tiap soal ujian essay yang hasilkan. Penggunaan algoritma TF-IDF untuk perhitungan soal ujian essay dirancang menggunakan pemrograman Php,MySQL dan design system dengan usecase diagram, class diagram, sequence diagram, statechart diagram dan activity diagram.Maka pihak HRD / Personalia khususnya Recruitment Officer sudah tidak lagi melakukan proses penilaian jawaban essay test yang dilakukan oleh calon karyawan secara manual, karena proses jawaban tersebut telah otomatis dilakukan oleh sistem.

UCAPAN TERIMAKASIH

Penulis mengucap syukur kepada Tuhan Yang Maha Esa, karena atas rahmat dan berkat-Nya, penulis dapat menyelesaikan penelitian ini dengan tepat waktu dan kepada kedua dosen pembimbing, serta seluruh pihak yang telah mendukung jalannya proses penelitian ini.

REFERENCES

[1] Syafrial Fahri Pane, Wahyu Kurnia Sari, Zanwar Arif Wicaksono. 2020. Membuat Aplikasi Pengolahan Data Administrasi Barang Menggunakan Aplikasi Apex Online. Bandung: Kreatif Industri Nusantara.

[2] Putri Ratna, A.A., Budiardjo, B., & Hartanto, D. (2007). SIMPLE : Sistem Penilaian Esei Otomatis Untuk Menilai Ujian Dalam Bahasa Indonesia. Makara, Teknologi, Vol, 11, No.1.

[3] Aditya, M., & Witanti, N. (2009). Penilaian Esai Jawaban Bahasa Indonesia Menggunakan Metode SVM - LSA.

Journal of Information Systems, Volume 5, Issues 1 , p 33-41.

[4] Jiawei, H., Kamber, M., & Pei, J. (2012). Data Mining: Concepts and Techniques Third Edition.

[5] Ilustrasi Algoritma TF-IDF (Harlian, 2006 dalam Muhajir 2012).

[6] Fuat,R. (2010). Sistem Nilai Essay Otomatis Pada Elearning menggunakan Metode Cosine Similarity. Surabaya: Buku Tugas Akhir Mahasiswa Jurusan Sistem Informasi Fakultas Teknologi Informasi Institut Teknologi Sepuluh November .

[7] Perkasa, D.A, Eki Saputra, Mona Fronita (2015) System ujian daring essai dengan penilaian menggunakan metode Latent Sematic Analysis (LSA), Jurnal Rekayasa dan Manajemen Sistem Informasi Vol. 1, No. 1, pp.1-9 ISSN 2460-8181 [8] International Journal of Computer Applications (0975 – 8887) Volume 181 – No.1, July 2018.

[9] C. C. Aggarwal and C. X. Zhai, Mining text data, vol. 9781461432. 2013.

[10] Riffat Naz & M. N. A. Khan (2015) Rapid Applications Development Techniques: A Critical Review,International Journal of Software Engineering and Its Applications Vol. 9, No. 11 (2015), pp. 163-176

[11] Safrian Aswati (2016:1) Rapid Aplication Development (RAD)

(7)

[12] Fitri, Meisya. Perancangan Sistem Temu Balik Informasi dengan Metode Pembobotan Kombinasi TF-IDF untuk Pencarian Dokumen Berbahasa Indonesia. http://jurnal.untan.ac.id/index.php/justin/article/view/1319. 15 Agustus 2015(13.42)

[13] Miner, G., Delen, D., Elder, J., Fast, A., Hill, T., & Nisbet, R. (2012). Practical Text Mining and Statistical Analysis for Non-Structured Text Data Applications. Oxford: Elsevier.