IMPLEMENTASI METODE
VECTOR SPACE MODEL
(VSM)
UNTUK REKOMENDASI NILAI TERHADAP JAWABAN
ESSAY
SKRIPSI
Diajukan Untuk Menempuh Ujian Akhir Sarjana
HARRY SEPTIANTO 10110646
PROGRAM STUDI TEKNIK INFORMATIKA
FAKULTAS TEKNIK DAN ILMU KOMPUTER
UNIVERSITAS KOMPUTER INDONESIA
BANDUNG
iv
karunia-Nya sehingga penulis dapat menyelesaikan skripsi yang berjudul “IMPLEMENTASI METODE VECTOR SPACE MODEL (VSM) UNTUK REKOMENDASI NILAI TERHADAP JAWABAN ESSAY”.
Penyusunan skripsi ini tidak akan terwujud tanpa mendapat dukungan, bantuan dan masukan dari berbagai pihak. Untuk itu, penulis ingin menyampaikan terimakasih yang sebesar-besarnya kepada :
1. Ayah saya tercinta Sumartoyo dan ibunda saya Purwanti S.Pd yang memberi dukungan materi, moril, rohani, dan semua yang dibutuhkan oleh penulis selama penulisan skripsi ini berlangsung. Dan tidak ketinggalan kepada seluruh keluarga besar penulis yang selalu memberikan masukan, dan terimakasih atas segala doa beserta dorongan dan motivasinya, sehingga dapat terselesaikan tugas akhir ini.
2. Bapak Galih Hermawan, S.Kom., M.T. selaku dosen pembimbing yang selama ini telah banyak memberikan pengarahan serta masukan yang berharga, kritik, dan pengalaman berkesan selama masa bimbingan sehingga skripsi ini dapat terselesaikan dengan baik.
3. Ibu Nelly Indriani W., S.Si., M.T selaku dosen reviewer seminar dan dosen wali yang selama ini telah banyak memberikan pengarahan serta masukan yang berharga.
4. Bapak Irawan Afrianto S.T.,M.T., sebagai ketua program studi Teknik Informatika di UNIKOM.
5. Bapak ibu dosen yang selama ini membimbing dalam menempuh berbagai mata kuliah yang penulis dapatkan di program studi Teknik Informatika. 6. Para sahabat dan teman-teman seperjuangan di IF15, Andi Juansyah, Hegi
Burnandharie, Muhammad Zamzam, Anton Prosetyo, Wisnu Dewantoro, Lingga Agitya dan teman-teman lain yang telah memberikan dukungan moral kepada saya.
Akhir kata, semoga skripsi ini dapat bermanfaat bagi para pembaca
Bandung, Agustus 2015
79
DAFTAR PUSTAKA
[1] S. Hamza, M. Sarosa and P. B. Santoso, "Sistem Koreksi Soal Essay Otomatis Dengan Menggunakan Metode Rapid Karp," Jurnal EECCIS, vol. 7, 2013.
[2] S. Astutik, A. D. Cahyani and M. K. Sophan, "Sistem Penilaian Otomatis Dengan Menggunakan Algoritma Winnowing," Jurnal Informatika, vol. 12, pp. 47 - 52, 2014.
[3] H. Septiantri, "Perbandingan Metode Latent Semantic Analysis Dan Vector Space Model Untuk Sistem Penilaian Jawaban Esai Otomatis Bahasa Indonesia," 2009.
[4] Darmawan, Heru Adi; Wurijanto, Tutut; Masturi, Akh;, "Rancang Bangun Aplikasi Search Engine Tafsir Al-Qur'an Menggunakan Teknik Text Mining Dengan Algoritma VSM (Vector Space Model)".
[5] R. S. Pressman and B. R. Maxim, Software Engineering, A Practitioner's Approach Eighth Edition, New York: McGraw-Hill Education, 2015.
[6] W. Budiharto and D. Suhartono, Artificial Intelligence : Konsep dan Penerapannya, Jakarta: Andi, 2014.
[7] Tahitoe, Andita Dwiyoga, "Implementasi Modifikasi Enchanced Confix Stripping Stemmer Untuk Bahasa Indonesia Dengan Metode Corpus Based Stemming," Jurnal Informatika, 2010.
[8] S. Dikli, "An Overview Of Automated Scoring Of Essay," The Journal of Technology, Learning,and Assessment, Vols. 5, number 1, 2006.
[9] R. A. S. and M. S. , Rekayasa Perangkat Lunak : Terstruktur dan Berorientasi Objek, Bandung: Informatika, 2013.
[11] N. Z. Harisma, "Implementasi Sistem Penilaian Esai Otomatis Metode LSA Dengan Tiga Bobot Kata Kunci," Skripsi Teknik Elektro Fakultas Teknik Universitas Indonesia, 2008.
v
DAFTAR ISI
ABSTRAK ... ii
ABSTRACT ... iii
KATA PENGANTAR ... iv
DAFTAR ISI ... v
DAFTAR GAMBAR ... ix
DAFTAR TABEL ... xi
DAFTAR SIMBOL ... xiii
DAFTAR LAMPIRAN ... xv
BAB 1 ... 1
PENDAHULUAN ... 1
1.1 Latar Belakang Masalah ... 1
1.2 Rumusan Masalah ... 2
1.3 Maksud danTujuan ... 2
1.4 Batasan Masalah... 2
1.5 Metodologi Penelitian ... 3
1.6 Sistematika Penulisan ... 5
BAB 2 ... 7
LANDASAN TEORI ... 7
2.1 Artificial Intelligence ... 7
2.2 Morphological Analysis ... 8
2.3 Stopwords Removal ... 8
2.4 Stemming & Lemmatization ... 9
2.5 Algoritma Stemming Nazief dan Adriani ... 10
vi
2.8.2 Term Frequency-Inverse Document Frequency (TF-IDF) Weighting 14
2.9 Pemograman Berorientasi Objek ... 15
2.9.1 Konsep Dasar Berorientasi Objek ... 16
2.9.2 Pengenalan UML ... 19
2.10 Database ... 20
2.11 MySql ... 20
2.12 Teori Pengujian ... 21
2.12.1 Black Box Testing ... 21
2.12.2 White Box Testing ... 22
Bab 3 ... 25
ANALISIS DAN PERANCANGAN SISTEM ... 25
3.1 Analisis Masalah ... 25
3.1.1 Analisis Sistem ... 25
3.1.1.1 Analisis Data Masukan ... 27
3.1.1.1.1 Pengecekan Database ... 27
3.1.1.1.2 Parsing ... 28
3.1.1.1.3 Stopword ... 31
3.1.1.1.4 Pencocokan Kata ... 33
3.1.1.1.5 Rekomendasi Nilai ... 36
3.1.2 Analisis Database ... 36
vii
3.2 Analisis Kebutuhan Non-Fungsional ... 37
3.2.1 Analisis Kebutuhan Perangkat Keras ... 37
3.2.2 Analisis Kebutuhan Perangkat Lunak ... 38
3.3 Analisis Kebutuhan Fungsional ... 38
3.3.1 Usecase ... 38
3.3.1.1 Identifikasi Aktor ... 39
3.3.1.2 Identifikasi Usecase ... 39
3.3.2 Skenario Usecase ... 40
3.3.3 Activity Diagram ... 42
3.3.4 Sequence Diagram ... 45
3.3.5 Class Diagram ... 47
3.4 Perancangan Sistem ... 48
3.4.1 Perancangan Database ... 48
3.4.1.1 Skema Relasi... 49
3.4.1.2 Struktur Tabel ... 49
3.4.2 Perancangan Antarmuka Sistem ... 50
3.4.3 Perancangan Jaringan Semantik ... 52
Bab 4 ... 55
IMPLEMENTASI DAN PENGUJIAN ... 55
4.1 Implementasi Sistem ... 55
4.1.1 Implementasi Perangkat Keras ... 55
4.1.2 Implementasi Perangkat Lunak ... 55
4.1.3 Implementasi Class Diagram ... 56
4.1.4 Implementasi Database ... 56
viii
4.2 Pengujian Sistem ... 60
4.2.1 Proses Pengujian Sistem ... 61
4.2.2 Skenario Pengujian... 61
4.2.3 Kasus dan Hasil Pengujian Black Box ... 61
4.2.3.1 Pengujian Manajemen Pertanyaan Essay ... 62
4.2.3.2 Pengujian Ikuti Ujian Siswa ... 65
4.2.4 Hasil dan Pengujian White Box ... 66
4.3 Pengujian Akurasi Sistem ... 73
4.4 Kesimpulan Pengujian ... 75
Bab 5 ... 77
KESIMPULAN DAN SARAN ... 77
5.1 Kesimpulan ... 77
5.2 Saran ... 77
1
BAB 1
PENDAHULUAN
1.1 Latar Belakang Masalah
Setiap proses pembelajaran membutuhkan suatu evaluasi berupa ujian. Ujian dapat dilakukan dalam tiga jenis, yang pertama yaitu ujian pilihan ganda, ujian isian singkat dan ujian esai. Ujian esai merupakan evaluasi pembelajaran dalam bentuk soal esai yang mempunyai jawaban lebih bervariasi dibandingkan soal pilihan ganda. Variasi jawaban tersebut memberikan kesulitan terhadap guru dalam menilai jawaban esai. Pada media pembelajaran, ujian yang banyak dilakukan adalah jenis ujian pilihan ganda dan ujian singkat. Hanya beberapa media pembelajaran yang menggunakan ujian esai. Metode yang digunakan pada sistem yang sudah berjalan adalah algoritma Rabin-Karb. Algoritma Rabin-Karb adalah pencocokan string yang menggunakan fungsi hash sebagai pembanding yag dicari (m) dengan substring pada teks (n). Penelitian ini dilakukan oleh Sahriar Hamzah, M. Sarosa dan Purnomo Budi Santoso. Keakurasian dari metode Rabin-Karb adalah 90,31%, dengan perbedaan rata-rata nilai sistem dan nilai guru hanya 0,01%-0,07% [1]. Selain menggunakan metode Rabin-Karb, metode yang di gunakan dalam pembangunan sistem jawaban esai adalah menggunakan metode string matching yaitu Algoritma Winnowing. Algoritma Winnowing adalah agoritma untuk mengukur kemiripan teks dengan cara mengubah teks menjadi nilai hash dann menentukan nilai fingerprint yang akan mewakili setiap teks pada proses kemiripan jawaban. Algoritma Winnowing menghasilkan akurasi dengan kunci jawaban sebesar 75-80% [2].
Untuk membantu guru dalam memeriksa jawaban esai diperlukan suatu metode pencocokan kata untuk mencocokkan kata antara jawaban siswa dan kunci jawaban guru. Metode yang akan dibahas didalam sistem pencocokan kata dan rekomendasi nilai adalah metode Vector Space Model (VSM). Metode
vektor dalam sebuah ruang vektor. Kumpulan kata-kata dan dokumen direpresentasikan dalam bentuk matriks kata-dokumen. Baris matriks mewakili kata-kata dan kolomnya mewakili dokumen [3]. Untuk metode pembobotan kata yang akan digunakan adalah Term Frequency (TF), yaitu pembobotan berdasarkan seberapa sering kata (term) muncul dalam satu dokumen [4].
Dalam penelitian yang akan dilakukan ini untuk mengimplementasikan metode VSM untuk pencocokan kata dan merekomendasikan nilai terhadap jawaban esai. Maka dari itu penelitian ini diharapkan mendapat suatu hasil penelitian berupa hasil nilai akurat dari metode VSM.
1.2 Rumusan Masalah
Berdasarkan latar belakang yang telah diuraikan oleh penulis di atas, maka dapat dirumuskan suatu masalah yaitu bagaimana cara mencocokkan kata dan merekomendasikan nilai terhadap jawaban esai yang telah dimasukan siswa di dalam media pembelajaran.
1.3 Maksud danTujuan
Berdasarkan permasalahan yang diteliti, maka maksud dari penulisan tugas akhir ini adalah mengimplementasikan metode Vector Space Model (VSM) untuk pencocokan kata dan rekomendasi nilai terhadap jawaban esai.
Sedangkan tujuan yang akan dicapai dalam penelitian ini adalah sebagai berikut :
1. Untuk melihat keakurasian dari metode VSM dalam mencocokkan kata.
2. Untuk melihat seberapa akurat sistem dalam memberikan rekomendasi nilai terhadap jawaban siswa yang telah dengan kunci jawaban.
3
1.4 Batasan Masalah
Terdapat beberapa batasan permasalahan yang dapat dirumuskan agar pembahasan masalah dapat lebih terarah dan terperinci, dengan maksud untuk mempermudah identifikasi dan pemahaman terhadap aplikasi. Adapun batasan masalah dalam implementasi metode VSM ini adalah.
1. Bahasa yang dapat dibaca oleh sistem harus dengan bahasa Indonesia yang baik dan benar.
2. Data yang akan digunakan diperoleh dari Sekolah Menengah Atas (SMA) Negeri 13 Palembang. Data berupa kumpulan soal dan jawaban yang digunakan oleh guru di SMA Negeri 13 Palembang.
3. Studi kasus mata pelajaran Ekonomi kelas X (Sepuluh). Karena di dalam mata pelajaran tersebut megandung banyak teori dibandingkan mata pelajaran lain.
4. Menggunakan algoritma Nazief dan Adriani dalam melakukan proses
stemming dan stopword.
5. Menggunakan metode Verctor Space Model (VSM) dalam mencocokan kata, sedangkan untuk metode pembobotan kata menggunakan Term Frequency (TF).
6. Menggunakan persentase nilai jawaban dalam memberikan rekomendasi nilai.
7. Menggunakan pemograman berorientasi objek.
8. Untuk memodelkan perangkat lunak menggunakan Unified Modeling Language (UML).
9. Sistem yang akan dibangun berbasis website.
1.5 Metodologi Penelitian
Metologi penelitian yang digunakan oleh penulis dalam menulis laporan tugas akhir ini adalah metodologi deskriptif, yaitu metode pembahasan masalah yang digunakan untuk menggambarkan objek untuk diteliti, dengan cara mencari, mengumpulkan, dan menganalisis data yang diperoleh.
Metode pengumpulan data yang digunakan dalam penelitian adalah Studi Pustaka. Studi Pustaka yang dilakukan adalah dengan mempelajari berbagai literatur, seperti buku-buku, artikel-artikel, e-book, website, jurnal, dan sumber-sumber yang berkaitan dengan metode VSM yang akan dibangun, meliputi kecerdasan buatan, desain, tools dan juga pemodelan dengan UML yang dapat membantu menyelesaikan implementasi metode VSM ini.
2. Metode Pembangunan Perangkat Lunak
Metode yang digunakan untuk pembangunan perangkat lunak dalam penelitian ini menggunakan Agile Model. Model ini adalah model yang memberikan pendekatan-pendekatan sistematis dan berurutan bagi pengembang piranti lunak menurut Roger S. Pressman [5] adalah :
a. Planning
Tahap perancangan yang dilakukan adalah dengan pemodelan menggunakan metode pemograman berorientasi objek dan menerapkan metode VSM pada sistem jawaban esai untuk pencocokkan kata dan rekomendasi nilai.
b. Design
Tahap design merupakan tahap perancangan dari pembangunan sistem jawaban esai yang akan dibuat untuk identifikasi dan mengatur class – class
di konsep object oriented.
c. Coding
Setelah tahap perancangan sistem selanjutnya dilakukan konversi rancangan sistem ke dalam kode – kode bahasa pemograman yang digunakan yaitu php.
d. Testing
5
Gambar 1. 1 Model Agile[5]
1.6 Sistematika Penulisan
Sistematika penulisan yang dilakukan pada tugas akhir ini adalah sebagai berikut:
BAB I PENDAHULUAN
Bab ini mengemukakan latar belakang judul, identifikasi masalah, batasan masalah, metodologi penelitian, serta sistematika penulisan. BAB II LANDASAN TEORI
Bab ini akan menjelaskan tentang semua landasan teori yang berhubungan dengan sistem yang akan dibuat yaitu menyangkut
artificial intelligence, metode Vector Space Model (VSM), Algoritma Nazief Dan Adriani, rekomendasi nilai, jawaban esai,
Automated Essay Scoring (AES), Vector Space Model (VSM), pemograman beroreintasi objek, database, MySQl, teori pengujian. BAB III ANALISIS DAN PERANCANGAN SISTEM
BAB IV IMPLEMENTASI DAN PENGUJIAN SISTEM
Bab ini berisi hasil dan bahasan yang ditekankan pada perumusan masalah, yaitu tentang pengujian sistem, serta analisa terhadap hasil yang telah didapatkan.
BAB V KESIMPULAN DAN SARAN
7
BAB 2
LANDASAN TEORI
2.1Artificial Intelligence
Artificial Intelligence (AI)atau Kecerdasan Buatan merupakan bidang ilmu komputer yang mempunyai peran penting di era kini dan masa akan datang. Bidang ini telah berkembangsangat pesat di 20 tahun terakhir seiring dengan pertumbuhan kebutuhan akan perangkat cerdas pada industri dan rumah tangga. Kata Intelligence
berasal dari bahasa latin intelliga yang berati saya “saya paham”. Jadi, Intelligence
adalah kemampuan memahami dan melakukan aksi. McCarthy mendefinisikan AI
sebagai,”AI merupakan cabang dari ilmu komputer yang berfokus pada
pengembangan komputer untuk dapat memiliki kemampuan dan berprilaku seperti
manusia” [6].
Philoshopy & Cognitive
Science
Mathematics Psychology Computer
Science
Artificial Intelligence
*Reasoning *Learning *Planning *Perception *Knowledge Acquistion *Intelligence Search *Uncertain Management
Expert System
Computer Vision
Natural Language Processing
Robotic and Navigatio
n
Games Theorem
Proving
Gambar 2. 1 Domain Area AI [6]
Tujuan dari sistem kecerdasan buatan dibagi dalam 4 kategori [6]: 1. Sistem yang dapat berpikir seperti manusia
2.2Morphological Analysis
Morphological Analysis adalah proses dimana setiap kata yang berdiri sendiri (individual word) dianalisis kembali ke komponen pembentuk dan token nonword seperti tanda baca dan sebagainya dipisahkan dari kata tersebut. Hasil akhir dari proses ini adalah proses Parsing. Parsing adalah proses mengkonversikan daftar kata yang berbentuk kalimat ke dalam bentuk struktur yang mendefinisikan unit yang diwakili oleh sebuah daftar [6]. Pada tabel 2.1 dapat dilihat beberapa karakter (token nonword)yang harus dipisahkan dari kata.
Tabel 2. 1 Tabel Karakter (Token Nonwrod)
Karakter
! ~ + /
@ & + \
# * { “
$ ( } ‘
% ) [ :
^ - ] :
` _ | .
, < > ?
White space (tab, spasi, enter)
2.3Stopwords Removal
Stopword removal adalah sebuah proses untuk menghilangkan kata yang
‘tidak relevan’ pada hasil parsing sebuah dokumen teks dengan cara
membandingkannya dengan stoplist. Stoplist berisi sekumpulan kata yang ‘tidak
relevan’, namun sering sekali muncul dalam sebuah dokumen. Pada tabel 2.2
9
Tabel 2. 2 Daftar Stoplist [7]
Stoplist
'yang' ‘untuk’ ‘ini’ ‘telah’ ‘begitu’
‘pada’ ‘ke’ ‘karena’ ‘dari’ ‘maka’
‘menurut’ ‘namun’ ‘kepada’ ‘di’ ‘lagi’
‘antara’ ‘dia’ ‘oleh’ ‘serta’ ‘tentang’
‘ia’ ‘dua’ ‘saat’ ‘bagi’ ‘demi’
‘seperti’ ‘tidak’ ‘harus’ ‘sekitar’ ‘dimana’
‘jika’ ‘dan’ ‘sementara’ ‘kami’ ‘kemana’
‘sehingga’ ‘kembali’ ‘setelah’ ‘belum’ ‘sampai’
‘sebagai’ ‘ada’ ‘mereka’ ‘anda’ ‘sedangkan’
‘masih’ ‘juga’ ‘sudah’ ‘itulah’ ‘selagi’
‘hal’ ‘akan’ ‘saya’ ‘daripada’ ‘sementara’
‘ketika’ ‘dengan’ ‘terhadap’ ‘yakni’ ‘sebelum’
‘adalah’ ‘kita’ ‘secara’ ‘yaitu’ ‘tetapi’
‘itu’ ‘hanya’ ‘agar’ ‘kenapa’ ‘apakah’
‘dalam’ ‘atau’ ‘lain’ ‘mengapa’ ‘supaya’
‘bisa’ ‘bahwa’ ‘anda’ ‘begitu’ ‘dll’
2.4 Stemming & Lemmatization
Stemming merupakan sebuah proses yang bertujuan untuk mereduksi jumlah variasi dalam representasi dari sebuah kata. Resiko dari proses stemming adalah hilangnya informasi dari kata yang di-stem. Hal ini menghasilkan menurunnya akurasi atau presisi. Sedangkan, keuntungannya adalah, proses stemming dapat meningkatkan kemampuan untuk melakukan recall.
Lemmatization adalah sebuah proses untuk menemukan bentuk dasar dari sebuah kata. Ada sebuah teori yang menjelaskan bahwa lemmatization adalah proses yang bertujuan untuk melakukan normalisasi pada teks atau kata berdasarkan bentuk dasar yang merupakan bentuk lemma-nya. Normalisasi disini dalam artian mendefinisikan dan menghapus sebuah prefix serta suffiks dari sebuah kata. Lemma adalah bentuk dasar dari sebuah kata yang memiliki arti tertentu berdasarkan pada kamus.
2.5 Algoritma Stemming Nazief dan Adriani
Algoritma stemming Nazief dan Adriani (1996) dikembangkan berdasarkan aturan morfologi Bahasa Indonesia yang mengelompokkan imbuan menjadi awalan (prefix), sisipan (infix), akhiran (suffix) dan gabungan awalan-akhiran (confixes). Algoritma ini menggunakan kamus kata dasar dan mendukung
recoding, yakni penyusunan kembali kata-kata yang mengalami proses stemming
berlebih.
Aturan morfologi Bahasa Indonesia mengelompokkan imbuhan ke dalam beberapa kategori sebagai berikut :
1) Inflection suffixes yakni kelompok akhiran yang tidak merubah bentuk
kata dasar. Sebagai conth, kata “duduk” yang diberikan akhiran “-lah”
akan menjadi “duduklah”.
Kelompok ini dibagi menjadi dua :
a. Particle (P) atau partikel, yakni termasuk di dalamnya “-lah”, “
-kah”, “-tah”, dan “-pun”.
b. Possessive Pronoun (PP) atau kata ganti kepunyaan, termasuk di
dalamnya adalah “-ku”, “-mu”, dan “-nya”.
2) Derivation Suffixes (DS) yakni kumpulan akhiran asli Bahasa Indonesia
yang secara langsung ditambahkan pada kata dasar yaitu akhiran “-i”,
“-kan”, dan “-an”.
11
mendapatkan penambahan sampai dengan 2 awalan. Termasuk di dalamnya adalah :
a. Awalan yang dapat bermorfologi(“me-”, ”be-”, “pe-”, dan “te
-”)
b. Awalan yang tidak bermorfologi(“di-”, “ke-”, dan “se-”) Aturan untuk pemenggalan kata awalan pada algoritma stemmer Nazief dan Adiani dapat dilihat pada Tabel 2.3.
Tabel 2. 3 Aturan Pemenggalan Awalan Stemmer Nazief Dan Adriani [7]
Aturan Format Kata Pemenggalan
1 berV… ber-V…| be-rV…
2 berCAP… ber-CAP… dimana C!=’r’ & P!=’er’
3 berCAerV… ber-CaerV… dimana C!=’r’
4 belajar bel-ajar
5 beC1erC2… be-C1erC2.. dimana C1!={‘r’|’1’}
6 terV… ter-V… | te-rV…
7 terCerV… ter-CerV… diaman C!=’r’
8 terCP… ter-CP... dimana C!=’r’ dan P!=’er’
9 teC1erC2... te-C1erC2... dimana C1!=’r’ 10 me{l|r|w|y}V... me-{l|r|w|y}V...
11 mem{b|f|v}... mem-{b|f|v}... 12 mempe{r|l}... mem-pe...
13 mem{rV|V}... me-m{rV|V}... | me-p{rV|V}... 14 men{c|d|j|z}... men-{c|d|j|z}...
15 menV... me-nV... | me-tV
16 meng{g|h|q}... meng-{g|h|q}...
17 mengV... meng-V... | meng-kV...
18 menyV... meny-sV…
19 mempV... mem-pV... dimana V!=’e’
20 pe{w|y}V... pe-{w|y}V...
23 perCAP… per-CAP... dimana C!=’r’ dan P!=’er’ 24 perCAerV... per-CAerV... dimana C!=’r’
25 pem{b|f|V}... pem-{b|f|V}...
26 pem{rV|V}... pe-m{rV|V}... | pe-p{rV|V}... 27 pen{c|d|j|z}... pen-{c|d|j|z}...
28 penV... pe-nV... | pe-tV...
29 peng{g|h|q} peng-{g|h|q}... 30 pengV... peng-V... | peng-kV...
31 penyV... peny-sV…
32 pelV... pe-lV... kecuali ‘pelajar’ yang
menghasilkan ‘ajar’
33 peCerV... per-erV... dimana C!={r|w|y|l|m|n} 34 peCP... pe-CP... dimana C!={r|w|y|l|m|n} dan
P!=’e’
Keterangan simbol huruf : C : huruf konsonan V : huruf vokal
A : huruf vokal atau konsonan
P : partikel atau fragmen dari suatu kata, misalnya “er”
2.6 Rekomendasi Nilai
Rekomendasi nilai merupakan hasil dari komputasi similarity. Rekomendasi nilai diambil berdasarkan hasil kecocokkan kata antara jawaban siswa dan kunci jawaban yang ada di database. Rekomendasi nilai nantinya melihat persentase kesamaan antara jawaban siswa yang telah dimasukkan dengan kunci jawaban.
13
2.7 Jawaban Esai
Ujian dapat dilakukan dalam tiga jenis, yang pertama yaitu ujian pilihan ganda, ujian isian singkat dan ujian esai. Ujian esai merupakan evaluasi pembelajaran dalam bentuk soal esai yang mempunyai jawaban lebih bervariasi dibandingkan soal pilihan ganda. Variasi jawaban tersebut memberikan kesulitan tersendiri bagi guru dalam menilai jawaban.
Esai yang dinilai dibagi menjadi dua bagian, yang pertama adalah esai yang merupakan karangan siswa (bisa berupa eksposisi, deskripsi, argumentasi, atau narasi). Yang kedua adalah jawaban esai pendek yang biasa terdapat pada bagian evaluasi buku teks pelajaran atau ujian.
2.8 Automated Essay Scoring (AES)
Automated essay scoring (AES) dalam bahasa indonesia berarti penilaian esai otomatis didefinisikan sebagai tehnologi komputer yang mengevaluasi dan memberikan nilai pada tulisan. Sistem AES dibuat untuk membantu guru dalam menilai ujian tertulis yang dilakukan dikelas seperti latihan dan ujian akhir semester. Sistem AES memiliki fungi utama untuk membantu menghemat waktu, biaya dalam memeriksa hasil ujian tertulis, dan beberapa masalah dalam penilaian ujian tertulis [8].
Sistem AES mendapatkan kritikan berupa kekurangan hubungan antar manusia, mudah untuk dimanipulasi, dan memerlukan data training yang besar untuk melatih sistem AES. Dibalik semua kekurangan itu, sistem AES tetap menarik perhatian para peneliti, pendidik baik di unversitas, sekolah dan perusahaan yang bergerak dibidang pengetesan [8].
2.8.1 Vector Space Model (VSM)
pengelompokan dokumen [3]. Dalam Vector Space Model, koleksi dokumen direpresentasikan sebagai sebuah matrik term-document (matrik term-frequency). Setiap sel dalam matrik bersesuaian dengan bobot yang diberikan dari suatu term
dalam dokmen yang ditentukan. Nilai nol berarti bahwa term tersebut tidak hadir dalam dokumen [4].
D1 : Saya mahasiswa Ilmu Komputer
D2 : Saya menimba ilmu di Fakultas Ilmu Komputer D3 : Mahasiswa Fakultas Ilmu Komputer banyak
D1 D2 D3
Banyak 0 0 1
Di 0 1 0
Fakultas 0 1 1
Ilmu 1 2 1
Komputer 1 1 1
Mahasiswa 1 0 1
Menimba 0 1 0
Saya 1 1 0
Gambar 2. 2 Contoh Dokumen Dan Matriks Kata-Dokumen
Melalui vector space model dan TF weighting maka akan didapatkan representasi nilai numerik dokummen sehingga kemudian dapat dihitung kedekatan antar dokumen. Semakin dekat dua vektor di dalam suatu VSM, maka semakin mirip dua dokumen yang diwakili vektor tersebut. Terdapat empat fungsi untuk mengukur kemiripan (similarity measure) yang dapat digunakan untuk model ini :
1. Cosine distance / cosine similarity
2. Inner similarity
3. Dice similarity
15
Salah satu ukuran kemiripan teks yang popular adalah cosine similarity. Ukuran ini menghitung nilai cosinus sudut antara dua vektor. Jika terdapat dua vektor dokumen d dan query q, serta t term diekstrak dari koleksi dokumen maka nilai cosinus antara d dan q didefinisikan sebagai berikut :
, = √∑ ^ ∗ √∑ ^∑ ∗ (2.2)
2.8.2 Term Frequency-Inverse Document Frequency (TF-IDF) Weighting
Metode pembobotan yang paling sederhana terhadap suatu term (term wighting) adalah dengan menggunakan frekuensi kemunculan term (kata) / term frequency (TF) yang bersangkutan pada suatu dokumen. Inverse Document Frequency (IDF) adalah logaritma dari rasio jumlah keseluruhan dokumen yang diproses dengan jumlah dokumen yang memiliki term bersangkutan. Lalu Salton bereksperimen untuk mengkombinasikan kedua metode pembobotan tersebut, dengan mempertimbangkan frekuensi inter-dokumen dan frekuensi intra-dokumen dari suatu term. Dengan menggunakan frekuensi term pada suatu dokumen dan distribusinya pada keseluruhan dokumen, yakni kemunculan pada dokumen-dokumen lain (IDF). Salton menarik kesimpulan melalui eksperimennya bahwa
term-term dengan total frekuensin menengah, lebih berguna dalam retrieval jika dibandingkan dengan term-term yang total frekuensinya terlalu tinggi atau terlalu rendah. Konsep intra-dokumen dan inter-dokumen ini kemudian dikenal sebagai metode TF-IDF.
Rumus yang digunakan untuk menyatakan bobot (w) masing-masing dokumen terhadap kata kunci adalah :
, = , × ��� (2.3)
Dimana :
d = dokumen ke-d
t = kata ke-t dari kata kunci
Untuk penelitian saat ini, pembobotan kata yang akan digunakan adalah pembobotan kata berdasarkan Term Frequency (TF) dari matriks kata-dokumen dan vektor query.
2.9Pemograman Berorientasi Objek
Metologi berorientasi objek adalah suatu strategi pembangunan perangkat lunak yang mengorganisasikan perangkat lunak sebagai kumpulan objek yang berisi data dan operasi yang diperlakukan terhadapnya. Metodologi berorientasi objek merupakan suatu cara bagaimana sistem perangkat lunak dibangun melalui pendekatan objek secara sistematis. Metode berorientasi objek didsarkan pada penerapan prinsip-prinsip pengolahan kompleksitas. Metode beorientasi objek meliputi rangkaian aktivitas analisis berorientasi objek, perancangan berorientasi objek, pemograman berorientasi objek, dan pengujian berorientasi objek [9].
Keuntungan menggunakan metodologi berorientasi objek adalah sebagai berikut :
1. Meningkatkan produktivitas
Karena kelas dan objek yang ditemukan dalam suatu masalah masih dapat dipakai ulang untuk masalah lainnya yang melibatkan objek tersebut (reusable).
2. Kecepatan pengembangan
Karena sistem yang dibangun dengan caik dan benar pada saat analisis dan perancangan akan menyebabkan berkurangnya kesalahan pada saat pengkodean.
3. Kemudahan pemeliharaan
Karena dengan model objek, pola-pola yang cenderung tetap dan stabil dapat dipisahkan dan pola-pola yang munkin sering berubah-ubah. 4. Adanya konsistensi
17
5. Meningkatkan kualitas perangkat lunak
Karena pendekatan pengembangan lebih dekat dengan dunia nyata dan adanya konsistensi pada saat pengembangannya, perangkat lunak yang dihasilkan akan mampu memenuhi kebutuhan pemakai serta mempunyai sedikit kesalahan.
2.9.1 Konsep Dasar Berorientasi Objek
Berikut ini adalah beberapa konsep dasar yang harus dipahami tentang metodologi berorientasi objek :
1. Kelas (class)
Kelas adalah kumpulan objek-objek dengan karakteristik yang sama. Kelas merupakan definisi statik dan himpunan objek yang sama yang mungkin lahir atau diciptakan dan kelas tersebut. Sebuah kelas akan mempunyai sifat (atribut), kelakuan (operasi/metode), hubungan (relantioship) dan arti. Suatu kelas dapat diturunkan dan kelas yang lain, dimana atribut dan kelas semula dapat diwariskan ke kelas yang baru. Secara teknis kelas adalah sebuah struktur tertentu dalam pembuatan perangkat lunak. Kelas merupakan bentuk struktur pada kode program yang menggunakan metodologi berorientasi objek.
2. Objek (object)
Objek adalah abstraksi dan sesuatu yang mewakili dunia nyata seperti benda, manusi, suatu organisasi, tempat, kejadian, struktur, status, atau hal – hal lain yang bersifat abstrak. Objek merupakan suatu entitas yang mampu menyimpan informasi (status) dan mempunyai operasi (kelakuan) yang dapat diterapkan atau dapat berpengaruh pada staus objeknya. Objek dilihat dari segi teknis adalah elemen pada saat
3. Metode (method)
Poreasi atau metode atau method pada sebuah kelas hampir sama dengan fungsi atau prosedur pada metodologi struktural. Sebuah kelas boleh memiliki lebih dari satu metode atau oprasi. Metode atau operasi yang berfungsi untuk memanipulasi objek iu sendiri. Operasi atau metode merupakan fungsi atau transformasi yang dapat dilakukan terhadap objek atau dilakukan oleh objek. Meotde atau operasi berasal dari event, aktivitas atau aksi kedaaan, fungsi, atau kelakuan dunia nyata. Contoh metode atau operasi misalnya read, write, move, copy
dan sebagainya. 4. Atribut (attribute)
Atribut dari sebuah kelas adalah variabel global yang dimiliki sebuah kelas. Atribut dapat berupa nilai atau elemen-elemen data yang dimiliki oleh objek dalam kelas objek, misalnya berat, jenis, nama, dan sebaginya.
5. Abstraksi (abstraction)
Prinsip untuk merepresentasi dunia nyata yang kompleks menjadi satu bentuk model yang sederhana dengan mengabaikan aspek-aspek lain yang tidak sesuai dengan permasalahan.
6. Enkapsulasi (encapsulation)
Pembungkus atribut data dan layanan (operasi-operasi) yang mempunyai objek untuk menyembunyikan implementasi dan objek sehingga objek lain tidak mengetahui cara kerjanya.
7. Pewarisan (inheritance)
Mekanisme yang memungkinkan satu objek mewarisi sebagian atau seluruh definisi dan objek lain sebagai bagian dari dririnya.
8. Antarmuka (interface)
19
9. Reusability
Pemanfaatan kembali objek yang sudah didefinisikan untuk suatu permasalahan pada permasalahan lainnya yang melibatkan objek tersebut.
10. Generalisasi dan Spesialisasi
Menunjukkan hubungan antara kelas dan objek yang umum dengan kelas dan objek yang khusus. Misalnya kelas yang lebih umum (generalisasi) adalah kendaraan darat dan kelas khususnya (spesialisasi) adalah mobil, motor, dan kereta.
11. Komunikasi Antar Objek
Komunikasi antarobjek dilakukan lewat pesan (message) yang dikirim dari satu objek ke objek lainnya.
12. Polimorfisme (poymorphism)
Kemampuan suatu objek digunakan di banyak tujuan yang berbeda dengan nama yang sehingga menghemat baris program.
13. Package
Package adalah sebuah kontainer atau kemasan yang dapat digunakan untuk mengelompokkan kelas-kelas sehingga memungkinkan beberapa kelas yang bernama sama disimpan dalam package yang berbeda.
2.9.2 Pengenalan UML
UML 2.3. Pada UML 2.3 terdiri dari 13 macam diagram yang dikelompokkan dalam 3 kategori. Pembagian ketegori didalam UML dapat dilihat pada gambar berikut ini :
Gambar 2. 3 Diagram UML 2.3 [9]
Berikut ini penjelasan dari pembagian kategori didalam UML :
1. Structure diagrams yaitu kumpulan diagram yang digunakan untuk menggambarkan suatu struktur statis dari sistem yang dimodelkan.
2. Behavior diagrams yaitu kumpulan diagram yang digunakan untuk menggambarkan kelakuan sistem atau rangkaian perubahan yang terjadi pada suatu sistem.
3. Interaction diagrams yaitu kumpulan diagram yang digunakan untuk menggambarkan interaksi sistem dengan sistem lain maupun interaksi antar subsistem pada suatu sistem.
2.10 Database
Database atau di dalam bahasa Indonesia disebut basis data adalah media untuk menyimpan data agar dapat diakses dengan mudah dan cepat [9]. Basis data terdiri atas dua kata, basis dan data. Basis dapat diartikan sebagai markas atau
UML 2.3 Diagram
Structure Diagrams
Class Diagram
Object Diagram
Component Diagram
Composite Structure Diagram
Package Diagram
Deployment Diagram
Behavior Diagrams
Use Case Diagram
Activity Diagram
State Machine Diagram
Intraction Diagrams
Sequence Diagram
Communication Diagram
Timing Diagram
21
gudang, tempat bersarang/berkumpul. Sedangkan data adalah representasi fakta dunia nyatayang mewakili suatu objek seperti manusia (pegawai, siswa, pembeli, pelanggan), barang, hewan, peristiwa, konsep, keadaan dan sebagainya, yang diwujudkan dalam bentuk angka, huruf, simbol, teks, gambar, bunyi, atau kombinasinya [10].Sistem basis data adalah sistem terkomputerisasi yang tujuan utamanya adalah memelihara data yang sudah diolah atau informasi dan membuat informasi tersedia saat dibutuhkan. Sitem yang mengelola basis data disebut dengan Sistem Manajemen Basis Data atau DBMS (Database Management System). Spesialis yang menangani DBMS disebut sebagai DBA (Database Administrator) [9].
2.11MySql
MySql adalah salah satu DBMS (Database Management System) komersil yang paling banyak digunakan. DBMS atau dalam bahasa Indonesia sering disebut Sistem Manajemen Basis Data adalah suatu sistem aplikasi yang digunakan untuk menyimpan, mengelola, dan menampilkan data. Sedangkan SQL (Structure Query Language) adalah bahasa yang digunakan untuk mengelola data pada RDBMS (Relational Database Management System). SQL mulai berkembang pada tahun 1960an. SQL mulai digunakan sebagai standar yang resmi pada tahun 1986 oleh ANSI (American National Standards Institute) dan pada tahun 1987 oleh ISO (International Organization for Standardization) dan disebut sebagai SQL-86 [9].
2.12 Teori Pengujian
Pengujian adalah proses menelusuri dan mempelajari sebuah program dalam rangka menemukan kesalahan pada perangkat lunak sebelum diserahkan kepada pengguna. Pengujian perangkat lunak dalam penelitian ini dibagi menjadi dua metode pengujian yaitu metode pengujian white box dan metode pengujian
2.12.1 Black Box Testing
Black-box testing adalah metode pengujian perangkat lunak yang tes fungsionalitas dari aplikasi yang bertentangan dengan struktur internal atau kerja pengetahuan khusus dari kode aplikasi / struktur internal dan pengetahuan pemrograman pada umumnya tidak diperlukan. Uji kasus dibangun di sekitar spesifikasi dan persyaratan, yakni, aplikasi apa yang seharusnya dilakukan. Menggunakan deskripsi eksternal perangkat lunak, termasuk spesifikasi, persyaratan, dan desain untuk menurunkan uji kasus. Tes ini dapat menjadi fungsional atau non-fungsional, meskipun biasanya fungsional. Perancang uji memilih input yang valid dan tidak valid dan menentukan output yang benar. Tidak ada pengetahuan tentang struktur internal benda uji itu. Metode uji dapat diterapkan pada semua tingkat pengujian perangkat lunak: unit, integrasi, fungsional, sistem dan penerimaan.Ini biasanya terdiri dari kebanyakan jika tidak semua pengujian pada tingkat yang lebih tinggi, tetapi juga bisa mendominasi unit testing juga [5].
Ujicoba blackbox berusaha untuk menemukan kesalahan dalam beberapa kategori, diantaranya :
1. Fungsi-fungsi yang salah atau hilang 2. Kesalahan interface
3. Kesalahan dalam struktur data atau akses database eksternal 4. Kesalahan performa
5. kesalahan inisialisasi dan terminasi
2.12.2 White Box Testing
23
Dengan menggunakan white box akan didapatkan kasus uji yang : 1. Menguji semua keputusan logikal
2. Menguji seluruh Loop yang sesuai dengan batasannya
3. Menguji seluruh struktur data internal yang menjamin validitas
1. CYCLOMATIC COMPLEXITY
Cyclomatic Complexity merupakan suatu sistem pengukuran yang menyediakan ukuran kuantitatif dari kompleksitas logika suatu program. Pada Basis Path Testing, hasil dari cyclomatic complexity digunakan untuk menentukan banyaknya independent paths. Independent path adalah sebuah kondisi pada program yang menghubungkan node awal dengan node akhir [5].
Terdapat 2 persamaan yang digunakan, yaitu:
� = − � + (2.4)
atau
� = + (2.5)
Keterangan:
V(G)= cyclomatic complexity untuk flow graph G E=Jumlah edge(panah)
N=Jumlah node(lingkaran) P=Jumlah predicate node
2. Graph Metrik
Graph metrik merupakan software yang dikembangkan untuk membantu uji coba basis path atau struktur data. Graph metrik adalah matrik empat persegi yang mempunyai ukuran yang sama dengan umlah node pada flowgraph. Masing-masing baris dan kolom mempunyai hubungan dengannode yang telah ditentukan dan pemasukan data matrik berhubungan dengan hubungan (edge) anta node.
1. Kemungkinan link (edge) dikerjakan
2. Waktu yang digunakan untuk proses selama traversal dari link 3. Memori yang diperlukan selama traversal link
77
Bab 5
KESIMPULAN DAN SARAN
5.1 Kesimpulan
Berdasarkan hasil yang didapat dalam penelitian dan penyusunan skripsi ini serta disesuaikan dengan tujuan penelitian maka diperoleh kesimpulan sebagai berikut :
1. Metode Vector Space Model (VSM) dapat mencocokkan kata antara kunci jawaban dan jawaban yang telah dimasukkan oleh siswa. 2. Rata-rata nilai yang diberikan oleh sistem kepada hasil dari jawaban
yang telah dimasukkan oleh siswa adalah 56,07%
5.2 Saran
Berikut adalah saran yang dapat dilakukan untuk pengembangan dari penelitian yang telah dilakukan :
1. Untuk meningkatkan keakurasian sistem dalam memberikan rekomendasi nilai lebih baik menggunakan metode Natural Language Processing (NLP) karena NLP menilai tidak hanya menilai berdasarkan kesamaan kata saja, tapi berdasarkan susunan kata (grammar) dari jawaban yang telah dimasukkan oleh siswa.
E-1
RIWAYAT HIDUP
Data Pribadi
Nama Harry Septianto
Tempat/Tanggal Lahir Palembang, 21 September 1992
Jenis Kelamin Laki-laki
Warga Negara Indonesia
Agama Islam
Status Belum Menikah
Alamat Jl. Bangbayang no 80C/157C RT 04/08 Kel
Dago, Kec Coblong Bandung
Email [email protected]
No. Handphone +6285267324792
Pendidikan Formal
1999-2004 SD Negeri 172 Palembang
2004-2007 SMP Negeri 11 Palembang
2007-2010 SMK Negeri 13 Palembang
2010-2015
Program Studi S1 Teknik Informatika
Harry Septianto
Teknik Informatika – Universitas Komputer Indonesia
Jl. Dipatiukur 112-114 Bandung Email : [email protected]
ABSTRAK
Setiap proses pembelajaran membutuhkan suatu evaluasi berupa ujian.Ujian esai merupakan evaluasi pembelajaran dalam bentuk soal esai yang mempunyai jawaban lebih bervariasi dibandingkan soal pilihan ganda. Variasi jawaban tersebut memberikan kesulitan terhadap guru dalam menilai jawaban esai. Pada penelitian ini metode yang
Setiap proses pembelajaran membutuhkan suatu evaluasi berupa ujian. Ujian dapat dilakukan dalam tiga jenis, yang pertama yaitu ujian pilihan ganda, ujian isian singkat dan ujian esai.Ujian esai merupakan evaluasi pembelajaran dalam bentuk soal esai yang mempunyai jawaban lebih bervariasi dibandingkan soal pilihan ganda. Variasi jawaban tersebut memberikan kesulitan terhadap guru dalam menilai jawaban esai.
Sudah banyak penelitian tentang koreksi esai otomatis, salah satunya adalah penelitian yang dilakukan oleh Sahriar Hamzah, M. Sarosa dan
Purnomo Budi Santoso yang menggunakan
algoritma Rabin-Karb. Tingkat keakurasian dari algoritma Rabin-Krab adalah 90,31%. Selain menggunakan algoritma Rabin-Karb, algoritma pencocokan string yang lain adalah algoritma
winnowing dengan tingkat keakurasian untuk
algoritma winnowing adalah 75-80%. Pada
penelitian ini untuk mencocokkan string
menggunakan metode Vector Space Model (VSM).
Maka dari itu penelitian ini diharapkan mendapat suatu hasil penelitian berupa hasil nilai akurat dari metode VSM.
1.1Rumusan Masalah
Berdasarkan latar belakang yang telah diuraikan oleh penulis di atas, maka dapat dirumuskan suatu masalah yaitu bagaimana cara mencocokkan kata dan merekomendasikan nilai terhadap jawaban esai
yang telah dimasukan siswa di dalam media pembelajaran.
1.2Maksud Dan Tujuan
Berdasarkan permasalahan yang diteliti, maka maksud dari penulisan tugas akhir ini adalah
mengimplementasikan metode Vector Space Model
(VSM) untuk pencocokan kata dan rekomendasi nilai terhadap jawaban esai.
Sedangkan tujuan yang akan dicapai dalam penelitian ini adalah sebagai berikut :
1. Untuk melihat keakurasian dari metode
VSM dalam mencocokkan kata.
2. Untuk melihat seberapa akurat sistem
dalam memberikan rekomendasi nilai terhadap jawaban siswa yang telah dengan kunci jawaban.
1.3Batasan Masalah
Terdapat beberapa batasan permasalahan yang dapat dirumuskan agar pembahasan masalah dapat lebih terarah dan terperinci, dengan maksud untuk mempermudah identifikasi dan pemahaman terhadap
aplikasi. Adapun batasan masalah dalam
implementasi metode VSM ini adalah.
1. Bahasa yang dapat dibaca oleh sistem harus
dengan bahasa Indonesia yang baik dan benar.
2. Data yang akan digunakan diperoleh dari
Sekolah Menengah Atas (SMA) Negeri 13 Palembang. Data berupa kumpulan soal dan jawaban yang digunakan oleh guru di SMA Negeri 13 Palembang.
3. Studi kasus mata pelajaran Ekonomi kelas
X (Sepuluh). Karena di dalam mata pelajaran tersebut mengandung banyak teori dibandingkan mata pelajaran lain.
4. Menggunakan algoritma Nazief dan
Adriani dalam melakukan proses stemming
dan stopword.
5. Menggunakan metode Vector Space Model
(VSM) dalam mencocokan kata, sedangkan
untuk metode pembobotan kata
menggunakan Term Frequency (TF).
6. Menggunakan persentase nilai jawaban
dalam memberikan rekomendasi nilai.
7. Menggunakan pemograman berorientasi
Jurnal Ilmiah Komputer dan Informatika (KOMPUTA)
2Edisi.1 Volume. 1 Bulan AGUSTUS ISSN : 2089-9033
8. Untuk memodelkan perangkat lunak
menggunakan Unified Modeling Language
(UML).
9. Sistem yang akan dibangun berbasis
website.
1.4Metodologi Penelitian
Metologi penelitian yang digunakan oleh penulis dalam menulis laporan tugas akhir ini adalah metodologi deskriptif, yaitu metode pembahasan masalah yang digunakan untuk menggambarkan objek untuk diteliti, dengan cara mencari, mengumpulkan, dan menganalisis data yang diperoleh.
1.4.1 Metode Pengumpulan Data
Metode pengumpulan data yang digunakan dalam penelitian adalah Studi Pustaka. Studi Pustaka yang dilakukan adalah dengan mempelajari berbagai literatur,
seperti buku-buku, artikel-artikel, e-book,
website, jurnal, dan sumber-sumber yang berkaitan dengan metode VSM yang akan dibangun, meliputi kecerdasan buatan,
desain, tools dan juga pemodelan dengan
UML yang dapat membantu menyelesaikan implementasi metode VSM ini.
1.4.2 Metode Pembangunan Perangkat Lunak
Metode yang digunakan untuk
pembangunan perangkat lunak dalam
penelitian ini menggunakan Agile Model.
Model ini adalah model yang memberikan
pendekatan-pendekatan sistematis dan
berurutan bagi pengembang piranti lunak menurut Roger S. Pressman [5] adalah :
a. Planning
Tahap perancangan yang dilakukan adalah dengan pemodelan menggunakan metode
pemrograman berorientasi objek dan
menerapkan metode VSM pada sistem jawaban esai untuk pencocokkan kata dan rekomendasi nilai.
b. Design
Tahap design merupakan tahap
perancangan dari pembangunan sistem jawaban esai yang akan dibuat untuk
identifikasi dan mengatur class – class di
konsep object oriented.
c. Coding
Setelah tahap perancangan sistem
selanjutnya dilakukan konversi rancangan
sistem ke dalam kode – kode bahasa
pemograman yang digunakan yaitu php.
d. Testing
Pengujian sistem dilakukan untuk memastikan bahwa aplikasi yang dibuat telah sesuai dengan desainnya dan semua fungsi dapat dipergunakan dengan baik tanpa ada kesalahan.
Gambar 1. Model Agile [5]
2. ISI PENELITIAN
2.1Vector Space Model (VSM)
Vector space model (VSM) adalah representasi kumpulan dokumen sebagai vektor dalam sebuah ruang vektor. VSM merupakan teknik dasar dalam perolehan informasi yang dapat digunakan untuk penilaian relevansi dokumen terhadap kata kunci
pencarian (query) pada mesin pencari, klasifikasi
dokumen, dan pengelompokan dokumen [3]. Dalam
Vector Space Model, koleksi dokumen
direpresentasikan sebagai sebuah matrik
term-document (matrik term-frequency). Setiap sel dalam matrik bersesuaian dengan bobot yang diberikan dari
suatu term dalam dokmen yang ditentukan. Nilai nol
berarti bahwa term tersebut tidak hadir dalam
dokumen [4].
D1 : Saya mahasiswa Ilmu Komputer
D2 : Saya menimba ilmu di Fakultas Ilmu Komputer D3 : Mahasiswa Fakultas Ilmu Komputer banyak
D1 D2 D3
maka akan didapatkan representasi nilai numerik dokummen sehingga kemudian dapat dihitung kedekatan antar dokumen. Semakin dekat dua vektor di dalam suatu VSM, maka semakin mirip dua dokumen yang diwakili vektor tersebut. Terdapat
empat fungsi untuk mengukur kemiripan (similarity
measure) yang dapat digunakan untuk model ini : 1.Cosine distance / cosine similarity
2.Inner similarity
3.Dice similarity
4.Jaccard similarity
Salah satu ukuran kemiripan teks yang popular
adalah cosine similarity. Ukuran ini menghitung
nilai cosinus sudut antara dua vektor. Jika terdapat
dua vektor dokumen d dan query q, serta t term
diekstrak dari koleksi dokumen maka nilai cosinus antara d dan q didefinisikan sebagai berikut :
(1)
2.2Term Frequency-Inverse Document Frequency
(TF-IDF) Weighting
Metode pembobotan yang paling sederhana
terhadap suatu term (term weighting) adalah dengan
menggunakan frekuensi kemunculan term (kata) /
term frequency (TF) yang bersangkutan pada suatu
dokumen. Inverse Document Frequency (IDF)
adalah logaritma dari rasio jumlah keseluruhan dokumen yang diproses dengan jumlah dokumen
yang memiliki term bersangkutan. Lalu Salton
bereksperimen untuk mengkombinasikan kedua
metode pembobotan tersebut, dengan
mempertimbangkan frekuensi inter-dokumen dan
frekuensi intra-dokumen dari suatu term. Dengan
menggunakan frekuensi term pada suatu dokumen
dan distribusinya pada keseluruhan dokumen, yakni kemunculan pada dokumen-dokumen lain (IDF). Salton menarik kesimpulan melalui eksperimennya
bahwa term-term dengan total frekuensin menengah,
lebih berguna dalam retrieval jika dibandingkan
dengan term-term yang total frekuensinya terlalu
tinggi atau terlalu rendah. Konsep intra-dokumen dan inter-dokumen ini kemudian dikenal sebagai metode TF-IDF.
Rumus yang digunakan untuk menyatakan bobot
(w) masing-masing dokumen terhadap kata kunci
2.3Algoritma Stemming Nazief dan Adriani
Algoritma stemming Nazief dan Adriani (1996)
dikembangkan berdasarkan aturan morfologi Bahasa Indonesia yang mengelompokkan imbuan menjadi awalan (prefix), sisipan (infix), akhiran (suffix) dan
gabungan awalan-akhiran (confixes). Algoritma ini
menggunakan kamus kata dasar dan mendukung
recoding, yakni penyusunan kembali kata-kata yang
mengalami proses stemming berlebih.
Aturan morfologi Bahasa Indonesia
mengelompokkan imbuhan ke dalam beberapa kategori sebagai berikut :
1) Inflection suffixes yakni kelompok akhiran yang tidak merubah bentuk kata dasar.
Sebagai contoh, kata “duduk” yang
diberikan akhiran “-lah” akan menjadi
“duduklah”.
Kelompok ini dibagi menjadi dua :
a. Particle (P) atau partikel, yakni
termasuk di dalamnya “-lah”, “-kah”,
“-tah”, dan “-pun”.
b. Possessive Pronoun (PP) atau kata
ganti kepunyaan, termasuk di
dalamnya adalah “-ku”, “-mu”, dan “
-nya”.
2) Derivation Suffixes (DS) yakni kumpulan akhiran asli Bahasa Indonesia yang secara langsung ditambahkan pada kata dasar yaitu
akhiran “-i”, “-kan”, dan “-an”.
3) Derivation Prefixes (DP) yakni kumpulan awalan yang dapat langsung diberikan pada kata dasar murni, atau pada kata dasar yang sudah mendapatkan penambahan sampai dengan 2 awalan. Termasuk di dalamnya adalah :
a. Awalan yang dapat bermorfologi
(“me-”, ”be-”, “pe-”, dan “te-”)
b. Awalan yang tidak bermorfologi (“di
-”, “ke-”, dan “se-”)
Aturan untuk pemenggalan kata awalan pada
algoritma stemmer Nazief dan Adiani dapat dilihat
pada Tabel dibawah ini.
Tabel 1 Aturan Pemenggalan Awalan Stemmer
Nazief Dan Adriani [7]
Aturan Format Kata Pemenggalan
Jurnal Ilmiah Komputer dan Informatika (KOMPUTA)
4Edisi.1 Volume. 1 Bulan AGUSTUS ISSN : 2089-9033
Aturan Format Kata Pemenggalan
5 beC1erC2… be-C1erC2.. dimana
24 perCAerV... per-CAerV...
dimana C!=’r’
Keterangan simbol huruf : C : huruf konsonan V : huruf vokal
A : huruf vokal atau konsonan
P : partikel atau fragmen dari suatu kata,
misalnya “er”
2.4 Morphological Analysis
Morphological Analysis adalah proses dimana setiap kata yang berdiri sendiri (individual word) dianalisis kembali ke komponen pembentuk dan token nonword seperti tanda baca dan sebagainya dipisahkan dari kata tersebut. Hasil akhir dari proses ini adalah proses Parsing. Parsing adalah proses mengkonversikan daftar kata yang berbentuk
kalimat ke dalam bentuk struktur yang
mendefinisikan unit yang diwakili oleh sebuah daftar [6]. Pada tabel dibawah ini dapat dilihat beberapa karakter (token nonword)yang harus dipisahkan dari kata.
Tabel 2 Karakter (Token Nonwrod)
Karakter
Stopword removal adalah sebuah proses untuk
menghilangkan kata yang ‘tidak relevan’ pada hasil
parsing sebuah dokumen teks dengan cara
membandingkannya dengan stoplist. Stoplist berisi
sekumpulan kata yang ‘tidak relevan’, namun sering sekali muncul dalam sebuah dokumen. Pada tabel
dibawah ini merupakan daftar stoplist yang
digunakan didalam sistem.
Tabel 3 Daftar Stoplist [7]
Stoplist
'yang' ‘untuk’ ‘ini’ ‘telah’ ‘begitu’
‘pada’ ‘ke’ ‘karena’ ‘dari’ ‘maka’ ‘menur
ut’ ‘namun’ ‘kepada’ ‘di’ ‘lagi’ ‘antara’ ‘dia’ ‘oleh’ ‘serta’ ‘tentang’ ‘ia’ ‘dua’ ‘saat’ ‘bagi’ ‘demi’ ‘seperti
’ ‘tidak’ ‘harus’ ‘sekitar’ ‘dimana’ ‘jika’ ‘dan’ ‘sementa
ra’ ‘kami’ ‘kemana’ ‘sehing
ga’ ‘kembali’ ‘setelah’ ‘belum’ ‘sampai’ ‘sebaga
i’ ‘ada’ ‘mereka’ ‘anda’ ‘sedangkan’ ‘masih’ ‘juga’ ‘sudah’ ‘itulah’ ‘selagi’ ‘hal’ ‘akan’ ‘saya’ ‘daripa
‘adalah
’ ‘kita’ ‘secara’ ‘yaitu’ ‘tetapi’ ‘itu’ ‘hanya
’ ‘agar’ ‘kenapa’ ‘apakah’ ‘dalam’ ‘atau’ ‘lain’ ‘menga
pa’ ‘supaya’ ‘bisa’ ‘bahwa
’ ‘anda’ ‘begitu’ ‘dll’
2.6 Stemming & Lemmatization
Stemming merupakan sebuah proses yang bertujuan untuk mereduksi jumlah variasi dalam representasi dari sebuah kata. Resiko dari proses stemming adalah hilangnya informasi dari kata yang di-stem. Hal ini menghasilkan menurunnya akurasi atau presisi. Sedangkan, keuntungannya adalah, proses stemming dapat meningkatkan kemampuan untuk melakukan recall.
Tujuan dari stemming sebearnya adalah
meningkatkan performance dan mengurangi
penggunaan resource dari system dengan
mengurangi jumlah unique word yang harus diakomodasikan oleh sistem. Jadi, secara umum algoritma stemming mengerjakan transformasi dari sebuah kata menjadi sebuah standar representasi morfologi (yang dikenal sebagai stem).
Lemmatization adalah sebuah proses untuk menemukan bentuk dasar dari sebuah kata. Ada sebuah teori yang menjelaskan bahwa lemmatization adalah proses yang bertujuan untuk melakukan normalisasi pada teks atau kata berdasarkan bentuk
dasar yang merupakan bentuk lemma-nya.
Normalisasi disini dalam artian mendefinisikan dan menghapus sebuah prefix serta suffiks dari sebuah kata. Lemma adalah bentuk dasar dari sebuah kata yang memiliki arti tertentu berdasarkan pada kamus.
2.7 Proses Utama Sistem
Parsing
Gambar 3 Alur Proses Utama Sistem
Penjelasan dari gambar 2.2 adalah sebagai berikut :
1. Pengecekan Database
pertanyaan mana saja yang telah di jawab oleh siswa.
2. Parsing
Merupakan proses mencari kata-kata unik dari jawaban yang telah dimasukkan oleh siswa.
3. Stopword dan Stemming
Merupakan proses pencarian kata-kata
sambung, seperti : dengan, atau, yang dsb, dan mengembalikan kata ke dalam kata dasarnya.
4. Pencocokan kata menggunakan metode VSM
Merupakan proses pencocokan kata masukan dari siswa dan kunci jawaban yang terdapat
di dalam database.
5. Rekomendasi Nilai
Merupakan proses memberikan rekomendasi nilai sesuai dengan kecocokan antara jawaban siswa dengan kunci jawaban yang terdapat di
dalam database.
2.7.1Pengecekan Database
Merupakan langkah dimana sistem melakukan pengecekan kedalam database, pertanyaan mana saja yang telah di jawab oleh siswa.
Sta rt
Gambar 4 Flowchart Proses Pengecekan Database
2.7.2 Parsing
Jurnal Ilmiah Komputer dan Informatika (KOMPUTA)
6Edisi.1 Volume. 1 Bulan AGUSTUS ISSN : 2089-9033
Start
Proses parsing Jawaban
Siswa
End
Gambar 5 Flowchart Proses Parsing Jawaban Siswa
2.7.3 Stopword dan Stemming
Merupakan proses pencarian kata-kata sambung, seperti : dengan, atau, yang dsb, dan mengembalikan kata ke dalam kata dasarnya.
Start
Gambar 6 Flowchart Penghapusan Kata-Kata
(Stopword)
Gambar 7 Flowchart Algoritma Nazief Dan Adriani
[7]
2.7.4 Pencocokan Kata
Metode yang digunakan dalam mencocokkan
kata adalah metode Vector Space Model (VSM).
Gambar 8 Alur Proses Utama VSM
Untuk menghitung jumlah kata yang cocok
digunakan cosine similarity. Rumus untuk
menghitungnya adalah sebagai berikut :
2.7.5 Rekomendasi Nilai
Merupakan proses memberikan rekomendasi nilai sesuai dengan kecocokan antara jawaban siswa dengan kunci jawaban yang terdapat di dalam
essay
1. Perancangan Antarmuka Tampilan Utama
A01
maka akan ke form A03 3. Pilih to bol sub it
Gambar 11 Perancangan Antarmuka Tampilan Utama
Gambar 12 Perancangan Antarmuka Tampilan Manajemen Pertanyaan Essay
3. Perancangan Antarmuka Tampilan Penilaian
Gambar 13 Perancangan Antarmuka Tampilan Penilaian
3. IMPLEMENTASI DAN HASIL PENGUJIAN
3.1 Implementasi Antarmuka
Dari perancangan antarmuka yang telah dibuat pada bab sebelumnya, maka tahap
selanjutnya yaitu mengimplementasikannya
menjadi sebuah tampilan. Implementasi
Jurnal Ilmiah Komputer dan Informatika (KOMPUTA)
8Edisi.1 Volume. 1 Bulan AGUSTUS ISSN : 2089-9033
1. Implementasi Antarmuka Tampilan Utama
Gambar 14 Implementasi Antarmuka Tampilan Utama
2.Implementasi Antarmuka Tampilan Manajemen Pertanyaan Essay
Gambar 15 Implementasu Antarmuka Tampilan Manajemen Pertanyaan Essay
3.Implementasi Antarmuka Tampilan Penilaian
Gambar 16 Implementasi Antarmuka Tampilan Penilaian
3.2. Hasil Pengujian
Pengujian akurasi dimulai dengan
pengkoreksian secara manual, yaitu guru langsung mengkoreksi jawaban yang telah di jawab oleh
siswa. Kemudian untuk tahap selanjutnya
menggunakan metode VSM untuk pencocokan kata dan sistem dalam memberikan rekomendasi nilai. Setelah dilakukan kedua proses tersebut akan didapatkan perbandingan hasil keakuratan antara koreksi yang dilakukan oleh guru dan yang dilakukan oleh sistem. Dalam hal ini diambil data
contoh jawaban dari lima orang siswa.
Didapatkanlah Hasil yang dapat dilihat pada gambar dibawah ini :
Gambar 17 Perbandingan Hasil Koreksi Guru Dan Sistem
4. PENUTUP
4.1. Kesimpulan
Berdasarkan hasil pengujian dapat ditarik
kesimpulan sebagai berikut :
1. Metode VSM dapat mencocokkan kata antara
kunci jawaban dan jawaban yang telah dimasukkan oleh siswa.
2. Didapatkan rata-rata nilai yang di
rekomendasikan oleh sistem adalah 56,07% dan rata-rata nilai yang direkomendasikan oleh guru adalah 84%, dan perbedaan antara nilai yang diberikan oleh guru dan sistem adalah 27,93%.
3. Waktu yang dibutuhkan oleh sistem dalam
mencocokkan kata dan memberikan rekomendasi nilai sangat lama, dikarenakan semakin banyak siswa yang memasukkan jawabannya, semakin banyak pula waktu yang dibutuhkan oleh sistem dalam mencocokkan kata dan memberikan rekomendasi nilai. Rata-rata waktu yang dibutuhkan sistem dalam mencocokkan kata dan memberikan rekomendasi nilai untuk contoh diatas adalah 17 detik.
4.1 Saran
Berikut adalah saran yang dapat dilakukan untuk pengembangan dari penelitian yang telah dilakukan :
1. Untuk meningkatkan keakurasian sistem
dalam memberikan rekomendasi nilai lebih
baik menggunakan metode Natural
Language Processing (NLP) karena NLP menilai tidak hanya menilai berdasarkan kesamaan kata saja, tapi berdasarkan
susunan kata (grammar) dari jawaban yang
telah dimasukkan oleh siswa.
2. Untuk penelitian lebih lanjut disarankan
DAFTAR PUSTAKA
[1] S. Hamza, M. Sarosa and P. B. Santoso, "Sistem Koreksi Soal Essay Otomatis Dengan
Menggunakan Metode Rapid Karp," Jurnal
EECCIS, vol. 7, 2013.
[2] S. Astutik, A. D. Cahyani and M. K. Sophan,
"Sistem Penilaian Otomatis Dengan
Menggunakan Algoritma Winnowing," Jurnal
Informatika, vol. 12, pp. 47 - 52, 2014.
[3] H. Septiantri, "Perbandingan Metode Latent Semantic Analysis Dan Vector Space Model Untuk Sistem Penilaian Jawaban Esai Otomatis Bahasa Indonesia," 2009.
[4] Darmawan, Heru Adi; Wurijanto, Tutut; Masturi, Akh;, "Rancang Bangun Aplikasi Search Engine Tafsir Al-Qur'an Menggunakan Teknik Text Mining Dengan Algoritma VSM (Vector Space Model)".
[5] R. S. Pressman and B. R. Maxim, Software Engineering, A Practitioner's Approach Eighth Edition, New York: McGraw-Hill Education, 2015.
[6] W. Budiharto and D. Suhartono, Artificial Intelligence : Konsep dan Penerapannya, Jakarta: Andi, 2014.
[7] Tahitoe, Andita Dwiyoga, "Implementasi
Modifikasi Enchanced Confix Stripping
Stemmer Untuk Bahasa Indonesia Dengan
Metode Corpus Based Stemming," Jurnal
Informatika, 2010.
[8] S. Dikli, "An Overview Of Automated Scoring
Of Essay," The Journal of Technology,
Learning,and Assessment, Vols. 5, number 1, 2006.
[9] R. A. S. and M. S. , Rekayasa Perangkat Lunak : Terstruktur dan Berorientasi Objek, Bandung: Informatika, 2013.
Jurnal Ilmiah Komputer dan Informatika (KOMPUTA)
1Edisi. 1Volume. 1 Bulan AGUSTUS ISSN : 2089-9033
IMPLEMENTATION OF VECTOR SPACE MODEL (VSM) FOR
ESSAY ANSWER SCORING RECOMMENDATION
Harry Septianto
Teknik Informatika – Universitas Komputer Indonesia
Jl. Dipatiukur 112-114 Bandung Email : [email protected]
ABSTRACT
Each learning process requires an evaluation form of the exam. Exam can be done in three types, the first of which is a multiple choice exam, short stuffing exam and essay exams. Essay exam is the evaluation of learning in the form of essay questions that have answers more varied than multiple choice questions. Variations of these answers give trouble to teachers in assessing the essay. In this study, the method used for matching words is a method of Vector Space Model (VSM).
Keywords : Vector Space Model, Essay Exam, Scoring Recommendation
1. INTRODUCTION
Each learning process requires an evaluation form of the exam. Exam can be done in three types, the first of which is a multiple choice exam, short stuffing exam and essay exams. Essay exam is the evaluation of learning in the form of essay questions that have answers more varied than multiple choice questions. Variations of these answers give trouble to teachers in assessing the essay.
There have been many studies on automatic correction of essays, one of which is the research conducted by Sahriar Hamzah, M. Budi Santoso Sarosa and Purnomo which uses an algorithm Carbs. The level of accuracy of the algorithm Rabin-Krab is 90.31%. In addition to using the algorithm Rabin-Carbs, another string matching algorithm is an algorithm with a level of accuracy Winnowing Winnowing algorithm is 75-80%. In this research to match the word using Vector Space Model (VSM).
Therefore this study is expected to obtain a result of an accurate scoring of VSM.
1.1 Formulation of The Problem
Based on the background described by the authors above, it can be formulated problem is how to match the word and recommending the value of the essay that has included students in the learning media.
1.2 Objective And Purpose
Based on the problems studied, the purpose of this thesis is to implement methods of Vector Space Model (VSM) for matching words and on the value of the essay.
While the objectives to be achieved in this study are as follows:
1.3Scope of Problem
There are some limitations problems that can be formulated so that the discussion of the problem can be more focused and detailed, with a view to facilitate the identification and understanding of the
application. The limit problems in the
implementation of this VSM are :
1 The languages that can be read by system must
be in Indonesian good and be in agreement
2 The data was used from Senior High School
(SMAN)13 Palembang. Data in the form of a collection of questions and answer that are used by teacher in SMAN 13 Palembang.
3 The case that used is Economy class X (ten).
Because in these subject contains many theories compared to other subjects.
4 Using Nazief and Adriani algorithm in the
process of stemming and stopword.
5 Using the methods of Vector Space Model
(VSM) in the matching word, while the word for weighting method using Term Frequency (TF).
6 Using a percentage of the value of the answers in
the recommendation value.
7 Using object-oriented programming.
8 To model the software using the Unified
Modeling Language (UML).
9 The system will be built based website.
1.4Research Methodology