Implementasi Metode Vector Space Model (VSM) Untuk Rekomendasi Nilai terhadap Jawaban Essay

(1)

IMPLEMENTASI METODE

VECTOR SPACE MODEL

(VSM)

UNTUK REKOMENDASI NILAI TERHADAP JAWABAN

ESSAY

SKRIPSI

Diajukan Untuk Menempuh Ujian Akhir Sarjana

HARRY SEPTIANTO 10110646

PROGRAM STUDI TEKNIK INFORMATIKA

FAKULTAS TEKNIK DAN ILMU KOMPUTER

UNIVERSITAS KOMPUTER INDONESIA

BANDUNG

(2)

iv

karunia-Nya sehingga penulis dapat menyelesaikan skripsi yang berjudul “IMPLEMENTASI METODE VECTOR SPACE MODEL (VSM) UNTUK REKOMENDASI NILAI TERHADAP JAWABAN ESSAY”.

Penyusunan skripsi ini tidak akan terwujud tanpa mendapat dukungan, bantuan dan masukan dari berbagai pihak. Untuk itu, penulis ingin menyampaikan terimakasih yang sebesar-besarnya kepada :

1. Ayah saya tercinta Sumartoyo dan ibunda saya Purwanti S.Pd yang memberi dukungan materi, moril, rohani, dan semua yang dibutuhkan oleh penulis selama penulisan skripsi ini berlangsung. Dan tidak ketinggalan kepada seluruh keluarga besar penulis yang selalu memberikan masukan, dan terimakasih atas segala doa beserta dorongan dan motivasinya, sehingga dapat terselesaikan tugas akhir ini.

2. Bapak Galih Hermawan, S.Kom., M.T. selaku dosen pembimbing yang selama ini telah banyak memberikan pengarahan serta masukan yang berharga, kritik, dan pengalaman berkesan selama masa bimbingan sehingga skripsi ini dapat terselesaikan dengan baik.

3. Ibu Nelly Indriani W., S.Si., M.T selaku dosen reviewer seminar dan dosen wali yang selama ini telah banyak memberikan pengarahan serta masukan yang berharga.

4. Bapak Irawan Afrianto S.T.,M.T., sebagai ketua program studi Teknik Informatika di UNIKOM.

5. Bapak ibu dosen yang selama ini membimbing dalam menempuh berbagai mata kuliah yang penulis dapatkan di program studi Teknik Informatika. 6. Para sahabat dan teman-teman seperjuangan di IF15, Andi Juansyah, Hegi

Burnandharie, Muhammad Zamzam, Anton Prosetyo, Wisnu Dewantoro, Lingga Agitya dan teman-teman lain yang telah memberikan dukungan moral kepada saya.

Akhir kata, semoga skripsi ini dapat bermanfaat bagi para pembaca

Bandung, Agustus 2015

(3)

79

DAFTAR PUSTAKA

[1] S. Hamza, M. Sarosa and P. B. Santoso, "Sistem Koreksi Soal Essay Otomatis Dengan Menggunakan Metode Rapid Karp," Jurnal EECCIS, vol. 7, 2013.

[2] S. Astutik, A. D. Cahyani and M. K. Sophan, "Sistem Penilaian Otomatis Dengan Menggunakan Algoritma Winnowing," Jurnal Informatika, vol. 12, pp. 47 - 52, 2014.

[3] H. Septiantri, "Perbandingan Metode Latent Semantic Analysis Dan Vector Space Model Untuk Sistem Penilaian Jawaban Esai Otomatis Bahasa Indonesia," 2009.

[4] Darmawan, Heru Adi; Wurijanto, Tutut; Masturi, Akh;, "Rancang Bangun Aplikasi Search Engine Tafsir Al-Qur'an Menggunakan Teknik Text Mining Dengan Algoritma VSM (Vector Space Model)".

[5] R. S. Pressman and B. R. Maxim, Software Engineering, A Practitioner's Approach Eighth Edition, New York: McGraw-Hill Education, 2015.

[6] W. Budiharto and D. Suhartono, Artificial Intelligence : Konsep dan Penerapannya, Jakarta: Andi, 2014.

[7] Tahitoe, Andita Dwiyoga, "Implementasi Modifikasi Enchanced Confix Stripping Stemmer Untuk Bahasa Indonesia Dengan Metode Corpus Based Stemming," Jurnal Informatika, 2010.

[8] S. Dikli, "An Overview Of Automated Scoring Of Essay," The Journal of Technology, Learning,and Assessment, Vols. 5, number 1, 2006.

[9] R. A. S. and M. S. , Rekayasa Perangkat Lunak : Terstruktur dan Berorientasi Objek, Bandung: Informatika, 2013.

(4)

[11] N. Z. Harisma, "Implementasi Sistem Penilaian Esai Otomatis Metode LSA Dengan Tiga Bobot Kata Kunci," Skripsi Teknik Elektro Fakultas Teknik Universitas Indonesia, 2008.

(5)

v

DAFTAR ISI

ABSTRAK ... ii

ABSTRACT ... iii

KATA PENGANTAR ... iv

DAFTAR ISI ... v

DAFTAR GAMBAR ... ix

DAFTAR TABEL ... xi

DAFTAR SIMBOL ... xiii

DAFTAR LAMPIRAN ... xv

BAB 1 ... 1

PENDAHULUAN ... 1

1.1 Latar Belakang Masalah ... 1

1.2 Rumusan Masalah ... 2

1.3 Maksud danTujuan ... 2

1.4 Batasan Masalah... 2

1.5 Metodologi Penelitian ... 3

1.6 Sistematika Penulisan ... 5

BAB 2 ... 7

LANDASAN TEORI ... 7

2.1 Artificial Intelligence ... 7

2.2 Morphological Analysis ... 8

2.3 Stopwords Removal ... 8

2.4 Stemming & Lemmatization ... 9

2.5 Algoritma Stemming Nazief dan Adriani ... 10

(6)

vi

2.8.2 Term Frequency-Inverse Document Frequency (TF-IDF) Weighting 14

2.9 Pemograman Berorientasi Objek ... 15

2.9.1 Konsep Dasar Berorientasi Objek ... 16

2.9.2 Pengenalan UML ... 19

2.10 Database ... 20

2.11 MySql ... 20

2.12 Teori Pengujian ... 21

2.12.1 Black Box Testing ... 21

2.12.2 White Box Testing ... 22

Bab 3 ... 25

ANALISIS DAN PERANCANGAN SISTEM ... 25

3.1 Analisis Masalah ... 25

3.1.1 Analisis Sistem ... 25

3.1.1.1 Analisis Data Masukan ... 27

3.1.1.1.1 Pengecekan Database ... 27

3.1.1.1.2 Parsing ... 28

3.1.1.1.3 Stopword ... 31

3.1.1.1.4 Pencocokan Kata ... 33

3.1.1.1.5 Rekomendasi Nilai ... 36

3.1.2 Analisis Database ... 36

(7)

vii

3.2 Analisis Kebutuhan Non-Fungsional ... 37

3.2.1 Analisis Kebutuhan Perangkat Keras ... 37

3.2.2 Analisis Kebutuhan Perangkat Lunak ... 38

3.3 Analisis Kebutuhan Fungsional ... 38

3.3.1 Usecase ... 38

3.3.1.1 Identifikasi Aktor ... 39

3.3.1.2 Identifikasi Usecase ... 39

3.3.2 Skenario Usecase ... 40

3.3.3 Activity Diagram ... 42

3.3.4 Sequence Diagram ... 45

3.3.5 Class Diagram ... 47

3.4 Perancangan Sistem ... 48

3.4.1 Perancangan Database ... 48

3.4.1.1 Skema Relasi... 49

3.4.1.2 Struktur Tabel ... 49

3.4.2 Perancangan Antarmuka Sistem ... 50

3.4.3 Perancangan Jaringan Semantik ... 52

Bab 4 ... 55

IMPLEMENTASI DAN PENGUJIAN ... 55

4.1 Implementasi Sistem ... 55

4.1.1 Implementasi Perangkat Keras ... 55

4.1.2 Implementasi Perangkat Lunak ... 55

4.1.3 Implementasi Class Diagram ... 56

4.1.4 Implementasi Database ... 56

(8)

viii

4.2 Pengujian Sistem ... 60

4.2.1 Proses Pengujian Sistem ... 61

4.2.2 Skenario Pengujian... 61

4.2.3 Kasus dan Hasil Pengujian Black Box ... 61

4.2.3.1 Pengujian Manajemen Pertanyaan Essay ... 62

4.2.3.2 Pengujian Ikuti Ujian Siswa ... 65

4.2.4 Hasil dan Pengujian White Box ... 66

4.3 Pengujian Akurasi Sistem ... 73

4.4 Kesimpulan Pengujian ... 75

Bab 5 ... 77

KESIMPULAN DAN SARAN ... 77

5.1 Kesimpulan ... 77

5.2 Saran ... 77

(9)

1

BAB 1

PENDAHULUAN

1.1 Latar Belakang Masalah

Setiap proses pembelajaran membutuhkan suatu evaluasi berupa ujian. Ujian dapat dilakukan dalam tiga jenis, yang pertama yaitu ujian pilihan ganda, ujian isian singkat dan ujian esai. Ujian esai merupakan evaluasi pembelajaran dalam bentuk soal esai yang mempunyai jawaban lebih bervariasi dibandingkan soal pilihan ganda. Variasi jawaban tersebut memberikan kesulitan terhadap guru dalam menilai jawaban esai. Pada media pembelajaran, ujian yang banyak dilakukan adalah jenis ujian pilihan ganda dan ujian singkat. Hanya beberapa media pembelajaran yang menggunakan ujian esai. Metode yang digunakan pada sistem yang sudah berjalan adalah algoritma Rabin-Karb. Algoritma Rabin-Karb adalah pencocokan string yang menggunakan fungsi hash sebagai pembanding yag dicari (m) dengan substring pada teks (n). Penelitian ini dilakukan oleh Sahriar Hamzah, M. Sarosa dan Purnomo Budi Santoso. Keakurasian dari metode Rabin-Karb adalah 90,31%, dengan perbedaan rata-rata nilai sistem dan nilai guru hanya 0,01%-0,07% [1]. Selain menggunakan metode Rabin-Karb, metode yang di gunakan dalam pembangunan sistem jawaban esai adalah menggunakan metode string matching yaitu Algoritma Winnowing. Algoritma Winnowing adalah agoritma untuk mengukur kemiripan teks dengan cara mengubah teks menjadi nilai hash dann menentukan nilai fingerprint yang akan mewakili setiap teks pada proses kemiripan jawaban. Algoritma Winnowing menghasilkan akurasi dengan kunci jawaban sebesar 75-80% [2].

Untuk membantu guru dalam memeriksa jawaban esai diperlukan suatu metode pencocokan kata untuk mencocokkan kata antara jawaban siswa dan kunci jawaban guru. Metode yang akan dibahas didalam sistem pencocokan kata dan rekomendasi nilai adalah metode Vector Space Model (VSM). Metode

(10)

vektor dalam sebuah ruang vektor. Kumpulan kata-kata dan dokumen direpresentasikan dalam bentuk matriks kata-dokumen. Baris matriks mewakili kata-kata dan kolomnya mewakili dokumen [3]. Untuk metode pembobotan kata yang akan digunakan adalah Term Frequency (TF), yaitu pembobotan berdasarkan seberapa sering kata (term) muncul dalam satu dokumen [4].

Dalam penelitian yang akan dilakukan ini untuk mengimplementasikan metode VSM untuk pencocokan kata dan merekomendasikan nilai terhadap jawaban esai. Maka dari itu penelitian ini diharapkan mendapat suatu hasil penelitian berupa hasil nilai akurat dari metode VSM.

1.2 Rumusan Masalah

Berdasarkan latar belakang yang telah diuraikan oleh penulis di atas, maka dapat dirumuskan suatu masalah yaitu bagaimana cara mencocokkan kata dan merekomendasikan nilai terhadap jawaban esai yang telah dimasukan siswa di dalam media pembelajaran.

1.3 Maksud danTujuan

Berdasarkan permasalahan yang diteliti, maka maksud dari penulisan tugas akhir ini adalah mengimplementasikan metode Vector Space Model (VSM) untuk pencocokan kata dan rekomendasi nilai terhadap jawaban esai.

Sedangkan tujuan yang akan dicapai dalam penelitian ini adalah sebagai berikut :

1. Untuk melihat keakurasian dari metode VSM dalam mencocokkan kata.

2. Untuk melihat seberapa akurat sistem dalam memberikan rekomendasi nilai terhadap jawaban siswa yang telah dengan kunci jawaban.

(11)

3

1.4 Batasan Masalah

Terdapat beberapa batasan permasalahan yang dapat dirumuskan agar pembahasan masalah dapat lebih terarah dan terperinci, dengan maksud untuk mempermudah identifikasi dan pemahaman terhadap aplikasi. Adapun batasan masalah dalam implementasi metode VSM ini adalah.

1. Bahasa yang dapat dibaca oleh sistem harus dengan bahasa Indonesia yang baik dan benar.

2. Data yang akan digunakan diperoleh dari Sekolah Menengah Atas (SMA) Negeri 13 Palembang. Data berupa kumpulan soal dan jawaban yang digunakan oleh guru di SMA Negeri 13 Palembang.

3. Studi kasus mata pelajaran Ekonomi kelas X (Sepuluh). Karena di dalam mata pelajaran tersebut megandung banyak teori dibandingkan mata pelajaran lain.

4. Menggunakan algoritma Nazief dan Adriani dalam melakukan proses

stemming dan stopword.

5. Menggunakan metode Verctor Space Model (VSM) dalam mencocokan kata, sedangkan untuk metode pembobotan kata menggunakan Term Frequency (TF).

6. Menggunakan persentase nilai jawaban dalam memberikan rekomendasi nilai.

7. Menggunakan pemograman berorientasi objek.

8. Untuk memodelkan perangkat lunak menggunakan Unified Modeling Language (UML).

9. Sistem yang akan dibangun berbasis website.

1.5 Metodologi Penelitian

Metologi penelitian yang digunakan oleh penulis dalam menulis laporan tugas akhir ini adalah metodologi deskriptif, yaitu metode pembahasan masalah yang digunakan untuk menggambarkan objek untuk diteliti, dengan cara mencari, mengumpulkan, dan menganalisis data yang diperoleh.

(12)

Metode pengumpulan data yang digunakan dalam penelitian adalah Studi Pustaka. Studi Pustaka yang dilakukan adalah dengan mempelajari berbagai literatur, seperti buku-buku, artikel-artikel, e-book, website, jurnal, dan sumber-sumber yang berkaitan dengan metode VSM yang akan dibangun, meliputi kecerdasan buatan, desain, tools dan juga pemodelan dengan UML yang dapat membantu menyelesaikan implementasi metode VSM ini.

2. Metode Pembangunan Perangkat Lunak

Metode yang digunakan untuk pembangunan perangkat lunak dalam penelitian ini menggunakan Agile Model. Model ini adalah model yang memberikan pendekatan-pendekatan sistematis dan berurutan bagi pengembang piranti lunak menurut Roger S. Pressman [5] adalah :

a. Planning

Tahap perancangan yang dilakukan adalah dengan pemodelan menggunakan metode pemograman berorientasi objek dan menerapkan metode VSM pada sistem jawaban esai untuk pencocokkan kata dan rekomendasi nilai.

b. Design

Tahap design merupakan tahap perancangan dari pembangunan sistem jawaban esai yang akan dibuat untuk identifikasi dan mengatur class – class

di konsep object oriented.

c. Coding

Setelah tahap perancangan sistem selanjutnya dilakukan konversi rancangan sistem ke dalam kode – kode bahasa pemograman yang digunakan yaitu php.

d. Testing

(13)

5

Gambar 1. 1 Model Agile[5]

1.6 Sistematika Penulisan

Sistematika penulisan yang dilakukan pada tugas akhir ini adalah sebagai berikut:

BAB I PENDAHULUAN

Bab ini mengemukakan latar belakang judul, identifikasi masalah, batasan masalah, metodologi penelitian, serta sistematika penulisan. BAB II LANDASAN TEORI

Bab ini akan menjelaskan tentang semua landasan teori yang berhubungan dengan sistem yang akan dibuat yaitu menyangkut

artificial intelligence, metode Vector Space Model (VSM), Algoritma Nazief Dan Adriani, rekomendasi nilai, jawaban esai,

Automated Essay Scoring (AES), Vector Space Model (VSM), pemograman beroreintasi objek, database, MySQl, teori pengujian. BAB III ANALISIS DAN PERANCANGAN SISTEM

(14)

BAB IV IMPLEMENTASI DAN PENGUJIAN SISTEM

Bab ini berisi hasil dan bahasan yang ditekankan pada perumusan masalah, yaitu tentang pengujian sistem, serta analisa terhadap hasil yang telah didapatkan.

BAB V KESIMPULAN DAN SARAN

(15)

7

BAB 2

LANDASAN TEORI

2.1Artificial Intelligence

Artificial Intelligence (AI)atau Kecerdasan Buatan merupakan bidang ilmu komputer yang mempunyai peran penting di era kini dan masa akan datang. Bidang ini telah berkembangsangat pesat di 20 tahun terakhir seiring dengan pertumbuhan kebutuhan akan perangkat cerdas pada industri dan rumah tangga. Kata Intelligence

berasal dari bahasa latin intelliga yang berati saya “saya paham”. Jadi, Intelligence

adalah kemampuan memahami dan melakukan aksi. McCarthy mendefinisikan AI

sebagai,”AI merupakan cabang dari ilmu komputer yang berfokus pada

pengembangan komputer untuk dapat memiliki kemampuan dan berprilaku seperti

manusia” [6].

Philoshopy & Cognitive

Science

Mathematics Psychology Computer

Science

Artificial Intelligence

*Reasoning *Learning *Planning *Perception *Knowledge Acquistion *Intelligence Search *Uncertain Management

Expert System

Computer Vision

Natural Language Processing

Robotic and Navigatio

n

Games Theorem

Proving

Gambar 2. 1 Domain Area AI [6]

Tujuan dari sistem kecerdasan buatan dibagi dalam 4 kategori [6]: 1. Sistem yang dapat berpikir seperti manusia

(16)

2.2Morphological Analysis

Morphological Analysis adalah proses dimana setiap kata yang berdiri sendiri (individual word) dianalisis kembali ke komponen pembentuk dan token nonword seperti tanda baca dan sebagainya dipisahkan dari kata tersebut. Hasil akhir dari proses ini adalah proses Parsing. Parsing adalah proses mengkonversikan daftar kata yang berbentuk kalimat ke dalam bentuk struktur yang mendefinisikan unit yang diwakili oleh sebuah daftar [6]. Pada tabel 2.1 dapat dilihat beberapa karakter (token nonword)yang harus dipisahkan dari kata.

Tabel 2. 1 Tabel Karakter (Token Nonwrod)

Karakter

! ~ + /

@ & + \

# * { “

$ ( } ‘

% ) [ :

^ - ] :

` _ | .

, < > ?

White space (tab, spasi, enter)

2.3Stopwords Removal

Stopword removal adalah sebuah proses untuk menghilangkan kata yang

‘tidak relevan’ pada hasil parsing sebuah dokumen teks dengan cara

membandingkannya dengan stoplist. Stoplist berisi sekumpulan kata yang ‘tidak

relevan’, namun sering sekali muncul dalam sebuah dokumen. Pada tabel 2.2

(17)

9

Tabel 2. 2 Daftar Stoplist [7]

Stoplist

'yang' ‘untuk’ ‘ini’ ‘telah’ ‘begitu’

‘pada’ ‘ke’ ‘karena’ ‘dari’ ‘maka’

‘menurut’ ‘namun’ ‘kepada’ ‘di’ ‘lagi’

‘antara’ ‘dia’ ‘oleh’ ‘serta’ ‘tentang’

‘ia’ ‘dua’ ‘saat’ ‘bagi’ ‘demi’

‘seperti’ ‘tidak’ ‘harus’ ‘sekitar’ ‘dimana’

‘jika’ ‘dan’ ‘sementara’ ‘kami’ ‘kemana’

‘sehingga’ ‘kembali’ ‘setelah’ ‘belum’ ‘sampai’

‘sebagai’ ‘ada’ ‘mereka’ ‘anda’ ‘sedangkan’

‘masih’ ‘juga’ ‘sudah’ ‘itulah’ ‘selagi’

‘hal’ ‘akan’ ‘saya’ ‘daripada’ ‘sementara’

‘ketika’ ‘dengan’ ‘terhadap’ ‘yakni’ ‘sebelum’

‘adalah’ ‘kita’ ‘secara’ ‘yaitu’ ‘tetapi’

‘itu’ ‘hanya’ ‘agar’ ‘kenapa’ ‘apakah’

‘dalam’ ‘atau’ ‘lain’ ‘mengapa’ ‘supaya’

‘bisa’ ‘bahwa’ ‘anda’ ‘begitu’ ‘dll’

2.4 Stemming & Lemmatization

Stemming merupakan sebuah proses yang bertujuan untuk mereduksi jumlah variasi dalam representasi dari sebuah kata. Resiko dari proses stemming adalah hilangnya informasi dari kata yang di-stem. Hal ini menghasilkan menurunnya akurasi atau presisi. Sedangkan, keuntungannya adalah, proses stemming dapat meningkatkan kemampuan untuk melakukan recall.

(18)

Lemmatization adalah sebuah proses untuk menemukan bentuk dasar dari sebuah kata. Ada sebuah teori yang menjelaskan bahwa lemmatization adalah proses yang bertujuan untuk melakukan normalisasi pada teks atau kata berdasarkan bentuk dasar yang merupakan bentuk lemma-nya. Normalisasi disini dalam artian mendefinisikan dan menghapus sebuah prefix serta suffiks dari sebuah kata. Lemma adalah bentuk dasar dari sebuah kata yang memiliki arti tertentu berdasarkan pada kamus.

2.5 Algoritma Stemming Nazief dan Adriani

Algoritma stemming Nazief dan Adriani (1996) dikembangkan berdasarkan aturan morfologi Bahasa Indonesia yang mengelompokkan imbuan menjadi awalan (prefix), sisipan (infix), akhiran (suffix) dan gabungan awalan-akhiran (confixes). Algoritma ini menggunakan kamus kata dasar dan mendukung

recoding, yakni penyusunan kembali kata-kata yang mengalami proses stemming

berlebih.

Aturan morfologi Bahasa Indonesia mengelompokkan imbuhan ke dalam beberapa kategori sebagai berikut :

1) Inflection suffixes yakni kelompok akhiran yang tidak merubah bentuk

kata dasar. Sebagai conth, kata “duduk” yang diberikan akhiran “-lah”

akan menjadi “duduklah”.

Kelompok ini dibagi menjadi dua :

a. Particle (P) atau partikel, yakni termasuk di dalamnya “-lah”, “

-kah”, “-tah”, dan “-pun”.

b. Possessive Pronoun (PP) atau kata ganti kepunyaan, termasuk di

dalamnya adalah “-ku”, “-mu”, dan “-nya”.

2) Derivation Suffixes (DS) yakni kumpulan akhiran asli Bahasa Indonesia

yang secara langsung ditambahkan pada kata dasar yaitu akhiran “-i”,

“-kan”, dan “-an”.

(19)

11

mendapatkan penambahan sampai dengan 2 awalan. Termasuk di dalamnya adalah :

a. Awalan yang dapat bermorfologi(“me-”, ”be-”, “pe-”, dan “te

-”)

b. Awalan yang tidak bermorfologi(“di-”, “ke-”, dan “se-”) Aturan untuk pemenggalan kata awalan pada algoritma stemmer Nazief dan Adiani dapat dilihat pada Tabel 2.3.

Tabel 2. 3 Aturan Pemenggalan Awalan Stemmer Nazief Dan Adriani [7]

Aturan Format Kata Pemenggalan

1 berV… ber-V…| be-rV…

2 berCAP… ber-CAP… dimana C!=’r’ & P!=’er’

3 berCAerV… ber-CaerV… dimana C!=’r’

4 belajar bel-ajar

5 beC1erC2… be-C1erC2.. dimana C1!={‘r’|’1’}

6 terV… ter-V… | te-rV…

7 terCerV… ter-CerV… diaman C!=’r’

8 terCP… ter-CP... dimana C!=’r’ dan P!=’er’

9 teC1erC2... te-C1erC2... dimana C1!=’r’ 10 me{l|r|w|y}V... me-{l|r|w|y}V...

11 mem{b|f|v}... mem-{b|f|v}... 12 mempe{r|l}... mem-pe...

13 mem{rV|V}... me-m{rV|V}... | me-p{rV|V}... 14 men{c|d|j|z}... men-{c|d|j|z}...

15 menV... me-nV... | me-tV

16 meng{g|h|q}... meng-{g|h|q}...

17 mengV... meng-V... | meng-kV...

18 menyV... meny-sV…

19 mempV... mem-pV... dimana V!=’e’

20 pe{w|y}V... pe-{w|y}V...

(20)

23 perCAP… per-CAP... dimana C!=’r’ dan P!=’er’ 24 perCAerV... per-CAerV... dimana C!=’r’

25 pem{b|f|V}... pem-{b|f|V}...

26 pem{rV|V}... pe-m{rV|V}... | pe-p{rV|V}... 27 pen{c|d|j|z}... pen-{c|d|j|z}...

28 penV... pe-nV... | pe-tV...

29 peng{g|h|q} peng-{g|h|q}... 30 pengV... peng-V... | peng-kV...

31 penyV... peny-sV…

32 pelV... pe-lV... kecuali ‘pelajar’ yang

menghasilkan ‘ajar’

33 peCerV... per-erV... dimana C!={r|w|y|l|m|n} 34 peCP... pe-CP... dimana C!={r|w|y|l|m|n} dan

P!=’e’

Keterangan simbol huruf : C : huruf konsonan V : huruf vokal

A : huruf vokal atau konsonan

P : partikel atau fragmen dari suatu kata, misalnya “er”

2.6 Rekomendasi Nilai

Rekomendasi nilai merupakan hasil dari komputasi similarity. Rekomendasi nilai diambil berdasarkan hasil kecocokkan kata antara jawaban siswa dan kunci jawaban yang ada di database. Rekomendasi nilai nantinya melihat persentase kesamaan antara jawaban siswa yang telah dimasukkan dengan kunci jawaban.

(21)

13

2.7 Jawaban Esai

Ujian dapat dilakukan dalam tiga jenis, yang pertama yaitu ujian pilihan ganda, ujian isian singkat dan ujian esai. Ujian esai merupakan evaluasi pembelajaran dalam bentuk soal esai yang mempunyai jawaban lebih bervariasi dibandingkan soal pilihan ganda. Variasi jawaban tersebut memberikan kesulitan tersendiri bagi guru dalam menilai jawaban.

Esai yang dinilai dibagi menjadi dua bagian, yang pertama adalah esai yang merupakan karangan siswa (bisa berupa eksposisi, deskripsi, argumentasi, atau narasi). Yang kedua adalah jawaban esai pendek yang biasa terdapat pada bagian evaluasi buku teks pelajaran atau ujian.

2.8 Automated Essay Scoring (AES)

Automated essay scoring (AES) dalam bahasa indonesia berarti penilaian esai otomatis didefinisikan sebagai tehnologi komputer yang mengevaluasi dan memberikan nilai pada tulisan. Sistem AES dibuat untuk membantu guru dalam menilai ujian tertulis yang dilakukan dikelas seperti latihan dan ujian akhir semester. Sistem AES memiliki fungi utama untuk membantu menghemat waktu, biaya dalam memeriksa hasil ujian tertulis, dan beberapa masalah dalam penilaian ujian tertulis [8].

Sistem AES mendapatkan kritikan berupa kekurangan hubungan antar manusia, mudah untuk dimanipulasi, dan memerlukan data training yang besar untuk melatih sistem AES. Dibalik semua kekurangan itu, sistem AES tetap menarik perhatian para peneliti, pendidik baik di unversitas, sekolah dan perusahaan yang bergerak dibidang pengetesan [8].

2.8.1 Vector Space Model (VSM)

(22)

pengelompokan dokumen [3]. Dalam Vector Space Model, koleksi dokumen direpresentasikan sebagai sebuah matrik term-document (matrik term-frequency). Setiap sel dalam matrik bersesuaian dengan bobot yang diberikan dari suatu term

dalam dokmen yang ditentukan. Nilai nol berarti bahwa term tersebut tidak hadir dalam dokumen [4].

D1 : Saya mahasiswa Ilmu Komputer

D2 : Saya menimba ilmu di Fakultas Ilmu Komputer D3 : Mahasiswa Fakultas Ilmu Komputer banyak

D1 D2 D3

Banyak 0 0 1

Di 0 1 0

Fakultas 0 1 1

Ilmu 1 2 1

Komputer 1 1 1

Mahasiswa 1 0 1

Menimba 0 1 0

Saya 1 1 0

Gambar 2. 2 Contoh Dokumen Dan Matriks Kata-Dokumen

Melalui vector space model dan TF weighting maka akan didapatkan representasi nilai numerik dokummen sehingga kemudian dapat dihitung kedekatan antar dokumen. Semakin dekat dua vektor di dalam suatu VSM, maka semakin mirip dua dokumen yang diwakili vektor tersebut. Terdapat empat fungsi untuk mengukur kemiripan (similarity measure) yang dapat digunakan untuk model ini :

1. Cosine distance / cosine similarity

2. Inner similarity

3. Dice similarity

(23)

15

Salah satu ukuran kemiripan teks yang popular adalah cosine similarity. Ukuran ini menghitung nilai cosinus sudut antara dua vektor. Jika terdapat dua vektor dokumen d dan query q, serta t term diekstrak dari koleksi dokumen maka nilai cosinus antara d dan q didefinisikan sebagai berikut :

, = _{√∑ ^ ∗ √∑ ^}∑ ∗ (2.2)

2.8.2 Term Frequency-Inverse Document Frequency (TF-IDF) Weighting

Metode pembobotan yang paling sederhana terhadap suatu term (term wighting) adalah dengan menggunakan frekuensi kemunculan term (kata) / term frequency (TF) yang bersangkutan pada suatu dokumen. Inverse Document Frequency (IDF) adalah logaritma dari rasio jumlah keseluruhan dokumen yang diproses dengan jumlah dokumen yang memiliki term bersangkutan. Lalu Salton bereksperimen untuk mengkombinasikan kedua metode pembobotan tersebut, dengan mempertimbangkan frekuensi inter-dokumen dan frekuensi intra-dokumen dari suatu term. Dengan menggunakan frekuensi term pada suatu dokumen dan distribusinya pada keseluruhan dokumen, yakni kemunculan pada dokumen-dokumen lain (IDF). Salton menarik kesimpulan melalui eksperimennya bahwa

term-term dengan total frekuensin menengah, lebih berguna dalam retrieval jika dibandingkan dengan term-term yang total frekuensinya terlalu tinggi atau terlalu rendah. Konsep intra-dokumen dan inter-dokumen ini kemudian dikenal sebagai metode TF-IDF.

Rumus yang digunakan untuk menyatakan bobot (w) masing-masing dokumen terhadap kata kunci adalah :

, = , × �� (2.3)

Dimana :

d = dokumen ke-d

t = kata ke-t dari kata kunci

(24)

Untuk penelitian saat ini, pembobotan kata yang akan digunakan adalah pembobotan kata berdasarkan Term Frequency (TF) dari matriks kata-dokumen dan vektor query.

2.9Pemograman Berorientasi Objek

Metologi berorientasi objek adalah suatu strategi pembangunan perangkat lunak yang mengorganisasikan perangkat lunak sebagai kumpulan objek yang berisi data dan operasi yang diperlakukan terhadapnya. Metodologi berorientasi objek merupakan suatu cara bagaimana sistem perangkat lunak dibangun melalui pendekatan objek secara sistematis. Metode berorientasi objek didsarkan pada penerapan prinsip-prinsip pengolahan kompleksitas. Metode beorientasi objek meliputi rangkaian aktivitas analisis berorientasi objek, perancangan berorientasi objek, pemograman berorientasi objek, dan pengujian berorientasi objek [9].

Keuntungan menggunakan metodologi berorientasi objek adalah sebagai berikut :

1. Meningkatkan produktivitas

Karena kelas dan objek yang ditemukan dalam suatu masalah masih dapat dipakai ulang untuk masalah lainnya yang melibatkan objek tersebut (reusable).

2. Kecepatan pengembangan

Karena sistem yang dibangun dengan caik dan benar pada saat analisis dan perancangan akan menyebabkan berkurangnya kesalahan pada saat pengkodean.

3. Kemudahan pemeliharaan

Karena dengan model objek, pola-pola yang cenderung tetap dan stabil dapat dipisahkan dan pola-pola yang munkin sering berubah-ubah. 4. Adanya konsistensi

(25)

17

5. Meningkatkan kualitas perangkat lunak

Karena pendekatan pengembangan lebih dekat dengan dunia nyata dan adanya konsistensi pada saat pengembangannya, perangkat lunak yang dihasilkan akan mampu memenuhi kebutuhan pemakai serta mempunyai sedikit kesalahan.

2.9.1 Konsep Dasar Berorientasi Objek

Berikut ini adalah beberapa konsep dasar yang harus dipahami tentang metodologi berorientasi objek :

1. Kelas (class)

Kelas adalah kumpulan objek-objek dengan karakteristik yang sama. Kelas merupakan definisi statik dan himpunan objek yang sama yang mungkin lahir atau diciptakan dan kelas tersebut. Sebuah kelas akan mempunyai sifat (atribut), kelakuan (operasi/metode), hubungan (relantioship) dan arti. Suatu kelas dapat diturunkan dan kelas yang lain, dimana atribut dan kelas semula dapat diwariskan ke kelas yang baru. Secara teknis kelas adalah sebuah struktur tertentu dalam pembuatan perangkat lunak. Kelas merupakan bentuk struktur pada kode program yang menggunakan metodologi berorientasi objek.

2. Objek (object)

Objek adalah abstraksi dan sesuatu yang mewakili dunia nyata seperti benda, manusi, suatu organisasi, tempat, kejadian, struktur, status, atau hal – hal lain yang bersifat abstrak. Objek merupakan suatu entitas yang mampu menyimpan informasi (status) dan mempunyai operasi (kelakuan) yang dapat diterapkan atau dapat berpengaruh pada staus objeknya. Objek dilihat dari segi teknis adalah elemen pada saat

(26)

3. Metode (method)

Poreasi atau metode atau method pada sebuah kelas hampir sama dengan fungsi atau prosedur pada metodologi struktural. Sebuah kelas boleh memiliki lebih dari satu metode atau oprasi. Metode atau operasi yang berfungsi untuk memanipulasi objek iu sendiri. Operasi atau metode merupakan fungsi atau transformasi yang dapat dilakukan terhadap objek atau dilakukan oleh objek. Meotde atau operasi berasal dari event, aktivitas atau aksi kedaaan, fungsi, atau kelakuan dunia nyata. Contoh metode atau operasi misalnya read, write, move, copy

dan sebagainya. 4. Atribut (attribute)

Atribut dari sebuah kelas adalah variabel global yang dimiliki sebuah kelas. Atribut dapat berupa nilai atau elemen-elemen data yang dimiliki oleh objek dalam kelas objek, misalnya berat, jenis, nama, dan sebaginya.

5. Abstraksi (abstraction)

Prinsip untuk merepresentasi dunia nyata yang kompleks menjadi satu bentuk model yang sederhana dengan mengabaikan aspek-aspek lain yang tidak sesuai dengan permasalahan.

6. Enkapsulasi (encapsulation)

Pembungkus atribut data dan layanan (operasi-operasi) yang mempunyai objek untuk menyembunyikan implementasi dan objek sehingga objek lain tidak mengetahui cara kerjanya.

7. Pewarisan (inheritance)

Mekanisme yang memungkinkan satu objek mewarisi sebagian atau seluruh definisi dan objek lain sebagai bagian dari dririnya.

8. Antarmuka (interface)

(27)

19

9. Reusability

Pemanfaatan kembali objek yang sudah didefinisikan untuk suatu permasalahan pada permasalahan lainnya yang melibatkan objek tersebut.

10. Generalisasi dan Spesialisasi

Menunjukkan hubungan antara kelas dan objek yang umum dengan kelas dan objek yang khusus. Misalnya kelas yang lebih umum (generalisasi) adalah kendaraan darat dan kelas khususnya (spesialisasi) adalah mobil, motor, dan kereta.

11. Komunikasi Antar Objek

Komunikasi antarobjek dilakukan lewat pesan (message) yang dikirim dari satu objek ke objek lainnya.

12. Polimorfisme (poymorphism)

Kemampuan suatu objek digunakan di banyak tujuan yang berbeda dengan nama yang sehingga menghemat baris program.

13. Package

Package adalah sebuah kontainer atau kemasan yang dapat digunakan untuk mengelompokkan kelas-kelas sehingga memungkinkan beberapa kelas yang bernama sama disimpan dalam package yang berbeda.

2.9.2 Pengenalan UML

(28)

UML 2.3. Pada UML 2.3 terdiri dari 13 macam diagram yang dikelompokkan dalam 3 kategori. Pembagian ketegori didalam UML dapat dilihat pada gambar berikut ini :

Gambar 2. 3 Diagram UML 2.3 [9]

Berikut ini penjelasan dari pembagian kategori didalam UML :

1. Structure diagrams yaitu kumpulan diagram yang digunakan untuk menggambarkan suatu struktur statis dari sistem yang dimodelkan.

2. Behavior diagrams yaitu kumpulan diagram yang digunakan untuk menggambarkan kelakuan sistem atau rangkaian perubahan yang terjadi pada suatu sistem.

3. Interaction diagrams yaitu kumpulan diagram yang digunakan untuk menggambarkan interaksi sistem dengan sistem lain maupun interaksi antar subsistem pada suatu sistem.

2.10 Database

Database atau di dalam bahasa Indonesia disebut basis data adalah media untuk menyimpan data agar dapat diakses dengan mudah dan cepat [9]. Basis data terdiri atas dua kata, basis dan data. Basis dapat diartikan sebagai markas atau

UML 2.3 Diagram

Structure Diagrams

Class Diagram

Object Diagram

Component Diagram

Composite Structure Diagram

Package Diagram

Deployment Diagram

Behavior Diagrams

Use Case Diagram

Activity Diagram

State Machine Diagram

Intraction Diagrams

Sequence Diagram

Communication Diagram

Timing Diagram

(29)

21

gudang, tempat bersarang/berkumpul. Sedangkan data adalah representasi fakta dunia nyatayang mewakili suatu objek seperti manusia (pegawai, siswa, pembeli, pelanggan), barang, hewan, peristiwa, konsep, keadaan dan sebagainya, yang diwujudkan dalam bentuk angka, huruf, simbol, teks, gambar, bunyi, atau kombinasinya [10].Sistem basis data adalah sistem terkomputerisasi yang tujuan utamanya adalah memelihara data yang sudah diolah atau informasi dan membuat informasi tersedia saat dibutuhkan. Sitem yang mengelola basis data disebut dengan Sistem Manajemen Basis Data atau DBMS (Database Management System). Spesialis yang menangani DBMS disebut sebagai DBA (Database Administrator) [9].

2.11MySql

MySql adalah salah satu DBMS (Database Management System) komersil yang paling banyak digunakan. DBMS atau dalam bahasa Indonesia sering disebut Sistem Manajemen Basis Data adalah suatu sistem aplikasi yang digunakan untuk menyimpan, mengelola, dan menampilkan data. Sedangkan SQL (Structure Query Language) adalah bahasa yang digunakan untuk mengelola data pada RDBMS (Relational Database Management System). SQL mulai berkembang pada tahun 1960an. SQL mulai digunakan sebagai standar yang resmi pada tahun 1986 oleh ANSI (American National Standards Institute) dan pada tahun 1987 oleh ISO (International Organization for Standardization) dan disebut sebagai SQL-86 [9].

2.12 Teori Pengujian

Pengujian adalah proses menelusuri dan mempelajari sebuah program dalam rangka menemukan kesalahan pada perangkat lunak sebelum diserahkan kepada pengguna. Pengujian perangkat lunak dalam penelitian ini dibagi menjadi dua metode pengujian yaitu metode pengujian white box dan metode pengujian

(30)

2.12.1 Black Box Testing

Black-box testing adalah metode pengujian perangkat lunak yang tes fungsionalitas dari aplikasi yang bertentangan dengan struktur internal atau kerja pengetahuan khusus dari kode aplikasi / struktur internal dan pengetahuan pemrograman pada umumnya tidak diperlukan. Uji kasus dibangun di sekitar spesifikasi dan persyaratan, yakni, aplikasi apa yang seharusnya dilakukan. Menggunakan deskripsi eksternal perangkat lunak, termasuk spesifikasi, persyaratan, dan desain untuk menurunkan uji kasus. Tes ini dapat menjadi fungsional atau non-fungsional, meskipun biasanya fungsional. Perancang uji memilih input yang valid dan tidak valid dan menentukan output yang benar. Tidak ada pengetahuan tentang struktur internal benda uji itu. Metode uji dapat diterapkan pada semua tingkat pengujian perangkat lunak: unit, integrasi, fungsional, sistem dan penerimaan.Ini biasanya terdiri dari kebanyakan jika tidak semua pengujian pada tingkat yang lebih tinggi, tetapi juga bisa mendominasi unit testing juga [5].

Ujicoba blackbox berusaha untuk menemukan kesalahan dalam beberapa kategori, diantaranya :

1. Fungsi-fungsi yang salah atau hilang 2. Kesalahan interface

3. Kesalahan dalam struktur data atau akses database eksternal 4. Kesalahan performa

5. kesalahan inisialisasi dan terminasi

2.12.2 White Box Testing

(31)

23

Dengan menggunakan white box akan didapatkan kasus uji yang : 1. Menguji semua keputusan logikal

2. Menguji seluruh Loop yang sesuai dengan batasannya

3. Menguji seluruh struktur data internal yang menjamin validitas

1. CYCLOMATIC COMPLEXITY

Cyclomatic Complexity merupakan suatu sistem pengukuran yang menyediakan ukuran kuantitatif dari kompleksitas logika suatu program. Pada Basis Path Testing, hasil dari cyclomatic complexity digunakan untuk menentukan banyaknya independent paths. Independent path adalah sebuah kondisi pada program yang menghubungkan node awal dengan node akhir [5].

Terdapat 2 persamaan yang digunakan, yaitu:

� = − � + (2.4)

atau

� = + (2.5)

Keterangan:

V(G)= cyclomatic complexity untuk flow graph G E=Jumlah edge(panah)

N=Jumlah node(lingkaran) P=Jumlah predicate node

2. Graph Metrik

Graph metrik merupakan software yang dikembangkan untuk membantu uji coba basis path atau struktur data. Graph metrik adalah matrik empat persegi yang mempunyai ukuran yang sama dengan umlah node pada flowgraph. Masing-masing baris dan kolom mempunyai hubungan dengannode yang telah ditentukan dan pemasukan data matrik berhubungan dengan hubungan (edge) anta node.

(32)

1. Kemungkinan link (edge) dikerjakan

2. Waktu yang digunakan untuk proses selama traversal dari link 3. Memori yang diperlukan selama traversal link

(33)

77

Bab 5

KESIMPULAN DAN SARAN

5.1 Kesimpulan

Berdasarkan hasil yang didapat dalam penelitian dan penyusunan skripsi ini serta disesuaikan dengan tujuan penelitian maka diperoleh kesimpulan sebagai berikut :

1. Metode Vector Space Model (VSM) dapat mencocokkan kata antara kunci jawaban dan jawaban yang telah dimasukkan oleh siswa. 2. Rata-rata nilai yang diberikan oleh sistem kepada hasil dari jawaban

yang telah dimasukkan oleh siswa adalah 56,07%

5.2 Saran

Berikut adalah saran yang dapat dilakukan untuk pengembangan dari penelitian yang telah dilakukan :

1. Untuk meningkatkan keakurasian sistem dalam memberikan rekomendasi nilai lebih baik menggunakan metode Natural Language Processing (NLP) karena NLP menilai tidak hanya menilai berdasarkan kesamaan kata saja, tapi berdasarkan susunan kata (grammar) dari jawaban yang telah dimasukkan oleh siswa.

(34)

(35)

E-1

RIWAYAT HIDUP

Data Pribadi

Nama Harry Septianto

Tempat/Tanggal Lahir Palembang, 21 September 1992

Jenis Kelamin Laki-laki

Warga Negara Indonesia

Agama Islam

Status Belum Menikah

Alamat Jl. Bangbayang no 80C/157C RT 04/08 Kel

Dago, Kec Coblong Bandung

Email [email protected]

No. Handphone +6285267324792

Pendidikan Formal

1999-2004 SD Negeri 172 Palembang

2004-2007 SMP Negeri 11 Palembang

2007-2010 SMK Negeri 13 Palembang

2010-2015

Program Studi S1 Teknik Informatika

(36)

(37)

(38)

Harry Septianto

Teknik Informatika – Universitas Komputer Indonesia

Jl. Dipatiukur 112-114 Bandung Email : [email protected]

ABSTRAK

Setiap proses pembelajaran membutuhkan suatu evaluasi berupa ujian.Ujian esai merupakan evaluasi pembelajaran dalam bentuk soal esai yang mempunyai jawaban lebih bervariasi dibandingkan soal pilihan ganda. Variasi jawaban tersebut memberikan kesulitan terhadap guru dalam menilai jawaban esai. Pada penelitian ini metode yang

Setiap proses pembelajaran membutuhkan suatu evaluasi berupa ujian. Ujian dapat dilakukan dalam tiga jenis, yang pertama yaitu ujian pilihan ganda, ujian isian singkat dan ujian esai.Ujian esai merupakan evaluasi pembelajaran dalam bentuk soal esai yang mempunyai jawaban lebih bervariasi dibandingkan soal pilihan ganda. Variasi jawaban tersebut memberikan kesulitan terhadap guru dalam menilai jawaban esai.

Sudah banyak penelitian tentang koreksi esai otomatis, salah satunya adalah penelitian yang dilakukan oleh Sahriar Hamzah, M. Sarosa dan

Purnomo Budi Santoso yang menggunakan

algoritma Rabin-Karb. Tingkat keakurasian dari algoritma Rabin-Krab adalah 90,31%. Selain menggunakan algoritma Rabin-Karb, algoritma pencocokan string yang lain adalah algoritma

winnowing dengan tingkat keakurasian untuk

algoritma winnowing adalah 75-80%. Pada

penelitian ini untuk mencocokkan string

menggunakan metode Vector Space Model (VSM).

Maka dari itu penelitian ini diharapkan mendapat suatu hasil penelitian berupa hasil nilai akurat dari metode VSM.

1.1Rumusan Masalah

Berdasarkan latar belakang yang telah diuraikan oleh penulis di atas, maka dapat dirumuskan suatu masalah yaitu bagaimana cara mencocokkan kata dan merekomendasikan nilai terhadap jawaban esai

yang telah dimasukan siswa di dalam media pembelajaran.

1.2Maksud Dan Tujuan

Berdasarkan permasalahan yang diteliti, maka maksud dari penulisan tugas akhir ini adalah

mengimplementasikan metode Vector Space Model

(VSM) untuk pencocokan kata dan rekomendasi nilai terhadap jawaban esai.

Sedangkan tujuan yang akan dicapai dalam penelitian ini adalah sebagai berikut :

1. Untuk melihat keakurasian dari metode

VSM dalam mencocokkan kata.

2. Untuk melihat seberapa akurat sistem

dalam memberikan rekomendasi nilai terhadap jawaban siswa yang telah dengan kunci jawaban.

1.3Batasan Masalah

Terdapat beberapa batasan permasalahan yang dapat dirumuskan agar pembahasan masalah dapat lebih terarah dan terperinci, dengan maksud untuk mempermudah identifikasi dan pemahaman terhadap

aplikasi. Adapun batasan masalah dalam

implementasi metode VSM ini adalah.

1. Bahasa yang dapat dibaca oleh sistem harus

dengan bahasa Indonesia yang baik dan benar.

2. Data yang akan digunakan diperoleh dari

Sekolah Menengah Atas (SMA) Negeri 13 Palembang. Data berupa kumpulan soal dan jawaban yang digunakan oleh guru di SMA Negeri 13 Palembang.

3. Studi kasus mata pelajaran Ekonomi kelas

X (Sepuluh). Karena di dalam mata pelajaran tersebut mengandung banyak teori dibandingkan mata pelajaran lain.

4. Menggunakan algoritma Nazief dan

Adriani dalam melakukan proses stemming

dan stopword.

5. Menggunakan metode Vector Space Model

(VSM) dalam mencocokan kata, sedangkan

untuk metode pembobotan kata

menggunakan Term Frequency (TF).

6. Menggunakan persentase nilai jawaban

dalam memberikan rekomendasi nilai.

7. Menggunakan pemograman berorientasi

(39)

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA)

2

Edisi.1 Volume. 1 Bulan AGUSTUS ISSN : 2089-9033

8. Untuk memodelkan perangkat lunak

menggunakan Unified Modeling Language

(UML).

9. Sistem yang akan dibangun berbasis

website.

1.4Metodologi Penelitian

Metologi penelitian yang digunakan oleh penulis dalam menulis laporan tugas akhir ini adalah metodologi deskriptif, yaitu metode pembahasan masalah yang digunakan untuk menggambarkan objek untuk diteliti, dengan cara mencari, mengumpulkan, dan menganalisis data yang diperoleh.

1.4.1 Metode Pengumpulan Data

Metode pengumpulan data yang digunakan dalam penelitian adalah Studi Pustaka. Studi Pustaka yang dilakukan adalah dengan mempelajari berbagai literatur,

seperti buku-buku, artikel-artikel, e-book,

website, jurnal, dan sumber-sumber yang berkaitan dengan metode VSM yang akan dibangun, meliputi kecerdasan buatan,

desain, tools dan juga pemodelan dengan

UML yang dapat membantu menyelesaikan implementasi metode VSM ini.

1.4.2 Metode Pembangunan Perangkat Lunak

Metode yang digunakan untuk

pembangunan perangkat lunak dalam

penelitian ini menggunakan Agile Model.

Model ini adalah model yang memberikan

pendekatan-pendekatan sistematis dan

berurutan bagi pengembang piranti lunak menurut Roger S. Pressman [5] adalah :

a. Planning

Tahap perancangan yang dilakukan adalah dengan pemodelan menggunakan metode

pemrograman berorientasi objek dan

menerapkan metode VSM pada sistem jawaban esai untuk pencocokkan kata dan rekomendasi nilai.

b. Design

Tahap design merupakan tahap

perancangan dari pembangunan sistem jawaban esai yang akan dibuat untuk

identifikasi dan mengatur class – class di

konsep object oriented.

c. Coding

Setelah tahap perancangan sistem

selanjutnya dilakukan konversi rancangan

sistem ke dalam kode – kode bahasa

pemograman yang digunakan yaitu php.

d. Testing

Pengujian sistem dilakukan untuk memastikan bahwa aplikasi yang dibuat telah sesuai dengan desainnya dan semua fungsi dapat dipergunakan dengan baik tanpa ada kesalahan.

Gambar 1. Model Agile [5]

2. ISI PENELITIAN

2.1Vector Space Model (VSM)

Vector space model (VSM) adalah representasi kumpulan dokumen sebagai vektor dalam sebuah ruang vektor. VSM merupakan teknik dasar dalam perolehan informasi yang dapat digunakan untuk penilaian relevansi dokumen terhadap kata kunci

pencarian (query) pada mesin pencari, klasifikasi

dokumen, dan pengelompokan dokumen [3]. Dalam

Vector Space Model, koleksi dokumen

direpresentasikan sebagai sebuah matrik

term-document (matrik term-frequency). Setiap sel dalam matrik bersesuaian dengan bobot yang diberikan dari

suatu term dalam dokmen yang ditentukan. Nilai nol

berarti bahwa term tersebut tidak hadir dalam

dokumen [4].

D1 : Saya mahasiswa Ilmu Komputer

D2 : Saya menimba ilmu di Fakultas Ilmu Komputer D3 : Mahasiswa Fakultas Ilmu Komputer banyak

D1 D2 D3

(40)

maka akan didapatkan representasi nilai numerik dokummen sehingga kemudian dapat dihitung kedekatan antar dokumen. Semakin dekat dua vektor di dalam suatu VSM, maka semakin mirip dua dokumen yang diwakili vektor tersebut. Terdapat

empat fungsi untuk mengukur kemiripan (similarity

measure) yang dapat digunakan untuk model ini : 1.Cosine distance / cosine similarity

2.Inner similarity

3.Dice similarity

4.Jaccard similarity

Salah satu ukuran kemiripan teks yang popular

adalah cosine similarity. Ukuran ini menghitung

nilai cosinus sudut antara dua vektor. Jika terdapat

dua vektor dokumen d dan query q, serta t term

diekstrak dari koleksi dokumen maka nilai cosinus antara d dan q didefinisikan sebagai berikut :

(1)

2.2Term Frequency-Inverse Document Frequency

(TF-IDF) Weighting

Metode pembobotan yang paling sederhana

terhadap suatu term (term weighting) adalah dengan

menggunakan frekuensi kemunculan term (kata) /

term frequency (TF) yang bersangkutan pada suatu

dokumen. Inverse Document Frequency (IDF)

adalah logaritma dari rasio jumlah keseluruhan dokumen yang diproses dengan jumlah dokumen

yang memiliki term bersangkutan. Lalu Salton

bereksperimen untuk mengkombinasikan kedua

metode pembobotan tersebut, dengan

mempertimbangkan frekuensi inter-dokumen dan

frekuensi intra-dokumen dari suatu term. Dengan

menggunakan frekuensi term pada suatu dokumen

dan distribusinya pada keseluruhan dokumen, yakni kemunculan pada dokumen-dokumen lain (IDF). Salton menarik kesimpulan melalui eksperimennya

bahwa term-term dengan total frekuensin menengah,

lebih berguna dalam retrieval jika dibandingkan

dengan term-term yang total frekuensinya terlalu

tinggi atau terlalu rendah. Konsep intra-dokumen dan inter-dokumen ini kemudian dikenal sebagai metode TF-IDF.

Rumus yang digunakan untuk menyatakan bobot

(w) masing-masing dokumen terhadap kata kunci

2.3Algoritma Stemming Nazief dan Adriani

Algoritma stemming Nazief dan Adriani (1996)

dikembangkan berdasarkan aturan morfologi Bahasa Indonesia yang mengelompokkan imbuan menjadi awalan (prefix), sisipan (infix), akhiran (suffix) dan

gabungan awalan-akhiran (confixes). Algoritma ini

menggunakan kamus kata dasar dan mendukung

recoding, yakni penyusunan kembali kata-kata yang

mengalami proses stemming berlebih.

Aturan morfologi Bahasa Indonesia

mengelompokkan imbuhan ke dalam beberapa kategori sebagai berikut :

1) Inflection suffixes yakni kelompok akhiran yang tidak merubah bentuk kata dasar.

Sebagai contoh, kata “duduk” yang

diberikan akhiran “-lah” akan menjadi

“duduklah”.

Kelompok ini dibagi menjadi dua :

a. Particle (P) atau partikel, yakni

termasuk di dalamnya “-lah”, “-kah”,

“-tah”, dan “-pun”.

b. Possessive Pronoun (PP) atau kata

ganti kepunyaan, termasuk di

dalamnya adalah “-ku”, “-mu”, dan “

-nya”.

2) Derivation Suffixes (DS) yakni kumpulan akhiran asli Bahasa Indonesia yang secara langsung ditambahkan pada kata dasar yaitu

akhiran “-i”, “-kan”, dan “-an”.

3) Derivation Prefixes (DP) yakni kumpulan awalan yang dapat langsung diberikan pada kata dasar murni, atau pada kata dasar yang sudah mendapatkan penambahan sampai dengan 2 awalan. Termasuk di dalamnya adalah :

a. Awalan yang dapat bermorfologi

(“me-”, ”be-”, “pe-”, dan “te-”)

b. Awalan yang tidak bermorfologi (“di

-”, “ke-”, dan “se-”)

Aturan untuk pemenggalan kata awalan pada

algoritma stemmer Nazief dan Adiani dapat dilihat

pada Tabel dibawah ini.

Tabel 1 Aturan Pemenggalan Awalan Stemmer

Nazief Dan Adriani [7]

(41)

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA)

4

5 beC1erC2… be-C1erC2.. dimana

24 perCAerV... per-CAerV...

dimana C!=’r’

Keterangan simbol huruf : C : huruf konsonan V : huruf vokal

A : huruf vokal atau konsonan

P : partikel atau fragmen dari suatu kata,

misalnya “er”

2.4 Morphological Analysis

Morphological Analysis adalah proses dimana setiap kata yang berdiri sendiri (individual word) dianalisis kembali ke komponen pembentuk dan token nonword seperti tanda baca dan sebagainya dipisahkan dari kata tersebut. Hasil akhir dari proses ini adalah proses Parsing. Parsing adalah proses mengkonversikan daftar kata yang berbentuk

kalimat ke dalam bentuk struktur yang

mendefinisikan unit yang diwakili oleh sebuah daftar [6]. Pada tabel dibawah ini dapat dilihat beberapa karakter (token nonword)yang harus dipisahkan dari kata.

Tabel 2 Karakter (Token Nonwrod)

Karakter

Stopword removal adalah sebuah proses untuk

menghilangkan kata yang ‘tidak relevan’ pada hasil

parsing sebuah dokumen teks dengan cara

membandingkannya dengan stoplist. Stoplist berisi

sekumpulan kata yang ‘tidak relevan’, namun sering sekali muncul dalam sebuah dokumen. Pada tabel

dibawah ini merupakan daftar stoplist yang

digunakan didalam sistem.

Tabel 3 Daftar Stoplist [7]

Stoplist

'yang' ‘untuk’ ‘ini’ ‘telah’ ‘begitu’

‘pada’ ‘ke’ ‘karena’ ‘dari’ ‘maka’ ‘menur

ut’ ‘namun’ ‘kepada’ ‘di’ ‘lagi’ ‘antara’ ‘dia’ ‘oleh’ ‘serta’ ‘tentang’ ‘ia’ ‘dua’ ‘saat’ ‘bagi’ ‘demi’ ‘seperti

’ ‘tidak’ ‘harus’ ‘sekitar’ ‘dimana’ ‘jika’ ‘dan’ ‘sementa

ra’ ‘kami’ ‘kemana’ ‘sehing

ga’ ‘kembali’ ‘setelah’ ‘belum’ ‘sampai’ ‘sebaga

i’ ‘ada’ ‘mereka’ ‘anda’ ‘sedangkan’ ‘masih’ ‘juga’ ‘sudah’ ‘itulah’ ‘selagi’ ‘hal’ ‘akan’ ‘saya’ ‘daripa

(42)

‘adalah

’ ‘kita’ ‘secara’ ‘yaitu’ ‘tetapi’ ‘itu’ ‘hanya

’ ‘agar’ ‘kenapa’ ‘apakah’ ‘dalam’ ‘atau’ ‘lain’ ‘menga

pa’ ‘supaya’ ‘bisa’ ‘bahwa

’ ‘anda’ ‘begitu’ ‘dll’

2.6 Stemming & Lemmatization

Stemming merupakan sebuah proses yang bertujuan untuk mereduksi jumlah variasi dalam representasi dari sebuah kata. Resiko dari proses stemming adalah hilangnya informasi dari kata yang di-stem. Hal ini menghasilkan menurunnya akurasi atau presisi. Sedangkan, keuntungannya adalah, proses stemming dapat meningkatkan kemampuan untuk melakukan recall.

Tujuan dari stemming sebearnya adalah

meningkatkan performance dan mengurangi

penggunaan resource dari system dengan

mengurangi jumlah unique word yang harus diakomodasikan oleh sistem. Jadi, secara umum algoritma stemming mengerjakan transformasi dari sebuah kata menjadi sebuah standar representasi morfologi (yang dikenal sebagai stem).

Lemmatization adalah sebuah proses untuk menemukan bentuk dasar dari sebuah kata. Ada sebuah teori yang menjelaskan bahwa lemmatization adalah proses yang bertujuan untuk melakukan normalisasi pada teks atau kata berdasarkan bentuk

dasar yang merupakan bentuk lemma-nya.

Normalisasi disini dalam artian mendefinisikan dan menghapus sebuah prefix serta suffiks dari sebuah kata. Lemma adalah bentuk dasar dari sebuah kata yang memiliki arti tertentu berdasarkan pada kamus.

2.7 Proses Utama Sistem

Parsing

Gambar 3 Alur Proses Utama Sistem

Penjelasan dari gambar 2.2 adalah sebagai berikut :

1. Pengecekan Database

pertanyaan mana saja yang telah di jawab oleh siswa.

2. Parsing

Merupakan proses mencari kata-kata unik dari jawaban yang telah dimasukkan oleh siswa.

3. Stopword dan Stemming

Merupakan proses pencarian kata-kata

sambung, seperti : dengan, atau, yang dsb, dan mengembalikan kata ke dalam kata dasarnya.

4. Pencocokan kata menggunakan metode VSM

Merupakan proses pencocokan kata masukan dari siswa dan kunci jawaban yang terdapat

di dalam database.

5. Rekomendasi Nilai

Merupakan proses memberikan rekomendasi nilai sesuai dengan kecocokan antara jawaban siswa dengan kunci jawaban yang terdapat di

dalam database.

2.7.1Pengecekan Database

Merupakan langkah dimana sistem melakukan pengecekan kedalam database, pertanyaan mana saja yang telah di jawab oleh siswa.

Sta rt

Gambar 4 Flowchart Proses Pengecekan Database

2.7.2 Parsing

(43)

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA)

6

Start

Proses parsing Jawaban

Siswa

End

Gambar 5 Flowchart Proses Parsing Jawaban Siswa

2.7.3 Stopword dan Stemming

Merupakan proses pencarian kata-kata sambung, seperti : dengan, atau, yang dsb, dan mengembalikan kata ke dalam kata dasarnya.

Start

Gambar 6 Flowchart Penghapusan Kata-Kata

(Stopword)

Gambar 7 Flowchart Algoritma Nazief Dan Adriani

[7]

2.7.4 Pencocokan Kata

Metode yang digunakan dalam mencocokkan

kata adalah metode Vector Space Model (VSM).

Gambar 8 Alur Proses Utama VSM

Untuk menghitung jumlah kata yang cocok

digunakan cosine similarity. Rumus untuk

menghitungnya adalah sebagai berikut :

2.7.5 Rekomendasi Nilai

Merupakan proses memberikan rekomendasi nilai sesuai dengan kecocokan antara jawaban siswa dengan kunci jawaban yang terdapat di dalam

(44)

essay

1. Perancangan Antarmuka Tampilan Utama

A01

maka akan ke form A03 3. Pilih to bol sub it

Gambar 11 Perancangan Antarmuka Tampilan Utama

Gambar 12 Perancangan Antarmuka Tampilan Manajemen Pertanyaan Essay

3. Perancangan Antarmuka Tampilan Penilaian

Gambar 13 Perancangan Antarmuka Tampilan Penilaian

3. IMPLEMENTASI DAN HASIL PENGUJIAN

3.1 Implementasi Antarmuka

Dari perancangan antarmuka yang telah dibuat pada bab sebelumnya, maka tahap

selanjutnya yaitu mengimplementasikannya

menjadi sebuah tampilan. Implementasi

(45)

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA)

8

1. Implementasi Antarmuka Tampilan Utama

Gambar 14 Implementasi Antarmuka Tampilan Utama

2.Implementasi Antarmuka Tampilan Manajemen Pertanyaan Essay

Gambar 15 Implementasu Antarmuka Tampilan Manajemen Pertanyaan Essay

3.Implementasi Antarmuka Tampilan Penilaian

Gambar 16 Implementasi Antarmuka Tampilan Penilaian

3.2. Hasil Pengujian

Pengujian akurasi dimulai dengan

pengkoreksian secara manual, yaitu guru langsung mengkoreksi jawaban yang telah di jawab oleh

siswa. Kemudian untuk tahap selanjutnya

menggunakan metode VSM untuk pencocokan kata dan sistem dalam memberikan rekomendasi nilai. Setelah dilakukan kedua proses tersebut akan didapatkan perbandingan hasil keakuratan antara koreksi yang dilakukan oleh guru dan yang dilakukan oleh sistem. Dalam hal ini diambil data

contoh jawaban dari lima orang siswa.

Didapatkanlah Hasil yang dapat dilihat pada gambar dibawah ini :

Gambar 17 Perbandingan Hasil Koreksi Guru Dan Sistem

4. PENUTUP

4.1. Kesimpulan

Berdasarkan hasil pengujian dapat ditarik

kesimpulan sebagai berikut :

1. Metode VSM dapat mencocokkan kata antara

kunci jawaban dan jawaban yang telah dimasukkan oleh siswa.

2. Didapatkan rata-rata nilai yang di

rekomendasikan oleh sistem adalah 56,07% dan rata-rata nilai yang direkomendasikan oleh guru adalah 84%, dan perbedaan antara nilai yang diberikan oleh guru dan sistem adalah 27,93%.

3. Waktu yang dibutuhkan oleh sistem dalam

mencocokkan kata dan memberikan rekomendasi nilai sangat lama, dikarenakan semakin banyak siswa yang memasukkan jawabannya, semakin banyak pula waktu yang dibutuhkan oleh sistem dalam mencocokkan kata dan memberikan rekomendasi nilai. Rata-rata waktu yang dibutuhkan sistem dalam mencocokkan kata dan memberikan rekomendasi nilai untuk contoh diatas adalah 17 detik.

4.1 Saran

Berikut adalah saran yang dapat dilakukan untuk pengembangan dari penelitian yang telah dilakukan :

1. Untuk meningkatkan keakurasian sistem

dalam memberikan rekomendasi nilai lebih

baik menggunakan metode Natural

Language Processing (NLP) karena NLP menilai tidak hanya menilai berdasarkan kesamaan kata saja, tapi berdasarkan

susunan kata (grammar) dari jawaban yang

telah dimasukkan oleh siswa.

2. Untuk penelitian lebih lanjut disarankan

(46)

DAFTAR PUSTAKA

[1] S. Hamza, M. Sarosa and P. B. Santoso, "Sistem Koreksi Soal Essay Otomatis Dengan

Menggunakan Metode Rapid Karp," Jurnal

EECCIS, vol. 7, 2013.

[2] S. Astutik, A. D. Cahyani and M. K. Sophan,

"Sistem Penilaian Otomatis Dengan

Menggunakan Algoritma Winnowing," Jurnal

Informatika, vol. 12, pp. 47 - 52, 2014.

[3] H. Septiantri, "Perbandingan Metode Latent Semantic Analysis Dan Vector Space Model Untuk Sistem Penilaian Jawaban Esai Otomatis Bahasa Indonesia," 2009.

[4] Darmawan, Heru Adi; Wurijanto, Tutut; Masturi, Akh;, "Rancang Bangun Aplikasi Search Engine Tafsir Al-Qur'an Menggunakan Teknik Text Mining Dengan Algoritma VSM (Vector Space Model)".

[5] R. S. Pressman and B. R. Maxim, Software Engineering, A Practitioner's Approach Eighth Edition, New York: McGraw-Hill Education, 2015.

[6] W. Budiharto and D. Suhartono, Artificial Intelligence : Konsep dan Penerapannya, Jakarta: Andi, 2014.

[7] Tahitoe, Andita Dwiyoga, "Implementasi

Modifikasi Enchanced Confix Stripping

Stemmer Untuk Bahasa Indonesia Dengan

Metode Corpus Based Stemming," Jurnal

Informatika, 2010.

[8] S. Dikli, "An Overview Of Automated Scoring

Of Essay," The Journal of Technology,

Learning,and Assessment, Vols. 5, number 1, 2006.

[9] R. A. S. and M. S. , Rekayasa Perangkat Lunak : Terstruktur dan Berorientasi Objek, Bandung: Informatika, 2013.

(47)

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA)

1

Edisi. 1Volume. 1 Bulan AGUSTUS ISSN : 2089-9033

IMPLEMENTATION OF VECTOR SPACE MODEL (VSM) FOR

ESSAY ANSWER SCORING RECOMMENDATION

Harry Septianto

Teknik Informatika – Universitas Komputer Indonesia

Jl. Dipatiukur 112-114 Bandung Email : [email protected]

ABSTRACT

Each learning process requires an evaluation form of the exam. Exam can be done in three types, the first of which is a multiple choice exam, short stuffing exam and essay exams. Essay exam is the evaluation of learning in the form of essay questions that have answers more varied than multiple choice questions. Variations of these answers give trouble to teachers in assessing the essay. In this study, the method used for matching words is a method of Vector Space Model (VSM).

Keywords : Vector Space Model, Essay Exam, Scoring Recommendation

1. INTRODUCTION

Each learning process requires an evaluation form of the exam. Exam can be done in three types, the first of which is a multiple choice exam, short stuffing exam and essay exams. Essay exam is the evaluation of learning in the form of essay questions that have answers more varied than multiple choice questions. Variations of these answers give trouble to teachers in assessing the essay.

There have been many studies on automatic correction of essays, one of which is the research conducted by Sahriar Hamzah, M. Budi Santoso Sarosa and Purnomo which uses an algorithm Carbs. The level of accuracy of the algorithm Rabin-Krab is 90.31%. In addition to using the algorithm Rabin-Carbs, another string matching algorithm is an algorithm with a level of accuracy Winnowing Winnowing algorithm is 75-80%. In this research to match the word using Vector Space Model (VSM).

Therefore this study is expected to obtain a result of an accurate scoring of VSM.

1.1 Formulation of The Problem

Based on the background described by the authors above, it can be formulated problem is how to match the word and recommending the value of the essay that has included students in the learning media.

1.2 Objective And Purpose

Based on the problems studied, the purpose of this thesis is to implement methods of Vector Space Model (VSM) for matching words and on the value of the essay.

While the objectives to be achieved in this study are as follows:

1.3Scope of Problem

There are some limitations problems that can be formulated so that the discussion of the problem can be more focused and detailed, with a view to facilitate the identification and understanding of the

application. The limit problems in the

implementation of this VSM are :

1 The languages that can be read by system must

be in Indonesian good and be in agreement

2 The data was used from Senior High School

(SMAN)13 Palembang. Data in the form of a collection of questions and answer that are used by teacher in SMAN 13 Palembang.

3 The case that used is Economy class X (ten).

Because in these subject contains many theories compared to other subjects.

4 Using Nazief and Adriani algorithm in the

process of stemming and stopword.

5 Using the methods of Vector Space Model

(VSM) in the matching word, while the word for weighting method using Term Frequency (TF).