Fakultas Ilmu Komputer
Pengaruh Metode Word Embedding dalam Vector Space Model pada Pemerolehan Informasi Materi IPA Siswa SMP
Ibnu Rasyid Wijayanto1, Imam Cholissodin2, Yuita Arum Sari3
Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya Email: 1[email protected], 2[email protected], 3[email protected]
Abstrak
Pandemi Covid-19 pada awal tahun 2019 membuat sistem pembelajaran tatap muka di sekolah berubah menjadi pembelajaran secara online atau daring. Pembelajaran online menuntut siswa untuk mengakses materi secara digital, namun materi pada hasil pencarian seringkali terlalu luas yang menyebabkan kesulitan bagi siswa termasuk siswa SMP. Hal tersebut dapat diatasi dengan sebuah Pemerolehan Informasi yang dapat memudahkan siswa SMP untuk mempelajari materi yang diinginkan contohnya materi IPA. Pemerolehan Informasi pada penelitian ini menggunakan metode Vector Space Model (VSM) serta pembobotan dilakukan dengan menggunakan metode Term Frequency Inverse-Document Frequency (TF-IDF). Sistem yang menggunakan Metode TF-IDF dan VSM kemudian diuji dengan gabungan Metode TF-IDF, VSM dan Word Embedding untuk mengetahui pengaruh Metode Word Embedding terhadap sistem. Hasil dari penelitian ini adalah terdapat pengaruh Word Embedding. Nilai precision, recall, F-measure dan akurasi pada pengujian sistem gabungan Metode VSM dan TF-IDF berturut-turut adalah 0,395, 0,8628, 0,5375, dan 0,9306. Hasil evaluasi yang berupa precision, recall, F-measure dan akurasi pengujian sistem dengan tambahan Word Embedding pada Metode VSM dan TF-IDF masing-masing 0,38, 0,8880, 0,52822, dan 0,9286. Pengaruh dari Word Embedding, yaitu word embedding dapat me-retrive lebih banyak dokumen sehingga jangkauan dokumen yang didapat lebih besar, akan tetapi dengan menambahkan word embedding pada vector space model dapat menyebabkan berkurangnya tingkat relevansi dikarenakan dokumen yang seharusnya tidak relevan dan tidak di inginkan oleh user memiliki kemungkinan di retrieve oleh sistem.
Kata kunci: vector space model, information retrieval, temu kembali informasi, term frequency - inverse document frequency, word embedding.
Abstract
The Covid-19 pandemic in early 2019 made the face-to-face learning system in schools transformed into online learning. Online learning requires students to access digital learning materials, but the materials in the search results is often too broad which causes difficulties for students including junior high school students. This can be overcome with an Information Retrieval System that can make it easier for junior high school students to learn the desired materials, for example science materials. The Information Retrieval System in this study uses the Vector Space Model (VSM) method and the weighting using the Term Frequency Inverse-Document Frequency (TF-IDF) method. Systems that use the TF- IDF and VSM methods are tested with a combination of the TF-IDF, VSM and Word Embedding methods to determine the effect of the Word Embedding Method on the system. The result from this research is that word embedding can have an effect. The precision, recall, F-measure and accuracy values in the combined system test of the VSM and TF-IDF methods are 0.395, 0.8628, 0.5375, and 0.9306, respectively. The precision, recall, F-measure and system test accuracy values with the addition of Word Embedding in the VSM and TF-IDF methods are 0.38, 0.8880, 0.52822, and 0.9286, respectively. The effect of Word Embedding is that word embedding retrives more documents so that the range of documents obtained is larger. However, the use of additional word embedding in the vector space model can cause a reduction in the level of relevance because documents that should be irrelevant and unwanted by the user are likely to be retrieved by the system.
Keywords: vector space model, information retrieval, term frequency - inverse document frequency, word embedding.
1. PENDAHULUAN
Perkembangan pesat teknologi pada masa ini, mengharuskan manusia mengikuti kemajuan dan pergerakan zaman di semua aspek kehidupan, salah satunya dunia pendidikan.
Tuntutan untuk menguasai teknologi secara cepat di bidang pendidikan dipaksa oleh adanya Corona Virus Disease 2019 (Covid-19) pandemic pada akhir-akhir ini. Upaya dalam mengurangi penularan virus corona, Pemerintah Indonesia melakukan kampanye agar tetap berada dalam rumah, serta melakukan jaga jarak dengan yang lain. Kebijakan tersebut menyebabkan perubahan pada sistem pendidikan di Indonesia dari proses pembelajaran konvensional di kelas menjadi belajar dari rumah berbasis online.
Pembelajaran secara online menyebabkan siswa harus beradaptasi dengan cepat terhadap penggunaan teknologi di bidang pendidikan.
Saat ini telah banyak media yang mendukung pembelajaran siswa secara online, seperti aplikasi digital perpustakaan online hingga cara belajar secara daring melalui berbagai platform pendidikan. Meskipun demikian, masih terdapat siswa yang mengalami kesusahan dalam mencari materi pelajaran secara spesifik salah satunya siswa SMP sehingga siswa merasa keberatan dalam pembelajaran online yang bisa menyebabkan kuota internet yang dibutuhkan sangat banyak karena hasil pencarian yg terlalu banyak dan tidak spesifik, oleh karena maka diperlukan pemerolehan informasi yang dapat memudahkan siswa SMP dalam mempelajari materi yang diinginkan.
Pemerolehan informasi (Information Retrieval) bertujuan memberikan informasi keberadaan dan ketidakberadaan, serta keterangan dalam dokumen-dokumen sesuai permintaan dari pengguna, tidak memberi tahu terkait masalah apa yang ditanyakan (Christioko B.V., 2012). Penelitian sebelumnya telah diterapkan metode Boolean retrieval untuk pemerolehan informasi yang dilakukan oleh (Christioko , dan Daru, 2018). Penelitian ini menggunakan metode Boolean Retrieval dimana metode ini dapat menterjemahkan query yang diinputkan menggunakan operasi and, or, dan not. Pada metode ini dibutuhkan proses pengindeksan untuk membentuk matriks term document incidence. Penelitian tersebut menghasilkan nilai Precision, yaitu 72,73 %, Recall 100% dan nilai gabungan F1 (precision
dan recall) 84,21 % dimana dari hasil tersebut dapat disimpulkan bahwa metode yang dipakai sudah cukup akurat. Permasalahan dari metode Boolean Retrieval sendiri adalah pengguna harus memiliki pengetahuan terkait penulisan operator boolean sehingga sistem tidak bisa dioperasikan oleh orang yang tidak mengerti tentang cara penulisan operasi boolean.
Permasalahan pada metode Boolean Retrieval dapat diatasi dengan menggunakan metode Vector Space Model yang telah dilakukan oleh penelitian sebelumnya oleh
(Mas’udia, Armadja, dan Mustafa, 2017).
Proses yang dilakukan pada penelitian ini dimulai dengan memasukan query dari user lalu menghapus
stopwordsebagai
preprocessing sehingga akan didapatkan keyword yang mewakili masukan dari userdan setelah itu akan dilakukan perhitungan kemiripan antara query yang diwakilkan oleh keyword dengan dokumen. Hasil dari sistem akan menampilkan dokumen yang relevan secara urut berdasarkan tingkat kemiripan dokumen dengan query. Hasil pengujian yang didapat yaitu dengan memasukkan query “android” lalu sistem mengembalikan 4 dokumen yang relevan.
Vector Space Model atau VSM merupakan algoritma atau metode yang sering digunakan dalam suatu pemerolehan informasi. Model dalam algoritma ini, digunakan sebagai pengukur similarity term (kemiripan) antar dokumen terhadap query melalui pembobotan term. Metode VSM memiliki tingkat akurasi yang tinggi dan dalam penulisan query yang dimasukkan sudah dapat menggunakan kalimat utuh tanpa ada aturan menggunakan operasi tertentu.
Dari latar belakang diatas, peneliti mengusulkan penambahan metode Word Embedding pada metode Vector Space Model serta menganalisis apakah dapat meningkatkan akurasi terhadap dokumen yang relevan. Word Embedding merupakan vektor bernilai real yang merepresentasikan suatu kata yang mewakili konteks pada kemunculannya. Kata ini direpresentasikan ke bentuk numerik yang memungkinkan kita untuk memetakan setiap kata ke suatu titik ruang vektor. Kata-kata dalam konteks sama yang muncul memiliki kesamaan atau saling berhubungan dalam hal arti yang terkandung. Kata-kata yang berhubungan secara sintaksis dan semantik akan lebih dekat satu
sama lain pada ruang vektor daripada kata-kata yang tidak berhubungan. Keterkaitan kata ini bergantung pada data teks atau korpus di mana tempat suatu kata ditemukan (Khattak et al, 2019). Word Embedding dapat memperluas query yang digunakan dengan mencari hubungan kata terdekat sehingga harapannya dapat memperluas query yang dapat menambah performa dari metode Vector Space Model.
2. METODOLOGI PENELITIAN
Sistem secara garis besar akan melakukan tahap preprocessing terlebih dahulu kepada dataset serta query dan selanjutnya melakukan 2 proses pengujian, pengujian pertama yaitu mengiplementasi metode VSM dan pembobotan kata TF-IDF tanpa menggunakan Word Embedding dan pengujian kedua dengan tambahan menggunakan Word Embedding.
Garis besar rancangan umum sistem dapat dilihat pada Gambar 1.
Gambar 1 Rancangan umum sistem
2.1 Pemerolehan Informasi
Pemerolehan informasi adalah sistem yang secara otomatis dapat menemukan (retrieve) informasi dari kumpulan informasi sesuai dengan apa yang diinginkan oleh user. Prinsip kerjanya, yaitu apabila ada suatu kumpulan dokumen serta user yang memformulasikan request atau query (pertanyaan). Pertanyaan tersebut, dijawab melalui sekumpulan dokumen yang relevan dan menghilangkan dokumen tidak relevan. Penelitian tentang IRS sudah banyak dilakukan sebelumnya, contohnya temu kembali informasi dalam pencarian informasi berbahasa Indonesia (Karyono & Utomo, 2012). Fungsi utama IRS adalah:
1. Mengenali sumber informasi yang sesuai atau relevan dengan minat target pegguna.
2. Merepresentasikan maksud sumber informasi melalui cara tertentu agar mendapatkan kemungkinkan bertemu dengan pertanyaan (query) dari pengguna.
3. Menganalisis kandungan sumber informasi, yaitu dokumen.
4. Mempertemukan antara pernyataan dalam pencarian dengan simpanan data dalam basis data.
5. Menggambarkan pertanyaan atau query dari pengguna dengan cara tertentu yang memungkinkan untuk dapat bertemu sumber informasi yang tersimpan dalam basis data.
6. Menyempurnakan kinerja sistem berdasarkan umpan balik dari pengguna.
7. Menemu-kembalikan informasi relevan.
2.2 Search Engine
Search engine merupakan aplikasi praktis untuk teknik pencarian informasi pada koleksi teks yang besar. Search engine dapat dipakai dengan koleksi yang kecil seperti beberapa ratus email dan dokumen pada desktop, atau koleksi yang sangat besar seperti dokumen pada web.
Mesin pencari memiliki sejumlah konfigurasi yang mencerminkan aplikasi yang dirancang untuknya. Search engine dapat ditemukan pada aplikasi yang berbeda seperti aplikasi desktop maupun yang dikhususkan untuk perusahaan.
Search engine telah ada bertahun tahun.
Misalnya, MEDLINE, sistem pencari literatur medis online mulai dikembangkan pada 1970- an. Istilah Search engine pada mulanya dipakai untuk merujuk ke perangkat keras khusus dalam mencari teks. Namun, sejak pertengahan 1980- an dan seterusnya, secara bertahap mulai digunakan dalam preferensi untuk "sistem pencarian informasi" sebagai nama untuk sistem perangkat lunak yang membandingkan permintaan dengan dokumen dan mendapatkan daftar dokumen hasil peringkat (Croft &
Metzler, 2015).
2.3 Preprocessing
Preprocessing merupakan kegiatan mempersiapkan teks yang akan digunakan, dengan cara mengubah data tidak terstruktur menjadi terstruktur. Data terstruktur biasanya berupa nilai numerik (Marfian, 2015). Tahapan yang dilakukan pada preprocessing, yaitu case folding dengan membuat karakter huruf yang semula merupakan huruf kapital menjadi huruf
Preprocessing Pembobotan kata
Cossine Similarity Data
dan Query
Hasil preprocessing
Dokumen berbobot
Perankingan nilai Cossine Similarity
Nilai similarity
Perhitungan evaluasi dokumen yang
Output dokumen yang relevan Hasil
Evaluasi
Word2vec
Query Expansion
kecil, lalu tokenizing yaitu menguraikan kalimat menjadi kata demi kata kemudian menghapus delimiter-delimiter seperti koma (,), titik(.), spasi serta karakter angka yang terdapat dalam kata tersebut (Apriliana, Ransi dan Nangi 2017).
Tahap selanjutnya filtering adalah akan dilakukan pemilihan untuk membuang kata yang tidak penting pada dokumen yang bertujuan agar membuat pengklasifikasian yang menghasilkan hasil yang lebih akurat dan efektif. Pada tahapan ini akan dilakukan penghilangan stopword.
Stopword adalah kosakata yang bukan merupakan kata unik di dalam sebuah dokumen seperti kata sambung. Contoh kata yang masuk pada stopword adalah kata “di”, “karena”,
“sebuah”, “pada”, “oleh” dan sebagainya.
Sebelum memasuki tahapan penghilang stopword, daftar stopword harus dibuat terlebih dahulu.
Tahap berikutnya, yaitu stemming yang merupakan proses memetakan serta menguraikan kata turunan yang mengandung imbuhan prefiks, konfiks, dan suffiks menjadi bentuk kata dasar. Proses stemming jika tidak dilakukan maka, dapat menyebabkan beban terhadap database karena setiap kata akan disimpan ke dalamya. Bahasa Indonesia mempunyai aturan morfologi tersendiri yang menyebabkan proses stemming disesuaikan dengan aturan morfologinya (Apriliana, Ransi dan Nangi 2017). Pada penelitian ini tahap preprocessing yang dilakukan meliputi case folding, tokenizing, dan filtering.
2.4 Pembobotan TF-IDF
Metode TF-IDF (Term Frequency Inverse Document Frequency) merupakan metode pembobotan kata yang paling banyak digunakan untuk memberikan nilai bobot dokumen.
Pembobotan ini sering dikombinasikan dengan dua metode pembelajaran penting dalam pengklasifikasian yaitu Support Vector Machine dan K-NN. TF-IDF biasanya digunakan untuk membandingkan vektor query dengan vektor pada dokumen menggunakan similarity atau kemiripan. Elemen pertama yang dibutuhkan oleh metode ini yaitu Term Frequency (TF) adalah faktor yang menilai bobot pada term atau kata yang ada di dokumen berdasarkan jumlah kemunculannya di dalam dokumen tersebut.
Inverse Document Frequency (IDF) yang merupakan elemen kedua adalah pengurangan dominasi term atau kata yang sering ditemukan pada beberapa dokumen. Pembobotan akan
memperhatikan faktor kebalikan frekuensi dokumen yang mengandung frekuensi suatu kata (Yusuf, Fauzi, & Brata, 2018). Untuk menghitung nilai IDF dapat menggunakan Persamaan 2.1 dan untuk mendapatkan bobot pada kata dapat menggunakan Persamaan 2.2.
Invers Document Frequency dihitung menggunakan persamaan:
IDF(ti) = log( |𝐷|
𝐷𝐹(𝑡𝑖)) (1)
Keterangan:
• IDF(ti): Invers Document Frequency dari kata(term) ti
• |D|: Jumlah dokumen latih keseluruhan
• DF(ti): Jumlah dokumen latih yang memiliki kata (term) ti
Kemudian persamaan untuk menghitung bobot kata (wi) dalam dokumen dihitung menggunakan persamaan:
Wi = TF(ti,d) x IDF(ti) (2) Keterangan:
• wi : Bobot kata (term) dalam dokumen d
• TF(ti,d) : Banyaknya kata (term) ti
yang muncul dalam dokumen d IDF(ti) : Inverse document frequency dari kata (term) ti.
2.5 Vector Space Model
Vector Space Model merupakan metode yang dilakukan setelah proses pemberian nilai bobot pada term atau kata, di mana kumpulan dokumen direpresentasikan ke dalam sebuah matriks vektor. Matriks tersebut akan dapat menghasilkan sebuah koordinat tertentu.
Kumpulan kata-kata (string) ditransformasi ke dalam represegambarntasi yang sesuai pada pengklasifikasian teks di dalam dokumen untuk proses learning untuk disusun menjadi rangkaian kata. Pengukuran nilai kesamaan atau kemiripan antar dokumen dapat menggunakan cosine similarity. Query dokumen dikatakan semakin relevan ketika nilai kesamaan antar query dan vektor dokumen juga semakin besar.
(Yusuf, Fauzi, dan Brata, 2018). Representasi
dokumen dan query dapat dilihat dari Gambar 2.
Gambar 2 Representasi ruang vektor antara query dan dokumen
Kemiripan antara kedua vektor query dan dokumen dapat dihitung dengan melihat sudut yang paling kecil. Dua buah vektor membentuk suatu sudut yang dapat dihitung dengan melakukan inner product. Perhitungan dapat menggunakan pendekatan cosine similarity rumus perhitungan ada pada Persamaan 2.3 (Aziz, Saptono, dan Suryajaya, 2015). Berikut bentuk perumusan cosine similarity.
Sim(D,Di) = cos θ (3)
= 𝐷.𝐷𝑖
|𝐷||𝐷𝑖 = ∑𝑊𝑞.𝑗 𝑊𝑖.𝑗
√∑𝑊𝑞.𝑗2√∑𝑊𝑖.𝑗2
Di mana:
• D : Dokumen acuan
• Di : Dokumen ke-i
• Wq.j : Bobot term j pada dokumen acuan
• Wi.j : Bobot term j pada dokumen i 2.6 Word Embedding
Word Embedding merupakan vektor bernilai real yang merepresentasikan suatu kata yang dapat mewakili konteks di mana kata tersebut muncul. Pada vektor ini kata akan digambarkan dalam bentuk numerik di mana setiap katanya dapat dipetakan ke dalam ruang vektor. Kata yang memiliki hubungan dalam semantik atau sintaksis akan dipetakan saling berdekatan satu sama lain daripada kata yang tidak memiliki hubungan sama sekali seperti pada Gambar 2.2.
Keterkaitan tersebut bergantung kepada data teks atau korpus di mana kata tersebut berasal.
Word Embedding dapat dilatih secara langsung dari sebuah korpus berisikan teks dan tidak membutuhkan cara manual dalam pelabelan atau ekstraksi fitur sehingga dapat disebut sebagai pelatihan dalam bentuk unsupervised (Khattak et
al, 2019). Secara simpel Word Embedding dapat diilustrasikan pada Gambar 3.
Gambar 3 Tiap kata yang berhubungan dalam suatu kalimat akan dipetakan berdekatan.
Salah satu tipe Word Embedding adalah Word2vec. Pada Word2vec ini terdapat 2 model yaitu Continous Bag-of-Words (CBOW) dan Skip-Gram (SG). Kedua model ini menggunakan sedikit jaringan syaraf tiruan yang dilatih untuk memetakan kata-kata ke dalam titik pada ruang vektor. Parameter yang digunakan pada pelatihan Word2vec yaitu nomor pada dimensi Word Embedding (biasanya diantara 50 dan 500) dan panjang konteks yang digunakan (misalnya berapa kata sebelum dan sesudah target kata harus digunakan sebagai konteks untuk pelatihan Word Embedding, umumnya 5 atau 10 kata) (Khattak et al, 2019).
2.6.1 Skip-Gram
Model Skip-Gram adalah salah satu model Word Embedding yang mirip dengan model Continous Bag-of-Words (CBOW) dimana keduanya sama-sama memprediksi kata berdasarkan pada konteksnya tetapi model ini mencoba untuk memaksimalkan klasifikasi kata berdasarkan kata lain dalam kalimat yang sama (Mikolov et al, 2013). Perbedaan dari model Skip-Gram dengan model Continous Bag-of- Words (CBOW) yaitu pada Skip-Gram mencoba memprediksi konteks kata dalam radius yang diberikan pada target kata (Gopchandani, 2019).
Detail penjelasan model Skip-Gram dapat dilihat pada Gambar 4.
Dokumen 2 = 3Ti
+ 7T2 + T3
5
2 3 3 T 7
T
Kueri= 0T1 + 0T2 + 2T3
T Dokumen 1 = 2Ti +
3T2 + 5T3 “… mamalia merupakan hewan yang
melahirkan…”
“… makhluk hidup membutuhkan makanan…”
Gambar 4 Arsitektur Skip-Gram
Pada pelatihannya, Skip-Gram akan melewati beberapa proses yaitu one-hot-encode, forward-pass, perhitungan error backpropagation dan pencarian kata terdekat.
2.6.1.1 One-Hot-Encode
Proses di tahap ini adalah mengubah data yang digunakan dalam bentuk encode dengan memberikan nilai 1 apabila kata tersebut berada di radius window, serta nilai 0 jika di luar radius.
2.6.1.2 Forward-Pass
Pada tahap ini dilakukan beberapa langkah perhitungan yang pertama yaitu mencari nilai hidden layer (h) menggunakan Persamaan 4.
h = 𝑤𝑡 . 𝑤𝑘 (4)
Keterangan:
• h = Hidden layer
• 𝑤𝑡 = Nilai bobot dari input layer menuju hidden layer yang
• telah di transpose
• 𝑤𝑘 = Vektor input
Langkah selanjutnya yaitu menghitung nilai output layer (u) menggunakan Persamaan 2.5.
u = 𝑤′𝑡 . ℎ (5)
Keterangan:
• u = Output layer
• 𝑤′𝑡 = Nilai bobot dari hidden layer menuju ouput layer yang
• telah di transpose
• h = Hidden layer
Langkah selanjutnya yaitu menghitung nilai pada fungsi softmax (yc) yang digunakan untuk prediksi dengan menggunakan Persamaan 2.6.
yc = exp (𝑢𝑐,𝑗)
∑𝑣𝑗′=1exp(𝑢𝑗′) (6)
Keterangan:
• yc = Fungsi softmax
• uc,j = Matriks output pada baris ke-j
• uj’ = Matriks output pada semua baris
• V = Jumlah vocab/kata unik 2.6.1.3 Perhitungan error
Pada tahap ini akan dilakukan perhitungan nilai error yang terdapat pada kata menggunakan Persamaan 2.7 serta menghitung error pada kata sebelumnya dan kata sesudahnya menggunakan Persamaan 2.8 dan Persamaan 2.9
e_w(t+1) = yc – w(t+1) (7) Keterangan:
• e_w(t+1) = Nilai error pada kata setelahnya
• yc = Fungsi softmax
• w(t+1) = vektor input pada kata konteks setelahnya
e_w(t-1) = yc – w(t-1) (8) Keterangan:
• e_w(t-1) = Nilai error pada kata sebelumnya
• yc = Fungsi softmax
• w(t-1) = vektor input pada konteks sebelumnya
e = e_w(t+1) + e_w(t-1) (9)
Keterangan:
• e = Nilai error
• e_w(t+1) = Nilai error pada kata setelahnya
• e_w(t-1) = Nilai error pada kata sebelumnya
w(t)
INPUT PROJEKSI OUTPUT w(t-2)
w(t-1)
w(t+1)
w(t+2)
2.6.1.4 Backpropagation
Pada langkah ini akan melakukan proses perhitungan perubahan bobot baru pada matriks w dan w’. Menghitung perubahan bobot matriks w dapat menggunakan Persamaan 2.10.
𝝏𝑳
𝝏𝑾′𝒊𝒋 = h x e.T (10)
Keterangan:
• 𝝏𝑳
𝝏𝑾′𝒊𝒋 = Nilai bobot dari output layer menuju hidden layer
• h = Nilai hidden layer
• e.T = Nilai error yang di tranpose Langkah selanjutnya yaitu menghitung perubahan bobot matriks w’ menggunakan Persamaan 2.11.
𝝏𝑳
𝝏𝑾𝒊𝒋 = 𝑤𝑘 x (w’ . e) .T (11) Keterangan:
• 𝝏𝑳
𝝏𝑾𝒊𝒋 = Nilai bobot dari input layer menuju hidden layer
• 𝑤𝑘 = Matriks representasi kata
• e = Nilai error
• w’ = Bobot lama dari input layer menuju hidden layer
2.6.1.5 Theta
Pada langkah ini proses yang dilakukan adalah mencari theta antara vektor kata pertama dan kedua. Nilai theta ini merepresentasikan kedekatan antara 2 kata. Proses pertama yang akan dilakukan adalah dengan mencari nilai numerator terlebih dahulu dengan menggunakan Persamaan 2.12.
num = 𝑣𝑤1 . 𝑣𝑤2 (12)
Keterangan:
• num = Nilai numerator
• 𝑣𝑤1 = Vektor kata pertama
• 𝑣𝑤2 = Vektor kata kedua
Setelah nilai numerator didapatkan, kemudian mencari nilai denominator berdasarkan Persamaan 2.13.
denum = √∑ 𝑣𝑤 2 𝑥 √∑ 𝑣𝑤 2 (13)
Keterangan:
• denum = Nilai denominator
• 𝑣𝑤1 = Vektor kata pertama
• 𝑣𝑤2 = Vektor kata kedua
Setelah mendapatkan kedua nilai numerator dan denominator maka dapat melakukan perhitungan theta menggunakan Persamaan 2.14.
theta = 𝑛𝑢𝑚
𝑑𝑒𝑛𝑢𝑚 (14)
• theta = Nilai theta (kedekatan vektor 2 kata)
• num = Nilai numerator
• denum = Nilai denominator 2.7 Evaluasi
Evaluasi sistem pada penelitian ini menggunakan Evaluasi Tak Berperingkat. Ada beberapa poin yang digunakan untuk perhitungan evaluasi tak berperingkat yaitu precision, recall, f-measure, dan accuracy.
Sebelum mencari masing-masing poin tersebut, penelitian ini melakukan pengujian terlebih dahulu, lalu hasil dari pengujian dapat dibedakan antara dokumen yang relevan serta yang tidak relevan, dan juga dokumen yang diperoleh maupun yang tidak diperoleh. Penjelasan lebih lanjut terkait poin-poin yang digunakan:
1. Precision : Tingkat ketepatan antara informasi yang diminta oleh user dengan hasil jawaban yang diberikan oleh sistem. Precision bertujuan untuk mengetahui proporsi dokumen yang diprediksi relevan oleh sistem dari keseluruhan data yang di retrieve (Powers, 2011). Untuk mencari nilai precision dapat menggunakan Persamaan 2.15.
Precision = 𝑟𝑒𝑙𝑒𝑣𝑎𝑛 ∩𝑑𝑜𝑘.𝑑𝑖𝑝𝑒𝑟𝑜𝑙𝑒ℎ
𝑑𝑜𝑘.𝑑𝑖𝑝𝑒𝑟𝑜𝑙𝑒ℎ (15)
2. Recall : Tingkat jumlah banyak dan sedikitnya kesesuaian informasi yang didapatkan dari hasil percobaan berdasarkan sudut pandang kelas atau label yang digunakan. Recall bertujuan untuk menghitung proporsi dokumen yang benar benar relevan dari dokumen relevan yang telah diprediksi oleh sistem (Powers, 2011). Untuk mencari nilai
recall dapat menggunakan Persamaan 2.16.
Recall = 𝑟𝑒𝑙𝑒𝑣𝑎𝑛 ∩𝑑𝑜𝑘.𝑑𝑖𝑝𝑒𝑟𝑜𝑙𝑒ℎ
𝑟𝑒𝑙𝑒𝑣𝑎𝑛 (16)
3. F-Measure : Bobot harmonic mean pada recall dan precision. Untuk mencari nilai F-Measure dapat menggunakan Persamaan 2.17.
F-Measure = 2 𝑥 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑥 𝑟𝑒𝑐𝑎𝑙𝑙
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙 (17) 4. Accuracy : Kesesuaian nilai hasil
prediksi pengujian dengan nilai aktual (ground truth) yang dibandingkan.
Accuracy adalah bagian keputusan (relevant/non relevant) yang benar.
Untuk mendapatkan nilai accuracy dapat menggunakan Persamaan 2.7 serta menggunakan acuan dari Confusion Matrix pada Tabel 2.1.
Tabel 1 Confussion Matrix Dokumen
relevan
Dokumen tidak relevan Dokumen yang
diperoleh
TP FP
Dokumen yang tidak diperoleh
FN TN
Persamaan untuk menghitung nilai akurasi:
Accuracy = 𝑇𝑃+𝑇𝑁
𝑇𝑃+𝐹𝑃+𝐹𝑁+𝑇𝑁 (18)
Keterangan:
• True Positif (TP) = Dokumen yang diperoleh dan relevan
• False Positif (FP) = Dokumen yang diperoleh namun tidak relevan
• False Negatif (FN) = Dokumen relevan yang tidak diperoleh
• True Negatif (TN) = Dokumen tidak relevan yang tidak diperoleh
3. PENGUMPULAN DATA
Data penelitian yang digunakan yaitu 42 sub bab materi kelas 7 SMP, 29 sub bab materi kelas 8 SMP, dan 30 sub bab materi kelas 9 SMP dengan total 101 dokumen. Pengumpulan data dilakukan secara manual dengan membuat korpus yang berisikan dokumen di mana setiap dokumen merepresentasikan bab materi yang ada di dalam materi IPA tingkat SMP sederajat.
Materi IPA didapat dari buku Ilmu Pengetahuan
Alam tingkat SMP kurikulum 2013 yang diterbitkan oleh Kementerian Pendidikan dan Kebudayaan. Pengambilan data dilakukan pada tanggal 24 Agustus 2020 selanjutnya pembuatan korpus dilakukan sampai tanggal 1 September 2020. Dari data tersebut akan disatukan menjadi korpus yang nantinya akan diproses pada preprocessing agar bentuk data menjadi lebih terstruktur.
4. HASIL DAN PEMBAHASAN
4.1 Pengujian Tanpa menggunakan Word Embedding
Pengujian yang pertama yaitu menghitung evaluasi sistem tanpa menggunakan tambahan metode word embedding. Hasil dari evaluasi sistem dapat dilihat pada Tabel 2.
Tabel 2 Tabel hasil pengujian tanpa menggunakan Word Embedding
Query Precision Recall F-measure Akurasi Query 1 0,4 0,5 0,4444 0,9009 Query 2 0,375 1 0,5454 0,9504 Query 3 0,4 0,8 0,5333 0,9306 Query 4 0,4 0,8 0,5333 0,9306
Query 5 0,4 1 0,5714 0,9405
Berdasarkan hasil perhitungan masing – masing query memiliki nilai precision yang sama kecuali pada query ke-2 dengan nilai 37,5%. Nilai recall tertinggi dimiliki oleh query ke-5 dan query ke-2 dengan nilai 100%. Nilai f- measure tertinggi terdapat pada query ke-5 dengan nilai 57,14%. Nilai akurasi tertinggi terdapat pada query ke-2 dengan nilai 95,04%.
Rata rata dari hasil evaluasi di atas dapat dilihat pada Tabel 3.
Tabel 3 Rata – rata nilai evaluasi tanpa Word Embedding.
Precision Recall F-measure Akurasi Rata - rata 0,395 0,8628 0,5375 0,9306
4.2 Pengujian dengan menambahkan Word Embedding
Pengujian kedua yaitu menghitung evaluasi sistem dengan menggunakan tambahan metode word embedding menggunakan model word2vec. Hasil dari evaluasi sistem ditunjukkan oleh Tabel 4.
Tabel 4 Tabel hasil pengujian dengan menambahkan Word Embedding
Query Precision Recall F-measure Akurasi Query 1 0,3 0,375 0,3333 0,8811
Query 2 0,3 1 0,4615 0,9306
Query 3 0,4 0,8 0,5333 0,9306
Query 4 0,5 1 0,6666 0,9504
Query 5 0,4 1 0,5714 0,9405
Berdasarkan hasil perhitungan, nilai precision tertinggi terdapat pada query ke-4 dengan nilai 50%. Nilai recall tertinggi dimiliki oleh query ke-5, query ke-2, query ke-4, dan query ke-5 dengan nilai 100%. Nilai f-measure tertinggi terdapat pada query ke-4 dengan nilai 66,66%. Nilai akurasi tertinggi terdapat pada query ke-4 dengan nilai 95,04%. Rata – rata dari hasil evaluasi di atas ditampilkan pada Tabel 5.
Tabel 5 Rata-Rata nilai evaluasi dengan Word Embedding
Precision Recall F-measure Akurasi Rata - rata 0,8 0,8880 0,5282 0,9286
Perbandingan dari hasil kedua skenario pengujian yang dilakukan dapat dilihat pada Gambar 6.
Gambar 5 Grafik perbandingan nilai evaluasi Dari kedua skenario pengujian diatas dapat disimpulkan bahwa, penambahan word embedding memiliki nilai akurasi yang lebih kecil yaitu 92.86% dibanding dengan tanpa menggunakan word embedding yaitu 93.06%
walaupun perbedaan nilai yang dihasilkan sangat
kecil. Penyebab dari nilai evaluasi yang lebih kecil adalah word embedding yang menambahkan kata ke dalam query bisa menyebabkan pengambilan dokumen yang seharusnya tidak relevan.
5. KESIMPULAN
Kesimpulan pada penelitian yang dilakukan, yaitu nilai evaluasi yang dihasilkan dari metode vector space model tanpa menggunakan word embedding pada pemerolehan informasi materi IPA tingkat SMP yaitu nilai rata – rata precision 39.5%, recall 86.28%, f-measure 53.75% dan akurasi 93.06%. Nilai evaluasi yang dihasilkan dari metode vector space model dengan menggunakan word embedding pada pemerolehan informasi materi IPA tingkat SMP yaitu nilai rata – rata precision 38%, recall 88.8%, f-measure 52.82% dan akurasi 92.86%.
Pengaruh word embedding terhadap metode vector space model pada pemerolehan informasi materi IPA siswa SMP berdasarkan dari perbandingan hasil pengujian pada Grafik 6.3 adalah metode word embedding dapat me-retrive lebih banyak dokumen sehingga jangkauan dokumen yang didapat lebih besar, akan tetapi penggunaan tambahan word embedding pada vector space model dapat menyebabkan berkurangnya tingkat relevansi dikarenakan dokumen yang seharusnya tidak relevan dan tidak diinginkan oleh user memiliki kemungkinan di retrieve oleh sistem.
Saran untuk penelitian selanjutnya yaitu menambahkan metode yang berkaitan dengan Natural Language Processing untuk memproses masukan dari pengguna yang bertujuan agar mengerti bahasa alami dari query yang dimasukkan oleh pengguna sehingga dapat meningkatkan jumlah dokumen yang relevan terhadap keinginan pengguna lalu menambahkan loss function pada pelatihan model word2vec agar mendapatkan model yang konvergen untuk digunakan pada query expansion sehingga meningkatkan kemungkinan kata yang dihasilkan merupakan kata yang tepat dan tidak membatasi dokumen yang relevan dari sistem, karena dapat menyebabkan dokumen yang seharusnya relevan tetapi tidak di ambil oleh sistem.
6. DAFTAR PUSTAKA
Apriliana, Ransi, N., Nangi, J., 2017.
Implementasi Text Mining Klasifikasi Skripsi menggunakan Metode Naïve
0 0,2 0,4 0,6 0,8 1
Precision Recall F-Measure Akurasi Tanpa Word Embedding
Dengan Word Embedding
Bayes Classifier. SemanTIK, [e-journal]
3(2). Tersedia melalui:
http://ojs.uho.ac.id/index.php/semantik/ar ticle/view/3676 [Diakses 14 September 2020]
Aziz, Saptono, dan Suryajaya, 2015.
Implementasi Vector Space Model dalam Pembangkitan Frequently Asked Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan.[e- journal] Volume 2 No 2. Tersedia melalui:
https://journal.unnes.ac.id/nju/index.php/
sji/article/view/5076 [Diakses 14 September 2020]
Christioko, B.V. , 2012. Implementasi Sistem Temu Kembali Informasi Studi Kasus:
Dokumen Teks Berbahasa Indonesia.
[pdf] Jurnal Transformatika. Tersedia di:
<http://journals.usm.ac.id/index.php/trans formatika/article/view/64> [Diakses 23 Juli 2020]
Christioko, & Daru, 2018. Sistem Temu Kembali Informasi Untuk Pencarian Judul Tugas Akhir Berbasis Kata Kunci. [pdf]
Semarang: Teknik Informatika Universitas Semarang. Tersedia di:
<http://journals.usm.ac.id/index.php/jprt/
article/view/1226>[Diakses 12 Agustus 2020]
Croft, W. B. & Metzler, D. S. T., 2015. Search engines: Information Retrieval in Practice. [pdf] London: Pearson Education. Tersedia di:<
https://scholar.google.com/scholar?oi=bi bs&cluster=14903138746206873716&bt nI=1&hl=en>[Diakses pada 14 September 2020]
Gopchandani, S., 2019. Using Word Embeddings to Explore the Languange of Depression on Twitter. S2. The University of Vermont.
Karyono, G. & Utomo, F. S., 2012. Temu Balik Informasi pada Dokumen Teks Berbahasa Indonesia dengan Metode Vector Space Retrieval Model. Seminar Nasional Teknologi Informasi & Komunikasi Terapan, Volume 2, pp. 282-289.[Diakses 14 September 2020]
Khattak , F.K, Jeblee, S., Pou-Prom, & C., Abdalla, M., 2019. A Survey of Word Embeddings for Clinical Text. Toronto:
Journal of Biomedical Informatics: X.
Tersedia di:
<https://reader.elsevier.com/reader/sd/pii/
S2590177X19300563?token=6A1E441E 2C49BC406042ABA2507CABE7D3FC0 41E0E8B6874C5091AD643040F5F0EB 70032DB8D712BF6426499DFA64B92>
[Diakses 14 September 2020]
Marfian, D., 2015. Klasifikasi Pengkategorian Komentar Twitter Untuk Kota Bandung Dan Yogyakarta. S1. Universitas Widyatama.
Mas’udia, Atmadja, & Mustafa, 2017.
Information Retrieval Tugas Akhir dan Perhitungan Kemiripan Dokumen Mengacu pada Abstrak menggunakan Vector Space Model. [pdf] Simetris : Jurnal Teknik Mesin, Elektro dan Ilmu
Komputer. Tersedia di:
https://jurnal.umk.ac.id/index.php/simet/a rticle/view/1016/831 [Diakses 14 Agustus 2020]
Powers, D.M.W., 2011. Evaluation: from Precision, Recall and F-Measure To ROC, informedness, markedness and correlation International Journal of Machine Learning Technology, [e-journal]
Tersedia melalui:
https://arxiv.org/abs/2010.16061 [Diakses 15 September 2020]
Yusuf, Fauzi, dan Brata, 2018. Sistem Temu Kembali Informasi Pasal-Pasal KUHP (Kitab Undangundang Hukum Pidana) Berbasis Android Menggunakan Metode Synonym Recognition Dan Cosine Similarity. [pdf] Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer.
Diakses: http://j-
ptiik.ub.ac.id/index.php/j-
ptiik/article/view/978 [Diakses 13 Agustus 2020]