Pengujian Sistem - IMPLEMENTASI DAN PENGUJIAN

IMPLEMENTASI DAN PENGUJIAN

4.4 Pengujian Sistem

Berikut adalah hasil pengujian model word2vec dengan menggunakan kata-kata yang berhubungan dengan komputer dan teknologi informasi.

Tabel 4.6 Hasil Pengujian Metode Skip-Gram dan Negative Sampling

Input Windows size 8 Windows size 9 Windows size 10

Output Output Output

Dekompresi Kompresi,

Kriptografi Asimetris, simteri,

Threshold Threshold, ambang, thresholding,

Regresi Logistik, berganda, berganda., berganda., causal, non-parametrik, linier huffman., deflate, even-

Citra Citra., grayscale,

Kompresi Dekompresi, kompresi,

rebalanced-rsa, Gaussian Gaussian.,

smoothing, poisson,

Tabel 4.7 Hasil Pengujian Metode CBOW dan Hierarki Softmax

Input Windows size 8 Windows size 9 Windows size 10

Output Output Output

Dekompresi Kompresi, sensitivitas, linier, lda, peramalan

regression.,

berganda., xgboost

xgboost, statistika, berganda

Ardunio Arduino., atmega, cryptosystem,

Kompresi Dekompresi, kompresi, massey-omura., luc, Agrawal-biswas, luc., lehmann

Gaussian Bilateral, median, speckle, notch,

sharpening, binerisasi

binerisasi, tresholding

Hasil pengujian pada tabel 4.6 dan tabel 4.7 tersebut dianalisis dengan menggunakan tenaga manusia. Analisa tersebut dilakukan dengan menanyakan kepada 5 dosen ilmu komputer dan 2 mahasiswa sebagai responden untuk menilai apakah hasil prediksi sudah benar atau tidak dengan menggunakan kuesioner.

Menurut 7 orang tersebut, hasil prediksi dengan menggunakan metode Continuous Bag-of-Words dan Hierarki Softmax serta menggunakan dimensi 300 dan windows size 10 lebih akurat daripada menggunakan Skip-gram dan Negative Sampling.

Berdasarkan tabel hasil pengujian kedua metode, didapat kesimpulan bahwa metode CBOW menghasilkan prediksi kata sebanyak 197 kata sedangkan Skip-gram menghasilkan prediksi kata sebanyak 132 kata dan kata yang sama antara dua metode tesebut sebesar 32 kata. Untuk melihat kesamaan dan perbedaan antar dua metode dengan inputan kata dekompresi dapat dilihat pada diagram venn berikut ini.

Gambar 4.6 Diagram Venn Dua Metode Word Embedding

Keakuratan model juga dapat diuji dengan menggunakan metode cosine similarity antar dua kata. Jika kata yang diuji sama maka akan bernilai 1, jarak cosine silimarity bisa bernilai -1 sampai 1 dan terkadang bernilai 0 sampai 1 tergantung dengan hasil perhitungan model. Berikut adalah hasil pengujian sistem

Kompresi

dengan menggunakan cosine similarity dengan metode CBOW serta windows size 10.

Tabel 4.8 Cosine Similarity Metode CBOW dan Hierarki Softmax Parameter pertama Parameter kedua Hasil Vektor

Kriptografi Citra 0.20052969559871212

Kompleksitas Kompleksitas 0.9999999999999998

Bobot Training 0.29125641762677196

Database Semantik 0.25897638181841875

Cryptography Kriptografi 0.5571506584940785

Naïve Android 0.22663542786025123

Kunci Enkripsi 0.685052538964685

Normalisasi Database 0.15563111929028595

Input Output 0.6687891962785759

Kriteria Keputusan 0.32770524478415686

Informasi Database 0.1885546263626957

Enkripsi Dekompresi 0.542759966059112

Vector Klasifikasi 0.40510485985898215

Dimensi Reduksi 0.46101118646278477

Geografis Matriks 0.1687883123553496

Node Klasifikasi 0.13216982928715793

Piksel Pixel 0.6929005599536394

Jaringan Sinyal 0.3514547618568443

Berdasarkan tabel hasil pengujian diatas, kata “kunci” dan “enkripsi”

memiliki nilai cosine similiarity 0.6805 artinya memiliki hubungan kolerasi yang tinggi sedangkan untuk kata “geografis” dan “matriks”memiliki nilai cosine similiarity 0.168 artinya memiliki hubungan kolerasi yang rendah. Untuk mengevaluasi apakah pre-trained yang dihasilkan sudah baik, peneliti juga membandingkan hasil vektor kata penelitian dengan hasil vektor kata Wikipedia Bahasa Indonesia dan KBBI (Kamus Besar Bahasa Indonesia). Pre-trained Wikipedia memiliki 293.643.490 kata dan 2.234.150 distinct word. Berikut adalah

tabel perbandingan antara pre-trained peneliti dan pre-trained Wikipedia dengan dimensi 300 dan windows 8 serta menggunakan algoritma Continuous Bag-of-Words (CBOW) dan Hierarki Softmax.

Tabel 4.9 Perbandingan Pre-trained Peneliti dan Pre-trained Wikipedia Input Pre-trained peneliti Pre-trained Wikipedia Dekompresi Kompresi, dekompresi,

kompresi., enkripsi, dekripsi, fraktal

Malfungsi, malafungsi, sumbatan, turbulensi, dehidrasi, penyumbatan Kriptografi Kriptografi, asimetris,

simetri, penyandian, simetris, asimetri

Enkripsi, algoritme, kriptosistem, algoritma, cipher, otentikasi

Threshold Thresholding, threshold, ambang, segmentasi, tresholding,

thresholding.

Nol, limit, entropi, batas, yield, ambang

Regresi Regression, berganda,

diskriminan, regression., berganda., xgboost

Varians, statistika, logit, univariate, variabel, multivariate

Arduino Arduino., atmega,

cryptosystem, mikrokontroller, mikrokontroler., raspberry

Pemogramannya,

software, gettext, wep, usb, eternet

Huffman Huffman., levenstein,

Shannon-fano, fibonacci, rice, tcc

Hawn, schupak,

schachter, monae, koechner, haywood Citra Citra., piksel, grayscale.,

grayscale, image, piksel

Vidia, ffi, pesona, pencitraan, sinema, pariwara

Kompresi Dekompresi, kompresi, Massey-omura Massey-omura,

vpmc-ksa, lehmann, luc., luc, trithemius

Gaussian Bilateral, median,

speckle, notch, gabor, bandpass

Mpqc, stokastik, pertidaksamaan,

kuantisasi, vektor, kurva Grayscale Grayscale., grayscalling,

rgb, thresholding, sharpening, binerisasi

Bitmap, colorized, wallpaper, kpresenter, kivio, raster

Tabel 4.10 Hasil Perbandingan Cosine Similiarity Antar Dua Pre-trained

Pre-trained peneliti Pre-trained Wikipedia Cosine Similarity Kompresi, dekompresi,

Nol, limit, entropi, batas,

yield, ambang 0.1668

Regression, berganda, diskriminan, regression., berganda., xgboost

Varians, statistika, logit, univariate, variabel, multivariate

0.0

Arduino., atmega,

software, gettext, wep,

usb, eternet 0.0

Citra., piksel, grayscale., grayscale, image, piksel

Berdasarkan tabel diatas didapat kesimpulan bahwa meskipun jumlah pre-trained peneliti lebih kecil daripada pre-trained Wikipedia tetapi pre-trained peneliti lebih relevan untuk bidang komputer dan teknologi informasi. Pendapat tersebut didukung dengan perhitungan cosine similarity antar list kata hasil prediksi. Setiap kata hasil prediksi pre-trained peneliti akan di rata-rata kan dan dibandingkan dengan rata-rata setiap kata hasil prediksi pre-trained Wikipedia dan dihitung

cosine similarity nya. Hanya ada beberapa kata yang memiliki nilai cosine similarity di atas 0 yang artinya ada beberapa kata dari pre-trained peneliti mendapatkan hasil yang sama dengan KBBI.

Contoh kata citra, dengan menggunakan pre-trained peneliti hasil prediksi lebih mendekati dengan bidang komputer dan teknologi informasi dibandingkan pre-trained Wikipedia. Hal ini dikarenakan pre-pre-trained peneliti lebih spesifik ke bidang komputer dan teknologi informasi.

Tabel 4.11 Perbandingan Pre-trained Peneliti dan KBBI

Input Pre-trained peneliti KBBI

Dekompresi Kompresi, dekompresi, kompresi., enkripsi, dekripsi, fraktal

pengurangan atau peniadaan tekanan

Kriptografi Kriptografi, asimetris, simetri, penyandian, simetris, asimetri

penyelidikan tentang kode rahasia

Threshold Thresholding, threshold, ambang, segmentasi, tresholding, thresholding.

Regresi Regression, berganda,

diskriminan, regression., berganda., xgboost

Mundur, urutan berbalik ke belakang

Arduino Arduino., atmega,

cryptosystem, mikrokontroller,

mikrokontroler., raspberry -

Huffman Huffman., levenstein,

Shannon-fano, fibonacci, rice, tcc

Citra Citra., piksel, grayscale., grayscale, image, piksel

Rupa, gambar, gambaran

Kompresi Dekompresi, kompresi, terkompresi, dikompresi, dekompresi, dekripsi

Pemberian tekanan yang tinggi, pengempaan, pemampatan

Massey-omura Massey-omura, vpmc-ksa, lehmann, luc., luc, trithemius

Gaussian Bilateral, median, speckle, notch, gabor, bandpass

Grayscale Grayscale., grayscalling, rgb, thresholding, sharpening, binerisasi

Tabel 4.12 Hasil Perbandingan Cosine Similiarity Antar Dua Pre-trained

Pre-trained peneliti KBBI Cosine Similarity

Kompresi, dekompresi, kompresi., enkripsi, dekripsi, fraktal

pengurangan atau

peniadaan tekanan 0.0

Kriptografi, asimetris,

Mundur, urutan berbalik

ke belakang 0.0

Huffman., levenstein, Shannon-fano, fibonacci, rice, tcc

0.0

Citra., piksel, grayscale., grayscale, image, piksel

Pemberian tekanan yang tinggi, pengempaan,

Berdasarkan Tabel 4.12 hasil pencarian dengan menggunakan KBBI berdasarkan kata inputan tidak relevan pada bidang komputer dan teknologi informasi. Sama seperti pada Tabel 4.11 hasil perhitungan cosine similarity antar list kata hasil prediksi bernilai 0 semua artinya hasil prediksi dengan menggunakan pre-trained peneliti tidak mendapatkan kesamaan dengan hasil pencarian di KBBI. Berikut adalah visualisasi kategori kata word embedding berdasarkan kata inputan.

Gambar 4.7 Visualisasi Word Embedding

Peneliti menggunakan beberapa kata sebagai kata inputan dan masing-masing kata inputan di wakilkan dengan warna. Berdasarkan gambar 4.7, warna ungu mewakilkan kata kriptografi, warna biru tua mewakilkan kata kecerdasan, warna biru tua mewakilkan kata arduino, warna hijau tosca mewakilkan kata pengamanan, warna hijau muda mewakilkan vektor, warna kuning mewakilkan kata citra, warna jingga mewakilkan kata bitmap, dan warna merah mewakilkan kata pemampatan.

Sedangkan kata yang ditampilkan dalam grafik adalah kata yang diprediksi sebagai kata yang berdekatan dengan kata inputan dan di kelompokkan berdasarkan warna.

BAB V

Dalam dokumen PRE-TRAINED WORD VECTOR BAHASA INDONESIA GENERATION DENGAN MENGGUNAKAN WORD2VEC UNTUK BIDANG KOMPUTER DAN TEKNOLOGI INFORMASI SKRIPSI (Halaman 67-80)