IMPLEMENTASI DAN PENGUJIAN
4.4 Pengujian Sistem
Berikut adalah hasil pengujian model word2vec dengan menggunakan kata-kata yang berhubungan dengan komputer dan teknologi informasi.
Tabel 4.6 Hasil Pengujian Metode Skip-Gram dan Negative Sampling
Input Windows size 8 Windows size 9 Windows size 10
Output Output Output
Dekompresi Kompresi,
Kriptografi Asimetris, simteri,
Threshold Threshold, ambang, thresholding,
Regresi Logistik, berganda, berganda., berganda., causal, non-parametrik, linier huffman., deflate, even-
Citra Citra., grayscale,
Kompresi Dekompresi, kompresi,
rebalanced-rsa, Gaussian Gaussian.,
smoothing, poisson,
Tabel 4.7 Hasil Pengujian Metode CBOW dan Hierarki Softmax
Input Windows size 8 Windows size 9 Windows size 10
Output Output Output
Dekompresi Kompresi, sensitivitas, linier, lda, peramalan
regression.,
berganda., xgboost
xgboost, statistika, berganda
Ardunio Arduino., atmega, cryptosystem,
Kompresi Dekompresi, kompresi, massey-omura., luc, Agrawal-biswas, luc., lehmann
Gaussian Bilateral, median, speckle, notch,
sharpening, binerisasi
binerisasi, tresholding
Hasil pengujian pada tabel 4.6 dan tabel 4.7 tersebut dianalisis dengan menggunakan tenaga manusia. Analisa tersebut dilakukan dengan menanyakan kepada 5 dosen ilmu komputer dan 2 mahasiswa sebagai responden untuk menilai apakah hasil prediksi sudah benar atau tidak dengan menggunakan kuesioner.
Menurut 7 orang tersebut, hasil prediksi dengan menggunakan metode Continuous Bag-of-Words dan Hierarki Softmax serta menggunakan dimensi 300 dan windows size 10 lebih akurat daripada menggunakan Skip-gram dan Negative Sampling.
Berdasarkan tabel hasil pengujian kedua metode, didapat kesimpulan bahwa metode CBOW menghasilkan prediksi kata sebanyak 197 kata sedangkan Skip-gram menghasilkan prediksi kata sebanyak 132 kata dan kata yang sama antara dua metode tesebut sebesar 32 kata. Untuk melihat kesamaan dan perbedaan antar dua metode dengan inputan kata dekompresi dapat dilihat pada diagram venn berikut ini.
Gambar 4.6 Diagram Venn Dua Metode Word Embedding
Keakuratan model juga dapat diuji dengan menggunakan metode cosine similarity antar dua kata. Jika kata yang diuji sama maka akan bernilai 1, jarak cosine silimarity bisa bernilai -1 sampai 1 dan terkadang bernilai 0 sampai 1 tergantung dengan hasil perhitungan model. Berikut adalah hasil pengujian sistem
Kompresi
dengan menggunakan cosine similarity dengan metode CBOW serta windows size 10.
Tabel 4.8 Cosine Similarity Metode CBOW dan Hierarki Softmax Parameter pertama Parameter kedua Hasil Vektor
Kriptografi Citra 0.20052969559871212
Kompleksitas Kompleksitas 0.9999999999999998
Bobot Training 0.29125641762677196
Database Semantik 0.25897638181841875
Cryptography Kriptografi 0.5571506584940785
Naïve Android 0.22663542786025123
Kunci Enkripsi 0.685052538964685
Normalisasi Database 0.15563111929028595
Input Output 0.6687891962785759
Kriteria Keputusan 0.32770524478415686
Informasi Database 0.1885546263626957
Enkripsi Dekompresi 0.542759966059112
Vector Klasifikasi 0.40510485985898215
Dimensi Reduksi 0.46101118646278477
Geografis Matriks 0.1687883123553496
Node Klasifikasi 0.13216982928715793
Piksel Pixel 0.6929005599536394
Jaringan Sinyal 0.3514547618568443
Berdasarkan tabel hasil pengujian diatas, kata “kunci” dan “enkripsi”
memiliki nilai cosine similiarity 0.6805 artinya memiliki hubungan kolerasi yang tinggi sedangkan untuk kata “geografis” dan “matriks”memiliki nilai cosine similiarity 0.168 artinya memiliki hubungan kolerasi yang rendah. Untuk mengevaluasi apakah pre-trained yang dihasilkan sudah baik, peneliti juga membandingkan hasil vektor kata penelitian dengan hasil vektor kata Wikipedia Bahasa Indonesia dan KBBI (Kamus Besar Bahasa Indonesia). Pre-trained Wikipedia memiliki 293.643.490 kata dan 2.234.150 distinct word. Berikut adalah
tabel perbandingan antara pre-trained peneliti dan pre-trained Wikipedia dengan dimensi 300 dan windows 8 serta menggunakan algoritma Continuous Bag-of-Words (CBOW) dan Hierarki Softmax.
Tabel 4.9 Perbandingan Pre-trained Peneliti dan Pre-trained Wikipedia Input Pre-trained peneliti Pre-trained Wikipedia Dekompresi Kompresi, dekompresi,
kompresi., enkripsi, dekripsi, fraktal
Malfungsi, malafungsi, sumbatan, turbulensi, dehidrasi, penyumbatan Kriptografi Kriptografi, asimetris,
simetri, penyandian, simetris, asimetri
Enkripsi, algoritme, kriptosistem, algoritma, cipher, otentikasi
Threshold Thresholding, threshold, ambang, segmentasi, tresholding,
thresholding.
Nol, limit, entropi, batas, yield, ambang
Regresi Regression, berganda,
diskriminan, regression., berganda., xgboost
Varians, statistika, logit, univariate, variabel, multivariate
Arduino Arduino., atmega,
cryptosystem, mikrokontroller, mikrokontroler., raspberry
Pemogramannya,
software, gettext, wep, usb, eternet
Huffman Huffman., levenstein,
Shannon-fano, fibonacci, rice, tcc
Hawn, schupak,
schachter, monae, koechner, haywood Citra Citra., piksel, grayscale.,
grayscale, image, piksel
Vidia, ffi, pesona, pencitraan, sinema, pariwara
Kompresi Dekompresi, kompresi, Massey-omura Massey-omura,
vpmc-ksa, lehmann, luc., luc, trithemius
-
Gaussian Bilateral, median,
speckle, notch, gabor, bandpass
Mpqc, stokastik, pertidaksamaan,
kuantisasi, vektor, kurva Grayscale Grayscale., grayscalling,
rgb, thresholding, sharpening, binerisasi
Bitmap, colorized, wallpaper, kpresenter, kivio, raster
Tabel 4.10 Hasil Perbandingan Cosine Similiarity Antar Dua Pre-trained
Pre-trained peneliti Pre-trained Wikipedia Cosine Similarity Kompresi, dekompresi,
Nol, limit, entropi, batas,
yield, ambang 0.1668
Regression, berganda, diskriminan, regression., berganda., xgboost
Varians, statistika, logit, univariate, variabel, multivariate
0.0
Arduino., atmega,
software, gettext, wep,
usb, eternet 0.0
Citra., piksel, grayscale., grayscale, image, piksel
Berdasarkan tabel diatas didapat kesimpulan bahwa meskipun jumlah pre-trained peneliti lebih kecil daripada pre-trained Wikipedia tetapi pre-trained peneliti lebih relevan untuk bidang komputer dan teknologi informasi. Pendapat tersebut didukung dengan perhitungan cosine similarity antar list kata hasil prediksi. Setiap kata hasil prediksi pre-trained peneliti akan di rata-rata kan dan dibandingkan dengan rata-rata setiap kata hasil prediksi pre-trained Wikipedia dan dihitung
cosine similarity nya. Hanya ada beberapa kata yang memiliki nilai cosine similarity di atas 0 yang artinya ada beberapa kata dari pre-trained peneliti mendapatkan hasil yang sama dengan KBBI.
Contoh kata citra, dengan menggunakan pre-trained peneliti hasil prediksi lebih mendekati dengan bidang komputer dan teknologi informasi dibandingkan pre-trained Wikipedia. Hal ini dikarenakan pre-pre-trained peneliti lebih spesifik ke bidang komputer dan teknologi informasi.
Tabel 4.11 Perbandingan Pre-trained Peneliti dan KBBI
Input Pre-trained peneliti KBBI
Dekompresi Kompresi, dekompresi, kompresi., enkripsi, dekripsi, fraktal
pengurangan atau peniadaan tekanan
Kriptografi Kriptografi, asimetris, simetri, penyandian, simetris, asimetri
penyelidikan tentang kode rahasia
Threshold Thresholding, threshold, ambang, segmentasi, tresholding, thresholding.
-
Regresi Regression, berganda,
diskriminan, regression., berganda., xgboost
Mundur, urutan berbalik ke belakang
Arduino Arduino., atmega,
cryptosystem, mikrokontroller,
mikrokontroler., raspberry -
Huffman Huffman., levenstein,
Shannon-fano, fibonacci, rice, tcc
-
Citra Citra., piksel, grayscale., grayscale, image, piksel
Rupa, gambar, gambaran
Kompresi Dekompresi, kompresi, terkompresi, dikompresi, dekompresi, dekripsi
Pemberian tekanan yang tinggi, pengempaan, pemampatan
Massey-omura Massey-omura, vpmc-ksa, lehmann, luc., luc, trithemius
-
Gaussian Bilateral, median, speckle, notch, gabor, bandpass
-
Grayscale Grayscale., grayscalling, rgb, thresholding, sharpening, binerisasi
-
Tabel 4.12 Hasil Perbandingan Cosine Similiarity Antar Dua Pre-trained
Pre-trained peneliti KBBI Cosine Similarity
Kompresi, dekompresi, kompresi., enkripsi, dekripsi, fraktal
pengurangan atau
peniadaan tekanan 0.0
Kriptografi, asimetris,
Mundur, urutan berbalik
ke belakang 0.0
Huffman., levenstein, Shannon-fano, fibonacci, rice, tcc
-
0.0
Citra., piksel, grayscale., grayscale, image, piksel
Pemberian tekanan yang tinggi, pengempaan,
Berdasarkan Tabel 4.12 hasil pencarian dengan menggunakan KBBI berdasarkan kata inputan tidak relevan pada bidang komputer dan teknologi informasi. Sama seperti pada Tabel 4.11 hasil perhitungan cosine similarity antar list kata hasil prediksi bernilai 0 semua artinya hasil prediksi dengan menggunakan pre-trained peneliti tidak mendapatkan kesamaan dengan hasil pencarian di KBBI. Berikut adalah visualisasi kategori kata word embedding berdasarkan kata inputan.
Gambar 4.7 Visualisasi Word Embedding
Peneliti menggunakan beberapa kata sebagai kata inputan dan masing-masing kata inputan di wakilkan dengan warna. Berdasarkan gambar 4.7, warna ungu mewakilkan kata kriptografi, warna biru tua mewakilkan kata kecerdasan, warna biru tua mewakilkan kata arduino, warna hijau tosca mewakilkan kata pengamanan, warna hijau muda mewakilkan vektor, warna kuning mewakilkan kata citra, warna jingga mewakilkan kata bitmap, dan warna merah mewakilkan kata pemampatan.
Sedangkan kata yang ditampilkan dalam grafik adalah kata yang diprediksi sebagai kata yang berdekatan dengan kata inputan dan di kelompokkan berdasarkan warna.
BAB V