Studi Ekstraksi Fitur Data Teks Rencana Pelaksanaan Pembelajaran Memanfaatkan Model Word2Vec

(1)

Vol 4, No 2 September 2021

Studi Ekstraksi Fitur Data Teks Rencana

Pelaksanaan Pembelajaran Memanfaatkan Model Word2Vec

Daniel Eliazar Latumaerissa¹

#Program Magister Sains Data, Universitas Kristen Satya Wacana Jln Diponegoro No 52 – 60. Salatiga. Jawa Tengah

1632020001@students.uksw.edu

Abstrak— Natural Language Processing (NLP) adalah bidang dalam ilmu computer yang mencoba menjembatani mesin dan manusia melalui analisis bahasa manusia, misalnya dalam bentuk teks. Data berupa teks sebelum digunakan dalam pelatihan mesin perlu dirubah terlebih dahulu menjadi vektor (trasnformasi) bermakna sehingga dapat dihitung secara matematis. Pemilihan teknik transformasi atau dikenal juga dengan Vector Space Model (VSM) menjadi penting karena dapat berpengaruh terhadap proses pelatihan mesin. Telah dilakukan uji transformasi teks ke vektor menggunakan model Word2Vec pada dataset Rencana Pelaksanaan Pembelajaran (RPP) dan didapatkan bahwa variasi Bag of Centroids Based Word2Vec adalah pilihan Teknik terbaik untuk melakukan transformasi teks dataset RPP berdasarkan analisis matriks hasil perhitungan cosine similarity.

Kata kunci

—

Vektorisasi, Vector Space Model, Word2Vec, Bags of Centroids Based Word2vec, Cosine Similarity

I. PENDAHULUAN

Natural Language Processing (NLP) di masa kini telah menjadi salah satu cabang dari ilmu Komputer yang mendapatkan banyak perhatian. Berbagai tugas komputasi yang berkaitan dengan bahasa natural manusia dapat diselesaikan menggunakan metode–metode yang ada dalam NLP, misalnya seperti klasifikasi teks, penerjemahan, speech recognition, image captioning, speech tagging, adalah sebagian dari contoh penerapan NLP dalam praktek riil di lapangan [1]. Riset–riset tentang klasifikasi teks misalnya telah banyak memberikan sumbangsih baik di bidang sosial, lingkungan, pendidikan, hiburan (entertainment), sains maupun kesehatan. Oleh karena itu di tengah derasnya arus informasi dan data yang terjadi di saat ini, data teks telah berubah menjadi salah satu sumber daya yang berharga [2].

Namun perlu dipahami bahwa data teks yang masih mentah tidak dapat langsung digunakan untuk proses komputasi misalnya dalam pelatihan suatu algoritma machine learning. Langkah awal yang perlu dilakukan

adalah dengan melakukan vektorisasi. Vektorisasi yang dimaksudkan di sini adalah transformasi data teks menjadi vektor yang berarti yang dapat digunakan untuk berkomunikasi dengan mesin dalam menyelesaikan tugas komputasi dengan NLP secara matematis [3]. Salah satu Teknik yang umum digunakan untuk melakukan transformasi ini adalah vector space representation atau vector space model (VSM). Tujuan utamanya adalah untuk menghasilkan fitur–fitur sederhana yang dapat digunakan dalam proses komputasi. Aspek utama dari VSM adalah cara mendefinisikan teks ke dalam vektor dan ukuran seberapa besar dimensi vektor yang dihasilkan [3]. Dalam beberapa penelitian terdahulu, VSM dapat dilakukan dengan berbagai model misalnya seperti Term Frequency–

Inverse Document Frequency (TF–IDF) pada dataset teks email untuk berikutnya digunakan dalam pelatihan riset klasifikasi Naïve-Bayes [2]. Ataupun model Word2Vec yang divariasikan menjadi Average Based Word2Vec, Sum based Word2Vec, dan Bags of Centroid Based Word2Vec, maupun gabungan keduanya [4].

Dalam penelitian ini, telah dikumpulkan data teks dari dokumen 42 dokumen RPP Fisika kelas X semester 1.

Selanjutnya data teks RPP ini akan ditranformasi menjadi vektor dengan menggunakan model Word2Vec. Analisis digunakan untuk mengetahui variasi mana yang menghasilkan vektor yang paling baik dengan cara membandingkan nilai cosine similarity.

II. TINJAUAN PUSTAKA

Dalam bagian ini akan coba dijelaskan beberapa konsep penting yang berkaitan dengan penelitian.

A. Data Teks

Diantara berbagai sumber dan jenis data, data teks merupakan data jenis data yang paling banyak digunakan untuk melakukan komunikasi (surat menyurat, postingan di media social, dokumen, dll) itulah mengapa di masa

(2)

atau kepentingan komputasi lainnya [5]. TF-IDF adalah salah satu model yang dapat digunakan dikarenakan kemudahan dan cukup sederhana untuk diterapkan sehingga cukup terkenal [5]. Namun TF-IDF memiliki beberapa kesulitan seperti kelemahan dalam mengenali pola n-gram, kesulitan pada proses update dataset (jika

continuous skip-gram. Yang menjadi masukan dari model Word2Vec adalah corpus teks sedangkan yang menjadi luarannya adalah vektor dari kata, dapat dilihat pada Gambar 1.

Gambar. 1 Contoh vector hasil transformasi Word2Vec Inti dari prinsip kerja model Word2Vec adalah

memprediksi makna dari sebuah kata berdasarkan peluang kemunculannya pada teks. Word2Vec juga dapat melakukan asosiasi untuk melihat hubungan satu kata dengan kata lain berdasarkan persamaan kemunculannya [2].

C. Similarity Metric (Cosine Similarity)

Similarity metric adalah sebuah ukuran yang digunakan untuk menentukan kesamaan dua buah vektor.

Ada beberapa cara yang bisa dilakukan misalnya seperti menghitung jarak Euclid, besar separasi sudut, korelasi maupun cara lainnya [5]. Di dalam penelitian ini similarity Metric dilakukan menggunakan perhitungan cosine similarity, yaitu dengan menghitung besar sudut di antara dua buah vektor.

III. METODOLOGI PENELITIAN

Rencana dan tahapan kerja yang dilakukan dalam penelitian kali dapat dijelaskan sebagai berikut. Proses pertama yang perlu dilakukan dalam setiap penelitian NLP atau machine learning lainnya adalah membangun dataset. Di dalam penelitian kali, dataset yang digunakan adalah data teks berisi tahapan pembelajaran beberapa topik pelajaran Fisika yang diajarkan di jenjang pertama SMA, yaitu kelas X.

Dataset ini memiliki dua fitur yaitu fitur topik yang menentukan topik pembahasan dan fitur tahapan pembelajaran yang berisi langkah–langkah pembelajaran (Gambar 2). Fitur topik nantinya dapat membantu jika dilakukan klasifikasi teks. Sedangkan fitur tahapan pembelajaran (Gambar 3) dapat dianalisis dengan terlebih dahulu melakukan transformasi dengan VSM.

Gambar. 2 Tampilan dataset RPP Fisika

(3)

Gambar 3. Contoh Tahapan Pembelajaran Setelah dataset yang dibuthkan berhasil dikumpulkan,

proses penelitian dilanjutkan dengan preprocessing, yang dimaksud disini adalah melakukan pembersihan data (misalnya memperbaiki data yang rusak), removing yaitu menyingkirkan karakter dari data, case folding membuat data teks menjadi bentuk standar (misalnya dengan mengganti semua huruf besar dengan huruf kecil), hal ini penting karena dalam komputasi kata “Makan” dan

“makan” akan dianggap sebagai dua kata berbeda.

Dilanjutkan dengan proses tokenizing, yaitu merubah data dari bentuk kalimat menjadi suku kata dan terakhir adalah dengan melakukan transformasi dengan menggunakan model Word2Vec. Dalam penelitian ini digunakan library Gensim dengan Bahasa pemrograman Python untuk membantu tugas komputasi.

Agar dapat dilakukan analisis yang lebih mendalam, maka digunakan beberapa variasi dari model Word2Vec, yaitu:

1. Average Based Word2Vec

Adapun yang dimaksudkan dengan Average based Word2Vec adalah vector dari sebuah kalimat ditentukan dengan menghitung rerata dari fitur vektor tiap kata yang terdapat di dalam kalimat tersebut.

Pada Tabel I, vektor dari kalimat “Guru memulai pelajaran” adalah rerata dari tiap fitur vektor kata–kata penyusun kalimat tersebut.

TABEL I

TRANSFORMASI AVERAGE BASED WORD2VEC

Teks X1 X2 X3 Xn

Guru 0.1 0.23 0.9 …

Memulai 2.6 0.23 0.78 …

Pelajaran 3.4 1.02 0.21 …

“Guru memulai pelajaran” 2.03 0.49 0.63 …

2. Sum Based Word2Vec

Adapaun cara kerja Sum based Word2Vec adalah menghitung jumlah tiap fitur vektor kata–kata penyusun suatu kalimat untuk mendapat vektor dari kalimat tersebut (Tabel II).

TABEL III

TRANSFORMASI SUM BASED WORD2VEC

Teks X1 X2 X3 Xn

Guru 0.1 0.23 0.9 …

Memulai 2.6 0.23 0.78 …

Pelajaran 3.4 1.02 0.21 …

“Guru memulai pelajaran”

6.1 1.48 1.89 …

Dapat dilihat bahwa vektor dari kalimat “Guru memulai pelajaran” merupakan penjumlahan dari tiap fitur vektor kata–kata penyusun kalimat tersebut.

Gambar 4. Hasil Klasterisasi dengan KMeans terhadap vektor seluruh kata dalam dataset

(4)

Gambar 5. Penentuan jumlah klaster dengan menghitungan Silhoutte Score

Gambar 6. Matriks Cosine Similarity Average Based Word2Vec

Gambar 7. Matriks Cosine Similarity dengan Sum Based Word2Vec

(5)

Gambar 8. Matriks Cosine Similarity dengan bag of Centroids Based Word2Vec

Adapun vektor kalimat yang dihasilkan menggunakan car aini adalah sebagai berikut.

TABEL IIIII

HASIL KLASTER KATA DENGAN KMEANS

Teks Klaster

Guru 0

Memulai 2

Pelajaran 1

TABEL IVV

TRANSFORMASI DENGAN BAG OF CENTROID BASED WORD2VEC

Teks Klaster

0 1 2 3 4 5

“Guru memulai pelajaran”

1 1 1 0 0 0

Dengan demikian dihasilkan vektor seperti seperti pada Tabel IV.

Langkah terakhir diambil sampel untuk dilakukan penghitungan nilai cosine similarity. Perhitungan nilai similaritas ini dibantu dengan pustaka sklearn Python.

IV. HASIL DAN PEMBAHASAN

Hasil perhitungan nilai cosine similarity adalah berupa matriks berukuran n x n dengan n adalah jumlah sampel yang digunakan dalam perhitungan. Adapun hasil yang didapat untuk masing–masing variasi dari model Word2Vec dapat dilihat pada diagram catur dalam Gambar 6.

Pada diagram catur dalam Gambar 6, dapat dilihat bahwa nilai cosine similarity dari sampel bervariasi dan banyak yang mendekati nilai 0 (nol) bahkan terdapat nilai negatif (bandingkan garis warna). Perlu diketahui jika dua vektor memiliki nilai nol itu berarti sudut di antara mereka sebesar 90^o, artinya kedua vektor saling tegak lurus. Jika nilai kosinus sudutya 1 itu berarti besar sudutnya 0^o dan

kedua vektor searah. Sedangkan jika bernilai negatif itu berarti besar sudut > 90^o, dan kedua vektor saling menjauh Dari sini dapat dilihat bahwa hasil transformasi dengan cara Average Based Word2Vec masih memiliki nilai cosine similarity yang negatif (kedua vektor tidak searah) yang dapat berpengaruh kepada hasil pelatihan machine learning.

Berikutnya hasil transformasi dengan variasi Sum Based Word2Vec dapat dilihat pada Gambar 7.

Hasil tranformasi dengan Sum Based Word2Vec juga masih menunjukkan nilai negatif yang menunjukkan bahwa variasi ini tidak cocok untuk dataset RPP.

Terakhir dibentuklah matriks cosine similarity untuk variasi Bag of Centroids Based Word2Vec.

Dari grafik yang ditampilkan dalam Gambar 8 dapat dilihat bahwa nilai cosine similarity bervariasi antar sampel dan semua nilai lebih besar dari nol (0), atau dengan kata lain bernilai positif. Dalam sebuah referensi dikatakan bahwa batas toleransi penerimaan nilai cosine similiraity antara dua vektor adalah ≤ 0.5. Dari sini dapat dilihat bahwa semua nilai cosine similarity antar vektor sampel yang berbeda saling berhubungan dan searah sehingga baik untuk digunakan dalam pelatihan machine learning.

V. KESIMPULAN

Telah dilakukan penelitian untuk mengetahui pengaruh variasi model VSM Word2Vec terhadap similarity score dataset RPP. Dari hasil penelitian yang didapat dapat disimpulkan bahwa variasi Bag of Centroids Based Word2Vec adalah variasi terbaik untuk digunakan dalam melakukan trasnformasi teks menjadi vektor pada dataset RPP.

(6)

10.14569/ijacsa.2019.0100742.

[4] M. Rusli, “Ekstraksi Fitur Menggunakan Model Word2Vec Pada Sentiment Analysis Kolom Komentar Kuisioner Evaluasi Dosen Oleh Mahasiswa,” Klik - Kumpul. J. Ilmu Komput., vol. 7, no. 1, p.

35, 2020, doi: 10.20527/klik.v7i1.296.

[5] O. Shahmirzadi, A. Lugowski, and K. Younge, “Text similarity in vector space models: A comparative study,” Proc. - 18th IEEE Int.

Conf. Mach. Learn. Appl. ICMLA 2019, pp. 659–666, 2019, doi:

10.1109/ICMLA.2019.00120.