Batasan Masalah - SUBWORD EMBEDDING DENGAN PENDEKATAN BYTE PAIR ENCODING DAN MORFOLOGI BAHASA I

BAB I PENDAHULUAN

1.5 Batasan Masalah

1. Penelitian ini hanya mengobservasi linguistik bahasa Indonesia yang sesuai EYD.

2. Penelitian ini tidak membahas pembentukan embedding untuk kata majemuk.

3. Penelitian ini menggunakan metode stemming dan bukan lemmatization untuk penentuan kata dasar.

BAB II

TINJAUAN PUSTAKA

State of the art dari penelitian tentang pembentukan word vector representation atau representasi teks telah dimulai dari beberapa dekade. Saat ini para peneliti di bidang komputasi linguistik atau NLP mulai beralih ke metode machine learning terutama deep learning dalam menyelesaikan permasalahan di NLP. Salah satu alasannya karena keberhasilan metode deep learning dalam meningkatkan akurasi yang signifikan contohnya pada bidang machine translation, klasifikasi dan clustering (Loper and Bird, 2004). Pada machine learning, fitur data input harus diubah menjadi bentuk yang dapat diproses lebih lanjut yaitu dalam bentuk data vektor. Untuk kasus pada data tekstual, bentuk dokumen yang terdiri dari kumpulan string atau kalimat juga harus direpresentasikan dalam bentuk vektor. Proses mengubah data teks menjadi bentuk vektor disebut dengan feature engineering dimana proses ini menghasilkan representasi teks. Proses penentuan representasi teks merupakan bagian penting dalam proses NLP karena salah satu dari keberhasilan machine learning sangat tergantung dari pemilihan model word vector representation yang digunakan (Bengio, Courville and Vincent, 2014;

Goldberg, 2017). Secara garis besar perkembangan representasi teks dimulai dari metode representasi teks diskrit seperti Bag of Words (BoW), dilanjutkan dengan metode representasi teks kontinyu seperti ditributional hypothesis dan representasi teks berbasis neural network atau word embedding.

2.1 Word Representation Tradisional

Pembentukan representasi teks secara tradisional adalah dengan memperlakukan dokumen sebagai kumpulan kata-kata individual atau satuan diskrit. Metode ini juga dikenal dengan nama Bag of Words (BoW). Representasi dilakukan berdasarkan kemunculan n-grams kata dari suatu dokumen sehingga metode ini disebut juga dengan metode count-based frequency. Metode ini tidak menghiraukan informasi order dan posisi kata pada suatu dokumen, tidak ada gagasan relevansi antara kata-kata, semua kata direpresentasikan sebagai indeks dalam suatu vocabulary (Tomas Mikolov et al. 2013). Metode ini sederhana karena hanya melibatkan proses dasar NLP seperti tokenization, stemming, stop word removal dan lain sebagainya. Kekurangan metode ini yaitu sparsity dan juga curse of dimensionality yaitu jumlah dimensi data representasi yang sangat besar.

Setidaknya dengan metode ini, jumlah dimensi vektor sebesar jumlah kosa kata yang terdapat dalam korpus. Beberapa contoh model data representasi dari BoW adalah One Hot Encoding, Count Vectorizer dan Term Frequency-Inverse Document Frequency (TF-IDF) Vectorizer. Representasi teks yang dihasilkan dari model representasi ini tidak dapat menangkap banyak informasi selain jumlah kemunculan kata. Beberapa survey untuk membandingkan model dari representasi teks diskrit ini pernah dilakukan oleh penelitian (Baroni and Lenci, 2010; Turney and Pantel, 2010). Dimana untuk mengantisipasi curse of dimensionality beberapa penelitian, melakukan pengurangan dimensi dengan berbagai teknik seperti Singular Value Decomposition (SVD) (Bullinaria and Levy 2007; Taufik Fuadi Abidin, Yusuf, and Umran 2010) atau dengan metode LDA (Hung, Wang and Lee, 2001).

Permasalahan lainnya, model BoW yang memperlakukan setiap kata sebagai satuan diskrit unik, membuat representasi teks yang dihasilkan tidak dapat diterapkan untuk task atau domain di luar domain korpus. Sehingga representasi teks tidak dapat diimplementasikan secara general untuk task NLP secara umum.

Model pembentukan vektor lainnya yaitu Latent Semantic Indexing (LSI) atau Latent Semantic Analysis (Deerwester et al., 1990; Landauer, Foltz and Laham, 1998; Wiemer-Hastings, 2004; Xiao, 2010; Evangelopoulos, 2013; Setiadi Citawan, Christanti Mawardi and Mulyawan, 2018). Model ini disebut juga dengan model matrix factorization dimana metode ini mencoba mengambil makna kata dengan perhitungan SVD. Namun beberapa permasalahan juga muncul dengan model matrix factorization ini terutama dalam hal curse of dimensionality dan kompleksitas komputasi. Penelitian yang menerapkan metode ini yaitu (P.~Brown et al., 1992) dan (Baker and McCallum, 1998). Beberapa penelitian penerapan LSA untuk Bahasa Indonesia adalah penelitian oleh (Ratna, Purnamasari and Adhi, 2015; Setiadi Citawan, Christanti Mawardi and Mulyawan, 2018).

2.1 Representasi Teks Kontinyu

Salah satu metode pembentukan representasi teks yang merupakan cikal bakal word vectors berbasis neural network adalah penerapan word vector kontinyu.

Awalnya dimulai dengan memperlakukan dokumen teks sebagai kesatuan utuh dan bukan satuan diskrit. Representasi teks kontinyu berpedoman dengan model distributional hypothesis (Sahlgren, 2008) yang membentuk model word vectors dengan matriks co-occurrence. Metode ini menjawab beberapa permasalahan yang disebabkan oleh metode sebelumnya. Pembentukan word vector representation

dengan matriks co-occurence mampu menangkap informasi semantik dan sintaksis tanpa harus tergantung dengan sumber daya linguistik eksplisit. Hanya bermodalkan korpus yang berisi kalimat-kalimat dengan jumlah yang besar.

Metode ini melakukan pembelajaran representasi (learning representation) komposisi dan susunan kata dalam kalimat-kalimat yang terdapat pada suatu korpus yang besar. Ide dasar dari teori distributional hypothesis pertama sekali disampaikan oleh seorang ahli bahasa yang bernama Zellig Harris yang menyatakan

“words are similar if they appear in similar contexts (Harris, 1963). Sehingga dari pembelajaran korpus, model ini mampu menangkap informasi relasi syntagmatic dan paradigmatic. Relasi syntagmatig menyangkut penentuan posisi kata, dan menghubungkan entitas yang terjadi bersama dalam teks. Relasi ini adalah hubungan dalam presentia. Relasi ini bersifat linear, dan berlaku untuk entitas linguistik yang terjadi dalam kombinasi berurutan (Sahlgren, 2008). Syntagm adalah suatu kombinasi yang teratur dari entitas linguistik. Misalnya, suatu kata dibentuk dari sintaksis huruf, kalimat dibentuk dari urutan kata-kata, dan paragraf dibentuk dari urutan kalimat-kalimat. Sedangkan relasi paradigmatic adalah hubungan antara entitas linguistik yang terjadi dalam konteks yang sama tetapi tidak pada waktu yang sama, seperti kata "lapar" dan "haus" dalam kalimat "serigala itu [lapar | haus]". Hubungan paradigmatic adalah hubungan substitusional, yang berarti bahwa entitas linguistik memiliki hubungan paradigmatic ketika pilihan satu tidak termasuk pilihan yang lain (Sahlgren, 2008).

Language model adalah algoritma berbasis probabilitas maximum likelihood untuk prediksi untaian kata dalam suatu kalimat. Probabilitas didapatkan berdasarkan learning dari korpus. Misalkan ada sejumlah n kata dengan untaian

kata (w1, w2, w3… wn) maka probabilitas P (w1, w2,…, wn) dapat dikalkulasi dengan language model, jika diasumsikan setiap kata adalah independen. Probabilitas gabungan (joint probability) untuk keseluruhan kalimat dapat direpresentasikan sebagai hasil perkalian dari probabilitas bersyarat (conditional probabilities) untuk setiap kata berdasarkan formula 1.

𝑃(𝑤₁, 𝑤_2,…𝑤_𝑛) = ∏^𝑛_𝑖=1𝑃(𝑤_𝑖) (1)

Dengan mempedomani suatu arti kata dapat ditentukan berdasarkan kata-kata konteks atau kata-kata-kata-kata yang ada disekelilingnya, maka prediksi urutan kata-kata dapat dicari berdasarkan distribusi probabilitas dari urutan kata-kata pada korpus.

Metode ini dikenal dengan n-gram language model dimana probabilitas kata 𝑤_𝑡 muncul setelah urutan kata 𝑤₁… 𝑤_𝑡−1dari suatu kalimat W dapat dicari berdasarkan probabilitas kata sebelumnya. Dengan mempertimbangkan finite historical hypothesis maka kemunculan kata ke-n hanya tergantung dari 1 kata sebelumnya yaitu kata ke n-1, maka probabilitas gabungan dapat dicari dengan persamaan 2.

𝑃(𝑤₁, 𝑤_2,…𝑤_𝑛) = ∏^𝑛_𝑖=1𝑃(𝑤_𝑖|𝑤_{𝑖−𝑛+1}, … , 𝑤_𝑖−1) (2)

Model statistik bahasa dapat diwakili oleh probabilitas bersyarat dari kata berikutnya yang diberikan berdasarkan kata sebelumnya. Walaupun teori pencarian makna bahasa alami dengan metode distributional hypothesis ini banyak ditentang oleh ahli bahasa, namun setidaknya metode ini mampu memenuhi makna kata berdasarkan aliran structualist. Metode word embedding memprediksi kata konteks berdasarkan kata target (atau sebaliknya) dengan pendekatan neural network language model (NNLM). Proses word embedding dimulai dengan ekstraksi informasi pasangan kata konteks dan kata target dari korpus. Berdasarkan pasangan

kata ini, selanjutnya dilakukan proses feed forward neural network dengan beberapa layer. Proses optimasi dilakukan dengan back forward neural network untuk menghasilkan nilai bobot yang paling optimal. Nilai bobot ini yang selanjutnya menjadi word embedding yang dapat digunakan berulang kali sebagai word representation untuk berbagai task NLP.

Representasi kata yang dihasilkan dengan metode ini terbukti mampu menghasilkan relevansi semantik dan juga sintaksis yang didapatkan dari proses learning representation dengan language model (Bengio et al., 2003)(Wang, Zhou and Jiang, 2019).

Model word embedding dengan NNLM, awalnya di-propose oleh (Bengio et al., 2003). Terdapat persamaan antara NNLM dan n-gram LM yaitu memprediksi kata target berdasarkan n-1 kata sebelumnya. Perbedaan mendasar antara n-gram LM dan NNLM yaitu n-gram LM memprediksi berdasarkan distribusi statistik dan frekuensi kemunculan kata bersama (co-occurrence) sedangkan NNLM memprediksi kata berdasarkan perhitungan neural networks. Penelitian ini menjadi solusi untuk permasalahan dasar n-grams LM terutama dalam mengantisipasi curse of dimensionality. Arsitektur dari model NNLM ini dapat dilihat pada Gambar 2.1 berikut.

Gambar 2. 1 Arsitektur NNLM (Bengio et al., 2003)

Berdasarkan Gambar 2.2, dapat dilihat NNLM menggunakan 3 layer neural network yaitu input, hidden dan output layer. Pada input layer input x adalah urutan kata konteks dari kata target wt dalam satu kalimat. Kata konteks tersebut misalnya wt-1, wt−2,…, wt−n+1. Pada bagian input terdapat sebuah fungsi probabilitas mapping g yang direpresentasikan dengan |V| x m matriks C. Matriks C, pada baris ke i merupakan feature vektor C(i) untuk kata i. Dimana C merupakan sebuah fungsi non-linear conditional probability distribusi sejumlah kata V untuk kata setelah wt. Sedangkan V adalah jumlah vocabulary. Output dari fungsi g adalah vektor yang merupakan estimasi dari probabilitas P(wt = i | 𝑤₁^𝑡−1).

Probabilitas P ( wt |wt-1, …wt-n+1) ditentukan dengan mengimplementasikan fungsi non-linear softmax seperti pada persamaan 2.

P ( wt |wt-1, …wt-n+1) = ^𝑒^𝑦𝑤𝑡

∑ 𝑖^𝑒𝑦𝑖 (2) Untuk y untuk dari arsitektur ini dapat dicari dengan persamaan 3.

y = b + Wx + U tanh (d + Hx) (3)

Dimana H adalah hidden layer, dan b adalah nilai bias untuk input layer, sedangkan d adalah bias untuk hidden layer. Untuk input x representasinya dapat dikalkulasikan seperti pada persamaan 4.

x = [C(wt−1), C(wt−2), ··· C(wt−n+1)] (4)

Walaupun metode NNLM yang diajukan oleh Bengio secara teori dapat mengatasi permasalahan dari n-grams LM, namun arsitektur NNLM menjadi rumit terutama pada komputasi antara layer proyeksi dan hidden layer.

2.2 Word Embedding

Pembentukan representasi kata secara kontinyu dengan neural networks, mulai menjadi fokus penelitian NLP dengan sasaran penelitian efisiensi komputasi dari NNLM. Penelitian yang dilakukan oleh (Mikolov et al., 2010) yaitu mengimplematasikan simple Recurrent Neural Network (RNN) atau dikenal juga dengan Elman network (Elman, 1990). Simple RNN lebih sederhana dari arsitektur NNLM oleh Bengio. RNN secara alami lebih cocok diterapkan untuk data tekstual karena RNN merupakan sekuensial input yang dari output terdahulu, dalam hal ini adalah urutan kata target dan kata konteks. Pada pembentukan word embedding, arsitektur dari simple RNN diimplementasikan untuk mempelajari language model, sehingga arsitekturnya lebih dikenal dengan RNNLM. Arsitektur RNNLM dapat dilihat pada Gambar 2.2.

Gambar 2. 2 Arsitektur Simple RNN (Mikolov et al., 2011)

Formula dari RNNLM dapat dilihat pada persamaan 5.

𝑥(𝑡) = 𝑤(𝑡) + 𝑠(𝑡 − 1) (5) 𝑠_𝑗(𝑡) = 𝑓(∑ 𝑥_𝑖 _𝑖(𝑡)𝑢_𝑗𝑖 (6) 𝑦_𝑘(𝑡) = 𝑔 (∑ 𝑠_𝑗 _𝑗((𝑡)𝑣_𝑘𝑗) (7) Dimana f (z) adalah fungsi aktivasi sigmoid:

𝑓(𝑧) = ¹

1+ 𝑒^−𝑧 (8) dan g (z) adalah fungsi aktivasi softmax seperti pada persamaan 2.

Selanjutnya, penelitian yang dilakukan oleh (Tomas Mikolov et al. 2013) menghasilkan arsitektur yang diberi nama new log linear. Arsitektur new log linear, lebih sederhana dibandingkan NNLM dimana pada arsitektur ini hidden layer C pada input x dihapus. Arsitektur ini juga menghilangkan fungsi non linear tanh pada hidden layer h. Sehingga proses pada hidden layer h merupakan proses perhitungan linear. Dapat dikatakan bahwa model ini merupakan modifikasi dari NNLM, dengan menghapus layer proyeksi C. Pada new log linear yang ditawarkan ini terdapat dua pilihan arsitektur Continuous Bag of Word (CBOW) dan Skip

Gram. Arsitektur ini lebih efisien secara kompleksitas komputasi pada proses learning dibandingkan NNLM. Hal ini karena penelitian ini mengimplementasikan hirarki softmax dan negatif sampling untuk mengganti fungsi original softmax. Pada hirarki softmax, vocabulary direpresentasikan sebagai Huffman Binary Tree. Huffman Tree menetapkan kode biner yang pendek untuk kata-kata yang sering muncul, dan hal ini mampu meminimalisir jumlah output yang harus dievaluasi. Secara matematis, representasi vocabulary menjadi bentuk Huffman Binary Tree mampu mereduksi jumlah unit output sekitar log2(V), hal ini seperti yang telah dibuktikan oleh penelitian (Mikolov et al., 2011).

Negatif sampling merupakan solusi untuk mengurangi kompleksitas fungsi original softmax. Pada softmax, untuk semua kata yang bukan target akan di anggap salah, sehingga ada 99% kemungkinan kata yang dipilih salah namun tetap harus dilakukan perhitungan. Motivasi negatif sampling yaitu mengurangi perhitungan dengan cara hanya mengambil beberapa contoh saja tanpa harus menghitung keseluruhan vocabulary.

Perbedaan mendasar antara algoritma CBOW dan Skip Gram yaitu pada layer input dan layer output. Pada CBOW input berupa kata konteks dan output adalah memprediksi kata target, sedangkan pada metode Skip Gram output yang diprediksi adalah kata konteks berdasarkan input kata target. Arsitektur kedua arsitektur ini dapat dilihat pada Gambar 2.3.

Gambar 2. 3 Arsitektur word2vec CBOW (kiri) dan Skip Gram (kanan)

Seperti yang ditunjukkan pada Gambar 2.3, kedua model terdiri dari tiga bagian yaitu input layer, hidden layer dan output layer. Terdapat beberapa hyper-parameter seperti window size yang merupakan jumlah kata konteks. Pada contoh Gambar 2.3, nilai window size = 2 berarti kata konteks yang diambil yaitu 2 kata ke kiri dan dua kata ke kanan. Kata tersebut dilambangkan dengan wt − 2, wt − 1, wt + 1

dan wt + 2 dari kata target wt. Jika w1, w2,…, wN, merupakan urutan kata-kata korpus, maka formula arsitektur CBOW untuk memaksimalkan probabilitas dapat dihitung dengan persamaan 9.

𝑁∑^𝑁_𝑡=1∑_{−𝑐≤𝑗≤𝑐,𝑗≠0}𝑙𝑜𝑔𝑝(𝑤_𝑡|𝑤_𝑡+1) (9)

Dimana c adalah ukuran window size. Dalam menghitung p(wt|wt+j) CBOW menggunakan fungsi softmax seperti persamaan 2, sehubungan exp(x) = e^x maka fungsi softmax dapat ditulis juga seperti persamaan 10.

p = (wt+j|wt) =_∑ ^{exp (𝑠𝑖𝑚(𝑤}^𝑡+𝑗,^𝑤^𝑡⁾

exp (𝑠𝑖𝑚(𝑤^′,𝑤_𝑡))

𝑤′∈𝑉 (10) Dimana w’ adalah kata yang terdapat pada vocabulary V.

Selanjutnya nilai bobot dioptimasi dengan perhitungan Stochastic Gradient Descent (SGD) dan juga learning rate.

CBOW

Skip Gram

Penelitian lainnya yaitu dilakukan oleh (Pennington, Socher and Manning, 2014), dengan mengkritik bahwa word2vec hanya berfokus pada informasi yang diperoleh dari kata konteks secara lokal tanpa menghiraukan informasi statistik secara keseluruhan. Sebuah algoritma yaitu GloVe yang membentuk word embedding dengan informasi konteks lokal dan juga keseluruhan (global). Nilai embedding GloVe berdasarkan matriks co-occurence global, setiap elemen Xij

dalam matriks mewakili frekuensi kata wi dan kata wj muncul bersamaan dalam context window tertentu. Untuk membangun hubungan perkiraan antara embedding kata dan matriks co-ocurrence, Pennington et al. usulkan rumus berikut untuk mendekati hubungan antara dua kata:

Dimana 𝑤⃑⃑⃑⃑ dan 𝑤_𝑖 ⃑⃑⃑⃑ adalah corresponding embedding dari w_𝑗 i dan wj, bi dan bj

adalah nilai parameter offset. Bila dilihat dari sisi perhitungan loss function, nilai word embedding untuk model Glove dapat dicari dengan persamaan 12.

𝐽 = ∑ 𝑓(𝑋_𝑖𝑗)(𝑊_𝑖^𝑇𝑊_𝑗

𝑉

𝑖,𝑗=1

+ 𝑏_𝑖+ 𝑏_𝑗− log (𝑋_𝑖𝑗))²

Perbandingan formula untuk pembentukan word embedding berdasarkan kata konteks dengan berbagai model arsitektur dapat dilihat pada Tabel 2.1.

Tabel 2. 1 Pembentukan Word Embedding Berdasarkan Kata Konteks Model Formula untuk Word Embedding

NNLM tanh (𝑑 + 𝐻[𝑒(𝑤_𝑖−𝑛); … 𝑒(𝑤_𝑖−2); 𝑒(𝑤_𝑖−1)])

2.3 Word Embedding dengan Tambahan Informasi

Secara general, word embedding menggunakan korpus yang berupa kumpulan teks mentah tanpa memerlukan proses anotasi. Studi word embedding seperti yang diimpelementasikan pada model word embedding original word2vec (Mikolov, Yih and Zweig, 2013), dan GloVe (Pennington, Socher and Manning, 2014). Namun model ini tidak dapat mengantisipasi OOV untuk kata yang tidak terdapat pada training korpus. Beberapa penelitian terdahulu berhipotesis bahwa performansi word embedding dapat ditingkatkan jika diberikan tambahan informasi. Beberapa penelitian membentuk word embedding menggunakan korpus yang telah dianotasi dalam membentuk word embedding. Anotasi korpus meliputi informasi linguistik beragam seperti POS tag, dependency parsing, NER dan sebagainya. Penelitian oleh (Levy and Goldberg, 2014a) menggunakan anotasi korpus untuk membentuk word embedding. Penelitian ini merupakan ekstensi dari model arsitektur word embedding word2vec oleh penelitian (Mikolov et al., 2013).

Model ini diperkenalkan dengan nama w2vf-deps. Model arsitektur w2vf-deps mirip dengan arsitektur Skip Gram yang dikombinasikan negatif sampling namun mengganti layer kata konteks dengan korpus yang sudah dianotasi dengan informasi dependency parsing. Penelitian ini menggunakan metode parsing oleh penelitian (Goldberg and Nivre, 2012, 2013) dimana hasil parsing untuk dependency sintaksis terbukti cepat dengan akurasi tinggi. Penelitian ini menggunakan tagset dari Standford Tagger (Toutanova et al., 2003) dan label yang digunakan dari penelitian (de Marneffe and Manning, 2008). Hasil dari penelitian ini, word embedding yang dihasilkan dari korpus dengan tambahan informasi

dependency parsing tidak cocok diterapkan untuk relasi berdasarkan topik, namun baik untuk relasi fungsional similarity.

Penelitian oleh (Bansal, Gimpel and Livescu, 2014), membentuk word embedding dengan tambahan informasi dependency parsing dengan asumsi bahwa kata dengan parents dan children yang sama memiliki kedekatan relasi pada ruang embedding. Penelitian ini menggunakan ukuran window size kecil. Penelitian ini mengungkapkan pengaturan ukuran window size berpengaruh terhadap jenis task NLP yang ingin di implementasikan. Ukuran window size besar lebih cocok untuk implementasi berdasarkan topically-related, sedangkan untuk ukuran window size kecil lebih cenderung embedding yang sama memiliki POS tag yang sama juga.

Penelitian ini membutuhkan proses untuk melabel setiap kalimat pada korpus dengan label child, parent, grandparent.

Penelitian oleh (Abka, 2017) menggunakan word embedding untuk POS tagging Bahasa Indonesia. Word embedding yang dihasilkan dari 4 model arsitektur yaitu CBOW, Skip Gram, GloVe. Input layer berupa proses concatenation antara kata target dan kata konteksnya. Outputnya adalah POS tagger untuk kata target.

Performansi terbaik di peroleh oleh model GloVe dan diikuti oleh Skip Gram.

Penelitian oleh (Manik et al., 2019) membentuk word embedding dengan tambahan layer untuk informasi morfologi dan juga informasi identifikasi huruf kapital seperti yang dipropose oleh penelitian (Collobert, 2011). Penelitian ini menggunakan metode stemming oleh (Adriani et al., 2007) untuk memisahkan kata dasar dan afiks. Selanjutnya untuk kemungkinan morfologi dan fitur kapital di bentuk seperti model one-hot-encoding. Berdasarkan hal ini makan proses derivasi dan

infleksional dapat dilihat berdasarkan morfologi yang terpilih. Karena afiks dapat menunjukkan gramatikal kategori.

Penelitian oleh (Xu and Liu, 2017) merupakan metode pembentukan word embedding dengan menyertakan gabungan informasi morfologi secara implisit.

Informasi morfologi yang dimaksud yaitu arti dari morfem yang diklasifikasikan sebagai set makna dan dibentuk embedding tersendiri. Penelitian ini berbeda dengan penelitian lainnya yang menggabungkan informasi morfem kata secara eksplisit, yaitu kata diurai berdasarkan morfemnya atau disebut dengan subword dan setiap subword menghasilkan suatu embedding tersendiri. Input kata pada algoritma word embedding selanjutnya menggabungkan subword pembentuk kata ini. Pada penelitian (Xu and Liu, 2017), informasi yang dimasukkan pada embedding kata bukan subword tetapi makna dari subword tersebut. Beberapa morfem terutama untuk Bahasa Inggris dapat memiliki arti atau makna yang sama.

Sebagai contoh untuk morfem bahasa Inggris, kata yang dimulai dengan awalan "a"

atau "an" memiliki arti dari "tidak" dan "tanpa" seperti "asexual" dan "annarchy".

Selain itu, kata-kata yang diakhiri dengan sufiks “able” atau “ible” memiliki arti

“capable” seperti “editible” dan "visible". Berdasarkan hal ini maka informasi morfem berupa subword dan arti dari morfem itu sendiri bermanfaat untuk embedding. Model yang menggunakan subword sebagai morfem embedding menghasilkan kata dengan morfem sama memiliki kedekatan di vector space.

Penelitian (Xu and Liu, 2017) mengobservasi morfem pada bahasa Inggris dengan korpus berita sebesar 1,7 GB yang terdiri dari 500 juta token dan 600.000 vocabularies. Hasil dari penelitian menunjukkan metode ini mengungguli metode word embedding standard seperti CBOW, Skip Gram dan Glove. Model ini cocok

diterapkan untuk bahasa dengan sumber linguistik terbatas tetapi memiliki banyak jenis morfologi (infleksional).

2.4 Subword Embedding

Subword Embedding merupakan pembentukan word embedding dengan melakukan segmentasi pada kata menjadi subword atau sub katanya. Metode subword embedding bertujuan untuk menjadi solusi dari OOV. Salah satu subword embedding adalah fastText. FastText merupakan ekstensi dari model skip gram word2vec. Terdapat dua model fastText yaitu sebagai kategorizer (Joulin et al., 2017) dan juga word vector representation (Bojanowski et al. 2017). Pada pembentukan word embedding, tahap awal fastText mengimplementasikan word2vec dengan algoritma Skip Gram untuk menghasilkan word embedding level kata untuk semua kata yang ada di vocabulary. Tahap kedua fastText melakukan segmentasi kata menjadi bentuk subword berdasarkan jumlah karakter n-gram yang telah diinisialisasi. Secara umum fastText menggunakan 3 – 6 karakter. Pada proses segmentasi menjadi n-gram karakter, fastText awalnya menambah bracket ‘<’

untuk awal kata dan ‘>’ untuk akhir kata. Selanjutnya karakter n-gram digenerate berdasarkan panjang n. misalnya n = 3 maka dilakukan sliding windows untuk kata tersebut dengan menghasilkan subword dengan panjang 3 karakter. Misalnya untuk kata ‘makan’ menghasilkan <makan> : <ma, mak, aka, kan, an>. Selanjutnya semua subword yang dihasilkan untuk setiap kata yang ada di vocabulary di encoding dengan metode hashing Fowler-Noll-Vo. Untuk nilai encoding kata utuh dihasilkan dengan cara concatenation dari semua nilai subword ditambah dengan nilai word embedding yang dihasilkan pada tahap pertama. Untuk mengantisipasi OOV, setiap

kata yang tidak ada di vocabulary, maka nilai encoding kata di hasilkan dari summation n-gram karakter saja tanpa menyertakan embedding dari kata lengkap.

Hasil evaluasi fastText menunjukkan fastText lebih efisien dari sisi waktu training dan juga terjadi peningkatan performansi dibandingkan dengan word2vec biasa.

MorphRNN merupakan penelitian oleh (Luong, Socher and Manning, 2013) menambahkan informasi morfologi berupa prefiks dan sufiks. Dengan masing-masing morfem kata sebagai unit dasar yang diimplementasikan dengan model segmentasi morfologi dan komposisinya dengan metode Recursive Neural Network (RNNs) (Socher et al., 2011) dan Neural Language Model. Penelitian ini tidak menggabungkan vektor morfem dengan proses concatenation namun mengkombinasikan morfem-morfem ini dengan RNNs yang menangkap komposisi morfologi. Awalnya morfem di modelkan sebagai vektor dengan angka real, yang

Dalam dokumen SUBWORD EMBEDDING DENGAN PENDEKATAN BYTE PAIR ENCODING DAN MORFOLOGI BAHASA INDONESIA DISERTASI AMALIA (Halaman 26-0)