BAB I PENDAHULUAN
1.1 Latar Belakang
Salah satu parameter terpenting untuk meningkatkan performansi machine learning termasuk deep learning adalah pemilihan representasi fitur input yang tepat. Perkembangan terkini di bidang Natural Language Processing (NLP) mengungkapkan bahwa saat ini representasi teks yang terbukti efisien untuk input machine learning dan deep learning adalah word embedding (Erhan et al., 2010;
Salakhutdinov and Hinton, 2012; Ling et al., 2015). Word embedding terbukti dapat mengantisipasi kekurangan dari representasi teks diskrit (Bengio, Courville and Vincent, 2014), dimana model diskrit terkendala dengan sparsity dan curse of dimensionality (Popov et al., 2018).
Word embedding dikenal juga dengan istilah continuous representations atau distributed representation (Bansal, Gimpel and Livescu, 2014) merupakan pembentukan representasi teks dengan metode neural network. Proses neural network diimplementasikan untuk memprediksi kata target berdasarkan kata konteks ataupun sebaliknya. Berdasarkan co-occurrence pasangan kata target dan kata konteks pada training korpus maka hasil prediksi dapat di optimalkan dengan men-adjust nilai bobot neural network. Nilai bobot ini selanjutnya menjadi word embedding. Word embedding merupakan transformasi setiap kata pada korpus dengan format dense vector yang mengandung informasi semantik, dimana kata dengan relasi dekat memiliki nilai vektor yang dekat pula.
Namun model word embedding konvensional yang diproses pada level kata memiliki keterbatasan dimana model ini tidak dapat menghasilkan word embedding untuk kata-kata yang tidak terdapat pada training korpus. Dengan kata lain model ini tidak dapat mengatasi out of vocabulary (OOV). Pembentukan word embedding konvensional memperlakukan kata sebagai satuan entitas independen terkecil dan mengabaikan struktur internal subword pembentuk kata seperti karakter dan morfem, sehingga model konvensional ini tidak mampu untuk menangkap hubungan eksplisit keterkaitan morfologi sintaksis (Luong, Socher and Manning, 2013; Xu and Liu, 2017). Sebagai contoh word embedding level kata tidak dapat menghasilkan embedding untuk kata “permainan” jika kata tersebut tidak ada pada training korpus walaupun kata dasar “main” terdapat pada korpus. Hal ini menunjukkan model word embedding konvensional tidak dapat menangkap relasi sintaksis sebaik relasi semantik.
Beberapa peneliti menyelesaikan OOV untuk word embedding dengan memperbesar ukuran training korpus sehingga memperbesar ukuran vocabulary, namun hal ini tidak selalu efektif mengingat tidak efisiennya media penyimpanan dan juga proses komputasi yang semakin kompleks. Selain itu beberapa peneliti terdahulu mengungkapkan ukuran korpus yang besar bukan merupakan parameter terpenting dalam membentuk word embedding yang handal (Altszyler et al., 2017;
Dusserre, 2017; Gu et al., 2018). Salah satu solusi untuk mengantisipasi permasalahan OOV yaitu dengan membentuk word embedding berdasarkan subword pembentuk katanya. Beberapa penelitian terdahulu telah membuktikan metode subword meningkatkan performa downstream NLP (Park et al., 2018)
seperti klasifikasi (Zhang and LeCun, 2017), machine translation (Sennrich, Haddow and Birch, 2016) dan lainnya.
Morfem merupakan satuan gramatikal linguistik terkecil yang memiliki makna. Suatu kata dapat dibentuk dari satu morfem bebas yaitu kata dasar saja ataupun dapat dibentuk dari satu morfem bebas dengan beberapa morfem terikat seperti afiks atau imbuhan. Dengan imbuhan, kata dasar dapat mengalami perubahan morfologi yang berefek secara derivasional dan juga infleksional. Secara linguistik, observasi berbasis morfem lebih baik dalam menghasilkan dan mengenali bentuk kata berbeda dalam jumlah yang jauh lebih besar daripada jika hanya mengandalkan training korpus (Creutz and Lagus, 2007). Selain itu word embedding dengan tambahan informasi morfem atau morfologi embedding selain dapat menjadi solusi untuk permasalahan OOV, model ini juga dapat mengatasi word sense dan ambiguitas kata (Salama, Youssef and Fahmy, 2018).
Terdapat beberapa tantangan dalam membentuk word embedding berbasis morfologi embedding, seperti pemilihan metode segmentasi kata, pemilihan motode encoding morfem dan juga metode penggabungan encoding morfem menjadi encoding kesatuan utuh kata. Namun tantangan terbesar adalah membentuk segmentasi kata menjadi bentuk morfem yang sesuai dengan tata bahasa. Setiap bahasa memiliki aturan bahasa terikat yang unik sehingga tidak ada suatu model segmentasi kata yang dapat mengeneralisasi semua bahasa (Zhu, Vulić and Korhonen, 2019). Beberapa penelitian menunjukkan penambahan informasi subword tanpa tergantung suatu bahasa seperti fastText (Bojanowski et al., 2017) menghasilkan performa lebih baik daripada algoritma embedding berbasis level kata konvensional seperti word2vec (Mikolov, Yih and Zweig, 2013) dan GloVe
(Pennington, Socher and Manning, 2014). Namun evaluasi hanya dilakukan untuk beberapa bahasa tertentu saja sehingga diperlukan observasi lebih mendalam untuk pembuktian keberhasilan pada bahasa Indonesia.
Terdapat beberapa pilihan segmentasi kata dari model supervised penuh seperti CHIPMUNK (Cotterell et al., 2015) sampai model unsupervised seperti Morfessor (Creutz and Lagus, 2007). Salah satu metode kompresi data sederhana yaitu Byte Pair Encoding (BPE) (Gage, 1994) ternyata dapat diimplemantasikan untuk segmentasi kata dan saat ini menjadi de facto standard untuk segmentasi subword terutama untuk proses machine translation (Sennrich, Haddow and Birch, 2016). Keberhasilan ini kemudian diikuti oleh peneliti lain yang membentuk segmentasi kata untuk berbagai bahasa dengan algoritma BPE seperti penelitian (Heinzerling and Strube, 2019) yang menghasilkan subword secara masal untuk 275 bahasa. Namun keberhasilan BPE dalam membentuk segmentasi kata hanya berdasarkan identifikasi urutan karakter yang paling sering muncul dinilai kurang optimal, sehingga beberapa peneliti lain melakukan modifikasi BPE seperti algoritma BPE-dropout (Provilkov, Emelianenko and Voita, 2019) dan juga algoritma BERT untuk word pieces (Devlin et al., 2019).
Segmentasi kata dengan algoritma BPE merupakan metode unsupervised untuk memecah kata menjadi subword berdasarkan urutan karakter yang paling sering muncul pada korpus. Sehingga tidak jaminan bahwa segmentasi yang dihasilkan merupakan suatu morfem bahasa tertentu. Beberapa penelitian tentang morphology embedding fokus untuk suatu bahasa tertentu saja seperti penelitian untuk bahasa Portugis (Hartmann et al., 2017), bahasa Jerman (Cotterell and Schütze, 2015) dan bahasa Swedia (Basirat and Tang, 2018) menunjukkan hasil
yang menjanjikan. Tambahan informasi morfologi juga terbukti berguna untuk bahasa dengan morfologi yang kompleks seperti bahasa Turki (Cotterell, Schütze and Eisner, 2016), bahasa Ibrani (Avraham and Goldberg, 2017) dan bahasa Arab (Salama, Youssef and Fahmy, 2018).
Berdasarkan hal ini maka motivasi penelitian ini yaitu untuk membentuk subword embedding berdasarkan morfologi bahasa Indonesia dengan pendekatan Byte Pair Encoding (BPE). Hipotesis penelitian ini yaitu word embedding yang dibangun dari gabungan subword berupa morfem lebih memiliki makna gramatikal sehingga dapat membentuk word embedding yang lebih baik. Sepanjang pengetahuan kami pembentukan word embedding dengan mempertimbangkan informasi morfem yang sesuai untuk bahasa Indonesia masih belum tersedia.
Kontribusi dari penelitian ini, yaitu suatu metode dalam membangun subword embedding untuk bahasa Indonesia dengan penambahan informasi morfem. Hasil dari penelitian yaitu berupa model pre-trained subword embedding yang berkualitas baik secara semantik dan juga sintaksis sehingga dapat meningkatkan hasil downstream NLP Bahasa Indonesia seperti klasifikasi, clustering, sentiment analysis dan machine translation.
Evaluasi dilakukan dengan menguji model subword embedding yang mengacu pada benchmark anologi tes set dari Google (Mikolov, Yih and Zweig, 2013) dan The Bigger Analogy Test Set (BATS) (Gladkova, Drozd and Matsuoka, 2016). Standar dari model evaluasi ini ditujukan untuk bahasa Inggris, oleh sebab itu agar dapat diterapkan untuk pengujian word embedding bahasa Indonesia maka pada disertasi ini juga dibahas pembentukan analogi tes set untuk bahasa Indonesia.
Selain analogi tes set Google dan BATS, terdapat beberapa penelitian terdahulu lainnya yang fokus mengobservasi pembentukan benchmark analogi tes untuk bahasa Inggris seperti Microsoft Syntactic Relation-MSR (Mikolov et al., 2013), semEval-2012-Task2 (Jurgens et al., 2012), WordSim-353 (Finkelstein et al., 2001) dan SAT (Turney and Littman, 2003). Analogi tes merupakan dependent linguistic yang sangat tergantung suatu bahasa maka beberapa penelitian terdahulu membangun analogi tes untuk evaluasi berbagai bahasa tertentu lainnya seperti evaluasi bahasa Norwegia (Stadsnes, Øvrelid and Velldal, 2018), evaluasi bahasa Korea (Park et al., 2018), evaluasi bahasa China (Chen and Ma, 2019), evaluasi bahasa Perancis, bahasa India, bahasa Polandia (Grave et al., 2018) dan evaluasi bahasa Portugis (Hartmann et al., 2017).
Sehubungan belum banyak tersedianya analogi tes set untuk bahasa Indonesia maka hasil analogi tes set bahasa Indonesia yang dihasilkan dari penelitian ini dapat menjadi tambahan kontribusi pada penelitian ini. Dimana tes analogi ini dapat di manfaatkan untuk evaluasi berbagai model word embedding untuk bahasa Indonesia.