BAHASA INGGRIS MENGGUNAKAN PENDEKATAN PATH BASE
Eldita Febrian Selfiendi1 & Moch. Arif Bijaksana. 2
1 Mahasiswa Teknik Informatika, Universitas Telkom
2Dosen Teknik Informatika, Universitas Telkom
Abstract
Today a lot of data in text in world. The large number of data in text make amount of research data text increases. To produce research data text with accurate result required some things one is semantic relation. Semantic relation is relatedness between words based on the relationships that owned by those word. Calculation on semantic relation can solved using path base approach. Path representation semantic relation in graf. In this research built a system that calculate semantic relation using path base approach. This system calculations involving influence of the number of text relationship,depth and combination weights and depth. Based on test results showed that using path base generated weak correlation, amount of relation can increase correlation and highest correlation occurred in calculation using weight and depth.
Keywords: depth, graph, path base, semantic relation and weight Abstrak
Dewasa ini banyak data berbentuk teks dalam bahasa Inggris.Banyaknya jumlah data tersebut mengakibatkan jumlah penelitian tentang data teks meningkat.Untuk menghasilkan penelitian data teks dengan hasil yang akurat dibutuhkan beberapa hal salah satunya semantic relation.Semantic relation adalah keterkaitan antar kata berdasarkan relasi yang dimiliki oleh kata tersebut.Perhitungan pada semantic relation dapat diselesaikan dengan menggunakan pendekatan path base. Path base memodelkan semantic relation menggunakan graf. Pada penelitian ini dibangun sistem yang menghitung semantic relation dengan menggunakan pendekatan path base.
Sistem ini melakukan perhitungan dengan melibatkan pengaruh jumlah jenis relasi kata, kedalaman serta kombinasi bobot dan kedalaman pada graf. Berdasarkan hasil pengujian menunjukan bahwa perhitungan dengan menggunakan path base dihasilkan korelasi lemah, semakin banyak relasi maka hasil korelasi akan semakin meningkat serta perhitungan dengan korelasi tertinggi didapatkan dengan menggunakan kombinasi bobot dan kedalaman.
Kata Kunci: bobot, graf, kedalaman, path base dan semantic relation..
PENDAHULUAN
Dewasa ini semakin banyak data yang termuat dalam bentuk teks.Banyaknya data tersebut membuat penelitian tentang data teks semakin meningkat.Contohhnya Word Sense Ambiguation, Semantic Information Retrieval, Text Clustering dan Semantic Text Relatedness.Untuk menghasilkan hasil yang memiliki akurasi yang baik penelitian tersebut membutuhkan perhitungan semantic relation antar kata. Saat ini proses tersebut dialakukan dengan cara mengambil data keterkaitan antar kata yang telah didefinisikan oleh ahli.
Data tersebut memiliki kekurangan yaitu tidak memiliki acuan ukuran yang sama antar ahli.
Semantic relation adalah keterkaitan sepasang kata berdasar relasi kata yang dimilikinya.Relasi tersebut dapat berupa hipernim, hiponim, meronim serta holonim.
Terdapat beberapa pendekatan untuk membangun semantic relation antar kata salah satunya adalah path base.Pendekatan ini merepresentasikan hubungan antar kata dalam bentuk graf dengan node sebagai kata atau sense dan edge sebagai relasi antar kata atau sense.Semantic relation antar kata dihitung dengan cara mengalikan bobot pada edge dan kedalaman node sebuah jalur yang terbentuk. Path base melakukan perhitungan berdasarkan hierarki antar kata atau sense dalam knowledge base.
Pada penelitian ini dikembangkan sistem yang dapat mengitung semantic relation antar kata dalam Bahasa Inggris. Penelitian ini juga melakukan pengamatan pengaruh jumlah jenis relasi kata yang digunakan, bobot dan kedalaman terhadap hasil perhitungan yang didapatkan.Digunkan Bahasa Inggris dikarenakan Bahasa Inggris adalah bahasa yang banyak digunakan di dunia.Selain itu, Bahasa Inggris juga telah memiliki knowledge base yang lengkap yaitu WordNet.WordNet merupakan knowledge base yang sudah
banyak digunakan untuk penelitian dalam bidang text mining dan memiliki library yang bisa langsung ditambahkan pada sistem.
RUMUSAN MASALAH
Berdasarkan pendahuluan yang telah dijelaskan sebelumnya, maka rumusan masalah yang dipaparkan pada penelitian ini adalah
1. Bagaimana menghitung semantic relation antar kata(noun) dalam bahasa Inggris pada suatu pasangan kata ?
2. Bagaimana pengaruh jumlah relasi, ke- dalaman dan kombinasi bobot dan kedalaman terhadap hasil perhitungan menggunakan pendekatan path base ? DASAR TEORI
1. Semantic Relation
Semantic relation mendefinisikan asosiasi antar konsep.Asosiasi itu dapat berupa classical relation seperti hypernemy, hyponomy, meronymy, antonomy, synonymy dan implicit connection. Asosiasi tersebut didapatkan dari deskripsi konsep tersebut yang telah ada pada knowledge source[11].
Hipernim merupakan relasi yang me- nunjukan apabila kata yang pertama me- miliki tingkatan yang lebih tinggi dari kata berikutnya.Contoh hipernim dari car adalah machine. Hiponim merupakan relasi yang terjadi apabila kata pertama merupakan subclass dari kata berikutnya.Contoh hipo- nim dari device adalah machine.Meronim merupakan relasi yang menunjukan bahwa kata yang pertama lebih umum dari pada kata berikutnya.Contoh meronim laptop adalah microprocessor.Holonim adalah relasi yang berlawanan dengan meronim. Contoh holonim dari central processing unit adalah laptop[3,4].
Terdapat beberapa penelitian yang dijadikan acuan untuk melakukan penelitian
tentang semantic relation yaitu penelitian yang telah dilakukan oleh Rada et al.(1989) dan Susna (1993). Penelitian Rada et al.(1989) melakukan perhitungan keterkaitan antar kata dengan cara mekalkulasi panjang length antar node. Penelitian Susna (1993) melakukan perhitungan keterkaitan antar kata dengan menggunakan representasi graf.Penelitian ini menggunakan graf yang berbobot.
Perhitungan dilakukan dari dua arah dari node awal ke node akhir dan sebaliknya[2,8,10].
Dewasa ini semantic relation banyak digunakan untuk Natural Language Processing (NLP) application. Contohnya Word Sense Ambiguation, Semantic Information Retrieval, Finding real spelling errors dan computing lexical chain[2].
2. Path Base
Path baseadalah sebuah metode yang memodelkan semantic relation dalam bentuk graf. Graf digunakan untuk melakukan per hitungan keterkaitan antar kata.Node merupakan representasi dari word dan sense se dangkan edge merupakan representasi relasi antar kata dalam WordNet. Bobot graf yang digunakan pada penelitian ini mengacu pada probability of occurrences yang diciptakan oleh Song et al (2004). Bobot graf yang digunakan adalah sebagai berikut :
Tabel 2.1 Probability Of Occurrence WordNet 2.0 Edge
Type
Probability of Occurence Hypernym / Hyponym 0.61
Part Meronym /
Holonym 0.0367
Perhitungan menggunakan path base dapat dilakukan dengan 3 cara yaitu per- hitungan menggunakan bobot, per hitungan menggunakan kedalaman dan gabunagan perhitunagan menggunakan bobot dan kedalaman.
Perhitungan menggunakan bobot yang disebut SCM dilakukan dengan cara meng- alikan bobot edge yang ada pada jalur antar kedua kata tersebut. Jika terdapat lebih dari satu jalur maka akan dipilih hasil perkalian bobot yang terbesar. SCM dapat dirumuskan sebagai berikut
(𝑆, 𝑂, 𝑃) = Π𝑙𝑖=1𝑤𝑖 (2.1) Keterangan
w = bobot pada edge yang dilalui.
Perhitungan menggunakan kedalaman yang biasa disebut dengan SPE dilakukan dengan cara mengalikan kedalaman jalur yang dimiliki antar kedua kata. Jika terdapat lebih dari satu jalur maka akan dipilih hasil perkalian terbesar. SPE dapat dirumuskan sebagai berikut :
(2.2) Keterangan
d = kedalaman node yang dilalui dmax = kedalaman dari maksimum WordNet yaitu 15
Perhitungan menggunakan kombinasi antara bobot dan kedalaman dilakukan dengan cara mengalikan hasil perhitungan bobot dan hasi perhitungan kedalaman. Jika terdapat lebih dari satu jalur maka akan dipilih hasil perkalian terbesar. Perhitungan ini dapat dirumuskan sebagai berikut
SCM.SPE = {(𝑆, 𝑂, 𝑃) ∙ (𝑆, 𝑂, 𝑃) (2.3) [6,7,11]
3. WordNet
WordNet adalah sebuah knowledge base yang biasa digunakan untuk penelitian keterkaitan leksikal.WordNet merupakan kamus elektronik tentangnoun, verbs, adjectives, dan adverbs yang dikembangkan
di Pricenton University. WordNet memiliki 117.798 noun, 11.592 verb, 22.479 adjective dan 4.481 adverb.WordNet menyajikan data kata dalam bentuk synonym set (synset/sense). Sense merupakan kumpulan kata yang memiliki makna sejenis.Terdapat kemungkinan satu kata memiliki beberapa sense dikarenakan terdapat beberapa kata yang memiliki banyak makna.Setiap sense memiliki gloss. Gloss adalah contoh kalimat yang digunakan untuk memperjelas suatu synset [1,4,8,12]
Contoh sense pada WordNet adalah sebagai berikut, kata computer pada WordNet memiliki 2 sense.Sense pertama computer = { computing machine, computing device, data processor, electronic computer, information processing system } dengan gloss (a machine for performing calculations automatically).
Sense kedua computer = {calculator, reckoner, figurer, estimator, computer } dengan gloss(an expert at calculation (or at operating calculating machines)[4].
Pada WordNet disediakan relasi antar kata berdasarkan sense kata tersebut.
Relasi yang terdapat pada WordNet adalah hipernim, hiponim, meronim, holonim dan antonim. Contoh hipernim computer pada sense pertama adalah {machine, device, instr umentality:instrumentation, artifact:artifact, whole:unit, object, entity}. Contoh hiponim computer pada sense pertama adalah analog computer, digital computer. Contoh meronim computer pada sense pertama adalah keyboard, bus, microchip[4]
METODE PENELITIAN
Pada penelitian ini dibangun sebuah sistem yang dapat melakukan perhitungan hubungan relasi antar kata benda dalam bahasa Inggris. Sistem ini menerapkan semantic relation dengan pendekatan pathbase. Gambaran umum sistem ini adalah sebagai berikut
Gambar 3. 1 Gambaran Umum Sistem
Masukan sistem adalah sepasang kata Bahasa Inggris.Sistem membuat graf berdasar pada hierarki kata tersebut pada WordNet.
Setelah graf terbentuk sistem mencari jalur yang menghubungkan antara sepasang kata tersebut.Sistem melakukan perhitungan semantic relation berdasar pada jalur yang telah terbentuk. Kemudian sistem melakukan pengecekan kondisi semua sense pada kata
pertama telah dibandingkan dengan semua sense pada kata kedua, jika masih terdapat sense yang belum dibandingkan maka kembali pada proses pembentukan graf jika tidak system menampilkan hasil perhitungan dan proses selesai.
1. Pembuatan Graf
Terdapat 2 jenis proses pembuatan graf pada penelitian ini, graf yang pertama
adalah graf dengan relasi hipernim-hiponim dan graf yang kedua adalah graf dengan relasi hipernim-hiponim dan meronim- holonim. Pembuatan graf dimulai dengan mendeklarasikan relasi dari kata pertama dan kedua. Proses deklarasi relasi dilakukan menggunakan library RiTa WordNet[5]. Proses selanjutnya adalah pembuatannode dan edge dengan bobot yang sesuai dengan relasi yang dimiliki kata tersebut.
2. Pencarian Jalur
Jalur yang digunakan adalah jalur yang memiliki hasil perkalian terbesar dari bobot edge yang dilalui dari node kata pertama hingga node kata kedua.
3. Proses Perhitungan
Pada penelitian ini dilakukan 3 jenis perhitungan semantic relation yaitu perhitungan secara SCM, SPE dan SCM.SPE.
Setiap jalur yang tercipta dihutung semantic relation dengan SCM, SPE maupun SCM.SPE pada setiap jalur yang terbentuk. Setelah semua jalur telah dihitung maka akan dicari nilai terbesar dari masing – masing perhitungan menggunakan SCM, SPE maupun SCM.SPE HASIL PENELITIAN DAN PEMBAHASAN 1. Pengujian Sistem
Sistem ini diuji menggunakan data test wordsim353 semantic relatedness.Wordsim353 semantic relatedness terdiri dari 252 pasang kata beserta nilai keterkaitan tiap pasang kata tersebut. Nilai keterkaitan antar kata atau yang biasa disebut dengan gold standart merupakan nilai yang dihasilkan dari pemikiran beberapa ahli. Contoh data test adalah pasangan kata planet – constellation memiliki gold standart 8.06 [9]. Pada penelitian ini hanya diujikan 194 pasang kata dari data test dikarenakan terdapat kata pada data test yang tidak tersedia dan tidak memiliki hipernim yang lengkap pada library yang digunakan oleh penulis.
Terdapat 2 pengujian yang dilakukan pada penelitian ini. Pengujian pertama dilakukan pada graf pertama sistem yaitu graf dengan relasi hipernim – hiponim. Sistem diuji menggunakan data test untuk melakukan perhitungan semantic relation secara SCM, SPE maupun SCM.SPE. Pengujian kedua dilakukan pada graf kedua sistem yaitu graf dengan relasi hipernim – hiponim dan meronim-holonim.
Sistem diuji dengan data test untuk melakukan perhitungan semantic relation seperti pada pengujian pertama. Setelah didapatkan hasil perhitungan semantic relation secara SCM, SPE dan SCM.SPE baik dari graf pertama maupun graf kedua dilakukan perhitungan korelasi hasil perhitungan sistem dengan gold standart dengan bantuan Ms.Excel. Berikut adalah hasil perhitungan korelasi
Tabel 3.1 Hasil KorelasI
RELASI PERHITUNGAN
SCM SPE SCM.SPE Hipernim-
Hiponim 0.0818 0.14 0.200 Hipernim-
Hiponim dan Meronim-
Holonim
0.0819 0.17 0.201
2. Analisis Sistem
Setelah dikembangkan sistem perhitungan semantic relation dan dilakukan pengamatan pengaruh jumlah relasi, kedalaman dan perpaduan bobot dan kedalaman terhadap hasil perhitungan maka pada pembahasan selanjutnya dilakukan analisis berdasarkan hasil pengujian.
a. Analisis Pengaruh Relasi
Berdasarkan hasil pengujian menunjukan bahwa perhitungan menggunakan relasi hipernim-hiponim dan meronim-holonim menghasilkan korelasi yang lebih tinggi baik menggunakan SCM, SPE maupun SCM.SPE.
Hal ini disebabkan semakin banyak relasi yang terbentuk maka jalur yang terbentuk akan semakin banyak sehingga memungkinkan menghasilkan perhitungan dengan korelasi yang lebih baik.
b. Analisis Pengaruh Kedalaman
Berdasar hasil pengujian menunjukan bahwa perhitungan menggunakan SPE memiliki korelasi yang lebih tinggi diban- dingkann dengan SCM baik menggunakan relasi hipernim-hiponim maupun hipernim- hiponim dan meronim-holonim.Perhitungan SPE dapat lebih baik jika dibandingkan dengan SCM dikarenakan jika terdapat dua pasangan kata yang memiliki jumlah edge yang sama namun memiliki tingkat kedalaman yang ber- beda akan menghasilkan perhitungan yang berbeda.
c. Analisis Pengaruh Bobot dan Kedalaman Berdasar hasil pengujian perhitungan SCM.SPE memiliki korelasi yang lebih tinggi jika dibandingkan dengan SCM dan SPE baik pada relasi hipernim-hiponim maupun relasi hipernim-hiponim dan meronim-holonim.
Perhitungan dengan menggunakan SCM.
SPE menghasilkan korelasi yang paling tinggi dikarenakan perhitungan ini selain memperhatikan jarak juga memperhatikan kedalaman jalur yang dilewati. Jika terdapat jalur dengan panjang jalur yang sama maka sistem akan memilih jalur yang memiliki hasil perkalian bobot dan kedalaman yang paling besar.
d. Analisis Pengaruh Korelasi
Berdasarkan hasil pengujian korelasi ter- besar yang didapatkan adalah 0.201. Hasil kor- elasi tersebut tergolong dalam korelasi lemah.
Didapatkan hasil korelasi lemah pada peneli- tian ini dikarenakan penelitian ini mengguna- kan pendekatan path dengan relasi hipernim, hiponim, meronim dan holonim. Pendekatan path hanya mengandalkan jalur taksonomi dari kata untuk melakukan perhitungan, jika
jalur yang menghubungkan kedua kata ter- sebut menghasilkan perhitungan yang kecil maka hasil keterkaitan kata tersebut juga kecil begitu pula sebaliknya.
PENUTUP 1. Simpulan
Berdasarkan hasil pengujian yang telah dilakukan dapat ditarik kesimpulan bahwa korelasi yang dihasilkan dengan menggunakan path base tergolong dalam korelasi lemah. Semakin banyak jenis relasi kata yang digunakan maka menghasilkan perhitungan korelasi yang semakin tinggi.
Perhitungan semantic relation dengan memperhatikan pengaruh bobot dan kedalaman menghasilkan korelasi yang paling baik dari pada perhitungan dengan menggunakan bobot maupun kedalaman saja.
2. Saran
Berikut ini adalah beberapa saran untuk pengembangan penelitian ini lebih lanjut a. Penelitian selanjutnya menggunakan
semua relasi yang dimiliki oleh kata.
b. Penelitian selanjutnya menggunakan semua POS(Part Of Speech) tidak hanya noun.
DAFTAR PUSTAKA
Agirre Eneko, Alfonseca Enrique , Hall Keith, Kravalova Jana Marius,Pasca, Soroa Aitor. (2007). A Study on Similarity and Relatedness Using Distributional and WordNet-based Approaches. IXA NLP Group, University of the Basque Country Budanitsky Alexander, Hirs Graeme.(2006).
Evaluating WordNet-based Measures of Lexical Semantic Relatedness.Association for Computional Linguistics Volume 32 Number 1.
Jurafsky, Dan dan Chirstopher Manning.
WordNet Meaning and Similiarity. http://
spark-public.s3.amazonaws.com/nlp/
slides/sem.pdf. diakses November 2015 Miller A,George et all. WordNet A Lexical
database for English. https://wordnet.
princeton.edu/. diakses November 2015 Shiffman, Daniel. WordNet.http://shiffman.
net/teaching/a2z_2008/wordnet. diakses pada Oktober 2015
Tag Gon Kim. 2004. Artificial Intelligence and Simulation. Korea.
Tsatsaronis, G., & Iraklis varlamis & Michalis Vazirgianis. 2010). Text Relatedness Based on a Word Thesaurus. Journal of Artificial Intelligence Research 37(2010) 1-39
Wang, T., and Hirst, G. 2011. Refining the notions of depth and density in WordNet- based semantic similarity measures.
InProceedings of the 2011 Conference on Empirical Methods in Natural Language Processing, pp. 1003–11. Stroudsburg,
PA, USA: Association for Computational Linguistics
WordSim353 - Similarity and Relatedness.
http://alfonseca.org. diakses November 2015
Yazdani Majid, Popescu-Belis Andrei.(2013).
Computing text semantic relatedness using the contents and linksof a hypertext encyclopedia.Artificial Intelligence 194 176-202
Zhang Ziki, Lisa Anna, Ciravegna Fabio.(2012).
Recent advances in methods of lexical semantic relatedness – a survey. Natural Language Engineering / Volume 19 / Issue 04 / October 2013, pp 411 – 47.
Zesch, T., and Gurevych, I. (2010). Wisdom of crowds versus wisdom of linguists – measuring the semantic relatedness of words.Natural Language Engineering16(1), 25–59