• Tidak ada hasil yang ditemukan

Analisis dan Implementasi Kesamaan Semantik Antar Kata Menggunakan Pengukuran Berbasis Path

N/A
N/A
Protected

Academic year: 2021

Membagikan "Analisis dan Implementasi Kesamaan Semantik Antar Kata Menggunakan Pengukuran Berbasis Path"

Copied!
10
0
0

Teks penuh

(1)

Analisis dan Implementasi Kesamaan

Semantik Antar Kata Menggunakan

Pengukuran Berbasis Path

Paskalis Dias Adhyaksa

1

, M. Syahrul Mubarok

2

, Moch Arif Bijaksana

3

# School of Computing, Telkom University

Bandung (40247) Indonesia 1 paskalisdias@gmail.com 2 msyahrulmubarok@gmail .com 3 arifbijaksana@gmail.com Abstrak

Pengukuran semantic similarity memiliki peran penting dalam beberapa task natural language processing. Pengukuran ini dilatarbelakangi oleh suatu masalah di mana saat ini komputer belum dapat menyamakan persepsi manusia terkait penilaian kesamaan antar kata. Penggunaan knowledge bases sebagai sumber informasi telah banyak diimplementasikan menggunakan metode tertentu untuk melakukan perhitungan kesamaan semantik antar kata. Salah satu diantaranya adalah pengukuran berbasis path yang cukup populer digunakan dengan memanfaatkan bentuk struktur taksonomi secara utuh. Penelitian ini mengimplementasikan pengukuran berbasis path dengan pendekatan Wang & Hirst measure untuk melakukan perhitungan kesamaan semantik antar kata menggunakan WordNet sebagai

knowledge base. Sistem melakukan perhitungan skor terhadap semua kombinasi sense kata dengan bobot parameter alpha yang diatur pada skala 0 - 5. Hasil pengujian menunjukkan pengukuran Wang & Hirst mampu menghasilkan

nilai korelasi cukup tinggi pada kedua dataset uji, yaitu sebesar 0,59 untuk dataset SimLex999 dan 0,65 untuk dataset WordSim353 dengan bobot parameter alpha 0. Hasil korelasi tersebut termasuk ke dalam kategori korelasi positif sedang untuk dataset SimLex999 dan korelasi positif kuat untuk dataset WordSim353.

Kata Kunci: semantic similarity, path based measure, Wang & Hirst measure, WordNet, SimLex999, WordSim353

Abstract

Measurement of semantic similarity has an important role in natural language processing task. The background of this measurement is an issue in which the current computer cannot equate the human perception of semantic similarity measure between words. The use of knowledge bases as a source of information has been implemented using several method for calculating the semantic similarity between words. One of them is path based measurement that is popularly used by fully using the structure of taxonomy. This study was implemented path based measurement with Wang & Hirst measure for calculating the semantic similarity between words using WordNet as a knowledge base. The system performs calculations score in any combination of sense words with alpha parameter weights are set on a scale 0 - 5. Based on the observation which is indicated that the measurement by Wang & Hirst can be able to measure a high enough correlation value in both of dataset, it is 0.59 in SimLex999 dataset and 0.65 for WordSim353 dataset with weight alpha parameter is 0. The result of those correlation include to the moderate positive correlation in SimLex999 dataset and the strong positive correlation in WordSim353 dataset.

Keywords: semantic similarity, path based measure, Wang & Hirst measure, WordNet, SimLex999, WordSim353

OPEN ACCESS

ISSN 2460-3295

socj.telkomuniversity.ac.id/indosc

Ind. Symposium on Computing Sept 2016. pp. 297-306 doi:10.21108/indosc.2016.159

(2)

I. PENDAHULUAN

Semantic similarity merupakan suatu angka yang menyatakan tingkat kesamaan atau kedekatan secara

semantik antar kata, kalimat atau teks. Sepasang kata dinyatakan memiliki kesamaan semantik jika pasangan kata tersebut memiliki kesamaan dari sisi makna atau konsep. Pengukuran kesamaan semantik ini dilatarbelakangi pada suatu masalah di mana saat ini komputer belum dapat menyamakan persepsi manusia terkait penilaian kesamaan semantik antar kata. Implementasi dari semantic similarity sudah sejak lama diterapkan pada aplikasi pemrosesan bahasa alami (natural languange processing) dan beberapa bidang terkait seperti: text classification, document clustering , text summarization, dan lain sebagainya [1]. Salah satu metode yang diimplementasikan adalah menggunakan pengukuran berbasis knowledge (knowledge base). Knowledge bases merupakan sumber informasi berupa kamus yang digunakan sebagai manajemen pengetahuan seperti: Ensiklopedia, Thesaurus, Wikipedia, atau WordNet. Knowledge bases inilah yang dijadikan sebagai acuan dalam menentukan kesamaan semantik antar kata dengan menggunakan metode pengukuran tertentu [2]. Salah satu pengukuran berbasis knowledge yang cukup populer digunakan adalah pengukuran berbasis path. Kesamaan semantik antar konsep pada pengukuran berbasis path dapat ditentukan berdasarkan jarak, panjang path yang menghubungkan antar konsep, hingga kedalaman konsep tersebut dalam taksonomi [3]. Penggunaan kedalaman dan panjang path telah dikembangkan secara luas untuk meningkatkan keakuratan hasil korelasi yang didapat melalui pengukuran berbasis path.

Pengukuran Wang & Hirst adalah salah satu metode pengukuran berbasis path yang menggunakan kedalaman dan panjang path terpendek dalam menghitung kesamaan semantik antar kata. Pengukuran ini mempertimbangkan nilai kumulatif kedalaman konsep terhadap keseluruhan jumlah node dalam taksonomi WordNet. Pada penelitian ini, pengukuran Wang & Hirst diobservasi menggunakan sejumlah pasangan kata dalam dua dataset yang berbeda. Sistem yang dibangun diharapkan dapat menghasilkan performansi yang lebih baik dibandingkan pengukuran sebelumnya di mana evaluasi dilakukan dengan membandingkan hasil korelasi pengukuran Wang & Hirst dengan pengukuran berbasis knowledge lainnya, meliputi pengukuran berbasis path dan pengukuran berbasis konten informasi berdasarkan nilai korelasi yang dihitung menggunakan acuan data SimLex999 dan WordSim353 sebagai gold standard.

II. DASAR TEORI

Beberapa dasar teori yang digunakan dalam penelitian guna mendukung proses perancangan dan analisis sistem adalah sebagai berikut:

A. Path based Measure

Path based measure atau pengukuran berbasis path merupakan salah satu metode yang digunakan untuk

menghitung kesamaan semantik berdasarkan jarak atau panjang lintasan yang menghubungkan antar node dalam taksonomi. Pengukuran berbasis path disebut juga sebagai edge-based method

.

Panjang path

dihitung berdasarkan edge atau node yang berada di sepanjang lintasan [3]. Edge merupakan ujung -ujung

dari setiap node yang dibangkitkan. Sementara node merupakan kumpulan titik yang memiliki makna dan saling berhubungan satu sama lain [2]. Pada pengukuran berbasis path, semakin pendek atau kecil panjang

path antar konsep pada taksonomi maka kesamaan antar konsep tersebut semakin tinggi. Pengukuran

berbasis path melibatkan bentuk struktur taksonomi secara utuh , dapat dilihat taksonomi relasi hipernim (is

-a) pada Gambar 1

.

Paskalis Dias Adhyaksa et.al.

(3)

conveyance public transport vehicle wheleed vehicle self-propelled vehicle bus motor vehicle car bicycle

Gambar 1

.

Taksonomi Kata pada WordNet

Melalui gambar 1, dapat diketahui bahwa 𝑙𝑒𝑛( 𝑏𝑖𝑐𝑦𝑐𝑙𝑒, 𝑐𝑎𝑟) = 4 dan 𝑙𝑒𝑛( 𝑐𝑎𝑟, 𝑏𝑢𝑠) = 6, di mana 𝑙𝑒𝑛( 𝑏𝑖𝑦𝑐𝑙𝑒

,

𝑐𝑎𝑟) < 𝑙𝑒𝑛(𝑐𝑎𝑟, 𝑏𝑢𝑠). Berdasarkan informasi ini, dapat disimpulkan bahwa bicycle dan car terindikasi memiliki kesamaan lebih tinggi dibandingkan car dan bus. Berdasarkan informasi tersebut, dapat disimpulkan bahwa bicycle dan car terindikasi memiliki kesamaan lebih tinggi dibandingkan car dan

bus. Pada penelitian ini, pengukuran berbasis path akan diimplementasikan menggunakan pendekatan

Wang & Hirst measure dengan memperhatikan sense kata. Penggunaan sense kata akan menjadi kontribusi dalam penelitian ini guna membantu menentukan kesamaan semantik antar konsep yang lebih optimal pada taksonomi.

B. Wang & Hirst measure

Wang & Hirst memperkenalkan penggunaan distribusi kumulatif kedalaman (depth) dan panjang path terpendek dalam menghitung kesamaan semantik antar kata [4]. Setiap node dalam WordNet akan dihitung

nilai depth-nya dan dimasukkan ke dalam persamaan. Berdasarkan statistikal WordNet, node yang terdapat dalam dictionary WordNet berjumlah kurang lebih 82.115 noun berbentuk synset [5]. Gambar 2 menunjukkan grafik total node berdasarkan nilai depth pada WordNet untuk setiap levelnya

.

Gambar 2

.

Grafik total node berdasarkan depth pada WordNet

Pada pengukuran Wang & Hirst, nilai kedalaman lowest common subsummer (lcs) antara konsep 𝑐1,𝑐2didapatkan dengan membagi jumlah node berdasarkan nilai kumulatif depth nya dengan jumlah keseluruhan node dalam taksonomi. LCS merupakan induk node terdekat antara dua kata atau konsep dalam taksonomi. Perhitungan nilai depth lcs menggunakan pengukuran Wang & Hirst dapat dilihat pada

persamaan (1) berikut: 0 5000 10000 15000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 T o ta l N o d e Depth

(4)

𝑑𝑒𝑝( 𝑙𝑐𝑠) = 𝑑𝑒𝑝𝑢(𝑐) =∑𝑐

Є𝑊𝑁| { 𝑐

:

𝑑𝑒𝑝(𝑐) ≤ 𝑑𝑒𝑝(𝑐)}|

|𝑊𝑁| (1)

Berdasarkan persamaan (1) tersebut:

1. Nilai kedalaman lowest common subsummer ( 𝑑𝑒𝑝𝑢( 𝑐)) didapatkan dari jumlah node berdasarkan nilai kumulatif depth

-nya yang kurang dari sama dengan depth lcs dihitung dari root dibagi dengan keseluruhan jumlah node dalam taksonomi (WN).

2. Nilai 𝑑𝑒𝑝𝑢(𝑐) akan digunakan untuk menghitung nilai kesamaan semantik antar kata.

Sedangkan untuk menghitung nilai kesamaan semantik antar kata, pengukuran Wang & Hirst mengimplementasikannya ke dalam pengukuran Wu & Palmer dengan sedikit perubahan. Pengukuran Wu & Palmer merupakan pengukuran berbasis path length yang memiliki performansi cukup baik dalam hal relevansi antar term [6]. Berikut perhitungan kesamaan semantik menggunakan pengukuran Wang & Hirst [4], dapat dilihat pada persamaan (2):

𝑠𝑖𝑚(𝑐1,𝑐2) 2

.

𝑑𝑒𝑝 𝛼 (𝑐) 𝑙𝑒𝑛 (𝑐1, 𝑐)+𝑙𝑒𝑛(𝑐2,𝑐)+2.𝑑𝑒𝑝

𝛼(𝑐) (2)

Berdasarkan persamaan (2) tersebut:

1. Nilai similaritas 𝑐1 dan 𝑐2didapatkan dari hasil pembagian dua kali nilai 𝑑𝑒𝑝𝑡ℎ(𝑙𝑐𝑠) dengan penjumlahan panjang path antara 𝑐1 dan 𝑐2 dengan lcs dan dua kali nilai 𝑑𝑒𝑝𝑡ℎ(𝑙𝑐𝑠).

2. 𝑙𝑒𝑛( 𝑐1, 𝑐) adalah panjang path dari 𝑐1 ke lcs dan 𝑙𝑒𝑛( 𝑐2, 𝑐) adalah panjang path dari 𝑐2 ke lcs. 3. 𝛼 merupakan suatu parameter dengan rentang (0,5) dengan selisih 1.

4. Nilai similaritas dari kedua konsep 𝑠𝑖𝑚(𝑐1, 𝑐2) berada pada rentang (0,10).

C. Correlation

Correlation atau korelasi merupakan suatu istilah statistik berupa nilai yang menyatakan hubungan

linier antara kedua variabel atau perubah acak. Besarnya nilai korelasi berada pada rentang [−1,1] atau

-1 <= x <= -1 di mana dikelompokkan ke dalam tiga jenis [7], yaitu:

1. Korelasi positif (positive correlation) menyatakan bahwa kedua variabel mempunyai hubungan yang searah. Kedua variabel dinyatakan memiliki korelasi positif jika nilai korelasinya berada pada rentang (0

,

1].

2. Korelasi negatif (negative correlation) menyatakan bahwa kedua variabel memiliki hubunga n yang tidak searah (terbalik). Kedua variabel dinyatakan memiliki korelasi negatif jika nilai korelasinya berada pada rentang [−

1,0).

3. Tidak ada korelasi (no correlation) menyatakan kedua variabel memiliki hubungan yang tidak beraturan (acak). Nilai korela sinya adalah 0.

Sedangkan tingkat kekuatan nilai korelasi dapat diukur berdasarkan T abel 1.

Tabel 1. Tingkat Kekuatan Korelasi [7]

Rentang Tingkat Kekuatan Korelasi 0,00 - 0,19 sangat lemah 0,20 - 0,39 lemah 0,40 - 0,59 s edang 0,60 - 0,79 kuat 0,80 - 1,00 sangat kuat

Pada penelitian ini metode perhitungan korelasi yang digunakan adalah pearson’s correlation. Penggunaan korelasi ditujukan untuk mengetahui hubungan antara kedua variabel, dalam hal ini nilai korelasi yang dihasilkan sistem akan dibandingkan dengan skor acuan gold standard. Korelasi menunjukkan tren yang terbentuk dari kedua skor tersebut. Selain itu, untuk pengukuran performansi juga digunakannya euclidean distance untuk mengetahui seberapa dekat kedua garis tren yang terbentuk secara lebih akurat. Euclidean distance antara dua titik dapat didefinisikan seperti pada persamaan (3) [8]:

Paskalis Dias Adhyaksa et.al.

(5)

𝑑 = √∑(𝑥𝑖− 𝑦𝑖)2 𝑛

𝑖=1

(3)

𝑑 merupakan distance atau jarak antar vektor, 𝑥 adalah vektor pertama, sedangkan 𝑦 adalah vektor kedua, 𝑖 merupakan indeks elemen vektor, dan 𝑛 merupakan dimensi dari kedua vektor. Tentunya semakin kecil nilai distance antara kedua vektor maka kesamaan kedua vektor tersebut semakin tinggi, dan berlaku sebaliknya di mana kesamaan kedua vektor semakin rendah jika nilai distance semakin tinggi.

III. METODOLOGI PENELITIAN

Pada penelitian ini, pengukuran Wang & Hirst akan diimplementasikan untuk melakukan perhitungan kesamaan semantik antar pasangan kata berbahasa Inggris. Sistem akan menerima masukkan berupa sejumlah pasangan kata benda (nouns) dari dataset SimLex999 dan WordSim353 lalu melakukan perhitungan skor kesamaan semantik pasangan kata tersebut. Hasil perhitungan berupa skor kesamaan dengan skala 0 - 10. Hasil korelasi akan menjadi keluaran sistem untuk mengetahui performansi sistem yang dibangun, di mana nilai korelasi akan dihitung dengan membandingkan nilai kesamaan semantik yang dihasilkan oleh sistem dengan acuan dataset SimLex999 dan WordSim353 sebagai gold standard menggunakan pearson correlation. Analisis akan dilakukan untuk mengetahui faktor

-faktor yang dapat

mempengaruhi hasil nilai korelasi yang didapat. Hasil korelasi tersebut juga akan dibandingkan dengan hasil korelasi menggunakan pengukuran berbasis path lainnya dan pengukuran berbasis konten informasi, yaitu dengan tujuan untuk mengetahui pengukuran mana yang lebih baik berdasarkan nilai korelasi ya ng dihasilkan.

A. Gambaran Umum Sistem

Gambaran umum dari sistem yang diba ngun dapat dilihat pada Gambar 3.

Pencarian Sense Kata Mulai

Pasangan Kata, Gold

Standard Perhitungan Panjang Path Pencarian Depth Kata Pencarian LCS Perhitungan Skor Kesamaan Semantik Perhitungan Performansi Skor Kesamaan

Semantik Performansi Selesai WordNet

Lemmatisasi

Filtering

Gambar 3. Diagram Blok Rancangan Umum Sistem

Perhitungan skor kesamaan semantik dilakukan menggunakan pengukuran Wang & Hirst melalui persamaan (2) terhadap keseluruhan bobot parameter alpha dengan mengatur bobot pada skala 0 - 5 dengan selisih 1 terhadap keseluruhan kombinasi sense. Performansi sistem dihitung sebagai evaluasi sistem terhadap penerapan metode terkait perhitungan kesamaan semantik antar kata. Evaluasi dilakukan dengan menghitung nilai korelasi dan nilai distance berdasarkan skor kesamaan semantik yang dihasilkan oleh sistem dengan acuan gold standard yang telah ditentukan. Perhitungan nilai distance dilakukan menggunakan euclidean distance. Skor kesamaan semantik yang didapatkan berdasarkan kombinasi semua

sense kata akan dihitung korelasinya berdasarkan beberapa parameter pencarian skor meliputi: skor

minimum, skor maksimum, skor berdasarkan depth minimum, skor berdasarkan depth maksimum, skor berdasarkan panjang path minimum, skor berdasarkan panjang path maksimum, dan skor yang memiliki selisih paling kecil dengan gold standard(ideal).

(6)

IV. HASIL DAN DISKUSI

Pengujian dilakukan pada kedua dataset uji, yaitu SimLex999 berupa 666 pasangan kata nouns dan WordSim353 berupa 200 pasangan kata nouns. Perhitungan hasil korelasi dan distance dilakukan dengan

mengkombinasikan semua sense terhadap seluruh bobot parameter alpha berdasarkan semua parameter pencarian skor. Hal ini ditujukan untuk mengetahui parameter pencarian skor mana yang paling baik sekaligus mengetahui bobot parameter alpha terbaik berdasarkan nilai korelasi yang dihasilkan. Hasil korelasi yang didapat akan dibandingkan dengan pengukuran pembanding lainnya untuk mengetahui pengukuran mana yang lebih unggul menggunakan dataset uji yang sama. Hasil pengujian pada kedua

dataset uji dapat dilihat pada Tabel 2 dan Tabel 3.

Tabel 2. Hasil pengujian berupa nilai korelasi terhadap keseluruhan data pada dataset SimLex999 α Korelasi Wang & Hirst

Skor Min Skor Max Skor Depth Min Skor Depth Max Skor by Path Min Skor by Path Max Skor (ideal) 0 0,20 0,59 0,37 0,31 0,59 0,21 0,77 1 0,14 0,47 0,30 0,27 0,48 0,14 0,51 2 0,13 0,42 0,25 0,24 0,42 0,13 0,44 3 0,13 0,40 0,22 0,23 0,40 0,13 0,41 4 0,12 0,38 0,22 0,22 0,38 0,12 0,39 5 0,11 0,37 0,21 0,21 0,37 0,11 0,38 Tabel 3. Hasil pengujian berupa nilai korelasi terhadap keseluruhan data pada dataset WordSim353

Berdasarkan hasil pengujian menggunakan kedua dataset uji pada Tabel 2 dan Tabel 3, dapat diketahui pengukuran Wang & Hirst berdasarkan skor maksimum dan panjang path minimum dengan bobot alpha 0 atau tanpa bobot mampu menghasilkan nilai korelasi tertinggi pada kedua dataset uji. Korelasi yang dihasilkan keduanya sama. Hal ini menunjukkan bahwa dari semua kombinasi sense, skor maksimum merupakan skor dengan sense yang memiliki panjang path minimum. Bobot parameter alpha 0 menunjukkan bahwa melalui persamaan (2), kedalaman LCS (𝑑𝑒𝑝(𝑙𝑐𝑠)) tidak mempengaruhi hasil skor kesamaan semantik dan nilai korelasi yang dihasilkan. Meskipun demikian, untuk setiap perubahan bobot

alpha, hasil korelasi berdasarkan skor maksimum masih lebih baik jika dibandingkan dengan hasil korelasi

berdasarkan panjang path minimum. Untuk tingkat kekuatan korelasi, hasil korelasi pada dataset SimLex999 dikategorikan ke dalam korelasi positif sedang, sedangkan hasil korelasi pada dataset WordSim353 dikategorikan ke dalam korelasi positif kuat, dapat dilihat pada Tabel 1. Selain itu, penambahan bobot pada parameter alpha tidak berbanding lurus dengan nilai korelasi yang dihasilkan. Dapat dibuktikan bahwa semakin besar bobot alpha, nilai korelasi yang dihasilkan semakin menurun.

Hasil korelasi pada dataset WordSim353 menunjukkan hasil yang lebih baik jika dibandingkan pada

dataset SimLex999, walaupun dengan selisih yang tidak begitu signifikan yaitu 0,6. Selain penggunaan

bobot parameter alpha, perbedaan korelasi yang dihasilkan dapat disebabkan oleh beberapa faktor yaitu perbedaan kuantitas data pada kedua dataset uji dan bentuk struktur taksonomi yang belum sempurna.

A. Perbedaan Kuantitas Data pada Kedua Dataset Uji

WordSim353 memuat 200 pasangan kata dan SimLex999 memuat 666 pasangan kata. Perbedaan kuantitas data pada kedua dataset tersebut cukup jauh, yaitu 466 pasangan kata. Hal ini dicurigai dapat mempengaruhi hasil korelasi yang dihasilkan. Untuk membuktikan hal tersebut, dilakukan penguj ian pada

dataset SimLex999 dengan menyamakan kuantitas datanya melalui pengambilan sampel secara acak

Korelasi Wang & Hirst Skor Min Skor Max Skor Depth

Min Skor Depth Max Skor by Path Min Skor by Path Max Skor (ideal) 0 0,20 0,59 0,37 0,31 0,59 0,21 0,77 1 0,14 0,47 0,30 0,27 0,48 0,14 0,51 2 0,13 0,42 0,25 0,24 0,42 0,13 0,44 3 0,13 0,40 0,22 0,23 0,40 0,13 0,41 4 0,12 0,38 0,22 0,22 0,38 0,12 0,39 5 0,11 0,37 0,21 0,21 0,37 0,11 0,38 Paskalis Dias Adhyaksa et.al.

(7)

sejumlah 200 pasangan kata sebanyak 30 kali. Tujuannya adalah untuk mendapatkan hasil korelasi dengan kuantitas data yang seimbang. Rata-rata hasil korelasi yang dihasilkan dari keseluruhan pengambilan sampel adalah sebesar 0,61. Hal ini menunjukkan bahwa perbedaan kuantitas dapat mempengaruhi hasil korelasi yang didapat walaupun tidak berdampak besar. Meskipun demikian, hasil korelasi pada WordSim353 masih jauh lebih baik dibandingkan hasil korelasi SimLex999.

B. Bentuk Struktur WordNet yang Belum Sempurna

Beberapa pasangan kata pada dataset SimLex999 menghasilkan skor yang berbeda jauh dengan skor acuan gold standard . Sistem menghasilkan skor kesamaan yang rendah sedangkan acuan gold standard tinggi, padahal secara makna keduanya memiliki kesamaan yang tinggi, representasi pasangan kata tersebut dalam taksonomi dapat dilihat pada Gambar 4.

psyhoclogical feature dusk time of day cognition abstraction measure fundamental quantity time_period day evening ( i) information datum reading time evening (ii & iii )

Gambar 4. Representasi kata evening dan dusk dalam taksonomi

Kata evening dan dusk memiliki kesamaan makna di mana keduanya merujuk pada suasana menjelang malam. Berdasarkan Gambar 4 , dapat diketahui 𝑙𝑒𝑛(𝑒𝑣𝑒𝑛𝑖𝑛𝑔,𝑑𝑢𝑠𝑘) ≥ 12 terhadap semua kombinasi

senses. Hal ini menunjukkan bahwa kedua kata tersebut memiliki kesamaan yang rendah di mana sistem

menghasilkan skor dengan selisih yang cukup signifikan terhadap acuan gold standard, yaitu 6,35. Selain itu, untuk pasangan kata yang mengandung hubungan antonim seperti kata bottom dan top, umumnya memiliki kesamaan yang rendah, namun sistem menghasilkan skor yang tinggi dikarenakan keduanya saling berdekatan posisinya dalam taksonomi, dapat dilihat pada Gambar 5.

bottom (i)

side

top ( ii)

Gambar 5. Representasi kata bottom dan top dalam taksonomi

(8)

Berdasarkan informasi pada Gambar 4 dan Gambar 5, dapat diketahui bahwa adanya kesalahan pada bentuk struktur WordNet, di mana belum secara sempurna dapat mengkategorikan suatu konsep sesuai dengan pemahaman manusia. Besar kecilnya panjang path juga secara relatif menghasilkan skor yang tidak selalu mendekati gold standard. Untuk mengetahui pengaruh bentuk struktur taksonomi yang belum sempurna terhadap hasil korelasi yang didapat, dilakukan pengabaian terhadap beberapa pasangan kata yang memiliki skor dengan selisih jauh dengan gold standard. Dari keseluruhan skor pasangan kata yang didapat pada pengujian dataset SimLex999, pasangan kata evening dan dusk memiliki selisih yang paling jauh dengan gold standard, yaitu sebesar 6,35. Pengujian pertama dilakukan dengan mengabaikan 25 % pasangan kata yang memiliki selisih paling jauh dengan gold standard berupa 500 pasangan kata pada

dataset SimLex999 yang akan diuji. Sedangkan pengujian kedua dilakukan dengan mengabaikan 50 %

pasangan kata yang memiliki selisih paling jauh dengan gold standard berupa 333 pasangan kata. Hal ini ditujukan untuk mengetahui pengaruh pasangan kata tersebut terhadap hasil korelasi yang didapat.

Dari pengujian yang dilakukan, hasil korelasi yang didapat dengan mengabaikan 25% pasangan kata yang memiliki selisih paling jauh dengan gold standard adalah 0,84. Hasil korelasi tersebut meningkat tajam dibandingkan hasil korelasi menggunakan keseluruhan data dengan perbedaan yang cukup signifikan sebesar 0,25. Sedangkan hasil korelasi yang didapat dengan mengabaikan 50% pasangan kata yang memiliki selisih terjauh dengan gold standard adalah 0,93 dengan kenaikan yang tidak begitu besar, yaitu 0,09 dari hasil korelasi dengan mengabaikan 25% pasangan kata. Hal ini menunjukkan bahwa 25% pasangan kata yang memiliki selisih skor terjauh dengan gold standard memiliki pengaruh yang sangat besar terhadap hasil korelasi yang didapat. Dapat disimpulkan bahwa bentuk struktur WordNet yang kurang tepat merupakan faktor yang paling mempengaruhi hasil korelasi dibandingkan dengan penggunaan parameter alpha dan perbedaan kuantitas pada kedua dataset uji. Untuk itu, diperlukannya adanya perbaikan terhadap struktur WordNet yang telah ada guna mendapatkan hasil korelasi yang lebih baik pada penelitian selanjutnya.Berdasarkan hal tersebut, dapat disimpulkan pengukuran berbasis path dengan pendekatan Wang & Hirst sangat bergantung pada bentuk struktur taksonomi.

C. Perbandingan Korelasi Wang & Hirst dengan Pengukuran Pembanding

Korelasi yang dihasilkan menggunakan pengukuran Wang & Hirst mampu menghasilkan nilai korelasi tertinggi dibandingkan dengan pengukuran pembanding lainnya, yaitu pengukuran berbasis path dan pengukuran berbasis konten informasi, dapat dilihat pada Tabel 4 dan Tabel 5.

Tabel 4. Perbandingan Hasil Korelasi Pengukuran Wang & Hirst dengan Pengukuran Pembanding

Tabel 5. Perbandingan Nilai Distance Pengukuran Wang & Hirst dengan Pengukuran Pembanding

Knowledge based measure Hasil Korelasi SimLex999 Hasil Korelasi WordSim353 Path based measure

Wang & Hirst ( our measure) 54,32 35,62 Wu & Palmer 108,52 42,47 Leacock & Chodorow 51,32 31,16 Path 70,03 47,59

Information content based

measure

Jiang & Conrath 81,14 58,59 Lin 69,25 45,92 Resnik 66,12 35,71

Knowledge based measure Hasil Korelasi SimLex999 Hasil Korelasi WordSim353 Path based measure

Wang & Hirst ( our measure) 0,59 0,65 Wu & Palmer 0,45 0,54 Leacock & Chodorow 0,58 0,63 Path 0,53 0,59

Information content based

measure

Jiang & Conrath 0,53 0,49 Lin 0,58 0,50 Resnik 0,51 0,63 Paskalis Dias Adhyaksa et.al.

(9)

Berdasarkan Tabel 4, pengukuran Wang & Hirst mampu menghasilkan nilai korelasi tertinggi dibandingkan dengan pengukuran pembanding lainnya baik pengukuran berbasis path maupun pengukuran berbasis konten informasi pada kedua dataset uji. Namun jika melihat perbandingan nilai distance pada Tabel 5, pengukuran Wang & Hirst memiliki distance yang lebih tinggi jika dibandingkan pengukuran Leacock & Chodorow yang memilki distance terkecil terhadap acuan gold standard, dengan selisih yang tidak begitu besar, yaitu 4,46 pada dataset WordSim353 dan 3,00 pada dataset SimLex999.

V. KESIMPULAN

Berdasarkan hasil pengujian dan analisis yang telah dilakukan pada penelitian ini, dapat disimpulkan bahwa:

1. Implementasi pengukuran berbasis path menggunakan pengukuran Wang & Hirst mampu menghasilkan korelasi sebesar 0,59 pada dataset uji SimLex999 berupa 666 pasang kata dan 0,65 pada dataset uji WordSim353 berupa 200 pasang kata.

2. Pengukuran Wang & Hirst terhadap skor berdasarkan path length minimum dan skor maksimum mampu menghasilkan nilai korelasi tertinggi dengan bobot parameter alpha 0. Penambahan bobot parameter alpha menghasilkan korelasi yang lebih rendah dengan tren yang semakin menurun ketajamannya.

3. Perbedaan hasil korelasi antara kedua dataset uji dipengaruhi oleh beberapa faktor seperti: pengaruh bobot parameter alpha, perbedaan kuantitas data, dan bentuk struktur taksonomi WordNet yang belum sempurna. Bentuk struktur WordNet yang belum sempurna memiliki pengaruh paling besar pada hasil korelasi yang didapat dengan kenaikan hasil korelasi sebesar 0,25 dibandingkan hasil korelasi terhadap keseluruhan data melalui pengabaian 25 % pasangan kata yang memiliki selisih skor terjauh dengan gold standard.

4. Pengukuran Wang & Hirst terbukti menghasilkan nilai korelasi yang lebih tinggi jika dibandingkan dengan pengukuran berbasis path lainnya dan pengukuran berbasis konten informasi. Namun berdasarkan distance, pengukuran Wang & Hirst menghasilkan nilai distance kedua terkecil setelah pengukuran Leacock & Chodorow.

UCAPAN TERIMAKASIH

Penulis berterimakasih kepada semua pihak yang terlibat baik secara langsung maupun tidak dalam penelitian atas dukungan yang telah diberikan, khususnya: E. Gabrilovich, Felix Hill, Roi Reichart, Anna Korhonen selaku penyedia data penelitian serta Prodi S1 Teknik Informatika Telkom University.

REFERENSI

[1] R. Mihalcea, C. Corley and C. Strapparava, "Corpus- based and Knowledge-based Measures of Text Semantic Similarity," in In Proceedings of the 21st National Conference on Artificial Intelligence (AAAI’06), North Texas, 2006.

[2] M. F. Razandi, Implementasi dan Analisis Semantic Relatedness Dengan Menggunakan Hybrid Method (Path -based Method dan Gloss-based Method), Bandung: S1 Teknik Informatika. Universitas Telkom, 2016.

[3] Z. Zhang, A. L. Gentile and F. Ciravegna, "Recent advances in methods of lexical semantic relatedness - a survey," Cambridge

University, vol. 19, no. 04, pp. 411-479, 2013.

[4] T. Wang and G. Hirst, "Refining the Notions of Depth and Density in WordNet-based Semantic Similatiy Measures," in

Departement of Computer Science University of Toronto , 2011.

[5] P. University, "WordNet : A lexical database for English," Princeton University, 17 March 2015. [Online]. Available: https://wordnet.princeton.edu. [Accessed 5 November 2015].

[6] A. K. Durga and A. Govardhan, "Estimation of Word Net-Based Lexical Semantic Similarity Measure for Telugu Documents,"

IOSR Journal of Computer Engineering, vol. 1, no. 2, pp. 24-30, 2012.

[7] S. "Pearson's correlation," Creative Commons Licence , [Online]. Available: http://www.statstutor.ac.uk/. [Accessed 2015 November 7].

[8] pbarrett.net, "Euclidean Distance raw, normalized, and double-scaled coefficients," September 2005. [Online]. Available:

http://www.pbarrett.net/techpapers/euclid.pdf. [Accessed 15 July 2016].

(10)

Gambar

Gambar 1 .  Taksonomi Kata pada WordNet
Tabel 1 .   Tingkat Kekuatan Korelasi [7]
Gambar 3 .  Diagram Blok Rancangan Umum Sistem
Gambar  4 .  Representasi kata evening  dan dusk dalam taksonomi
+2

Referensi

Dokumen terkait

ITIL sendiri merupakan suatu framework yang konsisten dan komprehensif dari hasil penerapan yang teruji pada manajemen pelayanan teknologi informasi sehingga suatu

Akan tetapi, apa yang dilakukan oleh masyarakat Melayu Sambas dalam memberikan didikan kepada anak usia dini sesuai untuk membangun karakter seorang anak dikarenakan sesuai

Ketika etnopedagogi memandang pengetahuan atau kearifan lokal sebagai sumber inovasi dan keterampilan, dilanjutkan dengan pendidikan multikultural yang

bahwa berdasarkan pertimbangan sebagaimana dimaksud dalam huruf a, perlu menetapkan Peraturan Menteri Komunikasi dan Informatika tentang Penggunaan Pita Spektrum

Tujuan dari penelitian ini adalah untuk mengetahui apakah ada hubungan timbal balik (saling mempengaruhi satu sama lain), hubungan satu arah atau tidak ada hubungan sama sekali

Akta tersebut telah disetujui oleh Menteri Hukum dan Hak Asasi Manusia Republik Indonesia dalam Surat No. Based on Notarial

Pada gambar yang ditampilkan dari hasil data eksperimen terlihat dengan semakin tinggi posisi beban untuk menumbuk permukaan media baglog, menunjukkan kecenderungan

Berdasarkan hasil penelitian dengan taraf signifikansi 5%, diperoleh: (1) Hasil belajar matematika siswa kelas VIII A lebih baik jika dibandingkan dengan siswa