Menghitung jarak kemiripan benda dalam s

(1)

Menghitung jarak kemiripan dalam

Oleh : Derick Iskandar / 2214206710

A. Pengukuran kemiripan warna

Pengolahan citra pada masa sekarang mempunyai

bidang kehidupan antara lain bidang arkeologi, astronomi, penginderaan jauh yang menggunakan teknologi citra satelit.

suatu citra masukan yang kompleks menjadi citra yang lebih peninjauan terhadap komponen citra.

melakukan analisis.

Salah satu analisis yang bisa dilakukan adalah dengan mengukur kemiripan warna pada citra. Bagaimana citra tersebut bisa dika

digunakan untuk mengukur kemiripan suatu citra yakni dengan berbagai macam algoritma clustering. Pengolahan citra pada masa sekarang mempunyai

berbagai bidang kehidupan antara

penginderaan jauh yang menggunakan teknologi citra satelit.

suatu citra masukan yang kompleks menjadi citra yang lebih peninjauan terhadap komponen citra. Dengan demikian akan memudahkan melakukan analisis.

Beberapa cara untuk mengukur kemiripan : 1. Euclidian Distance

Pengolahan citra pada masa sekarang mempunyai

berbagai bidang kehidupan antara lain bidang arkeologi, industri dan penginderaan jauh yang

akan mengubah suatu citra

sederhana, berdasarkan peninjauan terhadap memudahkan pengamat citra untuk melakukan analisis. Berikut adalah formula Euclidian Distance :

2. Mahalanobis Distance

Pengukuran ini menggunakan matriks varian dari

Menghitung jarak kemiripan dalam suatu benda dalam teknologi Oleh : Derick Iskandar / 2214206710

Jurusan : Telematika CIO

Pengolahan citra pada masa sekarang mempunyai suatu aplikasi yang sangat luas dalam berbagai ara lain bidang arkeologi, astronomi, biomedis, bidang industri dan menggunakan teknologi citra satelit. Segmentasi ini akan mengubah masukan yang kompleks menjadi citra yang lebih sederhana, berdasarkan komponen citra. Dengan demikian akan memudahkan pengamat citra untuk

satu analisis yang bisa dilakukan adalah dengan mengukur kemiripan warna pada citra. citra tersebut bisa dikatakan mirip melalui pendekatan warna. Ada beberapa cara yang digunakan untuk mengukur kemiripan suatu citra yakni dengan berbagai macam algoritma Pengolahan citra pada masa sekarang mempunyai suatu aplikasi yang sangat luas dalam kehidupan antara lain bidang arkeologi, astronomi, biomedis, bidang industri dan menggunakan teknologi citra satelit. Segmentasi ini akan mengubah masukan yang kompleks menjadi citra yang lebih sederhana, berdasarkan komponen citra. Dengan demikian akan memudahkan pengamat citra untuk

cara untuk mengukur kemiripan :

Pengolahan citra pada masa sekarang mempunyai suatu aplikasi yang sangat luas dalam kehidupan antara lain bidang arkeologi, astronomi, biomedis, bidang industri dan penginderaan jauh yang menggunakan teknologi citra satelit. Segmentasi ini akan mengubah suatu citra masukan yang kompleks menjadi citra yang lebih sederhana, berdasarkan peninjauan terhadap komponen citra. Dengan demikian akan

pengamat citra untuk melakukan analisis. adalah formula Euclidian Distance :

ini menggunakan matriks varian dari data matriks yang ada. Berikut

suatu aplikasi yang sangat luas dalam berbagai biomedis, bidang industri dan Segmentasi ini akan mengubah

sederhana, berdasarkan pengamat citra untuk

satu analisis yang bisa dilakukan adalah dengan mengukur kemiripan warna pada citra. beberapa cara yang digunakan untuk mengukur kemiripan suatu citra yakni dengan berbagai macam algoritma suatu aplikasi yang sangat luas dalam biomedis, bidang industri dan Segmentasi ini akan mengubah

sederhana, berdasarkan pengamat citra untuk

suatu aplikasi yang sangat luas dalam biomedis, bidang Segmentasi ini masukan yang kompleks menjadi citra yang lebih ponen citra. Dengan demikian akan

(2)

Dimana S adalah matiks Covarian. mahalanobis akan menjadi jarak 3. Minkowski metric

Pengukuran ini merupakan bentuk umum dari rumus formulanya :

Jika nila p=2, maka pengukuran ini akan mejadi sama dengan Dari ketiga cara diatas, cara pengukuran yang paling s

penerapannya, ada 2 pendekatan yang sering digunakan dalam mengukur kemiripan 1. Pengukuran similaritas

Mengukur tingkat kesamaan antara 2 warna maka kedua warna tersebut semakin berbeda.

(mendekati 1) maka warna tersebut akan semakin sama. digunakan dalam pengukuran ini adal

Di mana C1(k,m,n)dan C histogram citra C1dan histogram jumlah pembagian chrominance perhitungan Histogram intersection

Dua citra C1dan C2dikatakan mirip, apabila D(C mirip, bila D(C1,C2) mendekati 0.

2. Pengukuran disimilaritas

Berbeda dengan sebelumnya, untuk jenis pengukuran seperti ini adalah kebalikan dari cara pertama. Jika semakin besar nilai disimilaritasnya, maka semakin besar perbedaannya, namun jika semakin kecil nilai disimilaritasnya, maka perbedaan tersebut sema

bila q = 1 rumus tersebut biasa disebut L Euclidian distance L2.

Hasil perhitungan City Block C2 dikatakan mirip apabila L(C mendekati 1.

S adalah matiks Covarian. Jika Matriks S adalah matriks identitas, maka jarak mahalanobis akan menjadi jarak Euclidian.

erupakan bentuk umum dari rumus Euclidian distance. B

nila p=2, maka pengukuran ini akan mejadi sama dengan Euclidian distance. ketiga cara diatas, cara pengukuran yang paling sering digunakan adalah jarak Euclidian penerapannya, ada 2 pendekatan yang sering digunakan dalam mengukur kemiripan suatu warna

tingkat kesamaan antara 2 warna. Semakin kecil nilai similaritas (mendekati 0) maka kedua warna tersebut semakin berbeda. Sebaliknya semakin besar nilai similaritasnya (mendekati 1) maka warna tersebut akan semakin sama. Salah satu contoh metode yang digunakan dalam pengukuran ini adalah histogram intersection.

(k,m,n)dan C2(k,m,n)merupakan dua bin warna pada posisi yang sama dari dan histogram citra C2, K adalah jumlah pembagian luminance, M adalah jumlah pembagian chrominance dan N adalah jumlah pembagian Hue(warna). Hasil

intersection berkisar 0 ≤D(C1,C2) ≤1.

dikatakan mirip, apabila D(C1,C2) mendekati 1, sebaliknya dikatakan tidak mendekati 0.

dengan sebelumnya, untuk jenis pengukuran seperti ini adalah kebalikan dari cara semakin besar nilai disimilaritasnya, maka semakin besar perbedaannya, namun jika semakin kecil nilai disimilaritasnya, maka perbedaan tersebut sema

bila q = 1 rumus tersebut biasa disebut L1 atau city block distance, sedang bila q = 2 disebut lock dan Euclidian Distance berkisar 0 ≤L(C1,C2) ≤1. Dua citra C mirip apabila L(C1,C2) mendekati 0, sebaliknya dikatakan tidak mirip bila L(C

Matriks S adalah matriks identitas, maka jarak

Berikut adalah

distance.

Euclidian. Pada suatu warna.

nilai similaritas (mendekati 0) semakin besar nilai similaritasnya h metode yang

pada posisi yang sama dari agian luminance, M adalah pembagian Hue(warna). Hasil mendekati 1, sebaliknya dikatakan tidak

dengan sebelumnya, untuk jenis pengukuran seperti ini adalah kebalikan dari cara semakin besar nilai disimilaritasnya, maka semakin besar perbedaannya, namun jika semakin kecil nilai disimilaritasnya, maka perbedaan tersebut semakin kecil.

(3)

B. Pengukuran kemiripan pada google Ketika menggunakan web browser

bar saat mengetikan beberapa huruf/kata, web browser terse yang diketik, atau sama halnya ketika menggunakan mesin pen informasi, ketika baru mengetikan beberapa huruf/kata pada kolom pen tersebut memberikan saran pencar

saran tersebut, web browser atau mesin pen pencarian sesuai dengan saran yang dipilih

Sebagai contoh ketika kita mengetikkan kata “jon lenon

mendefinisikannya sebagai “john lenon”. Salah satu fitur yang dimiliki oleh google adalah autocomplete suggestion. Fitur ini memudahkan pengguna search engine yang ingin men sesuatu namun tidak mengerti secar

hal tersebut?

Google merupakan salah satu mesin pen

masuk setiap harinya. Untuk melakukan pen

membutuhkan sebuah metode tersendiri untuk membangun sistem pen yang digunakan google dalam proses pen

merupakan knowledge base yang digunakan google untuk meningkatkan hasil pen menggunakan semantic search dari berbagai sumber informasi yang dihimpunya. Cara kerja search engine

Mesin pencari tersebut berkerja dengan

www. Halaman web tersebut di ambil dengan menggunakan

akan mengambil setiap tautan yang ada di dalamnya dan kemudian menentukan indeksnya melalui judul, subjudul atau metatag yang ada di web tersebut untuk kemudian disim

indeks. Google kemudian memanfaatkan halaman web yang dicari.

Semantic search

Semantic search merupakan teknik

tetapi juga untuk menentukan makna konstektual dari kata kunci Semantic search bekerja mirip dengan bahasa

konsep frase yang dicari. Konsep semantic dan metodologi, termasuk keyword to c Word prediction

Google menyebut hal ini dengan autocomplete. Tujuan awal teknik pen meningkatkan kecepatan mengetik bagi orang

membantu untuk mengurangi penekanan tombol google

Ketika menggunakan web browser untuk berjelajah di dunia maya maka pada kolom

saat mengetikan beberapa huruf/kata, web browser tersebut memberikan saran dari apa yang diketik, atau sama halnya ketika menggunakan mesin pencari untuk men

informasi, ketika baru mengetikan beberapa huruf/kata pada kolom pencarian, mesin pen carian yang terkait dari apa yang diketikan. Ketika memilih atau mesin pencari akan langsung melengkapi kata kunci ian sesuai dengan saran yang dipilih.

Sebagai contoh ketika kita mengetikkan kata “jon lenon” maka secara otomatis google akan mendefinisikannya sebagai “john lenon”. Salah satu fitur yang dimiliki oleh google adalah

. Fitur ini memudahkan pengguna search engine yang ingin men cara tepat apa yg dia cari. Lantas bagaimana bisa google melakukan

Google merupakan salah satu mesin pencari terbesar di dunia dengan menyimpan jutaan data yang masuk setiap harinya. Untuk melakukan pencarian yang efisien dan tepat google akan n sebuah metode tersendiri untuk membangun sistem pencarinya. Salah satu metode yang digunakan google dalam proses pencarian tersebut adalah knowledge graph. Knowledge graph merupakan knowledge base yang digunakan google untuk meningkatkan hasil pencar

search dari berbagai sumber informasi yang dihimpunya.

i tersebut berkerja dengan cara mengambil seluruh konten web yang ada melalui www. Halaman web tersebut di ambil dengan menggunakan web crawler. Web crawler

akan mengambil setiap tautan yang ada di dalamnya dan kemudian menentukan indeksnya melalui judul, subjudul atau metatag yang ada di web tersebut untuk kemudian disimpan kedalam database Google kemudian memanfaatkan database tersebut untuk menampilkan informasi mengenai

search merupakan teknik searching Query yang bertujuan hanya untuk mencar

tetapi juga untuk menentukan makna konstektual dari kata kunci yang digunakan (Graham,2005). bekerja mirip dengan bahasa semantic yang didasarkan pada makna, substansi,

semantic search berasal dari berbagai macam algoritma pen keyword to concept mapping, graph pattern dan logika fuzzy.

Google menyebut hal ini dengan autocomplete. Tujuan awal teknik pencarian ini adalah untuk meningkatkan kecepatan mengetik bagi orangorang yang memiliki kekurangan fisik, serta untuk

untuk mengurangi penekanan tombol keyboard saat melakukan pencarian.

ntuk berjelajah di dunia maya maka pada kolom address but memberikan saran dari apa i untuk mencari suatu

ian, mesin pencari ian yang terkait dari apa yang diketikan. Ketika memilih i akan langsung melengkapi kata kunci

a otomatis google akan mendefinisikannya sebagai “john lenon”. Salah satu fitur yang dimiliki oleh google adalah . Fitur ini memudahkan pengguna search engine yang ingin mencari i. Lantas bagaimana bisa google melakukan

i terbesar di dunia dengan menyimpan jutaan data yang ian yang efisien dan tepat google akan inya. Salah satu metode ian tersebut adalah knowledge graph. Knowledge graph cariannya dengan

a mengambil seluruh konten web yang ada melalui Web crawler tersebut akan mengambil setiap tautan yang ada di dalamnya dan kemudian menentukan indeksnya melalui an kedalam database database tersebut untuk menampilkan informasi mengenai

cari kata kunci, yang digunakan (Graham,2005). yang didasarkan pada makna, substansi, search berasal dari berbagai macam algoritma pencarian

dan logika fuzzy.

ian ini adalah untuk orang yang memiliki kekurangan fisik, serta untuk

(4)

Google melakukan teknik ini didasarkan pada beberapa

serta beberapa kata yang sengaja dihindari seperti kata yang mengandung unsur pornografi, kekerasan dan pelanggaran hak cipta. Berikut adalah beberapa

yang dicari tidak muncul diantaranya : Kata kunci tidak popular

Kata kunci yang dicari merupakan kata yang baru sehingga membutuhkan beberapa waktu untuk google mengindeksnya

Kata kunci biasanya disalah artikan sebagai sesuatu hal yang lain, atau ada salah dalam pemaknaan

Penghitungan jarak kemiripan google (

merupakan ukuran kemiripan semantik yang dihasilkan dari jumlah hits yang dilakuka

pencari Google untuk sekumpulan kata kunci. Kata kunci dengan arti yang sama atau serupa dalam natural language, kemiripan semantik

yang memiliki arti yang berbeda .

berikut formula yang digunakan google untuk men

Dimana M adalah jumlah halaman web yang di dihasilkan untuk masingmasing istilah pen mengandung istilah x dan y.

Fitur Google Autocomplete Suggestion 1. Pencarian saran/suggestion

Saran ini adalah model pen

sering dilakukan oleh orang lain. Misaln

search engine google akan langsung memberikan masukan berupa kata yang sering di orang.

Gambar 1. Hasil

Google melakukan teknik ini didasarkan pada beberapa faktor diantaranya popularitas kata kunci, serta beberapa kata yang sengaja dihindari seperti kata yang mengandung unsur pornografi, kekerasan dan pelanggaran hak cipta. Berikut adalah beberapa faktor yang menyebabkan kata kunci

i tidak muncul diantaranya :

merupakan kata yang baru sehingga membutuhkan beberapa waktu mengindeksnya

Kata kunci biasanya disalah artikan sebagai sesuatu hal yang lain, atau ada salah dalam

Penghitungan jarak kemiripan google (Google Distance)

merupakan ukuran kemiripan semantik yang dihasilkan dari jumlah hits yang dilakuka

i Google untuk sekumpulan kata kunci. Kata kunci dengan arti yang sama atau serupa dalam natural language, kemiripan semantiknya cenderung lebih tinggi dari pada kata yang memiliki arti yang berbeda .

a yang digunakan google untuk mencari kemiripan dalam kategori x dan y.

Dimana M adalah jumlah halaman web yang dicari google, f(x) dan f(y) adalah jumlah hits yang masing istilah pencarian x dan y, f(x,y) adalah jumlah halaman we

Suggestion :

suggestion berdasarkan pencarian nyata

pencarian yang diberikan google berdasarkan dari pen

sering dilakukan oleh orang lain. Misalnya ketika kita mengetik kata “radio”, maka dalam google akan langsung memberikan masukan berupa kata yang sering di

Gambar 1. Hasil pencarian google.co.id berdasarkan pencarian nyata

diantaranya popularitas kata kunci, serta beberapa kata yang sengaja dihindari seperti kata yang mengandung unsur pornografi, yang menyebabkan kata kunci

merupakan kata yang baru sehingga membutuhkan beberapa waktu Kata kunci biasanya disalah artikan sebagai sesuatu hal yang lain, atau ada salah dalam

merupakan ukuran kemiripan semantik yang dihasilkan dari jumlah hits yang dilakukan mesin i Google untuk sekumpulan kata kunci. Kata kunci dengan arti yang sama atau serupa

nya cenderung lebih tinggi dari pada katakata

i kemiripan dalam kategori x dan y.

i google, f(x) dan f(y) adalah jumlah hits yang ian x dan y, f(x,y) adalah jumlah halaman web yang

yang diberikan google berdasarkan dari pencarian yang ya ketika kita mengetik kata “radio”, maka dalam google akan langsung memberikan masukan berupa kata yang sering dicari

(5)

Seperti contoh diatas, maka ketika saya melak

google akan memunculkan sebuah saran kata yang sering di 2. Pencarian saran/suggestion

Masih dengan kata yang sama yakni radio,

yang berdasarkan lokasi dan bahasa yang berbeda. Hasil sebelumnya saya menggunakan domain google.co.id, bagaimana dengan domain google.co.jp atau google.co.uk, apakah menghasilkan hasil yang sama?

Gambar 2. Hasil pen

Dari kata yang sama, ternyata bisa memberikan

wilayahnya. dengan demikian page rank yang dilakukan google untuk melakukan indexing kata, tidak hanya dilakukan berdasarkan

wilayah. Bagaimana jika menggunakan bahasa yang berbeda? Apakah memberikan hasil pencarian yang sama?

Gambar 3. Hasil pencar

Berikutnya kita akan mencoba melakukan pen yakni dengan domain google.co.uk.

Gambar 4. Hasil pen

Seperti contoh diatas, maka ketika saya melakukan pengetikan dengan kata radio, maka google akan memunculkan sebuah saran kata yang sering dicari orang yakni radio online

suggestion berdasarkan lokasi dan bahasa

Masih dengan kata yang sama yakni radio, pencarian disini yang dimaksud adalah pen yang berdasarkan lokasi dan bahasa yang berbeda. Hasil sebelumnya saya menggunakan domain google.co.id, bagaimana dengan domain google.co.jp atau google.co.uk, apakah menghasilkan hasil yang sama?

Gambar 2. Hasil pencarian kata yang sama dengan domain google.co.jp

Dari kata yang sama, ternyata bisa memberikan suggestion yang berbeda untuk tiap wilayahnya. dengan demikian page rank yang dilakukan google untuk melakukan indexing kata, tidak hanya dilakukan berdasarkan semantic kata saja, namun juga berdasarkan wilayah. Bagaimana jika menggunakan bahasa yang berbeda? Apakah memberikan hasil

carian dengan bahasa indonesia dengan domain google.co.id

Berikutnya kita akan mencoba melakukan pencarian berdasarkan domain yang berbeda yakni dengan domain google.co.uk.

Gambar 4. Hasil pencarian dengan bahasa inggris dengan domain google.co.uk ukan pengetikan dengan kata radio, maka

radio online.

adalah pencarian yang berdasarkan lokasi dan bahasa yang berbeda. Hasil sebelumnya saya menggunakan domain google.co.id, bagaimana dengan domain google.co.jp atau google.co.uk, apakah

a dengan domain google.co.jp

yang berbeda untuk tiap wilayahnya. dengan demikian page rank yang dilakukan google untuk melakukan indexing namun juga berdasarkan wilayah. Bagaimana jika menggunakan bahasa yang berbeda? Apakah memberikan hasil

dengan domain google.co.id rdasarkan domain yang berbeda

(6)

Ternyata dari kata yang bermakna hasil pencarian yang berbeda

percobaan di atas dapat diketahui bahwa pen

dan domain wilayah sehingga hasil yang dikeluarkan google terkadang berbeda. 3. Spelling correction/ pembenaran ej

Fitur ini yang menurut saya unik, karena google se

dengan kata/nama yang sesungguhnya. Misalkan saya ingin men

bernama john lenon, namun karena saya tidak tahu nama sesungguhnya sayapun menuliskan dengan kata “jon lenon”, maka se

suggestion kepada anda bahwa nama yang dimaksud adalah john lenon.

Gambar 5. Autospelling

Begitupula saat kita salah menulisk aka membenarkan ejaan tersebut.

Gambar 6. Autospelling pada google terkait salah tulis nama negara

Semantic search pada google

Google dalam prosesnya menggunakan 2 faktor dasar untuk menilai seberap

relevansinya setiap halaman web sebelum memberikan peringkat kepada halaman web tersebut. faktor tersebut adalah :

1. Peringkat halaman (mengukur popularitas dengan menggunakan backlink)

bermakna sama dengan bahasa yang berbeda dapat menghasilkan ian yang berbedabeda tergantung domain pencarian yang digunakan. Dari dua percobaan di atas dapat diketahui bahwa pencarian google di dasarkan pula pada bahasa dan domain wilayah sehingga hasil yang dikeluarkan google terkadang berbeda.

/ pembenaran ejaan

Fitur ini yang menurut saya unik, karena google secara langsung memberikan saran sesuai dengan kata/nama yang sesungguhnya. Misalkan saya ingin mencari seorang penyanyi yang bernama john lenon, namun karena saya tidak tahu nama sesungguhnya sayapun uliskan dengan kata “jon lenon”, maka secara otomatis google akan memberikan

kepada anda bahwa nama yang dimaksud adalah john lenon.

Autospelling pada google terkait penggunaan nama orang terkenal

Begitupula saat kita salah menuliskan nama Negara kita Indonesia, secara otomatis aka membenarkan ejaan tersebut.

Google dalam prosesnya menggunakan 2 faktor dasar untuk menilai seberap

relevansinya setiap halaman web sebelum memberikan peringkat kepada halaman web tersebut.

Peringkat halaman (mengukur popularitas dengan menggunakan backlink)

dapat menghasilkan ian yang digunakan. Dari dua ian google di dasarkan pula pada bahasa dan domain wilayah sehingga hasil yang dikeluarkan google terkadang berbeda.

a langsung memberikan saran sesuai i seorang penyanyi yang bernama john lenon, namun karena saya tidak tahu nama sesungguhnya sayapun a otomatis google akan memberikan

terkait penggunaan nama orang terkenal a otomatis google

(7)

2. Relevansi (menganalisis dengan menggunakan kata kunci yang web tersebut)

Bentuk perankingan diatas tidak membantu dalam menemukan halaman web yang relevan dengan maksud yang diinginkan oleh pencar

menemukan konten web yang relevan.

Query processing dalam semantic environtment

Search Query yang diterima oleh Google diurai (menggunakan parser) untuk mengidentifikasi satu atau lebih kata kunci. Dalam proses ini, sinonim atau istilah pengganti lainnya akan diidentifikasi. Sinonim ini dikenal sebagai calon sinonim dan calon sinonim tersebut akan dipecah dan diproses sebagai sinonim yang berkualitas (

engine digunakan untuk mengidentifikasi hubungan antara anggota b

masing. Yang dimaksud dengan domain disini adalah pemusatan kategori dari kalimat yang serupa. Kata kunci dari Search Query

semantik yang memiliki koleksi pra

untuk menghubungkan istilah untuk pencocokan identitas yang terdekat (Salah satu point penting yang perlu dicatat di sini adalah bahwa Google hanya akan menemukan kata

berhubungan dalam search Query

Knowledge graph, oleh karena itu, beberapa mungkin tidak muncul).

Sebuah pencarian yang terpisah akan dilaku

Matching Relationship dan hasil akhir akan ditampilkan setelah semantik diidentifikasi (mesin Query dapat mempluralkan atau mengulang katakata pada jika diperlukan). Oleh karena itu, dapat disimpulkan bahwa, sebuah Search yang diinput oleh pengguna dipecah

proses yaitu dengan fitur Google Distance

yang dicari, Setelah itu, halaman web yang relevan diidentifikasi dan ditampilkan sebagai hasil akhir.

C. WordNet

Sumber informasi semakin bertambah se

dikarenakan teknologi Internet. Besarnya jumlah sumber informasi juga melahirkan keragaman dari sumber informasi tersebut. Keragaman timbul karena perbedaan domain keilmuan, negara, bahasa, dan sebagainya. Sehingga masalah untu

informasi menghadapi tantangan baru khususnya dari keragaman konsep. Memasuki era globalisasi dan teknologi informasi, bahasa Indonesia tidak saja dilihat sebagai aset kebudayaan melainkan merupakan sarana perh

strategi hubungan global, misalnya semakin dipelajarinya bahasa Indonesia di Jepang, Australia, Amerika, dan lain lain. Dengan demikian bahasa Indonesia telah dipelajari dan diajarkan, khususnya untuk kepentingan politik, ekonomi dan pengembangan hubungan global Banyak pihak yang berpikir secara terkotak bahasa adalah bagian dari ilmu sosial dan komputer adalah bagian dari ilmu eksak, ternyata paradigma seperti i

Relevansi (menganalisis dengan menggunakan kata kunci yang digunakan dalam halaman

Bentuk perankingan diatas tidak membantu dalam menemukan halaman web yang relevan dengan cari. Inilah mengapa google menggunakan semantic

menemukan konten web yang relevan.

environtment

yang diterima oleh Google diurai (menggunakan parser) untuk mengidentifikasi satu atau lebih kata kunci. Dalam proses ini, sinonim atau istilah pengganti lainnya akan . Sinonim ini dikenal sebagai calon sinonim dan calon sinonim tersebut akan dipecah dan diproses sebagai sinonim yang berkualitas (Qualified Synonim). Kemudian

digunakan untuk mengidentifikasi hubungan antara anggota berdasarkan domain

masing. Yang dimaksud dengan domain disini adalah pemusatan kategori dari kalimat yang Query akan diidentifikasi oleh domain yang merupakan kategori si praentitas yang telah ditetapkan. Hal ini membantu Google untuk menghubungkan istilah untuk pencocokan identitas yang terdekat (Salah satu point penting yang perlu dicatat di sini adalah bahwa Google hanya akan menemukan kata

Query dengan yang sudah ada dalam databasenya yang merupakan , oleh karena itu, beberapa Search Query meskipun sudah sesuai semantik

ian yang terpisah akan dilakukan oleh mesin Query menggunakan Domain Matching Relationship dan hasil akhir akan ditampilkan setelah semantik Search

dapat mempluralkan atau mengulang katakata pada

eh karena itu, dapat disimpulkan bahwa, sebuah Search Query yang kompleks yang diinput oleh pengguna dipecahpecah, kemudian disederhanakan dengan melibatkan suatu Google Distance untuk mengukur kemiripan semantik dari kata kunci i, Setelah itu, halaman web yang relevan diidentifikasi dan ditampilkan sebagai hasil

Sumber informasi semakin bertambah secara dramatis pada dekade terakhir ini logi Internet. Besarnya jumlah sumber informasi juga melahirkan keragaman dari sumber informasi tersebut. Keragaman timbul karena perbedaan domain keilmuan, negara, bahasa, dan sebagainya. Sehingga masalah untuk interoperabilitas informasi menghadapi tantangan baru khususnya dari keragaman konsep. Memasuki era globalisasi dan teknologi informasi, bahasa Indonesia tidak saja dilihat sebagai aset kebudayaan melainkan merupakan sarana perhubungan dan aset di bidang ekonomi, politik, dan strategi hubungan global, misalnya semakin dipelajarinya bahasa Indonesia di Jepang, Australia, Amerika, dan lain lain. Dengan demikian bahasa Indonesia telah dipelajari dan diajarkan, khususnya untuk kepentingan politik, ekonomi dan pengembangan hubungan global Banyak pihak

a terkotak bahasa adalah bagian dari ilmu sosial dan komputer adalah bagian dari ilmu eksak, ternyata paradigma seperti ini tidaklah tepat lagi. Karena untuk

digunakan dalam halaman

Bentuk perankingan diatas tidak membantu dalam menemukan halaman web yang relevan dengan semantic search dalam

yang diterima oleh Google diurai (menggunakan parser) untuk mengidentifikasi satu atau lebih kata kunci. Dalam proses ini, sinonim atau istilah pengganti lainnya akan . Sinonim ini dikenal sebagai calon sinonim dan calon sinonim tersebut akan dipecah

). Kemudian, relationship domain masing masing. Yang dimaksud dengan domain disini adalah pemusatan kategori dari kalimat yang

akan diidentifikasi oleh domain yang merupakan kategori entitas yang telah ditetapkan. Hal ini membantu Google untuk menghubungkan istilah untuk pencocokan identitas yang terdekat (Salah satu point penting yang perlu dicatat di sini adalah bahwa Google hanya akan menemukan katakata yang nya yang merupakan meskipun sudah sesuai semantik

menggunakan Domain Search Query dapat mempluralkan atau mengulang katakata pada Search Query yang kompleks pecah, kemudian disederhanakan dengan melibatkan suatu k dari kata kunci i, Setelah itu, halaman web yang relevan diidentifikasi dan ditampilkan sebagai hasil

a dramatis pada dekade terakhir ini logi Internet. Besarnya jumlah sumber informasi juga melahirkan keragaman dari sumber informasi tersebut. Keragaman timbul karena perbedaan domain k interoperabilitas informasi menghadapi tantangan baru khususnya dari keragaman konsep. Memasuki era globalisasi dan teknologi informasi, bahasa Indonesia tidak saja dilihat sebagai aset

ubungan dan aset di bidang ekonomi, politik, dan strategi hubungan global, misalnya semakin dipelajarinya bahasa Indonesia di Jepang, Australia, Amerika, dan lain lain. Dengan demikian bahasa Indonesia telah dipelajari dan diajarkan, khususnya untuk kepentingan politik, ekonomi dan pengembangan hubungan global Banyak pihak

(8)

interoperabilitas pada era Internet dengan keragaman semantik, peran bahasa sangatlah penting untuk meningkatka kualitas dalam pen

Pada pertukaran informasi perbedaan konsep defin

bahasa, negara saja. Tetapi juga terkait dengan domain informasi, contohnya kalau kita bicara kata 'penyimpanan' maka dari domain komputer akan berpikir adalah m atau harddisk, tapi kalau dari domain manufaktur bisa diartikan sebagai gudang. Hal ini jelas sangat besar perbedaan maknanya, sehingga pen

berdasarkan arti dasar akan membawa hasil dari pert

tepat. Untuk itulah mengapa hubungan antar kata dan artinya menjadi sangat penting pada jaman ini. Dalam istilah bahasa pembahasan ini disebut dengan

linguistic yang mempelajari secara khusus mengenai arti, perubahan arti dan prinsip hubungan kata.

Pengertian

Semantik merupakan ilmu yang mempelajari simbol bahasa.

Semantik (dari bahasa Yunani semantikos, atau “arti yang signi

sema, tanda) adalah pembelajaran mengenai arti dari suatu term. Semantik kadang merupakan kebalikan dari sintak, yang mana semantik berhubungan dengan “arti” sementara sintak berhubungan

ditulis atau diucapkan). Semantik adalah satu bidang dari linguistik yang se didefinisikan sebagai ilmu yang mempelajari arti dari (bagian dari) kata, fra WordNet/sistem leksikal database

antar synset (satuan dalam WordNet

suatu kata tertentu, contohnya adalah sinonim

Hipernim/Hiponim: relasi semantik antar dua kata di mana yang satu merupakan bagian yang lebih general (hipernim), sementara yg lain merupakan bagian yang lebih spesifik. Contoh, kata ‘buah’ dan ‘apel’, kata ‘buah’ merupakan hipernim dari ‘apel’ karena makna buah lebih luas dari apel, sementara apel merupakan hiponim dari buah, karena apel merupakan salah satu jenis buah.

Holonim/Meronim: relasi semantik antar dua kata di mana yang satu merupakan bagian dari/anggota dari yang lain (meronim), sementara yang lain merupakan bagian keseluruhan (holonim). Contoh, kata ‘ban’,’setir’, dan ‘mobil’. Ban dan setir merupakan bagian dari mobil, maka ban dan setir dapat dikatakan sebagai meronim dari mobil. Mobil merup

yang memiliki ban dan setir, maka mobil dapat dikatakan sebagai holonim dari ban dan setir.

Synset: singkatan dari sinonim set, yaitu satuan utama yang digunakan oleh WordNet. Konsep utama pada WordNet adalah synset, di mana synset

memiliki makna sama (dan tentunya dapat saling menggantikan dalam konteks tertentu). Harap diingat bahwa satu synset mewakili satu makna (dalam bhs Inggris = sense) yang berbeda. Misalkan, synset XXX beranggotakan apel dengan gloss nama buah yang berwarna merah. Synset YYY juga beranggotakan apel, upacara, dengan gloss upa

interoperabilitas pada era Internet dengan keragaman semantik, peran bahasa sangatlah penting untuk meningkatka kualitas dalam pencarian informasi.

Pada pertukaran informasi perbedaan konsep definisi dari sebuah kata tidak hanya terkait dengan . Tetapi juga terkait dengan domain informasi, contohnya kalau kita a kata 'penyimpanan' maka dari domain komputer akan berpikir adalah m atau harddisk, tapi kalau dari domain manufaktur bisa diartikan sebagai gudang. Hal ini jelas sangat besar perbedaan maknanya, sehingga pencarian informasi di Internet yang hanya berdasarkan arti dasar akan membawa hasil dari pertukaran atau pencarian informasi yang tidak Untuk itulah mengapa hubungan antar kata dan artinya menjadi sangat penting pada jaman ini. Dalam istilah bahasa pembahasan ini disebut dengan semantic yakni merupakan cabang a khusus mengenai arti, perubahan arti dan prinsip hubungan kata.

Semantik merupakan ilmu yang mempelajari simbolsimbol dan artinya, terutama symbol dalam

Semantik (dari bahasa Yunani semantikos, atau “arti yang signifikan”, diturunkan dari sema, tanda) adalah pembelajaran mengenai arti dari suatu term. Semantik kadang merupakan kebalikan dari sintak, yang mana semantik berhubungan dengan “arti” sementara sintak berhubungan dengan struktur/pola yang “diekspresikan” (sebagai contoh ditulis atau diucapkan). Semantik adalah satu bidang dari linguistik yang secar

didefinisikan sebagai ilmu yang mempelajari arti dari (bagian dari) kata, frasa, kalimat dan teks. adalah sebuah kumpulan data yang menyimpan relasi semantik satuan dalam WordNet). Relasi yang dimaksud adalah relasi makna yang dimiliki oleh suatu kata tertentu, contohnya adalah sinonim, antonim, hiponim, hipernim, holonim, meronium dll. Hipernim/Hiponim: relasi semantik antar dua kata di mana yang satu merupakan bagian yang lebih general (hipernim), sementara yg lain merupakan bagian yang lebih spesifik. Contoh, kata ‘buah’ dan kata ‘buah’ merupakan hipernim dari ‘apel’ karena makna buah lebih luas dari apel, sementara apel merupakan hiponim dari buah, karena apel merupakan salah satu jenis buah.

Holonim/Meronim: relasi semantik antar dua kata di mana yang satu merupakan bagian ari/anggota dari yang lain (meronim), sementara yang lain merupakan bagian keseluruhan (holonim). Contoh, kata ‘ban’,’setir’, dan ‘mobil’. Ban dan setir merupakan bagian dari mobil, maka ban dan setir dapat dikatakan sebagai meronim dari mobil. Mobil merupakan bagian keseluruhan yang memiliki ban dan setir, maka mobil dapat dikatakan sebagai holonim dari ban dan setir.

Synset: singkatan dari sinonim set, yaitu satuan utama yang digunakan oleh WordNet. Konsep utama pada WordNet adalah synset, di mana synset merupakan kumpulan dari 1 atau lebih kata yang memiliki makna sama (dan tentunya dapat saling menggantikan dalam konteks tertentu). Harap diingat bahwa satu synset mewakili satu makna (dalam bhs Inggris = sense) yang berbeda. Misalkan, akan apel dengan gloss nama buah yang berwarna merah. Synset YYY juga a, dengan gloss upacara kemiliteran. Dari dua contoh synset di atas, kita interoperabilitas pada era Internet dengan keragaman semantik, peran bahasa sangatlah

isi dari sebuah kata tidak hanya terkait dengan . Tetapi juga terkait dengan domain informasi, contohnya kalau kita a kata 'penyimpanan' maka dari domain komputer akan berpikir adalah memori atau harddisk, tapi kalau dari domain manufaktur bisa diartikan sebagai gudang. Hal ini

ian informasi di Internet yang hanya ian informasi yang tidak Untuk itulah mengapa hubungan antar kata dan artinya menjadi sangat penting pada jaman yakni merupakan cabang a khusus mengenai arti, perubahan arti dan prinsip hubungan kata.

simbol dan artinya, terutama symbol dalam

fikan”, diturunkan dari sema, tanda) adalah pembelajaran mengenai arti dari suatu term. Semantik kadang merupakan kebalikan dari sintak, yang mana semantik berhubungan dengan “arti” dengan struktur/pola yang “diekspresikan” (sebagai contoh

cara tradisional sa, kalimat dan teks. sebuah kumpulan data yang menyimpan relasi semantik . Relasi yang dimaksud adalah relasi makna yang dimiliki oleh , antonim, hiponim, hipernim, holonim, meronium dll. Hipernim/Hiponim: relasi semantik antar dua kata di mana yang satu merupakan bagian yang lebih general (hipernim), sementara yg lain merupakan bagian yang lebih spesifik. Contoh, kata ‘buah’ dan kata ‘buah’ merupakan hipernim dari ‘apel’ karena makna buah lebih luas dari apel, sementara apel merupakan hiponim dari buah, karena apel merupakan salah satu jenis buah. Holonim/Meronim: relasi semantik antar dua kata di mana yang satu merupakan bagian

ari/anggota dari yang lain (meronim), sementara yang lain merupakan bagian keseluruhan (holonim). Contoh, kata ‘ban’,’setir’, dan ‘mobil’. Ban dan setir merupakan bagian dari mobil, maka akan bagian keseluruhan yang memiliki ban dan setir, maka mobil dapat dikatakan sebagai holonim dari ban dan setir.

(9)

dapat mengetahui bahwa kata ‘apel’ memiliki dua makna yang berbeda, di mana salah satu adalah buah, dan lainnya adalah upa

Relasi semantik dalam WordNet

Seperti yang sudah dijelaskan di atas, WordNet menyimpan informasi tentang berbagai relasi semantik yang terjadi antar synset (bukan antar kata). Relasi

satu persatu di atas, yaitu :  Antonim

 Hipernim/Hiponim  Holonim/Meronim

 dan relasi pelengkap lainnya

Semua synset dalam WordNet dilengkapi dengan gloss (definisi dan/atau contoh kalimat penggunaannya), sehingga memudahkan pengguna memahami suatu

Ada beberapa cara mengukur hubungan/keterkaitan dan persamaan dari suatu kata adalah dengan cara path based measure

ini didasarkan pada panjang alur yang paling pendek a

suatu hirarki. Nilai ini diskala oleh kedalaman hirarki D, di mana kedalaman digambarkan sebagai panjang alur yang terpanjang dari suatu node daun/leaf ke node akar hirarki. Sehingga, ukuran persamaan mereka digambarkan sebagai berikut:

dimana : c1 = konsep1 c2 = konsep2

length(c1,c2) = panjang lintasan yang paling pendek (yaitu., jumlah minimum edge antara dua konsep)

D = Maksimum depth dari taksonomi (Jumlah terbesar

dapat mengetahui bahwa kata ‘apel’ memiliki dua makna yang berbeda, di mana salah satu adalah buah, dan lainnya adalah upacara.

Seperti yang sudah dijelaskan di atas, WordNet menyimpan informasi tentang berbagai relasi semantik yang terjadi antar synset (bukan antar kata). Relasirelasi tersebut juga sudah

Semua synset dalam WordNet dilengkapi dengan gloss (definisi dan/atau contoh kalimat penggunaannya), sehingga memudahkan pengguna memahami suatu synset.

a mengukur hubungan/keterkaitan dan persamaan dari suatu kata, salah satunya path based measure yang dikembangkan oleh Leacock dan Chodorow

didasarkan pada panjang alur yang paling pendek antara konsep kata benda dalam . Nilai ini diskala oleh kedalaman hirarki D, di mana kedalaman digambarkan sebagai panjang alur yang terpanjang dari suatu node daun/leaf ke node akar hirarki.

ehingga, ukuran persamaan mereka digambarkan sebagai berikut:

length(c1,c2) = panjang lintasan yang paling pendek (yaitu., jumlah minimum edge antara dua

D = Maksimum depth dari taksonomi (Jumlah terbesar kedalaman node antara dua konsep)

dapat mengetahui bahwa kata ‘apel’ memiliki dua makna yang berbeda, di mana salah satunya

Seperti yang sudah dijelaskan di atas, WordNet menyimpan informasi tentang berbagai relasi relasi tersebut juga sudah dijelaskan

Semua synset dalam WordNet dilengkapi dengan gloss (definisi dan/atau contoh kalimat

, salah satunya Leacock dan Chodorow. Metode ntara konsep kata benda dalam . Nilai ini diskala oleh kedalaman hirarki D, di mana kedalaman digambarkan sebagai panjang alur yang terpanjang dari suatu node daun/leaf ke node akar hirarki.

length(c1,c2) = panjang lintasan yang paling pendek (yaitu., jumlah minimum edge antara dua

(10)

Contoh penerapan :

Kita akan mencari hubungan antara mengetahui hubungan antara bicycle

fork. Berikut adalah hasil pencarian dengan mengunakan kata.

Gambar 7. Output WordNet 2.1 untuk kata Dari kata tersebut dapat diketahui panjang c1 adalah 9 dengan alur ( conveyance-instrumentality-artifact

adalah sebagai berikut:

i hubungan antara bicycle dan fork(garpu)serta bicycle dan car. Misalkan kita ingin bicycle dan fork. Dengan demikian c1 adalah bicycle

ian dengan mengunakan tools WordNet 2.1 untuk masing

Gambar 7. Output WordNet 2.1 untuk kata bicycle

Dari kata tersebut dapat diketahui panjang c1 adalah 9 dengan alur (wheeled vehicle artifact-whole-object-physical entity-entity), sedangkan untuk kata

. Misalkan kita ingin dan c2 adalah WordNet 2.1 untuk masingmasing

(11)

Gambar 8. Output WordNet 2.1 untuk kata

Dari kata fork sendiri diperoleh jumlah sense sebanyak 5 yang berkaitan dengan kata

karena fork yang dimaksud adalah yang berkaitan dengan alat makan, maka yang digunakan adalah sense yang pertama denga c2 sebesar 9. Karena keduanya memiliki kedalaman yang sama yakni 10, maka nilai D=10 diperoleh dari kata

instrumentality-artifact-whole-object

adalah 11 dengan jalur (bicycle-wheeled vehicle

ware-tableware-cutlery-fork) sehingga perhitungannya menjadi :

Kemudian kita ulangi untuk mencar kata car :

Gambar 8. Output WordNet 2.1 untuk kata fork

jumlah sense sebanyak 5 yang berkaitan dengan kata

ang dimaksud adalah yang berkaitan dengan alat makan, maka yang digunakan adalah sense yang pertama denga c2 sebesar 9. Karena keduanya memiliki kedalaman yang sama yakni 10, maka nilai D=10 diperoleh dari kata bicycle dengan alur (bicycle-wheeled vehicle-vehicle

object-physical entity-entity). Sedangkan jarak antara bicycle wheeled vehicle-vehicle-conveyance-instrumentality-artifact

gga perhitungannya menjadi : Lch =log ((2*10)/length(9,9))

=log (20/11)=0.259

cari hubungan antara bicycle dengan car. Berikut hasil output untuk jumlah sense sebanyak 5 yang berkaitan dengan kata fork. Namun ang dimaksud adalah yang berkaitan dengan alat makan, maka yang digunakan adalah sense yang pertama denga c2 sebesar 9. Karena keduanya memiliki kedalaman yang sama yakni 10,

vehicle-conveyance-bicycle dan fork

(12)

Gambar 9. Output WordNet 2.1 untuk kata

Karena kata car memiliki 5 sense, maka yang kita ambil adalah yang berkaitan dengan makna yang kita maksud yakni kendaraan roda 4 yakni sense 1. Dengan

Depth (D) untuk car dan panjang (length) untuk kata Jadi nilai hubungan antara bicycle dan

c1=bicycle, c2=car

jarak antara bicycle dan car (length(9,11)) = 5 dengan alur ( vehicle-motor vehicle-car). Karena kedalaman (D) dari

D yang digunakan adalah nilai D miliki sehingga hasil perhitungannya :

Dari hasil perhitungan kedua hubungan di atas yakni antara car, maka dapat disimpulkan bahwa hubungan antara

Gambar 9. Output WordNet 2.1 untuk kata car

iki 5 sense, maka yang kita ambil adalah yang berkaitan dengan makna yang kita maksud yakni kendaraan roda 4 yakni sense 1. Dengan cara yang sama maka kita peroleh nilai

dan panjang (length) untuk kata car. D=12, dan panjang=11. dan car dapat dihitung sebagai berikut :

(length(9,11)) = 5 dengan alur (bicycle-wheeled vehicle

). Karena kedalaman (D) dari car lebih besar dari bicycle (D=10) , maka nilai D yang digunakan adalah nilai D miliki car sebesar 12.

Lch =log ((2*12)/length(9,11)) =log (24/5)=0.681

Dari hasil perhitungan kedua hubungan di atas yakni antara bicycle dengan fork dan bicycle

, maka dapat disimpulkan bahwa hubungan antara bicycle dan car memiliki hubungan yang lebih iki 5 sense, maka yang kita ambil adalah yang berkaitan dengan makna yang a yang sama maka kita peroleh nilai

wheeled vehicle-self propelled (D=10) , maka nilai

(13)

dekat daripada hubungan antara bicycle

metode path based measure yang dikembangkan ole dibandingkan dengan 0.259.

Referensi

Y Banowosari, Lintang. Andi D.Kega K.Marvin Mitchel. Analisa pada fitur autocomplete dan semantic pada pencarian di mesin pen

dan Sistem Intelejen. 2014

Simri wicaksana, I wayan. Lintang Yuniar Banowosari. Lili Wulandari. Setia Wirawan. Pentingnya peranan bahasa dalam interoperabilitas informasi berbasiskan komputer karena keragaman semantik. Universitas Gunadarma.

Sasmito Ariwibowo, Agus. Model

pendekatan perhitungan kedekatan pola warna. Jogjakarta. 2009

http://en.wikipedia.org/wiki/Normalized_Google_distance pukul 10.11

https://creandivity.wordpress.com/2010/08/27/penjelasan pukul 07.00

http://en.wikipedia.org/wiki/Euclidean_distance

bicycle dengan fork. Hal ini terlihat dari hasil perhitungan dengan metode path based measure yang dikembangkan oleh Leacock dan Chodorow yakni sebesar 0.681

Y Banowosari, Lintang. Andi D.Kega K.Marvin Mitchel. Analisa pada fitur autocomplete

ian di mesin pencari google. Prosiding seminar ilmiah Nasional Komputer

Simri wicaksana, I wayan. Lintang Yuniar Banowosari. Lili Wulandari. Setia Wirawan. Pentingnya bahasa dalam interoperabilitas informasi berbasiskan komputer karena keragaman

odel penelusuran citra digital pada database citra menggunakan pendekatan perhitungan kedekatan pola warna. Seminar Nasional Informatika.

http://en.wikipedia.org/wiki/Normalized_Google_distance diakses pada tanggal 21 maret 2015

https://creandivity.wordpress.com/2010/08/27/penjelasanwordnet/ diakses pada tanggal 22 maret

http://en.wikipedia.org/wiki/Euclidean_distance diakses pada tanggal 22 maret pukul 14.2

. Hal ini terlihat dari hasil perhitungan dengan yakni sebesar 0.681

Y Banowosari, Lintang. Andi D.Kega K.Marvin Mitchel. Analisa pada fitur autocomplete suggestion Nasional Komputer

Simri wicaksana, I wayan. Lintang Yuniar Banowosari. Lili Wulandari. Setia Wirawan. Pentingnya bahasa dalam interoperabilitas informasi berbasiskan komputer karena keragaman

penelusuran citra digital pada database citra menggunakan Nasional Informatika. UPN Veteran.

diakses pada tanggal 21 maret 2015

diakses pada tanggal 22 maret