Menghitung jarak kemiripan dalam
Oleh : Derick Iskandar / 2214206710
A. Pengukuran kemiripan warna
Pengolahan citra pada masa sekarang mempunyai
bidang kehidupan antara lain bidang arkeologi, astronomi, penginderaan jauh yang menggunakan teknologi citra satelit.
suatu citra masukan yang kompleks menjadi citra yang lebih peninjauan terhadap komponen citra.
melakukan analisis.
Salah satu analisis yang bisa dilakukan adalah dengan mengukur kemiripan warna pada citra. Bagaimana citra tersebut bisa dika
digunakan untuk mengukur kemiripan suatu citra yakni dengan berbagai macam algoritma clustering. Pengolahan citra pada masa sekarang mempunyai
berbagai bidang kehidupan antara
penginderaan jauh yang menggunakan teknologi citra satelit.
suatu citra masukan yang kompleks menjadi citra yang lebih peninjauan terhadap komponen citra. Dengan demikian akan memudahkan melakukan analisis.
Beberapa cara untuk mengukur kemiripan : 1. Euclidian Distance
Pengolahan citra pada masa sekarang mempunyai
berbagai bidang kehidupan antara lain bidang arkeologi, industri dan penginderaan jauh yang
akan mengubah suatu citra
sederhana, berdasarkan peninjauan terhadap memudahkan pengamat citra untuk melakukan analisis. Berikut adalah formula Euclidian Distance :
2. Mahalanobis Distance
Pengukuran ini menggunakan matriks varian dari
Menghitung jarak kemiripan dalam suatu benda dalam teknologi Oleh : Derick Iskandar / 2214206710
Jurusan : Telematika CIO
Pengolahan citra pada masa sekarang mempunyai suatu aplikasi yang sangat luas dalam berbagai ara lain bidang arkeologi, astronomi, biomedis, bidang industri dan menggunakan teknologi citra satelit. Segmentasi ini akan mengubah masukan yang kompleks menjadi citra yang lebih sederhana, berdasarkan komponen citra. Dengan demikian akan memudahkan pengamat citra untuk
satu analisis yang bisa dilakukan adalah dengan mengukur kemiripan warna pada citra. citra tersebut bisa dikatakan mirip melalui pendekatan warna. Ada beberapa cara yang digunakan untuk mengukur kemiripan suatu citra yakni dengan berbagai macam algoritma Pengolahan citra pada masa sekarang mempunyai suatu aplikasi yang sangat luas dalam kehidupan antara lain bidang arkeologi, astronomi, biomedis, bidang industri dan menggunakan teknologi citra satelit. Segmentasi ini akan mengubah masukan yang kompleks menjadi citra yang lebih sederhana, berdasarkan komponen citra. Dengan demikian akan memudahkan pengamat citra untuk
cara untuk mengukur kemiripan :
Pengolahan citra pada masa sekarang mempunyai suatu aplikasi yang sangat luas dalam kehidupan antara lain bidang arkeologi, astronomi, biomedis, bidang industri dan penginderaan jauh yang menggunakan teknologi citra satelit. Segmentasi ini akan mengubah suatu citra masukan yang kompleks menjadi citra yang lebih sederhana, berdasarkan peninjauan terhadap komponen citra. Dengan demikian akan
pengamat citra untuk melakukan analisis. adalah formula Euclidian Distance :
ini menggunakan matriks varian dari data matriks yang ada. Berikut
suatu aplikasi yang sangat luas dalam berbagai biomedis, bidang industri dan Segmentasi ini akan mengubah
sederhana, berdasarkan pengamat citra untuk
satu analisis yang bisa dilakukan adalah dengan mengukur kemiripan warna pada citra. beberapa cara yang digunakan untuk mengukur kemiripan suatu citra yakni dengan berbagai macam algoritma suatu aplikasi yang sangat luas dalam biomedis, bidang industri dan Segmentasi ini akan mengubah
sederhana, berdasarkan pengamat citra untuk
suatu aplikasi yang sangat luas dalam biomedis, bidang Segmentasi ini masukan yang kompleks menjadi citra yang lebih ponen citra. Dengan demikian akan
Dimana S adalah matiks Covarian. mahalanobis akan menjadi jarak 3. Minkowski metric
Pengukuran ini merupakan bentuk umum dari rumus formulanya :
Jika nila p=2, maka pengukuran ini akan mejadi sama dengan Dari ketiga cara diatas, cara pengukuran yang paling s
penerapannya, ada 2 pendekatan yang sering digunakan dalam mengukur kemiripan 1. Pengukuran similaritas
Mengukur tingkat kesamaan antara 2 warna maka kedua warna tersebut semakin berbeda.
(mendekati 1) maka warna tersebut akan semakin sama. digunakan dalam pengukuran ini adal
Di mana C1(k,m,n)dan C histogram citra C1dan histogram jumlah pembagian chrominance perhitungan Histogram intersection
Dua citra C1dan C2dikatakan mirip, apabila D(C mirip, bila D(C1,C2) mendekati 0.
2. Pengukuran disimilaritas
Berbeda dengan sebelumnya, untuk jenis pengukuran seperti ini adalah kebalikan dari cara pertama. Jika semakin besar nilai disimilaritasnya, maka semakin besar perbedaannya, namun jika semakin kecil nilai disimilaritasnya, maka perbedaan tersebut sema
bila q = 1 rumus tersebut biasa disebut L Euclidian distance L2.
Hasil perhitungan City Block C2 dikatakan mirip apabila L(C mendekati 1.
S adalah matiks Covarian. Jika Matriks S adalah matriks identitas, maka jarak mahalanobis akan menjadi jarak Euclidian.
erupakan bentuk umum dari rumus Euclidian distance. B
nila p=2, maka pengukuran ini akan mejadi sama dengan Euclidian distance. ketiga cara diatas, cara pengukuran yang paling sering digunakan adalah jarak Euclidian penerapannya, ada 2 pendekatan yang sering digunakan dalam mengukur kemiripan suatu warna
tingkat kesamaan antara 2 warna. Semakin kecil nilai similaritas (mendekati 0) maka kedua warna tersebut semakin berbeda. Sebaliknya semakin besar nilai similaritasnya (mendekati 1) maka warna tersebut akan semakin sama. Salah satu contoh metode yang digunakan dalam pengukuran ini adalah histogram intersection.
(k,m,n)dan C2(k,m,n)merupakan dua bin warna pada posisi yang sama dari dan histogram citra C2, K adalah jumlah pembagian luminance, M adalah jumlah pembagian chrominance dan N adalah jumlah pembagian Hue(warna). Hasil
intersection berkisar 0 ≤D(C1,C2) ≤1.
dikatakan mirip, apabila D(C1,C2) mendekati 1, sebaliknya dikatakan tidak mendekati 0.
dengan sebelumnya, untuk jenis pengukuran seperti ini adalah kebalikan dari cara semakin besar nilai disimilaritasnya, maka semakin besar perbedaannya, namun jika semakin kecil nilai disimilaritasnya, maka perbedaan tersebut sema
bila q = 1 rumus tersebut biasa disebut L1 atau city block distance, sedang bila q = 2 disebut lock dan Euclidian Distance berkisar 0 ≤L(C1,C2) ≤1. Dua citra C mirip apabila L(C1,C2) mendekati 0, sebaliknya dikatakan tidak mirip bila L(C
Matriks S adalah matriks identitas, maka jarak
Berikut adalah
distance.
Euclidian. Pada suatu warna.
nilai similaritas (mendekati 0) semakin besar nilai similaritasnya h metode yang
pada posisi yang sama dari agian luminance, M adalah pembagian Hue(warna). Hasil mendekati 1, sebaliknya dikatakan tidak
dengan sebelumnya, untuk jenis pengukuran seperti ini adalah kebalikan dari cara semakin besar nilai disimilaritasnya, maka semakin besar perbedaannya, namun jika semakin kecil nilai disimilaritasnya, maka perbedaan tersebut semakin kecil.
B. Pengukuran kemiripan pada google Ketika menggunakan web browser
bar saat mengetikan beberapa huruf/kata, web browser terse yang diketik, atau sama halnya ketika menggunakan mesin pen informasi, ketika baru mengetikan beberapa huruf/kata pada kolom pen tersebut memberikan saran pencar
saran tersebut, web browser atau mesin pen pencarian sesuai dengan saran yang dipilih
Sebagai contoh ketika kita mengetikkan kata “jon lenon
mendefinisikannya sebagai “john lenon”. Salah satu fitur yang dimiliki oleh google adalah autocomplete suggestion. Fitur ini memudahkan pengguna search engine yang ingin men sesuatu namun tidak mengerti secar
hal tersebut?
Google merupakan salah satu mesin pen
masuk setiap harinya. Untuk melakukan pen
membutuhkan sebuah metode tersendiri untuk membangun sistem pen yang digunakan google dalam proses pen
merupakan knowledge base yang digunakan google untuk meningkatkan hasil pen menggunakan semantic search dari berbagai sumber informasi yang dihimpunya. Cara kerja search engine
Mesin pencari tersebut berkerja dengan
www. Halaman web tersebut di ambil dengan menggunakan
akan mengambil setiap tautan yang ada di dalamnya dan kemudian menentukan indeksnya melalui judul, subjudul atau metatag yang ada di web tersebut untuk kemudian disim
indeks. Google kemudian memanfaatkan halaman web yang dicari.
Semantic search
Semantic search merupakan teknik
tetapi juga untuk menentukan makna konstektual dari kata kunci Semantic search bekerja mirip dengan bahasa
konsep frase yang dicari. Konsep semantic dan metodologi, termasuk keyword to c Word prediction
Google menyebut hal ini dengan autocomplete. Tujuan awal teknik pen meningkatkan kecepatan mengetik bagi orang
membantu untuk mengurangi penekanan tombol google
Ketika menggunakan web browser untuk berjelajah di dunia maya maka pada kolom
saat mengetikan beberapa huruf/kata, web browser tersebut memberikan saran dari apa yang diketik, atau sama halnya ketika menggunakan mesin pencari untuk men
informasi, ketika baru mengetikan beberapa huruf/kata pada kolom pencarian, mesin pen carian yang terkait dari apa yang diketikan. Ketika memilih atau mesin pencari akan langsung melengkapi kata kunci ian sesuai dengan saran yang dipilih.
Sebagai contoh ketika kita mengetikkan kata “jon lenon” maka secara otomatis google akan mendefinisikannya sebagai “john lenon”. Salah satu fitur yang dimiliki oleh google adalah
. Fitur ini memudahkan pengguna search engine yang ingin men cara tepat apa yg dia cari. Lantas bagaimana bisa google melakukan
Google merupakan salah satu mesin pencari terbesar di dunia dengan menyimpan jutaan data yang masuk setiap harinya. Untuk melakukan pencarian yang efisien dan tepat google akan n sebuah metode tersendiri untuk membangun sistem pencarinya. Salah satu metode yang digunakan google dalam proses pencarian tersebut adalah knowledge graph. Knowledge graph merupakan knowledge base yang digunakan google untuk meningkatkan hasil pencar
search dari berbagai sumber informasi yang dihimpunya.
i tersebut berkerja dengan cara mengambil seluruh konten web yang ada melalui www. Halaman web tersebut di ambil dengan menggunakan web crawler. Web crawler
akan mengambil setiap tautan yang ada di dalamnya dan kemudian menentukan indeksnya melalui judul, subjudul atau metatag yang ada di web tersebut untuk kemudian disimpan kedalam database Google kemudian memanfaatkan database tersebut untuk menampilkan informasi mengenai
search merupakan teknik searching Query yang bertujuan hanya untuk mencar
tetapi juga untuk menentukan makna konstektual dari kata kunci yang digunakan (Graham,2005). bekerja mirip dengan bahasa semantic yang didasarkan pada makna, substansi,
semantic search berasal dari berbagai macam algoritma pen keyword to concept mapping, graph pattern dan logika fuzzy.
Google menyebut hal ini dengan autocomplete. Tujuan awal teknik pencarian ini adalah untuk meningkatkan kecepatan mengetik bagi orangorang yang memiliki kekurangan fisik, serta untuk
untuk mengurangi penekanan tombol keyboard saat melakukan pencarian.
ntuk berjelajah di dunia maya maka pada kolom address but memberikan saran dari apa i untuk mencari suatu
ian, mesin pencari ian yang terkait dari apa yang diketikan. Ketika memilih i akan langsung melengkapi kata kunci
a otomatis google akan mendefinisikannya sebagai “john lenon”. Salah satu fitur yang dimiliki oleh google adalah . Fitur ini memudahkan pengguna search engine yang ingin mencari i. Lantas bagaimana bisa google melakukan
i terbesar di dunia dengan menyimpan jutaan data yang ian yang efisien dan tepat google akan inya. Salah satu metode ian tersebut adalah knowledge graph. Knowledge graph cariannya dengan
a mengambil seluruh konten web yang ada melalui Web crawler tersebut akan mengambil setiap tautan yang ada di dalamnya dan kemudian menentukan indeksnya melalui an kedalam database database tersebut untuk menampilkan informasi mengenai
cari kata kunci, yang digunakan (Graham,2005). yang didasarkan pada makna, substansi, search berasal dari berbagai macam algoritma pencarian
dan logika fuzzy.
ian ini adalah untuk orang yang memiliki kekurangan fisik, serta untuk
Google melakukan teknik ini didasarkan pada beberapa
serta beberapa kata yang sengaja dihindari seperti kata yang mengandung unsur pornografi, kekerasan dan pelanggaran hak cipta. Berikut adalah beberapa
yang dicari tidak muncul diantaranya : Kata kunci tidak popular
Kata kunci yang dicari merupakan kata yang baru sehingga membutuhkan beberapa waktu untuk google mengindeksnya
Kata kunci biasanya disalah artikan sebagai sesuatu hal yang lain, atau ada salah dalam pemaknaan
Penghitungan jarak kemiripan google (
merupakan ukuran kemiripan semantik yang dihasilkan dari jumlah hits yang dilakuka
pencari Google untuk sekumpulan kata kunci. Kata kunci dengan arti yang sama atau serupa dalam natural language, kemiripan semantik
yang memiliki arti yang berbeda .
berikut formula yang digunakan google untuk men
Dimana M adalah jumlah halaman web yang di dihasilkan untuk masingmasing istilah pen mengandung istilah x dan y.
Fitur Google Autocomplete Suggestion 1. Pencarian saran/suggestion
Saran ini adalah model pen
sering dilakukan oleh orang lain. Misaln
search engine google akan langsung memberikan masukan berupa kata yang sering di orang.
Gambar 1. Hasil
Google melakukan teknik ini didasarkan pada beberapa faktor diantaranya popularitas kata kunci, serta beberapa kata yang sengaja dihindari seperti kata yang mengandung unsur pornografi, kekerasan dan pelanggaran hak cipta. Berikut adalah beberapa faktor yang menyebabkan kata kunci
i tidak muncul diantaranya :
merupakan kata yang baru sehingga membutuhkan beberapa waktu mengindeksnya
Kata kunci biasanya disalah artikan sebagai sesuatu hal yang lain, atau ada salah dalam
Penghitungan jarak kemiripan google (Google Distance)
merupakan ukuran kemiripan semantik yang dihasilkan dari jumlah hits yang dilakuka
i Google untuk sekumpulan kata kunci. Kata kunci dengan arti yang sama atau serupa dalam natural language, kemiripan semantiknya cenderung lebih tinggi dari pada kata yang memiliki arti yang berbeda .
a yang digunakan google untuk mencari kemiripan dalam kategori x dan y.
Dimana M adalah jumlah halaman web yang dicari google, f(x) dan f(y) adalah jumlah hits yang masing istilah pencarian x dan y, f(x,y) adalah jumlah halaman we
Suggestion :
suggestion berdasarkan pencarian nyata
pencarian yang diberikan google berdasarkan dari pen
sering dilakukan oleh orang lain. Misalnya ketika kita mengetik kata “radio”, maka dalam google akan langsung memberikan masukan berupa kata yang sering di
Gambar 1. Hasil pencarian google.co.id berdasarkan pencarian nyata
diantaranya popularitas kata kunci, serta beberapa kata yang sengaja dihindari seperti kata yang mengandung unsur pornografi, yang menyebabkan kata kunci
merupakan kata yang baru sehingga membutuhkan beberapa waktu Kata kunci biasanya disalah artikan sebagai sesuatu hal yang lain, atau ada salah dalam
merupakan ukuran kemiripan semantik yang dihasilkan dari jumlah hits yang dilakukan mesin i Google untuk sekumpulan kata kunci. Kata kunci dengan arti yang sama atau serupa
nya cenderung lebih tinggi dari pada katakata
i kemiripan dalam kategori x dan y.
i google, f(x) dan f(y) adalah jumlah hits yang ian x dan y, f(x,y) adalah jumlah halaman web yang
yang diberikan google berdasarkan dari pencarian yang ya ketika kita mengetik kata “radio”, maka dalam google akan langsung memberikan masukan berupa kata yang sering dicari
Seperti contoh diatas, maka ketika saya melak
google akan memunculkan sebuah saran kata yang sering di 2. Pencarian saran/suggestion
Masih dengan kata yang sama yakni radio,
yang berdasarkan lokasi dan bahasa yang berbeda. Hasil sebelumnya saya menggunakan domain google.co.id, bagaimana dengan domain google.co.jp atau google.co.uk, apakah menghasilkan hasil yang sama?
Gambar 2. Hasil pen
Dari kata yang sama, ternyata bisa memberikan
wilayahnya. dengan demikian page rank yang dilakukan google untuk melakukan indexing kata, tidak hanya dilakukan berdasarkan
wilayah. Bagaimana jika menggunakan bahasa yang berbeda? Apakah memberikan hasil pencarian yang sama?
Gambar 3. Hasil pencar
Berikutnya kita akan mencoba melakukan pen yakni dengan domain google.co.uk.
Gambar 4. Hasil pen
Seperti contoh diatas, maka ketika saya melakukan pengetikan dengan kata radio, maka google akan memunculkan sebuah saran kata yang sering dicari orang yakni radio online
suggestion berdasarkan lokasi dan bahasa
Masih dengan kata yang sama yakni radio, pencarian disini yang dimaksud adalah pen yang berdasarkan lokasi dan bahasa yang berbeda. Hasil sebelumnya saya menggunakan domain google.co.id, bagaimana dengan domain google.co.jp atau google.co.uk, apakah menghasilkan hasil yang sama?
Gambar 2. Hasil pencarian kata yang sama dengan domain google.co.jp
Dari kata yang sama, ternyata bisa memberikan suggestion yang berbeda untuk tiap wilayahnya. dengan demikian page rank yang dilakukan google untuk melakukan indexing kata, tidak hanya dilakukan berdasarkan semantic kata saja, namun juga berdasarkan wilayah. Bagaimana jika menggunakan bahasa yang berbeda? Apakah memberikan hasil
carian dengan bahasa indonesia dengan domain google.co.id
Berikutnya kita akan mencoba melakukan pencarian berdasarkan domain yang berbeda yakni dengan domain google.co.uk.
Gambar 4. Hasil pencarian dengan bahasa inggris dengan domain google.co.uk ukan pengetikan dengan kata radio, maka
radio online.
adalah pencarian yang berdasarkan lokasi dan bahasa yang berbeda. Hasil sebelumnya saya menggunakan domain google.co.id, bagaimana dengan domain google.co.jp atau google.co.uk, apakah
a dengan domain google.co.jp
yang berbeda untuk tiap wilayahnya. dengan demikian page rank yang dilakukan google untuk melakukan indexing namun juga berdasarkan wilayah. Bagaimana jika menggunakan bahasa yang berbeda? Apakah memberikan hasil
dengan domain google.co.id rdasarkan domain yang berbeda
Ternyata dari kata yang bermakna hasil pencarian yang berbeda
percobaan di atas dapat diketahui bahwa pen
dan domain wilayah sehingga hasil yang dikeluarkan google terkadang berbeda. 3. Spelling correction/ pembenaran ej
Fitur ini yang menurut saya unik, karena google se
dengan kata/nama yang sesungguhnya. Misalkan saya ingin men
bernama john lenon, namun karena saya tidak tahu nama sesungguhnya sayapun menuliskan dengan kata “jon lenon”, maka se
suggestion kepada anda bahwa nama yang dimaksud adalah john lenon.
Gambar 5. Autospelling
Begitupula saat kita salah menulisk aka membenarkan ejaan tersebut.
Gambar 6. Autospelling pada google terkait salah tulis nama negara
Semantic search pada google
Google dalam prosesnya menggunakan 2 faktor dasar untuk menilai seberap
relevansinya setiap halaman web sebelum memberikan peringkat kepada halaman web tersebut. faktor tersebut adalah :
1. Peringkat halaman (mengukur popularitas dengan menggunakan backlink)
bermakna sama dengan bahasa yang berbeda dapat menghasilkan ian yang berbedabeda tergantung domain pencarian yang digunakan. Dari dua percobaan di atas dapat diketahui bahwa pencarian google di dasarkan pula pada bahasa dan domain wilayah sehingga hasil yang dikeluarkan google terkadang berbeda.
/ pembenaran ejaan
Fitur ini yang menurut saya unik, karena google secara langsung memberikan saran sesuai dengan kata/nama yang sesungguhnya. Misalkan saya ingin mencari seorang penyanyi yang bernama john lenon, namun karena saya tidak tahu nama sesungguhnya sayapun uliskan dengan kata “jon lenon”, maka secara otomatis google akan memberikan
kepada anda bahwa nama yang dimaksud adalah john lenon.
Autospelling pada google terkait penggunaan nama orang terkenal
Begitupula saat kita salah menuliskan nama Negara kita Indonesia, secara otomatis aka membenarkan ejaan tersebut.
Gambar 6. Autospelling pada google terkait salah tulis nama negara
Google dalam prosesnya menggunakan 2 faktor dasar untuk menilai seberap
relevansinya setiap halaman web sebelum memberikan peringkat kepada halaman web tersebut.
Peringkat halaman (mengukur popularitas dengan menggunakan backlink)
dapat menghasilkan ian yang digunakan. Dari dua ian google di dasarkan pula pada bahasa dan domain wilayah sehingga hasil yang dikeluarkan google terkadang berbeda.
a langsung memberikan saran sesuai i seorang penyanyi yang bernama john lenon, namun karena saya tidak tahu nama sesungguhnya sayapun a otomatis google akan memberikan
terkait penggunaan nama orang terkenal a otomatis google
Gambar 6. Autospelling pada google terkait salah tulis nama negara
2. Relevansi (menganalisis dengan menggunakan kata kunci yang web tersebut)
Bentuk perankingan diatas tidak membantu dalam menemukan halaman web yang relevan dengan maksud yang diinginkan oleh pencar
menemukan konten web yang relevan.
Query processing dalam semantic environtment
Search Query yang diterima oleh Google diurai (menggunakan parser) untuk mengidentifikasi satu atau lebih kata kunci. Dalam proses ini, sinonim atau istilah pengganti lainnya akan diidentifikasi. Sinonim ini dikenal sebagai calon sinonim dan calon sinonim tersebut akan dipecah dan diproses sebagai sinonim yang berkualitas (
engine digunakan untuk mengidentifikasi hubungan antara anggota b
masing. Yang dimaksud dengan domain disini adalah pemusatan kategori dari kalimat yang serupa. Kata kunci dari Search Query
semantik yang memiliki koleksi pra
untuk menghubungkan istilah untuk pencocokan identitas yang terdekat (Salah satu point penting yang perlu dicatat di sini adalah bahwa Google hanya akan menemukan kata
berhubungan dalam search Query
Knowledge graph, oleh karena itu, beberapa mungkin tidak muncul).
Sebuah pencarian yang terpisah akan dilaku
Matching Relationship dan hasil akhir akan ditampilkan setelah semantik diidentifikasi (mesin Query dapat mempluralkan atau mengulang katakata pada jika diperlukan). Oleh karena itu, dapat disimpulkan bahwa, sebuah Search yang diinput oleh pengguna dipecah
proses yaitu dengan fitur Google Distance
yang dicari, Setelah itu, halaman web yang relevan diidentifikasi dan ditampilkan sebagai hasil akhir.
C. WordNet
Sumber informasi semakin bertambah se
dikarenakan teknologi Internet. Besarnya jumlah sumber informasi juga melahirkan keragaman dari sumber informasi tersebut. Keragaman timbul karena perbedaan domain keilmuan, negara, bahasa, dan sebagainya. Sehingga masalah untu
informasi menghadapi tantangan baru khususnya dari keragaman konsep. Memasuki era globalisasi dan teknologi informasi, bahasa Indonesia tidak saja dilihat sebagai aset kebudayaan melainkan merupakan sarana perh
strategi hubungan global, misalnya semakin dipelajarinya bahasa Indonesia di Jepang, Australia, Amerika, dan lain lain. Dengan demikian bahasa Indonesia telah dipelajari dan diajarkan, khususnya untuk kepentingan politik, ekonomi dan pengembangan hubungan global Banyak pihak yang berpikir secara terkotak bahasa adalah bagian dari ilmu sosial dan komputer adalah bagian dari ilmu eksak, ternyata paradigma seperti i
Relevansi (menganalisis dengan menggunakan kata kunci yang digunakan dalam halaman
Bentuk perankingan diatas tidak membantu dalam menemukan halaman web yang relevan dengan cari. Inilah mengapa google menggunakan semantic
menemukan konten web yang relevan.
environtment
yang diterima oleh Google diurai (menggunakan parser) untuk mengidentifikasi satu atau lebih kata kunci. Dalam proses ini, sinonim atau istilah pengganti lainnya akan . Sinonim ini dikenal sebagai calon sinonim dan calon sinonim tersebut akan dipecah dan diproses sebagai sinonim yang berkualitas (Qualified Synonim). Kemudian
digunakan untuk mengidentifikasi hubungan antara anggota berdasarkan domain
masing. Yang dimaksud dengan domain disini adalah pemusatan kategori dari kalimat yang Query akan diidentifikasi oleh domain yang merupakan kategori si praentitas yang telah ditetapkan. Hal ini membantu Google untuk menghubungkan istilah untuk pencocokan identitas yang terdekat (Salah satu point penting yang perlu dicatat di sini adalah bahwa Google hanya akan menemukan kata
Query dengan yang sudah ada dalam databasenya yang merupakan , oleh karena itu, beberapa Search Query meskipun sudah sesuai semantik
ian yang terpisah akan dilakukan oleh mesin Query menggunakan Domain Matching Relationship dan hasil akhir akan ditampilkan setelah semantik Search
dapat mempluralkan atau mengulang katakata pada
eh karena itu, dapat disimpulkan bahwa, sebuah Search Query yang kompleks yang diinput oleh pengguna dipecahpecah, kemudian disederhanakan dengan melibatkan suatu Google Distance untuk mengukur kemiripan semantik dari kata kunci i, Setelah itu, halaman web yang relevan diidentifikasi dan ditampilkan sebagai hasil
Sumber informasi semakin bertambah secara dramatis pada dekade terakhir ini logi Internet. Besarnya jumlah sumber informasi juga melahirkan keragaman dari sumber informasi tersebut. Keragaman timbul karena perbedaan domain keilmuan, negara, bahasa, dan sebagainya. Sehingga masalah untuk interoperabilitas informasi menghadapi tantangan baru khususnya dari keragaman konsep. Memasuki era globalisasi dan teknologi informasi, bahasa Indonesia tidak saja dilihat sebagai aset kebudayaan melainkan merupakan sarana perhubungan dan aset di bidang ekonomi, politik, dan strategi hubungan global, misalnya semakin dipelajarinya bahasa Indonesia di Jepang, Australia, Amerika, dan lain lain. Dengan demikian bahasa Indonesia telah dipelajari dan diajarkan, khususnya untuk kepentingan politik, ekonomi dan pengembangan hubungan global Banyak pihak
a terkotak bahasa adalah bagian dari ilmu sosial dan komputer adalah bagian dari ilmu eksak, ternyata paradigma seperti ini tidaklah tepat lagi. Karena untuk
digunakan dalam halaman
Bentuk perankingan diatas tidak membantu dalam menemukan halaman web yang relevan dengan semantic search dalam
yang diterima oleh Google diurai (menggunakan parser) untuk mengidentifikasi satu atau lebih kata kunci. Dalam proses ini, sinonim atau istilah pengganti lainnya akan . Sinonim ini dikenal sebagai calon sinonim dan calon sinonim tersebut akan dipecah
). Kemudian, relationship domain masing masing. Yang dimaksud dengan domain disini adalah pemusatan kategori dari kalimat yang
akan diidentifikasi oleh domain yang merupakan kategori entitas yang telah ditetapkan. Hal ini membantu Google untuk menghubungkan istilah untuk pencocokan identitas yang terdekat (Salah satu point penting yang perlu dicatat di sini adalah bahwa Google hanya akan menemukan katakata yang nya yang merupakan meskipun sudah sesuai semantik
menggunakan Domain Search Query dapat mempluralkan atau mengulang katakata pada Search Query yang kompleks pecah, kemudian disederhanakan dengan melibatkan suatu k dari kata kunci i, Setelah itu, halaman web yang relevan diidentifikasi dan ditampilkan sebagai hasil
a dramatis pada dekade terakhir ini logi Internet. Besarnya jumlah sumber informasi juga melahirkan keragaman dari sumber informasi tersebut. Keragaman timbul karena perbedaan domain k interoperabilitas informasi menghadapi tantangan baru khususnya dari keragaman konsep. Memasuki era globalisasi dan teknologi informasi, bahasa Indonesia tidak saja dilihat sebagai aset
ubungan dan aset di bidang ekonomi, politik, dan strategi hubungan global, misalnya semakin dipelajarinya bahasa Indonesia di Jepang, Australia, Amerika, dan lain lain. Dengan demikian bahasa Indonesia telah dipelajari dan diajarkan, khususnya untuk kepentingan politik, ekonomi dan pengembangan hubungan global Banyak pihak
interoperabilitas pada era Internet dengan keragaman semantik, peran bahasa sangatlah penting untuk meningkatka kualitas dalam pen
Pada pertukaran informasi perbedaan konsep defin
bahasa, negara saja. Tetapi juga terkait dengan domain informasi, contohnya kalau kita bicara kata 'penyimpanan' maka dari domain komputer akan berpikir adalah m atau harddisk, tapi kalau dari domain manufaktur bisa diartikan sebagai gudang. Hal ini jelas sangat besar perbedaan maknanya, sehingga pen
berdasarkan arti dasar akan membawa hasil dari pert
tepat. Untuk itulah mengapa hubungan antar kata dan artinya menjadi sangat penting pada jaman ini. Dalam istilah bahasa pembahasan ini disebut dengan
linguistic yang mempelajari secara khusus mengenai arti, perubahan arti dan prinsip hubungan kata.
Pengertian
Semantik merupakan ilmu yang mempelajari simbol bahasa.
Semantik (dari bahasa Yunani semantikos, atau “arti yang signi
sema, tanda) adalah pembelajaran mengenai arti dari suatu term. Semantik kadang merupakan kebalikan dari sintak, yang mana semantik berhubungan dengan “arti” sementara sintak berhubungan
ditulis atau diucapkan). Semantik adalah satu bidang dari linguistik yang se didefinisikan sebagai ilmu yang mempelajari arti dari (bagian dari) kata, fra WordNet/sistem leksikal database
antar synset (satuan dalam WordNet
suatu kata tertentu, contohnya adalah sinonim
Hipernim/Hiponim: relasi semantik antar dua kata di mana yang satu merupakan bagian yang lebih general (hipernim), sementara yg lain merupakan bagian yang lebih spesifik. Contoh, kata ‘buah’ dan ‘apel’, kata ‘buah’ merupakan hipernim dari ‘apel’ karena makna buah lebih luas dari apel, sementara apel merupakan hiponim dari buah, karena apel merupakan salah satu jenis buah.
Holonim/Meronim: relasi semantik antar dua kata di mana yang satu merupakan bagian dari/anggota dari yang lain (meronim), sementara yang lain merupakan bagian keseluruhan (holonim). Contoh, kata ‘ban’,’setir’, dan ‘mobil’. Ban dan setir merupakan bagian dari mobil, maka ban dan setir dapat dikatakan sebagai meronim dari mobil. Mobil merup
yang memiliki ban dan setir, maka mobil dapat dikatakan sebagai holonim dari ban dan setir.
Synset: singkatan dari sinonim set, yaitu satuan utama yang digunakan oleh WordNet. Konsep utama pada WordNet adalah synset, di mana synset
memiliki makna sama (dan tentunya dapat saling menggantikan dalam konteks tertentu). Harap diingat bahwa satu synset mewakili satu makna (dalam bhs Inggris = sense) yang berbeda. Misalkan, synset XXX beranggotakan apel dengan gloss nama buah yang berwarna merah. Synset YYY juga beranggotakan apel, upacara, dengan gloss upa
interoperabilitas pada era Internet dengan keragaman semantik, peran bahasa sangatlah penting untuk meningkatka kualitas dalam pencarian informasi.
Pada pertukaran informasi perbedaan konsep definisi dari sebuah kata tidak hanya terkait dengan . Tetapi juga terkait dengan domain informasi, contohnya kalau kita a kata 'penyimpanan' maka dari domain komputer akan berpikir adalah m atau harddisk, tapi kalau dari domain manufaktur bisa diartikan sebagai gudang. Hal ini jelas sangat besar perbedaan maknanya, sehingga pencarian informasi di Internet yang hanya berdasarkan arti dasar akan membawa hasil dari pertukaran atau pencarian informasi yang tidak Untuk itulah mengapa hubungan antar kata dan artinya menjadi sangat penting pada jaman ini. Dalam istilah bahasa pembahasan ini disebut dengan semantic yakni merupakan cabang a khusus mengenai arti, perubahan arti dan prinsip hubungan kata.
Semantik merupakan ilmu yang mempelajari simbolsimbol dan artinya, terutama symbol dalam
Semantik (dari bahasa Yunani semantikos, atau “arti yang signifikan”, diturunkan dari sema, tanda) adalah pembelajaran mengenai arti dari suatu term. Semantik kadang merupakan kebalikan dari sintak, yang mana semantik berhubungan dengan “arti” sementara sintak berhubungan dengan struktur/pola yang “diekspresikan” (sebagai contoh ditulis atau diucapkan). Semantik adalah satu bidang dari linguistik yang secar
didefinisikan sebagai ilmu yang mempelajari arti dari (bagian dari) kata, frasa, kalimat dan teks. adalah sebuah kumpulan data yang menyimpan relasi semantik satuan dalam WordNet). Relasi yang dimaksud adalah relasi makna yang dimiliki oleh suatu kata tertentu, contohnya adalah sinonim, antonim, hiponim, hipernim, holonim, meronium dll. Hipernim/Hiponim: relasi semantik antar dua kata di mana yang satu merupakan bagian yang lebih general (hipernim), sementara yg lain merupakan bagian yang lebih spesifik. Contoh, kata ‘buah’ dan kata ‘buah’ merupakan hipernim dari ‘apel’ karena makna buah lebih luas dari apel, sementara apel merupakan hiponim dari buah, karena apel merupakan salah satu jenis buah.
Holonim/Meronim: relasi semantik antar dua kata di mana yang satu merupakan bagian ari/anggota dari yang lain (meronim), sementara yang lain merupakan bagian keseluruhan (holonim). Contoh, kata ‘ban’,’setir’, dan ‘mobil’. Ban dan setir merupakan bagian dari mobil, maka ban dan setir dapat dikatakan sebagai meronim dari mobil. Mobil merupakan bagian keseluruhan yang memiliki ban dan setir, maka mobil dapat dikatakan sebagai holonim dari ban dan setir.
Synset: singkatan dari sinonim set, yaitu satuan utama yang digunakan oleh WordNet. Konsep utama pada WordNet adalah synset, di mana synset merupakan kumpulan dari 1 atau lebih kata yang memiliki makna sama (dan tentunya dapat saling menggantikan dalam konteks tertentu). Harap diingat bahwa satu synset mewakili satu makna (dalam bhs Inggris = sense) yang berbeda. Misalkan, akan apel dengan gloss nama buah yang berwarna merah. Synset YYY juga a, dengan gloss upacara kemiliteran. Dari dua contoh synset di atas, kita interoperabilitas pada era Internet dengan keragaman semantik, peran bahasa sangatlah
isi dari sebuah kata tidak hanya terkait dengan . Tetapi juga terkait dengan domain informasi, contohnya kalau kita a kata 'penyimpanan' maka dari domain komputer akan berpikir adalah memori atau harddisk, tapi kalau dari domain manufaktur bisa diartikan sebagai gudang. Hal ini
ian informasi di Internet yang hanya ian informasi yang tidak Untuk itulah mengapa hubungan antar kata dan artinya menjadi sangat penting pada jaman yakni merupakan cabang a khusus mengenai arti, perubahan arti dan prinsip hubungan kata.
simbol dan artinya, terutama symbol dalam
fikan”, diturunkan dari sema, tanda) adalah pembelajaran mengenai arti dari suatu term. Semantik kadang merupakan kebalikan dari sintak, yang mana semantik berhubungan dengan “arti” dengan struktur/pola yang “diekspresikan” (sebagai contoh
cara tradisional sa, kalimat dan teks. sebuah kumpulan data yang menyimpan relasi semantik . Relasi yang dimaksud adalah relasi makna yang dimiliki oleh , antonim, hiponim, hipernim, holonim, meronium dll. Hipernim/Hiponim: relasi semantik antar dua kata di mana yang satu merupakan bagian yang lebih general (hipernim), sementara yg lain merupakan bagian yang lebih spesifik. Contoh, kata ‘buah’ dan kata ‘buah’ merupakan hipernim dari ‘apel’ karena makna buah lebih luas dari apel, sementara apel merupakan hiponim dari buah, karena apel merupakan salah satu jenis buah. Holonim/Meronim: relasi semantik antar dua kata di mana yang satu merupakan bagian
ari/anggota dari yang lain (meronim), sementara yang lain merupakan bagian keseluruhan (holonim). Contoh, kata ‘ban’,’setir’, dan ‘mobil’. Ban dan setir merupakan bagian dari mobil, maka akan bagian keseluruhan yang memiliki ban dan setir, maka mobil dapat dikatakan sebagai holonim dari ban dan setir.
dapat mengetahui bahwa kata ‘apel’ memiliki dua makna yang berbeda, di mana salah satu adalah buah, dan lainnya adalah upa
Relasi semantik dalam WordNet
Seperti yang sudah dijelaskan di atas, WordNet menyimpan informasi tentang berbagai relasi semantik yang terjadi antar synset (bukan antar kata). Relasi
satu persatu di atas, yaitu : Antonim
Hipernim/Hiponim Holonim/Meronim
dan relasi pelengkap lainnya
Semua synset dalam WordNet dilengkapi dengan gloss (definisi dan/atau contoh kalimat penggunaannya), sehingga memudahkan pengguna memahami suatu
Ada beberapa cara mengukur hubungan/keterkaitan dan persamaan dari suatu kata adalah dengan cara path based measure
ini didasarkan pada panjang alur yang paling pendek a
suatu hirarki. Nilai ini diskala oleh kedalaman hirarki D, di mana kedalaman digambarkan sebagai panjang alur yang terpanjang dari suatu node daun/leaf ke node akar hirarki. Sehingga, ukuran persamaan mereka digambarkan sebagai berikut:
dimana : c1 = konsep1 c2 = konsep2
length(c1,c2) = panjang lintasan yang paling pendek (yaitu., jumlah minimum edge antara dua konsep)
D = Maksimum depth dari taksonomi (Jumlah terbesar
dapat mengetahui bahwa kata ‘apel’ memiliki dua makna yang berbeda, di mana salah satu adalah buah, dan lainnya adalah upacara.
Seperti yang sudah dijelaskan di atas, WordNet menyimpan informasi tentang berbagai relasi semantik yang terjadi antar synset (bukan antar kata). Relasirelasi tersebut juga sudah
Semua synset dalam WordNet dilengkapi dengan gloss (definisi dan/atau contoh kalimat penggunaannya), sehingga memudahkan pengguna memahami suatu synset.
a mengukur hubungan/keterkaitan dan persamaan dari suatu kata, salah satunya path based measure yang dikembangkan oleh Leacock dan Chodorow
didasarkan pada panjang alur yang paling pendek antara konsep kata benda dalam . Nilai ini diskala oleh kedalaman hirarki D, di mana kedalaman digambarkan sebagai panjang alur yang terpanjang dari suatu node daun/leaf ke node akar hirarki.
ehingga, ukuran persamaan mereka digambarkan sebagai berikut:
length(c1,c2) = panjang lintasan yang paling pendek (yaitu., jumlah minimum edge antara dua
D = Maksimum depth dari taksonomi (Jumlah terbesar kedalaman node antara dua konsep)
dapat mengetahui bahwa kata ‘apel’ memiliki dua makna yang berbeda, di mana salah satunya
Seperti yang sudah dijelaskan di atas, WordNet menyimpan informasi tentang berbagai relasi relasi tersebut juga sudah dijelaskan
Semua synset dalam WordNet dilengkapi dengan gloss (definisi dan/atau contoh kalimat
, salah satunya Leacock dan Chodorow. Metode ntara konsep kata benda dalam . Nilai ini diskala oleh kedalaman hirarki D, di mana kedalaman digambarkan sebagai panjang alur yang terpanjang dari suatu node daun/leaf ke node akar hirarki.
length(c1,c2) = panjang lintasan yang paling pendek (yaitu., jumlah minimum edge antara dua
Contoh penerapan :
Kita akan mencari hubungan antara mengetahui hubungan antara bicycle
fork. Berikut adalah hasil pencarian dengan mengunakan kata.
Gambar 7. Output WordNet 2.1 untuk kata Dari kata tersebut dapat diketahui panjang c1 adalah 9 dengan alur ( conveyance-instrumentality-artifact
adalah sebagai berikut:
i hubungan antara bicycle dan fork(garpu)serta bicycle dan car. Misalkan kita ingin bicycle dan fork. Dengan demikian c1 adalah bicycle
ian dengan mengunakan tools WordNet 2.1 untuk masing
Gambar 7. Output WordNet 2.1 untuk kata bicycle
Dari kata tersebut dapat diketahui panjang c1 adalah 9 dengan alur (wheeled vehicle artifact-whole-object-physical entity-entity), sedangkan untuk kata
. Misalkan kita ingin dan c2 adalah WordNet 2.1 untuk masingmasing
Gambar 8. Output WordNet 2.1 untuk kata
Dari kata fork sendiri diperoleh jumlah sense sebanyak 5 yang berkaitan dengan kata
karena fork yang dimaksud adalah yang berkaitan dengan alat makan, maka yang digunakan adalah sense yang pertama denga c2 sebesar 9. Karena keduanya memiliki kedalaman yang sama yakni 10, maka nilai D=10 diperoleh dari kata
instrumentality-artifact-whole-object
adalah 11 dengan jalur (bicycle-wheeled vehicle
ware-tableware-cutlery-fork) sehingga perhitungannya menjadi :
Kemudian kita ulangi untuk mencar kata car :
Gambar 8. Output WordNet 2.1 untuk kata fork
jumlah sense sebanyak 5 yang berkaitan dengan kata
ang dimaksud adalah yang berkaitan dengan alat makan, maka yang digunakan adalah sense yang pertama denga c2 sebesar 9. Karena keduanya memiliki kedalaman yang sama yakni 10, maka nilai D=10 diperoleh dari kata bicycle dengan alur (bicycle-wheeled vehicle-vehicle
object-physical entity-entity). Sedangkan jarak antara bicycle wheeled vehicle-vehicle-conveyance-instrumentality-artifact
gga perhitungannya menjadi : Lch =log ((2*10)/length(9,9))
=log (20/11)=0.259
cari hubungan antara bicycle dengan car. Berikut hasil output untuk jumlah sense sebanyak 5 yang berkaitan dengan kata fork. Namun ang dimaksud adalah yang berkaitan dengan alat makan, maka yang digunakan adalah sense yang pertama denga c2 sebesar 9. Karena keduanya memiliki kedalaman yang sama yakni 10,
vehicle-conveyance-bicycle dan fork
Gambar 9. Output WordNet 2.1 untuk kata
Karena kata car memiliki 5 sense, maka yang kita ambil adalah yang berkaitan dengan makna yang kita maksud yakni kendaraan roda 4 yakni sense 1. Dengan
Depth (D) untuk car dan panjang (length) untuk kata Jadi nilai hubungan antara bicycle dan
c1=bicycle, c2=car
jarak antara bicycle dan car (length(9,11)) = 5 dengan alur ( vehicle-motor vehicle-car). Karena kedalaman (D) dari
D yang digunakan adalah nilai D miliki sehingga hasil perhitungannya :
Dari hasil perhitungan kedua hubungan di atas yakni antara car, maka dapat disimpulkan bahwa hubungan antara
Gambar 9. Output WordNet 2.1 untuk kata car
iki 5 sense, maka yang kita ambil adalah yang berkaitan dengan makna yang kita maksud yakni kendaraan roda 4 yakni sense 1. Dengan cara yang sama maka kita peroleh nilai
dan panjang (length) untuk kata car. D=12, dan panjang=11. dan car dapat dihitung sebagai berikut :
(length(9,11)) = 5 dengan alur (bicycle-wheeled vehicle
). Karena kedalaman (D) dari car lebih besar dari bicycle (D=10) , maka nilai D yang digunakan adalah nilai D miliki car sebesar 12.
Lch =log ((2*12)/length(9,11)) =log (24/5)=0.681
Dari hasil perhitungan kedua hubungan di atas yakni antara bicycle dengan fork dan bicycle
, maka dapat disimpulkan bahwa hubungan antara bicycle dan car memiliki hubungan yang lebih iki 5 sense, maka yang kita ambil adalah yang berkaitan dengan makna yang a yang sama maka kita peroleh nilai
wheeled vehicle-self propelled (D=10) , maka nilai
dekat daripada hubungan antara bicycle
metode path based measure yang dikembangkan ole dibandingkan dengan 0.259.
Referensi
Y Banowosari, Lintang. Andi D.Kega K.Marvin Mitchel. Analisa pada fitur autocomplete dan semantic pada pencarian di mesin pen
dan Sistem Intelejen. 2014
Simri wicaksana, I wayan. Lintang Yuniar Banowosari. Lili Wulandari. Setia Wirawan. Pentingnya peranan bahasa dalam interoperabilitas informasi berbasiskan komputer karena keragaman semantik. Universitas Gunadarma.
Sasmito Ariwibowo, Agus. Model
pendekatan perhitungan kedekatan pola warna. Jogjakarta. 2009
http://en.wikipedia.org/wiki/Normalized_Google_distance pukul 10.11
https://creandivity.wordpress.com/2010/08/27/penjelasan pukul 07.00
http://en.wikipedia.org/wiki/Euclidean_distance
bicycle dengan fork. Hal ini terlihat dari hasil perhitungan dengan metode path based measure yang dikembangkan oleh Leacock dan Chodorow yakni sebesar 0.681
Y Banowosari, Lintang. Andi D.Kega K.Marvin Mitchel. Analisa pada fitur autocomplete
ian di mesin pencari google. Prosiding seminar ilmiah Nasional Komputer
Simri wicaksana, I wayan. Lintang Yuniar Banowosari. Lili Wulandari. Setia Wirawan. Pentingnya bahasa dalam interoperabilitas informasi berbasiskan komputer karena keragaman
odel penelusuran citra digital pada database citra menggunakan pendekatan perhitungan kedekatan pola warna. Seminar Nasional Informatika.
http://en.wikipedia.org/wiki/Normalized_Google_distance diakses pada tanggal 21 maret 2015
https://creandivity.wordpress.com/2010/08/27/penjelasanwordnet/ diakses pada tanggal 22 maret
http://en.wikipedia.org/wiki/Euclidean_distance diakses pada tanggal 22 maret pukul 14.2
. Hal ini terlihat dari hasil perhitungan dengan yakni sebesar 0.681
Y Banowosari, Lintang. Andi D.Kega K.Marvin Mitchel. Analisa pada fitur autocomplete suggestion Nasional Komputer
Simri wicaksana, I wayan. Lintang Yuniar Banowosari. Lili Wulandari. Setia Wirawan. Pentingnya bahasa dalam interoperabilitas informasi berbasiskan komputer karena keragaman
penelusuran citra digital pada database citra menggunakan Nasional Informatika. UPN Veteran.
diakses pada tanggal 21 maret 2015
diakses pada tanggal 22 maret