• Tidak ada hasil yang ditemukan

ANALISIS LINK. Tujuan 4/23/13. Budi Susanto

N/A
N/A
Protected

Academic year: 2021

Membagikan "ANALISIS LINK. Tujuan 4/23/13. Budi Susanto"

Copied!
18
0
0

Teks penuh

(1)

ANALISIS LINK

Budi Susanto

Tujuan

• memahami karakteristik link antar laman yang dapat

dimodelkan sebagai graf.

• memahami algoritma PageRank

• memahami Hubs and Authority

(2)

Struktur Web

• struktur hypertextual memberikan sebuah jaringan

informasi

• node mewakili laman yang berisi informasi

• link menyatakan relasi antar node.

• Bentuk hypertextual pertama adalah konsep citation di

antara book atau artikel ilmiah.

• node mewakili buku/artikel

• edge mewakili citation dari satu karya ke lainnya.

• perbedaan utama dengan web: citation dikelola lebih kuat berdasar

waktu.

•  citation mengarah pada karya sebelumnya.

• Bentuk hypertextual lain adalah cross-references dalam

ensiklopedia

Contoh citation hypertextual

(3)

Contoh Cross Reference network

Pemikiran

Vannevar Bush

• Bush menyatakan bahwa informasi yang tersimpan pada

buku, perpustakaan, atau bahkan memori komputer adalah linear.

• berisi koleksi item yang diurutkan dalam urutan tertentu.

• Bush membayangkan sebuah hypothetical prototype,

disebut Memex, yang fungsinya serupa dengan Web

• berisi bentuk digital dari pengetahuan manusia yang saling

berhubungan dengan associative link. • Pemikiran tentang Web:

web sebagai ensiklopedia universal,

(4)

Web sebagai Directed Graph

• Tautan navigasi membentuk struktur backbone dari Web,

daripada memperkaya isi.

• tautan antar laman Web diterapkan sebagai bentuk graf

berarah, mengingat bentuk tautan dapat bersifat asimetrik.

• blog Anda memiliki link ke UKDW, namun tidak tentu UKDW

memiliki link ke blog Anda.

Contoh Web Directed Graph

(5)

Strongly Connected

• Sebuah directed graph dikatakan terhubung kuat jika

terdapat sebuah jalur dari setiap node ke setiap node lainnya.

• Contoh pada slide 8 bukanlah directed graph yang

terhubung kuat. Mengapa?

• Jika sebuah directed graph tidak terhubung kuat, maka

perlu diperhatikan atribut lain, yaitu: reachability.

• mengenali node mana saja yang “reachable” dari node lain melalui

jalur-jalur yang terbentuk.

Strongly Connected Component

• SCC dalam directed graph adalah sebuah subset node

sedemikian rupa, sehingga:

• setiap node dalam subset memiliki sebuah jalur ke node lainnya,

dan

• subset bukan merupakan bagian himpunan yang lebih besar

lainnya dengan properti bahwa setiap node dapat mencapai setiap node lainnya.

(6)

Strongly Connected Component

Link

• Link dapat menjadi sumber keaslian dan pengakuan/

otoritas.

• mail spam

• phone call log

• host quality

Text dan Web Mining - TI UKDW 12

?

?

? ?

(7)

Link

• Node Good tidak akan menunjuk ke node Bad.

• Jika sebuah node menunjuk ke node Bad, maka node

tersebut Bad.

• Jika node Good menunjuk sebuah node, maka node

tersebut juga Good.

?

Good Bad

Link dan IR

• Sebagian besar sistem IR didasarkan pada isi dari teks.

• Link dapat digunakan untuk: • scoring dan ranking

• link-based clustering

• struktur topik dari link

• Link sebagai feature dalam klasifikasi

• dokumen yang bertautan dengan dokumen lain dikatakan mungkin

dalam satu subjek.

• Crawling menggunakan link untuk mengambil dokumen

lainnya.

(8)

Web sebagai Directed Graph

• Assumption 1: sebuah hyperlink antar halaman

menyatakan sebuah pengakuan otoritas (sinyal kualitas)

• Assumption 2: teks dalam anchor dari sebuah hyperlink

mengambarkan halaman sasaran (textual context)

Page A Anchor hyperlink Page B

Web sebagai Directed Graph

• G = (V, E)

• G adalah directed graf

• V adalah himpunan halaman web

• N adalah jumlah halaman web

• |V| = N

• Jika halaman u memiliki link ke halaman v, maka

Text dan Web Mining - TI UKDW 16

E

v

u

,

)

(9)

Pengindeksan Teks Anchor

• Ketika mengindeks dokumen D, teks anchor disertakan

dari link yang menunjuk ke D.

www.ibm.com Armonk, NY-based computer

giant IBM announced today

Joe’s computer hardware links

Sun HP IBM

Big Blue today announced record profits for the quarter

Pengindeksan Teks Anchor

• Namun terkadang tidak semua teks anchor adalah benar.

• Dapatkah memberi bobot terhadap teks anchor? • bobot dapat dilakukan dengan memberikan tanda pada setiap

halaman yang memiliki teks anchor.

• jika web tersebut dipercaya, misalnya Google, Yahoo!, maka teks

anchor memiliki bobot tinggi. • Aplikasi lainnya

• pembobotan terhadap link dalam graf

• menghasilkan deskripsi halaman dari teks anchor.

(10)

PageRank

• Mengukur kualitas dari sebuah halaman web tidak dapat

hanya menggunakan in-links.

• Sebuah web page dikatakan memiliki reputasi baik, jika

halaman web bereputasi baik menunjuk web page tersebut.

• PageRank merupakan metode pembobotan setiap

halaman dengan nilai antara 0 – 1.

1

=

∈V v v

,

0

V

v

PageRank

• Setiap halaman web akan memiliki bobot PageRank,

dengan notasi:

• menyatakan:

• berapa banyak halaman lain yang menunjuk ke halaman u.

• PageRank sebuah halaman adalah jumlah dari semua PageRank

dari setiap halaman yang menunjuk ke halaman tersebut (in-degree).

Text dan Web Mining - TI UKDW 20

U

=

E V U U V ) , (

(11)

Na

ï

ve PageRank

• Jika halaman A menunjuk halaman B, A berkontribusi

dari PageRanknya untuk halaman B.

• Halaman B mengumpulkan kontribusi dari semua

halaman yang menunjuk ke B, untuk menentukan PageRank B. A d 1 A B C

1

2

2

=

+

+

+

=

=

=

C B A C A B B C B A

Contoh

Text dan Web Mining - TI UKDW 22

A B C A B C D E B

(12)

Kelemahan Na

ï

ve PageRank

• vulnerable to collision

• apa yang disebut sebagai link spam.

• pada slide 22, node C, D, dan E adalah link spam.

• dapat menghasilkan solusi tak terbatas

• tidak menemukan solusi

A B C P Q R

PageRank

• Menurut Page dan Brin (1998), untuk menghindari masalah naïve pagerank, diasumsikan pemakai mengunjungi tautan secara random dengan suatu probability tertentu.

• Nilai λ pada umumnya bernilai 0.85

• P1 adalah probabilitas mengunjungi v dari halaman lain

• P2 adalah probabilitas mengunjungi v secara acak

Text dan Web Mining - TI UKDW 24

V = P1+ P2 P1=

λ

U dU (U,V )∈E

$ % && ' ( )) P2 = (1−

λ

) N

(13)

PageRank

• Karena pada kenyataannya jumlah halaman web yang

dihitung sangatlah banyak, maka dilakukan pendekatan iteratif untuk setiap nilai PageRank halaman.

• Dalam tiap iterasi, digunakan formula: • p(k+1) = p(k) * H

• p adalah vektor PageRank tiap halaman web

• Untuk inisialisasi, p(0), digunakan nilai 1/n untuk tiap

halaman.

• n adalah jumlah halaman dalam graf.

• kemudian dilakukan perulangan sampai nilai perbedaan

antar kedua vektor terakhir cukup kecil.

• ditentukan dengan sebuah threshold.

PageRank

• Untuk mencegah adanya hasil PageRank adalah 0 jika

ditemukan adanya dangling nodes, maka matrix teleporation H, harus diubah dengan langkah:

• Buat matrix untuk Dangling Node

• dij = 0 jika Hij > 0

• dij = 1 jika Hij = 0

• Update matrix H dengan G (Google) Matrix:

Text dan Web Mining - TI UKDW 26

T e N e d H H =

λ

+(

λ

+(1−

λ

) ) 1 transporter

(14)

PageRank: Contoh

A B C D 0 1/3 1/3 1/3 0 0 ½ ½ 1 0 0 0 0.5 0 0.5 0 H=

Non Zero baris ke-i menunjukkan outlinking

page dari halaman ke-i.

Non Zero kolom ke-j menunjukkan inlinking

page dari halaman ke-j.

PageRank: Contoh

Text dan Web Mining - TI UKDW 28

dangling= 0 0 0 0 e= 1 1 1 1 eT= 1 1 1 1 G = λH + (λd + (1− λ)e) 1 Ne T 0.04 0.32 0.32 0.32 0.04 0.04 0.46 0.46 0.89 0.04 0.04 0.04 0.46 0.04 0.46 0.04 G=

(15)

PageRank: Contoh

p0= 0.25 0.25 0.25 0.25 p1= 0.25 0.25 0.25 0.25 0.04 0.32 0.32 0.32 0.04 0.04 0.46 0.46 0.89 0.04 0.04 0.04 0.46 0.04 0.46 0.04 0.2479 0.2500 0.2500 0.2500 = |p1-p0| = abs(0.2479-0.25)+ abs(0.25-0.25)+ abs(0.25-0.25)+ abs(0.25-0.25)=0.0021

PageRank: Contoh

Text dan Web Mining - TI UKDW 30

p2= 0.04 0.32 0.32 0.32 0.04 0.04 0.46 0.46 0.89 0.04 0.04 0.04 0.46 0.04 0.46 0.04 0.2478 0.2499 0.2481 0.2490 = 0.2479 0.2500 0.2500 0.2500 |p2-p1| = abs(0.2478-0.2479)+ abs(0.2499-0.25)+ abs(0.2481-0.25)+ abs(0.249-0.25)=0.0030

(16)

Algoritma HITS

• HITS singkatan dari Hypertext Induced Topic Search.

• Ketika pemakai memberikan query, HITS pertama akan

mendapatkan hasil dokumen yang relevan dengan query oleh mesin pencari dan menghasilkan 2 rangking:

• authority ranking

• hub ranking

• Authority adalah sebuah halaman dengan in-links

• Hub adalah sebuah halaman dengan out-links.

HITS

Text dan Web Mining - TI UKDW 32

AT&T

Alice

ITIM

Bob

O2

Mobile telecom companies Hubs

(17)

Algoritma HITS

Contoh HITS

Text dan Web Mining - TI UKDW 34

A B C 0 0 1 0 0 1 0 0 0 A= 0 0 0 0 0 0 1 1 0 AT= u= 1 1 1

(18)

Contoh HITS

v= AT.u = 1 1 1 0 0 0 0 0 0 1 1 0 = 0 0 2 Update vector hub

u= A.v = 0 0 2 0 0 1 0 0 1 0 0 0 = 2 2 0 Halaman C paling authoritative,

sedangkan A, dn B hub penting.

TERIMA KASIH

budi susanto

Referensi

Dokumen terkait

Untuk menganalisa hubungan umur terhadap FSH basal dan jumlah folikel antral ovarium dalam penilaian cadangan ovarium pada pasien infertil. Melihat hubungan umur dengan FSH

Dari hasil pengumpulan data diperoleh bahwa masyarakat Kecamatan Arongan Lambalek tidak mencerminkan perilaku yang mendukung pengendalian dan pencegahan malaria seperti

Berdasarkan uraian tersebut untuk melengkapi informasi yang ada, maka dilakukanlah penelitian mengenai uji aktivitas antioksidan fraksi etanol daun bawang mekah

Kendali mutu (Quality Control) radiologi diharapkan akan dapat mengendalikan persoalan yang berkaitan dengan kualitas gambar dan eksposi yang diterima

4.7 Kerahasiaan Informasi pribadi dari pengeluh sebaiknya tersedia hanya bila diperlukan, tetapi untuk sasaran penanganan keluhan didalam organisasi sebaiknya secara aktif

Tes TUBEX ® merupakan tes aglutinasi kompetitif semi kuantitatif yang sederhana, cepat (kurang lebih 5 menit) dan sangat akurat dalam diagnosis infeksi akut demam tifoid

Suriah sebagai salah satu negara Timur Tengah ikut terkena imbas fenomena Arab Spring. Dalam kasus Suriah fenomena politik Arab Spring tersebut berubah menjadi

Kesan-kesan buruk lain : Tiada kesan yang penting atau bahaya kritikal yang diketahui.