UTS 195314160

(1)

1. Arsitektur dalam sebuah sistem pemerolehan informasi yaitu Information Retrieval (IR).

Information Retrieval memiliki beberapa metode dalam mengambil data dan informasi antara lain inverted index, Boolean retrieval, tokenization, stemming and lemmatization, dictionaries, wildcard queries, dan vector space model. Inverted index adalah sebuah struktur data index yang dibangun untuk memudahkan query pencarian yang memotong tiap kata (term) yang berbeda dari suatu daftar term dokumen. Boolean Retrieval merupakan proses pencarian informasi dari query yang menggunakan ekspresi Boolean.

Dengan ekspresi boolean dengan menggunakan operator logika AND, OR dan NOT.

Tokenization adalah metode pemecah teks menjadi token-token yang berurutan. Proses tokenization primitif biasanya hanya memecah teks dengan whitespace sebagai pembagi, lalu mengubahnya menjadi huruf kecil supaya seragam. Stemming adalah proses untuk mendapatkan kata dasar dengan cara menghapus imbuhan kata. Information Retrieval (IR) bertujuan untuk memperoleh informasi yang bermanfaat dan relevan dengan permintaan user. Penekanan adalah pada informasi bukan hanya data.

2. Inverted indeks untuk mengindeks dokumen tersebut

document

Kata d1 d2 d3 d4 d5

Esdm 1 0 0 0 0

jokowi 1 0 0 0 1

Bbm 1 1 1 1 1

Pengumuman 1 0 0 0 0

kenaikan 1 1 1 1 0

Menteri 1 0 0 0 0

Harga 0 1 1 1 1

Kompromi 0 1 0 0 0

Dpr 0 1 0 0 0

Pemerintah 0 0 1 0 0

Subsidi 0 0 1 0 0

Komitmen 0 0 1 0 0

Sesuai 0 0 0 1 0

Mk 0 0 0 1 0

Keputusan 0 0 0 1 0

Bumerang 0 0 0 0 1

turun 0 0 0 0 1

3. Dokumen yang diretrieved a.

kenaikan NOT jokowi

Jawaban : d2, d3, d4

b.

((kenaikan OR bbm) AND jokowi) Jawaban : d1, d5

(2)

4. Jika terdapat kueri : “kenaikan BBM”. Gunakan similarity berdasar cosine similarity untuk mendapatkan urutan dokumen yang dihasilkan oleh sistem. (Gunakan log berbasis 10).

Jawaban:

Langah 1

term df idf

kenaikan 2 0,397940009

Langkah 2

doc1 doc2 doc3 doc4 doc5

kenaikan 1 1 1 1 0

BBM 1 1 2 1 1

Langkah 3

tf/idf

0,39794 0,39794 0,397940009 0,39794 0,39794

-0,07918 -0,07918 -0,079181246 -0,15836 -0,07918

Langkah 4

q

1 1 1 1 0

1 1 2 1 1

Langkah 5

tf/idf Q

0,39794 0,3979 0,397940009 0,39794 0

-0,07918 -0,079 -0,158362492 -0,07918 -0,07918

Langkah 6

inn.product

0,158356 0,158356 0,063016288 0,063016 0 0,00627 0,00627

-

0,001985761 -0,00099 -0,0005

Jumlah

0,164626 0,164626 0,061030527 0,062023 -0,0005

(3)

Langkah 7

q^2

0,158356251 0,158356 0,063016288 0,063016 0 0,00626967

0,00627

-

0,001985761 -0,00099 -0,0005 jumlah 0,16462592 0,164626 0,061030527 0,062023 -0,0005

Langkah 8

length

0,158356251 0,158356 0,063016288 0,063016 0 0,00626967

0,00627

-

0,001985761 -0,00099 -0,0005 jumlah 0,16462592 0,164626 0,061030527 0,062023 -0,0005

Langkah 9

q

1 1 0,351202 0,356916 -0,01545

similarity (berdasarkan rangking) yaitu :

5. .Sebuah sistem pemerolehan informasi melakukan proses retrieval berdasar kueri q terhadap sekumpulan dokumen. Dari hasil pemerolehan sistem, dilakukan pengujian relevansi terhadap 20 dokumen hasil terurut. Dokumen relevan dalam keseluruhan dokumen sebanyak 8 dokumen. Dibawah ini adalah relevansi dari 10 dokumen teratas yang dihasilkan system :

Jawaban :

Dokumen relevan query

1 R 0,16

2 R 0,33

3 N 0,33

4 N 0,33

5 N 0,33

6 N 0,33

7 N 0,33

8 N 0,33

9 R 0,5

10 N 0,5

(4)

11 R 0,66

12 N 0,66

13 N 0,66

14 N 0,66

15 R 0,83

16 N 0,83

17 N 0,83

18 N 0,83

19 N 0,83

20 R 1

Average = 0.555051

Recall Precision

0 1

10 1

20 1

30 1

40 0,36

50 0,36

60 0,36

70 0,33

80 0,33

90 0,3

Grafik

0 20 40 60 80 100 120

0 0,2 0,4 0,6 0,8 1 1,2

Grafik Precision

(5)

6. Misal terdapat kueri vektor q=(kota, yogya, indah, ramah, budaya). Tiga dokumen didentifikasi sebagai relevan (d1, d2, d3) dan dua dokumen tidak relevan (d4, d5).

d1 = (yogya,yogya,kota,aman,sepeda) d2 = (kota,kota,indah,aman, hijau) d3 = (yogya,kota,indah,aman,sepeda) d4 = (indah,aman,aman,kriminal,kota) d5 = (aman,indah,aman,bersih,yogya)

a. Hitunglah vector kueri hasil modifikasi menggunakan algoritma Rocchio.

Jawaban :

q1=3 kota ,3 yogya , 2 indah , 1 ramah , 1 budaya Prioritas

D1=(1x3+2x3) 9

D2=(2x3+1x2) 8

D3=(1x3+1x3+1x2) 8

D4=(1x2+1x3) 5

D5=(1x2+1x3) 5

Urutan d1,d2,atau d3,d4,atau d5

b. Bandingkan urutan dokumen relevan sebelum modifikasi dan sesudah modifikasi dengan perhitungan similarity menggunakan dot product

Jawaban :

vocab= (kota,yogya,indah,ramah,budaya,aman,sepeda,hijau,kriminal,bersih) Q0= (kota,yogya,indah,ramah,budaya)

Relevant D1= (1 Kota, 2 Yogya)

D2= (2 kota, 1 indah) D3= (1 Kota ,1 Yogya, Indah)

Non Relevant D4= (1 indah , 1 Kota ) D5= (1 indah, 1 yogya)