1. Arsitektur dalam sebuah sistem pemerolehan informasi yaitu Information Retrieval (IR).
Information Retrieval memiliki beberapa metode dalam mengambil data dan informasi antara lain inverted index, Boolean retrieval, tokenization, stemming and lemmatization, dictionaries, wildcard queries, dan vector space model. Inverted index adalah sebuah struktur data index yang dibangun untuk memudahkan query pencarian yang memotong tiap kata (term) yang berbeda dari suatu daftar term dokumen. Boolean Retrieval merupakan proses pencarian informasi dari query yang menggunakan ekspresi Boolean.
Dengan ekspresi boolean dengan menggunakan operator logika AND, OR dan NOT.
Tokenization adalah metode pemecah teks menjadi token-token yang berurutan. Proses tokenization primitif biasanya hanya memecah teks dengan whitespace sebagai pembagi, lalu mengubahnya menjadi huruf kecil supaya seragam. Stemming adalah proses untuk mendapatkan kata dasar dengan cara menghapus imbuhan kata. Information Retrieval (IR) bertujuan untuk memperoleh informasi yang bermanfaat dan relevan dengan permintaan user. Penekanan adalah pada informasi bukan hanya data.
2. Inverted indeks untuk mengindeks dokumen tersebut
document
Kata d1 d2 d3 d4 d5
Esdm 1 0 0 0 0
jokowi 1 0 0 0 1
Bbm 1 1 1 1 1
Pengumuman 1 0 0 0 0
kenaikan 1 1 1 1 0
Menteri 1 0 0 0 0
Harga 0 1 1 1 1
Kompromi 0 1 0 0 0
Dpr 0 1 0 0 0
Pemerintah 0 0 1 0 0
Subsidi 0 0 1 0 0
Komitmen 0 0 1 0 0
Sesuai 0 0 0 1 0
Mk 0 0 0 1 0
Keputusan 0 0 0 1 0
Bumerang 0 0 0 0 1
turun 0 0 0 0 1
3. Dokumen yang diretrieved a.
kenaikan NOT jokowiJawaban : d2, d3, d4
b.
((kenaikan OR bbm) AND jokowi) Jawaban : d1, d54. Jika terdapat kueri : “kenaikan BBM”. Gunakan similarity berdasar cosine similarity untuk mendapatkan urutan dokumen yang dihasilkan oleh sistem. (Gunakan log berbasis 10).
Jawaban:
Langah 1
term df idf
kenaikan 2 0,397940009
Langkah 2
doc1 doc2 doc3 doc4 doc5
kenaikan 1 1 1 1 0
BBM 1 1 2 1 1
Langkah 3
tf/idf
doc1 doc2 doc3 doc4 doc5
0,39794 0,39794 0,397940009 0,39794 0,39794
-0,07918 -0,07918 -0,079181246 -0,15836 -0,07918
Langkah 4
q
doc1 doc2 doc3 doc4 doc5
1 1 1 1 0
1 1 2 1 1
Langkah 5
tf/idf Q
doc1 doc2 doc3 doc4 doc5
0,39794 0,3979 0,397940009 0,39794 0
-0,07918 -0,079 -0,158362492 -0,07918 -0,07918
Langkah 6
inn.product
doc1 doc2 doc3 doc4 doc5
0,158356 0,158356 0,063016288 0,063016 0 0,00627 0,00627
-
0,001985761 -0,00099 -0,0005
Jumlah
0,164626 0,164626 0,061030527 0,062023 -0,0005Langkah 7
q^2
doc1 doc2 doc3 doc4 doc5
0,158356251 0,158356 0,063016288 0,063016 0 0,00626967
0,00627
-
0,001985761 -0,00099 -0,0005 jumlah 0,16462592 0,164626 0,061030527 0,062023 -0,0005
Langkah 8
length
doc1 doc2 doc3 doc4 doc5
0,158356251 0,158356 0,063016288 0,063016 0 0,00626967
0,00627
-
0,001985761 -0,00099 -0,0005 jumlah 0,16462592 0,164626 0,061030527 0,062023 -0,0005
Langkah 9
q
doc1 doc2 doc3 doc4 doc5
1 1 0,351202 0,356916 -0,01545
similarity (berdasarkan rangking) yaitu :
doc1 doc2 doc4 doc3 doc5
5. .Sebuah sistem pemerolehan informasi melakukan proses retrieval berdasar kueri q terhadap sekumpulan dokumen. Dari hasil pemerolehan sistem, dilakukan pengujian relevansi terhadap 20 dokumen hasil terurut. Dokumen relevan dalam keseluruhan dokumen sebanyak 8 dokumen. Dibawah ini adalah relevansi dari 10 dokumen teratas yang dihasilkan system :
Jawaban :
Dokumen relevan query
1 R 0,16
2 R 0,33
3 N 0,33
4 N 0,33
5 N 0,33
6 N 0,33
7 N 0,33
8 N 0,33
9 R 0,5
10 N 0,5
11 R 0,66
12 N 0,66
13 N 0,66
14 N 0,66
15 R 0,83
16 N 0,83
17 N 0,83
18 N 0,83
19 N 0,83
20 R 1
Average = 0.555051
Recall Precision
0 1
10 1
20 1
30 1
40 0,36
50 0,36
60 0,36
70 0,33
80 0,33
90 0,3
Grafik
0 20 40 60 80 100 120
0 0,2 0,4 0,6 0,8 1 1,2
Grafik Precision
6. Misal terdapat kueri vektor q=(kota, yogya, indah, ramah, budaya). Tiga dokumen didentifikasi sebagai relevan (d1, d2, d3) dan dua dokumen tidak relevan (d4, d5).
d1 = (yogya,yogya,kota,aman,sepeda) d2 = (kota,kota,indah,aman, hijau) d3 = (yogya,kota,indah,aman,sepeda) d4 = (indah,aman,aman,kriminal,kota) d5 = (aman,indah,aman,bersih,yogya)
a. Hitunglah vector kueri hasil modifikasi menggunakan algoritma Rocchio.
Jawaban :
q1=3 kota ,3 yogya , 2 indah , 1 ramah , 1 budaya Prioritas
D1=(1x3+2x3) 9
D2=(2x3+1x2) 8
D3=(1x3+1x3+1x2) 8
D4=(1x2+1x3) 5
D5=(1x2+1x3) 5
Urutan d1,d2,atau d3,d4,atau d5
b. Bandingkan urutan dokumen relevan sebelum modifikasi dan sesudah modifikasi dengan perhitungan similarity menggunakan dot product
Jawaban :
vocab= (kota,yogya,indah,ramah,budaya,aman,sepeda,hijau,kriminal,bersih) Q0= (kota,yogya,indah,ramah,budaya)
Relevant D1= (1 Kota, 2 Yogya)
D2= (2 kota, 1 indah) D3= (1 Kota ,1 Yogya, Indah)
Non Relevant D4= (1 indah , 1 Kota ) D5= (1 indah, 1 yogya)