• Tidak ada hasil yang ditemukan

UTS 195314160

N/A
N/A
maria siska

Academic year: 2022

Membagikan "UTS 195314160"

Copied!
5
0
0

Teks penuh

(1)

1. Arsitektur dalam sebuah sistem pemerolehan informasi yaitu Information Retrieval (IR).

Information Retrieval memiliki beberapa metode dalam mengambil data dan informasi antara lain inverted index, Boolean retrieval, tokenization, stemming and lemmatization, dictionaries, wildcard queries, dan vector space model. Inverted index adalah sebuah struktur data index yang dibangun untuk memudahkan query pencarian yang memotong tiap kata (term) yang berbeda dari suatu daftar term dokumen. Boolean Retrieval merupakan proses pencarian informasi dari query yang menggunakan ekspresi Boolean.

Dengan ekspresi boolean dengan menggunakan operator logika AND, OR dan NOT.

Tokenization adalah metode pemecah teks menjadi token-token yang berurutan. Proses tokenization primitif biasanya hanya memecah teks dengan whitespace sebagai pembagi, lalu mengubahnya menjadi huruf kecil supaya seragam. Stemming adalah proses untuk mendapatkan kata dasar dengan cara menghapus imbuhan kata. Information Retrieval (IR) bertujuan untuk memperoleh informasi yang bermanfaat dan relevan dengan permintaan user. Penekanan adalah pada informasi bukan hanya data.

2. Inverted indeks untuk mengindeks dokumen tersebut

document

Kata d1 d2 d3 d4 d5

Esdm 1 0 0 0 0

jokowi 1 0 0 0 1

Bbm 1 1 1 1 1

Pengumuman 1 0 0 0 0

kenaikan 1 1 1 1 0

Menteri 1 0 0 0 0

Harga 0 1 1 1 1

Kompromi 0 1 0 0 0

Dpr 0 1 0 0 0

Pemerintah 0 0 1 0 0

Subsidi 0 0 1 0 0

Komitmen 0 0 1 0 0

Sesuai 0 0 0 1 0

Mk 0 0 0 1 0

Keputusan 0 0 0 1 0

Bumerang 0 0 0 0 1

turun 0 0 0 0 1

3. Dokumen yang diretrieved a.

kenaikan NOT jokowi

Jawaban : d2, d3, d4

b.

((kenaikan OR bbm) AND jokowi) Jawaban : d1, d5

(2)

4. Jika terdapat kueri : “kenaikan BBM”. Gunakan similarity berdasar cosine similarity untuk mendapatkan urutan dokumen yang dihasilkan oleh sistem. (Gunakan log berbasis 10).

Jawaban:

Langah 1

term df idf

kenaikan 2 0,397940009

Langkah 2

doc1 doc2 doc3 doc4 doc5

kenaikan 1 1 1 1 0

BBM 1 1 2 1 1

Langkah 3

tf/idf

doc1 doc2 doc3 doc4 doc5

0,39794 0,39794 0,397940009 0,39794 0,39794

-0,07918 -0,07918 -0,079181246 -0,15836 -0,07918

Langkah 4

q

doc1 doc2 doc3 doc4 doc5

1 1 1 1 0

1 1 2 1 1

Langkah 5

tf/idf Q

doc1 doc2 doc3 doc4 doc5

0,39794 0,3979 0,397940009 0,39794 0

-0,07918 -0,079 -0,158362492 -0,07918 -0,07918

Langkah 6

inn.product

doc1 doc2 doc3 doc4 doc5

0,158356 0,158356 0,063016288 0,063016 0 0,00627 0,00627

-

0,001985761 -0,00099 -0,0005

Jumlah

0,164626 0,164626 0,061030527 0,062023 -0,0005

(3)

Langkah 7

q^2

doc1 doc2 doc3 doc4 doc5

0,158356251 0,158356 0,063016288 0,063016 0 0,00626967

0,00627

-

0,001985761 -0,00099 -0,0005 jumlah 0,16462592 0,164626 0,061030527 0,062023 -0,0005

Langkah 8

length

doc1 doc2 doc3 doc4 doc5

0,158356251 0,158356 0,063016288 0,063016 0 0,00626967

0,00627

-

0,001985761 -0,00099 -0,0005 jumlah 0,16462592 0,164626 0,061030527 0,062023 -0,0005

Langkah 9

q

doc1 doc2 doc3 doc4 doc5

1 1 0,351202 0,356916 -0,01545

similarity (berdasarkan rangking) yaitu :

doc1 doc2 doc4 doc3 doc5

5. .Sebuah sistem pemerolehan informasi melakukan proses retrieval berdasar kueri q terhadap sekumpulan dokumen. Dari hasil pemerolehan sistem, dilakukan pengujian relevansi terhadap 20 dokumen hasil terurut. Dokumen relevan dalam keseluruhan dokumen sebanyak 8 dokumen. Dibawah ini adalah relevansi dari 10 dokumen teratas yang dihasilkan system :

Jawaban :

Dokumen relevan query

1 R 0,16

2 R 0,33

3 N 0,33

4 N 0,33

5 N 0,33

6 N 0,33

7 N 0,33

8 N 0,33

9 R 0,5

10 N 0,5

(4)

11 R 0,66

12 N 0,66

13 N 0,66

14 N 0,66

15 R 0,83

16 N 0,83

17 N 0,83

18 N 0,83

19 N 0,83

20 R 1

Average = 0.555051

Recall Precision

0 1

10 1

20 1

30 1

40 0,36

50 0,36

60 0,36

70 0,33

80 0,33

90 0,3

Grafik

0 20 40 60 80 100 120

0 0,2 0,4 0,6 0,8 1 1,2

Grafik Precision

(5)

6. Misal terdapat kueri vektor q=(kota, yogya, indah, ramah, budaya). Tiga dokumen didentifikasi sebagai relevan (d1, d2, d3) dan dua dokumen tidak relevan (d4, d5).

d1 = (yogya,yogya,kota,aman,sepeda) d2 = (kota,kota,indah,aman, hijau) d3 = (yogya,kota,indah,aman,sepeda) d4 = (indah,aman,aman,kriminal,kota) d5 = (aman,indah,aman,bersih,yogya)

a. Hitunglah vector kueri hasil modifikasi menggunakan algoritma Rocchio.

Jawaban :

q1=3 kota ,3 yogya , 2 indah , 1 ramah , 1 budaya Prioritas

D1=(1x3+2x3) 9

D2=(2x3+1x2) 8

D3=(1x3+1x3+1x2) 8

D4=(1x2+1x3) 5

D5=(1x2+1x3) 5

Urutan d1,d2,atau d3,d4,atau d5

b. Bandingkan urutan dokumen relevan sebelum modifikasi dan sesudah modifikasi dengan perhitungan similarity menggunakan dot product

Jawaban :

vocab= (kota,yogya,indah,ramah,budaya,aman,sepeda,hijau,kriminal,bersih) Q0= (kota,yogya,indah,ramah,budaya)

Relevant D1= (1 Kota, 2 Yogya)

D2= (2 kota, 1 indah) D3= (1 Kota ,1 Yogya, Indah)

Non Relevant D4= (1 indah , 1 Kota ) D5= (1 indah, 1 yogya)

Referensi

Dokumen terkait

Terjadi peristiwa Cikini, yaitu peristiwa percobaan pembunuhan terhadap Presiden Sukarno di depan Perguruan Cikini pada tanggal 30 November 1957 dan menyebabkan

Berdasarkan temuan penelitian, dapat disimpulkan bahwa perangkat pembelajaran berbasis learner autonomy yang dikembangkan dinyatakan layak untuk meningkatkan

Dari hasil analisis data ujaran dalam percakapan yang telah dikumpulakn, terdapat jumlah ujaran dalam percakapan yang sifatnya timbal balik antara pelaku satu

Quality of work life pada dasarnya mencari cara untuk meningkatkan kualitas kehidupan dan menciptakan pekerjaan yang lebih baik atau tercapainya kinerja kerja yang

Di dalam penyusunan proposal digitalisasi Laboratorium Fisika Dasar berbasis IoT ini mempunyai tujuan untuk meningkatkan pengelolaan layanan laboratorium bagi peserta didik di

Pada kasus ini pasien dipulangkan dari RS setelah perawatan selama 5 hari dengan alasan secara klinis membaik yaitu tanda perdarahan tidak ditemukan lagi,

Kesimpulan  Pengklasifikasian kelas galangan nasional menggunakan standar IPERINDO (Ikatan Perusahaan Industri Galangan dan Sarana Lepas Pantai Indonesia), yang sudah

M engingat populasi burung kakatua di Pulau Komodo banyak ditemukan di lembah-lembah maka penting untuk melakukan penelitian seleksi habitat burung kakatua dengan variasi