• Tidak ada hasil yang ditemukan

SISTEM TEMU KEMBALI INFORMASI

N/A
N/A
Protected

Academic year: 2021

Membagikan "SISTEM TEMU KEMBALI INFORMASI"

Copied!
7
0
0

Teks penuh

(1)

ROCCHIO CLASSIFICATION

Badrus Zaman, S.Si., M.Kom

081211633014

Emilia Fitria Fahma

S1 Sistem Informasi

Universitas Airlangga

Doc. 1 …..???? Doc. 2 …..**** Doc. 3 …. #### Doc. 4 …..@@@

(2)

2 | S T K I

Pengertian Teknik Rocchio

Rocchio classifiers merupakan salah satu metode pembelajara supervised document classification. Metode klsifikasi rocchio membandingkan kesamaan isi antara data training dan data test dengan merepresentsaikan semua data ke dalam sebuah vector. Kedekatan kesamaan isi dihitung dari kedekatan sudut yang terbentuk antara bobot data training dan bobot data test menggunakan aturan sodinus. Untuk menghitung bobot setiap kata dalam dokumen digunakan skema pembobotan tfidf (Term Frequency / Invers Document Frequency) karena komponen heuristic utama adalah klasifikasi rocchio yaitu skema pembobtan tfidf, metode pembelajaran rocchio disebut juga dengan tfidf Classifiers (Joachihms,1997)

Didalam membandngkan kesamaan isi antara data training dan data test, tfidf classifiers menggunakan prototype vector untuk merepresentasikan kategori yang terbentuk dari data training, dengan kata lain prototype vector merupakan vector yang mewakili seluruh vector data training dalam setiap kategori. Tiga hal utama yang dapat dipakai pada klasifikasi tfidf adalah menggunakan skema pembobotan tfidf yang berguna untuk merepresentsikan dokumen ke dalam sebuah vector, merepresentasikan prototype setiap kategori dengan menjumlahkan vector – vector dalam satu kategori dari data training, membandingkan kedekatan sudut antara vector data test dengan semua prototype vector (Tomassen, 2007)

Algoritma rocchio diasumsikan bahwa sebagian pengguna memiliki konsep umum pada dokumen yang relevan dan non-relevan sebagai saranan meningkatkan pencarian yang singkat dan presisi. Berikut adalah rumus dan definisi variabel untuk rocchio relevansi umpan balik sebagai berikut :

Keterangan :

Variabel Nilai

Modifikasi query vector Query vector yang asli

(3)

3 | S T K I

Keterbatasan Teknik Rocchio

Teknik Rocchio ini memiliki keterbatasan dimana sering gagal untuk mengklasifikasikan kelas multimodal dan hubungan. Misalnya, negara Burma berganti nama menjadi Myanmar pada tahun 1989. Oleh karena itu dua pertanyaan dari "Burma" dan "Myanmar" akan muncul lebih jauh terpisah dalam vector space model , meskipun mereka sama-sama mengandung asal yang sama.

Kegunaan Teknik Rocchio

Dalam menggunakan vector space model diperlukan batas-batas antar kelas untuk mengetahui klasifikasi yang sesuai.Teknik Rocchio menerapkan batasbatas tersebut dalam bentuk centroid untuk memberi batasan tersebut. Centroid sebuah kelas c adalah rata-rata semua vektor yang berada pada kelas c.

Dimana Dc adalah himpunan dokumen di dalam korpus pada kelas c. Sedangkan v(d) merupakan vektor dokumen yang telah dinormalisasi.Untuk menentukankemiripan dua vektor space model ada dua cara yaitu dengan mengukur jarak atau dengan mengukur kemiripan. Dalam menentukan jarak (distance) antara dua vektor space model digunakan jarak euclidean.

Dan dengan menghitung kemiripan (similarity) antara dua vektor dokumen adalah sebagai berikut:

Dokumen vector yang relevan

Dokumen vector yang tidak relevan Berat query yang asli

Dokumen relevan Dokumen non relevan Set dokumen relevan

(4)

4 | S T K I

Jika terdapat suatu kueri diproses menjadi sebuah vektor space, maka dapat dibandingkan dengan masing-masing centroid kelas yang ada pada korpus. Dengan dua pendekatan mencari kemiripan dua vektor space., vektor kueri dianggap mirip dengan sebuah centorid kelas dapaat dilakukan dengan menggunakan jarak (distance) atau menggunakan kemiripan (similarity). Jika menggunakan jarak, yang dicari adalah kelas yang memiliki jarak yang terkecil dengan kueri. Dan jika menggunakan kemiripan yang dicari adalah kelas yang memiliki kemiripan yang paling besar dengan kueri, seperti yang ada di bawah:

- menggunakan jarak

- menggunakan kemiripan

1. Term frequency and weighting

 Berdasarkan frekuensi munculnya term yang sesuai dengan

query

 Term yang sama akan dijumlah semua frekuensinya

 Akan tetapi metode ingin masih kurang bagus karena :

Jika dokumen yang digunakan adalah dokumen yang lebih besar, maka dokumen tersebut memiliki term yang lebih banyak sehingga score-nya pun lebih besar.

 Langkah-langkah dalam menggunakan metode ini adalah : a. Tiap-tiap dokumen dipecah menjadi term-term

b. Kemudian term yang sudah ada diurutkan menjadi sebuah kamus di dalam sebuah kolom (catatan : jika ada beberapa term yang sama, maka hanya ditulis sekali)

c. Di sebelah kanan kolom term, tambahkan 2 kolom lagi. Kolom yang pertama untuk frekuensi term (tf). Hitung jumlah term sama.

d. Untuk kolom yang kedua untuk kolom idft. Rumus :

idft =

N : banyaknya dokumen

dft : frekuensi dari sebuah term

e. Tambahkan kolom lagi untuk bobot dari term Rumus :

(5)

5 | S T K I

2. The Rocchio algorithm for relevance feedback

Metode ini merupakan strategi reformulasi query paling populer karena sering digunakan untuk membantu user pemula suatu information

retrieval systems. Rocchio memandang feedback sebagai

permasalahan mencari sebuah query optimal, yaitu query yang memaksimalkan selisih antara dokumen relevan dengan dokumen tak relevan.

 Langkah-langkah pengolahan query

a. Text Mining Dan Klasifikasi Teks : mencari dan mengelompokkan dokumen ke dalam kategori tertentu

b. Parsering : memilah isi dokumen menjadi unit-unit kecil (token), yang berupa kata, frase, atau kalimat.

c. Stemming : proses penghilangan prefiks (awalan) dan sufiks (akhiran)

d. Inverted Index : struktur yang dioptimasi untuk menemukan kembali dokumen

 Dalam menggunakan vector space model diperlukan batas-batas antar kelas untuk mengetahui klasifikasi yang sesuai. Teknik Rocchio menggunakan centroid untuk batas-batas tersebut.

Dc : himpunan dokumen pada suatu kelas (kelas c)

 Untuk menentukan kemiripan 2 vector space model data dapat dilakukan dengan 2 cara, yaitu :

a. Menentukan jarak antara 2 vector space model dengan cara menggunakan jarak euclidean.

(6)

6 | S T K I  Contoh penggunaan Rocchio Algorithm

Query = Sistem

Dokumen 1 : Sistem adalah kumpulan elemen

Dokumen 2 : Adalah kumpulan elemen yang saling berinteraksi Dokumen 3 : Sistem berinteraksi untuk mencapai tujuan

Proses parsering

Doc 1 : sistem, adalah, kumpulan, elemen

Doc 2 : adalah, kumpulan, elemen, yang, saling, berinteraksi Doc 3 : sistem, berinteraksi, untuk, mencapai, tujuan

Proses filtering

Doc 1 : sistem, kumpulan, elemen

Doc 2 : kumpulan, elemen, saling, berinteraksi Doc 3 : sistem, berinteraksi, mencapai, tujuan Proses Stemming

Doc 1 : sistem, kumpul, elemen

Doc 2 : kumpul, elemen, saling, interaksi Doc 3 : sistem, interaksi, capai, tujuan  Menghitung tf-idf term tf df D/df Log (D/df) W Q D1 D2 D3 Q D1 D2 D3 Capai 0 0 0 1 1 3 0,477 0 0 0 0,477 Elemen 0 1 1 0 2 1,5 0,176 0 0,176 0,176 0 Interaksi 0 0 1 1 2 1,5 0,176 0 0 0,176 0,176 Kumpul 0 1 1 0 2 1,5 0,176 0 0,176 0,176 0 Saling 0 0 1 0 1 3 0,477 0 0 0,477 0 Sistem 1 1 0 1 2 1,5 0,176 0.176 0,176 0 0,176 tujuan 0 0 0 1 1 3 0,477 0 0 0 0,477

(7)

7 | S T K I

 Menghitung jarak dokumen dan query

Term W(Q)*W(Di) Panjang Vektor

D1 D2 D3 Q^2 D1^2 D2^2 D3^2 Capai 0 0 0 0 0 0 0,227 Elemen 0 0 0 0 0,031 0,031 0 Interaksi 0 0 0 0 0 0,031 0,031 Kumpul 0 0 0 0 0,031 0,031 0 Saling 0 0 0 0 0 0,227 0 Sistem 0,031 0 0,031 0,031 0,031 0 0,031 Tujuan 0 0 0 0 0 0 0,227 0,031 0 0,031 0,031 0,093 0,321 0,517 SUM 0,176 0,305 0,566 0,719 SQRT  Cosine similarity D1 D2 D3 0,053 0 0,12 Sumber http://jurnal.fmipa.unila.ac.id/index.php/semirata/article/view/881/700 http://translate.google.com/translate?hl=id&sl=en&u=http://en.wikipedia.org/wiki/Rocchio_al gorithm&prev=/search%3Fq%3Drocchio%2Bclassification%26es_sm%3D93%26biw%3D1366%2 6bih%3D643

Referensi

Dokumen terkait

Berdasarkan permasalahan tersebut, terlihat bahwa kendala pendakian gunung di Jawa Barat, yaitu media yang dapat memuat informasi mengenai potensi bahaya pendakian

Kata humas adalah merupakan singkatan dari Hubungan Masyarakat, belum ada ilmuan yang dapat menafsirkan arti kata humas dengan memuaskan karena memang banyak

Perzinahan dipandang dari aspek religious merupakan perbuatan yang melanggar sila ke-3 dari Pancasila Buddhis yaitu: “Aku bertekad untuk melatih diri menghindari

Hasil uji F menunjukkan bahwa perlakuan jarak tanam kemangi tidak berpengaruh nyata terhadap pertumbuhan vegetatif yaitu tinggi tanaman, jumlah daun, dan jumlah

Scene tersebut menggambarkan Nia membantu ibunya memecahkan batu di halaman rumah ditemani jug oleh Inal yang asik.. Keharmonisan keluarga ini sangat terlihat ketika Nia

Secara garis besar yang dimaksud dengan Awig-awig adalah patokan- patokan tingkah laku, baik tertulis maupun tidak tertulis yang dibuat oleh masyarakat yang

5. Pekerjaan pembuatan rangka dinding dan pemasangan dinding pemisah; 6. Pekerjaan pemasangan listplank kayu dan list plafond. Pelaksana pembangunan gedung dan perumahan

Sekiranya anda dapat mengakses atau melihat maklumat tersebut, anda menjamin dan memberi representasi bahawa melainkan jika pendedahan tersebut disediakan dengan jelas