ROCCHIO CLASSIFICATION
Badrus Zaman, S.Si., M.Kom
081211633014
Emilia Fitria Fahma
S1 Sistem Informasi
Universitas Airlangga
Doc. 1 …..???? Doc. 2 …..**** Doc. 3 …. #### Doc. 4 …..@@@2 | S T K I
Pengertian Teknik Rocchio
Rocchio classifiers merupakan salah satu metode pembelajara supervised document classification. Metode klsifikasi rocchio membandingkan kesamaan isi antara data training dan data test dengan merepresentsaikan semua data ke dalam sebuah vector. Kedekatan kesamaan isi dihitung dari kedekatan sudut yang terbentuk antara bobot data training dan bobot data test menggunakan aturan sodinus. Untuk menghitung bobot setiap kata dalam dokumen digunakan skema pembobotan tfidf (Term Frequency / Invers Document Frequency) karena komponen heuristic utama adalah klasifikasi rocchio yaitu skema pembobtan tfidf, metode pembelajaran rocchio disebut juga dengan tfidf Classifiers (Joachihms,1997)
Didalam membandngkan kesamaan isi antara data training dan data test, tfidf classifiers menggunakan prototype vector untuk merepresentasikan kategori yang terbentuk dari data training, dengan kata lain prototype vector merupakan vector yang mewakili seluruh vector data training dalam setiap kategori. Tiga hal utama yang dapat dipakai pada klasifikasi tfidf adalah menggunakan skema pembobotan tfidf yang berguna untuk merepresentsikan dokumen ke dalam sebuah vector, merepresentasikan prototype setiap kategori dengan menjumlahkan vector – vector dalam satu kategori dari data training, membandingkan kedekatan sudut antara vector data test dengan semua prototype vector (Tomassen, 2007)
Algoritma rocchio diasumsikan bahwa sebagian pengguna memiliki konsep umum pada dokumen yang relevan dan non-relevan sebagai saranan meningkatkan pencarian yang singkat dan presisi. Berikut adalah rumus dan definisi variabel untuk rocchio relevansi umpan balik sebagai berikut :
Keterangan :
Variabel Nilai
Modifikasi query vector Query vector yang asli
3 | S T K I
Keterbatasan Teknik Rocchio
Teknik Rocchio ini memiliki keterbatasan dimana sering gagal untuk mengklasifikasikan kelas multimodal dan hubungan. Misalnya, negara Burma berganti nama menjadi Myanmar pada tahun 1989. Oleh karena itu dua pertanyaan dari "Burma" dan "Myanmar" akan muncul lebih jauh terpisah dalam vector space model , meskipun mereka sama-sama mengandung asal yang sama.
Kegunaan Teknik Rocchio
Dalam menggunakan vector space model diperlukan batas-batas antar kelas untuk mengetahui klasifikasi yang sesuai.Teknik Rocchio menerapkan batasbatas tersebut dalam bentuk centroid untuk memberi batasan tersebut. Centroid sebuah kelas c adalah rata-rata semua vektor yang berada pada kelas c.
Dimana Dc adalah himpunan dokumen di dalam korpus pada kelas c. Sedangkan v(d) merupakan vektor dokumen yang telah dinormalisasi.Untuk menentukankemiripan dua vektor space model ada dua cara yaitu dengan mengukur jarak atau dengan mengukur kemiripan. Dalam menentukan jarak (distance) antara dua vektor space model digunakan jarak euclidean.
Dan dengan menghitung kemiripan (similarity) antara dua vektor dokumen adalah sebagai berikut:
Dokumen vector yang relevan
Dokumen vector yang tidak relevan Berat query yang asli
Dokumen relevan Dokumen non relevan Set dokumen relevan
4 | S T K I
Jika terdapat suatu kueri diproses menjadi sebuah vektor space, maka dapat dibandingkan dengan masing-masing centroid kelas yang ada pada korpus. Dengan dua pendekatan mencari kemiripan dua vektor space., vektor kueri dianggap mirip dengan sebuah centorid kelas dapaat dilakukan dengan menggunakan jarak (distance) atau menggunakan kemiripan (similarity). Jika menggunakan jarak, yang dicari adalah kelas yang memiliki jarak yang terkecil dengan kueri. Dan jika menggunakan kemiripan yang dicari adalah kelas yang memiliki kemiripan yang paling besar dengan kueri, seperti yang ada di bawah:
- menggunakan jarak
- menggunakan kemiripan
1. Term frequency and weighting
Berdasarkan frekuensi munculnya term yang sesuai dengan
query
Term yang sama akan dijumlah semua frekuensinya
Akan tetapi metode ingin masih kurang bagus karena :
Jika dokumen yang digunakan adalah dokumen yang lebih besar, maka dokumen tersebut memiliki term yang lebih banyak sehingga score-nya pun lebih besar.
Langkah-langkah dalam menggunakan metode ini adalah : a. Tiap-tiap dokumen dipecah menjadi term-term
b. Kemudian term yang sudah ada diurutkan menjadi sebuah kamus di dalam sebuah kolom (catatan : jika ada beberapa term yang sama, maka hanya ditulis sekali)
c. Di sebelah kanan kolom term, tambahkan 2 kolom lagi. Kolom yang pertama untuk frekuensi term (tf). Hitung jumlah term sama.
d. Untuk kolom yang kedua untuk kolom idft. Rumus :
idft =
N : banyaknya dokumen
dft : frekuensi dari sebuah term
e. Tambahkan kolom lagi untuk bobot dari term Rumus :
5 | S T K I
2. The Rocchio algorithm for relevance feedback
Metode ini merupakan strategi reformulasi query paling populer karena sering digunakan untuk membantu user pemula suatu information
retrieval systems. Rocchio memandang feedback sebagai
permasalahan mencari sebuah query optimal, yaitu query yang memaksimalkan selisih antara dokumen relevan dengan dokumen tak relevan.
Langkah-langkah pengolahan query
a. Text Mining Dan Klasifikasi Teks : mencari dan mengelompokkan dokumen ke dalam kategori tertentu
b. Parsering : memilah isi dokumen menjadi unit-unit kecil (token), yang berupa kata, frase, atau kalimat.
c. Stemming : proses penghilangan prefiks (awalan) dan sufiks (akhiran)
d. Inverted Index : struktur yang dioptimasi untuk menemukan kembali dokumen
Dalam menggunakan vector space model diperlukan batas-batas antar kelas untuk mengetahui klasifikasi yang sesuai. Teknik Rocchio menggunakan centroid untuk batas-batas tersebut.
Dc : himpunan dokumen pada suatu kelas (kelas c)
Untuk menentukan kemiripan 2 vector space model data dapat dilakukan dengan 2 cara, yaitu :
a. Menentukan jarak antara 2 vector space model dengan cara menggunakan jarak euclidean.
6 | S T K I Contoh penggunaan Rocchio Algorithm
Query = Sistem
Dokumen 1 : Sistem adalah kumpulan elemen
Dokumen 2 : Adalah kumpulan elemen yang saling berinteraksi Dokumen 3 : Sistem berinteraksi untuk mencapai tujuan
Proses parsering
Doc 1 : sistem, adalah, kumpulan, elemen
Doc 2 : adalah, kumpulan, elemen, yang, saling, berinteraksi Doc 3 : sistem, berinteraksi, untuk, mencapai, tujuan
Proses filtering
Doc 1 : sistem, kumpulan, elemen
Doc 2 : kumpulan, elemen, saling, berinteraksi Doc 3 : sistem, berinteraksi, mencapai, tujuan Proses Stemming
Doc 1 : sistem, kumpul, elemen
Doc 2 : kumpul, elemen, saling, interaksi Doc 3 : sistem, interaksi, capai, tujuan Menghitung tf-idf term tf df D/df Log (D/df) W Q D1 D2 D3 Q D1 D2 D3 Capai 0 0 0 1 1 3 0,477 0 0 0 0,477 Elemen 0 1 1 0 2 1,5 0,176 0 0,176 0,176 0 Interaksi 0 0 1 1 2 1,5 0,176 0 0 0,176 0,176 Kumpul 0 1 1 0 2 1,5 0,176 0 0,176 0,176 0 Saling 0 0 1 0 1 3 0,477 0 0 0,477 0 Sistem 1 1 0 1 2 1,5 0,176 0.176 0,176 0 0,176 tujuan 0 0 0 1 1 3 0,477 0 0 0 0,477
7 | S T K I
Menghitung jarak dokumen dan query
Term W(Q)*W(Di) Panjang Vektor
D1 D2 D3 Q^2 D1^2 D2^2 D3^2 Capai 0 0 0 0 0 0 0,227 Elemen 0 0 0 0 0,031 0,031 0 Interaksi 0 0 0 0 0 0,031 0,031 Kumpul 0 0 0 0 0,031 0,031 0 Saling 0 0 0 0 0 0,227 0 Sistem 0,031 0 0,031 0,031 0,031 0 0,031 Tujuan 0 0 0 0 0 0 0,227 0,031 0 0,031 0,031 0,093 0,321 0,517 SUM 0,176 0,305 0,566 0,719 SQRT Cosine similarity D1 D2 D3 0,053 0 0,12 Sumber http://jurnal.fmipa.unila.ac.id/index.php/semirata/article/view/881/700 http://translate.google.com/translate?hl=id&sl=en&u=http://en.wikipedia.org/wiki/Rocchio_al gorithm&prev=/search%3Fq%3Drocchio%2Bclassification%26es_sm%3D93%26biw%3D1366%2 6bih%3D643