OKAPI BM25
Dalam pencarian informasi, Okapi BM25 adalah fungsi peringkat yang digunakan oleh mesin
pencari untuk peringkat dokumen pencocokan sesuai dengan relevansinya dengan permintaan
pencarian tertentu. Hal ini didasarkan pada kerangka pengambilan probabilistik
dikembangkan pada 1970-an dan 1980-an oleh Stephen E. Robertson, Karen Sparck Jones,
dan lain-lain.
Nama fungsi peringkat sebenarnya BM25. Untuk mengatur konteks yang tepat,
bagaimanapun, biasanya disebut sebagai "Okapi BM25", karena informasi Okapi sistem
pengambilan, dilaksanakan di London City University pada tahun 1980 dan 1990-an, adalah
sistem pertama yang mengimplementasikan fungsi ini.
BM25, dan yang lebih baru varian, misalnya BM25F (versi BM25 yang dapat mengambil
struktur dokumen dan teks jangkar ke rekening), mewakili negara-of-the-art TF-IDF-seperti
fungsi pengambilan digunakan dalam pengambilan dokumen, seperti pencarian Web.
BM25 adalah tas-of-kata pencarian fungsi yang peringkat satu set dokumen berdasarkan istilah permintaan muncul dalam setiap dokumen, terlepas dari hubungan antar-antara istilah permintaan dalam dokumen (misalnya, kedekatan relatifnya). Ini bukan fungsi tunggal, tetapi sebenarnya seluruh keluarga mencetak fungsi, dengan komponen yang sedikit berbeda dan parameter. Salah satu yang paling menonjol dari instantiations fungsinya adalah sebagai berikut.
Mengingat permintaan Q, yang mengandung kata kunci q_1, ..., q_n, skor BM25 dari D dokumen adalah:
di mana f (q_i, D) adalah frekuensi istilah q_i dalam dokumen D, | D | adalah panjang D dokumen dalam kata-kata, dan avgdl adalah panjang rata-rata dokumen dalam koleksi teks dari dokumen yang diambil. k_1 dan b adalah parameter bebas, biasanya dipilih, dalam ketiadaan optimasi maju, seperti k_1 \ di [1.2,2.0] dan b = 0,75 [1]. \ text {} IDF (q_i) adalah IDF (frekuensi dokumen invers) berat q_i jangka query. Hal ini biasanya dihitung sebagai:
di mana N adalah jumlah total dokumen dalam koleksi, dan n (q_i) adalah jumlah dokumen yang mengandung q_i.
Ada beberapa interpretasi untuk IDF dan sedikit variasi pada formula. Dalam derivasi BM25 asli, komponen IDF berasal dari Model Kemerdekaan Binary.