Analisis Pencarian - APLIKASI WEB - Dr. Ir. Agus Wibowo, M.Kom, M.Si, MM

BAB 8 APLIKASI WEB

8.4 Analisis Pencarian

Memanfaatkan data yang disimpan dalam log pencarian mesin pencari Web, intranet, dan situs web memberikan wawasan penting untuk memahami kebiasaan dan taktik pencarian informasi dari pencari online. Perusahaan mesin pencari web menggunakan log pencarian (juga disebut sebagai log transaksi) untuk menyelidiki tren pencarian dan efek perbaikan sistem. Pemahaman ini dapat menginformasikan desain sistem informasi,

pengembangan antarmuka, dan konstruksi arsitektur informasi untuk koleksi konten. Log pencarian adalah metode yang tidak mencolok untuk mengumpulkan sejumlah besar data pencarian pada sejumlah besar pengguna sistem.

Log pencarian adalah catatan elektronik dari interaksi yang telah terjadi selama episode pencarian antara mesin pencari Web dan pengguna yang mencari informasi di mesin pencari Web tersebut. Pengguna dapat berupa manusia atau program komputer yang bertindak atas nama manusia. Interaksi adalah pertukaran komunikasi yang terjadi antara pengguna dan sistem yang diprakarsai oleh pengguna atau sistem. Sebagian besar log pencarian adalah rekaman interaksi sisi server; aplikasi perangkat lunak server dapat merekam berbagai jenis data dan interaksi tergantung pada format file yang didukung oleh perangkat lunak server. Format log pencarian biasanya merupakan format file yang diperluas, yang berisi data seperti alamat Internet Protocol (IP) komputer klien, permintaan pengguna, waktu akses mesin pencari, dan situs perujuk, di antara bidang lainnya.

Analisis Log Pencarian (SLA) didefinisikan sebagai penggunaan data yang dikumpulkan dalam log pencarian untuk menyelidiki pertanyaan penelitian tertentu mengenai interaksi antara pengguna Web, mesin pencari Web, atau konten Web selama episode pencarian.

Dalam konteks interaksi ini, SLA dapat menggunakan data dalam log pencarian untuk membedakan atribut dari proses pencarian, seperti tindakan pencari pada sistem, tanggapan sistem, atau evaluasi hasil oleh pencari. Dari pemahaman ini, seseorang mencapai beberapa tujuan yang dinyatakan, seperti peningkatan desain sistem, bantuan pencarian lanjutan, atau pemahaman yang lebih baik tentang beberapa perilaku pencarian informasi pengguna.

Ada masalah metodologis dengan SLA seperti eksekusi, konsepsi, dan komunikasi. SLA bisa sulit untuk dieksekusi karena masalah pengumpulan, penyimpanan, dan analisis yang terkait dengan volume dan kompleksitas kumpulan data yang sangat besar (yaitu, sejumlah besar variabel). Dengan kumpulan data yang kompleks, terkadang sulit untuk mengembangkan metodologi konseptual untuk menganalisis variabel dependen. Masalah komunikasi terjadi ketika peneliti tidak mendefinisikan istilah dan metrik secara cukup rinci untuk memungkinkan peneliti lain menafsirkan dan memverifikasi hasil mereka. Lingkungan komputasi Big Data digabungkan dengan lingkungan komputasi awan yang menyertainya secara tegas mengatasi masalah ini.

8.4.1 Proses SLA

SLA melibatkan tiga tahap utama berikut:

1. Pengumpulan Data melibatkan proses pengumpulan data interaksi untuk periode tertentu dalam log pencarian. Log pencarian memberikan keseimbangan yang baik antara mengumpulkan kumpulan data yang kuat dan mengumpulkan data itu secara diam-diam. Mengumpulkan data dari pengguna nyata yang mengejar informasi yang dibutuhkan saat berinteraksi dengan sistem nyata di Web memengaruhi jenis data yang dapat dikumpulkan secara realistis. Pada sistem kehidupan nyata, metode pemantauan dan pengumpulan data tidak boleh mengganggu proses pencarian informasi. Tidak hanya metode pengumpulan data yang mengganggu proses pencarian informasi secara tidak sengaja dapat mengubah proses tersebut, tetapi gangguan yang tidak diizinkan tersebut juga dapat menyebabkan hilangnya calon pelanggan.

Log pencarian biasanya terdiri dari data seperti:

– Identifikasi Pengguna: Alamat IP komputer pelanggan

– Tanggal: Tanggal interaksi yang direkam oleh server mesin pencari – Waktu: Waktu interaksi yang direkam oleh server mesin pencari Selain itu, itu juga bisa terdiri dari data seperti

– Laman Hasil: Kode yang mewakili sekumpulan abstrak hasil dan URL yang dikembalikan oleh mesin telusur sebagai tanggapan atas kueri

– Bahasa: Bahasa yang disukai pengguna dari halaman Web yang diambil – Sumber: Koleksi konten federasi dicari

– Page Viewed: URL yang dikunjungi pencari setelah memasukkan kueri dan melihat halaman hasil, yang juga dikenal sebagai klik-tayang atau klik-tayang 2. Persiapan Data melibatkan proses pembersihan dan penyiapan data log pencarian

untuk dianalisis. Untuk persiapan data, fokusnya adalah mengimpor data log pencarian ke database relasional atau NoSQL, menetapkan setiap record sebagai kunci utama, membersihkan data (yaitu, memeriksa setiap bidang untuk data yang buruk), dan menghitung metrik interaksi standar yang akan berfungsi sebagai dasar untuk analisis lebih lanjut.

Persiapan data terdiri dari langkah-langkah seperti:

a. Membersihkan data: Catatan dalam log pencarian dapat berisi data yang rusak.

Catatan yang rusak ini dapat disebabkan oleh berbagai alasan, tetapi sebagian besar terkait dengan kesalahan saat mencatat data.

b. Mengurai data: Menggunakan tiga bidang Waktu, Identifikasi Pengguna, dan URL Penelusuran yang umum untuk semua log penelusuran Web, rangkaian tindakan kronologis dalam episode penelusuran dibuat ulang. Log pencarian kueri Web biasanya berisi kueri dari pengguna dan agen manusia. Bergantung pada tujuan penelitian, seseorang mungkin hanya tertarik pada interaksi individu manusia, interaksi dari terminal pengguna umum, atau dari agen.

c. Menormalkan episode pencarian: Ketika seorang pencari mengajukan permintaan, kemudian melihat dokumen, dan kembali ke mesin pencari, server Web biasanya mencatat kunjungan kedua ini dengan identifikasi dan permintaan pengguna yang sama tetapi dengan waktu baru (yaitu, waktu dari kunjungan kedua). Ini adalah informasi yang bermanfaat dalam menentukan berapa banyak halaman hasil yang diambil yang dikunjungi oleh pencari dari mesin pencari, tetapi sayangnya, ini juga mendistorsi hasil analisis tingkat kueri. Untuk menormalkan episode pencarian, pertama-tama seseorang harus memisahkan permintaan halaman hasil ini dari pengiriman kueri untuk setiap episode pencarian.

d. Analisis Data melibatkan proses menganalisis data yang disiapkan. Ada tiga tingkat analisis umum untuk memeriksa log penelusuran:

A. Analisis Sesi: Sebuah episode pencarian didefinisikan sebagai serangkaian interaksi dalam durasi terbatas untuk mengatasi satu atau lebih kebutuhan informasi. Durasi sesi ini biasanya pendek, dengan peneliti Web menggunakan antara 5 dan 120 menit sebagai cutoff. Setiap pilihan waktu berdampak pada hasil; pencari mungkin multitasking dalam episode pencarian, atau episode mungkin merupakan contoh dari pencari terlibat dalam pencarian berturut-turut. Definisi sesi ini mirip dengan definisi pengunjung unik yang digunakan oleh mesin pencari komersial dan organisasi untuk mengukur lalu lintas situs

web. Jumlah kueri per pencari adalah panjang sesi. Durasi sesi adalah total waktu yang dihabiskan pengguna untuk berinteraksi dengan mesin pencari, termasuk waktu yang dihabiskan untuk melihat dokumen Web pertama dan selanjutnya, kecuali dokumen akhir. Oleh karena itu, durasi sesi dapat diukur dari saat pengguna mengirimkan kueri pertama hingga pengguna meninggalkan mesin telusur untuk terakhir kalinya (yaitu, tidak kembali).

Waktu tampilan dokumen Web akhir ini tidak tersedia karena server mesin pencari Web tidak mencatat cap waktu. Dokumen Web adalah halaman Web yang dirujuk oleh URL pada halaman hasil mesin pencari. Sebuah dokumen Web mungkin teks atau multimedia dan, jika dilihat secara hierarkis, mungkin berisi sub-dokumen sub-Web dalam jumlah yang hampir tidak terbatas.

Sebuah dokumen Web juga dapat berisi URL yang menghubungkan ke dokumen Web lainnya. Dari halaman hasil, pencari dapat mengklik URL, (yaitu, mengunjungi) satu atau lebih hasil dari cantuman di halaman hasil. Ini adalah analisis klik-tayang dan mengukur perilaku melihat halaman dari pencari Web.

B. Analisis Kueri: Tingkat analisis kueri menggunakan kueri sebagai metrik dasar.

Kueri didefinisikan sebagai daftar string dari satu atau lebih istilah yang dikirimkan ke mesin pencari. Ini adalah definisi mekanis yang bertentangan dengan definisi pencarian informasi. Permintaan pertama oleh pencari tertentu adalah permintaan awal. Kueri berikutnya oleh penelusur yang sama yang berbeda dari kueri penelusur lainnya adalah kueri yang dimodifikasi.

Mungkin ada beberapa kemunculan kueri modifikasi yang berbeda oleh pencari tertentu. Kueri unik mengacu pada kueri yang berbeda dari semua kueri lain di log transaksi, apa pun pencarinya. Kueri berulang adalah kueri yang muncul lebih dari sekali dalam kumpulan data oleh dua atau lebih pencari.

Kompleksitas kueri memeriksa sintaks kueri, termasuk penggunaan teknik pencarian lanjutan seperti Boolean dan operator kueri lainnya.

C. Analisis Istilah: Istilah tingkat analisis secara alami menggunakan istilah sebagai dasar untuk analisis. Term adalah string karakter yang dipisahkan oleh beberapa pembatas seperti spasi atau pemisah lainnya. Pada tingkat analisis ini, seseorang berfokus pada tindakan seperti kemunculan istilah, yang merupakan frekuensi kemunculan istilah tertentu dalam log transaksi. Total istilah adalah High Usage Terms adalah istilah yang paling sering muncul dalam kumpulan data. Istilah co-occurrence mengukur kemunculan pasangan istilah dalam kueri di seluruh log penelusuran. Seseorang juga dapat menghitung derajat asosiasi pasangan istilah menggunakan berbagai ukuran statistik Rumus informasi timbal balik mengukur asosiasi istilah dan tidak mengasumsikan saling independensi istilah dalam pasangan. Seseorang dapat menghitung statistik informasi timbal balik untuk semua pasangan istilah dalam kumpulan data. Sering kali, pasangan suku frekuensi yang relatif rendah mungkin sangat terkait (yaitu, jika dua suku selalu muncul bersama-sama).

Statistik informasi timbal balik mengidentifikasi kekuatan asosiasi ini:

Dimana P(w1), P(w2) adalah probabilitas yang diperkirakan oleh frekuensi relatif dari dua kata dan P(w1, w2) adalah frekuensi relatif dari pasangan kata (mengabaikan urutan urutan).

Frekuensi relatif adalah frekuensi yang diamati (F) yang dinormalisasi dengan jumlah kueri:

Baik frekuensi kemunculan istilah dan frekuensi pasangan istilah adalah kemunculan pasangan istilah atau istilah dalam himpunan kueri. Namun, karena kueri satu istilah tidak dapat memiliki pasangan istilah, kumpulan kueri untuk basis frekuensi berbeda. Jumlah kueri untuk istilah adalah jumlah kueri non-duplikat dalam kumpulan data.

Jumlah kueri untuk pasangan istilah didefinisikan sebagai

di mana Qn adalah jumlah kueri dengan n kata (n > 1), dan m adalah panjang kueri maksimum.

Jadi, kueri dengan panjang satu tidak memiliki pasangan. Pertanyaan dengan panjang dua memiliki satu pasangan. Pertanyaan dengan panjang tiga memiliki tiga kemungkinan pasangan. Kueri dengan panjang empat memiliki lima kemungkinan pasangan. Ini berlanjut hingga kueri dengan panjang maksimum dalam kumpulan data. Rumus untuk kueri akun pasangan istilah (Q’) untuk pasangan istilah ini.

Dalam dokumen Dr. Ir. Agus Wibowo, M.Kom, M.Si, MM (Halaman 195-199)