TEMU KEMBALI INFORMASI
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
Identitas Mata Kuliah
Nama Mata Kuliah : Temu Kembali Informasi (TKI) Information Retrieval(IR)
Kode Mata Kuliah : KOM431
Koordinator : Julio Adisantoso (JAS)
Semester : Pendek Ganjil 2015/2016
Pengajar : JAS, YHY
Learning Outcome
KNOWLEDGE: Mahasiswa mempelajari dan memahami prinsip, teknik, dan metode IR
SKILLS: Mahasiswa mampu mengaplikasikan prinsip, teknik, dan metode IR secara umum seperti pengindeksan, mesin pencari, klasifikasi, peringkasan dokumen, web search, dan berbagai aplikasi IR lainnya.
COMPETENCE: Mahasiswa dapat mengimplementasikan teknik IR dari berbagai bentuk dokumen teks, baik desktop maupun web.
Course Content
Prinsip dan teknik pemrosesan teks. Indexing
Model-model IR Evaluasi IR
Metode-metode lanjut di bidang IR, seperti Relevance Feedback and Query Expansion, Text Classification and Clustering, Text Summarization, Question Answering System, CLIR, XML Retrieval, Web Search, Semantic Web
Penentuan Nilai Akhir
UTS dan UAS dilakukan melalui ujian tertulis dengan bobot masing-masing 35%.
TP (Tugas Perorangan) adalah rata-rata dari semua tugas yang diberikan, dan diberi bobot 10%
Nilai PA (Proyek Akhir) terdiri dari nilai produk proyek (program komputer, laporan) dan presentasi. Bobot nilai PA adalah 20%.
Perangkat Perkuliahan
Peserta: Mahasiswa Mayor ILKOM
Site Material Elektronik (resources) http://julio.staff.ipb.ac.id Referensi Utama:
Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schutze . 2008. Introduction to Information Retrieval. Cambridge University Press.
C. J. van Rijsbergen. Information Retrieval. Information Retrieval Group, University of Glasgow.
Richardo Baeza-Yates and Berthier Rieiro-Neto. Modern Information Retrieval
Segaran, T., Evans, C., amd Taylor. 2009. Programming The Semantic Web. O’Reilly.
Tata Tertib
Kehadiran Paling lambat 15 menit setelah dosen masuk kelas/lab Berpakaian sesuai ketentuan TaTib IPB
Minimum kehadiran 80% masing-masing untuk kuliah dan praktikum (syarat untuk UAS)
No sound handphone, no BBM/FB/WA/SMS/Line/Path etc saat kuliah
Kejujuran Akademik
Setiap KECURANGAN akan diberikan imbalan nilai 0 pada mata kuliah ini
Menyontek ataupun bekerja sama pada saat ujian Menyalin tugas hasil pekerjaan pihak lain Titip tanda tangan kehadiran
Imbalan (sanksi) akan diberikan untuk si pelaku maupun yang memberikan kesempatan
Tips Belajar KOM431
Sehat jasmani dan rohani, serta tidak loyo/ngantuk
Kuliah dengan sungguh-sungguh dan fokus. Bawa alat tulis dan buku catatan.
Aktif dan banyak berdiskusi dengan pihak manapun. High curiousity, yakni rasa penasaran yang tinggi. Mau belajar dan aktif mencari sumber belajar lain
What is this course about?
Processing Indexing Retrieving ... textual data
Fits in four lines, but much more complex and interesting than that
Beberapa Definisi IR
Manning et al (2007): Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfy an information need from within large collections (usually stored on computers).
Salton (1989): Information-retrieval systems process files of records and requests for information, and identify and retrieve from the files certain records in response to the information requests. The retrieval of particular records depends on the similarity between the records and the queries, which in turn is measured by comparing the values of certain attributes to records and information requests.
IR vs Data Retrieval
IR
berkaitan dengan natural language text ... unstructured and semantically ambigous
spesifikasi set of words untuk menentukan semantics dari information needed
Data Retrieval
berkaitan dengan data ... well defined structure and semantic spesifikasi query expression untuk menentukan constrain yang harus dipenuhi untuk obyek yang akan menjadi himpunan jawaban
Typical IR Task
Given:
A corpus of textual natural-language documents. A user query in the form of a textual string
Find:
Korpus
Korpus adalah kumpulan dokumen berisi teks alami yang dipilih dengan cara tertentu, yang dapat dibaca oleh mesin.
Media: teks, audio, video (multimedia)
Pemrosesan korpus/teks: mengenali dan mendapatkan penciri (fitur) dari suatu dokumen
Isu pada korpus: (1) Tokenisasi pada korpus, (2) Anotasi pada korpus
Pemrosesan Dokumen/Teks
Mengenali dan mendapatkan penciri (fitur) dari suatu dokumen — ekstraksi informasi (text mining)
Bertujuan untuk mengetahui ”isi” dari dokumen.
Text mining: proses ekstraksi pola yang berupa informasi dan pengetahuan dari sejumlah besar sumber data teks.
Tujuan dari text mining adalah untuk mendapatkan informasi yang berguna dari sekumpulan dokumen
Text mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, yaitu proses mengolah
Ruang Lingkup
Empiris: Teks tidak hanya sekumpulan kata, sehingga
pemrosesan teks melakukan analisis data dan pengujian hipotesis Teknik: Mengenali karakteristik dari sampel teks
Metode: model dan metode statistik seperti peluang, nilai statistik, pembelajaran mesin, teori informasi, dsb
Statistik Teks
Jumlah Kata: Seberapa besar korpus yang ada (N) Jenis kata:
Berapa jumlah kata yang unik?
Berapa besar perbendaharaan kata pada korpus?
Token (dapat berupa kata, kalimat, paragraf, atau bagian teks lainnya)
Berapa jumlah token pada korpus? Berapa frekuensi dari setiap jenis token?
Token apa yang paling sering muncul pada korpus? Bagaimana hubungan antar token?
Isu: Bagaimana melakukannya (Metode dan Algoritme, Program Komputer)? ... see you next week ;)