IMPLEMENTASI METODE TERMS FREQUENCY
–
INVERSE
DOCUMENT FREQUENCY (TF-IDF) DAN MAXIMUM
MARGINAL RELEVANCE UNTUK MONITORING
DISKUSI ONLINE
TUGAS AKHIR
Diajukan Sebagai Salah Satu Syarat Untuk Memperoleh Gelar Sarjana Teknik
Pada Jurusan Teknik Informatika oleh :
AHLI HIDAYAT
10951006746
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS ISLAM NEGERI SULTAN SYARIF KASIM RIAU PEKANBARU
IMPLEMENTASI METODE TERMS FREQUENCY
–
INVERSE DOCUMENT FREQUENCY (TF-IDF) DAN
MAXIMUM MARGINAL RELEVANCE UNTUK MONITORING
DISKUSI ONLINE
AHLI HIDAYAT
10951006746
Jurusan Teknik Informatika Fakultas Sains dan Teknologi
Universitas Islam Negeri Sultan Syarif Kasim Riau
ABSTRAK
Penggunan media sosial dan forum diskusi online pada saat ini semakin meningkat. Namun, para penggunanya sering tidak menghiraukan batasan dan etika dalam berkomunikasi. Sehingga sering terjadi kesalahpahaman bahkan menjadi pertikaian yang serius. Oleh karena itu, admin harus berperan aktif dalam membatasi dan mengontrol jalannya diskusi pada forum online. Untuk membatasi itu, salah satu caranya adalah membuat sistem yang bisa memonitoring jalannya diskusi online. Metode yang digunakan adalah TF-IDF, Cosine Similarity dan MMR. Penelitian ini diawali dengan lima tahap text preprocessing yaitu pemecahan kalimat, case folding, tokenizing,
filtering, dan stemming. Proses selanjutnya yaitu menghitung bobot TF-IDF, bobot query
relevance dan bobot similarity. Ringkasan dihasilkan dari ekstraksi kalimat dengan menggunakan
metode maximum marginal relevance. Metode ekstraksi maximum marginal relevance digunakan untuk mengurangi redudansi dalam perangkingan kalimat. Kemudian, untuk menghitung kelayakan komentar digunakan metode TF-IDF. Komentar yang tidak layak, adalah komentar yang bernilai nol (0) dari nilai keseluruhan perbandingan postingan yang telah diringkas dengan komentar. Komentar yang bernilai nol (0) nantinya akan dihapus oleh admin. Metode TF – IDF
berhasil diterapkan pada penentuan bobot kelayakan komentar.
Kata kunci : Cosine Similarity, Diskusi Online, Kelayakan komentar, Maximum Marginal
THE IMPLEMENTION METHOD OF TERMS
FREQUENCY
–
INVERSE DOCUMENT FREQUENCY (TF-IDF)
AND MAXIMUM MARGINAL RELEVANCE FOR ONLINE
DISCUSSION MONITORING
AHLI HIDAYAT
10951006746Informatics Engineering Department Faculty of Science and Technology
Universitas Islam Negeri Sultan Syarif Kasim Riau
ABSTRACT
Social media usage and online discussion forums is currently increased. However, the users are often ignore the boundariesand ethnics in communication. Till the common misconceptions become a serious conflicts. Therefore, admin must take an active roe in curbing and controlling the discussion in online forum. To limmit it, one way is to create a system that can monitor the running online discussions. The method that used is the TF-IDF, cosine similarity and MMR. The research was initiated with a five stage preprocessing text that sentence solving, case folding, tokenizing, filtering and stemming. The next process is to calculate the weight of TF-IDF, weight of query relevance and weight of similarity. Summary is generated from the extraction of the sentence by using the method of maximum marginal relevance. Maximum marginal relevance extraction method use to reduce the redudancies in ranking of the sentences. Subsequently, to calculate the feasibility of comments then TF-IDF method to be used. Comments are not feasible, are comments that zero (0) of the overal value ratio of posts which have been summarized by the comment. Comments are equal to zero (0) will be removed by admin. TF-IDF methods been succesfully applied to determination of weights the feasibility of the comments.
Keywords: Cosine Similarity, Feasibilisty of the Comments, Maximum Marginal Relevance, Online Discussion, Text Processing, TF-IDF.
ix
KATA PENGANTAR
Assalammu’alaikum wr wb.
Alhamdulillahi rabbil’alamin, puji dan syukur penulis ucapkan kepada Allah SWT atas segala rahmat dan hidayah yang diberikan-Nya, sehingga penulis dapat melaksanakan dan menyelesaikan tugas akhir ini dengan baik. Shalawat beriring salam diucapkan untuk junjungan kita Rasulullah Muhammad SAW, karena jasa Beliau kita bisa menikmati zaman yang penuh dengan ilmu pengetahuan seperti sekarang ini.
Tugas akhir yang berjudul IMPLEMENTASI METODE TERMS
FREQUENCY–INVERSE DOCUMENT FREQUENCY (TF-IDF) DAN
MAXIMUM MARGINAL RELEVANCE UNTUK MONITORING
DISKUSI ONLINE ini disusun sebagai satu syarat untuk mendapatkan gelar
kesarjanaan pada jurusan Teknik Informatika Universitas Islam Negeri Sultan Syarif Kasim Riau.
Dalam penulisan dan penyusunan laporan tugas akhir ini penulis tidak terlepas dari bantuan berbagai pihak yang telah memberikan masukan berupa kritik, saran, motivasi dan dorongan yang sangat bermanfaat bagi penulis. Untuk itu dalam kesempatan ini penulis menyampaikan terima kasih yang tak terhingga kepada :
1. Bapak Prof. Dr. H. Munzir Hitami, selaku Rektor Universitas Islam Negeri Sultan Syarif Kasim Riau.
2. Bapak Dr. Hartono, M.Pd, selaku Dekan Fakultas Sains dan Teknologi, Universitas Islam Negeri Sultan Syarif Kasim Riau.
3. Bapak Muhammad Irsyad, ST, MT, selaku Ketua Jurusan Teknik Informatika.
x
5. Ibu Dr. Okfalisa, ST., M.Sc, selaku pembimbing tugas akhir yang selalu sabar dan meluangkan waktu untuk membimbing, memberikan saran dan kritik dalam penyusunan tugas akhir ini. Terimakasih sebanyak-banyaknya bu. 6. Bapak M. Fikri, ST., MT, selaku penguji I dan Bapak Nazruddin Safaat H,
ST, MT selaku penguji II. Terimakasih atas bimbingan bapak,
7. Ibu Fadila Safria, ST, MT selaku Koordinator Tugas akhir Jurusan Teknik Informatika.
8. Seluruh dosen dan staf Fakultas Sains dan Teknologi khususnya pada Jurusan Teknik Informatika. Terima kasih atas ilmu yang telah diberikan.
9. Kedua Orang tua tercinta, Ayahanda dan Ibunda yang telah mendo’akan dan
memberikan dukungan yang sangat luar biasa kepada penulis dalam menyelesaikan tugas akhir ini.
10. Kakanda Pangkat Martua Nasution ST, dan Kakanda Roina Hasnah Harahap Amd, yang telah memberikan dorongan, semangat dan do’a untuk menyelesaikan tugas akhir ini.
11. Seluruh keluarga saya, Kakanda Ahmad Husein Harahap, Kakanda Yuson Hakim Harahap, Kakanda Solahuddin Harahap, Kakanda Amna Sahni Harahap Spd, Kakanda Rida Maharani Harahap Spd, Kakanda Rizki Maduma Harahap Amd, yang selalu memberikan support yang luar biasa kepada penulis, sehingga penulis bisa melewati masa-masa sulit ini.
12. Haholongan Emmaida Safitriani Nasution Spd, yang selalu ada dan memberikan dorongan untuk menyelasikan tugas ahir ini.
13. Keluarga besar CB, Meirina Handayani ST, Sapri yani ST, Rimadhiani Anas ST, Felnindia Restu Safitri ST, Mardeni ST, Dayub ST, Khairul Umam ST, Fadli Suandi ST, Muhammad Adri ST, dan Abdullah ST, yang selalu ada memberikan support, meluangkan waktu, pikiran dan tenaga untuk sahabat mada ini.
14. Teman- teman Tif angatan 2009 terutama TIF A 2009 yang telah memotivasi dan membantu penulis.
15. Seluruh pihak yang belum penulis cantumkan, terima kasih atas dukungannya.
xi
Penulis menyadari bahwa dalam penulisan laporan ini masih banyak kesalahan dan kekurangan, oleh karena itu kritik dan saran yang sifatnya membangun penulis harapkan untuk kesempurnaan laporan ini. Akhirnya penulis berharap semoga laporan ini dapat memberikan sesuatu yang bermanfaat bagi siapa saja yang membacanya. Amin.
Wassalamu’alaikum wr.wb.
Pekanbaru, 21 Desember 2015
xii
DAFTAR ISI
HALAMAN JUDUL LAPORAN ... i
LEMBAR PERSETUJUAN ... ii
LEMBAR PENGESAHAN ... iii
LEMBAR HAK ATAS KEKAYAAN INTELEKTUAL ... iv
LEMBAR PERNYATAAN ... v
LEMBAR PERSEMBAHAN ... vi
ABSTRAK ... vii
ABSTRACT... viii
KATA PENGANTAR ... ix
DAFTAR ISI ... xii
DAFTAR GAMBAR ... xv
DAFTAR TABEL ... xvii
DAFTAR ISTILAH ... xviii
DAFTAR LAMPIRAN ... xviv
DAFTAR SIMBOL... xvv BAB I PENDAHULUAN
1.1. Latar Belakang ... I-1 1.2. Rumusan Masalah ... I-3 1.3. Batasan Masalah ... I-3 1.4. Tujuan Penelitian ... I-3 1.5. Sistematika Pembahasan ... I-3 BAB II LANDASAN TEORI
2.1. Information Retrieval System ... II-1 2.2. Text Preprocessing ... II-2 2.2.1 Pemecahan Kata ... II-2 2.2.2 Case Folding... II-2 2.2.3 Filtering Kalimat ... II-2 2.2.4 Tokenisasi Kata ... II-3 2.2.5 Stemming Bahasa Indonesia ... II-3
xiii
2.3. Pembobotan ... II-7 2.3.1 TF-IDF ... II-7 2.4. Cosine Simliarty ... II-8 2.5. Maximum Marginal Relevance (MMR) ... II-11 2.6. Spam ... II-12 2.7. Disuksi Online... II-12 BAB III METODOLOGI PENELITIAN
3.1. Alur Metodologi Penelitian ... III-1 3.1.1 Perumusan Masalah... III-2 3.1.2 Pengumpulan Data ... III-2 3.1.3 Analisa... III-2 3.1.4 Perancangan ... III-3 3.1.5 Implementasi ... III-3 3.1.6 Pengujian ... III-4 3.1.7 Kesimpulan dan Saran ... III-4 BAB IV ANALISA DAN PERANCANGAN
4.1 Analisa Sistem Baru ... IV-1 4.2 Analisa Subsistem Dialog ... IV-2 4.3 Analisa Fungsional Sistem ... IV-2 4.3.1 Contex Diagram ... IV-2 4.3.2 Data Flow Diagram (DFD) ... IV-3 4.3.3 Entity Relationship Diagram (ERD) ... IV-4 4.4 Analisa Subsistem Model ... IV-5 4.4.1 Proses Peringkasan Dokumen Postingan ... IV-5 4.4.2 Proses Perbandingan Komentar ... IV-26 4.5 perancangan Sistem... IV-43 4.5.1 Perancangan Tabel ... IV-43 4.5.2 Perancangan Subsistem Model ... IV-45 4.5.3 Perancangan Struktur Menu Sistem ... IV-46 BAB V IMPLEMENTASI DAN PENGUJIAN
5.1 Implementasi Sistem ... V-1 5.1.1 Batasan Implementasi ... V-1
xiv
5.1.2 Lingkungan Implementasi Sistem... V-1 5.1.3 Implementasi Sistem Monitoring Diskusi Online... V-2 5.2 Pengujian Sistem ... V-8 5.2.1 Pengujian Blackbox ... V-8 BAB VI PENUTUP 6.1 Kesimpulan... VI-1 6.2 Saran ... VI-1 DAFTAR PUSTAKA LAMPIRAN