• Tidak ada hasil yang ditemukan

SISTEM PERINGKAS BERITA OTOMATIS BERBASIS TEXT MINING MENGGUNAKAN GENERALIZED VECTOR SPACE MODEL STUDI KASUS BERITA DIAMBIL DARI MEDIA MASSSA ONLINE

N/A
N/A
Protected

Academic year: 2021

Membagikan "SISTEM PERINGKAS BERITA OTOMATIS BERBASIS TEXT MINING MENGGUNAKAN GENERALIZED VECTOR SPACE MODEL STUDI KASUS BERITA DIAMBIL DARI MEDIA MASSSA ONLINE"

Copied!
12
0
0

Teks penuh

(1)

SISTEM PERINGKAS BERITA OTOMATIS BERBASIS TEXT MINING MENGGUNAKAN GENERALIZED VECTOR SPACE MODEL STUDI KASUS BERITA DIAMBIL DARI MEDIA MASSSA ONLINE

oleh

Budhi Kurniawan Wangsa NIM : 622009005

Skripsi

Untuk melengkapi salah satu syarat memperoleh Gelar Sarjana Teknik

Program Studi Sistem Komputer Fakultas Teknik Elektronika dan Komputer

Universitas Kristen Satya Wacana Salatiga

(2)
(3)
(4)

i

INTISARI

Salah satu informasi yang sangat banyak dicari saat ini adalah berita. Berita yang dicari lebih diinginkan jika dalam bentuk yang sudah diringkas. Peringkasan membutuhkan pengembangan algoritma baru dan tentu saja membutuhkan pencarian yang lebih terarah ke sumber berita dari media massa online yang menggunakan Bahasa Indonesia dan juga media massa online yang terpercaya.

Focused crawler adalah solusi pencarian berita yang terarah karena focused crawler

melihat isi dari suatu halaman web untuk menilai apakah halaman web tersebut sesuai atau tidak dengan konteks pencarian. Metode generalized vector space model (GVSM) adalah metode untuk menilai tingkat kemiripan tiap kalimat terhadap suatu topik dokumen. Dengan metode GVSM ini dapat diketahui kalimat mana yang lebih berbobot terhadap suatu dokumen sehingga dapat dilakukan peringkasan dengan memperhatikan tingkat kemiripan kalimat.

Dari hasil perancangan dan pengujian didapat tingkat kesuksesan focused crawler sebesar 53% sementara dari kuesioner hasil ringkasan menggunakan metode GVSM dinilai secara rata-rata 2,71 dari skala 1-4 oleh empat puluh orang responden. Sistem mampu meringkas sebanyak 754 berita dari 797 berita yang didapat atau sekitar 94% dari berita yang didapat. Sehingga didapat kesimpulan bahwa sistem yang dirancang mampu mencari berita secara terarah sekaligus meringkas berita dengan hasil yang dapat diterima.

(5)

ii

ABSTRACT

News is becoming one of the most important information. Currently, news is preferred to be found in a simplified form. The simple form of news is summary. In case of search and summarizer all news in Indonesian trustworthy online mass media automatically a new algorithm and system must be developed.

Focused crawler is a solution for a directional search in case of news collecting from online mass media because focused crawler is able to judge whether the news page is relevant not only from the title but also from the content. Generalized vector space model (GVSM) is a method to judge similarity of each sentence to the document topic. Using GVSM method the similarity coefficient of each sentence can be known and sentences with low rate of similarity coefficient can be cut.

The results of development and testing of this system are the success rate for focused crawler search and rating for summarizer result. The success rate for focused crawler search is 53% and summary that’s resulted from GVSM method is rated 2.7 from scale 1-4 by forty respondents. The system can summarize 754 of 797 news. That is about 94% from the total collected news. It can be concluded that this system can search and summarize the news automatically as a solution to the problem.

(6)

iii

KATA PENGANTAR

Segala puji syukur dan kemuliaan hanya bagi Tuhan Yesus Kristus berkat kasih karunia-Nya yang berlimpah dan penyertaan-Nya yang sempurna sehingga skripsi dengan judul “Sistem Peringkas Berita Otomatis berbasis Text Mining menggunakan Generalized

Vector Space Model Studi Kasus Berita Diambil dari Media Massa Online ” dapat

diselesaikan dari awal pengusulan, pembuatan, hingga akhirnya selesai. Skripsi ini digunakan sebagai salah satu syarat untuk mendapatkan gelar Sarjana Teknik di Fakultas Teknik Elektronika dan Komputer Universitas Kristen Satya Wacana, Salatiga.

Dalam kesempatan ini penulis menyampaikan ucapan terima kasih sebesar besarnya kepada :

1. Bapak Dekan Fakultas Teknik Elektronika dan Komputer Dr. Iwan Setyawan 2. Bapak Darmawan Utomo, M.Eng. selaku pembimbing I yang sangat banyak

membimbing, memberi saran, serta mengajari penulis banyak hal selama proses pembuatan skripsi ini dan selama menjalani perkuliahan di Siskom.

3. Bapak Saptadi Nugroho, M.Sc. selaku Kaprogdi Sistem Komputer, pembimbing II, dan wali studi di tahun terakhir atas bimbingan, saran, serta strategi yang diberikan dalam proses merancang skripsi ini dan juga atas segala saran kepada penulis selama proses perkuliahan baik sebagai asisten ataupun sebagai mahasiswa.

4. Bapak Banu Wirawan Yohanes, S.T. dan bapak Hartanto Kusuma Wardana, M.T. atas bantuan dan juga izin menggunakan hasil penelitian Pak Banu untuk mendukung skripsi ini serta juga sebagai dosen dan mentor yang memberi banyak saran dan masukan berharga selama proses perkuliahan.

5. Bapak Handoko, M. Eng. Selaku wali studi penulis hingga tahun ketiga yang banyak memberi arahan dan pengalaman berharga selama berkuliah.

6. Segenap staff pengajar Fakultas Teknik Elektronika dan Komputer atas didikan selama proses perkuliahan.

(7)

iv

8. Orang tua dan adik yang terkasih di Lampung yang telah memberi dukungan dalam segala hal. Mami Kekeng di surga yang sudah seperti ibu kedua bagi penulis. Serta keluarga Toa Ik di Salatiga yang menjadi rumah kedua penulis. 9. Teman teman terdekat selama kuliah dan hidup di Salatiga Edo, Ricky, Angel,

Anneke, Jeffrey, Samuel Eko, Krisma, Abi.

10. Teman teman FTJE ’09 dan juga rekan rekan Siskomers yang terkasih yang tidak dapat disebutkan satu persatu.

11. C Computer Club FTEK UKSW dan juga team ECEPT beserta pengurusnya atas kesempatan mengembangkan diri bersama disana dari 2010-2012.

12. Ibu Dyah Vollyeti dan Pak Esap Dwi Basuki atas bantuan dan masukan dalam mengumpulkan responden.

Penulis menyadari bahwa dalam penyusunan skripsi ini terdapat banyak kekurangan, oleh sebab itu dengan kerendahan hati penulis mengharapkan saran dan kritik yang membangun untuk lebih menyempurnakan penulisan ini.

Akhirnya penulis berharap semoga skripsi ini dapat bermanfaat dan memberikan informasi bagi pembaca, khususnya yang berkepentingan. Tuhan memberkati kita semua.

Salatiga, Januari 2014 Penulis,

(8)

v

DAFTAR ISI

INTISARI ... i

ABSTRACT ... ii

KATA PENGANTAR ... iii

DAFTAR ISI ... v

DAFTAR GAMBAR ... vii

DAFTAR TABEL ... viii

DAFTAR SINGKATAN ... ix BAB I PENDAHULUAN ... 1 1.1. Tujuan ... 1 1.2. Latar Belakang ... 1 1.3. Gambaran Sistem ... 6 1.4. Spesifikasi Sistem ... 9 1.3. Sistematika Penulisan ... 10

BAB II DASAR TEORI ... 12

2.1. Focused Crawler ... 12

2.1.1. Definisi ... 12

2.1.2. Focused Crawler dengan Algoritma Genetik ... 12

2.2. Text Mining ... 14

2.3. Metode Vector Space Model (VSM)... 15

2.3.1. Definisi ... 15

2.3.2. Metode Term Frequency-Inverse Document Frequency (TF-IDF) ... 16

2.3.3. Similarity Coefficient ... 17

2.4. Metode Generalized Vector Space Model (GVSM) ... 18

2.5. Contoh Perhitungan Nilai SC ... 19

2.5.1. Menghitung Nilai IDF dan TF ... 20

2.5.2. Menghitung Panjang Vektor Kalimat dan Query ... 21

2.5.3. Menghitung Nilai SC ... 22

(9)

vi

BAB III PERANCANGAN ... 24

3.1. Perancangan Database ... 24

3.1.1 Pembentukan Tabel ... 24

3.1.2. Entity Relationship Diagram (ERD) ... 26

3.2. Perancangan User Interface (UI) ... 26

3.3. Proses Kerja Sistem Keseluruhan ... 27

3.3.1. Proses Parsing pada Focused Crawler ... 28

3.3.2. Perhitungan Nilai SC pada VSM... 30

3.3.3. Pengembangan VSM menjadi GVSM ... 33

3.3.4. Pembentukan Penyortir Topik ... 34

3.4. Metode Pengujian Sistem ... 35

3.4.1. Metode Klasifikasi ... 35

BAB IV HASIL PENGUJIAN DAN ANALISA ... 36

4.1. Tahapan Pengujian ... 36

4.2. Cara Pengujian ... 37

4.2.1. Cara Pengujian Focused Crawler ... 37

4.2.1. Cara Pengujian Sistem Peringkas Berita ... 40

4.3. Peralatan Pengujian ... 41

4.4. Pengujian Focused Crawler ... 42

4.5. Pengujian Sistem Peringkas Berita ... 48

4.6. Analisa Hasil Pengujian ... 53

BAB V PENUTUP ... 55

5.1. Kesimpulan ... 55

5.2. Saran dan Pengembangan ... 56

DAFTAR PUSTAKA ... 57 LAMPIRAN A Detail Pengujian Focused Crawler ... A-1 LAMPIRAN B Kuesioner Ringkasan Berita ... B-1 LAMPIRAN C Rekapitulasi Kuesioner ... C-1

(10)

vii

DAFTAR GAMBAR

Gambar 1.1 Contoh pencarian pada Google ... 2

Gambar 1.2. Keluaran pencarian pada sistem yang diusulkan ... 3

Gambar 1.3. Blok Diagram Sistem ... 6

Gambar 1.4 Keluaran pencarian pada sistem yang diusulkan ... 7

Gambar 3.1. ERD Sistem Peringkas Berita ... 26

Gambar 3.2. Diagram Alir Parsing ... 29

Gambar 3.3.a Diagram Alir perhitungan SC pada VSM (a) ... 30

Gambar 3.3.b Diagram Alir Perhitungan SC pada VSM (b) ... 31

Gambar 3.4 Diagram Alir Pengembangan Nilai SC pada GVSM ... 33

Gambar 4.1 Konfigurasi File App.Config ... 38

Gambar 4.2 Tampilan Masukan Domain Lexicon dan Keyword ... 43

Gambar 4.3 Rata-Rata Tingkat Kesuksesan Pencarian Tiap Topik ... 44

Gambar 4.4 Tingkat Kesuksesan Pencarian Topik Politik ... 46

Gambar 4.5 Data Hasil Akhir Proses Crawling ... 47

Gambar 4.6 Data Isi Berita ... 48

Gambar 4.7 Jumlah Responden Berdasarkan Kategori Pekerjaan... 50

Gambar 4.8 Tampilan frmSummarizerTrial ... 51

Gambar 4.9 Tampilan frmSummazrizer ... 52

(11)

viii

DAFTAR TABEL

Tabel 1.1 Perbandingan mesin pencari dengan aplikasi yang diusulkan ... 5

Tabel 2.1 Perhitungan tf, idf kalimat dan query (bersambung) ... 20

Tabel 2.1 Perhitungan tf, idf kalimat dan query (lanjutan) ... 21

Tabel 3.1. Detil Tabel mPage ... 24

Tabel 3.3. Detil Tabel mPageContent ... 25

Tabel 3.3. Detil Tabel mResultPage ... 25

Tabel 4.1 Data Web dan Tag Identifier Halaman (bersambung) ... 39

Tabel 4.1 Data Web dan Tag Identifier Halaman (lanjutan) ... 40

Tabel 4.2 Ringkasan Pengujian Focused Crawler ... 44

Tabel 4.3 Kriteria Penilaian ... 49

Tabel 4.4 Data Berita pada Kuesioner ... 49

(12)

ix

DAFTAR SINGKATAN

ERD Entity Relationship Diagram

GVSM Generalized Vector Space Model

HTML Hyper Text Markup Language

SC Similarity Coefficient

TF-IDF Term Frequency- Inverse Document Frequency

URL Uniform Resource Locator

Referensi

Dokumen terkait

Selanjutnya dari hasil perhitungan tersebut, maka dapat di buat KT desain dari kecepatan 25 knot sampai 30 knot dan di plotkan ke gambar open water digram

Tidak boleh mengharamkan sesuatu dari makanan kecuali makanan yang telah Allah haramkan dalam Kitab-Nya atau yang diharamkan melalui lisan Rasul-Nya.. Mengharamkan apa yang tidak

Untuk mempertahankan bahkan meningkatkan citra dan reputasi organisasi atau perusahaan dapat dilakukan salah satunya dengan melaksanakan program Corporate Social Responsibility

RKAM harus memuat rencana penerimaan dan rencana penggunaan uang dari semua sumber dana yang diterima madrasah. RKAM ini harus ditandatangani oleh Kepala Madrasah,

Selama ini PT Chandra Citra Cemerlang melakukan jumlah pemesanan yang terlalu banyak dalam sekali pemesanan untuk ketiga produk tersebut, sehingga mengakibatkan gudang

Cara mengatasi kendala kurangnya fasilitas kerja seperti tidak adanya laptop untuk praktikan bekerja, maka praktikan membawa laptop pribadi untuk menyelesaikan

Tujuh belas anak di antara nya belum memiliki perilaku moral yang baik yaitu Peneliti mengamati pada saat anak bermain, hasil pengamatan yang didapat yaitu

Elemen konten ini merupakan latar belakang dari gambar yang dibuat oleh pembuat meme dengan memiliki profesi, isu yang sedang populer, bersifat nostalgia dengan mengangkat