• Tidak ada hasil yang ditemukan

SISTEM PERINGKAS BERITA ONLINE OTOMATIS MENGGUNAKAN ALGORITMA TEXTTEASER SKRIPSI ANWAR PASARIBU

N/A
N/A
Protected

Academic year: 2021

Membagikan "SISTEM PERINGKAS BERITA ONLINE OTOMATIS MENGGUNAKAN ALGORITMA TEXTTEASER SKRIPSI ANWAR PASARIBU"

Copied!
11
0
0

Teks penuh

(1)

SISTEM PERINGKAS BERITA ONLINE OTOMATIS MENGGUNAKAN ALGORITMA TEXTTEASER

SKRIPSI

ANWAR PASARIBU 111402008

PROGRAM STUDI S1 TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA

MEDAN 2015

(2)

SISTEM PERINGKAS BERITA ONLINE OTOMATIS MENGGUNAKAN ALGORITMA TEXTTEASER

SKRIPSI

Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana Teknologi Informasi

ANWAR PASARIBU 111402008

PROGRAM STUDI S1 TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA

(3)

PERSETUJUAN

Judul : SISTEM PERINGKAS BERITA ONLINE

OTOMATIS MENGGUNAKAN ALGORITMA TEXTTEASER

Kategori : SKRIPSI

Nama : ANWAR PASARIBU

Nomor Induk Mahasiswa : 111402008

Program Studi : SARJANA (S1) TEKNOLOGI INFORMASI

Departemen : TEKNOLOGI INFORMASI

Fakultas : ILMU KOMPUTER DAN TEKNOLOGI

INFORMASI (FASILKOM-TI)

UNIVERSITAS SUMATERA UTARA

Diluluskan di

Medan, Januari 2016

Komisi Pembimbing :

Pembimbing 2 Pembimbing 1

Seniman, S.Kom., M.Kom. Dani Gunawan, S.T., M.T. NIP 19870525 201404 1 001 NIP 19820915 201212 1 002

Diketahui/Disetujui oleh

Program Studi S1 Teknologi Informasi Ketua,

Muhammad Anggia Muchtar, S.T., MM.IT. NIP 19800110 200801 1 010

(4)

ii

PERNYATAAN

SISTEM PRINGKASAN BERITA ONLINE MENGGUNAKAN ALGORTIMA TEXTTEASER

SKRIPSI

Saya mengakui bahwa skripsi ini adalah hasil karya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing disebutkan sumbernya.

Medan, Januari 2016

Anwar Pasaribu 111402008

(5)

UCAPAN TERIMA KASIH

Puji dan syukur penulis sampaikan ke hadirat Allah SWT yang telah memberikan rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan skripsi ini sebagai syarat untuk memperoleh gelar Sarjana Teknologi Informasi, Program Studi S1 Teknologi Informasi Universitas Sumatera Utara.

Ucapan terima kasih penulisan sampaikan kepada Bapak Dani Gunawan, S.T., M.T. selaku pembimbing pertama dan Bapak Seniman, S.Kom., M.Kom. selaku pembimbing kedua yang telah banyak meluangkan waktu untuk memberikan kritik dan saran dalam penelitian dan penulisan skripsi ini. Selanjutnya, terima kasih juga kepada Bapak Muhammad Anggia Muchtar, ST., M.M.IT sebagai dosen penguji pertama serta Ibu Dr. Erna Budhiarti Nababan, M. IT sebagai dosen penguji kedua. Penulis juga mengucapkan terima kasih kepada Bapak dan Ibu dosen S1 Teknologi Informasi yang telah mengajar dan memberikan masukan serta saran yang bermanfaat selama proses perkuliahan hingga dalam penulisan skripsi ini. Ucapan terima kasih juga ditujukan kepada semua pegawai dan staf tata usaha Teknologi Informasi dan Fasilkom-TI, yang telah membantu proses administrasi selama perkuliahan.

Penulis juga berterima kasih kepada kedua orang tua penulis, Bapak Asmar Pasaribu dan Ibu Agonna Siregar yang telah membesarkan penulis dengan penuh cinta dan kasih.

Terima kasih juga penulis ucapkan kepada seluruh teman-teman S1 Teknologi Informasi yang telah bersama-sama melewati perkuliahan dengan penulis, serta teman-teman mahasiswa USU lainnya.

(6)

iv

ABSTRAK

Peringkas teks otomatis menjadi salah satu solusi untuk menghadapi pesatnya arus informasi sekarang ini khususnya berita online. Solusi ini memberikan versi teks yang lebih singkat namun tetap mewakili bagian penting dari teks asli. Penelitian ini mengambil data dari tiga situs berita online yaitu kompas.com, detik.com, dan liputan6.com. Kemudian data yang diperoleh diringkas menggunakan metode ekstraktif yang bekerja dengan cara mengambil kalimat-kalimat penting dari teks asli tanpa memodifikasinya. Untuk itu digunakan algoritma TextTeaser yang memanfaatkan empat elemen yang terdiri dari judul teks, posisi kalimat, panjang kalimat, dan frekuensi

keyword untuk menentukan apakah kalimat termasuk ringkasan atau tidak. Selanjutnya

teks juga akan diringkas menggunakan algoritma TextRank yang bekerja dengan memberikan peringkat pada graf representasi objek (kalimat) dalam teks untuk menentukan apakah kalimat termasuk dalam ringkasan. Hasil ringkasan TextTeaser kemudian diuji dengan mengevaluasi menggunakan metode evaluasi intrinsic termasuk metode recall (R), precision (P), dan F-Score (F) dengan hasil ringkasan TextRank pada 3075 data berita. Sehingga 60,11% dari total data memiliki nilai F-Score ≥ 0,5 yang berarti algoritma TextTeaser memiliki tingkat presisi yang cukup baik untuk mengambil kalimat-kalimat penting dalam teks berita. Selanjutnya dari data tersebut, terdapat nilai

F-Score > 0,7 untuk 31,36% atau sekitar 884 berita yang memiliki presisi ringkasan

yang lebih baik untuk menggambarkan isi teks berita.

Kata kunci: TextTeaser, TextRank, berita, peringkasan teks otomatis, peringkasan ekstraktif.

(7)

ONLINE NEWS SUMMARIZATION SYSTEM USING TEXTTEASER ALGORITHM

ABSTRACT

Automatic text summarization become one of the solutions to deal with the rapid flow of information today, especially online news. This solution provides a shorter version but still represents important parts of the original text so that the general description of the contents of the entire text can be understood in a relatively shorter time. This research took data from three online news sites which are kompas.com, detik.com, and liputan6.com. Furthermore summarize the data using extractive methods by taking the main idea from the original text without any modification. For that purpose, used TextTeaser algorithm which utilizes the four elements consisting of text title, sentence position, sentence length, and keywords frequency. The four elements of this text will produce a score of each sentence to determine whether the sentence include in summary or not. Generated summary was tested with intrinsic evaluation methods, including recall (R), precision (P), and F-Score (F). The evaluation method then used to evaluates the summary by TextTeaser with summary by TextRank for 3075 news articles. So that 60.11% of the total news has a value of F-Score ≥ 0.5 which means that the TextTeaser algorithm is good enough in case to collect important sentences from news article. Furthermore, from the data contained F-Score values > 0.7 at 31.36%, or about 884 news data that have a better summary to describe the whole contents of the news article.

Keyword: TextTeaser, TextRank, news, automatic text summarization, extractive

(8)

vi

DAFTAR ISI

Hal.

Persetujuan ... i

Pernyataan ... ii

Ucapan Terima Kasih... iii

Abstrak ... iv

Abstract ... v

Daftar Isi ... vi

Daftar Tabel ... viii

Daftar Gambar... ix BAB 1 Pendahuluan ... 1 Latar Belakang ... 1 Rumusan Masalah ... 2 Batasan Masalah ... 3 Tujuan Penelitian... 3 Manfaat Penelitian ... 3 Metodologi Penelitian ... 3 Sistematika Penulisan ... 4

BAB 2 Landasan Teori ... 6

Berita ... 6

Karakteristik berita ... 6

Peringkasan Teks Otomatis ... 7

Algoritma TextTeaser ... 9

Algoritma TextRank ... 12

Periodic Tasks ... 15

Web Data Extraction ... 17

Python content extraction ... 18

Android ... 21

Library pendukung ... 22

Natural Language Toolkit (NLTK) ... 24

REST... 25

Evaluasi Hasil Ringkasan ... 26

Penelitian Terdahulu ... 27

BAB 3 Analisis dan Perancangan Sistem ... 29

(9)

Menentukan frekuensi keyword ... 38

Menentukan skor judul teks ... 43

Menentukan skor panjang kalimat ... 44

Menentukan skor posisi kalimat ... 44

Menentukan skor total ... 44

Perancangan Sistem ... 45

Perancangan antarmuka sistem ... 45

BAB 4 Implementasi dan Pengujian Sistem ... 50

Implementasi Sistem ... 50

Spesifikasi perangkat keras yang digunakan ... 50

Spesifikasi perangkat lunak yang digunakan ... 51

Implementasi Perancangan Antarmuka ... 51

Tampilan halaman sign in ... 51

Tampilan halaman sign up ... 51

Tampilan halaman home ... 52

Tampilan halaman news details ... 53

Tampilan halaman settings ... 53

Tampilan halaman choose news source ... 54

Hasil Ringkasan ... 54

Pengujian Hasil Ringkasan ... 57

BAB 5 Kesimpulan dan Saran ... 62

Kesimpulan ... 62

Saran ... 62

(10)

viii

DAFTAR TABEL

Hal.

Tabel 2.1 Nilai berdasarkan skor posisi kalimat (Balbin, 2011) ... 10

Tabel 2.2 TextRank dibandingkan dengan sistem lain (Mihalcea & Tarau, 2004) ... 14

Tabel 2.3 Contoh penggunaan crontab (Solem, 2015) ... 17

Tabel 2.4 Penelitian terdahulu ... 28

Tabel 3.1 Contoh URL situs berita ... 31

Tabel 3.2 Contoh stopword ... 35

Tabel 3.3 Contoh top keyword ... 39

Tabel 3.4 Skor keyword ... 40

Tabel 3.5 Menghitung nilai variabel DBS ... 40

Tabel 3.6 Skor total SBS ... 42

Tabel 3.7 Hitung fitur judul berita ... 43

Tabel 3.8 Keterangan bagian-bagian tampilan server ... 46

Tabel 4.1 Contoh hasil evaluasi sistem ... 57

Tabel 4.2 Frekuensi nilai F-Score pada seluruh data ... 58

Tabel 4.3 Frekuensi nilai F-Score berita kompas.com ... 59

Tabel 4.4 Frekuensi nilai F-Score berita detik.com ... 60

(11)

DAFTAR GAMBAR

Hal.

Gambar 2.1 Alur proses Celery (Smith, 2014) ... 16

Gambar 2.2 Contoh penggunaan Celery periodic tasks (Solem, 2015) ... 17

Gambar 2.3 Goose menentukan bagian yang bukan isi berita (Pfeiffer, 2014) ... 19

Gambar 2.4 Goose Menentukan Lokasi Isi Berita (Pfeiffer, 2014) ... 19

Gambar 2.5 Goose Menandai Gambar Utama untuk Berita (Pfeiffer, 2014) ... 20

Gambar 2.6 Contoh indikasi halaman bersambung ... 20

Gambar 2.7. Arsitektur PushBots (Google Developers, 2015) ... 24

Gambar 3.1 Arsitektur umum sistem peringkas berita ... 30

Gambar 3.2 Indikasi berita bersambung tekno.kompas.com ... 32

Gambar 3.3 Indikasi berita bersambung health.liputan6.com ... 33

Gambar 3.4 Indikasi berita bersambung health.detik.com ... 34

Gambar 3.5 Flowchart text preprocessing ... 37

Gambar 3.6 Contoh input teks ... 37

Gambar 3.7 Teks setelah menghilangkan tanda baca ... 37

Gambar 3.8 Hasil penguraian kata dari teks dan huruf kecil ... 38

Gambar 3.9 Kata-kata setelah penghapusan stopword ... 38

Gambar 3.10 Input judul dan teks berita ... 38

Gambar 3.11 Tampilan console server sistem peringkas ... 45

Gambar 3.12 Rancangan (1) halaman sign in dan (2) halaman sign up ... 46

Gambar 3.13 Rancangan halaman home ... 47

Gambar 3.14 Rancangan halaman news details ... 48

Gambar 3.15 Rancangan halaman Settings ... 48

Gambar 3.16 Rancangan halaman Choose News Source ... 49

Gambar 4.1 Tampilan halaman sign in ... 51

Gambar 4.2 Tampilan halaman sign up ... 52

Gambar 4.3 Tampilan halaman home ... 52

Referensi

Dokumen terkait

Detta kan man lyfta till en diskussion om hur likvärdig utbildningen faktiskt blir för eleverna då man inte har tillgång till lika mycket resurser.. Detta berörs också i

Uji cochran pertama kali diperkenalkan oleh William Gemmell Cochran.Uji Cochran digunakan untuk menguji apakah k himpunan frekuensi atau proporsi berpasangan

Berdasarkan uraian di atas maka perlu adanya penelitian untuk mengetahui kondisi operasi optimum(mass ratio, suhu, dan waktu ekstraksi) dalam membuat karaginan dari rumput laut

Namun hasil penelitian lain menunjukkan bahwa penelitian ini tidak sesuai dengan penelitian Karbella Kuantanades Hasty yang menyatakan bahwa ada hubungan yang

Berdasarkan hasil penelitian yang menunjukkan bahwa kebijakan utang berpengaruh negatif signifikan pada nilai perusahaan, manajemen perusahaan.. Penelitian menunjukkan

Kementerian Pendidikan dan Kebudayaan melaksanakan program yang disebut dengan Program Keahlian Ganda yang bertujuan untuk melakukan penataan dan pemenuhan guru

Karakteristik Penderita Kanker Payudara yang Dirawat Inap di RS St Elisabeth Medan Tahun2011 – 2013.. Karakteristik Penderita Kanker Payudara Berdasarkan Gambaran Histopatologi

Setelah melakukan pengaturan waktu siklus serta penentuan fase dari setiap lengan dengan menggunakan dua alternatif, maka didapat bahwa alternatif pertama dapat