Peringkasan teks berita secara Otomatis menggunakan TF.IDF

(1)

PERINGKASAN TEKS BERITA SECARA OTOMATIS

MENGGUNAKAN TERM FREQUENCY INVERSE

DOCUMENT FREQUENCY (TF-IDF)

SKRIPSI

DANDUNG TRI SETIAWAN

071402054

PROGRAM STUDI TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA

▸ Baca selengkapnya: teks berita dapat dianalisis menggunakan kriteria konteks opini perspektif dan sumber. apa maksudny

(2)

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN

TERM FREQUENCY-INVERSE DOCUMENT FREQUENCY (TF-IDF)

SKRIPSI

Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana Teknologi Informasi

DANDUNG TRI SETIAWAN 071402054

PROGRAM STUDI TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATER UTARA

MEDAN 2014

(3)

ii

PERSETUJUAN

Judul : PERINGKASAN TEKS BERITA SECARA

OTOMATIS MENGGUNAKAN TF.IDF

Kategori : SKRIPSI

Nama : DANDUNG TRI SETIAWAN

Nomor Induk Mahasiswa : 071402054

Program Studi : SARJANA (S1) TEKNOLOGI INFORMASI

Departemen : TEKNOLOGI INFORMASI

Fakultas : ILMU KOMPUTER DAN TEKNOLOGI

INFORMASI UNIVERSITAS SUMATERA UTARA

Diluluskan di

Medan, Agustus 2014

Komisi Pembimbing :

Pembimbing 2 Pembimbing 1

M Anggia Muchtar, ST, M.MIT Prof. Dr. Opim Salim Sitompul, M.Sc

NIP. 19800110 200801 1 010 NIP. 19610817 198701 1 001

Diketahui/Disetujui oleh

Program Studi S1 Teknologi Informasi

Ketua,

M Anggia Muchtar, ST, M.MIT

(4)

iii

PERNYATAAN

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM

FREQUENCY INVERSE DOCUMENT FREQUENCY (TF.IDF)

SKRIPSI

Saya mengakui bahwa skripsi ini adalah hasil kerja saya sendiri, kecuali beberapa

kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.

Medan, Agustus 2014

Dandung Tri Setiawan

071402054

(5)

iv

UCAPAN TERIMA KASIH

Alhamdulillah, segala puji dan syukur penulis ucapkan kehadirat Allah SWT, serta

shalawat dan salam kepada junjungan alam nabi Muhammad SAW, karena atas

berkah, rahmat dan hidayah-Nya penulis mampu menyelesaikan skripsi ini.

Dalam penulisan skripsi ini penulis banyak mendapatkan bantuan serta

dorongan dari pihak lain. Dalam kesempatan ini dengan segala kerendahan hati,

penulis mengucapkan terima kasih sebesar-besarnya kepada:

1. Umi dan Papa selaku kedua orang tua penulis Fatimah dan M. Yahmin, karena

berkat dukungannya baik secara moril maupun materil secara terus disetiap

saat, sehingga penulis dapat menyelesaikan skripsi ini.

2. Pihak keluarga, kakak, abang, adik dan seluruh keluarga.

3. Bapak Prof. Dr. Opim Salim Sitompul, M.Sc, Bapak M. Anggia Muchtar, ST,

M.MIT selaku dosen pembimbing penulis yang telah bersedia meluangkan

waktu untuk memberikan saran dalam menyelesaikan skripsi ini.

4. Ketua dan Sekretaris Program Studi S-1 Teknologi Informasi Bapak M.

Anggia Muchtar, ST, M.MIT dan Bapak M. Fadhly Syahputra, M.Sc.

5. Dekan dan Pembantu Dekan Fakultas Ilmu Komputer dan Teknologi Informasi

Universitas Sumatera Utara serta semua dosen dan pegawai di Program Studi

S-1 Teknologi Informasi.

6. Ibu Dr. Erna Budhiarti Nababan, M.IT dan Bapak Dr. Syahril Effendi, S.Si,

M.IT selaku dosen pembanding dan penguji yang telah banyak memberikan

saran dan kritik dalam menyelesaikan skripsi ini.

7. Seluruh rekan-rekan kuliah sejawat yang tidak dapat disebutkan satu persatu.

Dalam penyusunan skripsi ini penulis menyadari bahwa masih banyak

kekurangan, untuk itu penulis mengharapkan saran dan kritik yang bersifat

membangun dari semua pihak demi kesempuranaan skripsi ini.

Akhir kata penulis mengharapkan semoga skripsi ini dapat bermanfaat dan

(6)

v

ABSTRAK

Perkembangan teknologi internet berdampak bertambahnya jumlah situs berita dan

menciptakan ledakan informasi. Hal tersebut menuntut semua informasi bisa diakses

dengan cepat dan tidak harus membutuhkan banyak waktu dalam membaca sebuah

berita. Teknologi peringkas teks otomatis menawarkan solusi untuk membantu

pencarian isi berita berupa deskripsi singkat. Penelitian diawali dengan tahap text

preprocessing, feature selection dan proses selanjutnya menghitung bobot tf-idf. Hasil

dari penelitian ini menunjukkan bahwa metode tf-idf dapat digunakan untuk

meringkas teks secara otomatis meskipun tidak sampai pada proses stemming. Sistem

dengan metode tf-idf masih memiliki kelemahan yaitu ringkasan teks yang dihasilkan

kurang mencerminkan isi berita dan secara tata bahasa masih belum baik.

Kata Kunci : ringkasan, ringkasan teks, peringkasan teks otomatis, tf-idf, berita.

(7)

vi

THE AUTOMATIC NEWS TEXT SUMMARIZATION BY USING TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF.IDF)

ABSTRACT

The development of internet technology affect the increasing of news web and create

an information explosion. This make all information can be accessed fast and not

need so much time in reading a news. The automaic summarizaton technology of text

give solution in searching the content of news in short description. This study begins

with the processing text step, feature selection and count the amount tf-idf. The result

of this study show that tf-idf can be used to summarize text automatcally though it

cannot reach stemming process. The system of tf.idf method still has some

weaknesses that is the result of text does not interprete the content of text and there are

also some of text grammar.

Keywords : summary, teks summarization, automatic text summarization, term

(8)

vii

DAFTAR ISI

Hal.

Persetujuan ii

Pernyataan iii

Ucapan Terima Kasih iv

Abstrak v

1.1. Latar Belakang 1

1.2. Rumusan Masalah 2

1.3. Tujuan Penelitian 2

1.4. Manfaat Penelitian 2

1.5. Batasan Masalah 3

1.6. Metodologi Penelitian 3

1.7. Sistematika Penulisan 4

2 Bab 2 Landasan Teori 6

2.1. Peringkasan Teks Otomatis 6

(9)

viii

2.7. Term Frequency Inverse Document Frequency (TF-IDF) 15

2.8. Flowchart 17

2.9. Penelitian Terdahulu 18

3 Bab 3 Analisis dan Perancangan 21

3.1. Analisis Data 21

3.1.1. Data Berita 21

3.1.2. Data Stopword 23

3.1.3. Data Kata Dasar 23

3.2. Analisis Sistem 24

3.2.1. Text Preprocessing 24

3.2.2. Feature Selection 26

3.2.3. Contoh penggunaan algoritma (tf/idf) 28

3.3. Perancangan Sistem 31

3.3.1. Diagram konteks 31

3.3.2. DFD level 1 32

3.4. Perancangan Antarmuka Sistem 33

4 Bab 4 Implementasi dan Pengujian 35

4.1. Implementasi Sistem 35

4.1.1. Spesifikasi Perangkat Keras dan Perangkat Lunak 35

4.1.2. Tampilan Awal 36

4.1.3. Tampilan Proses Sistem 36

4.1.4. Tampilan Hasil Sistem 37

4.2. Pengujian Sistem 38

5 Bab 5 Kesimpulan dan Saran 40

5.1. Kesimpulan 40

5.2. Saran 40

(10)

ix

DAFTAR TABEL

Hal.

Tabel 2.1 Fungsi simbol-simbol flowchart 18

Tabel 2.2 Penelitian terdahulu 20

Tabel 3.1 Tabel Berita 22

Tabel 3.2 Tabel Stopword 23

Tabel 3.3 Tabel kata dasar 23

Tabel 3.4 Hasil dari proses text preprocessing 26

Tabel 3.5 Hasil dari proses text preprocessing yang dijadikan input. 27

Tabel 3.6 Kumpulan stopword 27

Tabel 3.7 Hasil dari proses filtering 28

Tabel 3.8 Menghitung tf 29

Tabel 3.9 Menghitung df 29

Tabel 3.10 Menghitung idf (1) 30

Tabel 3.11 Menghitung idf (2) 30

Tabel 3.12 Menghitung tf.id 31

Tabel 4.1 Rancangan Pengujian Tampilan Sistem 38

Tabel 4.2 Hasil Pengujian Tampilan Sistem 39

(11)

x

DAFTAR GAMBAR

Hal.

Gambar 2.1 Mesin Peringkas Teks 8

Gambar 2.2 Modul Peringkas Teks 9

Gambar 2.3 Anatomi Berita 11

Gambar 2.4 Tahapan-tahapan peringkasan teks otomatis metode TF-IDF 17

Gambar 3.1 Skema proses pengambilan berita 21

Gambar 3.2 Flowchart Text Preprocessing 25

Gambar 3.3 Contoh kalimat yang akan diinput 25

Gambar 3.4 Contoh kalimat setelah ToLowerCase 25

Gambar 3.5 Flowchart proses filtering 27

Gambar 3.6 Konteks Diagram Peringkas Teks Otomatis 32

Gambar 3.7 DFD peringkas teks otomatis 32

Gambar 3.8 Tampilan Antarmuka Sistem 33

Gambar 4.1 Tampilan Awal Sistem 36

Gambar 4.2 Tampilan Proses Pemilihan 37

Gambar 4.3 Tampilan Hasil Proses Pemilihan 37

(12)