DOCUMENT FREQUENCY (TF-IDF)
SKRIPSI
DANDUNG TRI SETIAWAN 071402054
PROGRAM STUDI TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
MEDAN
2014
PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY-INVERSE DOCUMENT FREQUENCY (TF-IDF)
SKRIPSI
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana Teknologi Informasi
DANDUNG TRI SETIAWAN 071402054
PROGRAM STUDI TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATER UTARA
MEDAN 2014
PERSETUJUAN
Judul : PERINGKASAN TEKS BERITA SECARA
OTOMATIS MENGGUNAKAN TF.IDF
Kategori : SKRIPSI
Nama : DANDUNG TRI SETIAWAN
Nomor Induk Mahasiswa : 071402054
Program Studi : SARJANA (S1) TEKNOLOGI INFORMASI
Departemen : TEKNOLOGI INFORMASI
Fakultas : ILMU KOMPUTER DAN TEKNOLOGI
INFORMASI UNIVERSITAS SUMATERA UTARA
Diluluskan di
Medan, Agustus 2014
Komisi Pembimbing :
Pembimbing 2 Pembimbing 1
M Anggia Muchtar, ST, M.MIT Prof. Dr. Opim Salim Sitompul, M.Sc NIP. 19800110 200801 1 010 NIP. 19610817 198701 1 001
Diketahui/Disetujui oleh
Program Studi S1 Teknologi Informasi Ketua,
M Anggia Muchtar, ST, M.MIT NIP. 19800110 200801 1 010
iii
PERNYATAAN
PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF.IDF)
SKRIPSI
Saya mengakui bahwa skripsi ini adalah hasil kerja saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan, Agustus 2014
Dandung Tri Setiawan 071402054
UCAPAN TERIMA KASIH
Alhamdulillah, segala puji dan syukur penulis ucapkan kehadirat Allah SWT, serta shalawat dan salam kepada junjungan alam nabi Muhammad SAW, karena atas berkah, rahmat dan hidayah-Nya penulis mampu menyelesaikan skripsi ini.
Dalam penulisan skripsi ini penulis banyak mendapatkan bantuan serta dorongan dari pihak lain. Dalam kesempatan ini dengan segala kerendahan hati, penulis mengucapkan terima kasih sebesar-besarnya kepada:
1. Umi dan Papa selaku kedua orang tua penulis Fatimah dan M. Yahmin, karena berkat dukungannya baik secara moril maupun materil secara terus disetiap saat, sehingga penulis dapat menyelesaikan skripsi ini.
2. Pihak keluarga, kakak, abang, adik dan seluruh keluarga.
3. Bapak Prof. Dr. Opim Salim Sitompul, M.Sc, Bapak M. Anggia Muchtar, ST, M.MIT selaku dosen pembimbing penulis yang telah bersedia meluangkan waktu untuk memberikan saran dalam menyelesaikan skripsi ini.
4. Ketua dan Sekretaris Program Studi S-1 Teknologi Informasi Bapak M.
Anggia Muchtar, ST, M.MIT dan Bapak M. Fadhly Syahputra, M.Sc.
5. Dekan dan Pembantu Dekan Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara serta semua dosen dan pegawai di Program Studi S-1 Teknologi Informasi.
6. Ibu Dr. Erna Budhiarti Nababan, M.IT dan Bapak Dr. Syahril Effendi, S.Si, M.IT selaku dosen pembanding dan penguji yang telah banyak memberikan saran dan kritik dalam menyelesaikan skripsi ini.
7. Seluruh rekan-rekan kuliah sejawat yang tidak dapat disebutkan satu persatu.
Dalam penyusunan skripsi ini penulis menyadari bahwa masih banyak kekurangan, untuk itu penulis mengharapkan saran dan kritik yang bersifat membangun dari semua pihak demi kesempuranaan skripsi ini.
Akhir kata penulis mengharapkan semoga skripsi ini dapat bermanfaat dan membantu semua pihak yang memerlukannya.
v
ABSTRAK
Perkembangan teknologi internet berdampak bertambahnya jumlah situs berita dan menciptakan ledakan informasi. Hal tersebut menuntut semua informasi bisa diakses dengan cepat dan tidak harus membutuhkan banyak waktu dalam membaca sebuah berita. Teknologi peringkas teks otomatis menawarkan solusi untuk membantu pencarian isi berita berupa deskripsi singkat. Penelitian diawali dengan tahap text preprocessing, feature selection dan proses selanjutnya menghitung bobot tf-idf. Hasil dari penelitian ini menunjukkan bahwa metode tf-idf dapat digunakan untuk meringkas teks secara otomatis meskipun tidak sampai pada proses stemming. Sistem dengan metode tf-idf masih memiliki kelemahan yaitu ringkasan teks yang dihasilkan kurang mencerminkan isi berita dan secara tata bahasa masih belum baik.
Kata Kunci : ringkasan, ringkasan teks, peringkasan teks otomatis, tf-idf, berita.
THE AUTOMATIC NEWS TEXT SUMMARIZATION BY USING TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF.IDF)
ABSTRACT
The development of internet technology affect the increasing of news web and create an information explosion. This make all information can be accessed fast and not need so much time in reading a news. The automaic summarizaton technology of text give solution in searching the content of news in short description. This study begins with the processing text step, feature selection and count the amount tf-idf. The result of this study show that tf-idf can be used to summarize text automatcally though it cannot reach stemming process. The system of tf.idf method still has some weaknesses that is the result of text does not interprete the content of text and there are also some of text grammar.
Keywords : summary, teks summarization, automatic text summarization, term frequency, inverse document frequency, tf-idf, news.
vii
DAFTAR ISI
Hal.
Persetujuan ii
Pernyataan iii
Ucapan Terima Kasih iv
Abstrak v
Abstract vi
Daftar Isi vii
Daftar Tabel ix
Daftar Gambar x
1 Bab 1 Pendahuluan 1
1.1. Latar Belakang 1
1.2. Rumusan Masalah 2
1.3. Tujuan Penelitian 2
1.4. Manfaat Penelitian 2
1.5. Batasan Masalah 3
1.6. Metodologi Penelitian 3
1.7. Sistematika Penulisan 4
2 Bab 2 Landasan Teori 6
2.1. Peringkasan Teks Otomatis 6
2.2. Berita 9
2.2.1. Nilai-Nilai Berita 9
2.2.2. Unsur-Unsur Berita 10
2.2.3. Anatomi Berita 10
2.3. Text Mining 12
2.4. Kata 13
2.5. Kalimat 14
2.6. Paragraf 14
2.7. Term Frequency Inverse Document Frequency (TF-IDF) 15
2.8. Flowchart 17
2.9. Penelitian Terdahulu 18
3 Bab 3 Analisis dan Perancangan 21
3.1. Analisis Data 21
3.1.1. Data Berita 21
3.1.2. Data Stopword 23
3.1.3. Data Kata Dasar 23
3.2. Analisis Sistem 24
3.2.1. Text Preprocessing 24
3.2.2. Feature Selection 26
3.2.3. Contoh penggunaan algoritma (tf/idf) 28
3.3. Perancangan Sistem 31
3.3.1. Diagram konteks 31
3.3.2. DFD level 1 32
3.4. Perancangan Antarmuka Sistem 33
4 Bab 4 Implementasi dan Pengujian 35
4.1. Implementasi Sistem 35
4.1.1. Spesifikasi Perangkat Keras dan Perangkat Lunak 35
4.1.2. Tampilan Awal 36
4.1.3. Tampilan Proses Sistem 36
4.1.4. Tampilan Hasil Sistem 37
4.2. Pengujian Sistem 38
5 Bab 5 Kesimpulan dan Saran 40
5.1. Kesimpulan 40
5.2. Saran 40
Daftar Pustaka 41
ix
DAFTAR TABEL
Hal.
Tabel 2.1 Fungsi simbol-simbol flowchart 18
Tabel 2.2 Penelitian terdahulu 20
Tabel 3.1 Tabel Berita 22
Tabel 3.2 Tabel Stopword 23
Tabel 3.3 Tabel kata dasar 23
Tabel 3.4 Hasil dari proses text preprocessing 26
Tabel 3.5 Hasil dari proses text preprocessing yang dijadikan input. 27
Tabel 3.6 Kumpulan stopword 27
Tabel 3.7 Hasil dari proses filtering 28
Tabel 3.8 Menghitung tf 29
Tabel 3.9 Menghitung df 29
Tabel 3.10 Menghitung idf (1) 30
Tabel 3.11 Menghitung idf (2) 30
Tabel 3.12 Menghitung tf.id 31
Tabel 4.1 Rancangan Pengujian Tampilan Sistem 38
Tabel 4.2 Hasil Pengujian Tampilan Sistem 39
DAFTAR GAMBAR
Hal.
Gambar 2.1 Mesin Peringkas Teks 8
Gambar 2.2 Modul Peringkas Teks 9
Gambar 2.3 Anatomi Berita 11
Gambar 2.4 Tahapan-tahapan peringkasan teks otomatis metode TF-IDF 17
Gambar 3.1 Skema proses pengambilan berita 21
Gambar 3.2 Flowchart Text Preprocessing 25
Gambar 3.3 Contoh kalimat yang akan diinput 25
Gambar 3.4 Contoh kalimat setelah ToLowerCase 25
Gambar 3.5 Flowchart proses filtering 27
Gambar 3.6 Konteks Diagram Peringkas Teks Otomatis 32
Gambar 3.7 DFD peringkas teks otomatis 32
Gambar 3.8 Tampilan Antarmuka Sistem 33
Gambar 4.1 Tampilan Awal Sistem 36
Gambar 4.2 Tampilan Proses Pemilihan 37
Gambar 4.3 Tampilan Hasil Proses Pemilihan 37
Gambar 4.4 Tampilan Hasil Ringkasan 38