ABSTRAK
Dalam merangkum suatu teks, dibutuhkan waktu yang cukup banyak oleh karena itu
peringkasan teks otomatis diperlukan. Berbagai macam metode untuk melakukan
peringkasan teks otomatis sudah tersedia, oleh sebab itu eksplorasi dilakukan untuk
mengetahui lebih dalam mengenai peringkasan teks otomatis. 2 metode yang telah
difokuskan yaitu TF - IDF dan Intersection, perbedaan besar dari kedua metode ini
adalah, TF – IDF menggunakan perhitungan secara global sedangkan Intersection
menggunakan perhitungan secara lokal. Tujuan dari eksplorasi ini adalah untuk
mengetahui pembobotan lokal atau global yang lebih baik dalam meringkas dokumen,
untuk mengetahui jawaban dari pertanyaan ini beberapa pengujian telah dilakukan,
seperti melakukan survei dengan memperlihatkan hasil ringkasan dari kedua metode dan
membandingkannya dengan abstrak asli dari dokumen yang di uji dan penilaian
berdasarkan kata unik yang berada pada hasil ringkasan dan abstrak asli, menggunakan
algoritma khusus yang telah dibuat sebelumnya untuk melakukan pengujian. Hasil
pengujian memperlihatkan perbedaan yang tidak terlalu besar ,dan metode intersection
bekerja dengan baik pada makna yang berfokus pada beberapa kalimat saja dikarenakan
perhitungan lokal, sedangkan TF-IDF bekerja dengan baik pada makna yang tersebar luas
pada beberapa paragraf, dan hasil kedua pengujian memperlihatkan hal yang sama yaitu
semakin besar dokumen maka penilaian baik dari survei maupun kata unik menurun.
ABSTRACT
Summarizing a text is time-consuming, therefore automatic summarization is needed. A variety method to perform automatic summarization already exists, so the exploration has done to know more about automatic text summarization. 2 methods have been focused which is TF - IDF and Intersection, major differences of these two methods are TF - IDF using the calculation globally while Intersection calculation using the calculation locally. The purpose of this exploration is to determine the weighting locally or globally better in summarizing the document, to know the answers to these question some testing has been done, such as a survey that showing the summary results of both methods and compare them with abstract of the document and a calculation based on the unique words from the two results of the methods and abstract, using special algorithms that have been made previously to perform the testing. The test results show that the difference is not too great, and the method of intersection is well performed for focused points of certain sentences because of the local calculation, while TF-IDF is well performed for wider points of certain paragraphs because of the global calculation. And the results of the both tests show the same thing that the larger the document both survey as well as the unique word decreases in the value of rating.
DAFTAR ISI
LEMBAR PENGESAHAN ... i
PERNYATAAN ORISINALITASI LAPORAN PENILITAN ... ii
PERNYATAAN PUBLIKASI LAPORAN PENILITIAN ... iii
PRAKATA ... iv
DAFTAR NOTASI/ LAMBANG ... xv
DAFTAR SINGKATAN ... xviii
BAB 1 PENDAHULUAN ... 1
1.1 Latar Belakang ... 1
1.2 Rumusan Masalah ... 2
1.3 Tujuan Pembahasan ... 2
1.4 Ruang Lingkup ... 2
1.5 Sumber Data ... 3
1.6 Sistematika Penyajian ... 3
BAB 2 KAJIAN TEORI ... 4
2.1 Ringkasan ... 4
2.2 Peringkasan teks Otomatis ... 4
2.2.1 Jenis-jenis Ringkasan ... 4
2.3 Kata ... 5
2.5 Paragraf ... 5
2.6 Term Frequency Inverse Document Frequency (TF-IDF) ... 6
2.7 Cosine Similarity ... 7
2.8 Intersection ... 7
2.9 PageRank ... 8
2.10 Contoh Program ... 8
BAB 3 ANALISIS DAN RANCANGAN SISTEM ... 12
3.1 Analisis Masalah ... 12
3.1.1 Analisis Data Pengguna ... 13
3.2 Analisis Sistem ... 14
3.2.1 Tokenizing... 15
3.2.2 Stopword ... 16
3.3 Perancangan Sistem ... 16
3.3.1 UI Design ... 17
3.3.2 Use Case Diagram ... 18
3.3.2.1 Penjelasan Use Case Diagram ... 19
3.3.3 Activity Diagram ... 19
3.3.3.1 Activity Diagram Memasukan Data ... 19
3.3.3.2 Activity Diagram Eksekusi Program ... 20
3.4 Contoh Algoritma ... 21
3.4.1 Contoh TF-IDF ... 21
3.4.2 Contoh Intersection ... 27
BAB 4 IMPLEMENTASI SISTEM ... 29
4.1 Arsitektur Sistem ... 29
4.1.1 Arsitektur Intersection ... 30
4.2 Penjelasan Algoritma ... 35
4.2.1 Algoritma Pemisahan Teks ... 37
4.2.2 Algoritma Pembuatan Grafik ... 37
4.2.2.1 Algoritma Intersection ... 39
4.2.2.2 Algortima TF-IDF dan Cosine Similarity ... 41
4.2.2.2.1 Algoritma TF-IDF ... 45
4.2.2.2.2 Algoritma Cosine Similarity ... 46
4.2.3 Algoritma Perhitungan PageRank ... 48
4.2.3.1 Algoritma PageRank ... 52
4.2.4 Algoritma Penyusunan Kalimat ... 55
4.2.4.1 Penyusunan Kalimat ... 56
4.2.5 Algoritma Penilaian Kata Unik ... 58
4.2.5.1 Algoritma pencari kata unik ... 60
BAB 5 PENGUJIAN ... 61
5.1 Hasil Survei ... 61
5.1.1 Survei I ... 61
5.1.2 Survei II ... 68
5.1.3 Survei III ... 74
5.1.4 Kesimpulan Survei ... 80
5.2 Benchmarking ... 81
BAB 6 SIMPULAN DAN SARAN ... 84
6.1 Simpulan ... 84
6.2 Saran ... 84
DAFTAR PUSTAKA ... 1
DAFTAR GAMBAR
Gambar 2.1 Rumus Cosine Similarity ... 7
Gambar 2.2 Rumus Intersection ... 7
Gambar 2.3 Contoh program autosummarizer ... 9
Gambar 2.3 Contoh Program smmry ... 10
Gambar 2.5 Contoh Program 3 tools4noobs ... 11
Gambar 3.1 Hasil Survey Pembaca ... 13
Gambar 3.2 Hasil Survey Penulis ... 14
Gambar 3.3 Tokenizing ... 15
Gambar 3.4 Gambaran Rancangan Sistem... 17
Gambar 3.5 Rancangan UI awal ... 18
Gambar 3.6 Usecase pengguna ... 18
Gambar 3.7 Activity Diagram pemasukan data ... 20
Gambar 3.8 Activity Diagram Eksekusi program ... 21
Gambar 3.9 Contoh Algoritma TF-IDF Cosine ... 23
Gambar 4.1 Intersection Diagram ... 30
Gambar 4.2 TF - IDF Diagram ... 33
Gambar 4.3 Config Variable ... 35
Gambar 4.4 Algoritma pengambilan teks ... 36
Gambar 4.5 Susunan variable awal ... 36
Gambar 4.6 Function getSentences ... 37
Gambar 4.7 Function makeGraph ... 38
Gambar 4.8 Function IntersectionAlgorithm ... 41
Gambar 4.10 Funtion TfIdf And Cosine Similarity Algorithm ... 42
Gambar 4.11 Funtion TfIdf And Cosine Similarity Algorithm 2 ... 43
Gambar 4.12 function TF ... 45
Gambar 4.13 Function IDF ... 45
Gambar 4.14 Function TFforQuery ... 46
Gambar 4.15 Function Cosine Similarity... 47
Gambar 4.16 Function calculatePageRank 1 ... 48
Gambar 4.18 Function calculatePageRank 3 ... 50
Gambar 4.19 Function calculatePageRank 4 ... 50
Gambar 4.20 Keseluruhan function calculatePageRank ... 51
Gambar 4.21 fucntion runPageRankOnce 1 ... 52
Gambar 4.22 function runPageRankOnce 2 ... 54
Gambar 4.23 Final Code ... 55
Gambar 4.24 Function constructSummary 1 ... 56
Gambar 4.25 Function constructSummary 2 ... 57
Gambar 4.26 Algoritma Penilaian... 59
Gambar 4.27 Function uniqueWord ... 60
Gambar 5.1 Contoh Survey I ... 62
Gambar 5.2 Grafik Survey I Intersection ... 63
Gambar 5.3 Table Survey I Intersection ... 64
Gambar 5.4 Grafik Survey I TF - IDF ... 65
Gambar 5.5 Table Survey I TF - IDF ... 66
Gambar 5.6 Grafik Survey Final ... 67
Gambar 5.7 Table Survey I Final ... 68
Gambar 5.8 Contoh Survey II ... 68
Gambar 5.9 Grafik Survey II Intersection... 69
Gambar 5.10 Table Survey II Intersection ... 70
Gambar 5.11 Grafik Survey II TF - IDF ... 71
Gambar 5.12 Tabel Survey II TF - IDF ... 72
Gambar 5.13 Grafik Survey II Final ... 73
Gambar 5.14 Table Survey II Final ... 74
Gambar 5.15 Contoh Survey III ... 74
Gambar 5.16 Grafik Survey III Intersection ... 75
Gambar 5.17 Table Survey III Intersection... 76
Gambar 5.18 Grafik Survey III TF – IDF ... 77
Gambar 5.19 Table Survey III TF – IDF ... 78
Gambar 5.20 Grafik Survey III Final ... 79
Gambar 5.21 Table Survey III ... 80
DAFTAR TABEL
DAFTAR NOTASI/ LAMBANG
Gambar Nama Keterangan
Flow Direction symbol dimulai nya proses atau
berakhirnya proses yang di lakukan secara
System Boundary
Final State Kondisi akhir ketika objek berhenti
memberikan respon
State Kondisi sebuah entitas
Transition Perubahan kondisi suatu objek yang disebabkan
Decision Kondisi percabangan yang diharuskan
DAFTAR SINGKATAN
BAB 1
PENDAHULUAN
1.1Latar Belakang
Pendidikan merupakan suatu hal yang penting. Tidak jarang orang tua berusaha untuk menyekolahkan anaknya bahkan sampai kepada perguruan tinggi. Salah satu bidang dalam perguruan tinggi yang sekarang ini menjadi favorite adalah Teknologi Informasi. Mahasiswa yang menempuh Bidang ini akan belajar mengenai Teknologi dan setelahnya diharapkan mahasiswa akan menguasai kompetensi dalam bidang Teknologi.
Mahasiswa Bidang Teknologi Informasi dalam menjalankan perkuliahan, kerap kali mendapatkan tugas untuk membuat dokumen ilmiah. Mahasiswa dituntut membuat dokumentasi tentang penelitian yang dibuatnya dalam bidang Teknologi Informasi.
Dalam dokumen ilmiah mahasiswa juga diminta untuk membuat abstrak, abstrak merupakan rangkuman seluruh isi dari dokumen ilmiah. Tidak jarang mahasiswa mengalami kesulitan dalam membuat abstrak dikarenakan mahasiswa sulit untuk memilah bagian mana saja yang paling penting untuk dimasukkan kedalam sebuah abstrak.
Sekarang ini, telah terdapat beberapa metode peringkasan ekstraktif, yaitu
tf-idf(Term Frequency Inverse Document Frequency), TextRank dan masih
banyak lagi, metode-metode ini dapat membantu mahasiswa untuk membuat abstrak menjadi lebih mudah. Metode peringkasan ekstraktif akan memilih secara otomatis kalimat-kalimat yang relevan yang kemudian dapat merepresentasikan keseluruhan isi dari suatu dokumen ilmiah.
2
1.2Rumusan Masalah
Berdasarkan latar belakang yang telah diuraikan di atas, maka terdapat rumusan masalah sebagai berikut: bagaimana mengevaluasi pengaruh pembobotan secara lokal dan global dalam pembentukan ringkasan dokumen.
1.3Tujuan Pembahasan
Adapun tujuan dilakukannya Eksplorasi metode peringkasan Ekstraktif ini, yaitu:
1. Mengusulkan metode untuk menghasilkan peringkasan dokumen, dengan mempertimbangkan pengaruh dari pembobotan kata lokal dan global. 2. Membuat aplikasi peringkasan dokumen otomatis dengan target utama
sebagai tugas akhir dari Universitas Kristen Maranatha.
1.4Ruang Lingkup
Menimbang bahwa metode peringkasan Ekstraktif cukup luas, maka ditentukan ruang lingkup sebagai berikut:
1. Data yang akan di proses oleh metode ini dan segala percobaan algoritma akan di fokuskan pada bahasa Indonesia.
2. Data yang akan di proses akan dibatasi pada kategori dokumen teknologi informasi
3. Asumsi dokumen yang akan diringkas adalah dokumen yang memiliki pola bahasa yang baik dan mengacu pada Ejaan Yang Disempurnakan (EYD).
4. Dokumen yang mengandung singkatan akan dianggap satu kata.
5. Output kalimat yang dihasilkan berasal sepenuhnya dari dokumen yang
3
1.5Sumber Data
Data yang digunakan dalam penelitian ini adalah data sekunder yang diperoleh dari output-output dari sistem yang sudah menerapkan metode peringkasan Ekstraktif yang nantinya menjadi bahan perbandingan penelitian.
1.6Sistematika Penyajian
Sistematika Penyajian laporan yang akan digunakan dalam laporan ini adalah sebagai berikut:
BAB I PENDAHULUAN
Bab ini menjelaskan latar belakang, rumusan masalah, batasan masalah, dan sistematika penyajian. Dalam bab ini pembaca dapat mengetahui gambaran kasar mengenai isi laporan ini.
BAB II KAJIAN TEORI
Bab ini membahas dengan jelas mengenai teori - teori atau metode - metode yang di gunakan pada Eksplorasi metode peringkasan Ekstraktif dan menganalisis metode peringkasan yang sudah di implementasikan.
BAB III TINJAUAN PUSTAKA
Bab ini berisi hasil analisa yang sudah dilakukan pada bab 2, dan merespons hasil tersebut dengan menambahkan teknik atau memodifikasi metode yang menurut penulis baik.
BAB IV IMPLEMENTASI SISTEM
BAB 6
SIMPULAN DAN SARAN
6.1Simpulan
Dalam eksplorasi ini penulis menguji 2 buah metode yang mempunyai perbedaan dalam perhitungannya, yaitu TF-IDF yang menghitung secara global dan Intersection yang menghitung secara lokal, dalam pengujiannya, penulis dapat mengevaluasi bahwa terjadi perbedaan yang tidak terlalu signifikan berdasarkan survei yang di nilai oleh manusia terhadap hasil ringkasan dari kedua metode, tetapi perbedaan yang cukup terlihat terjadi pada saat pengujian dilakukan oleh algoritma, pada KBK SI kedua metode cukup unggul dan bervariasi hal ini dikarenakan oleh penulisan pada KBK SI cukup variatif baik bermakna fokus pada beberapa kalimat maupun bermakna luas pada beberapa paragraf , sedangkan pada KBK RPL metode TF-IDF terlihat lebih unggul karna asumsi penulis berdasarkan penelitian ini mayoritas penulisan laporan KBK RPL bermakna luas atau tidak fokus pada beberapa kalimat saja, oleh sebab itu metode TF-IDF lebih unggul.
Berikut juga hasil temuan-temuan selama proses penelitian :
Kedua metode akan bekerja lebih baik jika panjang dokumen tidak lebih dari 300 kata.
Metode TF-IDF bekerja lebih baik pada KBK RPL dikarenakan mayoritas penulisan KBK tersebut bersifat luas
Metode Intersection akan bekerja pada lebih baik jika dokumen yang diolah mempunyai makna yang berfokus pada beberapa kalimat.
6.2Saran
85
EKSPLORASI METODE PERINGKASAN
EKSTRAKTIF UNTUK DOKUMEN ILMIAH
BIDANG TEKNOLOGI INFORMASI
TUGAS AKHIR
Diajukan untuk Memenuhi Persyaratan Akademik dalam
Menyelesaikan Pendidikan pada Program Studi
S1 Teknik Informatika Universitas Kristen Maranatha
Oleh
YOSES ADITYA PRADIPTA
1372018
PROGRAM STUDI S1 TEKNIK INFORMATIKA
FAKULTAS TEKNOLOGI INFORMASI
UNIVERSITAS KRISTEN MARANATHA
BANDUNG
PRAKATA
Puji Tuhan kepada Tuhan Yang Maha Esa, karena oleh kebaikan-Nya penulis dapat menyelesaikan tugas akhir ini dengan baik yang berjudul
“EKSPLORASI METODE PERINGKASAN EKSTRAKTIF UNTUK DOKUMEN ILMIAH BIDANG TEKNOLOGI INFORMASI”. Dan juga penulis
menulis laporan tugas akhir ini adalah untuk memenuhi salah satu syarat kelulusan mata kuliah tugas akhir Jurusan Teknik Informatika Universitas Kristen Maranatha.
Penulis menyadari sepenuhnya bahwa tanpa dukungan-Nya dan semangat dari teman-teman, penulis tidak akan menyelesaikan tugas akhir ini dengan baik. Pada saat menyusun Laporan tugas akhir ini, berbagai hambatan banyak ditemui namun dapat terselesaikan berkat dukungan dari berbagai pihak. Oleh karenanya, ijin kan penulis mengucapkan terima kasih kepada :
1. Universitas Kristen Maranatha (UKM) yang telah memberikan kesempatan bagi penulis untuk melaksanakan tugas akhir ini.
2. Bapak Dr. Hapnes Toba, M.Sc selaku pembimbing yang selalu memberikan inspirasi dan solusi kepada penulis.
3. Bapak Gatot yang bertugas pada Tata Usaha Teknologi Informasi, yang membantu penulis dalam mengumpulkan Data Testing.
4. Ibu Meliana Christianti J., S.Kom., M.T. sebagai dosen yang membantu penulis dalam menjawab pertanyaan seputar Tugas Akhir Teknologi Informasi.
DAFTAR PUSTAKA
[1] I. Kusmayadi, “Think Smart Bahasa Indonesia,” Grafindo Media Pratama, Jakarta, 2006.
[2] I. Lanin, “BahasaKita,” BahasaKita, 10 5 2011. [Online]. Available: http://www.bahasakita.com/kata-frasa-klausa-dan-kalimat/. [Diakses 29 10 2016].
[3] A. Hadi, “Soft Ilmu,” Soft Ilmu, 15 10 2015. [Online]. Available:
http://www.softilmu.com/2015/11/Pengertian-Unsur-Syarat-Struktur-Macam-Jenis-Kalimat-Adalah.html#. [Diakses 08 12 2016].
[4] T. Kristanto, R. K. Hapsari, V. S. Nita dan S. Maimunah, “Rancang Bangun Aplikasi E-Learning Berbasis Multiplatform untuk Mata Pelajaran Bahasa Indonesia dengan Menggunakan Pendekatan Technology Acceptance Model (TAM),” Jurnal Teknik Informatika dan Sistem Informasi, vol. 1, no. 3, p.
280, 12 2015.
[5] SeputarPengetahuan, “seputarpengetahuan,” 16 8 2015. [Online]. Available: http://www.seputarpengetahuan.com/2015/08/pengertian-paragraf-beserta-jenis-jenisnya-lengkap.html. [Diakses 29 10 2016].
[6] A. Hidayat, “Arfin Hidayat,” 30 4 2016. [Online]. Available: http://arfianhidayat.com/algoritma-tf-idf. [Diakses 29 10 2016].
[7] H. Herdi, “Twoh,” Twoh.co, 13 7 2013. [Online]. Available: http://www.twoh.co/2013/06/membuat-sistem-rekomendasi-menggunakan-item-based-collaborative-filtering/. [Diakses 29 10 2016].
[8] R. Arthana, “Rey1024,” Rey1024, 11 08 2014. [Online]. Available:
http://www.rey1024.com/2012/06/stop-word-bahasa-indonesia-dan-implementasi-pada-apache-lucene/. [Diakses 8 12 2016].
[9] S. N, “Pengertianku,” Pengertianku, 24 9 2015. [Online]. Available: http://www.pengertianku.net/2015/09/pengertian-uml-dan-jenis-jenisnya-serta-contoh-diagramnya.html. [Diakses 29 10 2016].
https://github.com/arnavroy/text-summarizer. [Diakses 29 10 2016].