• Tidak ada hasil yang ditemukan

Eksplorasi Metode Peringkasan Ekstraktif Untuk Dokumen Ilmiah Bidang Teknologi Informasi.

N/A
N/A
Protected

Academic year: 2017

Membagikan "Eksplorasi Metode Peringkasan Ekstraktif Untuk Dokumen Ilmiah Bidang Teknologi Informasi."

Copied!
23
0
0

Teks penuh

(1)

ABSTRAK

Dalam merangkum suatu teks, dibutuhkan waktu yang cukup banyak oleh karena itu

peringkasan teks otomatis diperlukan. Berbagai macam metode untuk melakukan

peringkasan teks otomatis sudah tersedia, oleh sebab itu eksplorasi dilakukan untuk

mengetahui lebih dalam mengenai peringkasan teks otomatis. 2 metode yang telah

difokuskan yaitu TF - IDF dan Intersection, perbedaan besar dari kedua metode ini

adalah, TF – IDF menggunakan perhitungan secara global sedangkan Intersection

menggunakan perhitungan secara lokal. Tujuan dari eksplorasi ini adalah untuk

mengetahui pembobotan lokal atau global yang lebih baik dalam meringkas dokumen,

untuk mengetahui jawaban dari pertanyaan ini beberapa pengujian telah dilakukan,

seperti melakukan survei dengan memperlihatkan hasil ringkasan dari kedua metode dan

membandingkannya dengan abstrak asli dari dokumen yang di uji dan penilaian

berdasarkan kata unik yang berada pada hasil ringkasan dan abstrak asli, menggunakan

algoritma khusus yang telah dibuat sebelumnya untuk melakukan pengujian. Hasil

pengujian memperlihatkan perbedaan yang tidak terlalu besar ,dan metode intersection

bekerja dengan baik pada makna yang berfokus pada beberapa kalimat saja dikarenakan

perhitungan lokal, sedangkan TF-IDF bekerja dengan baik pada makna yang tersebar luas

pada beberapa paragraf, dan hasil kedua pengujian memperlihatkan hal yang sama yaitu

semakin besar dokumen maka penilaian baik dari survei maupun kata unik menurun.

(2)

ABSTRACT

Summarizing a text is time-consuming, therefore automatic summarization is needed. A variety method to perform automatic summarization already exists, so the exploration has done to know more about automatic text summarization. 2 methods have been focused which is TF - IDF and Intersection, major differences of these two methods are TF - IDF using the calculation globally while Intersection calculation using the calculation locally. The purpose of this exploration is to determine the weighting locally or globally better in summarizing the document, to know the answers to these question some testing has been done, such as a survey that showing the summary results of both methods and compare them with abstract of the document and a calculation based on the unique words from the two results of the methods and abstract, using special algorithms that have been made previously to perform the testing. The test results show that the difference is not too great, and the method of intersection is well performed for focused points of certain sentences because of the local calculation, while TF-IDF is well performed for wider points of certain paragraphs because of the global calculation. And the results of the both tests show the same thing that the larger the document both survey as well as the unique word decreases in the value of rating.

(3)

DAFTAR ISI

LEMBAR PENGESAHAN ... i

PERNYATAAN ORISINALITASI LAPORAN PENILITAN ... ii

PERNYATAAN PUBLIKASI LAPORAN PENILITIAN ... iii

PRAKATA ... iv

DAFTAR NOTASI/ LAMBANG ... xv

DAFTAR SINGKATAN ... xviii

BAB 1 PENDAHULUAN ... 1

1.1 Latar Belakang ... 1

1.2 Rumusan Masalah ... 2

1.3 Tujuan Pembahasan ... 2

1.4 Ruang Lingkup ... 2

1.5 Sumber Data ... 3

1.6 Sistematika Penyajian ... 3

BAB 2 KAJIAN TEORI ... 4

2.1 Ringkasan ... 4

2.2 Peringkasan teks Otomatis ... 4

2.2.1 Jenis-jenis Ringkasan ... 4

2.3 Kata ... 5

(4)

2.5 Paragraf ... 5

2.6 Term Frequency Inverse Document Frequency (TF-IDF) ... 6

2.7 Cosine Similarity ... 7

2.8 Intersection ... 7

2.9 PageRank ... 8

2.10 Contoh Program ... 8

BAB 3 ANALISIS DAN RANCANGAN SISTEM ... 12

3.1 Analisis Masalah ... 12

3.1.1 Analisis Data Pengguna ... 13

3.2 Analisis Sistem ... 14

3.2.1 Tokenizing... 15

3.2.2 Stopword ... 16

3.3 Perancangan Sistem ... 16

3.3.1 UI Design ... 17

3.3.2 Use Case Diagram ... 18

3.3.2.1 Penjelasan Use Case Diagram ... 19

3.3.3 Activity Diagram ... 19

3.3.3.1 Activity Diagram Memasukan Data ... 19

3.3.3.2 Activity Diagram Eksekusi Program ... 20

3.4 Contoh Algoritma ... 21

3.4.1 Contoh TF-IDF ... 21

3.4.2 Contoh Intersection ... 27

BAB 4 IMPLEMENTASI SISTEM ... 29

4.1 Arsitektur Sistem ... 29

4.1.1 Arsitektur Intersection ... 30

(5)

4.2 Penjelasan Algoritma ... 35

4.2.1 Algoritma Pemisahan Teks ... 37

4.2.2 Algoritma Pembuatan Grafik ... 37

4.2.2.1 Algoritma Intersection ... 39

4.2.2.2 Algortima TF-IDF dan Cosine Similarity ... 41

4.2.2.2.1 Algoritma TF-IDF ... 45

4.2.2.2.2 Algoritma Cosine Similarity ... 46

4.2.3 Algoritma Perhitungan PageRank ... 48

4.2.3.1 Algoritma PageRank ... 52

4.2.4 Algoritma Penyusunan Kalimat ... 55

4.2.4.1 Penyusunan Kalimat ... 56

4.2.5 Algoritma Penilaian Kata Unik ... 58

4.2.5.1 Algoritma pencari kata unik ... 60

BAB 5 PENGUJIAN ... 61

5.1 Hasil Survei ... 61

5.1.1 Survei I ... 61

5.1.2 Survei II ... 68

5.1.3 Survei III ... 74

5.1.4 Kesimpulan Survei ... 80

5.2 Benchmarking ... 81

BAB 6 SIMPULAN DAN SARAN ... 84

6.1 Simpulan ... 84

6.2 Saran ... 84

DAFTAR PUSTAKA ... 1

(6)

DAFTAR GAMBAR

Gambar 2.1 Rumus Cosine Similarity ... 7

Gambar 2.2 Rumus Intersection ... 7

Gambar 2.3 Contoh program autosummarizer ... 9

Gambar 2.3 Contoh Program smmry ... 10

Gambar 2.5 Contoh Program 3 tools4noobs ... 11

Gambar 3.1 Hasil Survey Pembaca ... 13

Gambar 3.2 Hasil Survey Penulis ... 14

Gambar 3.3 Tokenizing ... 15

Gambar 3.4 Gambaran Rancangan Sistem... 17

Gambar 3.5 Rancangan UI awal ... 18

Gambar 3.6 Usecase pengguna ... 18

Gambar 3.7 Activity Diagram pemasukan data ... 20

Gambar 3.8 Activity Diagram Eksekusi program ... 21

Gambar 3.9 Contoh Algoritma TF-IDF Cosine ... 23

Gambar 4.1 Intersection Diagram ... 30

Gambar 4.2 TF - IDF Diagram ... 33

Gambar 4.3 Config Variable ... 35

Gambar 4.4 Algoritma pengambilan teks ... 36

Gambar 4.5 Susunan variable awal ... 36

Gambar 4.6 Function getSentences ... 37

Gambar 4.7 Function makeGraph ... 38

Gambar 4.8 Function IntersectionAlgorithm ... 41

Gambar 4.10 Funtion TfIdf And Cosine Similarity Algorithm ... 42

Gambar 4.11 Funtion TfIdf And Cosine Similarity Algorithm 2 ... 43

Gambar 4.12 function TF ... 45

Gambar 4.13 Function IDF ... 45

Gambar 4.14 Function TFforQuery ... 46

Gambar 4.15 Function Cosine Similarity... 47

Gambar 4.16 Function calculatePageRank 1 ... 48

(7)

Gambar 4.18 Function calculatePageRank 3 ... 50

Gambar 4.19 Function calculatePageRank 4 ... 50

Gambar 4.20 Keseluruhan function calculatePageRank ... 51

Gambar 4.21 fucntion runPageRankOnce 1 ... 52

Gambar 4.22 function runPageRankOnce 2 ... 54

Gambar 4.23 Final Code ... 55

Gambar 4.24 Function constructSummary 1 ... 56

Gambar 4.25 Function constructSummary 2 ... 57

Gambar 4.26 Algoritma Penilaian... 59

Gambar 4.27 Function uniqueWord ... 60

Gambar 5.1 Contoh Survey I ... 62

Gambar 5.2 Grafik Survey I Intersection ... 63

Gambar 5.3 Table Survey I Intersection ... 64

Gambar 5.4 Grafik Survey I TF - IDF ... 65

Gambar 5.5 Table Survey I TF - IDF ... 66

Gambar 5.6 Grafik Survey Final ... 67

Gambar 5.7 Table Survey I Final ... 68

Gambar 5.8 Contoh Survey II ... 68

Gambar 5.9 Grafik Survey II Intersection... 69

Gambar 5.10 Table Survey II Intersection ... 70

Gambar 5.11 Grafik Survey II TF - IDF ... 71

Gambar 5.12 Tabel Survey II TF - IDF ... 72

Gambar 5.13 Grafik Survey II Final ... 73

Gambar 5.14 Table Survey II Final ... 74

Gambar 5.15 Contoh Survey III ... 74

Gambar 5.16 Grafik Survey III Intersection ... 75

Gambar 5.17 Table Survey III Intersection... 76

Gambar 5.18 Grafik Survey III TF – IDF ... 77

Gambar 5.19 Table Survey III TF – IDF ... 78

Gambar 5.20 Grafik Survey III Final ... 79

Gambar 5.21 Table Survey III ... 80

(8)
(9)

DAFTAR TABEL

(10)

DAFTAR NOTASI/ LAMBANG

Gambar Nama Keterangan

Flow Direction symbol dimulai nya proses atau

berakhirnya proses yang di lakukan secara

(11)

System Boundary

Final State Kondisi akhir ketika objek berhenti

memberikan respon

State Kondisi sebuah entitas

Transition Perubahan kondisi suatu objek yang disebabkan

(12)

Decision Kondisi percabangan yang diharuskan

(13)

DAFTAR SINGKATAN

(14)

BAB 1

PENDAHULUAN

1.1Latar Belakang

Pendidikan merupakan suatu hal yang penting. Tidak jarang orang tua berusaha untuk menyekolahkan anaknya bahkan sampai kepada perguruan tinggi. Salah satu bidang dalam perguruan tinggi yang sekarang ini menjadi favorite adalah Teknologi Informasi. Mahasiswa yang menempuh Bidang ini akan belajar mengenai Teknologi dan setelahnya diharapkan mahasiswa akan menguasai kompetensi dalam bidang Teknologi.

Mahasiswa Bidang Teknologi Informasi dalam menjalankan perkuliahan, kerap kali mendapatkan tugas untuk membuat dokumen ilmiah. Mahasiswa dituntut membuat dokumentasi tentang penelitian yang dibuatnya dalam bidang Teknologi Informasi.

Dalam dokumen ilmiah mahasiswa juga diminta untuk membuat abstrak, abstrak merupakan rangkuman seluruh isi dari dokumen ilmiah. Tidak jarang mahasiswa mengalami kesulitan dalam membuat abstrak dikarenakan mahasiswa sulit untuk memilah bagian mana saja yang paling penting untuk dimasukkan kedalam sebuah abstrak.

Sekarang ini, telah terdapat beberapa metode peringkasan ekstraktif, yaitu

tf-idf(Term Frequency Inverse Document Frequency), TextRank dan masih

banyak lagi, metode-metode ini dapat membantu mahasiswa untuk membuat abstrak menjadi lebih mudah. Metode peringkasan ekstraktif akan memilih secara otomatis kalimat-kalimat yang relevan yang kemudian dapat merepresentasikan keseluruhan isi dari suatu dokumen ilmiah.

(15)

2

1.2Rumusan Masalah

Berdasarkan latar belakang yang telah diuraikan di atas, maka terdapat rumusan masalah sebagai berikut: bagaimana mengevaluasi pengaruh pembobotan secara lokal dan global dalam pembentukan ringkasan dokumen.

1.3Tujuan Pembahasan

Adapun tujuan dilakukannya Eksplorasi metode peringkasan Ekstraktif ini, yaitu:

1. Mengusulkan metode untuk menghasilkan peringkasan dokumen, dengan mempertimbangkan pengaruh dari pembobotan kata lokal dan global. 2. Membuat aplikasi peringkasan dokumen otomatis dengan target utama

sebagai tugas akhir dari Universitas Kristen Maranatha.

1.4Ruang Lingkup

Menimbang bahwa metode peringkasan Ekstraktif cukup luas, maka ditentukan ruang lingkup sebagai berikut:

1. Data yang akan di proses oleh metode ini dan segala percobaan algoritma akan di fokuskan pada bahasa Indonesia.

2. Data yang akan di proses akan dibatasi pada kategori dokumen teknologi informasi

3. Asumsi dokumen yang akan diringkas adalah dokumen yang memiliki pola bahasa yang baik dan mengacu pada Ejaan Yang Disempurnakan (EYD).

4. Dokumen yang mengandung singkatan akan dianggap satu kata.

5. Output kalimat yang dihasilkan berasal sepenuhnya dari dokumen yang

(16)

3

1.5Sumber Data

Data yang digunakan dalam penelitian ini adalah data sekunder yang diperoleh dari output-output dari sistem yang sudah menerapkan metode peringkasan Ekstraktif yang nantinya menjadi bahan perbandingan penelitian.

1.6Sistematika Penyajian

Sistematika Penyajian laporan yang akan digunakan dalam laporan ini adalah sebagai berikut:

BAB I PENDAHULUAN

Bab ini menjelaskan latar belakang, rumusan masalah, batasan masalah, dan sistematika penyajian. Dalam bab ini pembaca dapat mengetahui gambaran kasar mengenai isi laporan ini.

BAB II KAJIAN TEORI

Bab ini membahas dengan jelas mengenai teori - teori atau metode - metode yang di gunakan pada Eksplorasi metode peringkasan Ekstraktif dan menganalisis metode peringkasan yang sudah di implementasikan.

BAB III TINJAUAN PUSTAKA

Bab ini berisi hasil analisa yang sudah dilakukan pada bab 2, dan merespons hasil tersebut dengan menambahkan teknik atau memodifikasi metode yang menurut penulis baik.

BAB IV IMPLEMENTASI SISTEM

(17)

BAB 6

SIMPULAN DAN SARAN

6.1Simpulan

Dalam eksplorasi ini penulis menguji 2 buah metode yang mempunyai perbedaan dalam perhitungannya, yaitu TF-IDF yang menghitung secara global dan Intersection yang menghitung secara lokal, dalam pengujiannya, penulis dapat mengevaluasi bahwa terjadi perbedaan yang tidak terlalu signifikan berdasarkan survei yang di nilai oleh manusia terhadap hasil ringkasan dari kedua metode, tetapi perbedaan yang cukup terlihat terjadi pada saat pengujian dilakukan oleh algoritma, pada KBK SI kedua metode cukup unggul dan bervariasi hal ini dikarenakan oleh penulisan pada KBK SI cukup variatif baik bermakna fokus pada beberapa kalimat maupun bermakna luas pada beberapa paragraf , sedangkan pada KBK RPL metode TF-IDF terlihat lebih unggul karna asumsi penulis berdasarkan penelitian ini mayoritas penulisan laporan KBK RPL bermakna luas atau tidak fokus pada beberapa kalimat saja, oleh sebab itu metode TF-IDF lebih unggul.

Berikut juga hasil temuan-temuan selama proses penelitian :

 Kedua metode akan bekerja lebih baik jika panjang dokumen tidak lebih dari 300 kata.

 Metode TF-IDF bekerja lebih baik pada KBK RPL dikarenakan mayoritas penulisan KBK tersebut bersifat luas

 Metode Intersection akan bekerja pada lebih baik jika dokumen yang diolah mempunyai makna yang berfokus pada beberapa kalimat.

6.2Saran

(18)

85

(19)

EKSPLORASI METODE PERINGKASAN

EKSTRAKTIF UNTUK DOKUMEN ILMIAH

BIDANG TEKNOLOGI INFORMASI

TUGAS AKHIR

Diajukan untuk Memenuhi Persyaratan Akademik dalam

Menyelesaikan Pendidikan pada Program Studi

S1 Teknik Informatika Universitas Kristen Maranatha

Oleh

YOSES ADITYA PRADIPTA

1372018

PROGRAM STUDI S1 TEKNIK INFORMATIKA

FAKULTAS TEKNOLOGI INFORMASI

UNIVERSITAS KRISTEN MARANATHA

BANDUNG

(20)

PRAKATA

Puji Tuhan kepada Tuhan Yang Maha Esa, karena oleh kebaikan-Nya penulis dapat menyelesaikan tugas akhir ini dengan baik yang berjudul

“EKSPLORASI METODE PERINGKASAN EKSTRAKTIF UNTUK DOKUMEN ILMIAH BIDANG TEKNOLOGI INFORMASI”. Dan juga penulis

menulis laporan tugas akhir ini adalah untuk memenuhi salah satu syarat kelulusan mata kuliah tugas akhir Jurusan Teknik Informatika Universitas Kristen Maranatha.

Penulis menyadari sepenuhnya bahwa tanpa dukungan-Nya dan semangat dari teman-teman, penulis tidak akan menyelesaikan tugas akhir ini dengan baik. Pada saat menyusun Laporan tugas akhir ini, berbagai hambatan banyak ditemui namun dapat terselesaikan berkat dukungan dari berbagai pihak. Oleh karenanya, ijin kan penulis mengucapkan terima kasih kepada :

1. Universitas Kristen Maranatha (UKM) yang telah memberikan kesempatan bagi penulis untuk melaksanakan tugas akhir ini.

2. Bapak Dr. Hapnes Toba, M.Sc selaku pembimbing yang selalu memberikan inspirasi dan solusi kepada penulis.

3. Bapak Gatot yang bertugas pada Tata Usaha Teknologi Informasi, yang membantu penulis dalam mengumpulkan Data Testing.

4. Ibu Meliana Christianti J., S.Kom., M.T. sebagai dosen yang membantu penulis dalam menjawab pertanyaan seputar Tugas Akhir Teknologi Informasi.

(21)
(22)

DAFTAR PUSTAKA

[1] I. Kusmayadi, “Think Smart Bahasa Indonesia,” Grafindo Media Pratama, Jakarta, 2006.

[2] I. Lanin, “BahasaKita,” BahasaKita, 10 5 2011. [Online]. Available: http://www.bahasakita.com/kata-frasa-klausa-dan-kalimat/. [Diakses 29 10 2016].

[3] A. Hadi, “Soft Ilmu,” Soft Ilmu, 15 10 2015. [Online]. Available:

http://www.softilmu.com/2015/11/Pengertian-Unsur-Syarat-Struktur-Macam-Jenis-Kalimat-Adalah.html#. [Diakses 08 12 2016].

[4] T. Kristanto, R. K. Hapsari, V. S. Nita dan S. Maimunah, “Rancang Bangun Aplikasi E-Learning Berbasis Multiplatform untuk Mata Pelajaran Bahasa Indonesia dengan Menggunakan Pendekatan Technology Acceptance Model (TAM),” Jurnal Teknik Informatika dan Sistem Informasi, vol. 1, no. 3, p.

280, 12 2015.

[5] SeputarPengetahuan, “seputarpengetahuan,” 16 8 2015. [Online]. Available: http://www.seputarpengetahuan.com/2015/08/pengertian-paragraf-beserta-jenis-jenisnya-lengkap.html. [Diakses 29 10 2016].

[6] A. Hidayat, “Arfin Hidayat,” 30 4 2016. [Online]. Available: http://arfianhidayat.com/algoritma-tf-idf. [Diakses 29 10 2016].

[7] H. Herdi, “Twoh,” Twoh.co, 13 7 2013. [Online]. Available: http://www.twoh.co/2013/06/membuat-sistem-rekomendasi-menggunakan-item-based-collaborative-filtering/. [Diakses 29 10 2016].

[8] R. Arthana, “Rey1024,” Rey1024, 11 08 2014. [Online]. Available:

http://www.rey1024.com/2012/06/stop-word-bahasa-indonesia-dan-implementasi-pada-apache-lucene/. [Diakses 8 12 2016].

[9] S. N, “Pengertianku,” Pengertianku, 24 9 2015. [Online]. Available: http://www.pengertianku.net/2015/09/pengertian-uml-dan-jenis-jenisnya-serta-contoh-diagramnya.html. [Diakses 29 10 2016].

(23)

https://github.com/arnavroy/text-summarizer. [Diakses 29 10 2016].

Gambar

Gambar 5.24 Tabel Testing Algorithm ................................................................
Table 3.2 Penjelasan usecase mengeksekusi program .........................................
Gambar Nama

Referensi

Dokumen terkait

TES BAHASA INGGRIS formatnya hampir sama dengan tahun-tahun yang lalu, bedanya sekarang soal bahasa inggrisnya diperbanyak. Misalnya jumlah soal bahasa inggris ada 60 soal,

Beberapa Ketentuan Peraturan Gubernur Kepulauan Bangka Belitung Nomor 12 Tahun 2009 tentang Perjalanan Dinas di Lingkungan Pemerintah Provinsi Kepulauan Bangka

Model migrasi internasional ditinjau dari sisi migran yang keluar dari Jawa, Sumatera, Kalimantan, Sulawesi dan Pulau lain dengan tujuan mencari kerja, menuju

Kenyataan ini berarti bahwa lebih banyak kelompok etnik Dayak (29,0%) dibanding kelompok etnik Madura (23,8 %), dalam situasi mereka sebagai mayoritas, yang masih

Jenis kelamin merupakan perbedaan alami, karena setiap makhluk hidup, termasuk manusia, telah diciptakan berbeda kelamin (berpasangan), sebagaimana firman Allah dalam Al-Qur‟an

TUGAS AKHIR “Perencanaan Pengaman Pantai Kragan Dalam Menangani Masalah Abrasi” Masykur Irfani – L2A002104 Mhd.. Gambar 5.13 Isi

Hal itu disebabkan oleh sosok Musa sebagai suami yang tidak dapat memberikan kelimpahan materi untuk istrinya dan menjadi penyebab penilaian buruk orang lain terhadap keluarga