i
PERINGKASAN TEKS OTOMATIS
PADA DOKUMEN BERBAHASA JAWA
MENGGUNAKAN METODE TF-IDF
SKRIPSI
Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Teknik Informatika (S.Kom)
Program Studi Teknik Informatika
Oleh
AGUSTINUS WIDIANTORO 105314062
PROGRAM STUDI TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
ii
AUTOMATIC TEXT SUMMARY
IN JAVANESE LANGUAGE DOCUMENT
USING TF-IDF METHOD
THESIS
Presented as Partial Fullfilment of the Requirements To Obtain the Computer Bachelor Degree
In Informatics Engineering
By
AGUSTINUS WIDIANTORO 105314062
INFORMATICS ENGINEERING STUDY PROGRAM
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
v
PERNYATAAN KEASLIAN KARYA
Saya menyatakan dengan sesungguhnya bahwa skripsi yang saya tulis ini tidak memuat karya atau bagian karya orang lain, kecuali yang telah disebutkan dalam kutipan dan daftar pustaka sebagaimana layaknya karya ilmiah.
Yogyakarta, 10 November 2014 Penulis
vi
HALAMAN MOTTO
"Musuh yang paling berbahaya di atas dunia ini adalah penakut dan bimbang.
Teman yang paling setia, hanyalah keberanian dan keyakinan yang teguh."
(Andrew Jackson)
"Pendidikan merupakan perlengkapan paling baik untuk hari tua."
vii
HALAMAN PERSEMBAHAN
Hasil karya skripsi ini, kupersembahakan kepada :
Tuhan Yesus dan Bunda Maria
Alm. F.X.Susilo S.Pd
Christiana Wagiyem S.Pd
viii ABSTRAKSI
Membaca keseluruhan dokumen membutuhkan waktu yang lama, apalagi dokumen yang dibaca adalah dokumen berbahasa Jawa. Bagi pembaca yang belum paham tentang bahasa Jawa, membaca keseluruhan dokumen untuk memahaminya akan sangat melelahkan. Namun jika terdapat ringkasan pendek dari sebuah dokumen, maka akan membantu pembaca dalam memahami isi dokumen berbahasa Jawa.
Membuat ringkasan secara manual akan membutuhkan waktu yang lama. Oleh karena itu untuk mengatasi masalah waktu baca, akan dibuat sistem peringkasan teks otomatis. Peringkasan ini akan secara otomatis meringkas keseluruhan isi dari sebuah dokumen untuk mendapatkan intisari dari dokumen berbahasa Jawa, sehingga pembaca dapat memahami isi dokumen tanpa harus membaca keseluruhan dokumen berbahasa Jawa.
Pada penelitian ini metode yang digunakan untuk peringkasan teks otomatis adalah TF-IDF, dimana metode ini menggunakan cara pembobotan untuk setiap kata dalam kalimat. Sehingga kata dengan kemunculan terbanyak merupakan sebuah kalimat yang penting. Dari perhitungan tersebut akan menghasilkan kumpulan kalimat yang berisi bagian penting dari keseluruhan dokumen berbahasa Jawa.
ix
relevan atau tidak relevan. Terdapat 50 dokumen berbahasa Jawa yang akan diujikan ke dalam sistem, dokumen tersebut bersumber dari DjakaLodang.
x ABSTRACT
Reading a whole content of a document will take a long time, moreover the document that is being read is Javanese document. For the readers who have not really understand Javanese language well, reading and understanding a whole document will be really tiring. However, if there is a summary of a document, it will be helpful for the readers to understand the content of Javanese document.
Making a summary in a manual way will take a long time. Therefore, to solve the problem of timing, itwill be made the system of summarizing the text automatically. This program will summarize the whole content of Javanese documentautomatically and get the main idea from the document, so the readers will understand the content of the Javanese document without reading a whole of it.
In this research, the method that is used in the program of summary is
TF-IDF which means this method use weighting way in every word. So, the word
with the highest appearances areconsidered as the important sentence. The calculation will produce the document compilation containing the important part from the whole Javanese document.
xi
xii
LEMBAR PERNYATAAN PERSETUJUAN
PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS
Yang bertanda tangan dibawah ini, saya mahasiswa Universitas Sanata Dharma :
Nama : Agustinus Widiantoro NIM : 105314062
Demi pengembangan ilmu pengetahuan, saya memberikan kepada Perpustakaan Universitas Sanata Dharma karya ilmiah yang berjudul :
PERINGKASAN TEKS OTOMATIS PADA DOKUMEN BERBAHASA JAWA
MENGGUNAKAN METODE TF-IDF
Beserta perangkat yang diperlukan. Dengan demikian saya memberikan kepada Perpustakaan Universitas Sanata Dharma hak untuk menyimpan, mengalihkan dalam bentuk media lain, mengolahnya dalam bentuk pangkalan data, mendistribusikan secara terbatas dan mempublikasikannya di internet atau media lain untuk kepentingan akademis tanpa perlu meminta izin dari saya maupun memberikan royalti kepada saya selama tetap mencantumkan nama saya sebagai penulis.
Demikian pernyataan ini saya buat dengan sebenarnya.
Yogyakarta, 10 November 2014 Penulis
xiii
KATA PENGANTAR
Puji dan syukur penulis panjatkan ke hadirat Tuhan Yang Maha Esa atas segala berkat dan karunianya yang melimpah sehingga penulis dapat menyelesaikan skripsi ini dengan baik. Adapun tujuan penulis adalah untuk memenuhi persyaratan dalam memperoleh gelar Sarjana Teknik Informatika (S.Kom) Universitas Sanata Dharma.
Penyusun skripsi ini tidak terlepas dari bantuan, bimbingan, dan peran berbagai pihak. Oleh karena itu pada kesempatan ini penulis mengucapkan terima kasih kepada pihak-pihak berikut :
1. Tuhan Yesus Kristus dan Bunda Maria yang selalu membimbing dan menuntun untuk menyelesaikan skripsi ini.
2. Ibu Paulina Heruningsih Prima Rosa, S.Si., M.Sc., selaku Dekan Fakultas Sains dan Teknologi Universitas Sanata Dharma.
3. Ibu Sri Hartati Wijono, S.Si., M.Kom., selaku Dosen Pembimbing yang telah meluangkan banyak waktu untuk membimbing dengan sabar, memberikan masukan, saran dan memotivasi selama mengerjakan skripsi ini.
4. Ibu Ridowati Gunawan, S.Kom., M.T., selaku Dosen sekaligus Kepala Program Studi Teknik Informatika.
5. Bapak JB. Budi Darmawan, S.T., M.Sc., dan bapak Puspaningtyas Sanjoyo Adi, S.T., M.T., sebagai Dosen Penguji.
xiv
7. Ketiga responden kuesioner yang telah memberikan waktu luang dalam melakukan proses pengujian.
8. Alm. F.X. Susilo S.Pd, Ibu Christiana Wagiyem S.Pd, Kakak Veronika Suci Anggraeni S.Pd serta seluruh keluarga besar yang terus memberikan doa, dukungan dan semangat sehingga dapat menyelesaikan skripsi ini.
9. Sahabat-sahabat, teman-teman Teknik Informatika angkatan 2010 atas kekompakan serta kebersamaan selama ini.
10. Semua pihak yang tidak dapat disebutkan satu per satu yang terlibat dalam penyusunan skripsi ini sehingga dapat selesai dengan baik.
Dengan rendah hati penulis menyadari bahwa skripsi ini masih belum sempurna, oleh karena itu berbagai kritik dan saran untuk perbaikan skripsi ini sangat penulis harapkan. Akhir kata, semoga penyusunan skripsi ini bermanfaat bagi pengembangan ilmu pengetahuan. Terima kasih.
Yogyakarta, 10 November 2014
Penulis
xv DAFTAR ISI
HALAMAN JUDUL BAHASA INDONESIA ... i
HALAMAN JUDUL BAHASA INGGRIS ... ii
HALAMAN PERSETUJUAN ... iii
HALAMAN PENGESAHAN ... iv
HALAMAN KEASLIAN KARYA ... v
HALAMAN MOTTO ... vi
1.3 Tujuan Penalitian ... 3
1.4 Manfaat Penelitian ... 3
xvi
1.6 Metodologi Penelitian ... 4
1.7 Sistematika Penulisan ... 6
BAB II LANDASAN TEORI ... 8
2.1 Pemerolehan Informasi ... 8
2.1.1 Konsep Pemerolehan Informasi ... 8
2.1.2 Langkah Pemerolahan Informasi... 8
2.1.2.1 Text Preprocessing ... 8
2.1.2.1.1 Tokenizing ... 8
2.2 Peringkasan Otomatis ... 16
2.3 Metode Peringkasan Teks Otomatis ... 17
2.3.1 Metode Pembobotan TF-IDF ... 17
2.3.1.1 Langkah Pengerjaan ... 20
2.3.1.2 Contoh Pengerjaan ... 21
BAB III ANALISIS DAN PERANCANGAN SISTEM ... 33
3.1 Gambaran Sistem Penelitian ... 33
3.2 Analisis Kebutuhan ... 35
3.3 Perancangan Sistem... 36
xvii
3.3.1.1 Skenario Use Case ... 37
3.3.1.1.1 Skenario Login ... 37
3.3.1.1.2 Skenario Memasukkan Data Koleksi Dokumen ... 38
3.3.1.1.3 Skenario Logout ... 39
3.3.1.1.4 Skenario Memasukkan Data Dokumen ... 39
3.3.1.1.5 Skenario Melihat Hasil Ringkasan... 40
3.3.1.1.6 Skenario Melihat Data Koleksi Dokumen... 41
3.3.2 Diagram Aktifitas ... 42
3.3.2.1 Diagram Aktifitas Login ... 42
3.3.2.2 Diagram Aktifitas Memasukkan Data Koleksi Dokumen ... 43
3.3.2.3 Diagram Aktifitas Logout ... 44
3.3.2.4 Diagram Aktifitas Memasukkan Data Dokumen ... 45
3.3.2.5 Diagram Aktifitas Melihat Hasil Ringkasan ... 46
3.3.2.6 Diagram Aktifitas Melihat Data Koleksi Dokumen ... 47
3.3.3 Diagram Sekuensial ... 48
3.3.3.1 Diagram Sekuensial Login ... 48
3.3.3.2 Diagram Sekuensial Memasukkan Data Koleksi Dokumen ... 49
3.3.3.3 Diagram Sekuensial Logout ... 50
3.3.3.4 Diagram Sekuensial Memasukkan Data Dokumen ... 51
3.3.3.5 Diagram Sekuensial Melihat Hasil Ringkasan ... 52
xviii
3.3.4 Diagram MVC (Model View Control) ... 54
3.3.4.1 Struktur Kelas MVC ... 54
3.3.4.2 Diagram Analisis Kelas MVC ... 54
3.3.4.3 Diagram Kelas Model ... 56
3.4 Perancangan Antar Muka (User Interface) ... 57
3.4.1 Halaman Utama ... 58
3.4.2 Halaman Memasukkan Data Koleksi Dokumen ... 59
3.4.3 Halaman Melihat Data Koleksi Dokumen ... 50
3.4.4 Halaman Peringkasan Teks Otomatis ... 61
3.4.5 Halaman Melihat Hasil Ringkasan ... 62
3.5 Skenario Pengujian Sistem ... 63
3.6 Data ... 65
BAB IV IMPLEMENTASI... 66
4.1 Spesifikasi Software dan Hardware yang Digunakan ... 66
4.1.1 Spesifikasi Software ... 66
4.1.2 Spesifikasi Hardware ... 66
4.2 Implementasi Program ... 67
4.2.1 Implementasi Text Preprocessing ... 67
4.2.2 Implementasi Penghapusan Kata Umum (Stopword) ... 69
4.2.3 Implementasi Pengembalian Kata Dasar (Stemming) ... 70
4.2.4 Implementasi Term Frequency (TF)... 76
4.2.5 Implementasi Document Frequency (df) ... 77
xix
4.2.7 Implementasi Bobot Kata (W) ... 78
4.2.8 Implementasi Bobot Total Kalimat (D) ... 79
4.2.9 Implementasi Pengambilan Kalimat (D) ... 79
4.2.10 Implementasi Menampilkan Hasil Ringkasan... 81
4.3 Implementasi Antar Muka (User Interface) ... 82
4.3.1 Halaman Utama ... 82
4.3.2 Halaman Memasukkan Data Koleksi Dokumen ... 83
4.3.3 Halaman Melihat Data Koleksi Dokumen ... 84
4.3.4 Halaman Peringkasan Teks Otomatis ... 86
4.3.5 Halaman Melihat Hasil Ringkasan ... 87
BAB V ANALISIS HASIL DAN PEMBAHASAN ... 88
5.1 Analisis Pengujian Sistem ... 88
5.1.1 Pengujian Kepada Responden ... 88
5.1.2 Hasil Pengujian Sistem ... 91
5.2 Pembahasan Pengujian Sistem ... 92
BAB VI KESIMPULAN DAN SARAN ... 102
6.1 Kesimpulan ... 102
6.2 Saran ... 102
DAFTAR PUSTAKA ... 103
xx
DAFTAR TABEL
Tabel 2.1 Aturan Subtitusi/Penghapusan ... 10
Tabel 2.2 Tabel Rule Untuk Suffix ... 10
Tabel 2.3 Tabel Rule Untuk Prefix ... 11
Tabel 2.4 Tabel Rule Untuk Infix ... 12
Tabel 2.5 Tabel Perhitungan TFdan df ... 25
Tabel 2.6 Tabel Perhitungan Bobot Kata (W) ... 28
Tabel 3.1 Tabel Analisis Kebutuhan ... 35
Tabel 3.2 Skenario Login ... 37
Tabel 3.3 Skenario Memasukkan Data Koleksi Dokumen ... 38
Tabel 3.4 Skenario Logout ... 39
Tabel 3.5 Skenario Memasukkan Data Dokumen ... 39
Tabel 3.6 Skenario Melihat Hasil Ringkasan ... 40
Tabel 3.7 Skenario Melihat Data Koleksi Dokumen ... 41
Tabel 3.8 Struktur Kelas MVC ... 54
Tabel 3.9 Diagram Kelas ... 56
Tabel 3.10 Contoh Pengujian Sistem ... 63
xxi
DAFTAR GAMBAR
Gambar 2.1 Proses Tokenizing ... 9
Gambar 2.2 Proses Pengindeksan ... 15
Gambar 2.3 Perhitungan RIDF ... 17
Gambar 2.4 Perhitungan Wik ... 19
Gambar 2.5 Perhitungan ntfik ... 19
Gambar 2.6 Perhitungan nidfk ... 19
Gambar 3.1 Gambaran Sistem Keseluruhan ... 34
Gambar 3.2 Diagram Use Case ... 36
Gambar 3.3 Diagram Aktifitas Login ... 42
Gambar 3.4 Diagram Aktifitas Memasukkan Data Koleksi Dokumen ... 43
Gambar 3.5 Diagram Aktifitas Logout... 44
Gambar 3.6 Diagram Aktifitas Memasukkan Data Dokumen... 45
Gambar 3.7 Diagram Aktifitas Melihat Hasil Ringkasan ... 46
Gambar 3.8 Diagram Aktifitas Melihat Data Koleksi Dokumen ... 47
Gambar 3.9 Diagram Sekuensial Login ... 48
Gambar 3.10 Diagram Sekuensial Memasukkan Data Koleksi Dokumen ... 49
Gambar 3.11 Diagram Sekuensial Logout ... 50
Gambar 3.12 Diagram Sekuensial Memasukkan Data Dokumen ... 51
Gambar 3.13 Diagram Sekuensial Melihat Hasil Ringkasan ... 52
Gambar 3.14 Diagram Sekuensial Melihat Data Koleksi Dokumen ... 53
xxii
Gambar 3.16 Diagram Kelas Pengguna ... 55
Gambar 3.17 Halaman Utama ... 57
Gambar 3.18 Halaman Memasukkan Data Koleksi Dokumen ... 58
Gambar 3.19 Halaman Melihat Data Koleksi Dokumen ... 59
Gambar 3.20 Halaman Melihat Ringkasan Data Koleksi Dokumen ... 60
Gambar 3.21 Halaman Peringkasan Teks Otomatis ... 61
Gambar 3.22 Halaman Melihat Hasil Ringkasan ... 62
Gambar 3.23 Rumus Perhitungan Rata-rata ... 64
Gambar 3.24 Contoh Perhitungan Rata-rata ... 64
Gambar 4.1 Rangkain Proses Text Preprocessing ... 67
Gambar 4.2 Halaman Utama ... 82
Gambar 4.3 Halaman Memasukkan Data Koleksi Dokumen ... 83
Gambar 4.4 Halaman Melihat Data Koleksi Dokumen ... 84
Gambar 4.5 Halaman Melihat Ringkasan Data Koleksi Dokumen ... 85
Gambar 4.6 Halaman Peringkasan Teks Otomatis ... 86
Gambar 4.7 Halaman Melihat Hasil Ringkasan ... 87
xxiii
DAFTAR LISTING
Listing Program 4.1 Implementasi Text Preprocessing ... 67
Listing Program 4.2 Implementasi Penghapusan Kata Umum ... 69
Listing Program 4.3 Implementasi Pengembalian Kata Dasar ... 70
Listing Program 4.4 Implementasi Method delSuffix() ... 71
Listing Program 4.5 Implementasi Method delPrefix() ... 73
Listing Program 4.6 Implementasi Method delDuplikasi() ... 75
Listing Program 4.7 Implementasi Term Frequency (TF) ... 76
Listing Program 4.8 Implementasi Document Frequency (df) ... 77
Listing Program 4.9 Implementasi Inverse Document Frequency (IDF) .. 77
Listing Program 4.10 Implementasi Bobot Kata (Wtd)... 78
Listing Program 4.11 Implementasi Bobot Total Kalimat (D) ... 79
Listing Program 4.12 Implementasi Pengambilan Kalimat (D) ... 79
1 BAB I
PENDAHULUAN
1.1 Latar Belakang
Saat ini, kita dapat mengakses dokumen berbahasa Jawa melalui situs-situs di internet dan banyak juga dokumen, buku dan majalah berbahasa Jawa yang dapat kita peroleh di perpustakaan-perpustakaan. Sementara itu, banyak generasi muda yang berasal dari Jawa tidak memahami bahasa Jawa. Sayang sekali jika bahasa Jawa semakin lama semakin tidak digunakan dan akhirnya punah.
Membuat dan membaca dokumen berbahasa Jawa merupakan salah satu cara melestarikan penggunaan bahasa Jawa. Bagi mereka yang belum paham tentang bahasa Jawa, membaca keseluruhan dokumen untuk memahaminya akan sangat melelahkan. Namun jika terdapat ringkasan pendek dari sebuah dokumen, maka akan membantu pembaca mendapatkan intisari dari sebuah dokumen berbahasa Jawa.
2
dihasilkan merupakan kumpulan kalimat dari hasil perhitungan dengan metode
TF-IDF (Savoy, 1993). Metode ini bertujuan untuk mengambil sebagian kalimat dari keseluruhan dokumen berbahasa Jawa yang penting, ditandai dengan bobot tinggi dari hasil perhitungan dengan metode TF-IDF. Ringkasan yang dihasilkan tersebut akan menampilkan sebuah ringkasan dokumen yang diharapkan sesuai dengan kebutuhan pembaca. Hasil ringkasan dari sistem secara otomatis tersebut akan dilakukan pengujian kepada 3 responden berbahasa Jawa secara manual. Dokumen yang akan diujikan ke dalam sistem berjumlah 50 dokumen berbahasa Jawa yang bersumber dari DjakaLodang. Dari hasil pengujian akan dilakukan perhitungan nilai rata-rata untuk mendapatkan hasil akurasinya. Dengan demikian diketahui nilai rata-rata akurasi sistem ini dalam membantu pembaca untuk memperoleh intisari dari dokumen berbahasa Jawa, sehingga dapat membuat keputusan untuk melanjutkan membaca keseluruhan dokumen atau cukup dengan mambaca ringkasan.
Pada penelitian ini akan dibangun sebuah website majalah bahasa Jawa
3 1.2 Rumusan Masalah
Berdasarkan latar belakang di atas maka terdapat rumusan masalah sebagai berikut :
1. Bagaimana menggunakan metode TF-IDF pada program aplikasi peringkasan teks otomatis pada dokumen berbahasa Jawa?
2. Bagaimana mengukur akurasi sistem peringkasan teks otomatis menggunakan metode TF-IDF pada dokumen berbahasa jawa?
1.3 Tujuan Penelitian
Tujuan dari penelitian ini adalah membuat sebuah website majalah bahasa
Jawa yang dapat melakukan peringkasan teks otomatis pada dokumen berbahasa Jawa dengan metode TF-IDF, serta dapat menghasilkan ringkasan dari dokumen berbahasa Jawa yang sesuai dengan kebutuhan pengguna.
1.4 Manfaat Penelitian
4 1.5 Batasan Masalah
Ruang lingkup dibatasi pada :
1. Ekstraksi teks yang digunakan adalah pada dokumen berbahasa Jawa. 2. Dokumen yang digunakan bersumber dari Djakalodang tahun 1978,
2002 dan 2003.
3. Teks input diambil dari file teks.
4. Pengujian sistem akan dilakukan kepada 3 responden secara manual dengan dokumen berjumlah 50, dari hasil pengujian tersebut akan dihitung nilai rata-rata untuk mendapatkan hasil akurasi peringkasan teks otomatis pada dokumen berbahasa Jawa.
5. Sistem berbasis web dengan menggunakan jsp.
6. Pembuatan program aplikasi peringkasan teks otomatis menggunakan java dengan IDE Netbeans 6.9.1.
1.6 Metodologi Penelitian
Pada penelitian ini akan dilakukan dengan beberapa tahap sebagai berikut : 1. Studi Pustaka
5
2. Pengumpulan Dokumen Berbahasa Jawa
Pada tahap ini dilakukan pengumpulan data dokumen berbahasa Jawa, dimana data dokumen tersebut akan digunakan untuk pengujian sistem peringkasan teks otomatis. Dokumen berbahasa Jawa yang digunakan bersumber dari DjokoLodang, mengenai cerita wayang atau artikel berita.
3. Perancangan Sistem
Pada tahap ini dilakukan proses perancangan sistem atau rancangan alur jalannya program. Perancangan akan dilakukan secara terstruktur dengan langkah pembuatan diagram use case, diagram aktifitas, diagram sekuensial, diagram kelas untuk memprosesnya, merancang setiap proses dengan algoritma, serta merancang user interface.
4. Implementasi Perangkat Lunak
Pada tahap ini membangun sistem berbasis komputer berdasarkan hasil perancangan yang telah dibuat. Sehingga implementasi rancangan ke dalam program komputer dapat menghasilkan perangkat lunak yang sesuai dengan kebutuhan.
5. Pengujian Perangkat lunak
6 6. Pengujian Sistem
Pada tahap ini perangkat lunak yang sudah jadi akan dilakukan pengujian sistem. Pengujian dilakukan kepada 3 responden secara manual dengan dokumen berbahasa Jawa berjumlah 50.
7. Evaluasi Pengujian Sistem
Pada tahap ini dilakukan penghitungan dari pengujian sistem yang sudah dilakukan. Dari hasil pengujian tersebut akan dihitung nilai rata-rata untuk mendapatkan hasil akurasi sistem. Mengapa hasil dari sistem sesuai? dan Mengapa hasil dari sistem tidak sesuai? akan dianalisa.
1.7 Sistematika Penulisan
Sistematika penulisan pada penelitian ini dibagi menjadi beberapa bagian sebagai berikut :
BAB I PENDAHULUAN
Bab ini berisi gambaran umum permasalahan yang akan diteliti, meliputi : latar belakang, rumusan masalah, tujuan penelitian, manfaat penelitian, batasan masalah, metodologi penelitian dan sistematika penulisan.
BAB II LANDASAN TEORI
7
BAB III ANALISIS DAN PERANCANGAN SISTEM
Bab ini berisi gambaran umum sistem, analisis kebutuhan, perancangan sistem meliputi : diagram use case, diagram aktifitas, diagram sekuensial, diagram kelas, user interface dan skenario pengujian.
BAB IV IMPLEMENTASI
Bab ini berisi implementasi dan penjelasan fungsi program yang dibuat berdasarkan analisis dan perancangan sistem.
BAB V ANALISIS HASIL DAN PEMBAHASAN
Bab ini berisi analisis hasil pengujian sistem dan pembahasan pengujian sistem.
BAB VI KESIMPULAN DAN SARAN
8 BAB II
LANDASAN TEORI
2.1 Pemerolehan Informasi ( Information Retrieval )
2.1.1 Konsep Pemerolehan Informasi
Pemerolehan informasi (Information Retrieval) adalah menemukan bahan (biasanya dokumen) dari sesuatu tidak terstruktur (biasanya teks) yang memenuhi kebutuhan informasi dari koleksi besar (biasanya disimpan pada komputer) (Manning, 2009).
Adapun tahap dalam memproses data untuk mendapatkan informasi mengenai kalimat penting dalam sebuah dokumen berbahasa Jawa, yaitu pemisahan setiap kata dalam kalimat (tokenizing), penghapusan kata umum (stopword), pemisahan imbuhan kata untuk mendapatkan kata dasar (stemming), dan penataan data (indexing).
2.1.2 Langkah Pemerolehan Informasi
2.1.2.1 Text Preprocessing
2.1.2.1.1 Tokenizing
Tokenizing adalah proses pemisahan setiap kata dalam kalimat menjadi
9 Input :
Output :
Gambar 2.1 Proses Tokenizing
Pada Gambar 2.1, masukkan dari sebuah dokumen adalah berbentuk kalimat, kemudian kalimat tersebut dilakukan proses tokenizing maka akan didapat potongan kata tunggal. Dari proses pemisahan inilah yang nantinya digunakan untuk menghitung bobot setiap kata, sehingga dapat menghasilkan hitungan setiap kata dalam kalimat. Langkah berikutnya akan dilakukan proses
stopword.
2.1.2.1.2 Stopword
Beberapa kata umum yang digunakan akan mengakibatkan suatu nilai menjadi kecil dalam membantu memilih dokumen yang sesuai dengan kebutuhan pengguna. Kata umum tersebut adalah stopword. (Manning, 2009).
Contoh stopword dalam bahasa Jawa : "apa", "ana", "amarga", "dadi", "dudu", "gawe", "iki", "iku", "ing", "kabeh", "kalebu", "kang", "kanggo", "karo", "kowe", "lagi", "lan", "mau", "nalika", "nanging", "nganti", "ora", "padha", "punika", "sami", "saka", "sang", "tetep", "utawa", "wae", "yaiku", dll. Pada langkah ini akan dilakukan proses penghapusan kata umum untuk mengurangi jumlah kemunculan kata yang tidak memiliki makna berarti. Setelah proses
tokenizing dan stopword selesai maka dilanjutkan dengan proses stemming.
Mataram iku negara kondhang
10 2.1.2.1.3 Stemming
Stemming adalah proses pengembalian sebuah kata yang terdapat dalam
suatu dokumen ke dalam bentuk kata dasar. Proses penghilangan semua imbuhan (affix) yang terdiri dari awalan (prefix), sisipan (infix), akhiran (suffix) dan duplikasi. Dalam stemming untuk bahasa Jawa, sebelumnya terlebih dahulu membuat stemmer rule dengan menggunakan simbol sebagai berikut (Wijono, 2011) :
1. Aturan substitusi/ penghapusan menggunakan tanda =>.
Tabel 2.1 Aturan Substitusi/ Penghapusan
2. Simbol <> digunakan untuk menyatakan tingkat (affix) yang mempengaruhi urutan pengecekan pada algoritma stemming.
Rule yang digunakan adalah sebagai berikut :
Tabel 2.2 Tabel Rule Untuk Suffix
SUFFIX
<1> e=>"",n=>"",a=>"",i=>"",ing=>"", ku=>"",mu=>""
<2> ke=>"", ki=>"",wa=>"", ya=>"",na=>"",ne=>"",en=>"",an=>"",ni=>"",nira=>"", ipun=>"",
on=>"u", ning=>""
<3> ake=>"", en=>"i", kna=>"n", kno=>"n", ana=>"", ono=>"", ane=>"", kne=>"", nan=>"",
yan=>"", nipun=>"", oni=>"u", eni=>"i"
11
<4> kake=>"n", ken=>"" ,kke=>"",nana=>"",nono=>"", nane=>"", nen=>"",kna=>"",kno=>"",
ekne=>"i", onan=>"u",enan=>"i"
Tabel 2.3 Tabel Rule Untuk Prefix
PREFIX
<3> a=>"",k=>"",pam=>"w",pan=>"t", pen=>"t",mang=>"w",meng=>"w", ny=>"c",ng=>""
<4> n=>"t", pan=>"s", pen=>"s",man=>"s",men=>"s"
12
Tabel 2.4 Tabel Rule Untuk Infix
INFIX
<1> gum=>"b",gem=>"b",kum=>"p",kem=>"p"
<2> kum=>"w", kem=>”w”
Algoritma untuk melakukan proses stemming terhadap kata tunggal atau duplikasi.
1. Kata berimbuhan adalah word. Kata sebagai hasil adalah stemW 2. Cek jumlah karakter word, jika < 2. Keluar.
3. Jika word mengandung “-“, maka pecah kata berdasar “-“ menjadi w1 dan w2. Dan lakukan langkah 4-13
4. w11 = w1 tanpa vokal dan w21 = w2 tanpa vokal.
5. Jika w11 = w21 dan panjang w1=w2 maka lakukan langkah 6-8 6. Jika w2 ada di kamus maka stemW=w2 dan keluar.
7. Jika w2 tidak ada di kamus, w22= hilangkan imbuhan(w2).
8. Jika w22 ada di kamus maka stemW=w22, jika tidak stemW=w1-w2 dan keluar.
9. Jika w11 != w21, lakukan langkah 10-13
13
14. stemW = hilangkan imbuhan(stemW). Cek stemW di dictionary. Jika ada stemW dikembalikan dan keluar.
Algoritma untuk menghilangkan afiks pada kata berimbuhan. 1. Kata yang akan dihilangkan imbuhan adalah word.
2. ws1=hapus suffix (word). Cek di dictionary. Jika ada kembalikan kata. 3. ws1s2=hapus suffix (ws1). Cek di dictionary. Jika ada kembalikan kata. 4. ws1i1=hapus infix (ws1). Cek di dictionary. Jika ada kembalikan kata.
5. dws1= pengulangan parsial (ws1). Cek di dictionary. Jika ada kembalikan kata.
6. dws1s2= pengulangan parsial (ws1s2). Cek di dictionary. Jika ada kembalikan kata.
7. wp1=hapus prefix (word). Cek di dictionary. Jika ada kembalikan kata.
8. dwp1= pengulangan parsial (wp1). Cek di dictionary. Jika ada kembalikan kata.
9. wp1s1=hapus suffix(wp1). Cek di dictionary. Jika ada kembalikan kata. 10.dwp1s1= pengulangan parsial (wp1s1). Cek di dictionary. Jika ada
kembalikan kata.
11.wp1s1s2=hapus suffix (wp1s1). Cek di dictionary. Jika ada kembalikan kata. 12.wp1p2=hapus prefix (wp1). Cek di dictionary. Jika ada kembalikan kata. 13.wp1p2s1=hapus suffix (wp1p2). Cek di dictionary. Jika ada kembalikan kata. 14.wp1p2s1s2=hapus suffix (wp1p2s1). Cek di dictionary. Jika ada kembalikan
14
15.wi1=hapus infix (word). Cek di dictionary. Jika ada kembalikan kata. 16.wi1s1=hapus suffix (wi1). Cek di dictionary. Jika ada kembalikan kata.
2.1.2.2 Indexing
Indexing (pengindeksan) adalah proses penyimpanan kembali dokumen
secara urut dengan aturan tertentu. Proses penyimpanan tersebut berguna untuk mempercepat proses pencarian dokumen yang sesuai dengan kebutuhan pengguna. Langkah-langkah dalam membuat indeks adalah sebagai berikut (Manning, 2009) :
1. Kumpulkan dokumen yang akan di indeks.
Friends, Romans, countrymen. So let it be with Caesar
2. Lakukan proses pemisahan kata untuk mendapatkan daftar token. Friends Romans countrymen So
3. Dapat dilakukan aturan tertentu untuk mendapatkan daftar token yang sudah dinormalisasi sebelum dilakukan pengindeksan.
friend roman countrymen so
15
Gambar 2.2 Proses Pengindeksan
2.1.2.3 LinkedList
LinkedList adalah stuktur data yang berbentuk node dimana node lainnya
16 2.1.2.4 ArrayList
Objek ArrayList adalah perkembangan dari larik (array) satu dimensi. Objek ArrayList mendukung untuk melakukan akses elemen secara acak, dimana setiap elemen dapat diakses dalam waktu yang konstan. Tidak seperti larik (array), objek ArrayList ukurannya dapat dikelola secara otomatis saat program sedang berjalan (Sommerville, 2009).
2.2 Peringkasan Teks Otomatis
17 2.3 Metode Peringkasan Teks Otomatis
2.3.1 Term Frequency-Inverse Document Frequency (TF-IDF)
Banyak sekali metode yang digunakan untuk menghasilkan suatu ringkasan. Metode yang sudah pernah dilakukan adalah dengan menggunakan metode Maximum Marginal Relevance. Data uji coba diambil dari surat kabar berbahasa Indonesia online berjumlah 30 berita. Hasil pengujian dibandingkan dengan ringkasan manual yang menghasilkan rata-rata recall 60%, precision 77% dan f-measure 66% (Mustaqhfitri, Abidin, Kusumawati, 2009).
Peringkasan teks otomatis dengan menggunakan metode TF-IDF pada dokumen berbahasa Indonesia. Data yang diujikan berjumlah 50 dokumen teks berbahasa Indonesia. Dari hasil pengujian sistem secara manual terdapat 31 hasil peringkasan yang sesuai. Sehingga nilai akurasinya adalah 62% (Mulyana, Ramadona, Herfina, 2012).
Berdasarkan (Orasan, Pekar, Hasler, 2004) metode TF-RIDF adalah salah satu varian dari metode TF-IDF dalam peringkasan teks. Residual IDF, disebut sebagai RIDF (Manning, Schutze, 1999) adalah fungsi yang menjelaskan ke dalam estimasi IDF yaitu bagian dari skema TF-IDF, berikut rumus yang digunakan :
RIDF (t) = IDF - log (1 - p (0;
λt
))
Gambar 2.3 Perhitungan RIDF
18 | D |
Dimana IDF adalah log | Dt |, dan p adalah Poisson distribusi dengan parameter λt, jumlah rata-rata kata (t) per dokumen dan 1 - p (0; λt) adalah kemungkinan kata (t) muncul dalam dokumen. Pada percobaan evaluasi, data yang digunakan dari corpus berjumlah 147 teks Newsware (Rose, 2002). Evaluasi dari 15 mahasiswa dengan menerima satu ringkasan dari setiap teks dan diminta untuk menjawab pertanyaan tentang teks tersebut menghasilkan akurasi sebesar 69%.
Dalam penelitian ini, metode yang digunakan untuk peringkasan teks otomatis adalah menggunakan metode TF-IDF (Mulyana, Ramadona, Herfina, 2012). Metode ini dilakukan dengan cara pemberian bobot hubungan suatu kata (t) terhadap dokumen (D). Untuk dokumen tunggal, setiap kalimat dianggap sebagai dokumen. Metode ini menggunakan 2 konsep perhitungan bobot yaitu
term frequency (TF) dan inverse document frequency (IDF). Term frequency (TF)
adalah jumlah frekuensi kemunculan kata (t) pada kalimat (D). Inverse document
frequency (IDF) dihitung menggunakan document frequency (df). Document
frequency adalah jumlah kalimat (D) yang mengandung kata (t).
19
W
ik= ntf
ik* nidf
k (1)Gambar 2.4 Perhitungan Wik
Dimana aturan ntfik dan nidfk terdapat pada rumus 2 dan rumus 3 berikut :
tf
ikntf
ik=
(2)Max
jtf
ijGambar 2.5 Perhitungsn ntfik
n
log df
knidf
k=
(3)log (n)
Gambar 2.6 Perhitungsn nidfk Keterangan :
Wik = bobot istilah k pada dokumen i.
tfik = frekuensi dari istilah k pada dokumen i. n = jumlah dokumen dalam koleksi dokumen.
20 2.3.2 Langkah Pengerjaan
Langkah-langkah pengerjaan peringkasan teks otomatis dengan menggunakan metode TF-IDF yang dilakukan dalam penelitian ini adalah sebagai berikut :
1. Menghitung jumlah kalimat (D) pada dokumen berbahasa Jawa. 2. Proses penghapusan kata umum (stopword) untuk mengurangi jumlah
kemunculan kata yang tidak memiliki makna berarti.
3. Proses pengembalian sebuah kata (stemming) yang terdapat dalam suatu kalimat (D) ke dalam bentuk kata (t) dasar.
4. Menghitung term frequency (TF) yaitu jumlah frekuensi kemunculan kata (t) pada kalimat (D).
5. Menghitung document frequency (df) yaitu jumlah frekuensi kalimat (D) yang mengandung kata (t).
6. Menghitung inverse document frequency (IDF) dengan cara log dari jumlah total kalimat (D) dalam dokumen berbahasa Jawa dibagi
document frequency (df).
7. Menghitung (W) bobot setiap kata (t) dalam kalimat (D) dengan cara mengalikan term frequency (TF) dengan inverse document frequency (IDF).
21
9. Berdasarkan hasil perhitungan bobot total kalimat (D), akan diambil 40% (Hovy, Mitkov, 2005) dari jumlah bobot kalimat (D) yang memiliki score paling tinggi .
10. Dari langkah-langkah tersebut maka menghasilkan kumpulan kalimat (D) yang berisi bagian penting dari dokumen berbahasa Jawa.
2.3.3 Contoh Pengerjaan
<Djaka Lodhang No 01 Tahun XXXIII 7 Juni 2003> <Hal 4>
Ora Kena Mlebu Aceh (Dening RS Rudatan)
Indonesia lagi ribet. Propinsi Aceh lagi panas. Perang TNI lumawan kelompok mbalela separatis GAM. Sing dha gugur wis akeh, kejaba wong-wong GAM, anggota TNI utawa Polri wis ana sing dadi tumbal kelangan nyawa. Nalare, tumrape TNI lan pemerintah, mbrasta kaum pemberontakan kaya GAM kuwi mau dudu barang sing gampang. Ragade bisa nyandhak milyaran rupiah lan nyawa para prajurit dinggo totohan mung pamrih NKRI tetep wutuh. Pokoke ribet, tur ya ora gampang.
22
Mula banjur nyuwara sing tundhone mung mojokke pemerintah Indonesia Lan mojokke TNI.
Langkah 1. Menghitung jumlah kalimat (D) pada dokumen berbahasa Jawa.
Indonesia lagi ribet(D1). Propinsi Aceh lagi panas(D2). Perang TNI lumawan kelompok mbalela separatis GAM(D3). Sing dha gugur wis akeh, kejaba wong-wong GAM, anggota TNI utawa Polri wis ana sing dadi tumbal kelangan nyawa(D4). Nalare, tumrape TNI lan pemerintah, mbrasta kaum pemberontakan kaya GAM kuwi mau dudu barang sing gampang(D5). Ragade bisa nyandhak milyaran rupiah lan nyawa para prajurit dinggo totohan mung pamrih NKRI tetep wutuh(D6). Pokoke ribet, tur ya ora gampang(D7).
Ing tengah kahanan ngono mau, akeh LSM (Lembaga Swadaya Masarakat) sing bengok-bengok protes tekan luwar negeri(D8). Alesane arep mbiyantu masarakat Aceh sing lagi keterak perang, kok dielikke (dilarang) dening pemerintah(D9). LSM mau, klebu LSM Indonesia lan LSM manca sing ora seneng(D10). Mula banjur nyuwara sing tundhone mung mojokke pemerintah Indonesia Lan mojokke TNI(D11).
Langkah 2. Proses penghapusan kata umum (stopword)
Proses :
23
tumrape tni lan pemerintah, mbrasta kaum pemberontakan kaya gam kuwi mau
dudu barang sing gampang. ragade bisa nyandhak milyaran rupiah lan nyawa
para prajurit dinggo totohan mung pamrih nkri tetep wutuh. pokoke ribet, tur ya
ora gampang.
ing tengah kahanan ngono mau, akeh lsm (lembaga swadaya masarakat)
sing bengok-bengok protes tekan luwar negeri. alesane arep mbiyantu masarakat
aceh sing lagi keterak perang, kok dielikke (dilarang) dening pemerintah. lsm
mau, klebu lsm indonesia lan lsm manca sing ora seneng. mula banjur nyuwara
sing tundhone mung mojokke pemerintah indonesia lan mojokke tni.
Hasil :
indonesia ribet. propinsi aceh panas. perang tni lumawan kelompok mbalela separatis gam. dha gugur akeh, kejaba gam, anggota tni polri tumbal kelangan nyawa. nalare, tumrape tni pemerintah, mbrasta kaum pemberontakan gam kuwi barang gampang. ragade nyandhak milyaran rupiah nyawa prajurit dinggo totohan pamrih nkri wutuh. pokoke ribet, tur gampang.
24
Langkah 3. Proses pengembalian kata dasar (stemming)
Proses :
indonesia ribet. propinsi aceh panas. perang tni lumawan kelompok mbalela separatis gam. dha gugur akeh, kejaba gam, anggota tni polri tumbal
kelangan nyawa. nalare, tumrape tni pemerintah, mbrasta kaum
pemberontakan gam kuwi barang gampang. ragade nyandhak milyaran rupiah nyawa prajurit dinggo totohan pamrih nkri wutuh. pokoke ribet, tur gampang.
tengah, akeh lsm (lembaga swadaya masarakat) bengok-bengok protes tekan luwar negeri. alesane arep mbiyantu masarakat aceh keterak perang, dielikke (dilarang) dening pemerintah. lsm, klebu lsm indonesia lsm manca seneng. mula nyuwara tundhone mojokke pemerintah indonesia mojokke tni.
Hasil :
indonesia ribet. propinsi aceh panas. perang tni lumawan kelompok mbalela separatis gam. dha gugur akeh, jaba gam, anggota tni polri tumbal
langan nyawa. nalar, tumrap tni pemerintah, brasta kaum pemberontakan gam
kuwi barang gampang. ragad nyandhak milyar rupiah nyawa prajurit dinggo
totoh pamrih nkri wutuh. pokok ribet, tur gampang.
tengah, akeh lsm (lembaga swadaya masarakat) bengok protes tekan luwar negeri. alesan arep biyantu masarakat aceh terak perang, dielikke (larang) dening pemerintah. lsm, klebu lsm indonesia lsm manca seneng. mula nyuwara
25
Langkah 4. Menghitung term frequency (TF) yaitu jumlah frekuensi kemunculan
kata (t) pada kalimat (D).
Langkah 5. Menghitung document frequency (df) yaitu jumlah frekuensi kalimat
(D) yang mengandung kata (t).
Tabel 2.5 Tabel Perhitungan TFdan df
27
Kata (t) D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 df
luwar 1 1
negeri 1 1
alesan 1 1
arep 1 1
biyantu 1 1
terak 1 1
dielikke 1 1
larang 1 1
dening 1 1
klebu 1 1
manca 1 1
seneng 1 1
mula 1 1
nyuwara 1 1
tundho 1 1
28
Langkah 6. Menghitung inverse document frequency (IDF)dengan cara log dari jumlah total kalimat (D) dalam dokumen berbahasa Jawa dibagi document frequency (df).
Langkah 7. Menghitung (W) bobot setiap kata (t) dalam kalimat (D) dengan cara mengalikan term frequency (TF) dengan inverse
document frequency (IDF).
Langkah 8. Menghitung bobot total kalimat (D) dengan cara menjumlahkan (W) bobot setiap kata (t) dalam kalimat (D).
Tabel 2.6 Tabel Perhitungan Bobot Kata (W)
Kata (t) D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 df IDF
TF * IDF
D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11
indonesia 1 1 1 3 0.564 0.564 0.564 0.564
ribet 1 1 2 0.740 0.740 0.740
propinsi 1 1 1.041 1.041
aceh 1 1 2 0.740 0.740 0.740
panas 1 1 1.041 1.041
perang 1 1 2 0.740 0.740 0.740
tni 1 1 1 1 4 0.439 0.439 0.439 0.439 0.439
lumawan 1 1 1.041 1.041
kelompok 1 1 1.041 1.041
mbalela 1 1 1.041 1.041
31
Kata (t) D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 df IDF
TF*IDF
D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11
dielikke 1 1 1.041 1.041
larang 1 1 1.041 1.041
dening 1 1 1.041 1.041
klebu 1 1 1.041 1.041
manca 1 1 1.041 1.041
seneng 1 1 1.041 1.041
mula 1 1 1.041 1.041
nyuwara 1 1 1.041 1.041
tundho 1 1 1.041 1.041
mojok 1 1 1.041 1.041
JUM LAH 1.305 2.823 5.909 9.774 9.598 11.154 3.563 10.552 10.075 4.428 5.733
32
Langkah 9. Berdasarkan hasil perhitungan bobot total kalimat (D), akan diambil
40% (Hovy, Mitkov, 2005) dari jumlah bobot kalimat (D) yang memiliki score paling tinggi.
Langkah 10. Dari langkah-langkah tersebut maka menghasilkan kumpulan
kalimat (D) yang berisi bagian penting dari dokumen berbahasa Jawa.
Hasil :
- Sing dha gugur wis akeh, kejaba wong-wong GAM, anggota TNI utawa Polri wis ana sing dadi tumbal kelangan nyawa.
- Ragade bisa nyandhak milyaran rupiah lan nyawa para prajurit dinggo totohan mung pamrih NKRI tetep wutuh.
- Ing tengah kahanan ngono mau, akeh LSM (Lembaga Swadaya Masarakat) sing bengok-bengok protes tekan luwar negeri.
- Alesane arep mbiyantu masarakat Aceh sing lagi keterak perang, kok dielikke (dilarang) dening pemerintah.
33 BAB III
ANALISIS DAN PERANCANGAN SISTEM
3.1 Gambaran Sistem Penelitian
Pada penelitian ini akan dibangun sistem peringkasan teks otomatis pada dokumen berbahasa Jawa. Sistem ini bertujuan untuk menghasilkan sebuah ringkasan yang berisi bagian penting dari keseluruhan dokumen berbahasa Jawa. Ringkasan tersebut akan membantu pembaca dalam memahami isi dari dokumen tanpa harus membaca keseluruhan dokumen berbahasa Jawa.
34
Ringkasan adalah suatu teks yang dihasilkan dari satu atau lebih teks yang berisi bagian informasi yang signifikan dalam teks asal, dan yang tidak lebih dari setengah teks aslinya (Hovy, Mitkov, 2005). Maka pada penelitian ini kalimat-kalimat yang diambil untuk dijadikan sebuah ringkasan adalah sebesar 40% dari total kalimat yang ada dalam sebuah dokumen. Misalkan ada 50 kalimat dalam sebuah dokumen, maka dalam penelitian ini akan diambil sekitar 20 kalimat yang memiliki score tinggi. Karena jika kalimat yang diambil dalam sebuah dokumen terlalu sedikit maka hasil ringkasan menjadi tidak sesuai dengan isi dokumen, hal ini yang menyebabkan ringkasan tidak relevan.
Pengguna Sistem Admin
Pengguna Admin
Gambar 3.1 Gambaran Sistem Keseluruhan
35 3.2 Analisis Kebutuhan
Dalam sistem ini terdapat 2 aktor yaitu admin dan pengguna. Tabel berikut menjelaskan kebutuhan setiap aktor :
Tabel 3.1 Tabel Analisis Kebutuhan
Pengguna Sistem Kebutuhan
Admin 1. Dapat memasukkan data dokumen ke
dalam sistem.
Pengguna 1. Dapat melakukan peringkasan teks
otomatis dengan dokumen berbahasa Jawa sesuai kebutuhan.
2. Dapat melihat hasil ringkasan dari sistem.
36
Diagram use case menjelaskan alur penggunaan sistem peringkasan teks otomatis dokumen berbahasa Jawa. Dalam sistem ini terdapat 2 aktor yaitu admin dan pengguna. Admin bertujuan untuk memasukkan data dokumen. Data dokumen tersebut akan ditampilkan pada halaman utama sebagai data koleksi dokumen. Sedangkan pengguna dapat melihat data koleksi dokumen serta dapat melakukan peringkasan teks otomatis dengan cara memasukkan data dokumen berbahasa Jawa yang ingin diringkas.
Pengguna
Admin
Gambar 3.2. Diagram Use case
Subsist em Peringkasan
37
Diskripsi Admin memasukkan username dan password untuk masuk dan menggunakan sistem.
Prakondisi Admin mempunyai username dan password.
Langkah kerja Aksi aktor Reaksi sistem
1.Admin memasukkan
Alternatif 4. Jika salah sistem
38
3.3.1.1.2. Skenario Memasukkan Data Koleksi Dokumen
Tabel 3.3 Skenario Memasukkan Data Koleksi Dokumen
Nama use case Memasukkan Data Koleksi Dokumen
Aktor Admin
Diskripsi Admin memasukkan data dokumen ke dalam sistem, data dokumen tersebut akan ditampilkan pada halaman utama sebagai data koleksi dokumen.
Prakondisi Admin sudah melakukan login dan masuk ke dalam sistem.
Langkah kerja Aksi aktor Reaksi sistem
1. Sistem menampilkan form untuk memasukkan data dokumen.
2. Admin memasukkkan data dokumen ke dalam sistem. 3. Admin menekan tombol
"Simpan".
39 3.3.1.1.3. Skenario Logout
Tabel 3.4 Skenario Logout
3.3.1.1.4. Skenario Memasukkan Data Dokumen
Tabel 3.5 Skenario Memasukkan Data Dokumen
Nama use case Memasukkan Data Dokumen
Aktor Pengguna
Diskripsi Pengguna memasukkan data dokumen berbahasa Jawa yang ingin diringkas.
Prakondisi Pengguna memiliki data dokumen yang ingin diringkas
Langkah kerja Aksi aktor Reaksi sistem
1. Aktor menekan tombol "Summarization". Nama use case Logout
Aktor Admin
Diskripsi Admin menekan tombol logout.
Prakondisi Admin sudah melakukan login dan masuk ke dalam sistem.
Langkah kerja Aksi aktor Reaksi sistem
1. Admin menekan tombol “logout”.
40
2. Sistem menampilkan form untuk memasukkan data dokumen.
3. Aktor memasukkan data dokumen yang ingin diringkas pada sistem. 4. Aktor menekan tombol "Ok".
5. Sistem memproses dokumen menjadi ringkasan serta menampilkan hasil ringkasan.
3.3.1.1.5. Skenario Melihat Hasil Ringkasan
Tabel 3.6 Skenario Melihat Hasil Ringkasan
Nama use case Melihat Hasil Ringkasan
Aktor Pengguna
Diskripsi Penggina melihat hasil ringkasan dari data dokumen yang dimasukkan ke dalam sistem.
Prakondisi Pengguna sudah memasukkan data dokumen untuk diringkas.
Langkah kerja Aksi aktor Reaksi sistem
41
3.3.1.1.6. Skenario Melihat Data Koleksi Dokumen
Tabel 3.7 Skenario Melihat Data Koleksi Dokumen
Nama use case Melihat Data Koleksi Dokumen
Aktor Pengguna
Diskripsi Pengguna melihat data koleksi dokumen yang ada pada sistem, terdapat pada halaman utama.
Prakondisi Pengguna berada pada halaman utama.
Langkah kerja Aksi aktor Reaksi sistem
1. Aktor berada pada halaman utama.
2. Aktor menekan tombol “Continue Reading”.
42
valid invalid
Benar Salah
3.3.2 Diagram Aktifitas
3.3.2.1. Diagram Aktifitas Login
Admin dapat melakukan login dengan cara memasukkan username dan
password yang sudah ditentukan. Namun jika username dan password tidak
sesuai maka sistem akan kembali ke halaman utama. Berikut adalah Diagram Aktifitas Login, Gambar 3.3.
Aktor Sistem
Gambar 3.3 Diagram Aktifitas Login
M asukkan username dan passw ord
Verifikasi usernam e dan passw ord
M asuk ke sistem M enekan t om bol
43
ya t idak
TIDAK
3.3.2.2. Diagram Aktifitas Memasukkan Data Koleksi Dokumen
Setelah melakukan login, admin dapat memasukkan data dokumen sesuai dengan form inputan pada sistem. Data dokumen tersebut akan ditampilkan dalam halaman utama sebagai data koleksi dokumen. Berikut adalah Diagram Akrifitas Memasukkan Data Koleksi Dokumen, Gambar 3.4.
Aktor Sistem
Gambar 3.4 Diagram Aktifitas Memasukkan Data Koleksi Dokumen
Login Sist em m enam pilkan form
input an dat a koleksi dokum en
Sist em m enyim pan dalam dat a koleksi dokumen M em asukkan dat a
koleksi dokum en
44 3.3.2.3. Diagram Aktifitas Logout
Admin dapat menghentikan tugasnya memasukkan data koleksi dokumen dengan cara menekan tombol "Logout". Berikut adalah Diagram Aktifitas Logout, Gambar 3.5.
Aktor Sistem
Gambar 3.5 Diagram Aktifitas Logout
Akan keluar dar i halam an adm in M enekan t ombol
“ Logout ”
45
ya t idak
YA TIDAK
3.3.2.4. Diagram Aktifitas Memasukkan Data Dokumen
Pengguna dapat memasukkan data dokumen berbahasa Jawa untuk dijadikan sebuah ringkasan. Kemudian sistem akan menampilkan hasil ringkasannya. Berikut adalah Diagram Aktifitas Memasukkan Data Dokumen, Gambar 3.6.
Aktor Sistem
Gambar 3.6 Diagram Aktifitas Memasukkan Data Dokumen
46
3.3.2.5. Diagram Aktifitas Melihat Hasil Ringkasan
Setelah pengguna memasukkan data dokumen berbahasa Jawa, maka sistem akan menampilkan hasil ringkasan dari dokumen tersebut. Berikut adalah Diagram Aktifitas Melihat Hasil Ringkasan. Gambar 3.7.
Aktor Sistem
Gamabr 3.7 Diagram Aktifitas Melihat Hasil Ringkasan
M em asukkan dat a dokum en yang
diringkas
Sist em m enam pilkan hasil
47
3.3.2.6. Diagram Aktifitas Melihat Data Koleksi Dokumen
Selain dapat memasukkan dokumen berbahasa Jawa untuk diringkas, Pengguna juga dapat melihat data koleksi dokumen yang terdapat pada halaman utama. Berikut adalah Diagram Aktifitas Melihat Data Koleksi Dokumen, Gambar 3.8.
Aktor Sistem
Gambar 3.8 Diagram Aktifitas Melihat Data Koleksi Dokumen
M enekan t ombol “ Continue Reading” pada halam an ut am a
48
3.3.3 Diagram Sekuensial
Diagram Sekuensial adalah suatu diagram yang menjelaskan bagaimana suatu operasi atau sistem dijalankan secara bertahap.
3.3.3.1. Diagram Sekuensial Login
Username dan password yang sudah dimasukkan akan divalidasi oleh
sistem. Jika sesuai maka admin akan masuk pada halaman inputDataMajalah.jsp, sedangkan jika salah maka akan kembali pada halaman utama (index.jsp) serta menampilkan pesan invalid. Berikut adalah proses Login, Gambar 3.9.
<Kontroler> <Model> <View> index.jsp ProcessLoginServlet.java LoginModel.java inputDataMajalah.jsp
Admin
49
3.3.3.2. Diagram Sekuensial Memasukkan Data Koleksi Dokumen
Setelah Login, admin dapat memasukkan data koleksi dokumen yang berisi tanggal, sumber majalah, judul majalah dan data majalah. Data dokumen akan disimpan oleh sistem dan ditampilkan pada halaman utama (index.jsp) sebagai data koleksi dokumen. Berikut adalah proses Memasukkan Data Koleksi Dokumen, Gambar 3.10.
<View> <Kontroler> <Model> inputDataMajalah.jsp ProcessInputMajalah.java MajalahModel.java
Admin
50
Request Logout
Request page
3.3.3.3. Diagram Sekuensial Logout
Admin dapat menghentikan tugasnya memasukkan data koleksi dokumen pada halaman inputDataMajalah.jsp dengan cara menekan tombol "Logout". Kemudian admin akan kembali pada halaman utama (index.jsp). Berikut adalah proses Logout, Gambar 3.11.
<View>
inputDataMajalah.jsp index.jsp
Admin
51
3.3.3.4. Diagram Sekuensial Memasukkan Data Dokumen
Pengguna dapat memasukkan data dokumen berbahasa Jawa pada halaman inputDataDokumen.jsp untuk dijadikan sebuah ringkasan. Kemudian sistem akan menampilkan hasil ringkasannya pada halaman viewDataDokumen.jsp. Berikut adalah proses Memasukkan Data Dokumen, Gambar 3.12.
<View> <Kontroler> <Model> <Model> <Model> <View> inputDataDokumen.jsp ProcessSummarization.java TF-IDFl.java Stopword Stemming viewDataDokumen.java
Pengguna
52
data dokumen
Request page
3.3.3.5. Diagram Sekuensial Melihat Hasil Ringkasan
Setelah pengguna memasukkan data dokumen berbahasa Jawa pada halaman inputDataDokumen.jsp, maka sistem akan menampilkan hasil ringkasan dari dokumen tersebut pada halaman viewDataDokumen.jsp. Berikut adalah proses Melihat Hasil Ringkasan. Gambar 3.13.
<View> <View> inputDataDokumen.jsp viewDataDokumen.jsp
Pengguna
53
Request data koleksi dokumen
Request page
3.3.3.6. Diagram Sekuensial Melihat Data Koleksi Dokumen
Selain dapat memasukkan dokumen berbahasa Jawa untuk diringkas, pengguna juga dapat melihat data koleksi dokumen yang terdapat pada halaman utama (index.jsp). Berikut adalah proses Melihat Data Koleksi Dokumen, Gambar 3.14.
<View> <View> index.jsp viewDataMajalah.jsp
Pengguna
54 3.3.4 Diagram MVC (Model View Control)
Diagram MVC adalah diagram yang menjelaskan bagaimana suatu operasi dijalankan dengan melihat kelas MVC (Model View Control).
3.3.4.1. Struktur Kelas MVC (Model View Control)
Tabel 3.8 Struktur Kelas Model View Control
Model View Control
3.3.4.1.1. Diagram Analisis Kelas MVC (Model View Control)
index.jsp ProcessLoginServlet.java LoginModel.java
Admin
inputDataMajalah.jsp ProcessInputMajalah.java
MajalahModel.java
55
index.jsp viewDataMajalah.jsp viewRingkasanMajalah.jsp
Pengguna inputDataDokumen.jsp ProcessSummarization.java TF-IDF.java StopWord.java
viewDataDokumen.jsp StemWord.java
56
+ setUsername (String) : void
+ getUsername : String
+ setPassword (String) : void
+ getPassword : String
+ getAdmin() <<constructor>> MajalahModel()
+ setTanggalMajalah (String) : void
+ getTanggalMajalah : String
+ setSumberMajalah (String) : void
+ getSumberMajalah : String
+ setJudulMajalah (String) : void
+ getJudulMajalah : String
+ setDataMajalah (String) : void
+ getDataMajalah : String
57
M AJALAH BAHASA JAW A username
passw ord
Home Summarizat ion
3.4 Perancangan Antar Muka (User Interface)
3.4.1. Halaman Utama
Pada halaman utama terdapat 2 aktor yang menggunakan yaitu admin dan pengguna. Admin dapat melakukan "Login" dengan cara memasukkan username dan password terlebih dahulu. Setelah Login admin dapat memasukkan data dokumen sebagai data koleksi dokumen, kemudian akan disimpan oleh sistem dan akan ditampilkan pada halaman utama. Sedangkan pengguna dapat melihat data koleksi dokumen yang sudah dimasukkan admin sebelumnya. Desain Halaman Utama seperti Gambar 3.17.
Gambar 3.17 Halaman Utama
MeLorot Maneh
- Tanggal 2 Mei wis wiwit kesilep, nanging kegiyatan Hardhiknas (Hari Pendhidhikan) isih katon marak ing saben dhaerah. - Lan ing tengah kahanan
Ora Kena Mlebu Aceh
- Sing dha gugur wis akeh, kejaba wong-wong GAM, anggota TNI utawa Polri wis ana sing dadi tumbal kelangan nyawa. - Nalare, tumrape TNI
"BAYANG-BAYANG" DISINTEGRASI RI
-Sawise ambruke Uni Soviet utawa USSR (Uni Soviet Sosialis Republik) taun 1991 sing ditututi negara-negara uni ing laladan Balkan (Eropa Tenggara) kaya
Ngilangi Pornografi lan Pornoaksi
-Majelis Agama-agama DIY wiwit Romadhon taun iki netepake bakal ngadani upaya ngilangi pornografi lan pornoaksi sing dianggep saya ngrembrah lan nggladrah.- Rembug bab
login
Cont inue Reading Cont inue Reading
58
3.4.2. Halaman Memasukkan Data Koleksi Dokumen
Setelah Login, maka admin dapat memasukkan data koleksi dokumen yang berisi tanggal, sumber majalah, judul majalah, dan input data majalah. Kemudian tekan tombol "Simpan" untuk menyimpan ke dalam sistem dan menampilkan pada halaman utama. Desain Halaman Memasukkan Data Koleksi
Dokumen seperti pada Gambar 3.18.
c. Halaman Pengguna
Gambar 3.14 Halaman Pengguna
Gambar 3.13 Halaman Ad
Gambar 3.18 Halaman Memasukkan Data Koleksi Dokumen
M AJALAH BAHASA JAW A
Home Summarizat ion Logout
Tanggal :
Sumber M ajalah : Judul M ajalah : Input Dat a M ajalah :
59
3.4.3. Halaman Melihat Data Koleksi Dokumen
Pada halaman utama pengguna dapat melihat data koleksi dokumen yang sudah dimasukkan oleh admin. Ketika pengguna menekan tombol "Continue
Reading" maka sistem akan menampilkan data koleksi dokumen. Pada halaman
ini pengguna juga dapat melihat ringkasan dari data koleksi dokumen tersebut dengan cara menekan link “Ringkasan Dokumen”. Desain Halaman Melihat Data Koleksi Dokumen seperti pada Gambar 3.19.
Gambar 3.19 Halaman Melihat Data Koleksi Dokumen
Home Peringkas Ot omat is
Dat a Dokumen M ajalah :
Ringkasan Dokumen
Indonesia lagi ribet. Propinsi Aceh lagi panas. Perang TNI lumawan kelompok mbalela separatis GAM. Sing dha gugur wis akeh, kejaba wong-wong GAM, anggota TNI utawa Polri wis ana sing dadi tumbal kelangan nyawa. Nalare, tumrape TNI lan pemerintah, mbrasta kaum pemberontakan kaya GAM kuwi mau dudu barang sing gampang. Ragade bisa nyandhak milyaran rupiah lan nyawa para prajurit dinggo totohan mung pamrih NKRI tetep wutuh. Pokoke ribet, tur ya ora gampang. bengok-bengok protes tekan luwar negeri.
Ing tengah kahanan ngono mau, akeh LSM (Lembaga Swadaya Masarakat) sing bengok-bengok protes tekan luwar negeri. Alesane arep mbiyantu masarakat Aceh
60
Home Peringkas Ot omat is
Dat a Ringkasan M ajalah :
Ketika pengguna menekan link “Ringkasan Dokumen” maka akan terdapat halaman yang menampilkan ringkasan berdasarkan data koleksi dokumen tersebut. Seperti pada Gambar 3.20.
\
Gambar 3.20 Halaman Melihat Ringakasan Data Koleksi Dokumen
- Sing dha gugur wis akeh, kejaba wong-wong GAM, anggota TNI utawa Polri wis ana sing dadi tumbal kelangan nyawa.
- Nalare, tumrape TNI lan pemerintah, mbrasta kaum pemberontakan kaya GAM kuwi mau dudu barang sing gampang.
- Ragade bisa nyandhak milyaran rupiah lan nyawa para prajurit dinggo totohan mung pamrih NKRI tetep wutuh.
61
3.4.4. Halaman Peringkasan Teks Otomatis (Summarization)
Pada halaman peringkasan teks otomatis (summarization) pengguna dapat melakukan peringkasan teks otomatis dengan cara memasukkan data dokumen berbahasa Jawa. Kemudian menekan tombol "OK" maka sistem akan memproses menjadi sebuah ringkasan. Desain Peringkasan Teks Otomatis (Summarization) seperti Gambar 3.21.
Gambar 3.21 Halaman Peringkasan Teks Otomatis (Summarization)
Home Peringkas Ot omat is
Input Dat a Dokumen :
62 3.4.5. Halaman Melihat Hasil Ringkasan
Setelah pengguna memasukkan data dokumen berbahasa Jawa, maka sistem akan memproses sehingga menghasilkan sebuah ringkasan. Desain Halaman Melihat Hasil Ringkasan seperti pada Gambar 3.22.
\
Gambar 3.22 Halaman Melihat Hasil Ringkasan
Home Peringkas Ot omat is
Hasil Ringkasan :
- Sing dha gugur wis akeh, kejaba wong-wong GAM, anggota TNI utawa Polri wis ana sing dadi tumbal kelangan nyawa.
- Nalare, tumrape TNI lan pemerintah, mbrasta kaum pemberontakan kaya GAM kuwi mau dudu barang sing gampang.
- Ragade bisa nyandhak milyaran rupiah lan nyawa para prajurit dinggo totohan mung pamrih NKRI tetep wutuh.
- Ing tengah kahanan ngono mau, akeh LSM (Lembaga Swadaya Masarakat) sing bengok-bengok protes tekan luwar negeri.
- Alesane arep mbiyantu masarakat Aceh sing lagi keterak perang, kok dielikke (dilarang) dening pemerintah.
- Terus terange, sing akeh malah masarakat, rakyat dha dinggo kudhung kanggo golek dana saka negara asing.
- Lan saka kehe kedadeyan kaya sing tau dumadi ing Maluku, Manado, Papua (Irian Jaya), lan uga ing dhaerah-dhaerah ing Jawa LSM kaya ngono mau malah mung manas-manasi.
diuman-63 3.5. Skenario Pengujian Sistem
Pada pengujian sistem akan dilakukan dengan cara mengoreksi secara manual ringkasan yang dihasilkan oleh sistem. Yang dimaksud mengoreksi secara manual adalah penguji menilai apakah ringkasan dari sistem termasuk relevan atau tidak relevan. Pengujian ini akan dilakukan kepada 3 responden bahasa Jawa, dengan dokumen berjumlah 50. Dokumen yang digunakan dalam sistem ini bersumber dari Djakalodang tahun 1978, 2002 dan 2003.
Berikut adalah contoh pengujian sistem yang dilakukan secara manual kepada responden. Jika dokumen 1 relevan makan nilai yang dihasilkan adalah 1 dan jika tidak relevan bernilai 0 begitu seterusnya. Dapat dilihat pada Tabel 3.10.
Tabel 3.10 Contoh Pengujian Sistem
Dokumen Relevan Tidak Relevan
64
Setelah mengisikan kuesioner untuk pengujian sistem, maka akan dilakukan perhitungan jumlah dokumen yang relevan. Dari jumlah dokumen yang relevan akan lakukan perhitungan nilai rata-rata untuk mendapatkan nilai akurasi yang dihasilkan oleh sistem. Berikut adalah cara menghitung nilai rata-rata terdapat pada rumus (1), Gambar 3.23.
Jumlah dokumen yang relevan
Rata-rata = x 100% (1)
Jumlah keseluruhan dokumen
Gambar 3.23 Rumus Perhitungan Rata-rata
Dari contoh pengujian sistem diatas terdapat 10 dokumen yang relevan. Berikut adalah contoh menghitung nilai rata-rata, Gambar 3.24.
7
Rata-rata = x 100% 10
= 70 %
Gambar 3.24 Contoh Perhitungan Rata-rata
65 3.6 Data