MODEL OPTIMISASI RINGKASAN TEKS BERBASIS EKSTRAKSI
TESIS
JEREMIA SIREGAR 157038045
PROGRAM STUDI S2 TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
MEDAN 2018
MODEL OPTIMISASI RINGKASAN TEKS BERBASIS EKSTRAKSI
TESIS
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah
Magister Teknik Informatika
JEREMIA SIREGAR 157038045
PROGRAM STUDI S2 TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
MEDAN 2018
PERNYATAAN
Model Optimisasi Ringkasan Teks Berbasis Ekstraksi TESIS
Saya mengakui bahwa tesis ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing – masing telah disebutkan sumbernya.
Medan,
Jeremia Siregar NIM. 157038045
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN
AKADEMIS
Sebagai sivitas Akademika Universitas Sumatera Utara, saya yang bertanda tangan dibawah ini:
Nama : Jeremia Siregar
Nim : 157038045
Program Studi : Pascasarjana (S-2)Teknik Informatika Jenis Karya Ilmiah : Tesis
Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Ekslusif (Non-Ekclusive Royalti Free Right) atas tesis saya yang berjudul:
Model Optimisasi Ringkasan Teks Berbasis Ekstraksi
Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non- Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, menformat, mengelola dalam bentuk database, merawat dan mempublikasikan tesis saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan sebagai pemegang dan/atau sebagai pemilik hak cipta.
Demikianlah pernyataan ini dibuat dengan sebenarnya.
Medan,
Jeremia Siregar NIM. 157038045
LEMBAR PANITIA PENGUJI TESIS
Telah di uji pada
Tanggal : 13 januari 2018
PANITIA PENGUJI TESIS
Ketua : Prof. Dr. Tulus M, Si
Anggota : 1. Dr. Prof.Herman Mawengkang 2. Prof. Dr. Muhammad Zarlis 3. Dr. Syahril Efendi, S.Si., M.IT
RIWAYAT HIDUP
DATA PRIBADI
Nama Lengkap : Jeremia Siregar
Tempat dan Tanggal Lahir : Kp.Toba/25 Nopember 1986 Alamat Rumah : Jalan Bersama Kwala bekala Telepon/Faks/HP : 085270456013
Email : [email protected]
Instansi Tempat Bekerja : -
Alamat Kantor : -
DATA PENDIDIKAN
SD : SD Negeri 104227 TAMAT : 1998
SMP : SMP negeri 3 Sunggal TAMAT : 2002
SMA : SMA Swasta Markus Medan TAMAT : 2005
D3 : AMIK Medicom Medan TAMAT :2010
S1 : Teknik Informatika STT Poliprofesi Medam TAMAT : 2012 S2 : Teknik Informatika Universitas Sumatera Utara TAMAT : 2018
UCAPAN TERIMA KASIH
Segala puji syukur kepada Tuhan Yang Maha Esa atas segala karuniaNya yang telah memberikan kesehatan, kemudahan dan kekuatan kepada penulis sehingga penulis dapat menyelesaikan tesis ini dengan sebaik-baiknya. Penulis mengucapkan banyak terimakasih kepada :
1. Bapak Prof. Dr. Runtung Sitepu, S.H., M.Hum., selaku Rektor Universitas Sumatera Utara.
2. Bapak Prof. Dr. Opim Salim Sitompul., selaku Dekan Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.
3. Bapak Prof. Dr. Muhammad Zarlis., selaku Ketua Program Studi Pascasarjana (S- 2) Teknik Informatika Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara dan juga selaku Dosen Pembanding/Penguji 1 yang selama ini telah memberikan banyak saran, serta pembelajaran yang berharga bagi penulis sebagai arahan untuk menyelesaikan penulisan tesis ini.
4. Bapak Dr. Syahril Efendi, S.Si., M.IT., selaku Sekretaris Program Studi Pascasarjana (S-2) Teknik Informatika Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara dan juga Selaku Dosen Pembanding/Penguji 2 saya, yang telah memberikan bantuan dan saran yang berharga bagi penulis sebagai arahan untuk menyelesaikan penulisan tesis ini.
5. Bapak Prof. Dr. Tulus., selaku dosen pembimbing 1 saya, yang tiada henti memberikan motivasi dan saran serta ilmu yang sangat membantu penulis sehingga penulis dapat menyelesaikan tesis ini dengan sebaik- baiknya.
6. Bapak/Ibu Dosen Program Studi Pascasarjana (S-2) Teknik Informatika Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara yang telah memberikan bekal ilmu yang sangat berharga bagi penulis selama menjadi mahasiswa.
7. Seluruh Civitas Akademika, Staf, Pegawai, teman-teman, adik-adik, kakak-kakak di Program Studi Pascasarjana (S-2) Teknik Informatika Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara, yang telah membantu penulis dalam menyelesaikan penelitian ini.
8. Ayahanda D.Siregar dan Ibunda D. Sinaga yang tercinta yang tiada hentinya memberikan motivasi yang sungguh luar biasa serta cinta kasih dan doa yang tak henti-hentinya sehingga saya dapat mengenyam dan menyelesaikan studi magister dan menyelesaikan tesis ini.
9. Istriku yang tercinta Mariana Situmorang, S.Pd dan Anak anak ku yang selalu sabar menghadapi semua kesulitan sehingga saya biasa tetap bersemangat menyelesaikan Tesis ini.
10. Sahabat-sahabat Unit Kom B 2015 yang telah membantu dan memberi dukungan yang sangat berarti bagi penulis.
Penulis menyadari banyaknya kekurangan dalam penelitian ini. Oleh sebab itu saran dan kritik sangat diharapkan dari para pembaca. Penulis berharap karya tulis ini dapat digunakan dengan baik. Akhir kata penulis mengucapkan banyak terimakasih, semoga Tuhan menyertai kita semua.
Medan, Januari 2018
Penulis
ABSTRAK
Kebutuhan user akan informasi yang berupa artikel berita menyebabkan user menghabiskan waktu yang cukup lama untuk membaca keseluruhan isi artikel berita tersebut. Oleh karena itu, diperlukan adanya solusi agar user tidak perlu membaca keseluruhan isi artikel berita akan tetapi user tetap mendapatkan informasi yang singkat dan padat yang merepresentasikan isi artikel berita tersebut. Solusinya adalah sebuah sistem yang mampu menyaring informasi paling penting dari sebuah sumber atau beberapa sumber untuk membuat sebuah versi ringkas dari teks dengan memanfaatkan aplikasi yang dijalankan pada computer yaitu, sistem peringkasan teks otomatis (automatic text summarization). Dalam Penelitian ini diimplementasikan graph-based summarization algorithm dan similarity yaitu Textrank dan Similarity with Title yang mengambil konsep perankingan graf untuk melakukan perankingan kalimat dalam pembangunan aplikasi peringkasan teks otomatis. Aplikasi peringkasan teks otomatis menghasilkan dua jenis ringkasan ekstraksi, pertama yaitu hasil ringkasan dengan penggabungan linier Textrank dan Similarity with Title dan yang kedua adalah hasil ringkasan penggabungan Textrank dan Similarity with Title dengan fuzzy system. Peringkasan teks otomatis melakukan proses penghitungan skor setiap kalimat dalam sebuah teks dan memberikan rangking terhadap setiap kalimat berdasarkan skornya. Hasil keluaran aplikasi berupa ringkasan ekstraktif yang terdiri dari kalimat-kalimat beranking tinggi.
Kata Kunci : : peringkasan teks, TextRank, similarity with title,
The users need of information such as news article make them spend a long time to read those whole news article. For that reason, a solution is needed so users do not need to read the whole news article but still the users get the brief information that represent the news article. The solution is a system which can filter the most important information from a source or some source to create a shortened version of a text by a computer program, that is automatic text summarization system.
This final assignment implements graph-based summarization algorithm and similarity they are textrank and similarity with title applying graph-based ranking concept for sentences to build an automatic text summarization application. Automatic text summarization application produce two kinds of extraction summary, the first is a summary with linear combination of TextRank and similarity with title and the second one is a summary with fuzzy system combined of TextRank and similarity with title.
Automatic text summarization scoring each sentences of a text and rank
them according to their score. The output of the application is an extractive summary which consist of sentences with high scores. The evaluation of the summaries using ROUGE evaluation toolkit. The result of the experiment shows that the accuracy of a summary with fuzzy system combined of TextRank and similarity with title is better than a summary with linear combination of TextRank and similarity with title.
Keywords : text summarization, Textrank, Similarity with Title,
DAFTAR ISI
Halaman
HALAMAN JUDUL
PENGESAHAN ... i
PERNYATAAN ORISINALITAS ... ii
PERSETUJUAN PUBLIKASI ... iii
PANITIA PENGUJI ... iv
RIWAYAT HIDUP ... v
UCAPAN TERIMA KASIH ... vi
ABSTRAK ... viii
ABSTRACT ... ix
DAFTARISI ... x
DAFTARGAMBAR ... xiii
DAFTAR TABEL ... xv
BAB I PENDAHULUAN ... 1
1.1. Latar Belakang ... 1
1.2. Rumusan Masalah ... 3
1.3. Batasan Masalah ... 3
1.4. Tujuan Penelitian ... 3
1.5. Manfaat Penelitian...3
BAB 2LANDASAN TEORI ... 4
2.1. TextSummarization ... 4
2.2. Kateristik Ringkasan Teks ... 4
2.3. Metode Secara Umum ... 5
2.3.1Extraction-based Summarization... 2.3.2. Abstraction-based Summarization... 2.3.3Maximum Entropy-based Summarization... BAB 3METODOLOGIPENELITIAN ... 16
3.1. Bahan Penelitian ... 16
3.2. Arsitektur Umum Verifikasi Citra Tanda Tangan ... 16
3.3. Akuisisi Citra ... 17
3.4. Pra Pengolahan ... 18
3.4.1. Proses Scaling ... 18
3.4.2.Proses Grayscaling Citra Tanda Tangan ... 18
3.5. Proses Ekstraksi Fitur Citra Tanda Tangan Menggunakan Gray Level Co-occurrence Matrix ... 19
3.6 Proses Pembelajaran Citra Tanda Tangan Menggunakan
Extreme Learning Machine ... 23
3.7 Tahapan Jaringan Saraf Tiruan Extreme Learning Machine dengan Dengan Transformasi Elementer ... 23
3.7.1 Proses Perhitungan Jaringan Saraf Tiruan ELM dengan Transformasi Elementer ... 24
3.7.2 Proses Pelatihan... 25
3.7.3 Proses Pengujian ... 28
3.8 Pengujian Akurasi ... 28
BAB 4HASIL DAN PEMBAHASAN... 29
4.1. Hasil ... 29
4.1.1.Pengujian Akurasi Menggunakan Extreme Learning Machine ... 29
4.1.2.Pengujian Akurasi Menggunakan Extreme Learning Machine dengan Transformasi Elementer ... 36
4.2. Pembahasan... 44
BAB V KESIMPULAN DAN SARAN ... 47 5.1. Kesimpulan ... 47 5.2. Saran ...
47
DAFTARPUSTAKA ... 48
DAFTARGAMBAR
Gambar 2.1 Fitur GLCM... 8
Gambar 2.2 Arah ketetanggaan GLCM ... 9
Gambar 2.3 Citra grayscale arah 0o,45o,90o dan 135o... 9
Gambar 2.4 Penambahan Matriks Kookurensi dengan Transposenya ... 10
Gambar 3.1 Citra Tanda Tangan ... 16
Gambar 3.2 Arsitektur Umum Identifikasi Citra Tanda Tangan ... 17
Gambar 3.3 Proses Scaling Citra Tanda Tangan ... 18
Gambar 3.4 Proses Grayscaling Citra Tanda Tangan ... 19
Gambar 3.5 Nilai Gray level Citra Tanda Tangan ... 19
Gambar 3.6 Matriks Framework ... 20
Gambar 3.7 Matriks Kookurensi arah 0o,45o,90o dan 135o ... 20
Gambar 3.8 Penambahan Matriks Kookurensi dengan Transposenya ... 21
Gambar 3.9 Matriks Normalisasi ... 21
Gambar 4.1 Antar muka perangkat lunak pelatihan arah 0o ... 29 Gambar 4.2Pengujian tanda tangan A menggunakan ELM dengan fitur
contrast, homogeneity, entropy, energy dan dissimilarity ... 30 Gambar 4.3 Pengujian tanda tangan B menggunakan ELM dengan fitur contrast, homogeneity, entropy, energy dan dissimilarity ... 31 Gambar 4.4 Pengujian tanda tangan C menggunakan ELM dengan fitur contrast, homogeneity, entropy, energy dan dissimilarity ... 33 Gambar 4.5Pengujian tanda tangan D menggunakan ELM dengan fitur
contrast, homogeneity, entropy, energy dan dissimilarity 34 Gambar 4.6 Pengujian tanda tangan E menggunakan ELM dengan fitur contrast, homogeneity, entropy, energy dan dissimilarity ... 35 Gambar 4.7Pengujian tanda tangan A menggunakan ELM + TE dengan fitur contrast, homogeneity, entropy, energy dan dissimilarity ... 37 Gambar 4.8Pengujian tanda tangan B menggunakan ELM + TE dengan fitur contrast, homogeneity, entropy, energy dan dissimilarity ... 38 Gambar 4.9Pengujian tanda tangan C menggunakan ELM + TE dengan fitur contrast, homogeneity, entropy, energy dan dissimilarity ... 40 Gambar 4.10 Pengujian tanda tangan D menggunakan ELM + TE dengan fitur contrast, homogeneity, entropy, energy dan dissimilarity ... 41 Gambar 4.11Pengujian tanda tangan E menggunakan ELM + TE dengan fitur contrast, homogeneity, entropy, energy dan dissimilarity ... 42 Gambar 4.12Grafik Akurasi Pengujian ... 45
DAFTARTABEL
Tabel 2.1 Riset Terkait ... 14
Tabel 2.1 Riset Terkait (Lanjutan) ... 15
Tabel 3.1 Nilai Bobot dan Bias ... 25
Tabel 3.2 Nilai Bobot dan Bias dari hidden node ke output... 28
Tabel 4.1 Hasil Pengujian tanda tangan A menggunakan ELM dengan fitur contrast, homogeneity, entropy, energy dan dissimilarity ... 31
Tabel 4.2 Hasil Pengujian tanda tangan B menggunakan ELM dengan fitur contrast, homogeneity, entropy, energy dan dissimilarity ... 32
Tabel 4.3 Hasil Pengujian tanda tangan C menggunakan ELM dengan fitur contrast, homogeneity, entropy, energy dan dissimilarity ... 33
Tabel 4.4 Hasil Pengujian tanda tangan D menggunakan ELM dengan fitur contrast, homogeneity, entropy, energy dan dissimilarity ... 34
Tabel 4.5 Hasil Pengujian tanda tangan E menggunakan ELM dengan fitur contrast, homogeneity, entropy, energy dan dissimilarity ... 36
Tabel 4.6 Hasil Pengujian tanda tangan A menggunakan ELM +TE dengan fitur contrast, homogeneity, entropy, energy dan dissimilarity ... 37 Tabel 4.7 Hasil Pengujian tanda tangan B menggunakan ELM +TE
dengan fitur contrast, homogeneity, entropy, energy dan dissimilarity ... 39 Tabel 4.8 Hasil Pengujian tanda tangan C menggunakan ELM +TE
dengan fitur contrast, homogeneity, entropy, energy dan dissimilarity ... 40 Tabel 4.9 Hasil Pengujian tanda tangan D menggunakan ELM +TE
dengan fitur contrast, homogeneity, entropy, energy dan dissimilarity ... 41 Tabel 4.10 Hasil Pengujian tanda tangan E menggunakan ELM
+TE dengan fitur contrast, homogeneity, entropy, energy dan dissimilarity ... 43 Tabel 4.11 Hasil Pengenalan citra tanda tangan menggunakan
ELM dengan fitur contrast, homogeneity, entropy,
energy dan Dissimilarity ... 43 Tabel 4.12 Hasil Pengenalan citra tanda tangan menggunakan
ELM +TE ... 44
BAB I
PENDAHULUAN
1. 1 Latar Belakang
Informasi online dapat berupa artikel berita, dokumen-dokumen, video klip, film, musik, dan lain sebagainya. Kebutuhan user akan informasi yang berupa artikel berita menyebabkan user menghabiskan waktu yang cukup lama untuk membaca keseluruhan isi artikel berita tersebut. Oleh karena itu, diperlukan adanya solusi agar user tidak perlu membaca keseluruhan isi artikel berita akan tetapi user tetap mendapatkan informasi yang singkat dan padat yang merepresentasikan isi artikel berita tersebut. Solusinya adalah sebuah sistem yang mampu meringkas artikel berita yaitu, sistem peringkasan teks otomatis (automatic text summarization). Peringkasan untuk artikel berita sesuai diterapkan pada dokumen tunggal (single document) karena prosesnya yang cepat.(kumar dan chandra kala, 2010)
Summary atau ringkasan didefinisikan sebagai sebuah teks yang dihasilkan dari satu atau lebih teks sumber yang mengandung informasi sigifikan/penting dari teks sumber dan panjangnya tidak lebih dari setengah teks sumber. Ringkasan dapat diklasifikasikan dalam dua kategori, yaitu ekstraksi dan abstraksi. Ringkasan ekstraksi merupakan sejumlah kalimat atau frase yang terpilih dari teks sumber dengan nilai tertinggi dan diletakkan bersama pada sebuah teks baru yang lebih pendek tanpa mengubah isi teks. Sedangkan
dan menginterpretasikan teks. Sebagian besar sistem peringkas teks otomatis menggunakan metode ekstraksi untuk menghasilkan ringkasan. Peringkas teks otomatis bekerja optimal pada dokumen- dokumen yang terstruktur dengan baik seperti pada sejumlah artikel, berita, laporan, dan karya ilmiah.
Graph-based summarization algorithm atau peringkasan teks berbasis graf merupakan suatu metode peringkasan teks yang language independent yang dapat menghasilkan ringkasan ekstraktif. Graf tekstual merupakan teks sumber yang direpresentasikan menjadi sebuah graf.
Pembangunan graf tekstual menggunakan konsep similarity antar unit teks. Vertex pada graf tekstual dapat berupa unit-unit teks seperti kata- kata, kalimat-kalimat, atau paragraf-paragraf dalam teks. Edge dalam graf tekstual menunjukkan keterhubungan antar vertex.
Keterhubungan antar vertex dapat berupa similarity antar kalimat ataupun hubungan leksikal atau gramatikal antar kata/frasa. (Thakkar et al, 2010)
Dewasa ini sudah banyak tools untuk peringkasan teks, tetapi belum banyak yang membahas kualitas ringkasan teks. Kualitas ringkasan teks sangat penting karena melihat tingginya tingkat kepentingan suatu dokumen. Dimana ketika menghadapai banyak dokumen yang harus dibaca dalam waktu singkat, ringkasan teks yang relevan dengan dokumen sangat diperlukan. Teori fuzzy set dapat merepresentasikan dan menangani masalah ketidakpastian yang dalam hal ini dapat berarti keraguan, ketidaktepatan, kekuranglengkapan informasi, dan kebenaran yang bersifat sebagian. Dalam tugas akhir ini, penulis menggunakan fuzzy system untuk melakukan ekstraksi kalimat-kalimat penting dalam peringkasan teks.
Dalam Tesis ini, penulis akan menganalisis kualitas ringkasan antara penggabungan linier Graph-Based Summarization Algorithm dibandingkan dengan Graph-Based Summarization Algorithm dengan fuzzy system dilihat dari precision, recall, dan f-measure menggunakan ROUGE Evaluation toolkit. Sehingga dari analisis perbandingan kedua metode ini akan diketahui kualitas ringkasan yang lebih baik.
1.2 Perumusan Masalah
Tujuan utama dari peringkasan teks adalah membangun ringkasan yang memaksimumkan ungkapan teks, mengurangi data berlebih dan memaksimumkan keterkaitan antara kalimat.
Kesulitan utama yang dihadapi hingga saat ini adalah menghasilkan suatu model agar dapat diperoleh bentuk optimisasi yang mencakup tujuan utama ringkasan tersebut.
1.3 Batasan Masalah
Rumusan masalah diatas, dibatasi dengan beberapa hal sebagai berikut :
1. Teks sumber yang akan diringkas adalah artikel berita berbahasa Indonesia yang diperoleh dari website berita atau koran yang berupa softcopy dokumen teks.
2. Teks sumber yang akan diringkas adalah artikel berita berbahasa Indonesia yang diperoleh dari website berita atau koran yang berupa softcopy dokumen teks.
3. Peringkasan teks yang dilakukan adalah peringkasan dokumen tunggal.
4. Hasil peringkasan berupa ekstraksi dari teks sumber.
5. Tidak melakukan proses stemming terhadap teks masukan.
1.4 Tujuan Penelitian
1. Untuk mendapatkan sebuah model optimisasi dari halaman dokumen web yang lebih berkualitas sesuai dengan isi
1.5 Manfaat Penelitian
Beberapa manfaat dari penelitian tesis ini adalah sebagai berikut :
1. Meminalisir waktu dalam mengambil sebuah kesimpulan yang ada pada halaman dokumen web
2. Untuk menambah metode klasifikasi dokumen teks dan membantu dalam mengorganisasikan kesimpulan dokumen web secara cepat, tepat, efisien, dan memiliki kinerja yang baik.
3. Membantu para pencari informasi untuk bisa mendapatkan sebuah kesimpulan dari halaman dokumen web yang di baca.
4. Sebagai refrensi bagi peneliti selanjutnya
BAB II
TINJAUAN PUSTAKA
2.1 Text Summarization
Text summarization adalah proses mengurangi dokumen teks dengan program komputer untuk menciptakan sebuah ringkasan yang mempertahankan poin yang paling penting dari dokumen asli. . Metode Ekstraksi bekerja dengan memilih bagian dari kata yang ada, frase, atau kalimat dalam teks asli untuk membentuk ringkasan.Sebaliknya, metode abstraksi membangun sebuah representasi semantik internal dan kemudian menggunakan teknik bahasa generasi alami untuk membuat ringkasan yang lebih dekat dengan meringkas secara manual . Metode The state-of-the-art abstraktif masih cukup lemah, sehingga sebagian besar penelitian telah difokuskan pada metode ekstraktif.
Suatu artikel yang memiliki ukuran yang panjang, akan mengakibatkan pembaca akan sangat kesulitan bila harus membaca dan menyerap semua informasi dari artikel tersebut. Text Summarization akan menghasilkan suatu produk teks yang tetap memiliki/ mengandung bagian-bagian yang penting dari artikel asli. Hasil pengujian menunjukkan bahwa proses summary sangat bergantung pada jenis dan struktur dari artikel. Sistem akan menghasilkan summary yang baik bila jenis artikel yang diproses adalah jenis ilmiah argumentasi. Sedangkan untuk struktur artikel, bila suatu artikel memiliki banyak paragraf dan disetiap paragraf memiliki lebih dari dua kalimat maka mendapatkan hasil summary yang baik.
Sedangkan menurut Hovy, ringkasan adalah teks yang dihasilkan dari sebuah teks atau banyak teks, yang mengandung isi informasi dari teks asli dan panjangnya tidak lebih dari setengah teks aslinya (Hovy, 2001). Penelitian mengenai peringkasan teks otomatis (automatic text summarization) dengan menggunakan berbagai macam metode dan pendekatan, diawali sejak tahun 1958 oleh Luhn. Banyak teknik yang digunakan dalam summarization ini, seperti teknik pendekatan statistika yaitu teknik word frequency (Luhn, 1958), position in text (Baxendale, 1958), cue words and heading (Edmudson, 1969), sentence position (Lin dan Hoovy, 1997). Teknik pendekatan dengannatural language analysis yaitu inverse term frequency and NLP technique (Aone, 1990), lexical chain (Mc Keown, 1997), maximal maginal relevance (Cabonell dan Goldstein, 1998).
2.2 Karakteristik Peringkasan Teks
Terdapat dua pendekatan pada peringkasan teks, yaitu ekstraksi (shallower approaches) dan abstraksi (deeper approaches). Pada teknik ekstraksi, sistem menyalin unit-unit teks yang dianggap paling penting atau paling informatif dari teks sumber menjadi ringkasan. Unit-unit teks yang disalin dapat berupa klausa utama, kalimat utama, atau paragraf utama. Sedangkan teknik abstraksi melibatkan parafrase dari teks sumber.
Teknik abstraksi mengambil intisari dari teks sumber, kemudian membuat ringkasan dengan menciptakan kalimat-kalimat baru yang merepresentasikan intisari teks sumber dalam bentuk berbeda dengan kalimat-kalimat pada teks sumber. Pada umumnya, abstraksi dapat meringkas teks lebih kuat daripada ekstraksi, tetapi sistemnya lebih sulit dikembangkan karena mengaplikasikan teknologi natural language
Berdasarkan jumlah sumbernya, sebuah ringkasan dapat dihasilkan dari satu sumber (single-document) atau dari banyak sumber (multi- document). Peringkasan single-document masukannya berupa sebuah teks dan keluarannya berupa sebuah teks baru yang lebih singkat. Pada peringkasan multi-document, masukan adalah beberapa dokumen teks yang memiliki tema sama, biasanya sudah ada dalam satu klaster kemudian akan dihasilkan keluaran berupa sebuah teks yang lebih singkat yang merangkum informasi-informasi utama pada klaster masukan.
Suatu ringkasan dapat bersifat general, yaitu ringkasan yang berupaya mengambil sebanyak mungkin informasi penting yang mampu menggambarkankeseluruhan isi teks. Selain itu dapat juga informasi yang diambil untuk ringkasan berdasar pada querymasukan yang didefinisikan
pengguna sistem. Queryoriented atau user-
oriented summarization mencoba mengambil informasi yang relevan
dengan query pengguna dan menampilkannya dalam bentuk ringkasan.
Berdasarkan fungsinya, sebuah ringkasan dapat memiliki sifat indicative, informative, atau evaluative. Ringkasan informativeberfungsi menyajikan informasi utama atau yang paling penting dari teks sumber. Ringkasan indicative memberikan saran untuk pembacaan lebih lanjut mengenai hal-hal tertentu dalam isi teks.
Sedangkan ringkasanevaluative memberi komentar atau evaluasi terhadap informasi utama pada teks sumber.
Compression rate pada proses peringkasan akan menentukan panjang ringkasan yang dihasilkan. Biasanya diukur berdasarkan persentase dari teks sumber, misalnya ringkasan sepanjang 10%, 25%, atau 50% dari teks sumber. Selain itu dapat pula diukur berdasarkan jumlah kata, misalnya ditentukan ringkasan sepanjang 100 kata. Biasanya,
panjang ringkasan tidak lebih dari setengah teks sumber. Gambar dibawah ini memperlihatkan arsitektur tingkat tinggi peringkasan teks otomatis.
Masukan berupa teks dengan berbagai karakteristik dan keluaran berupa ringkasan ekstraksi maupun abstraksi.
2.3 Metode Secara Umum
Metode dalam penerapan Text Summarization ini adalah menggunakan metode TF-IDF (Terms Frequency – Inverse Document Frequency) dan Exhaustive algorithm. Metode TF-IDF berfungsi untuk menghitung bobot nilai dari setiap kalimat dan relasi antar kalimat.
Sedangkan Exhaustive algorithm berfungsi untuk menghasilkan path dari setiap penelusuran titik-titik pada graph. Dan kemudian hasil path tersebut akan menjadi suatu summary.
Metode Text Summarization terdapat 3 metode secara umum yaitu :
1. Extraction-based summarization
2. Abstraction-based summarization
3. Maximum entropy-based summarization
2.3.1 Extraction-based Summarization
Dua jenis summarization sering dibahas dalam literatur adalah ekstraksi keyphrase, di mana tujuannya adalah untuk memilih kata-kata individu atau frase untuk “tag” sebuah dokumen, dan summarization dokumen, di mana tujuannya adalah untuk memilih seluruh kalimat untuk
membuat ringkasan paragraf pendek.
Pada 2012, Light Filtering, salah satu metode yang digunakan untuk summarization kalimat dari dokumen yang dinilai menuju konten
utamanya, menunjukkan hasil yang baik untuk menggunakan summarization pre-processing langkah sebelum ekstraksi keyphrase.
2.3.2 Abstraction-based Summarization
Teknik ekstraksi hanya menyalin informasi yang dianggap paling penting oleh sistem untuk ringkasan (misalnya, klausa kunci, kalimat atau paragraf), sedangkan abstraksi melibatkan parafrase bagian dari dokumen sumber. Secara umum, abstraksi dapat menyingkat teks lebih kuat dari ekstraksi, tetapi program yang bisa melakukan hal ini lebih sulit untuk mengembangkan karena mereka memerlukan penggunaan teknologi natural language generation. Sementara beberapa proses telah dilakukan dalam abstractive summarization (menciptakan sinopsis abstrak secara manual), sebagian besar sistem summarization adalah ekstraktif (memilih subset dari kalimat untuk menempatkan dalam ringkasan).
2.3.3 Maximum Entropy-based Summarization
Meskipun automating abstractive summarization adalah tujuan dari penelitian summarization, sistem yang paling praktis didasarkan pada beberapa bentuk adalah summarization ekstraktif. Maximum entropy- based summarization telah berhasil diterapkan untuk summarization dalam domain siaran berita.
BAB III
METODE PENELITIAN
3.1 Metode Text Summarization 3.1.1 Ranked Positional Weight
Lokasi tertentu pada teks seperti heading, judul, dan paragraf pertama cenderung mengandung informasi penting. Metode sederhana dengan mengambil paragraf pertama (lead) sebagai ringkasan biasanya cukup bagus terutama pada artikel berita. Ranked Positional Weight adalah metode yang diusulkan oleh Helgeson dan Birnie sebagai pendekatan untuk memecahkan permasalahan pada keseimbangan lini dan menemukan solusi dengan cepat. Konsep dari metode ini adalah menentukan jumlah stasiun kerja minimal dan melakukan pembagian task ke dalam stasiun kerja dengan cara memberikan bobot posisi kepada setiap task sehingga semua task telah ditempatkan kepada sebuah stasiun kerja. Bobot setiap task, misal task ke-i dihitung sebagai waktu yang dibutuhkan untuk melakukan task ke-i ditambah dengan waktu untuk mengeksekusi semua task yang akan dijalankan setelah task ke-i tersebut.
Urutan langkah-langkah pada metode Ranked Positional Weight adalah sebagai berikut:
1. Lakukan penghitungan bobot posisi untuk setiap task. Bobot
posisi setiap task dihitung dari bobot suatu task ditambah dengan bobot task-task setelahnya.
2. Lakukan pengurutan task-task berdasarkan bobot posisi, yaitu
dari bobot posisi besar ke bobot posisi kecil.
3. Tempatkan task dengan bobot terbesar ke sebuah stasiun kerja sepanjang tidak melanggar precedence constraint dan waktu stasiun kerja tidak melebihi waktu siklus.
4. Lakukan langkah 3 hingga semua task telah ditempatkan
kepada suatu stasiun kerja.
3.1.2 Cue phrase indicator criteria
Pada beberapa genre teks, kata dan frasa tertentu dalam kalimat secara eksplisit menunjukkan seberapa penting kalimat tersebut. Daftar cue phrase beserta (positif dan negatif) „goodness score‟ biasanya dibangun manual.
3.1.3 Word and phrase frequency criteria
Secara umum feature yang digunakan untuk mewakili dokumen dalam model raung vector adalah kata. Hal ini karena ekstraksi kata dari dokumen relatif mudah, yaitu hanya mendeteksi deretan karakter yang diakhiri dengan spasi. Jika dirancang bahwa angka tidak merupakan bagian dari kata maka dalam bahasa Indonesia karakter khusus yang mewakili kata hanya tanda hypen (“-“), yang menunjukkan kata ulang, selainnya adalah karakter abjad. Penelitian untuk teks bahasa inggris yang melibatkan frasa menunjukkan bahwa melibatkan frasa dalam feature dapat meningkatkna kinerja clustering. Penelitian tentang deteksi dan ekstraksi frasa dalam bahasa Inggris juga telah cukup banyak dilakukan.
Metode seleksi beragam mulai dengan pendekatan statistik sampai pendekatan natural language processing (NLP).
Untuk kasus bahasa Indonesia penelitian di bidang ini masih sangat minim. Dengan latar belakang itu dalam penelitian ini frasa didefinisikan sebagai dua kata yang saling berdekatan yang memiliki makna tertentu yang bisa berbeda dengan makna kata-kata tunggalnya, misalnya
“kambing hitam”. Teknik ekstraksi kata ditempuh dengan cara sederhana yaitu melakukan penghitungan frekuensi kemunculan dari pasangan dua kata. Selanjutnya seperti pada kata setelah dibatasi frekuensi minimal kemunculan, analisis variansi frekuensi dilakukan untuk melakukan seleksi.
3.1.4 Query and title overlap criteria
Metoda sederhana tapi berguna adalah dengan memberi skor pada kalimat-kalimat sesuai jumlah kata-kata yang juga muncul pada judul, heading, atau query.
3.1.5 Cohesive or lexical connectedness criteria
Kohesi leksikal, yaitu efek kohesif yang dicapai melalui pemilihan kosakata. Kedua, berdasarkan asal hubungannya, kohesi diklasifikasi lebih jauh berdasarkan tiga hal, yaitu:
1. Keterkaitan bentuk yang meliputi substitusi, elipsis, dan
kolokasi leksikal;
2. Keterkaitan referensi yang meliputi referensi dan reiterasi
leksikal;
Menurut Untung Yuwono dalam bukunya yang berjudul Pesona Bahasa menyatakan bahwa kohesi tidak datang dengan sendirinya, tetapi diciptakan secara formal oleh alat bahasa yang disebut pemarkah kohesi, misalnya kata ganti, kata tunjuk, kata sambung, dan kata yang diulang.
Pemarkah kohesi yang digunakan secara tepat menghasilkan kohesi leksikal dan kohesi gramatikal. Kohesi leksikal adalah hubungan semantis antarunsur pembentuk wacana dengan memanfaatkan unsur leksikal atau kata yang dapat diwujudkan dengan reiterasi dan kolokasi. Reiterasi adalah pengulangan kata-kata pada kalimat berikutnya untuk memberikan penekanan bahwa kata-kata tersebut merupakan fokus pembicaraan.
Reiterasi dapat berupa repetisi, sinonimi, hiponimi, metonimi, dan antonimi. Sedangkan kolokasi adalah hubungan antarkata yang berada pada lingkungan atau bidang yang sama. Contohnya, [petani] di Lampung terancam gagal memanen [padi]. [sawah] yang mereka garap terendam banjir selama dua hari. Sedangkan kohesi gramatikal adalah hubungan semantis antarunsur yang dimarkahi alat gramatikal, yaitu alat bahasa yang digunakan dalam kaitannya dengan tata bahasa. Kohesi gramatikal dapat berwujud referensi, substitusi, elipsis, dan konjungsi.
Kata-kata dapat dihubungkan dengan berbagai cara, meliputi repetisi, coreference, sinonim, dan asosiasi semantik pada thesauri.
Kalimat dan paragraf dapat diberi skor berdasarkan derajat keterhubungan kata-katanya; semakin terkoneksi diasumsikan semakin penting.
3.1.6 Discourse structure criteria
Pembuatan struktur discourse teks dan memberi skor kalimat berdasarkan wacana sentralitas.
3.1.7 Peringkasan Teks Otomatis Berbasis Graf
Metode berbasis graf tergolong baru dalam peringkasan teks otomatis. Metode ini memodelkan teks ke dalam bentuk graf dengan menjadikan unit-unit teks sebagai vertex dan menambahkan edges pada graf berdasarkan hubungan bermakna antar unit teks yang dijadikan vertex, kemudian menentukan tingkat pentingnya setiap vertex berdasarkan struktur graf keseluruhan.
Konsep perankingan halaman web dengan pagerank yang telah dijelaskan akan diterapkan terhadap graf pada domain lain, yaitu graf tekstual. Graf tekstual adalah graf yang dibangun dari teks. Serupa dengan tujuan PageRank untuk melakukan perankingan halaman-halaman web, penerapan perankingan graf tekstual adalah untuk melakukan perankingan terhadap unit-unit teks. Dari hasil perankingan dapat dipilih unit-unit teks paling penting yang akan menjadi penyusun ringkasan ekstraktif.
Pada perankingan graf tekstual, teks direpresentasikan menjadi sebuah graf. Vertex/node pada graf tekstual adalah unit teks yang akan diranking, yaitu dapat berupa kata-kata, kalimat-kalimat, atau paragraf- paragraf dalam teks. Edge/link dalam grafmenunjukkan keterhubungan yang bermakna antar vertex/node. Keterhubungan tersebut dapat berupa similarity antar kalimat ataupun hubungan leksikal atau gramatikal antar kata/frasa.
Pemilihan jenis unit teks untuk dijadikan vertex bergantung pada tujuan aplikasi yang akan dicapai. Misalnya untuk ekstraksikeyphrase
biasanya frasa atau kata-kata menjadivertex, sedangkan untuk ringkasan ekstraktif biasanya kalimat ataupun paragraf dipilih sebagai vertex.
Edge yang menghubungkan vertex juga disesuaikan dengan kebutuhan dan unit teks yang dipilih. Similarity biasanya digunakan untuk menyatakan hubungan suatu vertex denganvertex lain, atau dengan kata lain, antara kalimat/paragraf satu dengan kalimat/paragraf lain.
Jenis similarity yang diterapkan juga beragam dan dapat didefinisikan sendiri, sesuai kebutuhan sistem peringkas yang akan dibangun, di antaranya cosine similarity dan simple word overlap.
3.2 Aplikasi
Ada berbagai jenis ringkasan tergantung pada tujuan program summarization untuk membuat ringkasan teks, misalnya generic summaries atau query relevant summaries. Sistem summarization dapat membuat kedua ringkasan teks query yang relevan dan generik mesin yang dihasilkan ringkasan tergantung pada apa kebutuhan pengguna.
Summarization dokumen multimedia, misalnya gambar atau film bisa juga memungkinkan.
Beberapa sistem akan menghasilkan ringkasan didasarkan pada dokumen sumber tunggal, sementara yang lain dapat menggunakan dokumen beberapa sumber (misalnya, sekelompok berita pada topik yang sama). Terdapat sepotong teks, seperti artikel jurnal, dan terdapat hasilk daftar kata kunci atau Frase unik yang menangkap topik utama yang dibahas dalam teks. Sebaliknya, sistem keyphrase abstraktif akan menginternalisasi konten dan menghasilkan Frase unik yang mungkin lebih deskriptif dan lebih seperti apa yang manusia akan menghasilkan, seperti “kelalaian politik” atau “perlindungan yang memadai dari banjir”.
Perhatikan bahwa istilah-istilah ini tidak muncul dalam teks dan memerlukan pemahaman yang mendalam, yang membuatnya sulit bagi komputer untuk menghasilkan Frase unik tersebut. Pertandingan antara Frase unik yang diusulkan dan Frase unik yang dikenal dapat diperiksa setelah berasal atau menerapkan beberapa normalisasi teks lain.
3.3 Unsupervised keyphrase extraction: TextRank
Sementara supervised methods memiliki beberapa kelebihan, seperti mampu menghasilkan aturan ditafsirkan untuk apa fitur ciri keyphrase, namun juga memerlukan sejumlah besar pelatihan data. Alih- alih mencoba untuk mempelajari fitur eksplisit yang menjadi ciri Frase unik, algoritma TextRank memanfaatkan struktur teks itu sendiri untuk menentukan Frase unik yang muncul “pusat” untuk teks dalam cara yang sama bahwa PageRank memilih halaman Web yang penting. Setelah grafik dibangun, digunakan untuk membentuk matriks stokastik, dikombinasikan dengan faktor redaman (seperti dalam “model surfer acak”), dan peringkat atas simpul diperoleh dengan mencari yang sesuai eigenvektor ke eigenvalue 1 (yaitu, distribusi stasioner dari random walk pada grafik).
3.4 METODE STEEMMING
Teknik stemming adalah suatu teknik pencarian bentuk dasar dari suatu term. Yang dimaksud dengan term itu sendiri adalah tiap kata yang berada pada suatu dokumen teks. Stemming dilakukan pada saat pembuatan indeks dari suatu dokumen. Pembuatan indeks dilakukan karena suatu dokumen tidak dapat dikenali langsung oleh suatu sistem temu kembali informasi atau information retrieval (IR) system. Oleh karena itu, dokumen tersebut terlebih dahulu perlu dipetakan ke dalam
BAB 4
HASIL DAN PEMBAHASAN
0.0.1. Lokasi Kalimat
Pada umumnya kalimat awal dalam suatu dokumen sangat penting. Jadi dapat dibuat kalimat pertama dokumen bernilai 1.0, kalimat kedua dengan 0.8, dan seterusnya. Sedangkan kalimat ke lima ke atau bernilai 0.0
4.1.2 Panjang Relatif Kalimat
Diandaikan bahwa kalimat lebih panjang memberi informasi lebih banyak. Untuk suatu kalaimat s dalam dokumen d, skor dihitung dengan cara :
( ) ( ) ( )
Dimana ns jumlah kalimat.
4.1.3 Rata rata FK
Ukuran Frekuensi Kemunculan(FK) didasarkan pada asumsi :
(i). Kepentingan kata untuk suatu dokumen berbanding langsung dengan jumlah ketersediaannya dalam dokumen.
(ii). Panjang dokumen tidak mempengaruhi kepentingan kata tersebut.Nilai FK untuk suatu t dalam dokumen d dihitung dengan :
( ) ( ) ( )
dengan nt jumlah kata dalam dokumen.
Rata-rata FK-1KD
Frekuensi kemunculan – Inverse kemunculan dokumen(FK-1KD) memerlukan satu lagi asumsi tambahan yaitu :
(iii) Suatu kata dalam dokumen yang jarang muncul dalam kumpula dokemen lebih penting dari pada suatu kata yang banyak muncul dalam dokumen. Untuk suatu kata t dalam dokumen d diberikan suatu koleksi tulisan c, nilai FK-1KD dihitung dengan cara sebagai berikut :
( ) ( ) ( )
Dimana nd jumlah total dokumen dalam tulisan dan frekuensi dokemen df mengatakan jumlah dokemen dalam mana kata tersebut terjadi
4.1.4 Kesamaan Judul
Fitur ini memandang Vokabulari antara kalimat dan judul dokumen, yang dihitung dengan :
( ) ⋂ ⋃
Dimana kata s dan kata t merupakan himpunan kata kata yang terjadi berturut turut dalam kalimat kalimat s dan judul t.
4.1.5 Kata Kunci
Fitur ini dan dua fitur berikutnya mengandaikan bahwa kalimat yang mencakup beberapa tipe item tertentu mengandung informasi penting tentang dokumen. Fitur ini menghitung jumlah kata kunci dalam suatu kalimat .
( ) ( ) ( )
4.1.6 Entitas Nama
Entitas nama dihitung dengan cara
( ) ( ) ( )
4.1.7 Data Numerik
Fitur ini menghitung jumlah kata numerik dalam suatu kalimat ( ) ( )
( )
4.1.8 Sentralitas Kalimat
Fitur ini mengukur Vokabulari antara suatu kalimat dan kalimat lainnya dalam suatu dokumen. Ini mengindikasikan pentingnya suatu dokumen dihitung dengan cara
( )
Kata c adalah jumlah kata yang umum yang terjadi dalam kalimat s dan kalimat d.
BAB V
Kesimpulan dan Saran 5.1 Kesimpulan
1. Proses peringkasan teks dapat dibuat dengan akurasi sampai dengan 97,67% (diukur berdasarkan hasil validasi) dengan data training yang bagus dan jumlah iterasi yang tepat (dimana dalam penelitian ini jumlah iterasinya sebanyak 100 kali) meskipun dengan jumlah data training yang kecil sekalipun ternyata tingkat keakuratannya masih tergolong tinggi.
2. Proses iterasi yang besar belum tentu akan menghasilkan setting parameteryang baik,hal ini tampak dalam pengujian dimana ketika jumlah iterasi dinaikkan ternyata hasil training tidak lebih baik jika dibandingkan dengan jumlah training yang lebih sedikit.
5.2 Saran
1. Pengembangan Aplikasi berikutnya agar dilengkapi dengan Algoritma steamming, karena hingga saat ini belum terdapat Algoritma yang dapat melakukan proses steaming Bahasa Indonesia dengan tepat.
2. Penambahan parameter masih dimungkinkan dalam pembangunan aplikasi selanjutnya.
DAFTAR PUSTAKA
Arora, A., &Choubey, A. S., 2013. Offline Signature Verification and Recognationusing Neural Network, International Journal of Science and Research (IJSR).
Amalia,I. 2014. Pengenalancitratandatanganmenggunakangray level Co- occurrence matrix (GLCM) danprobabilistic neural network (PNN).Jurnal Teknologi, Vol. 14: 29-34
Basuki,A. 2005. “Pengolahan Citra Digital menggunakan Visual Basic”.Graha Ilmu.Yogyakarta.
Deepa,S.N&Arunadevi, B. 2013. Extreme Learning Machine For Classification of Brain Tumor In 3D MR Images. Informatol 2: 111- 121.
Fitriati, D.2016 .Perbandingankinerjacnnlenet 5 dan extreme learning machine padapengenalancitratulisantanganangka.JurnalTeknologiTerpadu.
Huang, G., Huang. G., & Song, S. 2015. Trends in extreme learning machines: A review .ScienceDirect.
Gadkari D 2004 .Image quality analysis using GLCM Thesis under publication.
University of Central Florida.Yang, X.S
Gonzalez, C, R., &Woods,R.E., 2008, Digital Image Processing 3rd Ed, New Jersey, USA: Pearson Prentice Hall.
Handika,P.S., Giriantari,I. A., & Dharma, A.2016. PerbandinganMetode Extreme Learning Machine danParticle Swarm Optimization Extreme Learning Machine untukPeramalanJumlahPenjualanBarang.Teknologi Elektro.
Haralick R M &Shanmugam K. 2004. Texture features for image classification.IEEEInternational Joint Conference on Neural Networks (IJCNN2004),Budapest, Hungary.
Kadir, L. E. Nugroho, A. Susanto, P. I. Santosa. 2011. Neural Network Application on Foliage Plant Identification. International journal of computer applications.
MacAusland, R. 2014. The Moore-Penrose Inverse and Least Squares. University of Puget Sound.
Madhu, M. &Amutha, R. 2012 Face Recognition using Gray level Co occurrence Matrix and Snap Shot Method of the Eigen Face.International Journal of Engineering and Innovative Technology (IJEIT) 482-488.
Munir, R. 2004. Pengolahan Citra Digital denganPendekatan Algoritmatik.Informatika, Bandung
Pathak B &Barooah D, 2013.Texture Analysis Based On The Gray-Level Co- Occurrence Matrix Considering Possible Orientations.
Prakoso, E., Wisesty,U.N., &Jondri. 2016. KlasifikasiKeadaan Mata Berdasarkansinyal EEG menggunakanExtreme LearningMachines.Journal Computing, 97-116
Sulochana S, &Vidhya R., 2013.Texture based image retrieval using framelet transform Gray Level Co-occurrence Matrix (GLCM), IJARAI, 2(2):610~621.
Zhou, H., Ziahuawu&Jianguo Zhang., 2010. Digital image processing part 1, bookboon company.