TINJAUAN PUSTAKA - TESIS JEREMIA SIREGAR

2.1 Text Summarization

Text summarization adalah proses mengurangi dokumen teks dengan program komputer untuk menciptakan sebuah ringkasan yang mempertahankan poin yang paling penting dari dokumen asli. . Metode Ekstraksi bekerja dengan memilih bagian dari kata yang ada, frase, atau kalimat dalam teks asli untuk membentuk ringkasan.Sebaliknya, metode abstraksi membangun sebuah representasi semantik internal dan kemudian menggunakan teknik bahasa generasi alami untuk membuat ringkasan yang lebih dekat dengan meringkas secara manual . Metode The state-of-the-art abstraktif masih cukup lemah, sehingga sebagian besar penelitian telah difokuskan pada metode ekstraktif.

Suatu artikel yang memiliki ukuran yang panjang, akan mengakibatkan pembaca akan sangat kesulitan bila harus membaca dan menyerap semua informasi dari artikel tersebut. Text Summarization akan menghasilkan suatu produk teks yang tetap memiliki/ mengandung bagian-bagian yang penting dari artikel asli. Hasil pengujian menunjukkan bahwa proses summary sangat bergantung pada jenis dan struktur dari artikel. Sistem akan menghasilkan summary yang baik bila jenis artikel yang diproses adalah jenis ilmiah argumentasi. Sedangkan untuk struktur artikel, bila suatu artikel memiliki banyak paragraf dan disetiap paragraf memiliki lebih dari dua kalimat maka mendapatkan hasil summary yang baik.

Sedangkan menurut Hovy, ringkasan adalah teks yang dihasilkan dari sebuah teks atau banyak teks, yang mengandung isi informasi dari teks asli dan panjangnya tidak lebih dari setengah teks aslinya (Hovy, 2001). Penelitian mengenai peringkasan teks otomatis (automatic text summarization) dengan menggunakan berbagai macam metode dan pendekatan, diawali sejak tahun 1958 oleh Luhn. Banyak teknik yang digunakan dalam summarization ini, seperti teknik pendekatan statistika yaitu teknik word frequency (Luhn, 1958), position in text (Baxendale, 1958), cue words and heading (Edmudson, 1969), sentence position (Lin dan Hoovy, 1997). Teknik pendekatan dengannatural language analysis yaitu inverse term frequency and NLP technique (Aone, 1990), lexical chain (Mc Keown, 1997), maximal maginal relevance (Cabonell dan Goldstein, 1998).

2.2 Karakteristik Peringkasan Teks

Terdapat dua pendekatan pada peringkasan teks, yaitu ekstraksi (shallower approaches) dan abstraksi (deeper approaches). Pada teknik ekstraksi, sistem menyalin unit-unit teks yang dianggap paling penting atau paling informatif dari teks sumber menjadi ringkasan. Unit-unit teks yang disalin dapat berupa klausa utama, kalimat utama, atau paragraf utama. Sedangkan teknik abstraksi melibatkan parafrase dari teks sumber.

Teknik abstraksi mengambil intisari dari teks sumber, kemudian membuat ringkasan dengan menciptakan kalimat-kalimat baru yang merepresentasikan intisari teks sumber dalam bentuk berbeda dengan kalimat-kalimat pada teks sumber. Pada umumnya, abstraksi dapat meringkas teks lebih kuat daripada ekstraksi, tetapi sistemnya lebih sulit dikembangkan karena mengaplikasikan teknologi natural language

Berdasarkan jumlah sumbernya, sebuah ringkasan dapat dihasilkan dari satu sumber (single-document) atau dari banyak sumber (multi-document). Peringkasan single-document masukannya berupa sebuah teks dan keluarannya berupa sebuah teks baru yang lebih singkat. Pada peringkasan multi-document, masukan adalah beberapa dokumen teks yang memiliki tema sama, biasanya sudah ada dalam satu klaster kemudian akan dihasilkan keluaran berupa sebuah teks yang lebih singkat yang merangkum informasi-informasi utama pada klaster masukan.

Suatu ringkasan dapat bersifat general, yaitu ringkasan yang berupaya mengambil sebanyak mungkin informasi penting yang mampu menggambarkankeseluruhan isi teks. Selain itu dapat juga informasi yang diambil untuk ringkasan berdasar pada querymasukan yang didefinisikan

pengguna sistem. Queryoriented atau

user-oriented summarization mencoba mengambil informasi yang relevan

dengan query pengguna dan menampilkannya dalam bentuk ringkasan.

Berdasarkan fungsinya, sebuah ringkasan dapat memiliki sifat indicative, informative, atau evaluative. Ringkasan informativeberfungsi menyajikan informasi utama atau yang paling penting dari teks sumber. Ringkasan indicative memberikan saran untuk pembacaan lebih lanjut mengenai hal-hal tertentu dalam isi teks.

Sedangkan ringkasanevaluative memberi komentar atau evaluasi terhadap informasi utama pada teks sumber.

Compression rate pada proses peringkasan akan menentukan panjang ringkasan yang dihasilkan. Biasanya diukur berdasarkan persentase dari teks sumber, misalnya ringkasan sepanjang 10%, 25%, atau 50% dari teks sumber. Selain itu dapat pula diukur berdasarkan jumlah kata, misalnya ditentukan ringkasan sepanjang 100 kata. Biasanya,

panjang ringkasan tidak lebih dari setengah teks sumber. Gambar dibawah ini memperlihatkan arsitektur tingkat tinggi peringkasan teks otomatis.

Masukan berupa teks dengan berbagai karakteristik dan keluaran berupa ringkasan ekstraksi maupun abstraksi.

2.3 Metode Secara Umum

Metode dalam penerapan Text Summarization ini adalah menggunakan metode TF-IDF (Terms Frequency – Inverse Document Frequency) dan Exhaustive algorithm. Metode TF-IDF berfungsi untuk menghitung bobot nilai dari setiap kalimat dan relasi antar kalimat.

Sedangkan Exhaustive algorithm berfungsi untuk menghasilkan path dari setiap penelusuran titik-titik pada graph. Dan kemudian hasil path tersebut akan menjadi suatu summary.

Metode Text Summarization terdapat 3 metode secara umum yaitu :

1.Extraction-based summarization

2.Abstraction-based summarization

3.Maximum entropy-based summarization

2.3.1 Extraction-based Summarization

Dua jenis summarization sering dibahas dalam literatur adalah ekstraksi keyphrase, di mana tujuannya adalah untuk memilih kata-kata individu atau frase untuk “tag” sebuah dokumen, dan summarization dokumen, di mana tujuannya adalah untuk memilih seluruh kalimat untuk

membuat ringkasan paragraf pendek.

Pada 2012, Light Filtering, salah satu metode yang digunakan untuk summarization kalimat dari dokumen yang dinilai menuju konten

utamanya, menunjukkan hasil yang baik untuk menggunakan summarization pre-processing langkah sebelum ekstraksi keyphrase.

2.3.2 Abstraction-based Summarization

Teknik ekstraksi hanya menyalin informasi yang dianggap paling penting oleh sistem untuk ringkasan (misalnya, klausa kunci, kalimat atau paragraf), sedangkan abstraksi melibatkan parafrase bagian dari dokumen sumber. Secara umum, abstraksi dapat menyingkat teks lebih kuat dari ekstraksi, tetapi program yang bisa melakukan hal ini lebih sulit untuk mengembangkan karena mereka memerlukan penggunaan teknologi natural language generation. Sementara beberapa proses telah dilakukan dalam abstractive summarization (menciptakan sinopsis abstrak secara manual), sebagian besar sistem summarization adalah ekstraktif (memilih subset dari kalimat untuk menempatkan dalam ringkasan).

2.3.3 Maximum Entropy-based Summarization

Meskipun automating abstractive summarization adalah tujuan dari penelitian summarization, sistem yang paling praktis didasarkan pada beberapa bentuk adalah summarization ekstraktif. Maximum entropy-based summarization telah berhasil diterapkan untuk summarization dalam domain siaran berita.

BAB III

Dalam dokumen TESIS JEREMIA SIREGAR (Halaman 24-29)