METODE PENELITIAN - TESIS JEREMIA SIREGAR

3.1 Metode Text Summarization 3.1.1 Ranked Positional Weight

Lokasi tertentu pada teks seperti heading, judul, dan paragraf pertama cenderung mengandung informasi penting. Metode sederhana dengan mengambil paragraf pertama (lead) sebagai ringkasan biasanya cukup bagus terutama pada artikel berita. Ranked Positional Weight adalah metode yang diusulkan oleh Helgeson dan Birnie sebagai pendekatan untuk memecahkan permasalahan pada keseimbangan lini dan menemukan solusi dengan cepat. Konsep dari metode ini adalah menentukan jumlah stasiun kerja minimal dan melakukan pembagian task ke dalam stasiun kerja dengan cara memberikan bobot posisi kepada setiap task sehingga semua task telah ditempatkan kepada sebuah stasiun kerja. Bobot setiap task, misal task ke-i dihitung sebagai waktu yang dibutuhkan untuk melakukan task ke-i ditambah dengan waktu untuk mengeksekusi semua task yang akan dijalankan setelah task ke-i tersebut.

Urutan langkah-langkah pada metode Ranked Positional Weight adalah sebagai berikut:

1.Lakukan penghitungan bobot posisi untuk setiap task. Bobot

posisi setiap task dihitung dari bobot suatu task ditambah dengan bobot task-task setelahnya.

2.Lakukan pengurutan task-task berdasarkan bobot posisi, yaitu

dari bobot posisi besar ke bobot posisi kecil.

3.Tempatkan task dengan bobot terbesar ke sebuah stasiun kerja sepanjang tidak melanggar precedence constraint dan waktu stasiun kerja tidak melebihi waktu siklus.

4. Lakukan langkah 3 hingga semua task telah ditempatkan

kepada suatu stasiun kerja.

3.1.2 Cue phrase indicator criteria

Pada beberapa genre teks, kata dan frasa tertentu dalam kalimat secara eksplisit menunjukkan seberapa penting kalimat tersebut. Daftar cue phrase beserta (positif dan negatif) „goodness score‟ biasanya dibangun manual.

3.1.3 Word and phrase frequency criteria

Secara umum feature yang digunakan untuk mewakili dokumen dalam model raung vector adalah kata. Hal ini karena ekstraksi kata dari dokumen relatif mudah, yaitu hanya mendeteksi deretan karakter yang diakhiri dengan spasi. Jika dirancang bahwa angka tidak merupakan bagian dari kata maka dalam bahasa Indonesia karakter khusus yang mewakili kata hanya tanda hypen (“-“), yang menunjukkan kata ulang, selainnya adalah karakter abjad. Penelitian untuk teks bahasa inggris yang melibatkan frasa menunjukkan bahwa melibatkan frasa dalam feature dapat meningkatkna kinerja clustering. Penelitian tentang deteksi dan ekstraksi frasa dalam bahasa Inggris juga telah cukup banyak dilakukan.

Metode seleksi beragam mulai dengan pendekatan statistik sampai pendekatan natural language processing (NLP).

Untuk kasus bahasa Indonesia penelitian di bidang ini masih sangat minim. Dengan latar belakang itu dalam penelitian ini frasa didefinisikan sebagai dua kata yang saling berdekatan yang memiliki makna tertentu yang bisa berbeda dengan makna kata-kata tunggalnya, misalnya

“kambing hitam”. Teknik ekstraksi kata ditempuh dengan cara sederhana yaitu melakukan penghitungan frekuensi kemunculan dari pasangan dua kata. Selanjutnya seperti pada kata setelah dibatasi frekuensi minimal kemunculan, analisis variansi frekuensi dilakukan untuk melakukan seleksi.

3.1.4 Query and title overlap criteria

Metoda sederhana tapi berguna adalah dengan memberi skor pada kalimat-kalimat sesuai jumlah kata-kata yang juga muncul pada judul, heading, atau query.

3.1.5 Cohesive or lexical connectedness criteria

Kohesi leksikal, yaitu efek kohesif yang dicapai melalui pemilihan kosakata. Kedua, berdasarkan asal hubungannya, kohesi diklasifikasi lebih jauh berdasarkan tiga hal, yaitu:

1. Keterkaitan bentuk yang meliputi substitusi, elipsis, dan

kolokasi leksikal;

2. Keterkaitan referensi yang meliputi referensi dan reiterasi

leksikal;

Menurut Untung Yuwono dalam bukunya yang berjudul Pesona Bahasa menyatakan bahwa kohesi tidak datang dengan sendirinya, tetapi diciptakan secara formal oleh alat bahasa yang disebut pemarkah kohesi, misalnya kata ganti, kata tunjuk, kata sambung, dan kata yang diulang.

Pemarkah kohesi yang digunakan secara tepat menghasilkan kohesi leksikal dan kohesi gramatikal. Kohesi leksikal adalah hubungan semantis antarunsur pembentuk wacana dengan memanfaatkan unsur leksikal atau kata yang dapat diwujudkan dengan reiterasi dan kolokasi. Reiterasi adalah pengulangan kata-kata pada kalimat berikutnya untuk memberikan penekanan bahwa kata-kata tersebut merupakan fokus pembicaraan.

Reiterasi dapat berupa repetisi, sinonimi, hiponimi, metonimi, dan antonimi. Sedangkan kolokasi adalah hubungan antarkata yang berada pada lingkungan atau bidang yang sama. Contohnya, [petani] di Lampung terancam gagal memanen [padi]. [sawah] yang mereka garap terendam banjir selama dua hari. Sedangkan kohesi gramatikal adalah hubungan semantis antarunsur yang dimarkahi alat gramatikal, yaitu alat bahasa yang digunakan dalam kaitannya dengan tata bahasa. Kohesi gramatikal dapat berwujud referensi, substitusi, elipsis, dan konjungsi.

Kata-kata dapat dihubungkan dengan berbagai cara, meliputi repetisi, coreference, sinonim, dan asosiasi semantik pada thesauri.

Kalimat dan paragraf dapat diberi skor berdasarkan derajat keterhubungan kata-katanya; semakin terkoneksi diasumsikan semakin penting.

3.1.6 Discourse structure criteria

Pembuatan struktur discourse teks dan memberi skor kalimat berdasarkan wacana sentralitas.

3.1.7 Peringkasan Teks Otomatis Berbasis Graf

Metode berbasis graf tergolong baru dalam peringkasan teks otomatis. Metode ini memodelkan teks ke dalam bentuk graf dengan menjadikan unit-unit teks sebagai vertex dan menambahkan edges pada graf berdasarkan hubungan bermakna antar unit teks yang dijadikan vertex, kemudian menentukan tingkat pentingnya setiap vertex berdasarkan struktur graf keseluruhan.

Konsep perankingan halaman web dengan pagerank yang telah dijelaskan akan diterapkan terhadap graf pada domain lain, yaitu graf tekstual. Graf tekstual adalah graf yang dibangun dari teks. Serupa dengan tujuan PageRank untuk melakukan perankingan halaman-halaman web, penerapan perankingan graf tekstual adalah untuk melakukan perankingan terhadap unit-unit teks. Dari hasil perankingan dapat dipilih unit-unit teks paling penting yang akan menjadi penyusun ringkasan ekstraktif.

Pada perankingan graf tekstual, teks direpresentasikan menjadi sebuah graf. Vertex/node pada graf tekstual adalah unit teks yang akan diranking, yaitu dapat berupa kata-kata, kalimat-kalimat, atau paragraf-paragraf dalam teks. Edge/link dalam grafmenunjukkan keterhubungan yang bermakna antar vertex/node. Keterhubungan tersebut dapat berupa similarity antar kalimat ataupun hubungan leksikal atau gramatikal antar kata/frasa.

Pemilihan jenis unit teks untuk dijadikan vertex bergantung pada tujuan aplikasi yang akan dicapai. Misalnya untuk ekstraksikeyphrase

biasanya frasa atau kata-kata menjadivertex, sedangkan untuk ringkasan ekstraktif biasanya kalimat ataupun paragraf dipilih sebagai vertex.

Edge yang menghubungkan vertex juga disesuaikan dengan kebutuhan dan unit teks yang dipilih. Similarity biasanya digunakan untuk menyatakan hubungan suatu vertex denganvertex lain, atau dengan kata lain, antara kalimat/paragraf satu dengan kalimat/paragraf lain.

Jenis similarity yang diterapkan juga beragam dan dapat didefinisikan sendiri, sesuai kebutuhan sistem peringkas yang akan dibangun, di antaranya cosine similarity dan simple word overlap.

3.2 Aplikasi

Ada berbagai jenis ringkasan tergantung pada tujuan program summarization untuk membuat ringkasan teks, misalnya generic summaries atau query relevant summaries. Sistem summarization dapat membuat kedua ringkasan teks query yang relevan dan generik mesin yang dihasilkan ringkasan tergantung pada apa kebutuhan pengguna.

Summarization dokumen multimedia, misalnya gambar atau film bisa juga memungkinkan.

Beberapa sistem akan menghasilkan ringkasan didasarkan pada dokumen sumber tunggal, sementara yang lain dapat menggunakan dokumen beberapa sumber (misalnya, sekelompok berita pada topik yang sama). Terdapat sepotong teks, seperti artikel jurnal, dan terdapat hasilk daftar kata kunci atau Frase unik yang menangkap topik utama yang dibahas dalam teks. Sebaliknya, sistem keyphrase abstraktif akan menginternalisasi konten dan menghasilkan Frase unik yang mungkin lebih deskriptif dan lebih seperti apa yang manusia akan menghasilkan, seperti “kelalaian politik” atau “perlindungan yang memadai dari banjir”.

Perhatikan bahwa istilah-istilah ini tidak muncul dalam teks dan memerlukan pemahaman yang mendalam, yang membuatnya sulit bagi komputer untuk menghasilkan Frase unik tersebut. Pertandingan antara Frase unik yang diusulkan dan Frase unik yang dikenal dapat diperiksa setelah berasal atau menerapkan beberapa normalisasi teks lain.

3.3 Unsupervised keyphrase extraction: TextRank

Sementara supervised methods memiliki beberapa kelebihan, seperti mampu menghasilkan aturan ditafsirkan untuk apa fitur ciri keyphrase, namun juga memerlukan sejumlah besar pelatihan data. Alih-alih mencoba untuk mempelajari fitur eksplisit yang menjadi ciri Frase unik, algoritma TextRank memanfaatkan struktur teks itu sendiri untuk menentukan Frase unik yang muncul “pusat” untuk teks dalam cara yang sama bahwa PageRank memilih halaman Web yang penting. Setelah grafik dibangun, digunakan untuk membentuk matriks stokastik, dikombinasikan dengan faktor redaman (seperti dalam “model surfer acak”), dan peringkat atas simpul diperoleh dengan mencari yang sesuai eigenvektor ke eigenvalue 1 (yaitu, distribusi stasioner dari random walk pada grafik).

3.4 METODE STEEMMING

Teknik stemming adalah suatu teknik pencarian bentuk dasar dari suatu term. Yang dimaksud dengan term itu sendiri adalah tiap kata yang berada pada suatu dokumen teks. Stemming dilakukan pada saat pembuatan indeks dari suatu dokumen. Pembuatan indeks dilakukan karena suatu dokumen tidak dapat dikenali langsung oleh suatu sistem temu kembali informasi atau information retrieval (IR) system. Oleh karena itu, dokumen tersebut terlebih dahulu perlu dipetakan ke dalam

BAB 4

Dalam dokumen TESIS JEREMIA SIREGAR (Halaman 29-36)