Update Summarization
Untuk Kumpulan Dokumen Berbahasa Indonesia
Widhaprasa E. Waliprana
Institut Teknologi Bandung
[email protected]
Masayu Leylia Khodra
Institut Teknologi Bandung
[email protected]
ABSTRAK
Update summarization menghasilkan ringkasan dengan
mempertimbangkan informasi yang telah dibaca oleh pengguna sebelumnya. Pada makalah ini dikaji teknik update
summarization pada kumpulan dokumen berbahasa Indonesia.
Sistem peringkasan ini memiliki dua subsistem peringkasan yang berbeda untuk kumpulan dokumen yang diasumsikan sudah dibaca oleh pengguna dan kumpulan dokumen yang belum dibaca oleh pengguna. Untuk setiap subsistem, terdapat komponen praproses, komponen penentuan topik dengan
frequent term-based clustering untuk menentukan topik umum
dari kumpulan dokumen, dan komponen pemilihan kalimat dengan maximal marginal relevance dalam proses perankingan kalimat dan juga proses update untuk menentukan kalimat yang menjadi hasil ringkasan. Dari hasil pengujian setiap komponen, didapatkan kesimpulan bahwa frequent term-based clustering mampu menghasilkan topik dari kumpulan dokumen yang menjadi masukan dan maximal marginal relevance mampu melakukan perankingan kalimat untuk menentukan kalimat yang menjadi hasil ringkasan tanpa mengandung informasi yang sudah dibaca dan memiliki redundansi informasi yang rendah.
Kata Kunci
Frequent term-based clustering, maximal marginal relevance,
redundansi, ringkasan, update summarization.
1. PENDAHULUAN
Pada masa ini, informasi sudah tersebar sangat banyak di internet. Informasi tersebut tersebar dalam bentuk dokumen seperti artikel, berita, dan makalah ilmiah. Jumlah dokumen yang banyak ini menimbulkan masalah yaitu konten dokumen sulit dimengerti yang disebabkan oleh terlalu banyaknya informasi atau disebut juga information overload. Peringkasan dokumen merupakan salah satu cara untuk mengatasi masalah
information overload.
Peringkasan teks otomatis mampu menghasilkan ringkasan yang memiliki konten penting pada dokumen sumber (Jiaming, 2008). Salah satu jenis peringkasan teks otomatis adalah peringkasan multidokumen yaitu peringkasan dengan banyak dokumen sumber. Namun, hasil peringkasan multidokumen ini masih sering memiliki informasi yang sudah diketahui dan memiliki redundansi informasi.
Update summarization adalah bentuk peringkasan multidokumen berdasarkan asumsi bahwa pengguna sudah pernah membaca informasi sebelumnya (Aggarwal dkk., 2009). Dengan kata lain, informasi pada ringkasan yang diterima bersifat up-to-date atau baru. Jenis peringkasan ini menjadi bahan kompetisi pada workshop tahunan untuk penelitian mengenai teknologi pemrosesan bahasa alami yang dinamakan Document Understanding Conference (DUC) pada tahun 2007 dan sudah berganti nama menjadi Text Analysis Conference (TAC) sejak tahun 2008. Columbia’s Newsblaster (http://newsblaster.cs.columbia.edu) merupakan sebuah aplikasi penyaji berita online dengan berbagai fitur diantaranya pengkategorian dan peringkasan. Newsblaster menyediakan
sebuah prototipe update summarizer yang berfungsi untuk menghasilkan ringkasan berita yang baru.
Penelitian mengenai update summarization sudah banyak dilakukan pada DUC/TAC dan juga pada penelitian lainnya, namun semua penelitian hanya dilakukan pada kumpulan dokumen berbahasa Inggris. Penelitian pada kumpulan dokumen berbahasa Indonesia belum ada yang melakukannya sehingga perlu dilakukan penelitian mengenai update summarization pada kumpulan dokumen berbahasa Indonesia.
Pada makalah ini, dikaji teknik peringkasan yang dapat diimplementasikan dalam melakukan update summarization pada kumpulan dokumen berbahasa Indonesia.
Pada bagian selanjutnya, akan dibahas konsep-konsep yang digunakan dalam penelitian update summarization ini. Bagian 3 akan membahas sistem peringkasan INUSUM yang dikembangkan, sedangkan bagian 4 membahas pengujian sistem peringkasan yang telah dilakukan terhadap setiap komponen INUSUM. Pada bagian terakhir, dibahas kesimpulan dan penelitian selanjutnya yang akan dilakukan.
2. UPDATE SUMMARIZATION
Update summarization menghasilkan ringkasan yang tidak
memiliki informasi yang telah dibaca karena informasi tersebut diabaikan dalam proses peringkasan. Peringkasan ini sangat berkaitan dengan pengecekan kebaruan yang dapat digambarkan sebagai masalah tambahan selain penentuan informasi yang penting. Pengecekan kebaruan adalah proses identifikasi informasi yang belum diketahui pembaca. Berdasarkan TAC 2008 dalam update summarization task, terdapat 2 proses peringkasan yang harus dilakukan yaitu kumpulan dokumen A dan kumpulan dokumen B. Kumpulan dokumen A menggunakan sistem peringkasan biasa, lalu kumpulan dokumen B diringkas dengan asumsi bahwa pengguna sudah membaca informasi di kumpulan dokumen A sehingga ringkasan dokumen B tidak boleh berisikan informasi yang terdapat pada kumpulan dokumen A.
Identifikasi topik utama pada kumpulan dokumen merupakan hal penting dalam melakukan peringkasan multidokumen. Identifikasi topik tersebut dilakukan dengan clustering, yaitu membagi sekumpulan objek menjadi sekumpulan kelompok (cluster) dengan tujuan agar kelompok objek yang memiliki tingkat kesamaan yang tinggi berada dalam satu kelompok yang sama. Untuk peringkasan berbasis clustering, topik utama dari kumpulan dokumen direpresentasikan dalam suatu cluster. Metode clustering yang digunakan dalam penelitian ini adalah
frequent term-based clustering (Beil dkk., 2009) yang dapat
dilihat pada Alg 1.
FTC(database D, float minsup) SelectedTermSets:= {};
n:= |D|;
RemainingTermSets:= DetermineFrequentTermsets(D, minsup);
for each set in RemainingTermSets do
Calculate overlap for set;
BestCandidate:= element of Remaining TermSets with minimum overlap;
SelectedTermSets:=SelectedTermSets ∪ {BestCandidate};
RemainingTermSets:=RemainingTermSets-{BestCandidate};
Remove all documents in cov(BestCandidate) from D and from the coverage of all of the RemainingTermSets;
return SelectedTermSets and the cover of the elements
of SelectedTermSets;
Alg. 1 Frequent term-based clustering (Beil dkk., 2009)
Frequent term-based clustering merupakan teknik clustering
dengan menggunakan sekumpulan term yang sering muncul secara bersamaan dalam frekuensi tinggi pada kumpulan dokumen sebagai cluster. Sekumpulan term tersebut dinamakan
frequent term set. Setiap frequent term set tersebut merupakan
topik yang telah diidentifikasi. Secara umum frequent
term-based clustering memilih pasangan kata yang sering muncul
secara bersamaan dalam kalimat tanpa memperhatikan urutan kemunculan kata tersebut.
Maximal Marginal Relevance (MMR) digunakan dalam proses update summarization sebagai metode pemilihan kalimat yang
hasilnya akan menjadi ringkasan (Carbonell & Goldstein, 1998). MMR dikembangkan untuk pemilihan kalimat dengan memperhatikan apakah kalimat tersebut relevan dengan query dan memperhatikan kebaruan informasi. Misalkan terdapat sebuah query Q, kemudian terdapat kumpulan kalimat yang sudah dipilih S. Untuk setiap kandidat kalimat s_i, nilai MMR dapat dihitung dengan menggunakan rumus berikut:
𝑀𝑀𝑅 = 𝑎𝑟𝑔𝑚𝑎𝑥 [ 𝜆 𝑆𝑖𝑚1(𝑠𝑖, 𝑄) − (1 − 𝜆) max 𝑠𝑗∈𝑆
𝑆𝑖𝑚2(𝑠𝑖, 𝑠𝑗)] (1)
Keterangan:
𝜆 : Parameter dengan interval nilai [0,1] untuk mengatur tingkat kepentingan relatif antara relevansi dan redundansi
𝑆𝑖𝑚1 : Pengukuran kesamaan antara kandidat kalimat dengan
query
𝑆𝑖𝑚2 : Pengukuran kesamaan antara kandidat kalimat dengan
kalimat yang sudah dipilih
Pada (1) terdapat pengukuran kesamaan 𝑆𝑖𝑚. Dalam kasus ini pengukuran kesamaan dilakukan dengan cosine similarity. Penghitungan cosine similarity dilakukan dengan cara menghitung kedekatan antara kedua vektor unit teks tersebut. Salah satu cara untuk melakukan pengukuran kedekatan antara kedua vektor yaitu dengan memperhatikan perbedaan arah dari kedua vektor yang direpresentasikan dengan sudut yang dibentuk. Sebagai contoh, misalkan terdapat dua vektor kalimat 𝑠1 dan 𝑠2yang merupakan dua buah vektor dalam ruang
berdimensi 𝑛dan θ merupakan sudut yang dibentuk oleh kedua vektor. Persamaan dari perkalian dalam kedua vektor tersebut tertera dalam persamaan (2) berikut:
𝑠1. 𝑠2 = |𝑠1||𝑠2| cos θ (2) Keterangan:
|𝑠| : Jarak Euclidean vektor s dengan titik nol
Perhitungan kesamaan antar kedua vektor yang diturunkan dari persamaan (2) adalah rumus (3) berikut ini.
𝑆𝑖𝑚(𝑠1, 𝑠2) = cos(𝑠1, 𝑠2) = 𝑠1 . 𝑠2 |𝑠1||𝑠2| ( 3) Keterangan:
𝑆𝑖𝑚 : Pengukuran kesamaan antara 2 vektor
3. SISTEM PERINGKASAN INUSUM
Untuk mendapatkan hasil ringkasan yang tidak memiliki informasi yang sudah diketahui dan redundansi informasi, digunakan update summarization. Pada sistem updatesummarization, diperlukan komponen yang berfungsi untuk
melakukan proses update. Pada komponen tersebut dilakukan pengecekan apakah suatu informasi sudah pernah diketahui atau belum. Jika informasi belum pernah diketahui, maka informasi tersebut akan masuk ke dalam ringkasan yang dibentuk. Sedangkan jika informasi sudah pernah diketahui, maka informasi tersebut akan diabaikan.
Pada peringkasan kumpulan dokumen, perlu diidentifikasi topik utama yang terdapat pada kumpulan dokumen tersebut. Topik ini akan menjadi pembanding apakah suatu kandidat kalimat relevan terhadap dokumen sumber. Topik juga berfungsi sebagai parameter perankingan kandidat kalimat. Oleh karena itu, sistem update summarization ini memerlukan suatu komponen yang berfungsi untuk menentukan topik dari kumpulan dokumen.
Tahap pemilihan kalimat merupakan tahap utama dari peringkasan kalimat. Perankingan kalimat dilakukan pada tahap pemilihan kalimat. Pada tahap ini juga, proses update perlu dilakukan untuk memberikan ranking yang rendah pada kalimat yang memiliki informasi yang sudah diketahui, sehingga kalimat tersebut tidak masuk ringkasan. Oleh karena itu, sistem ini memerlukan suatu komponen pemilihan kalimat yang berfungsi untuk mengecek apakah kandidat kalimat relevan terhadap dokumen sumber dan mengecek apakah kandidat kalimat memiliki informasi yang sudah pernah diketahui. Sistem peringkasan yang dibangun menerima masukan kumpulan dokumen berbahasa Indonesia karena sistem update
summarization untuk kumpulan dokumen berbahasa Indonesia
belum pernah dilakukan sebelumnya. Oleh karena itu, diperlukan tahap praproses untuk mengolah kalimat berbahasa Indonesia sebelum melakukan proses peringkasan.
Sistem update summarization untuk kumpulan dokumen berita berbahasa Indonesia ini diberi nama INUSUM (Indonesian
News Update Summarizer). INUSUM didesain berdasarkan
TAC 2008 untuk update summarization task. Arsitektur sistem dapat dilihat pada Gambar 1. Sistem mampu menerima masukan 2 kumpulan dokumen, sehingga INUSUM terbagi menjadi 2 subsistem. Subsistem pertama adalah subsistem peringkasan kumpulan dokumen A yaitu kumpulan dokumen yang diasumsikan sudah dibaca oleh pengguna dan subsistem kedua adalah subsistem peringkasan dokumen B yaitu kumpulan dokumen yang belum dibaca pengguna. Pada subsistem peringkasan kumpulan dokumen A dan B terdapat tahap praproses, tahap penentuan topik dan tahap pemilihan kalimat.
Keluaran dari sistem adalah 2 ringkasan dari masukan 2 kumpulan artikel berita. Ringkasan pertama adalah ringkasan dari kumpulan dokumen A dan ringkasan kedua adalah ringkasan dari kumpulan dokumen B yaitu ringkasan yang sudah up-to-date.
Gambar 1. Diagram sistem INUSUM
3.1 Komponen Praproses
Pada komponen praproses, dilakukan pemrosesan data masukan yang bertujuan agar teks menjadi siap untuk melalui proses peringkasan. Masukan data dari komponen praproses ini adalah kumpulan dokumen berita berbahasa Indonesia dan keluarannya adalah data teks yang sudah siap untuk diolah ke tahap selanjutnya. Beberapa tahapan praproses yang digunakan pada sistem ini adalah:
1. Pemisahan Kalimat
Pemisahan kalimat ini merupakan proses pemisan teks pada dokumen menjadi kumpulan kalimat. Teknik yang digunakan dalam pemisahan kalimat adalah memisahkan kalimat dengan tanda titik (.), tanda tanya (?), dan tanda seru (!) sebagai
delimiter. Namun jika terdapat kalimat yang hanya terdiri dari
satu atau dua kata, maka kalimat tersebut tidak masuk ke dalam kandidat kalimat, sehingga kalimat tersebut dihilangkan. 2. Case Folding
Case folding adalah proses pemrosesan teks dimana semua teks
diubah ke dalam case yang sama dan pada kasus ini teks diubah representasinya ke dalam huruf kecil semua.
3. Penghilangan stopword
Penghilangan stopword adalah proses menghilangkan kata-kata yang sering muncul, namun tidak berarti. Stopword dikatakan tidak berarti karena tidak memiliki keterkatitan dengan topik tertentu. Untuk mendeteksi apakah suatu kata merupakan suatu
stopword atau bukan adalah menggunakan kamus stopword
yang sudah ditentukan sebelumnya. Contoh stopword pada bahasa Indonesia adalah, di, ke, dari, pada, dan lain-lain. 4. Stemming
Stemming merupakan proses pencarian akar (root) kata dari tiap kata yaitu dengan mengembalikan suatu kata berimbuhan ke bentuk dasarnya (stem). Untuk pemrosesan pada bahasa Indonesia, proses stemming dilakukan dengan menghilangkan imbuhan yang mengawali dan mengakhiri kata sehingga diperoleh bentuk dasar dari kata tersebut.
5. Pembobotan kata
Pada tahap ini dilakukan pengubahan dokumen menjadi representasi yang dapat diproses dengan mudah yaitu dengan menggunakan model ruang vektor. Ruang vektor merupakan sebuah model aljabar untuk merepresentasikan dokumen teks sebagai vektor pada ruang vektor. Representasi vektor yang terbentuk untuk tiap dokumen yaitu sebagai berikut:
𝐷𝑖 = 𝑤1. 𝑇1+ 𝑤2. 𝑇2+ ⋯ + 𝑤𝑖. 𝑇𝑖
( 4)
Keterangan:
𝐷𝑖 : Vektor dokumen ke- 𝑖
𝑤𝑖 : Bobot kata 𝑇𝑖
𝑇𝑖 : Kata ke- 𝑖
Pembobotan kata tersebut menggunakan konsep term frequency (tf), inverse document frequency (idf), dan normalization.
3.2 Komponen Penentuan Topik
Pada komponen penentuan topik ini dilakukan penentuan topik umum dari kumpulan data yang telah melewati tahap praproses. Penentuan topik umum ini dilakukan dengan menggunakan
frequent-term based clustering. Topik umum direpresentasikan
dalam cluster yang dihasilkan. Pada komponen ini dilakukan: 1. Pemisahan kalimat menjadi term
Pemisahan kalimat yang sudah melalui tahap praproses menjadi kumpulan term sebagai kandidat topik.
2. Pemilihan term
Pemilihan term dilakukan dengan cara mengambil term yang signifikan pada dokumen. Term yang signifikan yaitu term yang jumlahnya banyak pada suatu dokumen. Term yang jumlahnya sedikit tidak dimasukkan dalam pemilihan karena bukan merupakan topik umum. Kemudian persebaran term pada dokumen perlu dicatat untuk diidentifikasi frequent-term set-nya.
3. Identifikasi frequent-term set
Pada tahap ini dilakukan identifikasi frequent-term set untuk menjadi cluster-cluster berbeda. Identifikasi dilakukan dengan cara menghitung kemunculan term pada dokumen. Jika suatu
term terdapat banyak di dokumen, maka term tersebut menjadi
sebuah cluster. Setelah mengecek semua term, kombinasikan satu term dengan term lain dan hitung kemunculannya pada dokumen. Jika jumlahnya banyak, maka kombinasi term tersebut juga menjadi sebuah cluster. Ukuran banyak atau tidaknya sebuah term, ditentukan di awal dengan menggunakan nilai standar minimum, jika jumlah kemunculan term melebihi nilai standar tersebut, maka jumlah kemunculan term dianggap banyak.
4. Filtrasi frequent-term set
Pada tahap ini dilakukan filtrasi frequent-term set yang sudah diidentifikasi sebelumnya. Filtrasi dilakukan dengan menghitung entropy overlap dari tiap cluster yang sudah diidentifikasi dengan menggunakan:
𝐸𝑂(𝐶𝑖) = ∑ − 1 𝑓𝑗 𝐷𝑗∈𝑖 ln ( 1 𝑓𝑗) ( 5) Keterangan: 𝐶𝑖 : Cluster ke-i
𝐷𝑗 : Dokumen ke-j yang mengandung 𝐶𝑖
𝑓𝑗 : Frekuensi cluster yang mengandung dokumen 𝐷𝑗
Cluster yang dipilih adalah cluster yang memiliki nilai entropy overlap paling rendah dan mengandung paling banyak
dokumen. Pemilihan cluster dilakukan hingga setiap cluster yang dipilih mengandung setiap dokumen sumber
3.3 Komponen Pemilihan Kalimat
Pada komponen pemilihan kalimat ini dilakukan pemilihan kalimat untuk menjadi ringkasan. Pemilihan kalimat dilakukan dengan cara perankingan kalimat yang menggunakan metode MMR. Pemilihan kalimat berdasarkan cluster yang sudah ditentukan dari tahap sebelumnya. Fungsi dari cluster ini adalah untuk mengecek apakah kandidat kalimat relevan terhadap dokumen sumber atau tidak.
Pada komponen pemilihan kalimat ini, terdapat perbedaan antara komponen untuk kumpulan dokumen A dengan
komponen untuk kumpulan dokumen B. Perbedaannya adalah pada komponen untuk kumpulan dokumen A, skor perankingan kalimat dihitung hanya berdasarkan kalimat yang sudah terpilih. Sedangkan pada komponen untuk kumpulan dokumen B, skor perankingan kalimat dihitung tidak hanya berdasarkan kalimat yang sudah terpilih, tetapi berdasarkan hasil ringkasan kumpulan dokumen A.
Pada proses pemilihan kalimat untuk kumpulan dokumen A dilakukan perankingan dengan menggunakan metode MMR. Perankingan dilakukan secara biasa berdasarkan rumus (1). Kalimat yang memiliki nilai MMR tinggi setelah dicek kerelevanan dengan sumber dan tingkat redundansinya, maka kalimat tersebut dimasukkan ke dalam 𝑆 sedangkan jika nilai MMR rendah, kalimat tersebut akan diabaikan. Kalimat yang terdapat pada 𝑆 merupakan hasil ringkasan kumpulan dokumen A yang akan dikirimkan ke komponen pemilihan kalimat kumpulan dokumen B.
Tidak jauh berbeda dengan kumpulan dokumen A, pada proses pemilihan kalimat untuk kumpulan dokumen B dilakukan perankingan dengan menggunakan metode MMR. Berdasarkan rumus (1) dijelaskan bahwa 𝑆 merupakan kalimat yang sudah dipilih sebelumnya, namun untuk pemilihan kalimat untuk kumpulan dokumen B, nilai 𝑆 diinisiasi awal dengan ringkasan kumpulan dokumen A yang sudah dibentuk sebelumnya. Pada bagian inilah proses update terjadi. Kandidat kalimat yang memiliki informasi kurang lebih sama dengan kalimat yang sudah pernah dibaca memiliki nilai MMR yang rendah, karena nilai kesamaan antar kalimat tersebut tinggi, sehingga kalimat tersebut tidak akan dimasukkan ke dalam 𝑆. Kalimat yang tidak memilki informasi yang sama dengan kalimat yang sudah pernah dibaca memiliki nilai MMR yang tinggi, sehingga kalimat ini akan dimasukkan ke dalam 𝑆. Hasil ringkasan untuk kumpulan dokumen B adalah kalimat yang terdapat dalam 𝑆 dikurangi dengan hasil ringkasan A. Hasil ringkasan ini sudah bersifat up-to-date.
4. PENGUJIAN
Tujuan pengujian adalah mengevaluasi keluaran dari sistem yang dibangun apakah hasil ringkasan bisa diterima dan juga bersifat up-to-date. Pengujian dilakukan dengan melakukan validasi hasil ringkasan kepada 10 responden untuk menilai apakah ringkasan bisa diterima dan bersifat up-to-date. Pada pengujian ini terdapat 3 kasus uji dengan topik kumpulan dokumen yang berbeda. Responden diberikan kumpulan dokumen A dan kumpulan dokumen B untuk dibaca terlebih dahulu. Setelah itu responden juga diberikan hasil ringkasan kumpulan dokumen A dan ringkasan kumpulan dokumen B oleh sistem INUSUM. Tugas responden adalah memberikan nilai dari setiap hasil ringkasan yang dihasilkan yaitu apakah hasil ringkasan kumpulan dokumen A dan hasil ringkasan kumpulan dokumen B dapat diterima dan juga apakah hasil ringkasan kumpulan dokumen B bersifat up-to-date.
Deskripsi penilaian yang digunakan: a. Nilai 0 apabila tidak diterima. b. Nilai 1 apabila kurang diterima. c. Nilai 2 apabila cukup diterima d. Nilai 3 apabila diterima. e. Nilai 4 apabila sangat diterima.
Hasil dari pengujian ini adalah presentase tiap nilai yang diberikan terhadap hasil ringkasan tersebut.
Sebelum pengujian, dilakukan penentuan nilai parameter optimal perangkat lunak yaitu nilai parameter 𝜆 yang paling optimal. Nilai parameter 𝜆 optimal ini perlu dicari karena nilai ini merupakan nilai acuan apakah ringkasan yang dibentuk
lebih mendekati relevansi dengan dokumen sumber atau menghilangkan redundansi dengan kalimat yang sudah pernah dibaca. Penentuan parameter optimal perangkat lunak dilakukan dengan cara menentukan hasil ringkasan menggunakan update
summarization secara manual untuk setiap kumpulan dokumen
A dan kumpulan dokumen B yang diberikan. Hasil ringkasan ini diasumsikan ringkasan yang up-to-date. Kemudian sistem INUSUM juga akan menghasilkan ringkasan untuk setiap nilai parameter 𝜆. Setiap hasil ringkasan dari sistem INUSUM tersebut dibandingkan dengan ringkasan yang up-to-date. Nilai parameter 𝜆 optimal adalah yang hasil ringkasannya paling sesuai atau mendekati dengan ringkasan yang up-to-date. Nilai parameter 𝜆 pada sistem INUSUM yang paling optimal adalah 0.4.
4.1 Hasil Pengujian
Rekapitulasi hasil dari kuesioner pengujian keluaran sistem dapat dilihat pada Tabel 1, Tabel 2, dan Tabel 3 sesuai dengan kasus ujinya, yaitu:
1. Rata-rata nilai keberterimaan ringkasan kumpulan dokumen A adalah (3.5 + 3.4 + 2.9) / 3 = 3.26 atau berada di range diterima.
2. Rata-rata nilai keberterimaan ringkasan kumpulan dokumen B adalah (2.7 + 2.4 + 3.1) / 3 = 2.73 atau berada di range diterima.
3. Rata-rata nilai keberterimaan ringkasan bersifat up-to-date adalah (2.7 + 2.9 + 3.3) / 3 = 2.97 atau berada di range diterima.
Kesimpulan yang dapat diambil dari hasil pengujian ini adalah hasil ringkasan keluaran sistem INUSUM dapat diterima dan hasil ringkasan bersifat up-to-date.
Tabel 1 Hasil rekapitulasi kuesioner pengujian 1
Responden Pengujian 1 Nilai keberterimaan ringkasan kumpulan dokumen A Nilai keberterimaan ringkasan kumpulan dokumen B Nilai keberterimaan ringkasan bersifat up-to-date 1 4 2 3 2 3 3 2 3 4 2 2 4 3 2 2 5 4 4 4 6 3 2 2 7 3 3 2 8 4 3 3 9 3 3 4 10 4 3 3
Tabel 2 Hasil rekapitulasi kuesioner pengujian 2
Responden Pengujian 2 Nilai keberterimaan ringkasan kumpulan dokumen A Nilai keberterimaan ringkasan kumpulan dokumen B Nilai keberterimaan ringkasan bersifat up-to-date 1 4 3 4 2 3 3 3 3 4 1 3 4 3 1 1 5 4 4 4 6 3 1 2
7 3 3 3
8 3 2 3
9 3 2 2
10 4 4 4
Tabel 3 Hasil rekapitulasi kuesioner pengujian 3
Responden Pengujian 3 Nilai keberterimaan ringkasan kumpulan dokumen A Nilai keberterimaan ringkasan kumpulan dokumen B Nilai keberterimaan ringkasan bersifat up-to-date 1 3 4 3 2 2 3 3 3 2 2 3 4 2 3 2 5 4 4 4 6 3 3 3 7 3 2 3 8 2 3 4 9 4 4 4 10 4 3 4
Contoh hasil update summarization menggunakan INUSUM dengan masukan kumpulan dokumen A berasal dari:
http://news.detik.com/read/2013/05/26/152027/2256114/10/tabr akkan-diri-ke-kereta-api-di-bantul-yoga-tewas-seketika
dan kumpulan dokumen B berasal dari:
http://news.detik.com/read/2013/05/26/154617/2256122/10/aksi -yoga-tabrakkan-diri-ke-kereta-jadi-perbincangan-di-media-sosial?nd772204btr http://www.solopos.com/2013/05/26/tertabrak-kereta-korban-adalah-ketua-panitia-locstock-festival-410126 menghasilkan ringkasan:
Dalam forum internet dan diskusi di twitter, Yoga dikenal dengan nama Bobby Yoga
Temanya kurang lebih sama, mengaitkan aksi bunuh diri Yoga dan acara musik di Yogyakarta
Nah, spekulasi berhembus kalau Yoga bunuh diri karena didorong oleh permasalahan yang muncul dari konser tersebut Hingga kini belum jelas apa motif korban melakukan bunuh diri Fee artist yang belum dibayar, plus berbagai hujatan dan tuntutan yang disuarakan di Twitter membuat batin Bobby tertekan
Topik yang dihasilkan dengan menggunakan frequent-term
basedclustering dengan masukan kumpulan dokumen A dan
kumpulan dokumen B dari sumber sebelumnya adalah: Untuk kumpulan dokumen A:
[kereta, yoga]
Untuk kumpulan dokumen B: [tabrak, twitter, bunuh, bobby, yoga]
5. PENUTUP
Pada makalah ini, telah dijelaskan bahwa untuk membuat sistem update summarization, diperlukan proses update pada komponen sistem yang berfungsi untuk mengecek apakah informasi yang dihasilkan sudah pernah dibaca atau belum. Kemudian proses update tersebut dapat dilakukan pada tahap pemilihan kalimat yaitu dengan memberikan nilai rendah untuk kalimat yang mengandung informasi yang sudah diketahui pada saat perankingan. Untuk parameter 𝜆 pada sistem INUSUM dalam melakukan update summarization, didapatkan nilai yang paling optimal adalah 0.4. Secara keseluruhan, hasil dari pengujian keluaran sistem menghasilkan nilai keberterimaan ringkasan dokumen A sebesar 3.26, nilai keberterimaan ringkasan kumpulan dokumen B sebesar 2.73, dan keberterimaan ringkasan bersifat up-to-date sebesar 2.97. Oleh karena itu, hasil keluaran sistem INUSUM dapat diterima. Untuk penelitian selanjutnya, dapat dilakukan pengeliminasian topik yang sudah pernah dibaca oleh pengguna, sehingga sistem tidak menghasilkan ringkasan untuk topik yang sudah pernah dibaca. Selain itu, pada proses update summarization dapat dibuat suatu korpus update sebagai gold standard agar pengujian hasil keluaran sistem menjadi lebih objektif.
6. REFERENSI
Barzilay, R., & Elhadad, M. (1997). Using Lexical Chains for Text Summarization. Mathematics and Computer Science Dept. Ben Gurion University.
Beil, F., Ester, M., & Xu, X. (2009). Frequent Term-Based Text Clustering.
Carbonell, J., Goldstein, J. (1998) : The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries Goldstein, J., Mittal, V., Carbonell, J., & Kantrowitz, M. (2000). Multi-Document Summarization By Sentence Extraction. Language Technologies Institute Carnegie Mellon University.
Hovy, E., & Lin, C. (1997). Automated Text Summarization in SUMMARIST. Information Sciences Institute of the University of Southern California, (pp. 18-24).
Kogilavani, A., & Balasubramani, P. (2010). Clustering And Feature Specific Sentemce Extraction Based Summarization of Multiple Documents. International Journal of Computer Ccience & Information Technology.
Mandala, R. (2006). Evaluasi Kinerja Sistem Penyaringan Informasi Model Ruang Vektor. Seminar Nasional Aplikasi Teknologi Informasi 2006 (SNATI 2006). Yogyakarta.
Markou, M., & Singh, S. (2003). Novelty Detection: A Review - Part 1: Statistical Approaches. Department of Computer Science, PANN Research, University of Exeter, Exeter EX4 4PT, UK.
McKeown, K., Barzilay, R., Chen, J., Elson, D., Evans, D., Klavans, J., et al. (2003). Columbia’s Newsblaster: New Features and Future Directions. Department of Computer Science Columbia University. Rosell, M. (2009). Information Retrieval and Text Clustering. Tala, F. Z. (2003). A Study of Stemming Effects on Information. Institutefor Logic, Language and Computation Universite itvan Amsterdam The Netherlands.