Paper Lita Kinayu (format Final Proceeding)

(1)

NEWS AGENT UNTUK PENCARIAN DAN PERINGKASAN BERITA

from several news which come from multiple web sources. By using the news agent, a user can just enter the query or seed URL from the news that a user wants, then the news agent will display the result of the news summary according to the user’s compression percentage.

The concept of the news agent is taken from NewsInEssence which contains two main phases. The first phase is to find a relevant news based on the user’s input and the second phase is to summarize the result news from the first phase. The first phase of the news agent will be done online, and the second phase will be done offline.

In the first phase, the news agent will process the user’s input to get the keyword for news searching query from multiple web sources, such as BBC, CBC, CNN, and MSNBC news. The result is the collection of the relevant news of the user’s input. That news will be summarized by centroid-based algorithm in the second phase of the news agent. The generated news summary from the news agent, is arranged in some sentences which contain important information from each news result of the previous phase.

Keywords: agent, information retrieval, web content mining, text summarization.

INTISARI

News Agent yang dikembangkan pada penelitian ini adalah salah satu software agent yang membantu user untuk mendapatkan informasi penting dari berita-berita online. Dengan menggunakan news agent ini, user cukup memberikan query awal atau alamat URL dari berita yang ingin dicari, kemudian news agent akan menampilkan hasil ringkasan beritanya sesuai dengan rasio kompresi ringkasan yang diberikan.

Konsep kerja dari News Agent yang dapat dikategorikan sebagai aplikasi information retrieval dan web content mining ini terdiri dari dua fase utama: mencari sejumlah berita yang relevan dengan keinginan user dan meringkas semua berita yang dihasilkan. Fase pertama news agent akan mengolah input user sampai mendapatkan keyword untuk query pencarian berita dari beberapa sumber seperti BBC, CBC, CNN, dan MSNBC. Hasilnya adalah kumpulan berita yang relevan dengan inputan user. Berita-berita tersebut kemudian diringkas dengan algoritma centroid-based pada fase kedua.

Kata kunci: agen, perolehan informasi, penambangan isi web, peringkasan teks.

PENDAHULUAN

(2)

menuju halaman web yang dihasilkan ternyata kurang relevan dengan topik yang dicari. Kedua alasan ini menyebabkan waktu koneksi internet yang masih mahal menjadi sia-sia.

Terdapat pula sejumlah website yang khusus menangani berita seperti BBC dan CBC, yang memfasilitasi pencarian dengan menerima keyword dari topik berita yang ingin dibaca user, biasanya menghasilkan belasan link berita. Berita-berita yang dihasilkan ternyata tetap ada yang sesuai ataupun tidak sesuai dengan topik khusus yang diinginkan user, dan untuk membaca semua berita tersebut tentu saja akan melelahkan user. Untuk mengatasi masalah inilah diperlukan suatu tool, seperti sebuah news agent yang pengembangannya akan dijelaskan melalui paper ini.

ARSITEKTUR SISTEM NEWS AGENT

Konsep kerja news agent ini terdiri dari dua subsistem utama, yaitu fase pencarian berita-berita yang relevan dengan berita utama dan fase peringkasan gabungan sejumlah berita yang didapatkan pada tahap sebelumnya, sehingga diperoleh sebuah ringkasan berita menyerupai teks berita alami yang disusun oleh seorang manusia, dalam hal ini seorang penulis berita. Arsitektur news agent fase pertama dapat dilihat pada gambar 1, sedangkan fase kedua pada gambar 2. Dengan memperhatikan detil arsitektur sistem tersebut, terdapat sejumlah proses yang harus dilakukan mulai dari memasukkan berita sampai perolehan hasil ringkasannya.

A. Pencarian Berita

Fase pertama merupakan tahap pencarian berita-berita yang relevan dengan berita atau seed URL yang pertama kali diinputkan user.

 Halaman berita dari seed URL yang diinputkan user akan di-fetch dan diambil isi beritanya dengan pendekatan sederhana, yaitu menganggap teks terpanjang yang ada pada salah satu tabel dari file HTML sebagai isi berita utama.

 Untuk mendapatkan keyword yang akan diberikan ke dalam query pencarian, dilakukan perhitungan bobot TF-IDF (Term Frequency – Inverse Document Frequency) dari setiap kata penting pada halaman berita yang diperoleh dari seed URL maupun link-link berita yang terdapat di dalamnya. TF yang dinormalisasi menggunakan rumus frekuensi kemunculan kata dibagi dengan maksimum frekuensi kata.

 Berita-berita yang mempunyai tingkat kemiripan lebih dari batas minimum threshold yang telah ditentukan akan dimasukkan dalam kumpulan berita-berita yang dianggap relevan.

B. Peringkasan Berita

Fase kedua dari news agent ini bertujuan untuk meringkas berita-berita yang relevan dengan inputan berita user yang dihasilkan dari fase pertama.

 Untuk membuat daftar kata centroid, maka setiap kata yang termasuk dalam daftar stop word dan common word akan dibuang. Perhitungan bobot kata centroid ini menggunakan perkalian antara TF dengan IDF, dimana TF menggunakan rata-rata kemunculan suatu kata centroid.

 Karena hasil fase pertama news agent ini adalah dokumen-dokumen yang relevan, maka informasi berita yang terkandung di dalamnya kemungkinan besar masih banyak yang mirip. Oleh karena itu, setiap kalimat perlu dibandingkan setiap katanya antara kalimat yang satu dengan yang lain dengan menggunakan metode CSIS (Cross Sentence Informational Subsumption).

(3)

kalimat tersebut, posisi kalimat tersebut pada suatu dokumen, dan tingkat kemiripan kalimat tersebut dengan kalimat pertama dari dokumen yang sama.

Gambar 1. Arsitektur Program Fase I: Pencarian Berita

 Setelah setiap kalimat dari berita yang relevan dikelompokan berdasarkan informasi yang sama dan mempunyai bobot sendiri-sendiri, maka kalimat-kalimat ini akan dipilih dan disusun untuk menjadi suatu ringkasan berita yang merupakan output akhir dari news agent.

C. Penyimpanan Data

Semua informasi yang akan digunakan lagi pada proses selanjutnya akan disimpan dalam file XML. Berikut adalah sejumlah informasi yang perlu disimpan:

 Semua berita yang didapatkan pada fase pertama news agent, yaitu pada tahap pencarian berita-berita yang relevan dengan berita yang diinputkan.

(4)

Gambar 2. Arsitektur Program Fase II: Peringkasan Berita

 Seluruh kalimat yang terdapat pada setiap dokumen dari kumpulan dokumen yang relevan dengan inputan berita ini. Pengelompokkan dilakukan berdasar informasi yang terkandung di dalamnya.

 Beberapa opsi yang dapat diubah user saat konfigurasi program, sehingga program dapat mencari dan meringkas berita sesuai dengan keinginan user.

FASE PENCARIAN BERITA YANG RELEVAN

(5)

A. Ekstraksi Isi dan Link Berita

Proses ini akan melakukan fetch halaman yang ditunjuk oleh seed URL yang diinputkan user. Setiap halaman yang telah disimpan dalam file berformat HTML akan di-parsing untuk memperoleh isi berita yang terdapat pada salah satu tabel di dalamnya. Demikian juga semua link yang terdapat pada berita tersebut akan diekstrak.

Semua halaman yang ditunjuk oleh link-link tadi akan diambil dan diparsing juga untuk dibandingkan isi beritanya dengan isi berita dari seed URL. Untuk halaman-halaman yang mempunyai nilai kemiripan berita di bawah threshold yang ditentukan, akan langsung dihapus dari memory eksternal, sedangkan halaman-halaman yang lain dan halaman seed URL-nya akan diolah lebih lanjut untuk menentukan kata-kata penting yang akan dijadikan keyword.

B. Penentuan Kata-kata yang Menjadi Keyword

Proses ini akan menghitung bobot setiap kata dari setiap isi berita yang diperoleh dengan menggunakan perkalian TF.IDF . Pada awalnya halaman dari seed URL dan semua halaman yang relevan akan di-parsing untuk mendapatkan isi beritanya. Prosesnya adalah memecah per kata dan menyusun daftar katanya. Pada news agent, user dapat memilih kata yang menjadi keyword apakah kata sebenarnya yang terdapat pada isi berita atau kata yang telah mengalami proses stemming.

C. Pengambilan Berita yang Relevan

Proses ini akan menghitung tingkat kemiripan (similarity) isi berita setiap dokumen hasil pencarian query pada website BBC, CBC, CNN, dan MSNBC dengan isi berita yang dikandung dari halaman seed URL. Yang perlu dilakukan terlebih dahulu adalah memasukkan semua keyword ke dalam masing-masing query string pencarian dari keempat website.

Dengan mengetahui struktur query string nya, maka halaman hasil pencarian query akan langsung di-fetch dan di-parsing untuk mendapatkan link-link hasil pencarian berita sesuai dengan kata keywordnya. Kemudian untuk memastikan isi berita dari hasil query relevan dengan berita yang diinginkan user, maka setiap hasilnya akan dihitung tingkat kemiripan beritanya dengan rumus cosine similarity (pair-wise document similarity).



antara proses satu dengan yang lain. Masing-masing adalah pembuatan daftar kata centroid, pengelompokkan kalimat, perhitungan bobot, dan ekstraksi kalimat yang cocok untuk ringkasan.

A. Pembuatan Daftar Kata Centroid

Kata-kata centroid adalah kata-kata yang mempunyai arti penting dalam suatu kalimat. Oleh karena itu, setiap kalimat dipecah menjadi koleksi kata dan yang diambil sebagai kata centroid adalah kata-kata yang tidak termasuk dalam daftar kata stop word dan common word. Setiap kata centroid akan dihitung frekuensinya.

(6)

B. Pengelompokan Informasi Kalimat

Dari berita-berita yang relevan akan terdapat banyak kalimat yang kemungkinan besar mempunyai informasi yang sama pula. Oleh karena itu perlu dihindari adanya informasi berita yang diulang pada kalimat-kalimat yang diambil untuk hasil ringkasan berita. Sebelumnya, semua kalimat yang tidak mengandung kata centroid akan dianggap tidak relevan dengan topik berita yang akan diringkas ini dan akan dihapus.

Dengan demikian, kalimat-kalimat yang tersisa adalah kalimat-kalimat yang relevan, dan kumpulan kalimat ini akan menjadi dimasukkan dalam proses pengelompokkan kalimat dengan metode CSIS. Proses pengelompokkan kalimat ini berdasarkan kesamaan jumlah kata centroid yang menyusun kedua kalimat yang ingin dibandingkan informasinya. Hasil dari proses ini adalah kumpulan kalimat yang telah dikelompokkan berdasarkan informasi yang dikandung di dalamnya.

Pada bagian ini tool WordNet dari Princeton University dimanfaatkan untuk membantu pengelompokkan kalimat.

C. Perhitungan Bobot Kalimat

Proses perhitungan bobot suatu kalimat yang terdapat dalam isi berita berdasarkan Centroid Based Summarization (CBS) yang mempunyai tiga feature yaitu nilai centroid, indikator posisinya, dan nilai kemiripan kalimat tersebut dengan kalimat pertama dari dokumen yang sama.

Untuk membuat ringkasan berita, yang dipilih adalah kalimat-kalimat yang memiliki score tertinggi dan berasal dari kelompok kalimat yang berbeda-beda memamui rumus:

 

s



_

_i



w

c

C

i



w

p

P

i



w

f

F

i



SCORE

Oleh karena itu sebelumnya, semua kalimat perlu diurutkan terlebih dahulu mulai dari score tertinggi sampai yang terrendah.

D. Ekstraksi Kalimat untuk Ringkasan

Proses terakhir adalah ekstraksi kalimat untuk ringkasan berita. Proses ekstraksi ini tidak hanya mengambil kalimat-kalimat yang berbobot tinggi saja, tetapi juga dengan menyusunnya sesuai dengan indeks dokumen yang relevan untuk mencegah hubungan sebuah kalimat dengan kalimat yang posisinya dekat dalam hasil ringkasan berita tidak terkesan menyimpang terlalu jauh.

Kumpulan kalimat yang relevan dan telah dikelompokkan dan dihitung bobotnya akan dipilih dan disusun per dokumen asal untuk dimasukkan dalam hasil ringkasan. Setiap kalimat yang berasal dari dokumen yang sama akan ditampilkan dalam sebuah paragraf pada ringkasan berita.

CONTOH UNJUK KERJA NEWS AGENT

Berikut ini adalah hasil percobaan news agent dengan seed URL dari BBC news:

http://news.bbc.co.uk/1/hi/world/middle_east/4537229.stm yang berjudul “Mofaz: Gaza plan to

save W Bank” (gambar 3) dengan menggunakan level crawling 1, dan jumlah keyword sebanyak 3 kata.

Pada fase pertama ini ternyata tidak mempunyai inlink yang relevan, sehingga pencarian keyword hanya dilakukan pada berita dalam seed URL dari artikelnya saja. Berikut ini adalah hasil kata keyword beserta bobotnya:

1. israeli (1.000)

2. gaza (1.000)

(7)

Gambar 3. Berita BBC yang Dipakai sebagai Seed Artikel

Hasil berita dari query pencarian pada website BBC, CBC, CNN, dan MSNBC secara otomatis akan menghasilkan 35 link, namun untuk minimum threshold 0.5 hanya mennghasilkan 4 artikel berita saja (termasuk seed) yang relevan, yaitu:

1. http://news.bbc.co.uk/1/hi/world/middle_east/4537229.stm (pageBBC3.html), dengan

skor Pair-wise Similarity = 1.000

4. http://c.moreover.com/click/here.pl?b320116411&r=MSNnews (pageMSNBC9.html),

dengan skor Pair-wise Similarity = 0.501

Dengan persentase kompresi berita sebesar 20%, hasil ringkasannya ditunjukkan pada teks berikut:

Israeli Defence Minister Shaul Mofaz has said the withdrawal of Jewish settlers from Gaza will allow Israel to extend its borders into the West Bank. (1:1) About 8,500 Jewish settlers and the soldiers who guard them are to leave Gaza and parts of the West Bank as part of Israeli Prime Minister Ariel Sharon's unilateral disengagement plan. (1:6) Mr Mofaz said the pullout would allow Israel to keep hold of its large West Bank settlements - which are viewed as illegal under international law - extending its future borders deep into Palestinian territory. (1:8) In fact, the settlers of [the West Bank] and Gaza will be able to say in years to come that they helped establish the eastern frontiers of the state of Israel, he told the Israeli newspaper Yediot Ahronot. (1:9)

(8)

Hamas, won the Palestinian parliamentary election in July. (2:7) Correspondents say Mr Sharon's change of heart may have been motivated by concerns that preparations to provide new homes and employment for the uprooted settlers would not be completed by late July, as well as to allow more time to prepare for the forcible evacuation of some settlers. (2:12) On Sunday, the authorities arrested a right-wing Jewish settler and detained him without charge for five months amid efforts to quell opposition to the Gaza plan. (2:13)

Israel is detaining a right-wing Jewish settler for five months without charge as part of efforts to quell opposition to its plan to evacuate the Gaza Strip. (3:1) Reports say the army has completed training soldiers to remove settlers who may barricade themselves in their homes during this summer's planned Gaza evacuation. (3:8) Meanwhile, Deputy Prime Minister Shimon Peres says the demolition of settlers' homes in Gaza could undermine the Israeli government's disengagement plan. (3:14)

Kalimat-kalimat penyusun ringkasan di atas diurutkan berdasarkan nomer indeks dokumen dan posisinya dalam dokumen tersebut (lihat indikator pada setiap akhir kalimat).

KESIMPULAN

Tampak bahwa hasil ringkasan yang dilakukan oleh News Agent sudah menyerupai teks berita alami yang disusun oleh seorang manusia. Dari pembahasan pada pembahasan sebelumnya dapat diberikan beberapa kesimpulan seperti:

1. Isi berita yang ingin disampaikan dari suatu halaman HTML mempunyai kesamaan yang mendasar, yaitu dengan menggunakan tag <TABLE>. Struktur ini telah berhasil diujicobakan pada beberapa website sumber berita.

2. Proses ekstraksi isi berita dan pencarian berita dengan query pada suatu website sumber berita memerlukan pengawasan yang teratur karena perkembangan dan perubahan pada suatu website berita dapat terjadi sewaktu-waktu. Hal ini disebabkan perubahan struktur berita ataupun pola query pencarian berita dapat menjadi kendala gagalnya proses parsing suatu halaman berita.

3. Tingkat kedalaman crawling yang dilakukan pada suatu halaman berita tidak berperan dalam mendapatkan berita sejenis. Hal ini dikarenakan banyak inlink yang hanya menunjuk ke berita-berita utama saja, bukan berita yang berhubungan dengan berita ditampilkan.

4. WordNet berperan dalam pencarian sinonim suatu kata. Hal ini digunakan oleh News Agent dalam proses pengelompokan kalimat yang mengandung pengertian yang sama.

5. Pada beberapa kasus ringkasan berita yang dihasilkan oleh News Agent belum tentu dapat dipahami secara runtut oleh user. Kendala ini dapat disebabkan hasil ringkasan berita diurutkan sesuai dengan kemunculan kalimat tersebut pada setiap dokumen.

Software News Agent yang pengembangannya dilaporkan pada tulisan ini masih dapat dikembangkan dan ditingkatkan lagi hasilnya dengan melakukan beberapa hal sebagai berikut:

1. Software ini hanya dapat melakukan pencarian dan peringkasan berita-berita dalam bahasa Inggris. Hal ini dapat ditingkatkan penggunaannya dalam bahasa lain seperti bahasa Indonesia, Hindi, Belanda, dan lain-lain, hanya dengan mengganti kumpulan stop word, common word, dan kamus sinonim kata sesuai dengan masing-masing bahasa yang akan digunakan.

2. News Agent hanya mencari berita dari empat situs sumber berita saja, sehingga berita yang didapatkan dari fase pertamanya tidak sangat lengkap. Tingkat pencarian berita-berita ini dapat diperluas dengan menambah website sumber berita-berita lainnya. Website sumber berita yang dipilih seharusnya sesuai dengan bahasa yang dipakai.

(9)

DAFTAR PUSTAKA

Allen, J, 1995, Natural Language Understanding, The Benjamins/Cummings Publishing Company Inc., Redwood City-CA, USA.

Porter, M.F., 1980, An Algorithm for Suffix Stripping, http://www.tartarus.org/~martin/Porter-Stemmer/def.txt.

Miller, G.A., 2002, WordNet: A Lexical Database for the English Language, Cognitive Science Laboratory at Princeton University.

Radev, D.R., Jing, H., dan Budzikowska, M., 2000, Centroid-Based Summarization of Multiple Documents: Sentence Extraction, Utility-Based Evaluation, and User Studies, Seattle-WA.

Radev, D.R., Blair-Goldensohn, S., Zhang, Z., dan Raghavan, R.S., Interactive, Domain-Independent Identification and Summarization of Topically Related News Articles.

Radev, D.R. dan Fan, 2000, W., Automatic Summarization of Search Engine Hit Lists, Hong Kong-P. R. China.