xii
Daftar Istilah
Word Sense Disambiguation Proses untuk mengidentifikasi makna kata yang digunakan dalam kalimat tertentu, ketika kata memiliki sejumlah makna yang berbeda.
Maximal Marginal Relevance Metode ekstraksi pada peringkasan teks (extractive summary) yang digunakan untuk meringkas single dokumen atau multi dokumen.
Cosine Similarity Perhitungan relevansi dokumen dengan
dokumen.
Compression Rate Nilai untuk menentukan jumlah
ringkasan teks.
Synset Sinonim set atau kumpulan sinonim.
▸ Baca selengkapnya: carilah kata yang kelima yang tidak memiliki kesamaan dengan keempat kata itu
(2)1
1. Pendahuluan
1.1. Latar Belakang
Perkembangan informasi saat ini menyebabkan pembaca sukar menemukan dan menyaring informasi yang sesuai dalam suatu teks. Suatu teks dengan ukuran yang panjang dapat menyulitkan pembaca dalam membaca dan menyerap semua informasi dari teks tersebut. Sedangkan informasi dari suatu teks merupakan komponen yang penting dari keseluruhan isi teks. Permasalahan itu timbul karena informasi yang didapat sulit untuk dipahami dan tidak mudahnya mendapatkan intisari dari suatu informasi. Peringkasan teks dapat digunakan untuk mempermudah menemukan informasi yang relevan tanpa menghilangkan informasi penting dari teks tersebut.
Peringkasan teks adalah proses mengurangi dokumen teks dengan komputer untuk menciptakan sebuah ringkasan yang mempertahankan poin penting dari dokumen asli[1]. Dalam peringkasan teks tersebut akan menimbulkan permasalahan seperti ambiguitas kata dan redundansi yang mempengaruhi kualitas dari hasil peringkasan teks tersebut. Ambiguitas kata merupakan permasalahan yang memiliki sejumlah makna kata yang berbeda. Sedangkan redundansi adalah permasalahan yang muncul pada sejumlah kalimat yang berulang atau ganda. Sehingga dibutuhkan metode untuk mengurangi tingkat redundansi dan ambiguitas dari peringkasan teks tersebut.
Word sense disambiguation adalah suatu proses mengidentifikasi makna kata yang digunakan dalam kalimat tertentu ketika kata memiliki sejumlah makna yang berbeda[2]. Masalah ambiguitas kata pada proses peringkasan teks inilah yang akan diatasi. sehingga dibutuhkan proses untuk mengurangi masalah ambiguitas dengan menerapkan word sense disambiguation pada peringkasan teks.
Metode yang digunakan untuk menghasilkan ringkasan teks dengan redundansi minimum yaitu, maximal marginal relevance. Metode ini menggunakan teknik ekstraksi yang digunakan untuk mengurangi redundansi kalimat dengan cara menghitung similarity antar kalimat dan kalimat dengan kalimat lain yang terpilih sebagai ringkasan[3].
Tugas akhir ini merupakan pengembangan dari tugas akhir yang telah ada dengan menggunakan metode maximal marginal relevance. Pada tugas akhir sebelumnya, metode MMR digunakan untuk dapat mengurangi redundansi dan akan dikembangan dengan menerapkan word sense disambiguation dengan algoritma lesk pada peringkasan teks untuk mengurangi masalah ambiguitas. Untuk mengetahui kualitas dari hasil peringkasan teks tersebut akan dievaluasi menggunakan pengukuran F-Measure serta dilihat dari hasil survey pembaca terhadap hasil peringkasan teks dengan memberikan nilai. Dan melakukan analisis dengan membandingkan hasil peringkasan teks dengan menggunakan WSD dan hasil peringkasan teks tanpa menggunakan WSD .
2
1.2. Perumusan Masalah
Berdasarkan pada latar belakang diatas, rumusan masalah yang akan diuraikan dan diteliti adalah sebagai berikut:
1. Bagaimana implementasi dari Word Sense Disambiguation pada peringkasan teks dalam menangani masalah ambiguitas?
2. Bagaimana implementasi metode Maximal Marginal Relevance pada peringkasan teks dalam mengurangi redundansi?
3. Bagaimana mengukur performansi sistem peringkasan teks?
4. Bagaimana hasil peringkasan teks dengan menggunakan Maximal Marginal Relevance dan Word Sense Disambiguation?
Dalam penelitian Tugas Akhir ini, terdapat beberapa batasan masalah dalam pembahasan dan pengerjaannya, diantaranya :
1. Data yang digunakan adalah single dokumen berbahasa Inggris.
2. Menggunakan dataset CNN Corpus artikel berita dengan format STORY. 3. Metode peringkasan yang digunakan adalah peringkasan ekstraksi. 4. Menggunakan library pada proses word sense disambiguation. 5. Evaluasi dilakukan dengan menggunakan ROUGE evaluation toolkit. 6. Menggunakan algoritma Cosine Lesk untuk Word Sense Disambiguation. 7. Nilai compression rate yang digunakan 10%-50%.
8. Nilai parameter λ yang digunakan 0.1, 0.3, 0.5, 0.7, 0.9.
1.3. Tujuan
Adapun tujuan yang ingin dicapai dalam pengerjaan Tugas Akhir ini adalah sebagai berikut:
1. Mengimplementasikan Word Sense Disambiguation pada peringkasan teks dalam menangani masalah ambiguitas.
2. Mengimplementasikan Metode Maximal Marginal Relevance pada peringkasan teks dalam mengurangi redundansi.
3. Mengukur performansi sistem yang dibangun dengan menggunakan ROUGE evaluation toolkit dengan mengukur precision, recall, dan F-Measure.
4. Melakukan analisis terhadap hasil sistem peringkasan teks.
1.4. Metodologi Penyelesaian Masalah
Rencana kegiatan yang akan dilaksanakan dalam Tugas Akhir ini adalah sebagai berikut:
1. Kajian Pustaka
Pada tahap ini, akan dilakukan pencarian dan pengumpulan berbagai macam referensi tentang Analisis Summarization, Word Sense Disambiguation, dan Maximal Marginal Relevance yang terdapat pada jurnal, paper, atau mempelajari materi tersebut.
2. Pengumpulan dan Analisis Data
Pada tahap ini bertujuan untuk lebih mendalami materi yang telah didapatkan pada tahap sebelumnya yaitu tahap Kajian pustaka. Pada tahap ini juga akan dilakukan analisis permasalahan yang dijadikan topik
3 penelitian dan analisa data yang akan digunakan pada penelitian ini. Hasil dari tahap ini yaitu telah ditentukan metode yang akan digunakan dalam penyelesaian masalah yang diangkat serta mendapatkan data yang akan digunakan pada penelitian ini, data yang digunakan adalah dokumen tunggal artikel berita bahasa inggris CNN Corpus dengan format STORY. 3. Analisis dan Perancangan Sistem
Pada tahap ini, akan dilakukan perancangan sistem dengan membuat flowchart dari setiap tahapan yang dilakukan, dengan membuat perancangan sistem ini akan mudah memahami alur yang terjadi didalam sistem yang akan dibangun.
4. Implementasi Sistem
Pada tahap ini, akan dilakukan implementasi dari setiap alur yang terdapat pada perancangan sistem yang telah dibuat pada tahap sebelumnya, implementasi pada Tugas akhir ini dibangun menggunakan bahasa pemrograman python dengan tools JetBrains Pycharm Community Edition 2016.3.1.
5. Analisis dan Pengujian
Pada tahap ini, akan dilakukan pengujian terhadap sistem yang telah dibangun untuk mengetahui hasil implementasi yang telah dilakukan serta menganalisis dari hasil pengujian yang dilakukan.
6. Pembuatan Laporan Tugas Akhir
Pada tahap ini, akan dilakukan penyusunan laporan dan pengumpulan dokumentasi berdasakan hasil dari penelitian.
1.5. Sistematika Penulisan
Penulisan Tugas Akhir ini akan dibagi menjadi 5 bab yaitu: 3.1.Bab 1 : Pendahuluan
Pada Bab ini akan membahas latar belakang, Tujuan, Batasan masalah, hipotesa, metodologi penyelesaian masalah, serta sistematika penulisan dari Tugas Akhir yang dibangun.
3.2.Bab 2 : Studi Literatur
Pada Bab ini akan membahas teori-teori yang terkait dengan pengerjaan tugas akhir. Teori-teori yang akan dibahas yaitu Peringkasan Teks, Maximal Marginal Relevance, Preprocessing, Cosine Similarity, TF-IDF, Evaluasi, WordNet, Part of Speech Tagging, dan Word Sense Disambiguation.
3.3.Bab 3 : Perancangan Sistem
Pada Bab ini membahas Perancangan Sitem untuk membangun sistem yang meringkas teks dengan mengurangi redundansi dan meminimalisir ambiguitas pada kata. Pada bab ini juga dibahas alur dari setiap proses yang akan dilalui beserta contoh dari proses yang dilalui serta Skenario Pengujian yang digunakan pada bab 4.
4. Bab 4 : Pengujian dan Analisis
Pada Bab ini membahas hasil pengujian berdasarkan skenario pengujian yang dituliskan pada bab Perancangan Sistem. Selain itu, pada bab ini juga dijelaskan analisis terhadap hasil pengujian tersebut. Hasil dari kegiatan analisis ini menjadi dasar pengambilan kesimpulan.
4 Pada Bab ini berisi tentang kesimpulan beserta saran dari keseluruhan hasil pengerjaan Tugas Akhir .
5
2. Studi Literatur
2.1. Peringkasan Teks Otomatis
Peringkasan Teks adalah proses untuk mengambil dan mengekstrak informasi penting dari sebuah teks sehingga menghasilkan teks yang lebih singkat dan mengandung poin-poin penting dari teks sumber. Sebuah sistem peringkas diberi masukan berupa teks, kemudian melakukan peringkasan, dan menghasilkan keluaran berupa teks yang lebih singkat dari teks aslinya. Pada peringkasan teks terdapat dua pendekatan yaitu, ekstraksi (shallower approaches) dan abstraksi (deeper approaches). Berdasarkan jumlah sumbernya, peringkasan teks dapat dihasilkan dari single-document atau multi-document[1].
Tabel 2-1. Proses Ekstraksi Peringkasan Teks
Teks Asli Hasil Ringkasan
(CNN) -- The 54 men and 14 boys rescued after being found chained this week at an Islamic religious school in Pakistan have been reunited with their families or placed in shelters,
authorities said.
The group was discovered in an underground room with heavy chains
linking them together.
The school, Al-Arabiya Aloom Jamia Masjid Zikirya, which also was a drug rehab clinic, is in Sohrab Goth, a suburb of Gadap in Karachi. All 14 boys were returned to their families, senior police official Ahsanullah Marwat told CNN. Of the adults, 47 had been released to their families, and seven were handed over to a shelter for the homeless, he said.
Three people who worked at the facility were arrested, but the four men who ran the place were still at large, Marwat said.
Officials said the facility was part madrassa and part drug-rehab facility, and the captives were chained at night
The 54 men and 14 boys rescued after being found chained this week at an Islamic religious school in Pakistan have been reunited with their families or placed in shelters authorities said All 14 boys were returned to their families senior police official Ahsanullah Marwat told CNN
Of the adults 47 had been released to their families and seven were handed over to a shelter for the homeless he said
Three people who worked at the facility were arrested but the four men who ran the place were still at large Marwat said The operation was successful and we plan on continuing our work to ensure that places like this are shut down Marwat said
One woman told a local television station that she was willing to pay the police to keep her troublesome child She said she would rather have the facility remain open regardless of how it treated the children
6 apparently to prevent their escape.
"The operation was successful, and we plan on continuing our work to ensure that places like this are shut down,"
Marwat said.
Many of the captives told police their families sent them there because they were recovering drug addicts. During the day, they worked and did religious studies.
But the future of the rescued children
was unclear.
One woman told a local television station that she was willing to pay the police to keep her troublesome child. She said she would rather have the facility remain open, regardless of how
it treated the children.
Many others, however, said they were in shock and disbelief over the allegations.
One man complained he was deep in debt after paying the school a large amount of money to board his son. @highlight
Captive boys and men were rescued from an Islamic religious school in Pakistan
@highlight
They were reunited with their families
this week
@highlight
The facility was a school and drug
rehab clinic
7 Authorities say they're searching for the
owners; three others arrested at the facility
2.2. Maximal Marginal Relevance
Algoritma maximal marginal relevance (MMR) adalah salah satu metode ekstraksi pada peringkasan teks (extractive summary) yang digunakan untuk meringkas single document atau multi document. Peringkasan pada single document, metode MMR untuk menghasilkan ringkasan dengan merangking ulang dan membandingkan similarity antar dokumen. Sebuah dokumen dikatakan mempunyai marginal relevance yang tinggi jika dokumen tersebut relevan terhadap isi dari dokumen[4].
= [ ∗ ( , ) − (1 − ) ∗ max ( , )] (2-1)
adalah kalimat di dokumen, sedangkan S’ adalah kalimat yang telah dipilih atau telah diekstrak[5]. Koefisien digunakan untuk mengatur kombinasi nilai untuk memberi penekanan bahwa kalimat tersebut relevan dan untuk mengurangi
redundansi. dan merupakan dua fungsi similarity yang
merepresentasikan kesamaan kalimat pada seluruh dokumen dan memilih masing-masing kalimat untuk dijadikan ringkasan. adalah matrik similarity kalimat
terhadap query yang diberikan oleh user sedangkan adalah matrik similarity kalimat terhadap kalimat yang telah diekstrak [5].
Nilai parameter adalah mulai dari 0 sampai dengan 1 (range[0,1]). Pada saat parameter = 1 maka nilai MMR yang diperoleh akan cenderung relevan terhadap kalimat yang diekstrak sebelumnya. Oleh sebab itu sebuah kombinasi linier dari kedua kriteria dioptimalkan ketika nilai terdapat pada interval [0,1]. Untuk menghasilkan ringkasan yang relevan maka harus menetapkan nilai ke nilai yang lebih dekat dengan . Kalimat dengan nilai MMR yang tertinggi akan dipilih berulang kali ke dalam ringkasan sampai tercapai ukuran ringkasan yang diinginkan[1].
2.3. Word Sense Disambiguation
Word sense disambiguation merupakan suatu proses untuk mengidentifikasi makna kata yang digunakan dalam kalimat tertentu, ketika kata memiliki sejumlah makna yang berbeda. Ada beberapa pendekatan untuk menghilangkan ambiguitas makna kata, yaitu supervised learning dan unsupervised learning. Supervised Salah satu algoritma yang merupakan unsupervised WSD adalah algoritma lesk[2].
Algoritma lesk berdasarkan intuisi bahwa kata yang bermakna ambigu yang terdapat bersamaan dalam kalimat, digunakan untuk merujuk topik yang sama dan makna yang berhubungan dengan topik tersebut didefinisikan didalam kamus atau knowledge source seperti wordnet dengan menggunakan kata yang sama.
8 Algoritma lesk bekerja dengan membandingkan definisi dari kata yang bermakna ambigu dengan definisi dari kata tetangganya berdasarkan definisi kamus.
2.4. Part-Of-Speech Tagging
Part-Of Speech Tagging atau POS Tagging adalah sebuah sistem yang memberikan label kata secara otomatis pada suatu kalimat[6]. Contoh proses POS Tagging :
Input : The group was discovered in an underground room with heavy chains linking them together.
Output : ('The', 'DT'), ('group', 'NN'), ('was', 'VBD'), ('discovered', 'VBN'), ('in', 'IN'), ('an', 'DT'), ('underground', 'JJ'), ('room', 'NN'), ('with', 'IN'), ('heavy', 'JJ'), ('chains', 'NNS'), ('linking', 'VBG'), ('them', 'PRP'), ('together', 'RB')
Untuk mengetahui keterangan tag-tag yang ada pada proses POS Tagging, dapat dilihat ada tabel 2-2
Tabel 2-2. Word Tags/TreeBank[6]
Tag Keterangan CC Coordinating conjunction CD Cardinal number DT Determiner EX Existential there FW Foreign word IN Preposition or subordinating conjunction JJ Adjective JJR Adjective, comparative JJS Adjective, superlative
LS List item marker
MD Modal
NN Noun, singular or mass
NNS Noun, plural
NNP Proper noun, singular
NNPS Proper noun, plural
PDT Predeterminer
POS Possessive ending
PRP Personal pronoun PRP$ Possessive pronoun RB Adverb RBR Adverb, comparative RBS Adverb, superlative RP Particle SYM Symbol TO To
9
UH Interjection
VB Verb, base form
VBD Verb, past tense
VBG Verb, gerund or present participle
VBN Verb, past participle
VBP Verb, non-3rd person singular present VBZ Verb, 3rd person singular present
WDT Wh-determiner
WP Wh-pronoun
WP$ Possessive wh-pronoun
WRB Wh-adverb
2.5. Evaluasi Peringkasan Teks
ROUGE (Recall Oriented Understudy for Gisting Evaluation) adalah salah satu pengukuran kualitas ringkasan dengan membandingkan antara ringkasan otomatis yang dikerjakan oleh sistem dengan ringkasan manual yang dikerjakan oleh manusia. ROUGE mengukur kualitas ringkasan dengan nilai recall, precision, dan f-measure dengan menghitung overlap unit-unit ringkasan seperti kata, rangkaian kata, dan pasangan kata. Terdapat 5 ukuran evaluasi pada ROUGE yaitu, ROUGE-N, ROUGE-L, ROUGE-W, ROUGE-S, dan ROUGE-SU[2].
Pada tugas akhir ini akan memakai ukuran evaluasi ROUGE-N untuk menguji hasil summary dari sistem. Perhitungan score dari ROUGE-N (N-gram co-Occurrence Statistics) dapat diformulasikan sebagai berikut
= ∑∑ (2-2) = ∑∑ (2-3)
− = ( × × ) (2-4)
Keterangan :
∑ : jumlah kata yang sama
∑ : jumlah kata pada referensi ringkasan ∑ : jumlah kata pada kandidat ringkasan
2.6. Cosine Similarity
Cosine similarity digunakan untuk menghitung relevansi dokumen dengan dokumen.
( , ) = ∑ , ,
∑ , ∑ , (2 − 5)
Keterangan :
T : term dalam kalimat
10
, ∶ bobot term t dalam blok
2.7 Preprocessing
Preprocessing merupakan tahap untuk mengolah teks menjadi kata-kata yang telah siap dihitung bobot katanya. Tahapan preprocessing terdiri dari proses pemecahan kalimat, case folding, tokenization, filtering, dan stemming.
2.7.1 Remove Tag
Remove Tag adalah langkah awal dari proses preprocessing. Dalam proses peringkasan teks remove tag berguna untuk mencocokan string teks atau membersihkan teks sesuai pola atau karakter yang diinginkan.
Tabel 2-3. Remove Tag
Teks Hasil Remove Tag
(CNN) -- The 54 men and 14 boys rescued after being found chained this week at an Islamic religious school in Pakistan have been reunited with their families or placed in shelters,
authorities said.
The 54 men and 14 boys rescued after being found chained this week at an Islamic religious school in Pakistan have been reunited with their families or placed in shelters, authorities said. @highlight
Captive boys and men were rescued from an Islamic religious school in Pakistan
@highlight
They were reunited with their families
this week
@highlight
The facility was a school and drug
rehab clinic
@highlight
Authorities say they're searching for the owners; three others arrested at the facility
Captive boys and men were rescued from an Islamic religious school in Pakistan
They were reunited with their families this week
The facility was a school and drug rehab clinic
Authorities say they're searching for the owners; three others arrested at the facility
2.7.2 Case Folding
Case folding merupakan proses mengubah semua huruf kapital pada teks dokumen menjadi huruf kecil.
11 Tabel 2-4. Case Folding
Teks Hasil case folding
The group was discovered in an underground room with heavy chains linking them together.
the group was discovered in an underground room with heavy chains linking them together.
2.7.3 Tokenization
Token merupakan sekumpulan kata hasil pemecahan dokumen. Sedangkan Tokenization adalah pemecahan dokumen menjadi sekumpulan token. Tokenization merupakan proses penting dalam pemotongan string input tiap kata yang menyusunnya.
Tabel 2-5. Tokenization
Teks Hasil tokenizing
The group was discovered in an underground room with heavy chains linking them together.
the group was discovered in an underground room with heavy chains linking them together
2.7.4 Stopwords Removal (Filtering)
Stopword merupakan kata-kata yang tidak memiliki makna atau kata yang kurang berarti dan sering muncul dalam kumpulan kata. Stopword dapat berupa kata penghubung, kata ganti seperti, anda, atau, adalah, itu dll. Filtering adalah proses yang dilakukan untuk membuang stopword. Proses pembuangan kata yang tidak penting dengan mengecek pada kamus stopword. Jika kata ada yang sama dengan kata pada kamus stopword, maka kata tersebut akan dibuang atau dihapus[7].
Tabel 2-6. Stopwords Removal
Kalimat Hasil filtering
The 54 men and 14 boys rescued after being found chained this week at an Islamic religious school in Pakistan have been reunited with their families or placed in shelters authorities said
54 men 14 boy rescued found chained week islamic religious school pakistan reunited family placed shelter authority said
12 2.7.5 Stemming
Stemming merupakan proses untuk menghilangkan awalan dan akhiran kata-kata pada dokumen. Proses mengubah kata jamak menjadi kata tunggal dan menjadi kata dasar.
Tabel 2-7. Stemming
Kalimat Hasil Stemming
The 54 men and 14 boys rescued after being found chained this week at an Islamic religious school in Pakistan have been reunited with their families or placed in shelters authorities said
54 men 14 boy rescued found chained week islamic religious school pakistan reunited family placed shelter authority said
2.8. TF-IDF
Term Frequency dan Inverse Document Frequency adalah statistik numerik yang dimaksudkan untuk mencari seberapa penting suatu term dalam sebuah dokumen [1]. Pembobotan diperoleh dari jumlah kemunculan term dalam sebuah dokumen term frequency (tf) dan jumlah kemunculan term dalam koleksi dokumen inverse document frequency (idf). Untuk menghitung nilai idf sebuah term dapat dihitung dengan persamaan (2-6).
= (2-6)
Untuk menghitung bobot (W) pada masing-masing dokumen terhadap query atau kata kunci dapat dihitung dengan persamaan (2-7)
, = , × (2-7)
Keterangan :
D = Jumlah dokumen yang berisi term = Jumlah kemunculan term terhadap D d = Dokumen ke –d
t = Term ke-t dari kata kunci tf = Term frekuensi
W = Bobot dokumen ke-d terhadap term ke-t
2.9. WordNet
WordNet adalah salah satu sistem referensi leksikal bahasa inggris yang dikembangkan oleh Coqnitive Science Laboratory di Universitas Priceton. Dalam WordNet, makna atau arti dari kata direpresentasikan dengan sinonim kata yang mempunyai arti sama dan penggunaannya dapat saling dipertukarkan. WordNet terdiri dari 4 kategori berdasarkan tipe kata yaitu, kata benda, kata kerja, kata keterangan, dan kata sifat [8].