Peringkasan Teks Otomatis Berita Berbahasa Indonesia Pada Multi-Document Menggunakan Metode Support Vector Machines (SVM)

(1)

Peringkasan Teks Otomatis Berita Berbahasa

Indonesia Pada Multi-Document Menggunakan

Metode Support Vector Machines (SVM)

Deni Fitriaman#1_{, Masayu Leylia Khodra}#2_{, Bambang Rianto Trilaksono}*3

#_{Teknik Informatika, Sekolah Teknik Elektro dan Informatika, Institut Teknologi Bandung} Bandung, Jawa Barat, Indonesia

1 _{[email protected]} 2 _{[email protected],}

*_{Teknik Elektro, Sekolah Teknik Elektro dan Informatika, Institut Teknologi Bandung}

Bandung, Jawa Barat, Indonesia 3 _{[email protected]}

Abstrak — Banyaknya berita-berita online sering menarik

minat masyarakat untuk membacanya, tetapi kadang dengan terlalu banyaknya berita tersebut membuat orang susah mendapatkan informasi yang relevan. Ringkasan artikel berita dapat membantu pembaca untuk mendapatkan informasi penting dari berita. Pada penelitian ini sistem peringkasan teks

otomatis berita pada multi-document dibagi menjadi empat

tahap utama, yaitu: preprocessing, ekstraksi fitur, machine

learning, dan generate summarization dari beberapa artikel yang mempunyai topik sama. Fitur-fitur kalimat yang digunakan adalah panjang kalimat, posisi kalimat, adanya data

numeric, kata-kata thematic, similaritas kalimat dengan judul,

kemiripan kalimat dengan kumpulan kalimat lain, ikatan leksikal dengan kalimat sebelum dan sesudahnya. Pada

tahapan machine learning menggunakan metode support

vector machine (SVM) dengan algoritma LibSVM untuk

menghasilkan model. Sedangkan pada generate summarization

menggunakan metode maximal marginal relevance (MMR)

untuk menghilangkan redundancy data. Dengan menggunakan

metode LibSVM dihasilkan beberapa kandidat ringkasan yang selanjutnya diseleksi menggunakan metode MMR. Sehingga didapatkan hasil ringkasan ekstraksi yang efektif dan efisien.

Kata kunci — peringkasan teks, berita, multi-document, Support Vector Machine (SVM), Maximal Marginal Relevance (MMR).

I. PENDAHULUAN

Seiring dengan perkembangan zaman membuat kebutuhan manusia terhadap informasi semakin besar, hal ini membuat manusia mulai beralih dari pencarian berita tradisional (seperti koran, radio, televisi, dll) ke penggunaan aplikasi media online dan situs media sosial [1]. Perkembangan pesat layanan informasi online telah mengakibatkan ledakan informasi (information overloading) sehingga tidak ada waktu untuk membaca semua informasi berita online secara lengkap [2][3]. Informasi yang ada pada saat ini tidak hanya bersumber dari satu dokumen saja, melainkan dari beberapa dokumen (multi-document) [4]. Cara dalam mengatasi permasalahan itu adalah dengan membuat satu ringkasan dari beberapa artikel berita. Sebagai dampak dari besarnya kumpulan dokumen online dan meningkatnya kebutuhan bagi pembaca untuk mendapatkan informasi penting dari kumpulan dokumen tersebut, maka dikembangkannya penelitian mengenai metode peringkasan teks multi-document [2] [4].

Peringkasan teks (Text Summarization) adalah proses penyaringan informasi paling penting dari satu atau beberapa sumber untuk menghasilkan teks (ringkasan) dengan panjang tidak lebih dari setengah (kurang dari 50%) teks asli untuk pengguna [2] [5].

Metode peringkasan teks yang digunakan dalam penelitian ini adalah pendekatan pembelajaran mesin (machine

learning). Dengan menggunakan metode ini peringkasan

kalimat akan dipandang sebagai permasalahan klasifikasi kalimat. Kalimat dalam artikel akan dibagi menjadi dua kelas, yaitu kelas positif dan kelas negatif. Kalimat positif berisi kalimat yang termasuk ke dalam ringkasan, sedangkan kalimat negatif tidak termasuk ke dalam ringkasan [6]. Metode klasifikasi yang akan digunakan dalam penelitian kali ini adalah Support Vector Machine (SVM).

Tujuan dari penelitian ini adalah membangun SVM

Classifier untuk peringkasan teks berita online berbahasa

Indonesia pada multi-document, merumuskan kelompok fitur yang digunakan pada proses klasifikasi, serta menghasilkan ringkasan yang efektif dan efisien dengan menggunakan metode Maximal Marginal Relevance (MMR). Kumpulan dokumen yang digunakan sebagai dataset adalah kumpulan berita online yang diambil dalam satu topik dari sepuluh situs berita online (www.detik.com, www.liputan6.com, www.kompas.com, www.tribunnews.com, www.viva.co.id, www.okezone.com, www.tempo.co, www.antaranews.com, metrotvnews.com, dan www.mediaindonesia.com).

II. PERINGKASAN OTOMATIS BERITA ONLINE BERBAHASA INDONESIA PADA

MULTI-DOCUMENT

Peringkasan otomatis berita online berbahasa Indonesia pada multi-document adalah sistem peringkasan teks otomatis untuk kumpulan berita online yang diambil dari beberapa situs berita online yang memiliki topik yang sama (satu topik) dan menggunakan SVM Classifier. Masukan dari sistem adalah teks kumpulan berita yang diperoleh dari 10 situs berita online dalam satu topik. Output dari sistem adalah ringkasan ekstraksi dari teks input (compression rate). Sistem ini

(2)

memiliki dua proses utama, yaitu proses pelatihan (training) dan proses pengujian (testing). Pada proses pelatihan sistem akan mencari model klasifikasi untuk SVM Classifier, sedangkan pada proses pengujian dilakukan untuk mengetahui kinerja dari sistem. Arsitektur sistem Peringkasan Teks Otomatis multi-document ditunjukan oleh Gambar 1.

Preprocessing Kumpulan Dokumen Pelatihan Tokenization Stop-words / Stop-list Removal Inde xing Kumpulan Dokumen Masukan E k s t r a k s i F I t u r Vektor Fit ur Vektor Fit ur Pelatihan SVM SVM Classifier Model Klasifikasi Kandidat Kalimat Ringkasan Pembentukan Ringkasan (MMR) Hasil Ringkasan Gambar 1. Arsitektur Sistem Peringkasan Teks Berita Online

Berbahasa Indonesia pada Multi-Document

Langkah-langkah pada proses pelatihan adalah sebagai berikut:

a. Mempersiapkan dokumen pelatihan (training dataset). Training dataset yang digunakan adalah kumpulan teks berita online berbahasa Indonesia yang memiliki topic yang sama.

b. Membuat ringkasan manual dengan persentase pemampatan berkisar 25% sampai dengan 30% dari satu kumpulan topik yang sama. Yang digunakan oleh training dataset.

c. Melakukan preprocessing yang umum digunakan dalam metode temu-balik informasi (tokenizing, stop-word, case folding, dan indexing) pada setiap dokumen pelatihan.

d. Mengekstraksi dokumen pelatihan dengan cara mengubah seluruh kalimat ke dalam vektor fitur. e. Melatih SVM menggunakan vektor fitur untuk

mendapatkan model klasifikasi.

Sedangkan langkah-langkah pada proses pengujian adalah sebagai berikut:

a. Melakukan preprocessing dan ekstraksi fitur untuk mendapatkan vektor fitur.

b. Vektor fitur akan diklasifikasikan oleh SVM classifier dengan menggunakan model klasifikasi yang telah diperoleh pada proses pelatihan.

c. Setiap kalimat dalam dokumen akan diurutkan berdasarkan nilai α. N kalimat teratas diekstrak untuk disusun ke dalam ringkasan.

A. Support Vector Machines (SVM)

Support Vector Machines (SVM) merupakan salah satu

metode pembelajaran mesin (machine learning) yang memaksimumkan akurasi prediksi dengan mencari bidang pembatas (hyperplane) terbaik dari dua kelas dalam ruang fitur [7]. Gambar 2 memperlihatkan struktur konseptual dari SVM.

Gambar 2. Struktur Konseptual SVM

Salah satu bidang pemisah yang memberikan generalisasi paling baik adalah bidang pemisah yang dapat memaksimumkan margin. Margin adalah jarak antara bidang pembatas kelas-1 dengan kelas-2. Data yang berada paling dekat dengan bidang pemnatas disebut support vector [7].

Data pada ruang input (input space) berdimensi d dinotasikan dengan 𝑥𝑖∈ ℝ𝑑, sedangkan label kelas dinotasikan dengan 𝑦𝑖∈ {−1, 1} untuk I = 1,2, …, n, dimana

n adalah banyaknya data. Dengan asumsi kedua kelas dapat

dipisahkan secara linear bidang pembatas, maka persamaan bidang pembatasnya adalah:

𝑥𝑖. 𝑤 + 𝑏 = 0 (1)

Data 𝑥_𝑖 yang terbagi ke dalam dua kelas didefinisikan sebagai vektor yang memenuhi pertidaksamaan:

𝑥_𝑖. 𝑤 + 𝑏 ≤ −1 (2)

𝑥𝑖. 𝑤 + 𝑏 ≥ +1 (3)

Dimana w adalah normal bidang, dan b adalah posisi bidang relatif terhadap pusat koordinat.

Margin terbesar dapat dicari dengan cara memaksimalkan

jarak antar bidang pembatas kedua kelas, yaitu 2/|w|. Hal ini dirumuskan sebagai permasalahan quadratic programming [8], yaitu:

min τ(w) =1 2 |𝑤|

2 ₍₄₎

𝑆𝑢𝑏𝑗𝑒𝑐𝑡 𝑡𝑜: 𝑤. 𝑥 + 𝑏 ≥ 1, ∀_𝑖

Permasalahan ini lebih mudah diselesaikan dengan mengubah persamaan (4) ke dalam fungsi Lagrangian berikut:

𝐿𝑝(𝑤, 𝑏, 𝛼) = 1

2|𝑤|2− ∑ 𝛼𝑖(𝑦𝑖(𝑥𝑖. 𝑤 + 𝑏) − 1) 𝑛

𝑖=1

𝛼𝑖 merupakan Lagrange multiplier yang bernilai tidak negatif (𝛼_𝑖≥ 0). Nilai optimal dari persamaan 5 dapat dihitung dengan meminimalkan L terhadap w dan b, dan memaksimalkan L terhadap 𝛼_𝑖. Dengan memperhatikan bahwa pada titik optimal gradient L adalah 0, persamaan 5 dapat diubah menjadi persamaan yang hanya mengandung 𝛼𝑖, yaitu:

(3)

max ∑ 𝛼_𝑖 𝑛 𝑖=1 −1 2 ∑ 𝛼𝑖𝛼𝑗𝑥𝑖𝑥𝑗𝑦𝑖𝑦𝑗 𝑛 𝑖=1,𝑗=1

Permasalahan pada data yang tidak dapat dipisahkan secara linear oleh bidang pemisah, dapat diselesaikan dengan menggunakan teknik SVM soft margin hyperplane [9]. Dengan menggunakan teknik ini, persamaan 4 diubah dengan menambahkan slack variable 𝜉𝑖(𝜉𝑖 ≥ 0):

min 𝜏(𝑤, 𝜉) = 1 2|𝑤| 2_{+ 𝐶 ∑ 𝜉} 𝑖 𝑛 𝑖=1 𝑆𝑢𝑏𝑗𝑒𝑐𝑡 𝑡𝑜: 𝑤. 𝑥 + 𝑏 ≥ 1 − 𝜉𝑖, ∀𝑖

Parameter C digunakan untuk mengontrol efek (tradeoff) antara margin dengan kesalahan (error) klasifikasi 𝜉. Nilai C yang semakin besar akan memberikan penalti yang lebih besar pada kesalahan klasifikasi. Nilai 𝛼_𝑖 berada pada rentang 0 ≤ 𝛼𝑖 ≤ C.

Selain dengan menggunakan soft margin hyperplane permasalahan data yang tidak dapat dipisahkan secara linear, dapat diatasi dengan cara mengubah vektor fitur ke dalam dimensi yang lebih tinggi dengan menggunakan fungsi kernel. Fungsi kernel yang digunakan pada penelitan ini adalah

Radial Basis Function (RBF), karena kernel ini cocok untuk dataset yang besar [10]. Berikut ini persamaan fungsi kernel

RBF:

𝐾(𝑥_𝑖, 𝑥) = exp(−𝛾|𝑥_𝑖− 𝑥|2_{) , 𝛾 > 0} ₍₈₎

B. Ekstraksi Fitur

Pada teks berita online, kata kunci tidak diberikan oleh narasumber. Dalam penelitian ini kata kunci akan dicari dengan cara menghitung frekuensi.

Kata kunci digunakan dalam mengekstrak fitur. Fitur dalam penelitian ini merupakan hasil ekstraksi yang diasumsikan memberikan informasi mengenai kalimat. Berikut adalah fitur-fitur yang digunakan dalam mengekstraksi [9] [11]:

1. Fitur Panjang Kalimat

Kalimat yang paling pendek tidak akan dimasukkan ke dalam kandidat ringkasan. Fitur ini dihitung dengan membagi jumlah kata-kata dalam kalimat terhadap jumlah kata dari kalimat terpanjang.

2. Fitur Posisi Kalimat

Fitur ini mengasumsikan kalimat pertama pada setiap paragraf merupakan kalimat yang paling penting. Pada fitur ini akan diurutkan N kalimat pertama.

3. Fitur Data Numerik

Biasanya kalimat yang mengandung data numerik merupakan kalimat penting dan biasanya kalimat tersebut masuk ke dalam ringkasan.

4. Fitur Kata-Kata Thematic Dalam Kalimat

Fitur ini menghitung kemunculan relatif kata kunci pada suatu kalimat, biasanya kalimat yang memiliki relatif kata kunci yang baik, merupakan kalimat ringkasan. 5. Fitur Kalimat yang Menyerupai dengan Judul

Kalimat yang menyerupai judul adalah kalimat yang memiliki vocabulary overlap antara kalimat dengan judul.

6. Fitur Kemiripan Kalimat dengan Kumpulan Kalimat Lain

Kemiripan kalimat dapat dilihat dari vocabulary overlap antara kalimat dengan kalimat yang lain, untuk mempermudah maka kata yang dilihat hanya kata kunci. 7. Fitur Ikatan Leksikal dengan Kalimat Sebelumnya

Ikatan leksikal antara kalimat dengan kalimat sebelumnya didefinisikan sebagai kata (stem) yang muncul dalam kedua kalimat tersebut, nilai akan 1 apabila memiliki hubungan lexical, 0 jika tidak punya. 8. Fitur Ikatan Leksikal dengan Kalimat Sesudahnya

Ikatan leksikal antara kalimat dengan kalimat sesudahnya didefinisikan sebagai kata (stem) yang muncul dalam kedua kalimat tersebut, nilai akan 1 apabila memiliki hubungan lexical, 0 jika tidak punya.

C. Pembangunan Model

Untuk mendapatkan model klasifikasi yang dapat mengklasifikasikan kalimat dengan optimal, proses pembelajaran dilakukan dengan menggunakan parameter terbaik. Langkah-langkah untuk mencari parameter terbaik adalah sebagai berikut::

a. Berdasarakan dataset yang digunakan dalam penelitian ini, terjadi imbalanced dataset. Oleh karena itu perlu dilakukan perbaikan distribusi data dengan menggunakan metode Synthetic Minority Over-sampling

Technique (SMOTE). Pada proses pembelajaran

dilakukan dengan 10-fold cross validation.

b. Mencari parameter terbaik C dan 𝛾 dengan menggunakan tools yang sudah disediakan oleh Grid

Search dan LibSVM.

Setelah nilai C dan 𝛾 terbaik ditemukan, maka dilakukan proses pelatihan terhadap dataset yang sudah di-balance. Hasil dari proses pelatihan adalah sebuah model klasifikasi.

D. Pembentukan Ringkasan

Model klasifikasi yang digunakan oleh SVM Classifier akan memisahkan kalimat-kalimat dalam teks berita berdasarkan kelasnya. Kalimat-kalimat yang masuk ke dalam kelas positif akan diurutkan berdasarkan nilai relevansi, N jumlah kalimat dengan nilai relevansi tertinggi akan disusun dalam ringkasan [10]. Nilai relevansi dapat berupa nilai probabilitas kelas positif atau dengan menggunakan MMR.

III. EKSPERIMEN

A. Tools

Eksperimen pada penelitian ini menggunakan sistem peringkasan teks otomatis pada multi-document untuk berita berbahasa Indonesia. Aplikasi SVM menggunakan library LibSVM pada Weka 3.7.11.

B. Dataset

Dataset yang digunakan adalah kumpulan teks berita online

berbahasa Indonesia yang memiliki topik yang sama. Dataset (6)

(4)

ini diambil dari beberapa situs media berita online, diantaranya: detik.com, www.liputan6.com, kompas.com, www.tribunnews.com, www.viva.co.id, www.okezone.com, www.tempo.co, www.antaranews.com, metrotvnews.com, dan www.mediaindonesia.com. Proses pengumpulan dataset ini dilakukan secara manual, sedangkan domain berita yang digunakan adalah berita umum, politik, ekonomi, dan olahraga. Setiap kumpulan berita dalam satu topik dibuat sebuah ringkasan manual dengan pemampatan 25-30% dari rata-rata jumlah kalimat pada setiap artikelnya. Setiap kalimat dalam teks berita akan menjadi satu instance data. Pada Tabel 1 adalah dataset yang digunakan dalam penelitian ini.

Tabel 1 Kumpulan Dataset

Dataset Jumlah Artikel Jumlah Topik Kalimat Positif Kalimat Negatif Pelatihan 275 40 704 3047 Pengujian 88 10 272 1012 C. Balancing Dataset

Distribusi dataset pada data pelatihan menunjukkan adanya

imbalanced dataset, untuk mengatasi permasalahan tersebut

maka digunakan metode Synthetic Minority Oversampling

Technique (SMOTE). SMOTE merupakan metode

oversampling yang ide utamanya yaitu membuat class

minoritas baru dengan menginterpolasi beberapa instances class minoritas yang terletak berdekatan (dengan menggunakan teknik k nearest neighbors). Metode SMOTE ini bekerja dengan mencari k nearest neighbors (yaitu ketetanggaan data) untuk setiap data di kelas minor, setelah itu buat synthetic data sebanyak persentase duplikasi yang diinginkan Antara data minor.

D. Skenario Eksperimen

Pada penelitian ini akan dilakukan beberapa eksperimen untuk mendapatkan model terbaik, diantaranya pencarian parameter terbaik, fitur yang paling baik, dan kinerja SVM tanpa MMR dan dengan menggunakan MMR.

a. Eksperimen Penggunaan SMOTE untuk Imbalanced

dataset

Pada Eksperimen ini membandingkan hasil pelatihan sebelum menggunakan matode balancing dataset dan yang setelah menggunakan metode balancing dataset. Pada penelitian ini metode balancing dataset yang digunakan adalah Synthetic Minority Oversampling

Technique (SMOTE). Dari hasil tersebut didapatkan

bahwa hasil penelitian yang tanpa menggunakan

balancing dataset, tidak berhasil mengidentifikasi

kelas positif dan nilai f-measure pada kelas positifnya bernilai nol (0). Sedangkan hasil pelatihan yang menggunakan SMOTE untuk balancing dataset, berhasil mengidentifikasi kelas positif dan memiliki nilai f-measure pada kelas positif bernilai 0.810. b. Eksperimen Pencarian Parameter Terbaik

Pada Eksperimen ini akan menggunakan fungsi kernel RBF dimana kernel tersebut memerlukan parameter C &

𝛾 pada prosesnya. Untuk mendapatkan parameter terbaik, bisa di dapatkan dengan menggunakan tools Grid Search. Dari hasil pencarian menggunakan Grid Search, didapat sepasang parameter terbaik yaitu dengan nilai C = 4.0 dan nilai 𝛾 = 512.0. Nilai

f-measure yang diperoleh dari parameter terbaik tersebut

adalah 0.771.

c. Eksperimen Fitur yang Paling Baik

Fitur yang dianggap paling baik adalah fitur yang memiliki nilai f-measure yang mendekati 1. Setiap fitur akan dibuat model klasifikasinya, lalu dilihat n fitur mana yang memiliki f-measure terbaik. Pada Tabel 2 adalah hasil pengukuran f-measure untuk setiap fitur.

Tabel 2 Hasil Eksperimen Setiap Fitur

No Fitur Akurasi Precision Recall F-Measure

1 Panjang Kalimat 59.29 % 0.577 0.593 0.566 2 Posisi Kalimat 60.23 % 0.604 0.602 0.523 3 Data Numerik 58.08 % 0.542 0.581 0.432 4 Kata-kata Thematic 58.12 % 0.617 0.581 0.428 5 Kalimat Menyerupai Judul 58.23 % 0.722 0.582 0.430 6 Kemiripan Kalimat dengan Kalimat Lainnya 58.44 % 0.683 0.584 0.436 7 Ikatan Leksikal dengan Kalimat Sebelumnya 58.20 % 0.667 0.582 0.430 8 Ikatan Leksikal dengan Kalimat Sesudahnya 58.09 % 0.337 0.581 0.427

d. Eksperimen Algoritma Klasifikasi Lainnya

Pada Eksperimen ini melakukan percobaan dengan menggunakan setting terbaik untuk SVM diaplikasikan juga ke algoritma klasifikasi naïve bayes, dan k-Nearest

Neighbor (kNN), yaitu: menggunakan SMOTE dan nilai

parameter terbaik (C = 4.0 dan nilai 𝛾 = 512.0) yang bertujuan untuk membandingkan akurasi (f-measure) dari hasil pelatihan algoritma tersebut dengan algoritma SVM yang digunakan dalam penelitian ini. Dari hasil eksperimen ini didapat hasil sebagai berikut:

Tabel 3 Hasil Perbandingan

Hasil SVM Naïve Bayes kNN

Akurasi 77.25% 59.29% 76.25%

Precision 0.771 0.576 0.761

Recall 0.773 0.593 0.762

f-measure 0.771 0.548 0.761

Pada Tabel 3 dapat dilihat hasil kedua pelatihan tersebut (naïve bayes, dan k-Nearest Neighbor) masih dibawah dari hasil pelatihan dengan menggunakan

Support Vector Machine (SVM). Sehingga dapat

disimpulkan bahwa kinerja dengan menggunakan SVM lebih baik dibandingkan dengan menggunakan klasifikasi naïve bayes, dan k-Nearest Neighbor (kNN).

(5)

e. Eksperimen Hasil Ringkasan tanpa MMR dan Hasil Ringkasan Menggunakan MMR

Gambar 3. Tampilan Hasil Ringkasan Tanpa MMR Pada Gambar 3 diatas dapat dilihat bahwa hasil ringkasan tanpa MMR memiliki susunan kalimat yang kurang baik, sehingga pembaca/pengguna akan sulit dalam memahami informasi penting yang akan disampaikan.

Gambar 4. Tampilan Hasil Ringkasan Dengan MMR Pada Gambar 4 diatas dapat dilihat bahwa hasil ringkasan SVM dengan menggunakan MMR memiliki susunan kalimat yang lebih baik dibandingkan dengan hasil tanpa MMR, sehingga pembaca/pengguna akan lebih mudah dalam memahami informasi penting yang akan disampaikan.

E. Survei Keterbacaan Ringkasan

Survei ini digunakan untuk mengukur apakah teks yang dihasilkan oleh sistem dapat dipahami oleh pembaca dan relevan dengan sumber berita aslinya. Survei ini dilakukan dengan cara mengirimkan kuisioner kepada 40 responden.

Ringkasan yang digunakan pada survei ini menggunakan model terbaik yang telah didapat pada proses training dengan parameter terbaik (C = 4.0 dan 𝛾 = 512.0) dari hasil eksperimen.

Survei ini bertujuan untuk mencari metode mana yang dapat menghasilkan ringkasan dengan tingkat keterbacaan yang lebih baik bagi pembaca.

Tabel 4 Scoring Board Hasil Ringkasan Tanpa MMR

Topik Kurang Cukup Baik Sangat Baik

1 15 25 0 0 2 10 30 0 0 3 20 20 0 0 4 10 30 0 0 5 25 15 0 0 6 12 28 0 0 7 9 31 0 0 8 16 24 0 0 9 5 25 10 0 10 2 28 10 0

Tabel 5 Scoring Board Hasil Ringkasan Dengan MMR

Topik Kurang Cukup Baik Sangat Baik

1 0 0 35 5 2 0 1 37 2 3 0 1 36 3 4 0 2 30 8 5 0 5 30 5 6 0 8 32 0 7 0 6 34 0 8 0 3 37 0 9 0 0 34 6 10 0 1 38 1

Dari hasil survei pada Tabel 4 dan Tabel 5 di atas, dapat dibuat sebuah grafik sebagai berikut:

Gambar 5. Grafik Survei Hasil Ringkasan

0 5 10 15 20 25 30 35 40 45 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 Tanpa MMR Dengan MMR Ju m la h R esp o n d e n Topik

Grafik Survei Hasil RIngkasan

(6)

Hasil grafik pada Gambar 5 dapat dilihat bahwa responden memilih ringkasan yang dihasilkan oleh metode SVM menggunakan MMR lebih banyak daripada ringkasan SVM tanpa MMR. Sehingga dapat disimpulkan bahwa hasil ringkasan SVM dengan menggunakan MMR keterbacaannya lebih baik dibandingkan hasil ringkasan SVM tanpa MMR.

F. Evaluasi Hasil Ringkasan

Evaluasi hasil ringkasan ini untuk mengukur hasil ringkasan yang dilakukan oleh sistem apakah sudah baik, dan relevan dengan sumber berita aslinya. Pengevaluasian ini dilakukan dengan membandingkan dan memberi penilaian terhadap hasil ringkasan dimana penilaian itu diberikan oleh orang yang ahli dalam bidangnya atau dalam hal ini sering disebut human expert judgement. Pada pengevaluasian ini dilakukan oleh Dr. Dadang S. Anshori, M.Si (Dosen Bahasa Indonesia di UPI sekaligus Ketua Jurusan). Penilaian dari ringkasan akan dikelompokkan dalam empat kategori, yaitu kurang, cukup, baik dan sangat baik. Adapun hasil penilaiannya sebagai berikut.

Tabel 6 Scoring Board Hasil Ringkasan

Tipe

Ringkasan Kurang Cukup Baik

Sangat Baik Ringkasan Tanpa MMR 1 7 2 0 Ringkasan Dengan MMR 0 1 9 0

Gambar 6. Grafik Evaluasi Ringkasan oleh Human Expert Judgement

Dari Gambar 6 di atas dapat dilihat bahwa hasil ringkasan sistem dengan menggunakan MMR lebih baik dan relevan daripada hasil ringkasan sistem tanpa menggunakan MMR.

IV. KESIMPULAN

Pada sistem peringkasan teks otomatis berita berbahasa Indonesia pada multi-document dapat dilakukan secara efektif dengan cara mengklasifikasikan kalimat-kalimat dalam setiap artikel ke dalam kelas positif (termasuk ke dalam ringkasan) atau kelas negatif (tidak termasuk ke

dalam ringkasan) menggunakan SVM Classifier.

Selanjutnya dipilih n kalimat dari kelas positif berdasarkan nilai relevansinya. Nilai relevansi dapat berupa nilai probabilitas kemunculan kelas positif atau nilai MR yang dihasilkan melalui MMR.

Parameter klasifikasi SVM dengan kernel RBF terbaik yang digunakan sistem peringkasan teks otomatis pada

multi-document dalam Tesis ini yaitu, nilai C = 4.0 dan 𝛾 = 512.0. Nilai f-measure yang diperoleh dari parameter terbaik tersebut adalah 0.771.

Sistem peringkasan teks otomatis mengalami peningkatan kinerja jika permasalahan imbalanced dataset ditangani pada level data.

Empat fitur yang terbaik pada proses klasifikasi pada Tesis ini adalah panjang kalimat, posisi kalimat, kemiripan kalimat dengan kalimat lainnya, dan data numerik. Pembangunan model klasifikasi menggunakan empat fitur yang terbaik tidak meningkatkan kinerja proses klasifikasi.

REFERENSI

[1] An, J., Cha, M., Gummadi, K., dan Crowcroft, J. (2011).

Media Landscape in Twitter, A New World Convention

and Political Diversity, University of Cambridge. [2] Lioret, Elena. (2008). Text Summarization: An

Overview, Dept. Lenguajes y Sistemas Informaticos

Universidad de Alicante Alicante, Spain.

[3] Mani, Inderjeet, dan Marbury, T, Mark. (1999).

Advances in Automatic Text Summarization,

Massachusetts Institute of Technology, Massachusetts, Amerika.

[4] Wardhana, Wisnu L. (2008). Peringkas Multi-Dokumen

Untuk Bahasa Indonesia Menggunakan Teknik Centroid-Based Summarization Dan Teknik K-Means-Based Summarization. Skripsi pada Fakultas Ilmu

Komputer Universitas Indonesia. tidak diterbitkan. [5] S, Suneetha. (2011). Automatic Text Summarization: The

Current State of The Art, International Journal of Science

and Advance Technology, Vol.1 No.9, JNTU, Hyderabad.

[6] Kupiec, J., Pedersen, J., & Chen, F. (1995). A trainable

document summarizer. In Proceedings of the 18th annual

international ACM SIGIR conference on Research and development in information retrieval (pp. 68-73). ACM. [7] Joachims, Thorsten. (1999). Making Large-Scale SVM

Learning Practical. Universitait Dortmund, Jerman.

[8] Hovy, E., dan Lin, C. Y. (1998). Automated Text

Summarization and the SUMMARIST system,

Proceedings of a workshop on held at Baltimore, Maryland: October 13-15, 1998 (pp.197-214). Association for Computational Linguistics.

[9] Karamuftuoglu, Murat. (2002). An Approach to

Summarisation Based on Lexical Bonds. Document

Understanding Conferences.

[10] Ishikawa, Kai, 2004, Trainable Automatic Text

Summarization using Segementation of Sentence, NEC

Corporation.

[11] Fattah, Abdel, Mohamed dan Ren, Fuji. (2008).

Automatic Text Summarization, World Academy of