Implementasi Metode Latent Semantic Analysis Pada Peringkasan Artikel Bahasa Indonesia Menggunakan Pendekatan Steinberger Jezek

(1)

JURIKOM (Jurnal Riset Komputer), Vol. 9 No. 4, Agustus 2022 e-ISSN 2715-7393 (Media Online), p-ISSN 2407-389X (Media Cetak) DOI 10.30865/jurikom.v9i4.4620

Hal 894−901 http://ejurnal.stmik-budidarma.ac.id/index.php/jurikom

Implementasi Metode Latent Semantic Analysis Pada Peringkasan Artikel Bahasa Indonesia Menggunakan Pendekatan Steinberger Jezek

Dewi Fatmarani Surianto^1,*, Rezki Angriani Pratiwi Kadir¹, Fizar Syafaat¹, M Miftach Fakhri², Dary Mochamad Rifqie³

1Program Studi Sistem Informasi, Institut Teknologi dan Bisnis Kalla, Makassar, Indonesia

2Program Studi Pendidikan Teknik Informatika dan Komputer, Universitas Negeri Makassar, Makassar, Indonesia

3Program Studi Teknik Elektronika, Universitas Negeri Makassar, Makassar, Indonesia

Email: ^1,*dewifatmarani@kallabs.ac.id, ¹rezkiangrianipk@kallabs.ac.id, ¹fizar@kallabs.ac.id, ²fakhri@unm.ac.id,

3dary.mochamad.rifqie@unm.ac.id

Email Penulis Korespondensi: dewifatmarani@kallabs.ac.id Submitted 02-08-2022; Accepted 14-08-2022; Published 30-08-2022

Abstrak

Saat ini, berbagai jenis media berita yang berkembang memiliki tantangannya masing-masing, salah satunya pada jenis media digital atau online yang jumlahnya semakin meningkat. Peningkatan jumlah media digital berupa situs berita online tidak hanya memberikan dampak positif terhadap masyarakat, namun juga memberikan tantangan. Semakin meningkatnya jumlah portal berita online, maka informasi yang tersebar juga semakin banyak. Dengan berbagai topik dan informasi yang beragam, maka menimbulkan masalah bagi para pembaca dalam mengefisiensikan waktu dalam membaca secara lengkap untuk memperoleh informasi yang diinginkan. Hal ini membuat fenomena peringkasan teks menjadi sangat penting. Tujuan dari studi ini adalah untuk menerapkan dan menganalisis metode Latent Semantic Analysis pada proses peringkasan teks. Dataset yang digunakan berasal dari penelitian terdahulu yang mencakup 100 artikel berita Bahasa Indonesia dari berbagai portal berita online. Dalam eksperimen yang dilakukan, teknik Steinberger dan Jezek digunakan untuk proses pemilihan kalimat. Proses peringkasan yang dilakukan menggunakan tiga jenis compression rate yakni 10%, 30% dan 50%. Hasil terbaik yang diperoleh dalam studi ini adalah dengan nilai presisi 20% pada tingkat compression rate 10%, nilai recall 42% pada jenis compression rate 50%, dan nilai f-measure 22% pada jenis compression rate 50%.

Kata Kunci: Ringkasan; Latent Semantic Analysis; SVD; Artikel berita; Steinberger dan Jezek Abstract

Currently, various types of news media that are developing have their own challenges, one of them is the increasing number of digital or online media. The increasing number of digital media in the form of online news sites not only has a positive impact on society, but also poses challenges. The more the number of online news portals increases, the more information is spread out. With a variety of topics and diverse information, it creates problems for readers to make time efficient in reading in full to obtain the desired information.

This makes the phenomenon of text summarization very important. The purpose of this study is to analyze the Latent Semantic Analysis method in the text summarization process. The dataset used comes from previous research which includes 100 Indonesian news articles from various online news portals. In the experiment process, the Steinberger and Jezek techniques are used for the sentence selection process. The summary process is carried out using three types of compression rates, namely 10%, 30% and 50%. The best results obtained in this study are the precision value of 20% at a 10% compression rate, a recall value of 42% at a 50% compression rate, and an f-measure value of 22% at a 50% compression rate.

Keywords: Summary; Latent Semantic Analysis; SVD; News Article; Steinberger and Jezek

1. PENDAHULUAN

Pada masa kini, berbagai jenis dokumen dengan topik yang berbeda sangat mudah diperoleh melalui berbagai sumber.

Dokumen tidak hanya dapat diperoleh melalui media cetak saja, namun media daring atau dalam jaringan juga memiliki pengaruh besar dalam hal membantu pekerjaan manusia yaitu memudahkan dalam melakukan pencarian dan menemukan informasi sesuai dengan kebutuhan mereka masing-masing. Berbagai jenis teks yang tersebar di Internet misalnya teks artikel berita, teks review produk, dan lainnya. Media online seperti website umum ataupun situs berita sudah sangat beragam. Berita disebut sebagai sebuah informasi untuk disampaikan kepada khayalak umum, dapat berupa fakta maupun opini. Keberagaman bentuk berita yang semakin hari semakin beragam dalam berbagai media seperti media cetak, media online, dan media-media lainnya yang memiliki keunggulan dan kekurangan masing-masing. Dalam beberapa tahun terakhir, keberadaaan media digital membuat tantangan baru bagi model media cetak, utamanya dalam hal kecepatan.

Seperti yang terdapat pada artikel oleh Usher, salah satu jenis media cetak seperti koran tidak mampu bersaing dengan media berita online, utamanya dalam basis kecepatan [1]. Adapun berbagai situs yang menyediakan informasi berita diantaranya Kompas.com, detik.com, CNNIndonesia.com, serta berbagai jenis situs media digital lainnya[2].

Dengan semakin banyaknya situs berita dan mudahnya seseorang dalam memperoleh berita melalui Internet, tidak hanya memberikan manfaat positif dan kemudahan dalam mencari informasi yang diinginkan, akan tetapi hal tersebut dapat memunculkan kesulitan bagi seseorang [3]. Faktanya, ketika seseorang ingin mencari artikel ataupun berita yang relevan dengan kebutuhan mereka, tidak sedikit situs berita yang ditampilkan oleh situs Web dengan berbagai halaman Web dan informasi yang beragam pula [4]. Hal ini menimbulkan masalah untuk mereka yang ingin mengefisiensikan waktunya dalam membaca secara lengkap dan mendapatkan informasi yang diinginkan [4].

Oleh karena itu, untuk dapat memahami maksud dan inti dari seluruh konten artikel berita dalam waktu yang lebih efisien, maka dibutuhkan suatu proses yang dapat memudahkan, salah satunya adalah peringkasan teks [5]Menurut Radef

(2)

Hal 894−901 http://ejurnal.stmik-budidarma.ac.id/index.php/jurikom dkk, sebuah ringkasan diartikan sebagai suatu teks yang dibentuk dari satu atau lebih teks yang mencakup informasi penting dari teks asli. Suatu ringkasan atau rangkuman memiliki panjang yang tidak lebih banyak dari setengah teks asli atau bahkan lebih sedikit [6].

Peringkasan teks otomatis merupakan salah satu solusi untuk menemukan inti dan maksud dari teks artikel ke dalam bentuk deskripsi singkat [6]. Menurut Bhargava et al. (2016) peringkasan teks adalah proses pemadatan teks sedemikian rupa sehingga data yang berlebihan dihapus dan informasi penting yang dapat mewakili keseluruhan dokumen diekstraksi sesingkat mungkin [7]. Peringkasan teks menghasilkan rangkuman yang berisi kalimat penting dan memuat seluruh informasi yang relevan dan penting dari dokumen asli. Pendekatan dalam peringkasan teks dibagi kedalam dua jenis, yakni bentuk peringkasan teks bersifat ekstraktif serta abstraktif [8]. Pada peringkasan teks ekstraktif, ringkasan dihasilkan tanpa membentuk kalimat baru. Berbeda dengan ekstraktif, teknik abstraktif membentuk ringkasan dengan membuat kalimat baru [9]. Alguliev dkk mengemukakan bahwa 5% hingga 30% panjang dokumen dibutuhkan dalam merepresentasikan informasi dari dokumen tersebut sehingga lebih mudah untuk dipahami [10].

Berbagai pendekatan dan metode telah banyak digunakan di penelitian terdahulu pada area peringkasan teks, seperti menggunakan metode pembobotan, machine learning, graph-based, metode statistikal, fuzzy logic, maupun Latent Semantic Analysis (LSA). Penggunaan metode peringkasan teks membantu dalam menghasilkan ringkasan yang mampu memuat informasi penting dari teks asli [6]. Latent Semantic Analysis (LSA) merupakan salah satu jenis metode atau pendekatan yang dapat diterapkan dalam membuat ringkasan teks. Metode ini disebut dengan metode aljabar yang memiliki kemampuan dalam menemukan hubungan antar kalimat dan kata melalui kemampuan Singular Value Decomposition (SVD). Metode LSA digunakan untuk menemukan kalimat-kalimat penting yang akan dibentuk sebagai sebuah ringkasan. Oleh karena itu, pemilihan kalimat menjadi salah satu proses dalam menghasilkan sebuah ringkasan untuk merepresentasikan inti dari teks asli [11].

Adapun beberapa penelitian terkait peringkasan teks berbasis LSA dilakukan oleh Gong dan Liu, Steinberger dan Jezek serta peneliti lainnya. Gong dan Liu merumuskan metode pemilihan kalimat menggunakan SVD dengan memilih nilai tertinggi diantara kalimat pada setiap baris dari matriks V^T. Selain itu, berbeda dengan Gong dan Liu, Steinberger dan Jezek menggunakan dua matriks hasil dari SVD dalam proses pemilihan kalimat. Baik Gong dan Liu maupun Steinberger dan Jezek memberikan hasil ringkasan yang berbeda [11]. Peringkasan teks otomatis juga sangat dipengaruhi oleh jenis Bahasa yang digunakan pada teks terkait baik menggunakan metode LSA ataupun metode lainnya [12].

Algoritma pemilihan kalimat khususnya pada metode LSA memberikan hasil yang berbeda dengan proses yang berbeda pula berdasarkan metode yang digunakan. Salah satu penelitian terdahulu yang dilakukan oleh Dokun, dkk.

menggunakan pendekatan Latent Semantic Analysis untuk proses summarisasi dokumen. Dataset yang digunakan pada penelitian tersebut adalah corpus DUC-2002 dan 2004. Dari eksperimen yang dilakukan, diperoleh hasil penelitian bahwa nilai f-measure dan precision tertinggi diperoleh dengan menggunakan pendekatan Steinberger and Jezek [13], sehingga, pada studi ini juga menggunakan pendekatan Steinberger dan Jezek . Namun, dengan menggunakan dataset yang berbeda yakni pada dokumen Bahasa Indonesia. Salah satu hal yang melatarbelakangi studi ini adalah temuan dari salah satu studi yang menyebutkan bahwa kumpulan dataset tertentu dapat mempengaruhi komposisi ringkasan dalam beberapa kasus, seperti pernyataan kualitas, atribut gespasial dan asalnya [14]. Disisi lain, penulisan artikel pada setiap jenis Bahasa memiliki bentuk yang berbeda-beda. Pada penulisan artikel berita Bahasa Indonesia, dikenal dengan bentuk Piramid, dimana kalimat terpenting diletakkan sebagai kalimat pertama [15]. Oleh karenanya, studi ini berfokus pada peringkasan teks artikel berita Bahasa Indonesia dengan menerapkan metode Latent Semantic Analysis (LSA) dan SVD menggunakan pendekatan Steinberger dan Jezek dalam proses pemilihan kalimat untuk menganalisa lebih lanjut performansi metode LSA terhadap jenis dokumen yang berbeda, yakni dokumen Bahasa Indonesia.

2. METODOLOGI PENELITIAN

Pada sub bab ini mendeskripsikan tahapan-tahapan yang dilakukan dalam studi ini yakni dengan tujuan utama menghasilkan sebuah ringkasan ekstraktif dari teks artikel berita. Metode yang digunakan pada studi ini adalah metode Latent Semantic Analysis (LSA). Latent Semantic Analysis (LSA) merupakan metode aljabar statistic yang mengekstrak struktur semantic tersembunyi dari kata dan kalimat. Metode ini merupakan pendekatan tanpa pengawasan yang tidak membutuhkan pelatihan maupun pengetahuan eksternal. LSA menggunkan konteks dokumen input/ dokumen asli dan mengekstrak informasi seperti kata-kata mana saja yang dapat digunakan bersama juga kata-kata umum mana yang muncul dalam kalimat yang berbeda. Banyaknya kata umum di antara kalimat menunjukkan bahwa kalimat tersebut terkait secara semantic [11]. Algoritma peringkasan berbasis metode LSA terdiri dari 3 tahap utama diantaranya:

pembentukan matriks yang merepresentasikan bobot dari teks artikel, kemudian melakukan dekomposisi menjadi 3 matriks baru melalui perhitungan Singular Value Decomposition (SVD), hingga tahap terakhir adalah pemilihan kalimat [11]. Pembuatan matriks atau dikenal dengan input matrix creation merupakan langkah penting dalam peringkasan teks karena akan memberikan pengaruh terhadap matriks SVD nantinya.

Berikut adalah desain sistem ilustrasi tahap-tahap yang dilakukan pada studi ini:

(3)

Hal 894−901 http://ejurnal.stmik-budidarma.ac.id/index.php/jurikom

Gambar 1. Tahapan alur Penelitian 2.1 Pengumpulan Dataset

Dataset yang digunakan dalam penelitian ini adalah teks artikel berita Bahasa Indonesia. Dataset diperoleh dari penelitian Kurniawan dkk [16]. Dokumen artikel diambil sebanyak 100 teks berita. Setiap artikel berita memiliki judul, sumber URL, konten berita dan rangkuman manual (rangkuman yang dilakukan oleh manusia/para ahli di bidangnya). Adapun data artikel berita yang diperoleh terdiri dari berbagai sumber seperti CNNIndonesia.com, Kumparan.com, dan lainnya [16].

2.2 Tahap Prapemrosesan

Tahap ini merupakan tahap yang dilakukan setelah seluruh data telah diperoleh. Tahap preproses dibutuhkan sebelum menghasilkan sebuah ringkasan dengan tujuan untuk melakukan pembersihan/clean terhadap data yang semula tidak terstruktur menjadi data terstruktur untuk kemudian nantinya akan diproses ke fase berikutnya. Adapun tahap preproses terdiri dari 6 langkah diantaranya segmentasi kalimat, case folding, penghapusan non-alphanumeric, word tokenizing, penghapusan stopwords, dan stemming. Segmentasi Kalimat: Tahap ini dilakukan dengan memecah paragraf dari dokumen berita. Setiap dokumen dipecah menjadi sejumlah kalimat yang ditandai dengan tanda baca titik (.). Proses ini dilakukan dimana artikel berita menjadi sebuah input dan sejumlah kalimat menjadi output [17]. Pada langkah ini, peneliti menggunakan library dari python yaitu nltk atau dikenal dengan Natural Language Toolkit library. Selanjutnya, hasil pemecahan menjadi kalimat kemudian diproses kedalam bentuk huruf kecil (lowercase) atau disebut dengan proses case folding [18]. Setelah itu, karakter angka dan non-alphanumeric pada setiap kalimat akan dibersihkan/dihilangkan, seperti karakter !, <, <=, dan lainnya.

Proses berikutnya ialah word tokenizing. Word tokenizing: merupakan tahap preproses dengan memisahkan kalimat menjadi kata-kata [18]. Kalimat dipisah dengan pemisah karakter spasi. Proses ini dilakukan dengan menggunakan library python. Kemudian, setelah kalimat dipisah menjadi bentuk kata per kata, maka dilakukan proses stopword removal, yang merupakan proses menghilangkan kata yang dinilai tidak memiliki pengaruh signifikan atau tidak terlalu penting pada deskripsi. Stopword removal dilakukan melalui pengecekan terhadap kata-kata tersebut apakah termasuk dalam daftar kata tidak penting (stoplist) atau tidak [18]. Adapun daftar kata tidak penting atau stoplist diambil dari situs Kaggle (Hartono, 2016). Proses selanjutnya adalah stemming. Proses ini dilakukan dengan menghapus suffix, affix, maupun prefix dari hasil stopword removal [17]. Stemming disebut dengan proses mentransformasikan kata-kata yang memiliki imbuhan menjadi bentuk kata dasar yang terdapat dalam Bahasa Indonesia [18]. Pada penelitian ini, stemming menggunakan modul Sastrawi yang tersebut di python. Hasil dari proses stemming dimasukkan ke dalam hasil praproses untuk selanjutnya digunakan pada pembentukan matriks.

2.3 Pembentukan Matriks Sentence-Term

Pembentukan matriks bobot merupakan langkah pertama pada implementasi metode Latent Semantic Analysis (LSA).

Setelah tahap pre-proses selesai dilakukan, maka kemudian dibutuhkan sebuah matriks untuk merepresentasikan kalimat dan term ke dalam ruang dimensi. Matriks sentence-term direpresentasikan sebagai matriks berukuran m x n atau disebut dengan matriks A. Setiap baris atau m pada matriks A merepresentasikan terms/kata, dan setiap kolom (n) merepresentasikan sebuah kalimat. Adapun nilai matriks A merepresentasikan tingkat kepentingan term pada kalimat tersebut [19].

Pada studi ini, pembentukan matriks sentence-term atau kata-kalimat dilakukan dengan menggunakan pendekatan term-frequency/inverse document frequency (TF/IDF). Pendekatan TF/IDF bertujuan untuk mengukur tingkat kepentingan atau seberapa penting pengaruh kata tersebut pada sebuah dokumen dalam sekumpulan dokumen.

(4)

Hal 894−901 http://ejurnal.stmik-budidarma.ac.id/index.php/jurikom Pendekatan ini terdiri dari 2 langkah, yaitu menghitung frekuensi kemunculan kata (t) pada setiap kalimat/dokumen (d), kemudian langkah berikutnya adalah melakukan inversi frekuensi dokumen untuk mengukur seberapa sering atau jarang istilah/term tersebut muncul dalam seluruh dokumen/kalimat [12]. Adapun term atau kata yang digunakan pada pembentukan matriks tersebut adalah kata hasil dari preproses yang muncul setidaknya dalam 2 kalimat [20].

2.4 Perhitungan Singular Value Decomposition

Setelah proses TF/IDF dilakukan, hasil yang diperoleh adalah matriks sentence-term atau direpresentasikan sebagai matriks A berukuran m x n. Jumlah baris m menunjukkan jumlah kata/term dan n merupakan jumlah kalimat dalam sebuah artikel/dokumen. Matriks A yang dihasilkan pada dasarnya adalah jenis sparse matrix (Gunawan, dkk, 2015). Oleh karena itu, matriks A tersebut kemudian didekomposisi kedalam 3 matriks baru menggunakan perhitungan Singular Value Decomposition (SVD) diantaranya matriks orthogonal U, matriks diagonal S atau ∑, dan mariks ortogonal transpos 𝑉^𝑇[11]. Secara sistematis dapat ditulis dengan rumus berikut [21]:

𝐴 = 𝑈∑𝑉^𝑇 (1)

Dimana:

A: Input matrix (m x n) U: Words x concept (m x n)

∑: Nilai Singular, matriks diagonal (n x n) 𝑉^𝑇: Sentences x concept (n x n)

Gambar 2. Singular Value Decomposition (SVD) 2.4 Pemilihan Kalimat

Tahap ini adalah tahap terakhir pada metode Latent Semantic Analysis (LSA) sebelum membentuk sebuah ringkasan oleh sistem yang dibangun. Pemilihan kalimat dilakukan dengan memilih kalimat penting menggunakan hasil dari perhitungan singular value decomposition (SVD) yang akan dijadikan sebagai ringkasan. Terdapat beberapa algoritma ataupun pendekatan yang dapat digunakan untuk dapat memilih kalimat pada metode LSA. Algoritma tersebut seperti pendekatan Gong dan Liu pada tahun 2011, Steinberger dan Jezek pada tahun 2014, ataupun pendekatan lainnya [22]. Algoritma Gong dan Liu merupakan salah satu kajian utama yang dilakukan dalam peringkasan teks dengan metode LSA. Dalam pendekatan Gong dan Liu, satu kalimat dipilih dari konsep yang paling penting, kemudian kalimat kedua dipilih dari konsep terpenting kedua hingga terkumpul sejumlah kalimat yang sudah ditentukan sebelumnya. Jumlah kalimat yang akan dikumpulkan diberikan sebagai parameter.

2.5 Pembentukan Ringkasan

Pada tahap ini dilakukan penyusunan kembali kalimat-kalimat yang telah terpilih berdasarkan nilai tertinggi dari pendekatan Steinberger dan Jezek. Adapun kalimat yang memiliki nilai tertinggi pertama akan dimasukkan sebagai kalimat pertama sebagai bagian dari ringkasan, kemudian kalimat dengan nilai tertinggi kedua menjadi kalimat kedua dari sebuah ringkasan yang dibentuk dan begitu seterusnya hingga seluruh kalimat yang terpilih telah selesai diproses.

2.5 Evaluasi Performansi

Setelah seluruh kalimat telah diberi nilai dan melalui proses pemilihan, maka selanjutnya tahap terakhir dari penelitian ini adalah menguji performansi sistem menggunakan pendekatan Steinberger dan Jezek. Pada peringkasan teks, pengukuran kualitas seperti pemahaman, koherensi, dan keterbacaan sangat sulit dilakukan. Para ahli melakukan evaluasi sistem secara manual dengan membandingkan ringkasan yang berbeda kemudian memilih yang terbaik. Namun yang selanjutnya menjadi tantangan adalah bahwa setiap individu yang melakukan tugas evaluasi biasanya memiliki ide atau tanggapan yang sangat berbeda mengenai hal-hal yang harus dimuat dalam ringkasan yang baik [23].

Pengukuran performa algoritma saat ini diukur sesuai kriteria sebagai berikut [12]

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝐶𝑜𝑟𝑟𝑒𝑐𝑡 𝑠𝑒𝑛𝑡𝑒𝑛𝑐𝑒𝑠

𝐶𝑜𝑟𝑟𝑒𝑐𝑡 𝑠𝑒𝑛𝑡𝑒𝑛𝑐𝑒𝑠+𝑊𝑟𝑜𝑛𝑔 𝑠𝑒𝑛𝑡𝑒𝑛𝑐𝑒𝑠 (2)

(5)

Hal 894−901 http://ejurnal.stmik-budidarma.ac.id/index.php/jurikom 𝑅𝑒𝑐𝑎𝑙𝑙 = 𝐶𝑜𝑟𝑟𝑒𝑐𝑡 𝑠𝑒𝑛𝑡𝑒𝑛𝑐𝑒𝑠

𝐶𝑜𝑟𝑟𝑒𝑐𝑡 𝑠𝑒𝑛𝑡𝑒𝑛𝑐𝑒𝑠+𝑀𝑖𝑠𝑠𝑒𝑑 𝑠𝑒𝑛𝑡𝑒𝑛𝑐𝑒𝑠 (3)

𝐹 − 𝑚𝑒𝑎𝑠𝑢𝑟𝑒 = 2 × 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑅𝑒𝑐𝑎𝑙𝑙

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 +𝑅𝑒𝑐𝑎𝑙𝑙 (4)

Dimana Correct sentences adalah jumlah kalimat yang sama di kedua ringkasan yang dihasilkan oleh manusia dan sistem. Wrong sentences adalah jumlah kalimat disajikan dalam ringkasan yang dihasilkan oleh sistem tetapi tidak termasuk dalam ringkasan yang dibuat manusia; Missed sentences adalah jumlah kalimat yang tidak muncul di ringkasan yang dihasilkan sistem tetapi disajikan dalam ringkasan yang dihasilkan oleh manusia. Oleh karena itu, Precision menentukan jumlah kalimat yang cocok yang diekstraksi oleh sistem dan Recall menentukan jumlah kalimat cocok yang terlewatkan oleh sistem peringkasan [23].

3. HASIL DAN PEMBAHASAN

Eksperimen dilakukan untuk menguji performansi metode Latent Semantic Analysis (LSA) dan Teknik Steinberger dan Jezek pada proses pembentukan kalimat terhadap dataset yang digunakan. Setiap ringkasan yang dihasilkan menggunakan tiga jenis compression rate berbeda, yakni 10%, 30% dan 50%. Persentase tersebut merupakan jumlah kalimat dari teks artikel yang diambil dari bentuk asli berita sebelum diubah (original).

3.1 Pembentukan Kalimat

Pada penelitian ini, digunakan pendekatan Steinberger dan Jezek pada proses pemilihan kalimat. Pendekatan ini menggunakan matriks 𝑉^𝑇 dan matriks Singular S atau ∑ yang diambil dari hasil perhitungan SVD. Matriks 𝑉^𝑇 merupakan transpos dari matriks V dimana tiap baris matriks tersebut mendefinisikan kalimat dan kolom mendefinisikan sebagai konsep yang terbentuk. Dalam pendekatan ini, panjang setiap vektor kalimat, yang diwakili oleh baris matriks V, digunakan untuk pemilihan kalimat. Panjang kalimat kemudian dihitung dengan menggunakan rumus berikut [22]:

𝑙𝑒𝑛𝑔𝑡ℎ = √∑^𝑛_𝑗=1𝑉𝑖𝑗 × ∑𝑗𝑗 (5)

Kalimat dengan nilai panjang tertinggi akan dipilih sebagai bagian dari ringkasan. Berikut adalah contoh ilustrasi pemilihan kalimat menggunakan pendekatan Steinberger dan Jezek [11]:

a. Dari hasil SVD, diperoleh matriks V^Tdengan ukuran 3 x 2 yaitu 3 kolom kalimat dan 2 baris konsep yang terbentuk yaitu k = 2.

Tabel 1. Simulasi Perhitungan Matriks V^T Matriks V^T (k = 2)

Kal0 Kal1 Kal2

Kon0 0.457 0.728 0.510

Kon1 -0.770 0.037 0.637

b. Kemudian, dilakukan perhitungan panjang/length menggunakan rumus (2).

Tabel 2. Simulasi Perhitungan Nilai Panjang Nilai Panjang/Length

Kal0 1.043

Kal1 1.929

Kal2 1.889

Selanjutnya, jika kalimat tersebut memiliki nilai Panjang tertinggi, maka kalimat tersebut akan terpilih sebagai bagian dari ringkasan yang akan dibentuk. Dalam contoh ini maka Kal1 yang terpilih sebagai kalimat pertama untuk kemudian dimasukkan sebagai bagian dari ringkasan. Adapun jumlah kalimat yang akan diambil untuk membentuk ringkasan dapat ditentukan berdasarkan compression rate. Proses ini dilakukan hingga memenuhi jumlah kalimat berdasarkan perhitungan compression rate yang diinginkan.

Tujuan utama penggunaan pendekatan ini adalah agar ringkasan yang dihasilkan dapat lebih baik dengan mengatasi kelemahan dari metode Gong dan Liu. Pada pendekatan Steinberger dan Jezek, kalimat yang berkaitan erat dengan semua konsep akan dipilih dimana hal ini memungkinkan adanya lebih dari satu kalimat yang dipilih dari sebuah konsep penting [11].

3.2 Hasil Studi

Proses pengujian dilakukan dengan menggunakan 100 teks artikel berita Bahasa Indonesia. Dari setiap artikel berita yang digunakan, jumlah kalimatnya pun berbeda-beda. Proses ini juga mencakup proses membandingkan hasil. Hasil ringkasan yang dihasilkan oleh sistem dibandingkan dengan ringkasan yang dihasilkan oleh manusia/human. Adapun ringkasan manual atau ringkasan yang dibuat oleh manusia diperoleh dari penelitian yang dilakukan oleh Kurniawan dan Louvan [16]. Studi ini menggunakan tiga nilai compression rate yang berbeda-beda. Compression Rate berarti jumlah kata dalam

(6)

Hal 894−901 http://ejurnal.stmik-budidarma.ac.id/index.php/jurikom ringkasan dibagi dengan jumlah kata dari teks original. Contoh, suatu artikel terdiri dari 1000 kata yang diringkas menjadi 100 kata, sehingga dapat dikatakan bahwa telah mengalami rasio kompresi 1:10 atau 10%.

Berikut merupakan contoh salah satu teks artikel berita Bahasa Indonesia: Teks di atas merupakan teks asli artikel Berita Bahasa Indonesia sebelum dilakukan peringkasan. Berikut adalah hasil ringkasan manual yang dilakukan oleh manusia/para ahli di bidangnya atau yang disebut sebagai hasil human summary:

Hasil ringkasan oleh sistem menggunakan Teknik Steinberger dan Jezek dengan tingkat compression rate senilai 10%:

Hasil ringkasan oleh sistem menggunakan Teknik Steinberger dan Jezek dengan compression rate senilai 30%:

Hasil ringkasan oleh sistem menggunakan Teknik Steinberger dan Jezek dengan tingkat compression rate senilai 50%:

JAKARTA (Pos Kota) - Komisi Pemberantasan Korupsi (KPK) menahan Bupati Hulu Sungai Tengah, Kalimantan Selatan, Abdul Latif, usai ditetapkan tersangka dalam kasus suap proyek pembangunan RSUD Damanhuri, Barabai.

Rupanya bupati itu merupakan residivis kasus korupsi.

Ketua KPK, Agus Rahardjo menyatakan, Latif pernah diproses dalam kasus korupsi pada 2005-2006. Saat itu, Latif tersangkut kasus korupsi pembangunan Unit Sekolah Baru (USB) Sekolah Menengah Atas Negeri 1 Labuan Amas Utara dengan anggaran Rp711,880 juta."Waktu itu yang bersangkutan seorang pengusaha. Kasusnya telah diputus di pengadilan, yang bersangkutan divonis satu setengah tahun penjara kalau tidak salah," kata Agus, saat konferensi pers, di Gedung KPK, Jalan Kuningan Persada, Setiabudi, Jakarta Selatan, Jumat (5/1/2018).

Agus menguraikan, pembangunan sekolah tersebut dilakukan saat Latif masih menjadi kontraktor swasta. Proyek pembangunan sekolah itu tidak selesai dan menimbulkan kerugian keuangan negara. Setelah menjalani hukuman, Latif mencalonkan diri menjadi Anggota DPRD Kalimantan Selatan periode 2014-2019. Dia menjadi caleg dari daerah pemilihan IV meliputi Kabupaten Tapin, Hulu Sungai Tengah, dan Hulu Sungai Selatan. "Yang bersangkutan kemudian terpilih sebagai anggota DPRD Kalimantan Selatan periode 2014-2019," ujar Agus.

Setahun menjadi anggota dewan, Latif ikut dalam pemilihan Bupati Hulu Sungai Tengah periode 2016-2021 hingga terpilih dan dilantik pada Februari 2016 lalu."Ini harus jadi pelajaran menjelang Pilkada. Mari kita pilih betul-betul personal yang baik, yang tidak punya catatan buruk," imbau Agus.

Dalam kasus suap pembangunan RSUD Damanhuri ini, Latif diduga menerima suap Rp3,6 miliar. Jumlah itu merupakan komitmen fee 7,5 persen dari total nilai proyek pembangunan ruang rawat kelas I, II, VIP, dan Super VIP. Uang itu diberikan oleh Direktur Utama PT Menara Agung, Donny Winoto, selaku kontraktor proyek. Donny juga ditetapkan sebagai tersangka dalam OTT KPK.

Agus menyebut Donny merupakan kontraktor swasta yang cukup banyak menangani proyek di Kabupaten Hulu Sungai Tengah. "Tetapi sejumlah proyek yang dikerjakan diduga tidak selesai," imbuh Agus. KPK menetapkan empat tersangka, yaitu diduga sebagai penerima adalah Abdul Latif, Fauzan Rifani, dan Abdul Basit, kemudian diduga sebagai pemberi adalah Donny Winoto. Keempat orang tersangka itu pun sudah ditahan di rumah tahanan berbeda.

Abdul Basit bersama Fauzan Rifani dititipkan di Rutan Pomdam Jaya, Guntur. Sementara, Abdul Latif bersama Donny Winoto masing-masing ditahan di Rutan KPK, dan Rutan Mapolres Jakarta Timur.

Dia menjadi caleg dari daerah pemilihan IV meliputi Kabupaten Tapin, Hulu Sungai Tengah, dan Hulu Sungai Selatan. Agus menyebut Donny merupakan kontraktor swasta yang cukup banyak menangani proyek di Kabupaten Hulu Sungai Tengah.

Rupanya bupati itu merupakan residivis kasus korupsi.

Saat itu, Latif tersangkut kasus korupsi pembangunan Unit Sekolah Baru (USB) Sekolah Menengah Atas Negeri 1 Labuan Amas Utara dengan anggaran Rp711,880 juta.

Agus menguraikan, pembangunan sekolah tersebut dilakukan saat Latif masih menjadi kontraktor swasta. Proyek pembangunan sekolah itu tidak selesai dan menimbulkan kerugian keuangan negara. Jumlah itu merupakan komitmen fee 7,5 persen dari total nilai proyek pembangunan ruang rawat kelas I, II, VIP, dan Super VIP. Agus menyebut Donny merupakan kontraktor swasta yang cukup banyak menangani proyek di Kabupaten Hulu Sungai Tengah. Keempat orang tersangka itu pun sudah ditahan di rumah tahanan berbeda.

(7)

Hal 894−901 http://ejurnal.stmik-budidarma.ac.id/index.php/jurikom Dari proses pengujian menggunakan tiga tingkat compression rate yang berbeda-beda, berikut hasil evaluasi performansi terhadap Teknik Steinberger dan Jezek yang didapatkan:

Tabel 3. Perbandingan Nilai Precision, Recall, dan F-Measure pada salah satu contoh teks artikel Tingkat Compression Rate

10% 30% 50%

Precision 0% 29% 33%

Recall 0% 33% 67%

F-measure 0% 31% 44%

Adapun Tabel 4 dibawah menunjukkan daftar indeks kalimat yang berhasil diekstrak oleh sistem menjadi sebuah ringkasan untuk ketiga compression rate yang digunakan pada contoh salah satu teks artikel berita di atas:

Tabel 4. Indeks Kalimat yang berhasil diekstrak menjadi ringkasan oleh sistem Jumlah Kalimat Original (JKO = 24)

Compression Rates

Jumlah Kalimat yang diesktrak

Indeks Kalimat pada Ringkasan Sistem

Indeks Kalimat pada Ringkasan Manual

10% 2 [9,18] [0, 1, 2, 3, 4, 5]

30% 7 [1,3,6,7,15,18,21]

50% 12 [0,1,2,4,9,11,12,13,14,15,18,21]

Tabel diatas mendeskripsikan tingkat persamaan kalimat yang diekstrak menjadi rangkuman oleh sistem. Untuk nilai compression rate senilai 10%, jumlah kalimat yang diekstrak hanya berjumlah 2, dan kalimat yang masuk ke dalam ringkasan adalah kalimat dengan indeks 9 dan 18. Sedangkan, jika dibandingkan dengan indeks kalimat yang terdapat pada ringkasan manual atau human summary, tidak ada persamaan kalimat yang diekstrak. Kemudian, untuk nilai compression rate 30%, jumlah kalimat yang diekstrak adalah 7 dari jumlah kalimat original berjumlah 24, yakni kalimat dengan index 1,3,6,7,15,18,21 yang masuk menjadi ringkasan yang dihasilkan oleh sistem. Jika dibandingkan dengan indeks kalimat pada ringkasan manual, dari ketujuh kalimat yang diekstrak oleh sistem, terdapat 2 indeks kalimat yang sama. Selanjutnya, untuk tingkat compression rate 50%, jumlah kalimat yang diekstrak adalah 12 kalimat dengan indeks kalimat 0,1,2,4,9,11,12,13,14,15,18,21, yang jika dibandingkan dengan indeks kalimat pada ringkasan manual, terdapat 3 indeks kalimat yang sama.

Hasil diatas menunjukkan bahwa Teknik Steinberger dan Jezek yang digunakan masih belum optimal untuk menghasilkan ringkasan yang baik. Hal ini terlihat dari nilai precision, recall dan f-measure seperti yang ditunjukkan apda Tabel 3, bahwa pada salah satu teks artikel berita untuk tingkat ringkasan 10% mencapai nilai 0% artinya tidak ada kalimat yang sama yang dihasilkan oleh sistem dengan ringkasan manual. Hal ini terjadi karena dalam proses pemilihan kalimat menggunakan Teknik Steinberger dan Jezek, kalimat yang dipilih masih berasal dari konsep yang dianggap tidak penting untuk semua kalimat yang ada.

Hal ini berarti konsep yang tidak penting untuk keseluruhan kalimat juga terekstrak dan dianggap sebagai konsep terpilih. Sehingga ringkasan yang dihasilkan sangat mempengaruhi nilai performansi. Selain itu, hasil dari praproses yang digunakan saat pembentukan matriks SVD masih belum bersih yaitu masih terdapat kata-kata yang tidak relevan seperti kata pun yang masih masuk ke dalam bagian dari ringkasan.

Adapun hasil keseluruhan pengujian performansi untuk 100 data teks artikel berita dengan mengambil nilai rata- rata pada setiap metrik pengukuran ditunjukkan pada Tabel 5 dibawah:

Tabel 5. Perbandingan nilai rata-rata Precision, Recall, dan F-Measure Tingkat Compression Rate

10% 30% 50%

Precision 20% 15% 15%

Recall 12% 25% 42%

F-measure 14% 18% 22%

Tabel 5 di atas menggambarkan hasil pengujian performansi terhadap Teknik Steinberger dan Jezek untuk 100 data teks artikel berita Bahasa Indonesia. Hasil akhir yang diperoleh menunjukkan perbedaan untuk masing-masing tingkat compression rate yang digunakan. Terlihat bahwa untuk compression rate 50%, nilai recall, maupun f-measure merupakan nilai tertinggi diantara kedua jenis compression rate lainnya yaitu nilai rata-rata presision sebesar 15%, recall sebesar 42% dan nilai rata-rata f-measure sebesar 22%.

Hal tersebut terjadi dikarenakan dengan compression rate yang lebih besar maka kesempatan kalimat tersebut diambil sebagai bagian dari ringkasan semakin besar pula yang dimana evaluasi dilakukan berdasarkan jumlah kalimat di antara ringkasan oleh sistem maupun oleh manusia. Selain itu, masih kecilnya nilai dari ketiga metrik pengukuran tersebut juga disebabkan oleh adanya beberapa ringkasan yang dihasilkan oleh sistem mengandung kalimat yang tidak sama dengan kalimat yang terdapat pada ringkasan manual sehingga hal ini menyebabkan nilai precision, recall, maupun

(8)

Hal 894−901 http://ejurnal.stmik-budidarma.ac.id/index.php/jurikom f-measure dapat mencapai 0%, yaitu jika dihitung nilai rata-rata keseluruhan untuk seluruh 100 data teks artikel, maka nilai rata-rata precision, recall, dan f-measure menjadi kecil.

4. KESIMPULAN

Setelah melakukan eksperimen pada proses peringkasan teks artikel berita Bahasa Indonesia dengan menerapkan metode Latent Semantic Analysis (LSA) serta Teknik Steinberger dan Jezek yang digunakan pada proses pemilihan kalimat, maka diperoleh hasil yang berbeda-beda pada skcenario perbedaan nilai compression rate yang digunakan. Nilai precision tertinggi yaitu 20% diperoleh pada nilai compression rate 10%, kemudian nilai rata-rata recall tertinggi didapatkan ketika nilai compression rate 50% yaitu 42%. Hal itu pula juga ditunjukkan pada nilai f-measure. Nilai f-measure tertinggi yang diperoleh adalah 22% yakni ketika nilai compression rate ringkasan yang diterapkan adalah 50%. Tingkat compression rate dinilai sangat berpengaruh terhadap hasil pengujian performa metode yang digunakan. Selain itu, hasil pengujian yang diperoleh juga dipengaruhi oleh dataset dan bentuk ringkasan yang dibuat oleh manusia yang digunakan sebagai pembanding hasil ringkasan yang dibentuk oleh sistem. Untuk studi lanjutan, disarankan untuk penggunaan metode- metode lain seperti machine learning dalam membentuk model yang lebih baik, utamanya dalam hal membentuk dan memilih kalimat untuk mencapai hasil rangkuman yang lebih baik dan optimal.

REFERENCES

[1] M. Tanikawa, “What is news? What is the newspaper? The physical, functional, and stylistic transformation of print newspapers, 1988-2013,” International Journal of Communication, vol. 11, no. September 2017, pp. 3519–3540, 2017.

[2] R. Indrianto, M. A. Fauzi, and L. Muflikhah, “Peringkasan Teks Otomatis Pada Artikel Berita Kesehatan Menggunakan K- Nearest Neighbor Berbasis Fitur Statistik,” Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer (J-PTIIK) Universitas Brawijaya, vol. 1, no. 11, pp. 1–6, 2017.

[3] M. Allahyari et al., “Text Summarization Techniques: A Brief Survey,” International Journal of Advanced Computer Science and Applications, vol. 8, no. 10, 2017.

[4] E. Lloret, “TEXT SUMMARIZATION : AN,” Paper supported by the Spanish Government under the project TEXT-MESS (TIN2006-15265-C06-01)., 2008.

[5] H. Zhang, Z. C. W. Ma, and Q. Cai, “A study for documents summarization based on personal annotation,” in HLTNAACL 2003 Workshop: Text Summarization (DUC03), 2003, pp. 41–48.

[6] Silvia, P. Rukmana, and V. R. Aprilia, “APLIKASI AUTOMATIC TEXT.” pp. 1–7, 2010.

[7] R. Bhargava, Y. Sharma, and G. Sharma, “ATSSI: Abstractive Text Summarization Using Sentiment Infusion,” in Procedia Computer Science, 2016, vol. 89, pp. 404–411.

[8] A. P. Widyassari et al., “Review of automatic text summarization techniques & methods,” Journal of King Saud University - Computer and Information Sciences, vol. 34, no. 4, pp. 1029–1046, 2022.

[9] J.-M. T. Moreno, Automatic Text Summarization, 1ST ed. London: Wiley-ISTE, 2014.

[10] R. Alguliyev and R. Aliguliyev, “Evolutionary Algorithm for Extractive Text Summarization,” Intelligent Information Management, vol. 1, pp. 128–138, 2009.

[11] M. G. Ozsoy, F. N. Alpaslan, and I. Cicekli, “Text summarization using latent semantic analysis,” Journal of Information Science, vol. 37, no. 4, pp. 405–417, 2011.

[12] F. E. Gunawan, A. V. Juandi, and B. Soewito, “An automatic text summarization using text features and singular value decomposition for popular articles in Indonesia language,” in 2015 International Seminar on Intelligent Technology and Its Applications, ISITIA 2015 - Proceeding, 2015, pp. 27–32.

[13] D. Oluwajana and E. Celebi, “Single-Document Summarization Using Latent Semantic Analysis,” International Journal of Scientific Research in Information Systems and Engineering (IJSRISE), vol. 1, no. 2, 2018.

[14] L. Koesten, E. Simperl, T. Blount, E. Kacprzak, and J. Tennison, “Everything you always wanted to know about a dataset: Studies in data summarisation,” International Journal of Human Computer Studies, vol. 135, no. October 2018, p. 102367, 2020.

[15] Juwito, Menulis Berita dan Feature. Surabaya: Unesa University Press, 2008.

[16] K. Kurniawan and S. Louvan, “INDOSUM: A New Benchmark Dataset for Indonesian Text Summarization,” in International Conference on Asian Language Processing (IALP) Authors:, 2018.

[17] P. M. Sabuna and D. B. Setyohadi, “Summarizing Indonesian Text Automatically By Using Sentence Scoring And Decision Tree,” in International Conference of Information Technology, Information Systems and Electrical Engineering, 2017.

[18] M. A. Zamzam, “Sistem Automatic Text Summarization Menggunakan Algoritma Textrank,” Matics, vol. 12, no. 2, pp. 111–

116, 2020.

[19] K. Al-Sabahi, Z. Zuping, and Y. Kang, “Latent Semantic Analysis Approach for Document Summarization Based on Word Embeddings.” 2018.

[20] N. Derbentseva, P. J. Kwantes, and P. Terhaar, “Latent Semantic Analysis ( LSA ) tools Latent Semantic Analysis ( LSA ) tools Defence R & D Canada – Toronto,” no. July. 2012.

[21] S. A. Babar and P. D. Patil, “Improving performance of text summarization,” Procedia Computer Science, vol. 46, no. Icict 2014, pp. 354–363, 2015.

[22] R. M. Badry, A. S. Eldin, and D. S. Elzanfally, “Text Summarization within the Latent Semantic Analysis Framework : Comparative Study,” International Journal of Computer Application, vol. 81, no. 11, pp. 40–45, 2013.

[23] S. Gholamrezazadeh, M. A. Salehi, and B. Gholamzadeh, “A comprehensive survey on text summarization systems,” in Proceedings of the 2009 2nd International Conference on Computer Science and Its Applications, CSA 2009, 2009, pp. 1–6.