• Tidak ada hasil yang ditemukan

REKAYASA PERANGKAT LUNAK AUTOMATIC TEXT SUMMARIZATION MENGGUNAKAN METODE LATENT SEMANTIC ANALYSIS. Alfie Tjahjadi Sugita, Muhammad Rizal

N/A
N/A
Protected

Academic year: 2021

Membagikan "REKAYASA PERANGKAT LUNAK AUTOMATIC TEXT SUMMARIZATION MENGGUNAKAN METODE LATENT SEMANTIC ANALYSIS. Alfie Tjahjadi Sugita, Muhammad Rizal"

Copied!
9
0
0

Teks penuh

(1)

REKAYASA PERANGKAT LUNAK AUTOMATIC TEXT

SUMMARIZATION MENGGUNAKAN METODE LATENT SEMANTIC ANALYSIS

Alfie Tjahjadi Sugita, Muhammad Rizal

Sekolah Tinggi Manajemen Informatika dan Komputer LIKMI Jl. Ir. H. Djuanda 96 Bandung 40132

Email : alfie@likmi.ac.id

Abstrak

Pada zaman sekarang ini data yang dihasilkan dari internet sangatlah besar, termasuk data berupa text. Dikarenakan banyaknya data text baik berupa artikel ataupun ebook dari internet, terkadang seseorang kesulitan untuk memahami isi dari text tersebut. Pemilihan latent semantic analysis sebagai metode dalam melakukan ringkasan dokumen dikarenakan tidak dibutuhkannya data training untuk menentukan kalimat penting dalam suatu dokumen (unsupervised learning), sehingga proses pengumpulan data teks membutuhkan waktu yang lebih sedikit dan sangat cocok digunakan ketika dataset yang dibutuhkan sangat sulit didapat.

Beberapa tahapan yang dilakukan dalam peringkasan dokumen menggunakan metode latent semantic analysis adalah sebagai berikut : pre-processing, pembuatan document term matrix, pembuatan matrix svd, pemilihan kalimat penting dalam suatu dokumen. Hasil penelitian menunjukkan kualitas ringkasan yang dihasilkan sangat tergantung pada pemilihan document term matrix, sentence selection, aspect ratio berapa persen dokumen akan diringkas, dan kualitas dokumen yang akan diringkas.

Keyword : Text Summarization, big data, latent semantic analysis

1. PENDAHULUAN

Jumlah data yang telah dibuat dan disimpan pada tingkat global hari ini hampir tidak terbayangkan jumlahnya, termasuk jumlah ebook ataupun artikel online. Data Tersebut tumbuh tanpa henti. Data yang banyak tersebut disebut Big Data, sayangnya sampai saat ini, baru sebagian kecil data yang telah dianalisis. Padahal, pengolahan data yang begitu banyak menjadi informasi menjadi sangat penting pada zaman sekarang, terlebih untuk suatu perusahaan. Contohnya pengolahan opini masyarakat dari sosial media mengenai suatu produk, hal ini penting untuk mengetahui apakah produk yang dipasarkan sudah memenuhi kebutuhan konsumen atau belum.

Penggunaan peringkas teks dapat membantu memecahkan masalah ini. Oleh karena itu, Automatic Text Summarization diperlukan untuk mendapatkan hasil ringkasan teks yang dibutuhkan pengguna. Pada umumnya, teknik yang digunakan untuk meringkas sebuah teks adalah mengambil kalimat penting dalam artikel

(2)

tekstual tersebut, namun pembentukan ringkasan dengan memotong kalimat secara paksa atau acak terhadap kalimat dapat menghilangkan bagian penting dari artikel, buku maupun ebook.

2. Landasan Teori

a. Rekayasa Perangkat Lunak

Perangkat lunak, menurut Pressman di dalam buku “Software Engineering: A Practitioner’s Approach, Seventh Edition” memiliki definisi sebagai berikut: “Software is : (1) instructions (computer programs) that when executed provide desired features, function, and performance;” (Pressman,2010:4).

Dari kutipan tersebut, dapat digambarkan perangkat lunak adalah kumpulan intruksi berupa program komputer yang ketika dijalankan akan menyediakan fasilitas, fungsi dan kinerja yang diinginkan.

Rekayasa perangkat lunak sendiri menurut Sommervile dalam buku “Software Engineering, Ninth Edition” memilki definisi sebagai berikut : “Software engineering is an engineering discipline that is concerned with all aspects of software production.” (Sommervile,2011:6).

Dari kutipan tersebut, rekayasa perangkat lunak adalah sebuah disiplin teknik yang berhubungan dengan semua aspek dari produksi perangkat lunak.

Berdasarkan berbagai penjelasan di atas, dapat disimpulkan pengertian dari rekayasa perangkat lunak, yaitu : Rekayasa perangkat lunak adalah ilmu yang mempelajari, menganalisis, mendesain, mengkonstruksi dan menguji perangkat lunak.

b. Object Oriented Programming (OOP)

Menurut Nugroho dalam buku “Analisis dan Perancangan Sistem Informasi dengan Metodologi Berorientasi Objek”, pemrograman berorientasi objek memiliki definisi sebagai berikut : “OOP (Object Oriented Programming) atau Pemrograman Berorientasi Objek adalah suatu cara baru dalam berpikir serta berlogika dalam menghadapi masalah-masalah yang akan dicoba-atasi dengan bantuan komputer” (Nugroho,2002:4).

Menururt Supardi dalam buku “Belajar Semua Edisi Java2”, Object Oriented Programming memiliki definisi sebagai berikut :

(3)

“OOP merupakan cara berpikir, pandangan, atau paradigma baru untuk membuat program atau merancang sistem dengan memperhatikan objek, ciri objek, dan perilakunya.” (Supardi,2009:128).

Berdasarkan penjelasan-penjelasan tersebut, dapat disimpulkan pengertian dari metodologi pemrograman bebasis objek (OOP), yaitu :

Pemrograman berbasis objek, atau yang lebih dikenal dengan istilah Object-Oriented Programming (OOP) adalah metode pemrograman yang berdasarkan kepada penggunaan konsep objek, dimana objek merupakan beberapa bagian dari keseluruhan program, dan setiap objek memiliki identitas berupa data (atribut) dan perilaku (method).

c. Natural Language Processing

Menurut Kallimani, Srinivasa dan Reddy B dalam jurnal “Experiments with Ontology-Based, Customized, Extractive Text Summary and Word Scoring” natural language processing adalah sebagai berikut (Kallimani, Srinivasa & Reddy B,2012:35) :

Natural Language Processing (NLP) is the engineering of systems that process or analyze written or spoken natural language. It is a field in artificial intelligence which attempts to use computers to process information contained in ordinary language such as English.

Berdasarkan deskripsi tersebut dapat diartikan : Natural Language Processing adalah rekayasa sistem yang memproses atau menganalisa tulisan maupun lisan dalam bahasa alami. Natural Language Processing termasuk bidang kecerdasan buatan yang mencoba menggunakan komputer untuk memproses informasi dari bahasa yang biasa digunakan sehari hari seperti Bahasa Inggris.

(4)

“Automatic summarization is the process of reducing a text document with a computer program in order to create a summary that retains the most important points of the original document” (Ragunath & Sivaranjani, April 2015:2638). Berdasarkan deskripsi tersebut dapat diartikan : Automatic Summarization adalah proses mengurangi teks pada dokumen menggunakan program komputer dalam rangka pembuatan ringkasan yang mempertahankan point paling penting dari document asli.

Ragunath dan Sivarjani juga menjelaskan, Automatic Summarization terbagi kedalam dua ketegori (Ragunath & Sivaranjani, April 2015:2683) :

1. Extraction Method

Extraction Method bekerja dengan memilih subset kata frase atau kalimat dari teks asli untuk membentuk ringkasan.

2. Abstraction methods

Abstraction methods bekerja dengan membangun internal representasi semantic dan menggunakan bahasa alamiah untuk membuat ringkasan.

Menurut Jagadish S. Kallimani, K. G. Srinivasa dan Eswara Reddy B dalam jurnal “Experiments with Ontology- Based, Customized, Extractive Text Summary and Word Scoring” text summarization adalah :

“Text summarization is a way to condense the large amount of information into a concise form by the process of selection of important information and discarding unimportant and redundant information”.(Kallimani, Srinivasa & Reddy B,2012:35).

Dari deskripsi tersebut dapat diartikan bahwa : Text summarization adalah cara untuk menyingkat sejumlah besar informasi kedalam bentuk ringkasan dengan memilih informasi yang penting dan membuang informasi tidak penting dan berlebih.

Jagadish S. Kallimani, K. G. Srinivasa dan Eswara Reddy B juga menyebut beberapa jenis automatic text summarization, diantaranya adalah sebagai berikut (Kallimani, Srinivasa & Reddy B,2012:36) :

1. Generic dan topic centrict summarization

Ringkasan generic adalah ringkasan yang memberikan pengguna keseluruhan makna dari dokumen. Kebanyakan ringkasan yang dibuat oleh

(5)

manusia adalah generic summarization. Ringkasan generic biasanya mengandung informasi inti dari dokumen. Biasanya menggunakan metode Maximal Marginal Relevance (MMR).

Dalam kasus topic centrict summarization, tugas utamanya adalah untuk mengidentifikasi topic pada dokumen. Dalam dunia nyata, tujuan utama dari dari automatic text summarization untuk single dokumen adalah untuk meringkas berita. Probabilistic Latent Semantic Indexing (PLSI) biasanya digunakan untuk mengidentifikasi topik.

2. Abstractive dan extractive summarization

Abstractive summarization adalah proses dimana abstrak dokumen dibuat. Abstractive summarization dapat berisi kata-kata dan frase yang mungkin tidak terdapat dalam dokumen aslinya. Prosedure abstractive summarization adalah proses yang sangat rumit, seperti harus menangani kalimat semantik.

Extractive summarization lebih sederhana dibandingkan Abstractive summarization dan lebih umum digunakan oleh para peneliti automatic text summarization pada saat ini. Extractive summarization bekerja dengan memberikan score kepada kalimat menggunakan beberapa pendekatan, kemudian menggunakan kalimat yang memiliki score tinggi untuk membentuk ringkasan.

3. Single dan multi-document summarization

Single document summarization, seperti namanya hanya untuk memproses satu dokument saja. Single document summarization adalah cara yang tradisional dalam pembuatan ringkasan. Single document summarization sangat berguna dalam beberapa kasus, misalnya untuk meringkas email, berita, atau membuat abstract dari scientific research papers.

Multi-document summarization adalah ketika banyak dokumen memliki topic yang sama dijadikan sumber untuk pembuatan ringkasan. Hasilnya adalah menyajikan inti infomasi dari seluruh dokumen.

(6)

1. Baseline, scoring system menandai kalimat berdasarkan letak kalimat tersebut dalam teks. Pada teks berita/koran, kalimat pertama dalam sebuah teks akan memiliki skor tertinggi, dan kalimat terakhir akan mendapat skor terendah. 2. First sentence, sama seperti sebelumnya kalimat pertama dalam sebuah teks

akan diaggap penting dan memiliki nilai yang tinggi.

3. Title, kalimat atau kata yang mengandung title dari teks tersebut akan dianggap penting dan memiliki nilai yang tinggi.

4. Word Frequency, kata-kata yang sering diulang di dalam teks akan dianggap penting karena kata-kata tersebut dianggap mewakili topik yang bersangkutan. 5. Indicative phrases, kalimat yang mengandung phrases seperti “...this

document...”.

6. Position score, beberapa dokumen memiliki arti atau kalimat yang penting di bagian-bagian tertentu. Misalnya dalam teks surat kabar, empat paragraf pertama adalah yang terpenting, sementara di makalah teknis bagian kesimpulan adalah bagian yang paling penting.

7. Sentence length, skor akan diberikan kepada kalimat yang mencerminkan jumlah kata dalam sebuah kalimat.

8. Proper score, kalimat yang mengadung kata benda mendapatkan skor/nilai yang lebih tinggi.

9. Average lexical connectivity, kalimat yang memiliki beberapa istilah kalimat lain dinilai lebih tinggi/penting.

10. Numeric data, kalimat yang berisi semacam data numeric memiliki skor/nilai yang lebih tinggi daripada kalimat yang tidak mengandung numeric data. 11. Proper name, beberapa kalimat yang mengandung kata benda, nama, kota, dan

tempat memiliki skor yang lebih tinggi.

12. Pronoun, kalimat yang mengandung kata ganti yang mecerminkan konektifitas dinilai lebih tinggi daripada kalimat yang tidak mengandung kata ganti.

13. Weekdays and months, kalimat yang mengandung nama hari atau bulan memiliki score yang lebih tinggi.

(7)

15. Query signature, ketika pengguna membutuhkan ringkasan biasanya memilki topik tertentu di dalam pikirannya. Query dari pengguna biasanya mempangaruhi ringkasan yang diekstrak.

3. Analisa dan Perancangan

Automatic Text Summarization adalah sebuah perangkat lunak berbasis web. Dengan berbasis web, diharapkan aplikasi tersebut dapat dijalankan di berbagai platform baik dekstop maupun mobile. Pengguna dapat memasukan text langsung ataupun dengan meng upload file berisi teks seperti file hasil dari program pengolah kata ataupun ebook. Terdapat beberapa settings yang dapat dilakukan oleh pengguna, diantaranya adalah sebagai berikut :

1. Konfigurasi metode dalam pembuatan document term matrix 2. Konfigurasi metode sentence selection

3. Konfigurasi berapa persen dokumen akan diringkas

Setelah proses peringkasan dokumen selesai, pengguna dapat menyimpan hasil dari peringkasan tersebut kedalam bentuk file pdf atupun plaint text(txt). Selain daripada itu, khusus untuk admin dapat melakukan evaluasi hasil dari proses peringkasan dokumen dengan cara membandingkan ringkasan dengan teks asli yang nantinya dapat di simpan ke database.

(8)

b. Class Diagram

Gambar 2

Class Diagram Automatic Summarizaton

4. Kesimpulan

Kesimpulan yang didapat, yaitu sebagai berikut :

1. Latent Semantic Analysis dapat diterapkan untuk automatic text summarization dengan beberapa langkah dibawah ini :

a. Melakukan pre-processing untuk mengurangi noise.

b. Melakukan pembobotan kata dengan membuat document term matrix. c. Pembuatan matrix SVD.

d Pemilihan kalimat penting menggunakan metode yang telah ditentukan. 2. Metode binary, term frequency, dan term frequency inverse document dapat

digunakan sebagai metode pembuatan document term matrix. Ditunjukan dengan hasil dari pemilihan kalimat yang dirasa cukup oleh beberapa orang yang telah membaca hasil ringkasan yang telah dibuat oleh aplikasi.

3. Latent semantic analysis dapat digunakan untuk melakukan evaluasi hasil ringkasan dengan menghitung kemiripan main topic dan term significance antara dokumen asli dengan dokumen hasil ringaksan.

4. Kualitas ringkasan bergantung dari beberapa faktor, yakni metode document term matrix, metode sentence selection, rasio peringkasan dokumen dan struktur dari penulisan dokumen yang akan diringkas.

(9)

DAFTAR PUSTAKA

[1] Dokun, Celebi, 2015, “Single-Document Summarization Using Latent Semantic Analysis”, International Journal of Scientific Research in Information Systems and Engineering (IJSRISE) Volume 1, Issue 2, December-2015. [2] Kallimani, Srinivasa, dkk, 2012, “Summarizing News Paper Articles:

Experiments with Ontology- Based, Customized, Extractive Text Summary and Word Scoring”, CYBERNETICS AND INFORMATION TECHNOLOGIES • Volume 12, No 2, 2012.

[3] Luthfiarta, Zeniarja, dkk, 2013, “Algoritma Latent Semantic Analysis (LSA) Pada Peringkas Dokumen Otomatis Untuk Proses Clustering Dokume”, SEMINAR NASIONAL TEKNOLOGI INFORMASI & KOMUNIKASI TERAPAN 2013 (SEMANTIK 2013) Semarang, 16 November 2013. [4] Marrer, Garry, 2009, “Fundamentals of Programming: With Object Oriented

Programming”, Laptop Press.

[5] Nugroho, Adi, 2002, “Analisis dan Perancangan Sistem Informasi dengan Metodologi Berorientasi Objek”, Bandung:informatika.

[6] Pressman, Roger, 2010, “Software Engineering: A Practitioner’s Approach, Seventh Edition”, McGraw-Hill Education.

[7] Ragunath, Sivaranjani, 2015, “ONTOLOGY BASED TEXT DOCUMENT SUMMARIZATION SYSTEM USING CONCEPT TERMS”, ARPN Journal of Engineering and Applied Sciences VOL. 10, NO. 6, APRIL 2015.

[8] Sommerville, Ian, 2011, “Software Engineering Ninth Edition”, Addison-Wesley.

[9] Steinberger, Karel, Ježek, 2004, “Using Latent Semantic Analysis in Text Summarization and Summary Evaluation”, Department of Computer Science and Engineering, Univerzitní 22, CZ-306 14 Plzeň.

Referensi

Dokumen terkait

5. Pekerjaan pembuatan rangka dinding dan pemasangan dinding pemisah; 6. Pekerjaan pemasangan listplank kayu dan list plafond. Pelaksana pembangunan gedung dan perumahan

Hasil penelitian menunjukan bahwa Pemberian konsentrasi Rooton-F 100 ppm memberikan pengaruh yang sangat nyata terhadap parameter jumlah tunas (8,66 buah) dan konsentrasi

Dan jika mengklik “setuju”, maka akan menuju calon mahasiswa dinyatakan telah setuju dengan penetapan UKT tertinggi pada program studinya, dan kemudian akan

Sebelum membahas mengenai etika bisnis Islam, saya akan memaparkan terlebih dahulu mengenai Ekonomi Islam. Hal tersebut saya lakukan karena etika bisnis merupakan

Penelitian ini dilaksanakan di Kota Makassar, Sulawesi Selatan, khususnya di Kantor Kepolisian Resort Kota Besar Makassar, dengan menggunakan metode kepustakaan

Kemudian dalam laporan penelitian Arifuddin Ismalil dkk yang dilakukan “Merajut Kerukunan Umat Beragama” menjelaskan aspek – aspek interaksi yang dilakukan

Setelah diterapkan teknik fraktal Kurva Koch iterasi 1 diperoleh kenaikan gain sebesar 7.3%, VSWR 1.18, pola radiasi unidireksional dan penurunan panjang fisik linear antena

Pajak penghasilan pasal 21 merupakan pajak atas penghasilan berupa gaji, upah honorarium, tunjangan, dan pembayaran lain dengan nama dan dalam bentuk apapun sehubungan