BAB II TINJAUAN PUSTAKA

(1)

4

BAB II

TINJAUAN PUSTAKA

2.1 Studi Literatur

Pada tahap ini adalah mencari informasi yang berkaitan dengan penelitian yang akan dilakukan seperti jurnal atau penelitian sebelumnya.

2.1.1 Penelitian Terdahulu

Adapun penelitian sebelumnya yang berkaitan dengan penelitian yang akan dilakukan dapat dilihat pada tabel 1.

Tabel 1. Hasil Ulasan Penelitian Terdahulu

Peneliti Tahun Judul Keterangan

1. Marwa Sulehu, Juhar, Watty Rimalia dan Akbar Iskandar

2019 Implementasi Metode Term Frequency- Inverse Document FrequencyCl ass

Frequency untuk Peringkasan Berita Online

Peneliti menggunakan data yang berjumlah 20 dokumen berita berbahasa Indonesia yang didapatkan dari situs http://www.kompas.com dalam kategori olahraga, ekonomi dan teknologi. Kemudian data tersebut dianalisis menggunakan metode Term Frequncy Inverse Document Frequency Class Frequency. Dan hasil dari analisis tersebut menunjukkan implementasi Class Frequency dapat mempengaruhi akurasi pembobotan kata pada metode Term Frequency dan Inverse Document Frequency dimana hasil pengujian memperoleh rata-rata akurasi sampai 75% dengan membandingkan pengujian sistem dengan pengujian manual [9].

(2)

5 2. Winda

Yullita

2015 Implementasi Metode Maximum Marginal Relevance Pada

Peringkasan Teks

Otomatis Artikel Berita

Peneliti merancang sebuah sistem peringkasan teks otomatis dengan menggunakan metode Maximum Marginal Relevance dan TF-IDF- DF untuk melihat keefektifan dalam menghasilkan ringkasan. Dan menggunakan data uji yang diambil dari portal online berskala nasional antaranews.com, portal online berskala lokal tribunjateng.com dan radarmagelang.com. kemudian memproses peringkasan melalui tahap text preprocessing, melakukan perhitungan TF-IDF-DF untuk menentukan bobot kata dan

menentukan ringkasan

menggunakan MMR. Hasil pengujian dibandingkan dengan ringkasan manual yang menghasilkan nilai precision 76, 39

%, recall 65,28 %, dan f-measure 70,4 % untuk dokumen berita dari portal online berskala nasional, sedangkan peringkasan artikel berita dari portal berita online lokal menghasilkan nilai precision 45,83

%, recall 45,83 %, dan f-measure 45,83% [10].

3. Yunita Maulidia Sari dan Nenden

2021 Peringkasan Teks

Otomatis pada Modul

Peneliti menggunakan data sebanyak 10 file modul pembelajaran yang berasal dari modul para dosen Universitas

(3)

6 Siti

Fatonah

Pembelajaran Berbahasa Indonesia Menggunaka n Metode Cross Latent Semantic Analysis (CLSA)

Mercu Buana, dengan format .docx sebanyak 5 file dan format .pdf sebanyak 5 file. Penelitian ini menerapkan metode Term Frequency-Inverse Document Frequency (TF-IDF) untuk pembobotan kata dan metode Cross Latent Semantic Analysis (CLSA) untuk peringkasan teks. Pengujian akurasi pada peringkasan modul pembelajaran dilakukan dengan cara membandingkan hasil ringkasan manual oleh manusia dan hasil ringkasan sistem. Yang mana pengujian tersebut menghasilkan rata-rata nilai f-measure, precision, dan recall tertinggi pada compression rate 20% dengan nilai berturut-turut 0.3853, 0.432, dan 0.3715 [11].

4. Muham mad Nafi’

Maula Hakim

2021 Peringkasan Teks

Otomatis Pada Putusan Perselisihan Hubungan Industrial Menggunaka n Metode Latent

Semantic

Peneliti menggunakan data teks berupa dokumen bahasa Indonesia yang diambil dari website Publikasi Dokumen Elektronik Putusan Mahkamah Agung seluruh Pengadilan di Indonesia (https://putusan3.mahkamahagung.

go.id/) dengan jumlah 50 dokumen putusan. Kemudian menganalisa keterkaitan kata yang ada pada dokumen tersebut menggunakan metode LSA dan CLSA yang

(4)

7 Analysis (LSA)

menghasilkan nilai evaluasi rata- rata akurasi precission 60.8%, recall 53.1% untuk metode LSA.

Sedangkan CLSA memperoleh nilai evaluasi rata-rata akurasi precission 78.3% dan recall 43.1% [12].

Berdasarkan berbagai penelitian diatas, tujuan yang akan dilakukan dari penelitian ini yaitu mengimplementasikan metode CLSA (Cross Latent Semantic Analysis) untuk meringkas dokumen berbahasa Bali agar mempermudah para pembaca dokumen tersebut. Adapun perbedaan terhadap penelitian yang sebelumnya yaitu, peneliti menerapkan dan membandingkan penggunaan metode CLSA dan LSA pada dokumen dengan bahasa Bali, dimana tentu memiliki struktur dan kalimat yang sangat berbeda dari penelitian sebelumnya yaitu dengan bahasa Indonesia.

2.2 Peringkasan Teks Otomatis

Peringkasan teks otomatis adalah proses meringkas atau teks yang dipersingkat untuk menghasilkan intisari dari teks dan dapat membantu pembaca memperoleh informasi dengan cepat tanpa membaca seluruh isi teks tersebut [13]. Secara umum terdapat dua metode yang digunakan dalam peringkasan teks yaitu supervised dan unsupervised. Metode supervised menghasilkan bentuk model peringkasan yang berasal dari data latih dan diringkas oleh manusia sehingga data latih sangat dibutuhkan pada ringkasan sistem. Sedangkan metode unsupervised menghasilkan ringkasan sistem yang tidak membutuhkan data latih yang diringkas oleh manusia [14].

2.3 Bahasa Bali

Bahasa Bali adalah salah satu bahasa daerah yang ada di Indonesia, yang digunakan untuk berkomunikasi sehari-hari oleh masyarakat bali itu sendiri. Bahasa Bali merupakan rumpun bahasa Austonesia yakni dalam subrumput Austonesia Barat bagian Austonesia Barat Daya [15] .

Bahasa Bali memiliki fonologi dan morfologi yang berbeda dengan Bahasa Indonesia atau bahasa negara lain dalam hal penyusunan kata. Fonologi merupakan sistem bunyi dalam bahasa, sedangkan morfologi merupakan bagian dari tata bahasa yang membahas macam-macam bentuk kata. Tetapi yang digunakan dalam

(5)

8

penelitian ini hanya morfologi saja. Proses penyusunan kata dalam bahasa Bali pada proses penyusunannya akan menggunakan pangater (prefiks), seselan (infiks) dan pangiring (sufiks)[16].

Berikut merupakan perbandingan dari proses penyusunan kata yang dimiliki bahasa Bali dengan bahasa Indonesia:

Tabel 2. Proses penyusunan kata bahasa Bali dan bahasa Indonesia

2.4 Teks Preprocessing

Preprocessing adalah proses awal dalam peringkasan dokumen. Processing memiliki tujuan menghasilkan Term Index agar dapat menentukan bobot term menggunakan algoritma TF-IDF [1]. Ada dua tahapan preprocessing yang digunakan dalam penelitian ini yaitu case folding dan tokenizing. Case folding merupakan proses yang dilakukan untuk mengubah semua huruf menjadi huruf kecil, sedangkan tokenezing merupakan proses memisahkan kalimat pada dokumen menjadi beberapa string atau memisahkan per kalimat.

2.5 TF-IDF sebagai pembobotan kata

Pembobotan kata adalah proses yang berfungsi untuk menghitung bobot suatu kata pada dokumen yang dilihat dari banyaknnya frekuensi kemunculan kata pada sebuah dokumen kalimat. Algoritma TF-IDF akan digunakan dalam penelitian ini sebagai pembobotan kata. Secara matematis dapat ditulis pada Rumus 1 dan 2.

𝐼𝐷𝐹 = 𝐿𝑜𝑔(^𝐷

𝐷𝐹) (1)

𝑊 = 𝑇𝐹 × 𝐼𝐷𝐹 (2)

Inverse Document Frequency (IDF) adalah hubungan antara banyak dokumen yang memiliki kata (Document Frequency) dengan jumlah dokumen kalimat (D), sedangkan W adalah nilai bobot dari setiap kata pada sebuah dokumen, hasil dari pembobotan kata adalah sebagai dataset untuk membentuk matriks 𝐴_𝑚𝑛.

Bahasa Bali Bahasa Indonesia

Prefiks a-;ka-;sa-;pa-;ma-;pi-;m-;n-;ň(ny)-;

ŋ(ng)-;pra-;para-;pari-;maka-;pati-

;kuma-;upa-;nir-/nis-;su-;swa-;

me-;di-;ber-;ter-;pe-;per-;ke-;se-;

Infiks -um-;-in-; -em-;-el-;-er-;

Sufiks -an;-a;-in;-ang;-ne; -an;-kan;-i;

(6)

9 2.6 Metode LSA

Metode Latent Semantic Analysis (LSA) merupakan penguraian atau menganalisa makna tersembunyi dari suatu bahasa, kode, maupun sejenisnya untuk mendapatkan informasi yang penting. Direalisasikannya LSA dengan dua fitur utama, yakni matriks dan SVD, dalam hal ini kalimat atau kata diubah menjadi sebuah matriks, sedangkan SVD berguna mengolah komponen matriks kata dan kalimat untuk menemukan kesamaan kata dan kalimat [1]. Teori Aljabar Liner SVD membagi matriks A menjadi tiga bagian yaitu matriks orthogonal U, matriks diagonal S dan matriks orthogonal transpose V secara matematis dapat ditulis dengan Rumus 3.

𝐴 = 𝑈𝑆𝑉^𝑇 (3)

A adalah matriks dokumen yang mewakili kalimat atau kata yang dikenal dengan matriks 𝐴_𝑚𝑛, 𝑈 mendiskripsikan matriks orthogonal 𝑚 × 𝑚 yang dikenal dengan istilah left singular vector, dimana 𝑈 dihasilkan dari perkalian antara 𝑈 = 𝐴. 𝑉. 𝑆⁻¹. Right Singular Vektor (𝑉) merupakan matriks orthogonal 𝑛 × 𝑛 yang diperoleh dari eigenvector matriks 𝐴^𝑇𝐴, sedangkan matriks diagonal 𝑆 dihasilkan dari eigenvalue matriks 𝐴^𝑇𝐴 yang diakarkan. Adapun langkah-langkah LSA sebagai berikut [1]:

1. Membentuk matriks 𝐴_𝑚𝑛.

2. Membuat matriks 𝑉 dan eigenvalue, dimana matriks 𝑉 adalah hasil dari eigenvector matriks 𝐴^𝑇𝐴.

3. Membentuk matriks 𝑆 dengan cara mengurutkan nilai tertinggi eigenvalue kemudian diakarkan.

4. Menghitung length pada setiap nilai matriks 𝑉^𝑇dengan menggunakan Rumus 4.

𝑆_𝑘 = √∑^𝑛_𝑖=1(𝑉^𝑇)_𝑘1² . 𝑆₁² (4)

5. Menentukan hasil ringkasan berdasarkan skor tertinggi dari dokumen kalimat.

Dimana 𝑆_𝑘 adalah panjang vektor 𝑘 pada kalimat yang dimodifikasi oleh laten vector. 𝑛 adalah jumlah ruang demensi baru. Hasil dari length terbesar pada setiap dokumen kalimat akan jadikan ringkasan.

(7)

10 2.7 Metode CLSA

Metode Cross Latent Semantic Analysis (CLSA) merupakan pengembangan berdasarkan metode sebelumnya yaitu Latent Semantic Analysis (LSA). Metode ini mampu menghasilkan ringkasan dari teks masukan yang lebih akurat dibandingkan dengan metode LSA [8]. Awal mula CLSA pertama kali dicetuskan oleh Steinberger dan Jezek (2004), Steinberger dan Jezek mengatakan adanya kesamaan topik dan signifikasi kata, tetapi penelitian Steinberger dan Jezek CLSA belum sama sekali dikenal, beberapa proses di LSA dalam hal ini penggunaan SVD mengalami perubahan yang berbeda seperti proses peringkasan yang tidak hanya dilihat dari kemiripan antar dokumen kalimat dengan judul berita, melainkan panjang dari sebuah dokumen kalimat juga menjadi faktor penting sebagai penentuan hasil peringkasan yang lebih baik, penelitian Geetha dan Deepmala (2015) menawarakan pembanding antara LSA pada peringkasan yang buat oleh Steinberger dengan hasil eksperimenya yaitu CLSA [1].

Perbedaan metode LSA dengan CLSA terdapat pada tahap ekstraksi ringkasan.

Metode ini menjadikan nilai rata–rata (average) serta panjang (length) yang diambil dari matriks 𝑉^𝑇dan matriks S. Nilai average diambil dari nilai rata–rata dari setiap kata yang terdapat pada matriks 𝑉^𝑇 setelah ditemukan nilai rata–rata dari setiap kata yang terdapat baris matriks 𝑉^𝑇, langkah selanjutnya adalah mencocokan nilai rata–

rata yang didapatkan pada setiap baris dengan nilai pada setiap kata yang terdapat pada baris tersebut. Apabila nilai dari kata tersebut lebih rendah dari nilai rata–rata yang didapat, maka nilai kata tersebut diubah menjadi nol. Tetapi jika tidak, maka nilai dari kata tersebut tetap.

Setelah tahapan pencarian dan pencocokan nilai rata–rata telah dilakukan, tahap selanjutnya adalah menghitung length dari setiap baris dari matriks 𝑉^𝑇 dengan rumus 5:

𝑙𝑒𝑛𝑔𝑡ℎ = √∑^𝑛_𝑗=1𝑉_𝑖𝑗²∗ 𝑆_𝑗𝑗² (5) Dimana: i: baris matriks

j: kolom matriks

Baris - baris pada matriks atau kalimat - kalimat yang mempunyai nilai length yang tinggi akan dijadikan sebagai ringkasan.

(8)

11 2.8 Pengujian Akurasi

Metode pengujian hasil ringkasan memiliki dua kategori yaitu metode evaluasi intrinsik dan metode evaluasi ekstrinsik. Metode instrinsik adalah evaluasi berdasarkan hasil analisis secara langsung pada ringkasan, sedangkan metode ekstrinsik merupakan hasil ringkasan yang merujuk pada evaluasi kualitas, yang menunjukan hasil ringkasan dapat membantu pada kasus yang diberikan atau sebaliknya [1].

Pada penelitian peringkasan teks, metode intrinsik yang paling sering digunakan untuk mengevaluasi hasil ringkasan dengan melakukan pendekatan membandingkan hasil ringkasan sistem dengan ringkasan ideal. Ringkasan ideal didapatkan dengan menggabungkan hasil ringkasan-ringkasan yang dibuat oleh manusia atau pakar [7].

Berdasarkan paparan sebelumnya, maka pengujian hasil ringkasan pada penelitian ini menggunakan metode evaluasi intrinsik yaitu Recall-Oriented Understudy for Gisting Evaluation (ROUGE). ROUGE merupakan metode yang digunakan dalam mengukur kualitas dari sebuah ringkasan penelitian. ROUGE akan membandingkan antara rangkuman yang telah dihasilkan oleh sistem terhadap rangkuman ideal yang telah dihasilkan oleh pakar [17]. ROUGE menghitung jumlah n-gram kata yang overlap antara ringkasan sistem dengan ringkasan referensi. Adapun teknik penghitungan ROUGE-N antara sebuah ringkasan sistem dan sekumpulan ringkasan manual terdapat pada rumus 6 [7] :

𝑅𝑂𝑈𝐺𝐸 − 𝑁 =∑ 𝑠𝜖(𝑅𝑒𝑓𝑒𝑟𝑒𝑛𝑐𝑒𝑠 𝑆𝑢𝑚𝑎𝑟𝑖𝑒𝑠)𝑔𝑟𝑎𝑚_𝑛𝜖𝑠 ∑ 𝐶𝑜𝑢𝑛𝑡_{𝑚𝑎𝑡𝑐ℎ}(𝑔𝑟𝑎𝑚_𝑛)

∑ 𝑠𝜖(𝑅𝑒𝑓𝑒𝑟𝑒𝑛𝑐𝑒 𝑆𝑢𝑚𝑚𝑎𝑟𝑖𝑒𝑠) 𝑔𝑟𝑎𝑚_𝑛𝜖𝑠 ∑ 𝐶𝑜𝑢𝑛𝑡(𝑔𝑟𝑎𝑚_𝑛) Dimana n adalah panjang dari n-gram, 𝐶𝑜𝑢𝑛𝑡_{𝑚𝑎𝑡𝑐ℎ} (𝑔𝑟𝑎𝑚_𝑛) adalah jumlah n- gram yang sama antara sebuah ringkasan sistem dan sebuah ringkasan referensi, 𝐶𝑜𝑢𝑛𝑡(𝑔𝑟𝑎𝑚_𝑛) adalah jumlah n-gram dalam ringkasan referensi. Studi dari (Steinberger & Jezek, 2009) menunjukkan bahwa evaluasi otomatis menggunakan versi unigram dari ROUGE-N, yaitu ROUGE-1 berkolerasi baik dengan 21 evaluasi manusia berdasarkan berbagai statistik. Oleh karena itu penelitian ini menggunakan evaluasi hasil ringkasan sistem dengan ROUGE-1.