Sistem Peringkasan Dokumen Berita Bahasa Indonesia Menggunakan MetodeRegresi Logistik Biner

(1)

SISTEM PERINGKASAN DOKUMEN BERITA BAHASA INDONESIA

MENGGUNAKAN METODE REGRESI LOGISTIK BINER

MERI MARLINA

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(2)

SISTEM PERINGKASAN DOKUMEN BERITA BAHASA INDONESIA

MENGGUNAKAN METODE REGRESI LOGISTIK BINER

MERI MARLINA

Skripsi

sebagai salah satu syarat untuk memperoleh gelar

Sarjana Komputer pada

Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(3)

ABSTRACT

MERI MARLINA. Text Feature Weighting for Summarization of Document Bahasa Indonesia Using binary logistic regression. Under direction of JULIO ADISANTOSO.

This thesis aims to perform text feature weighting for summarization of document bahasa Indonesia using binary logistic regression. There are ten text features, i.e., sentence position (f1), positive keywords in sentence (f2), negative keywords in sentence (f3), sentence centrality (f4), sentence resemblance to the title (f5), sentence inclusion of name entity (f6), sentence inclusion of numerical data (f7), sentence relative length (f8), bushy path of the node (f9), and summation of similarities for each node (f10). Ten of these features will be used as an independent variable in the calculation of the binary logistic regression. To denote that the sentence is not included in the summary we use an output value of 0, an output value of 1, otherwise. To evaluate the text summarization, we use N-Gram with compressin rate 30%. Research results show that the accuracy of this method is 42.84%.

(4)

Judul Skripsi : Sistem Peringkasan Dokumen Berita Bahasa Indonesia Menggunakan MetodeRegresi Logistik Biner

Nama : Meri Marlina

NRP : G64080114

Menyetujui: Pembimbing

Ir. Julio Adisantoso, M.Kom NIP.19620714 198601 1 002

Mengetahui:

Ketua Departemen Ilmu Komputer

Dr. Ir. Agus Buono, M.Si, M.Kom NIP. 19660702 199302 1 001

(5)

KATA PENGANTAR

Alhamdulilahirobbil’alamin, segala puji bagi Allah subhanahu wata’ala atas segala limpahan rahmat serta karunia-Nya sehingga penulis mampu menyelesaikan penelitian ini dengan baik. Penulis juga menyampaikan terima kasih kepada seluruh pihak yang telah berperan dalam penelitian ini, yaitu:

1 Orang tua tercinta, ayahanda Supriatna, ibunda Dedeh, dan kakak yang saya sayangi Deasy, atas doa, kasih sayang, dukungan, serta motivasi kepada penulis untuk penyelesaian penelitian ini.

2 Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing tugas akhir yang telah memberi banyak ide, saran, bantuan, serta dukungan sampai selesainya penelitian ini.

3 Rekan-rekan seperjuangan di Ilmu Komputer IPB angkatan 45 atas segala kebersamaan, bantuan, dukungan, serta kenangan bagi penulis selama menjalani masa studi. Semoga kita bisa berjumpa kembali kelak sebagai orang-orang sukses.

4 Rekan-rekan satu bimbingan, Susi Handayani, Anita, Putri Dewi P, Fania Rahmania, Alfa Nugraha P, Rizky Utama, Meriska Defriani, dan Hafizhia Dhikrul A,yang telah bersama berjuang dalam mengerjakan tugas akhir mengenai Temu Kembali Informasi.

5 Senior dan sahabat, Tiara Mitra Lia, Ryanti Octaviani S, Annisa Anastasia, Anita, Cut Malisa I, Niken Eka, Wangi Saraswati, Doni Suhartono, dan Ahmad Rivai yang telah menjadi mitra dan bantuannya selama penyelesaikan tugas akhir ini.

6 Seluruh staf Departemen Ilmu Komputer IPB yang telah banyak membantu baik selama penelitian maupun perkuliahan.

Penulis berharap penelitian ini dapat memberikan manfaat baik sekarang maupun di masa mendatang.

Bogor, September 2012

(6)

RIWAYAT HIDUP

Meri Marlina dilahirkan di Karawang pada tanggal 20 Mei 1991. Penulis merupakan anak pertama dari pasangan Supriatna dan Dedeh Endang Ratnawati. Pada tahun 2008, penulis lulus dari Sekolah Menengah Atas 1 Cikampek. Penulis mengikuti tes SNMPTN pada tahun 2008 dan diterima di Program Studi Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam.

(7)

v

DAFTAR ISI

Halaman

DAFTAR TABEL ... vi

DAFTAR GAMBAR ... vi

DAFTAR LAMPIRAN ... vi

PENDAHULUAN Latar Belakang ... 1

Tujuan Penelitian ... 1

Ruang Lingkup Penelitian ... 1

METODE PENELITIAN Pengumpulan Dokumen Teks ... 1

Tahap Pelatihan ... 2

Tahap Pengujian ... 6

HASIL DAN PEMBAHASAN Data Korpus ... 6

Format Dokumen ... 6

Implementasi Sistem ... 6

Pemodelan Regresi Logistik Biner ... 7

Pengujian Menggunakan N-gram ... 8

Hasil Perbandingan dengan Algoritme Genetika ... 8

SIMPULAN DAN SARAN Simpulan ... 9

Saran ... 9

DAFTAR PUSTAKA ... 9

(8)

vi

DAFTAR TABEL

Halaman

1 Contoh paragraf, pemisahan kalimat dan case folding ... 7

2 Hasil akurasi menggunakan algoritme genetika ... 8

DAFTAR GAMBAR

Halaman 1 Peringkasan teks otomatis. ... 2

2 Ilustrasi kemiripan antar-kalimat. ... 3

3 Ilustrasi koneksi antar-kalimat. ... 4

4 Kurva logistik (Kleinbaum & Klein 2010). ... 6

5 Contoh code pembacaan dokumen. ... 7

DAFTAR LAMPIRAN

Halaman 1 Diagram alir algoritma genetika sederhana (Kusumadewi 2003). ... 11

2 Format dokumen pada tahap pelatihan dan pengujian ... 12

3 Antarmuka sistem peringkasan teks ... 13

4 Contoh nilai nilai fitur untuk setiap kalimat dalam satu dokumen ... 14

5 Tabel model persamaan regresi logistik biner ... 15

6 Contoh dokumen berita 34.txt ... 16

7 Antarmuka hasil sistem dokumen berita 34.txt ... 17

(9)

PENDAHULUAN

Latar Belakang

Pada saat ini, arus informasi dari internet berkembang dengan sangat cepat dan akan terus bertambah. Pertambahan arus informasi ini berbanding lurus dengan pertambahan dokumen di internet. Sebagai contoh, dokumen berita akan terus bertambah seiring dengan bertambahnya peristiwa-peristiwa penting mengenai suatu kejadian. Berita merupakan suatu informasi yang penting dan terbaru tentang suatu kejadian secara berkala. Banyaknya isi dari dokumen berita di internet membuat sebagian orang kurang tertarik untuk membaca dokumen berita tersebut. Hal ini dikarenakan setiap orang memiliki waktu yang berbeda dan terbatas sehingga sebagian orang cenderung tidak membaca dokumen berita tersebut.

Membaca merupakan suatu proses kegiatan fisik dan mental yang dilakukan untuk mendapatkan sebuah informasi baru, namun membaca dan memahami isi suatu dokumen yang sangat banyak membutuhkan waktu yang cukup lama. Oleh karena itu, ringkasan dokumen menjadi hal yang penting karena terbatasnya waktu yang dimiliki setiap orang. Namun, meringkas dokumen secara manual oleh manusia membutuhkan waktu dan biaya yang besar bila dokumen memiliki kalimat yang cukup banyak sehingga dibutuhkan suatu sistem ringkasan secara otomatis yang dapat meminimalisir waktu dan biaya yang dibutuhkan untuk meringkas suatu dokumen (Aristoteles 2011). Menurut Manning et al.

(2008), peringkasan teks adalah proses penyaringan informasi yang paling penting dari suatu sumber (atau beberapa sumber) untuk menghasilkan dokumen yang ringkas untuk pengguna.

Banyak penelitian yang telah dilakukan tentang peringkasan teks, antara lain Fattah dan Ren (2008) yang menghitung sepuluh pembobotan fitur untuk setiap kalimat dalam suatu dokumen menggunakan algoritme genetika dan regresi matematika. Penelitian selanjutnya dilakukan oleh Aristoteles (2011) yang membuat pembobotan fitur pada peringkasan teks bahasa Indonesia menggunakan algoritme genetika dengan melibatkan kalimat semantik pada pembobotan fitur. Permasalahan dari peringkasan teks adalah menentukan pembobotan dari setiap kalimat.

Pada penelitian Aristoteles (2011), penggunaan algoritme genetika memiliki perhitungan yang rumit dan waktu komputasi

yang cukup lama dalam menghasilkan suatu ringkasan dokumen sehingga dibutuhkan metode yang dapat mempersingkat waktu komputasi tersebut, yaitu dengan menggunakan metode regresi logistik biner.

Pada kasus-kasus penelitian dengan tujuan mengetahui hubungan antara suatu peubah

dependent berupa data kategorik dan peubah

independent berupa data numerik, analisis regresi linear standar tidak bisa dilakukan. Oleh karena itu, salah satu pendekatan yang dapat dilakukan adalah regresi logistik biner. Regresi logistik biner merupakan salah satu alat statistik yang digunakan untuk menganalisis beberapa faktor dengan sebuah variabel yang bersifat biner.

Pada peringkasan dokumen secara otomatis, kalimat-kalimat yang terpilih menjadi hasil ringkasan merupakan kalimat yang dianggap penting. Penting atau tidaknya suatu kalimat tergantung pada nilai peluang dari hasil perhitungan beberapa fitur. Oleh karena itu, penelitian ini menelaah peringkasan teks dengan membuat pembobotan fitur menggunakan metode regresi logistik biner. Hasil dari penelitian akan dibandingkan dengan hasil penelitian dari Aristoteles (2011) yang meneliti tentang pembobotan fitur pada peringkasan teks bahasa Indonesia menggunakan algoritme genetika.

Tujuan Penelitian

Tujuan penelitian ini ialah menentukan pembobotan fitur menggunakan regresi logistik biner pada peringkasan teks.

Ruang Lingkup Penelitian

Penelitian ini difokuskan pada peringkasan dokumen berita dengan dokumen yang digunakan berjenis teks bahasa Indonesia, tema dokumen yang digunakan adalah berita nasional, diasumsikan bahwa semua kalimat dalam sebuah dokumen adalah benar, dan dokumen yang digunakan adalah dokumen berjenis teks.

METODE PENELITIAN

Penelitian ini dilakukan dengan beberapa tahap yaitu tahap pengumpulan dokumen, tahap pelatihan, dan tahap pengujian. Diagram alur proses dapat dilihat pada Gambar 1.

Pengumpulan Dokumen Teks

(10)

2

pelatihan dan 50 dokumen untuk tahap pengujian. Pada tahap pengujian, 50 dokumen diringkas secara manual, tujuannya untuk membandingkan ringkasan manual dengan hasil ringkasan sistem. Dokumen yang digunakan dalam penelitian ini adalah dokumen yang berasal dari dokumen berita

online harian Kompas yang didapat dari korpus penelitian Ridha (2002).

Tahap Pelatihan

Tahap pelatihan yang dilakukan ialah: pembobotan fitur teks dan perhitungan skor menggunakan regresi logistik biner.

Gambar 1 Peringkasan teks otomatis.

Tahap pembobotan fitur dilakukan untuk mendapatkan nilai bobot tertinggi dari suatu kalimat. Bobot yang memiliki nilai tinggi akan dimasukkan dalam peringkasan.

Fitur teks merupakan suatu proses perhitungan fitur-fitur untuk mendapatkan

bobot sehingga dapat diketahui kalimat yang masuk dalam ringkasan dan tidak masuk ringkasan. Menurut Fattah dan Ren (2008), terdapat sepuluh fitur teks yang dapat dihitung untuk setiap kalimat dari sebuah dokumen. Fitur teks tersebut yaitu:

1 Posisi Kalimat (f1)

Posisi kalimat adalah kalimat pertama yang paling penting dari sebuah paragraf. Berikut ini adalah contoh fitur teks posisi kalimat pada sebuah dokumen.

Jakarta, Kompas - Komisi Penyelidik Pelanggaran Hak Asasi Manusia (KPP HAM) Trisakti dan Semanggi I-II tetap akan membuat kesimpulan dan menyampaikan rekomendasi mengenai hasil penyelidikannya, meskipun perwira TNI/Polri tidak mau memenuhi panggilan KPP HAM. Namun, demikian, panggilan kedua terhadap sejumlah perwira TNI/Polri telah dilayangkan kepada mereka. Hal itu dikatakan Ketua KPP HAM Albert Hasibuan kepada Kompas di Jakarta akhir pekan lalu. Hasibuan masih mengharapkan perwira TNI/Polri itu memenuhi panggilan KPP HAM. "Tapi, kalau mereka menolak, ya sudah. Kita akan tetap membuat kesimpulan dan rekomendasi berdasarkan keterangan saksi-saksi lain yang telah kita dengar. Rekomendasi itu tentunya akan merugikan mereka sendiri," ujarnya.

Misal terdapat tiga kalimat dalam satu paragraf. Kalimat pertama diberi bobot 3/3, kalimat kedua 2/3 dan kalimat ketiga 1/3. Kalimat terakhir tidak begitu penting sehingga diberi bobot 0.

2 Positive Keyword (f2)

Positive keyword adalah suatu kata yang sering muncul dalam suatu dokumen (peringkasan).

P(keywordi)=

dengan s(E) adalah jumlah kata dalam suatu kalimat yang mengandung keyword dan s(K)

adalah jumlah kata dalam kalimat lain yang mengandung keyword, dengan keyword

merupakan banyaknya kata yang muncul dalam suatu kalimat.

3 Negative Keyword (f3)

Kalimat negatif merupakan kalimat yang jarang muncul dalam suatu dokumen (peringkasan).

P(keywordi)=

II

Tahap pelatihan

50 dokumen Pengumpulan dokumen 150 dokumen berita

I

100 dokumen Fitur teks Perhitungan koefisien (regresi logistik biner)

Model

Hasil ringkasan sistem

Implementasi Tahap

pengujian

Ringkasan manual

III

(11)

3

dengan s(N) adalah jumlah kata dalam suatu kalimat yang mengandung keyword dan s(K)

adalah jumlah kata dalam kalimat lain yang mengandung keyword, dengan keyword

merupakan kata yang jarang muncul dalam suatu kalimat.

4 Kemiripan Antar-Kalimat (f4)

Kemiripan antar-kalimat merupakan kalimat yang memiliki kata yang sama dengan kata dalam kalimat lain. Skor fitur teks kemiripan antar-kalimat dapat dihitung menggunakan rumus berikut:

Score(s)=

dengan s(n) adalah keyword dalam s

keyword dalam antar kalimat dan s(u) adalah

keyword dalam s keyword dalam antar kalimat dengan s adalah kalimat dalam dokumen dan keyword merupakan banyaknya kata yang mirip dalam suatu kalimat. Berikut adalah contoh penerapan kemiripan antar-kalimat:

1 Saya sedang mengerjakan skripsi 2 Saya pergi dengan teman

3 Saya sedang mengerjakan skripsi dengan teman

Gambar 2 Ilustrasi kemiripan antar-kalimat. Berdasarkan ketiga kalimat tersebut, skor kalimat pertama adalah 4/7, skor kalimat kedua adalah 3/7, dan skor kalimat ketiga adalah 6/7. Kalimat pertama memiliki empat kata yang sama dengan kalimat ketiga, yaitu kata “saya, sedang, mengerjakan, skripsi”. Kalimat kedua memiliki tiga kata yang sama dengan kalimat ketiga, yaitu kata “saya, dengan, teman”. Kalimat ketiga memiliki enam kata yang sama dengan kalimat pertama dan kedua, yaitu kata “saya, sedang, mengerjakan, skripsi, dengan, teman”. Berdasarkan ketiga kalimat tersebut, maka perhitungan skor fitur

teks kemiripan antar-kalimat diilustrasikan pada Gambar 2.

5 Kalimat yang Menyerupai Judul Dokumen (f5)

Kalimat yang menyerupai judul kalimat adalah kata yang muncul dalam kalimat sama dengan kata yang ada dalam judul dokumen. Berikut ini merupakan contoh penerapan kemiripan kalimat yang menyerupai judul dokumen yaitu :

Judul dokumen : Skripsi Saya

Berdasarkan contoh tersebut, skor kalimat pertama adalah skor kalimat kedua adalah , dan skor kalimat ketiga adalah 2/6. Kalimat pertama memiliki dua kata yang sama dengan judul dokumen yaitu “saya, skripsi”. Kalimat kedua memiliki satu kata yang sama dengan judul dokumen yaitu “saya”. Kalimat ketiga memiliki dua kata yang sama dengan judul dokumen yaitu “saya, skripsi”. Skor fitur teks kalimat yang menyerupai judul dokumen dapat dihitung menggunakan rumus berikut:

Score(s)=

dengan s(n) adalah keyword dalam s

keyword dalam judul dan s(u) adalah keyword

dalam s keyword dalam judul dengan asumsi

s adalah kalimat dalam suatu dokumen.

6 Kalimat yang Mengandung Nama Entity

(f6)

Kalimat yang mengandung nama entity

merupakan sebuah kumpulan kata yang memiliki makna atau nama sebuah institusi, nama orang, dan nama pulau. Berikut adalah ilustrasi kalimat dalam dokumen yang mengandung nama entity:

Jakarta, Kompas - Mantan anggota DPR Bambang Warih Kusumo mengatakan, penahanan mantan Mensesneg Akbar Tandjung tidak memenuhi fatsoen politik. Penahanan itu juga menyimpang dari Undang-Undang (UU) Nomor 8/1987 tentang Protokol. Seharusnya, sebelum menahan Akbar Tandjung, Presiden Megawati Soekarnoputri

meminta fatwa Mahkamah Agung (MA) atau mempersilakan DPR melepaskan Akbar Tandjung sebagai Ketua DPR.

Berdasarkan contoh teks dokumen tersebut, kalimat yang mengandung nama dengan

pergi Saya

Kalimat 1 Kalimat 2

skripsi teman mengerjakan

Sedang

(12)

4

entity terdapat pada kalimat pertama dan kalimat ketiga sehingga skor untuk kalimat pertama adalah 2/14 dan skor kalimat ketiga adalah 3/14 . Perhitungan fitur teks kalimat yang mengandung nama entity adalah sebagai berikut:

Score(s)=

dengan s(E) adalah nama entity dalam kalimat dan s(K) adalah panjang kalimat.

7 Kalimat yang Mengandung Data Numerik (f7)

Pada pemeringkasan teks, data numerik dipertimbangkan karena kalimat yang berisi data numerik merupakan kalimat yang penting. Berikut ini merupakan ilustrasi kalimat dalam dokumen yang mengandung data numerik:

Berapa sebenarnya APBD-nya? Tahun 2001 Rp 234,25 milyar, untuk tahun 2002 direncanakan naik Rp 6,3 milyar. Dari jumlah itu, alokasi dana kesehatan dan kesejahteraan sosial Rp 2,927 milyar, sebagian besar digunakan untuk pemberantasan penyakit menular malaria. Menurut catatan Jaringan Kajian dan Advokasi Kebijakan Publik, Yogyakarta Corruption Watch dan Dinamika Kulon Progo, jumlah keluarga miskin di kabupaten itu 40.904 keluarga, diasumsikan mereka terdiri dari lima jiwa, jumlah orang miskin 204.520 jiwa."Dengan anggaran kesehatan Rp 2,927 milyar, masing-masing keluarga miskin hanya akan menikmati Rp 47.000 per tahun, sangat timpang dibanding anggaran tunjangan kesehatan anggota DPRD Kulon Progo yang mencapai Rp 3,9 juta per tahun," katanya.

Berdasarkan contoh teks dokumen tersebut, kalimat yang mengandung data numerik terdapat pada kalimat ketiga sehingga skor untuk kalimat ketiga adalah 2/25 sedangkan skor untuk kalimat yang lainnya adalah 0 karena tidak ada kalimat yang mengandung data numerik. Perhitungan fitur teks kalimat yang mengandung data numerik adalah sebagai berikut:

Score (s)=

dengan s(A) adalah banyaknya kata numerik dan s(P) adalah banyaknya kata dalam kalimat.

8 Panjang Kalimat (f8)

Panjang kalimat dihitung berdasarkan jumlah kata dalam kalimat dibagi dengan

panjang dokumen. Perhitungan fitur teks panjang kalimat adalah sebagai berikut:

Score (s)=

dengan s(K) adalah banyaknya kata dalam suatu kalimat dan s(P) adalah banyaknya kata dalam dokumen.

9 Koneksi Antar-Kalimat (f9)

Koneksi antar-kalimat dihitung berdasarkan jumlah kata dalam suatu kalimat dengan kata yang sama disetiap kalimat dalam dokumen sehingga kata-kata tersebut terkoneksi atau terhubung satu sama lain. Berikut adalah contoh penerapan koneksi antar-kalimat:

Gambar 3 Ilustrasi koneksi antar-kalimat.

Berdasarkan Gambar 3, skor untuk kalimat pertama ialah 5. Kalimat pertama memiliki kata yang sama dengan kalimat kedua dan ketiga, yaitu “saya” sehingga jumlah skor adalah 2 dan memiliki kata yang sama dengan kalimat ketiga, yaitu “sedang”, “mengerjakan”, dan“skripsi” sehingga jumlah skor adalah 3. Penelitian ini menggunakan normalisasi agar skor nilai pada tiap kalimat dalam jangkauan 0 dan 1. Perhitungan fitur teks koneksi antar-kalimat adalah sebagai berikut:

Score(s)=#jumlah koneksi antar-kalimat 10 Penjumlahan Bobot Koneksi

Antar-Kalimat (f10)

Fitur ini berfungsi menjumlahkan kata dalam suatu kalimat dengan kata yang sama dari kalimat lain dalam suatu dokumen. Masih menggunakan ilustrasi pada Gambar 3. Berdasarkan ilustrasi tersebut, skor untuk

dengan pergi Saya

Kalimat 1 Kalimat 2

skripsi teman mengerjakan

Sedang

(13)

5

kalimat pertama adalah 4. Seluruh kata dalam kalimat pertama ada di kalimat lain dalam dokumen tersebut dan memiliki jumlah kata 4, yaitu “saya”, “sedang”, “mengerjakan”, dan “skripsi”.

Perhitungan fitur teks penjumlahan bobot koneksi antar-kalimat adalah sebagai berikut:

Score (s)=∑koneksi antar-kalimat Pemodelan Regresi Logistik Biner

Regresi matematika adalah model yang baik untuk memperkirakan teks bobot fitur. Dalam model ini fungsi matematika dapat berhubungan dari output ke input (Fattah dan Ren 2008).

Regresi logistik biner merupakan model yang digunakan untuk menganalisis hubungan antara variabel independent dengan variabel

dependent yang bersifat dua kategori atau lebih. Menurut Hosmer dan Lemeshow (2000), metode regresi logistik adalah suatu metode analisis statistika yang mendeskripsikan hubungan antara peubah respon yang memiliki dua kategori atau lebih dengan satu atau lebih peubah penjelas berskala kategori. Regresi logistik biner telah banyak digunakan secara luas sebagai salah satu alat analisis pemodelan ketika variabel responsnya bersifat biner. Istilah biner ini merujuk pada penggunaan dua buah bilangan 0 dan 1 untuk menggantikan kategori pada variabel respon.

Pada penelitian ini, variabel respons atau variabel terikat (dependent variable) terdiri atas dua kategori, yaitu y=1 yang menyatakan “kalimat masuk ke dalam ringkasan” dan Y=0 yang menyatakan “kalimat tidak masuk dalam ringkasan” untuk tahap pelatihan. Pada penelitian ini diasumsikan tidak adanya asumsi-asumsi yang ada pada regresi. Menurut Hosmer dan Lemeshow (2000), model regresi logistik adalah:

= i i

untuk mempermudah menaksir parameter regresi, maka (x) ditransformasikan dengan menggunakan transformasi logit berikut:

g(x)=ln

- = + i

dengan nilai adalah nilai konstanta regresi, merupakan nilai dugaan koefisien regresi, dan

xi merupakan nilai-nilai fitur. Persamaan tersebut bertujuan menduga parameter yang belum diketahui, yaitu parameter

Perbandingan Algoritme Genetika dan Regresi Logistik Biner

Agoritme genetika atau genetic algorithm

adalah algoritme pencarian heuristic yang didasarkan atas mekanisme evolusi biologis. Keberagaman pada evolusi biologis adalah variasi dari kromosom antar individu organisme. Variasi kromosom ini akan memengaruhi laju reproduksi dan tingkat kemampuan organisme untuk tetap hidup (Kusumadewi 2003). Algoritme genetika beroperasi pada populasi yang potensial memberikan solusi dengan prinsip survival of the fittest untuk menghasilkan baik dan semakin baik lagi sebagai perkiraan solusi. Diagram alir algoritme sederhana dapat dilihat pada Lampiran 1. Diagram alir ini terdiri atas beberapa bagian yaitu: populasi awal, evaluasi

fitness, seleksi individu, pindah silang (crossover), mutasi (mutation), dan populasi baru.

Teknik pencarian dilakukan sekaligus atas jumlah solusi yang mungkin yang dikenal dengan istilah populasi. Individu yang terdapat dalam satu populasi disebut dengan istilah kromosom. Populasi awal dibangun secara acak, sedangkan populasi berikutnya merupakan hasil evolusi kromosom-kromosom melalui iterasi yang disebut dengan istilah generasi. Menurut Kusumadewi (2003), pada setiap generasi, kromosom akan melalui proses evaluasi dengan menggunakan alat ukur yang disebut dengan fungsi fitness. Nilai fitnesss dari suatu kromosom akan menunjukkan kualitas kromosom dalam populasi tersebut.

Generasi berikutnya dikenal dengan istilah anak (offspring) terbentuk dari gabungan dua kromosom generasi sekarang yang bertindak sebagai induk (parent) dengan menggunakan operator penyilangan (crossover). Suatu kromosom dapat juga dimodifikasi dengan menggunakan operator mutasi. Populasi generasi baru dibentuk dengan cara menyeleksi nilai fitness dari kromosom induk dan nilai fitness dari kromosom anak (offspring), serta menolak kromosom-kromosom lain sehingga ukuran populasi konstan.

Menurut Kleinbaum dan Klein (2010), regresi logistik merupakan pendekatan model matematika yang dapat digunakan untuk menjelaskan hubungan antara beberapa variabel prediktor x terhadap variabel respons yang bersifat biner y

(14)

6

sampai dengan ∞ dan nilai f(z) bergerak dari 0 sampai 1. Nilai z merupakan jumlah dari persamaan linear atau z =β0 β1X1 β2X2 …

βkXk. Kurva pada Gambar 4 menunjukkan jika nilai z semakin mendekati -∞ maka nilai f(z) akan bergerak mendekati nilai 0 dan jika nilai z mendekati ∞ maka nilai f z bergerak mendekati nilai 1.

Gambar 4 Kurva logistik (Kleinbaum & Klein, 2010).

Tahap Pengujian

Tahap pengujian menggunakan 50 dokumen berita berbahasa Indonesia (dokumen yang digunakan untuk pengujian berbeda dengan dokumen yang digunakan pada tahap pelatihan). Dokumen ini kemudian diringkas secara manual. Tujuannya ialah untuk membandingkan ringkasan manual dengan hasil ringkasan sistem.

Pengujian Menggunakan Metode N-gram

Pengujian dilakukan dengan menggunakan metode N-gram. N-gram secara umum adalah,

Dice =

X merupakan banyaknya kalimat yang dihasilkan sistem, Y merupakan banyaknya kalimat yang diringkas secara manual. Pengujian yang dilakukan untuk membandingkan antara hasil ringkasan secara manual dengan hasil ringkasan sistem.

Lingkungan Pengembangan

Lingkungan pengembangan yang akan digunakan dalam penelitian ini terdiri atas perangkat lunak dan perangkat keras. Perangkat lunak yang digunakan antara lain:  Sistem operasi Windows 7 Ultimate.  Microsoft Office 2010.

 SPSS 17.

 PHP & Perl sebagai bahasa pemrograman.  XAMPP version 1.7.2 sebagai web server.

 Notepad++.

Perangkat keras yang digunakan antara lain:  Prosesor intel Dual Core T4300 2.1 GHz.  RAM 1 GB.

 Harddisk 160 GB.

HASIL DAN PEMBAHASAN

Data Korpus

Penelitian ini menggunakan korpus berita nasional berbahasa Indonesia dari tanggal 11 Maret 2002 sampai 11 April 2002. Korpus berita tersebut berasal dari berita online harian Kompas yang didapat dari korpus penelitian Ridha (2002). Dokumen yang digunakan pada tahap pelatihan sebanyak 100 dokumen yang dengan batas pemampatan (compression rate) sebesar 30% dan berasal dari penelitian yang telah dilakukan Aristoteles (2011). Dokumen yang digunakan pada tahap pengujian sebanyak 50 dokumen dan ringkas secara manual yang berasal dari dokumen penelitian Aristoteles (2011).

Format Dokumen

Format dokumen pada penelitian ini menggunakan jenis dokumen yang bertipe teks dan memiliki format XML sederhana. Contoh format dokumen dapat dilihat pada Lampiran 2.

Implementasi Sistem

Antarmuka sistem peringkasan dokumen dapat dilihat pada Lampiran 3. Terdapat dua bentuk ringkasan dalam suatu dokumen yaitu ekstraksi dan abstraksi. Ekstraksi adalah suatu ringkasan yang berasal dari kalimat – kalimat paling penting dari suatu dokumen. Abstraksi adalah mengambil intisari dari suatu teks dokumen yang berasal dari kalimat – kalimat baru (Jezek dan Steinberger 2008). Penelitian ini menggunakan teknik ekstraksi dalam membuat suatu ringkasan sehingga dibutuhkan pemotongan kalimat yang baik.

Langkah-langkah dalam implementasi sistem ini adalah pembacaan dokumen, pemotongan kalimat, case folding, pemisahan kata dan filtering kata. Langkah awal adalah

code yang berfungsi untuk pembacaan dokumen. Code untuk pembacaan dokumen dapat dilihat di Gambar 5.

(15)

7

berhenti. Berikut merupakan bentuk pemotongan kalimat dalam penelitian ini:  Batas kalimat setelah tanda baca seperti . ?

!

 Batas kalimat sesudah tanda petik, bukan setelah titik

 Dapat mengenali singkatan seperti Hana, S. Kom.

Gambar 5 Contoh code pembacaan dokumen.

Case folding berfungsi untuk menyeragamkan kata yang bermakna sama namun memiliki tulisan yang berbeda. Proses

case folding adalah mengubah huruf besar menjadi kecil dalam suatu kalimat. Pemisahan kata berguna untuk memotong kalimat menjadi kata-kata dengan ciri antar kata adalah

whitespace (spasi, tab, dan newline). Contoh

Case folding dapat dilihat pada Tabel 1.

Filtering kata adalah memisahkan kata-kata yang dibutuhkan dengan kata-kata-kata-kata yang tidak bermakna (stopword) sehingga dapat mengurangi kompleksitas perhitungan dari fitur teks. Contoh kata stopword adalah yang, di, pada, dengan, dan lain-lain. Penelitian ini menggunakan bahasa pemrograman Perl dan format data yang digunakan berjenis teks XML.

Pemodelan Regresi Logistik Biner

Penelitian ini menggunakan data hasil dari perhitungan penelitian Aristoteles (2011) dengan CR 30% karena memiliki F-measure

paling besar dibandingkan dengan CR 10% dan 20% yaitu sebesar 4.81%. Data yang didapat dari penelitian Aristoteles (2011) berupa data .txt. Data tersebut dikonversi ke Microsoft Excel agar mudah untuk mendapatkan persamaan regresi logistik biner. Contoh data yang digunakan dalam penelitian ini dapat dilihat pada Lampiran 4. Diasumsikan dalam satu tabel tersebut merupakan jumlah seluruh kalimat dalam korpus, dengan S adalah kalimat, x adalah pembobotan fitur, dan y

merupakan variabel respons (dependent) yang bernilai 0 dan 1.

Jakarta, Kompas Kepala Pusat Penerangan (Puspen) TNI Mayjen Sjafrie Sjamsoeddin hingga saat ini belum mendapat informasi dan otoritas untuk menyampaikan mengenai pergantian pimpinan atas TNI. Ia mengaku, justru mendapat informasi mengenai perpanjangan masa dinas Jenderal Endriartono Sutarto dari berita media massa.

Pemotongan Kalimat

 Jakarta, Kompas Kepala Pusat Penerangan (Puspen) TNI Mayjen Sjafrie Sjamsoeddin hingga saat ini belum mendapat informasi dan otoritas untuk menyampaikan mengenai pergantian pimpinan atas TNI.

 Ia mengaku, justru mendapat informasi mengenai perpanjangan masa dinas Jenderal Endriartono Sutarto dari berita media massa.

Case Folding

 jakarta, kompas kepala pusat penerangan (puspen) tni mayjen sjafrie sjamsoeddin hingga saat ini belum mendapat informasi dan otoritas untuk menyampaikan mengenai pergantian pimpinan atas tni.

 ia mengaku, justru mendapat informasi mengenai perpanjangan masa dinas jenderal endriartono sutarto dari berita media massa.

Penelitian ini menggunakan variabel respons yang terdiri atas dua kategori, yaitu

y=1 yang menyatakan “kalimat masuk ke dalam ringkasan” dan y=0 yang menyatakan “kalimat tidak masuk dalam ringkasan”. Nilai

y=1 didapat dari peringkasan secara manual yang telah dilakukan pada penelitian Aristoteles (2011). Nilai dari variabel

dependent ini untuk mengkategorikan suatu kalimat masuk atau tidaknya dalam suatu ringkasan dalam tahap pelatihan.

Peringkasan manual ini dapat menentukan kalimat mana yang masuk dalam peringkasan dan kalimat mana yang tidak masuk dalam ringkasan untuk dilakukan perbandingan pada main:{

open

(IN,">C:/xampp/htdocs/OS/tes.txt") || die "FILE tidak bisa dibuka....$!\n";

while(<$file>) { print IN $_; }

(16)

8

tahap pengujian dengan hasil ringkasan sistem. Dengan menggunakan perangkat lunak SPSS 17, data yang telah dikonversi ke Microsoft Excel disalin ke SPSS 17 untuk mendapatkan persamaan regresi logistik biner.

Dalam proses pemodelan regresi logistik, data yang telah dikonversi ke Microsoft Excel disalin dan diproses dengan menggunakan SPSS 17 untuk menghasilkan persamaan regresi logistik biner. Hasil output SPSS 17 pemodelan regresi logistik dapat dilihat dalam Lampiran 5. Persamaan regresi logistik biner yang telah dihasilkan oleh SPSS dimasukkan ke dalam sistem. Pemodelan regresi logistik menghasilkan persamaan sebagai berikut:

ln _- = -2.843 – 0.638x1 + 2.627x2 + 0.258x4 + 1.713x5 - 0.160x6 - 0.08x7 - 0.462x8 + 1.831x9 - 0.213x10 Dimisalkan dokumen berita yang akan diringkas adalah dokumen yang berada di dalam korpus penelitian didalam direktori “korpus_bener” dengan nama file 34.txt, dokumen dapat dilihat pada Lampiran 6. Hasil ringkasan dari dokumen 34.txt dapat dilihat pada Lampiran 7. Hasil ringkasan pada penelitian ini menggunakan menggunakan

compression rate sebesar 30%. Artinya hasil ringkasan sebuah dokumen terdiri atas 30% isi dokumen tersebut.

Pengujian Menggunakan N-gram

Tahap pengujian menggunakan 50 dokumen berita berbahasa Indonesia (dokumen yang digunakan untuk pengujian berbeda dengan dokumen yang digunakan pada tahap pelatihan). Dalam tahap pengujian ini ringkasan manual dibutuhkan sebagai perbandingan antara hasil ringkasan sistem dengan hasil ringkasan yang telah dilakukan oleh penelitian Aristoteles (2011).

Pengujian dalam penelitian ini menggunakan metode N-gram. Metode N-gram menilai ketepatan dari peringkasan dokumen dengan cara membandingkan apakah kalimat hasil peringkasan sistem yang telah dihasilkan sama dengan peringkasan manual. N-gram secara umum adalah:

Dice =

x merupakan banyaknya kalimat yang dihasilkan sistem dan y merupakan banyaknya kalimat yang diringkas secara manual.

Pemodelan regresi logistik biner menghasilkan akurasi sebesar 42.84% dari perhitungan menggunakan metode N-gram. Dalam penelitian ini terdapat beberapa faktor yang memengaruhi besar kecilnya akurasi yaitu ringkasan manual yang subjektif, jumlah dokumen yang sedikit, dan jenis dokumen yang digunakan. Perhitungan hasil pengujian antara hasil peringkasan manual dan hasil peringkasan sistem menggunakan n-gram dapat dilihat pada Lampiran 8.

Hasil Perbandingan dengan Algoritme Genetika

Hasil penelitian Aristoteles (2011) yang dapat dilihat pada Tabel 2 Hasil akurasi pada penelitian Aristoteles (2011) menggunakan empat fitur teks pada tahap pengujian meningkat 5.28% dibandingkan dengan menggunakan dua fitur teks. Namun, perbedaan tingkat akurasi dengan menggunakan enam fitur teks, delapan fitur teks, dan sebelas fitur teks adalah sebesar 1%. Oleh karena itu, penggunaan empat fitur teks (f5, f4, f2, f11) pada tahap pengujian dapat merepresentasikan hasil akurasi dari sebelas fitur teks. Nilai akurasi menggunakan algoritme genetika adalah 45.91%.

Tabel 2 Hasil akurasi menggunakan algoritme genetika

Hasil akurasi pengujian pemodelan regresi logistik biner menggunakan metode N-gram ialah sebesar 42.84%. Hasil dari penelitian peringkasan menggunakan metode regresi logistik tidak menghasilkan akurasi yang lebih baik dari algoritme genetika. Hal ini dikarenakan model yang telah dihasilkan tidak sesuai dengan analisis regresi logistik. Analisis regresi logistik tersebut terdiri atas uji kelayakan model dan uji parameter model. Uji kelayakan model digunakan untuk mengetahui nilai perbedaan antara data dengan nilai yang dihasilkan sistem. Hasil analisis uji kelayakan

No. Bobot Akurasi

1 w5, w4

w5, w4, w2, w1

w5, w4, w2, w11, w7, w6

w5, w4, w2, w11, w7, w6, w10, w9

w5, w4, w2, w11, w7, w6, w10, w9, w1, w8, w3

41.16%

2 46.44%

47.12% 47.20% 47.63% 3 4 5

(17)

9

model dapat dilihat dalam Lampiran 5 pada tabel Hosmer dan Lemeshow (2000) terdapat nilai sig 0,006. Nilai sig 0,006 menunjukkan bahwa hasil prediksi model tidak sesuai dengan hasil observasi. Uji parameter model digunakan untuk mengetahui manakah variabel

independent yang memiliki pengaruh nyata terhadap variabel dependent. Hasil analisis uji parameter model dapat dilihat pada Lampiran 5 bagian tabel variables in the equation. Dapat dilihat bahwa pada kolom sig (significant). terdapat nilai- nilai sig di atas 0,05. Artinya variabel independent tidak memiliki pengaruh secara signifikan terhadap variabel

independent.

Persamaan yang telah didapat dalam penelitian ini tidak sesuai dengan analisis regresi logistik. Namun, parameter yang tidak signifikan tersebut tetap dimasukkan dalam persamaan untuk mengetahui hubungan antarvariabel independent terhadap variabel

dependent yang bersifat biner. Persamaan regresi yang telah didapat dari penelitian ini digunakan untuk melihat kinerja dari metode regresi logistik.

SIMPULAN DAN SARAN

Simpulan

Hasil penelitian yang telah dilakukan dapat disimpulkan beberapa hal berikut:

 regresi logistik biner dapat digunakan untuk peringkasan dokumen selama model yang dihasilkan sesuai dengan analisis regresi logistik biner dan model yang dihasilkan sesuai dengan data.  penelitian ini menghasilkan akurasi

sebesar 42.84%.

 penelitian ini tidak menghasilkan akurasi yang lebih baik dari penelitian sebelumnya dengan menggunakan algoritme genetika, yaitu sebesar 45.91%.

Saran

Terdapat saran setelah dilakukan penelitian peringkasan teks bahasa Indonesia menggunaakan regresi logistik biner yaitu, dalam membuat peringkasan teks menggunakan metode yang lain yang lebih sederhana dan menghasilkan akurasi lebih besar.

DAFTAR PUSTAKA

Aristoteles. 2011. Pembobotan fitur pada peringkasan teks bahasa Indonesia menggunakan algoritme genetika [tesis]. Bogor: sekolah Pascasarjana, Institut Pertanian Bogor.

Fattah MA, Ren F. 2008. Automatic text summarization. Di dalam: Proceeding of World Academic of Science, Engineering and Technology; 18-24 Feb 2007. hlm 192-195.

Hosmer D, Lemeshow S. 2000. Applied Logistic Regression. Ed ke-2. Columbus: A Wiley-Interscience Publ.

Jezek K, Steinberger J. 2008. Automatic text summarization (The state of the art 2007 and new challenges). Di dalam: Znalosti 2008; Bratislave, 13-15 Feb 2008. hlm 1-12.

Kleinbaum D, Klein M. 2010. Logistic Regressiom, Ed ke-3. New York:Springer. Kusumadewi Sri. 2003. Artificial Intelligence.

Yogyakarta: Graha Ilmu.

Manning CD, Raghavan P, Schutze H. 2008.

Introduction to Information Retrieval.

Cambridge: Cambridge University Press.

(18)

(19)

11

Lampiran 1 Diagram alir algoritme genetika sederhana (Kusumadewi 2003).

Bangkitkan populasi awal

Evaluasi fungsi tujuan

Individu- individu terbaik

Seleksi

Crossover

Mutasi Mulai

Bangkitkan populasi awal

Hasil Apakah

(20)

12

(21)

13

(22)

14

Lampiran 4 Contoh nilai nilai fitur untuk setiap kalimat dalam satu dokumen

s\x

x1

x2

x3

x4

x5

x6

x7

x8

x9

x10

Y

s1

1.000 0.797 0.203 0.135 0.000 0.087 0.043 0.084 0.000 0.000 1.000

s2

0.750 0.147 0.853 0.203 0.014 0.000 0.042 0.088 0.417 0.680 1.000

s3

0.500 0.748 0.252 0.203 0.014 0.081 0.081 0.135 0.250 0.371 1.000

s4

0.250 0.211 0.789 0.257 0.027 0.156 0.031 0.117 0.000 0.000 1.000

s5

0.000 0.704 0.296 0.108 0.014 0.188 0.000 0.058 0.000 0.000 0.000

s6

0.000 0.126 0.874 0.027 0.000 0.100 0.000 0.036 0.000 0.000 0.000

s7

0.000 0.768 0.232 0.176 0.000 0.095 0.000 0.077 0.583 1.187 0.000

s8

0.000 0.042 0.958 0.041 0.000 0.000 0.111 0.033 0.000 0.000 0.000

s9

0.000 0.169 0.831 0.338 0.014 0.000 0.070 0.157 0.667 1.876 0.000

s10

0.000 0.136 0.864 0.054 0.000 0.000 0.000 0.036 0.000 0.000 0.000

s11

0.000 0.129 0.871 0.216 0.000 0.028 0.028 0.131 0.333 0.629 0.000

(23)

15

Lampiran 5 Tabel model persamaan regresi logistik biner

Hosmer and Lemeshow Test

Chi-square df Sig.

21.499 8 0.006

Variables in the equation

B S.E. Wald df Sig. Exp(B)

x1 -0.638 0.247 6.698 1 0.010 0.528

x2 2.627 0.226 135.538 1 0.000 13.833

x4 0.258 1.274 0.041 1 0.839 1.295

x5 1.713 4.521 0.144 1 0.705 1.295

x6 -0.160 0.968 0.027 1 0.869 0.852

x7 -0.080 1.560 0.003 1 0.959 0.923

x8 -0.462 2.714 0.029 1 0.865 0.630

x9 1.831 2.007 0.832 1 0.362 6.239

x10 -0.213 0.407 0.273 1 0.601 0.808

Constant -2.843 0.207 188.089 1 0 0.058

(24)

16

(25)

17

(26)

18

Lampiran 8 Hasil pengujian antara hasil peringkasan manual dan hasil peringkasan sistem menggunakan N-gram

Dok. Ke-

Sistem Manual S M

Hasil N-gram Dok. Ke-

Sistem Manual S M

Hasil N-gram

1

5

9

3 0.428571429

26

13

1 0.076923077

2

7

6

0 0.000000000

27

6

5

2 0.363636364

3

6

5

1 0.181818182

28

11

7

3 0.333333333

4

6

0 0.000000000

29

13

9

2 0.181818182

5

3

4

2 0.571428571

30

19

20

7 0.358974359

6

16

18

2 0.117647059

31

5

1 0.200000000

7

9

2 0.250000000

32

3

5

0 0.000000000

8

2

0 0.000000000

33

4

6

1 0.200000000

9

5

1 0.200000000

34

2

4

0 0.000000000

10

3

5

1 0.250000000

35

8

11

2 0.210526316

11

3

1 0.333333333

36

14

4 0.285714286

12

5

6

1 0.181818182

37

7

8

2 0.266666667

13

4

6

1 0.200000000

38

5

7

2 0.333333333

14

3

4

1 0.285714286

39

4

5

2 0.444444444

15

7

11

2 0.222222222

40

8

9

4 0.470588235

16

6

8

2 0.285714286

41

5

0 0.000000000

17

7

8

0 0.000000000

42

13

12

3 0.240000000

18

6

9

2 0.266666667

43

8

10

2 0.222222222

19

5

6

1 0.181818182

44

15

17

2 0.125000000

20

5

6

2 0.363636364

45

5

2 0.400000000

21

13

15

1 0.071428571

46

4

7

2 0.363636364

22

3

4

1 0.285714286

47

10

6

0 0.000000000

23

4

10

2 0.285714286

48

5

6

0 0.000000000

24

7

1 0.142857143

49

2

4

0 0.000000000

25

5

8

1 0.153846154

50

8

3 0.375000000