Abstraksi dokumen menggunakan analisis kausalitas knowledge graph

(1)

ABSTRAKSI DOKUMEN MENGGUNAKAN

ANALISIS KAUSALITAS KNOWLEDGE GRAPH

R ZAINAL ARIFIN F S

SEKOLAH PASCA SARJANA

INSTITUT PERTANIAN BOGOR

(2)

ABSTRACT

R ZAINAL ARIFIN F S

, 2009. Document Abstraction Using Knowledge Graph

Causative Analysis. Under direction of

JULIO ADISANTOSO

and

SRI

NURDIATI

Generally, summary of a document is in the format of plain text.

Functionally, this summary is able to facilitate information seekers in finding the

desired information, but visually, the summary text form needs an extra energy to

understand. This is because the electronic summary (which is formed by the

system) will return some form of sentences that are not standard. The research

will be focused on making early stages of text abstraction using knowledge graph.

In this case, the knowledge graph relation which will be focused on a causal

relationship. There are 3 rules in Indonesian causal relationship. They are

[n]+[v][n]+, [n][v][n]+([v][n]+)*[conj.]*[n]+, and [v][n][definitive][n]+. The

study showed that 46% of an extracted text could be identified.

(3)

RINGKASAN EKSEKUTIF

R ZAINAL ARIFIN F S

,

2009. Abstraksi Dokumen Menggunakan

Analisis Kausalitas

Knowledge Graph

. Di bawah bimbingan

JULIO

ADISANTOSO

dan

SRI NURDIATI

.

Rangkuman dari suatu isi dokumen pada umumnya berupa teks biasa.

Secara fungsional, rangkuman ini cukup memudahkan para pencari informasi

dalam mencari informasi yang diinginkan. Namun, rangkuman membutuhkan

daya pikir yang lebih besar dibandingkan rangkuman yang berbentuk visual. Hal

ini dikarenakan rangkuman elektronik (yang dibentuk secara sistem) tentu akan

mengembalikan beberapa hasil berupa kalimat-kalimat yang tidak baku.

Penelitian yang dilakukan menganalisis relasi kausalitas dalam

knowledge graph

dengan tujuan untuk mereformulasi atau mengabstraksi sebuah teks.

Kalimat-kalimat yang dianalisis kausalitas akan diekstraksi terlebih dahulu

dengan tujuan kalimat yang akan diabstraksi adalah kalimat-kalimat penting dari

dokumen. Metode yang digunakan untuk mengekstraksi teks adalah kombinasi

linear. Variabel-variabel yang digunakan adalah jenis kata (kata dasar atau frase),

jenis kata buang (

stop list

) indeks kata dalam satu dokumen yang sama, dan

indeks kata dalam satu paragraf yang sama. Variabel jenis kata dalam metode

kombinasi linear ini digunakan untuk mencari nilai indeks terbesar yang akan

mengakumulasi nilai indeks kalimat. Pencarian nilai indeks terbesar memiliki

tujuan kata-kata yang paling relevan sebisa mungkin memiliki pengaruh besar

terhadap nilai indeks kalimat.

Kemunculan kata buang membuat bobot sebuah kalimat menjadi signifikan

besar dikarenakan nilai idf dari kata buang tersebut lebih tinggi daripada kata

yang memiliki kemunculan normal dalam koleksi indeks. Kata buang tidak

terdapat dalam koleksi indeks karena telah dibuang terlebih dahulu ketika

dilakukan pre-pemrosesan dokumen. Nilai idf menjadi lebih besar dikarenakan

nilai dalam lognya adalah dua kali jumlah dokumen dalam koleksi. Oleh karena

itu, dalam sebuah kalimat jika ditemukan kemunculan kata buang, bobot dari kata

tersebut akan diboboti kembali dengan nilai 0,5. Pemberian bobot untuk kata

buang ini memungkinkan kalimat yang memiliki banyak kata buang mengalami

penurunan bobot kalimat tersebut. Pemilihan kalimat yang akan diekstraksi

menggunakan nilai

threshold

agar kalimat-kalimat yang memiliki bobot tinggi

benar-benar terpilih. Nilai

threshold

yang digunakan dan dianggap optimal dalam

penelitian kali ini adalah 2,0.

(4)

bobotnya semula (penelitian ini melakukan perkalian terhadap nilai tf untuk

paragraf). Rata-rata nilai kebenaran ekstraksi teks yang dihasilkan penelitian ini

adalah 34%.

Proses

tagging

dilakukan untuk membantu pengenalan kata kerja dan kata

benda pada proses berikutnya. Proses ini menggunakan bantuan Kamus Besar

Bahasa Indonesia (KBBI) yang sudah disimpan ke dalam basis data. Pengenalan

kata ganti kepunyaan sudah dilakukan pada proses ini untuk memunculkan kata

benda yang tersembunyi dalam sebuah kata. Kata ganti kepunyaan yang

dipisahkan dalam penelitian ini adalah “nya” dan “mu”, dimana kata ganti “nya”

akan diganti menjadi kata “dia”, dan kata ganti “mu” akan diganti menjadi kata

“kamu”.

Analisis relasi kausalitas menggunakan metode berbasiskan aturan (

rule

base

) yang mengacu pada jenis-jenis kalimat dalam Bahasa Indonesia, yaitu

[n]+[v][n]+,

[n][v][n]+([v][n]+)*[conj.]*[n]+, dan [v][n][definitive][n]+. Kata

kerja dalam semua aturan di atas hanya berlaku untuk kata kerja berimbuhan

“me-” dan “di-“me-”. Hal ini dilakukan karena kedua kata kerja tersebut diasumsikan yang

paling relevan menjelaskan hubungan kausalitas dalam suatu kalimat lengkap.

Untuk kalimat-kalimat yang tidak memiliki kata kerja “me-” dan “di-” atau tidak

sesuai pola aturan kausalitas

Knowledge Graph

akan dihiraukan dan dianggap

tidak memiliki hubungan kausalitas.

Tingkat kepuasan sistem dihitung dan dilakukan perbandingan dengan

analisis secara manual yang dilakukan oleh peneliti sendiri. Cara menghitung

tingkat kepuasan tersebut dilakukan dengan membandingkan jumlah analisis oleh

sistem yang benar dengan analisis manual untuk satu kalimat, kemudian dibagi

total jumlah analisis yang dilakukan oleh sistem. Nilai akhir untuk satu dokumen

adalah nilai rata-rata dari nilai seluruh kalimat dalam satu dokumen tersebut.

Penelitian ini menghasilkan tingkat kepuasan 46% dari kalimat-kalimat yang

terekstraksi automatis.

(5)

ABSTRAKSI DOKUMEN MENGGUNAKAN

ANALISIS KAUSALITAS KNOWLEDGE GRAPH

Oleh:

R ZAINAL ARIFIN F S

G651070054

Tesis

sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada

Program Studi Ilmu Komputer

SEKOLAH PASCA SARJANA

INSTITUT PERTANIAN BOGOR

(6)

(7)

Judul Tesis

: Abstraksi Dokumen Menggunakan Analisis Kausalitas

Knowledge Graph

Nama

: R Zainal Arifin F S

NIM

: G651070054

Disetujui

Komisi Pembimbing

Ir. Julio Adisantoso, M.Kom

Dr. Ir. Sri Nurdiati, M.Sc

Ketua

Anggota

Diketahui

Ketua Program Studi

Dekan Sekolah Pascasarjana

Ilmu Komputer

Dr. Ir. Agus Buono, M.Si, M.Kom Prof. Dr. Ir. Khairil A. Notodiputro, M.S

(8)

DAFTAR ISI

Halaman

ABSTRAK ... i

RINGKASAN EKSEKUTIF... ii

LEMBAR PENGESAHAN ... iii

LEMBAR PERNYATAAN ... iv

RIWAYAT HIDUP ... v

KATA PENGANTAR ... vi

DAFTAR ISI ... vii

DAFTAR GAMBAR ... viii

DAFTAR TABEL ... ix

DAFTAR LAMPIRAN ... x

1

PENDAHULUAN ... 1

1.1 Latar Belakang ... 1

1.2 Tujuan ... 4

1.3 Manfaat ... 4

1.4 Ruang Lingkup ... 4

2

TINJAUAN PUSTAKA ... 5

2.1 Pemotongan Teks ... 5

2.2 Jenis Sistem Pemotongan Teks ... 5

2.3 Analisis Frase ... 6

2.4

Recall and Precision

... 7

2.5 Pre-proses Dokumen ... 7

2.6 Pembobotan... 8

2.7

Stemming

... 9

2.8 Graf ... 10

(9)

2.10 Interpretasi

Knowledge Graph

... 11

2.11 Arti Imbuhan dalam Bahasa Indonesia ... 11

2.12 Peringkasan Teks... 15

2.13 Pembentukan Kalimat ... 15

2.14

Dynamic-Link Library

... 17

3

METODE PENELITIAN ... 19

3.1 Tahap Pembentukan

Knowledge Graph

... 19

3.2 Analisis Frase ... 20

3.3

Stemming

... 21

3.4

Knowledge Base

... 21

3.5 Peringkasan Teks... 22

3.6 Analisis Relasi Kausalitas (

Causative

) ... 22

3.7 Representasi Graf ... 22

3.8 Evaluasi Peringkasan Teks ... 23

3.9 Lingkungan Pengembangan ... 23

3.10 Waktu dan Tempat Penelitian ... 23

4

HASIL DAN PEMBAHASAN ... 24

4.1 Pre-pemrosesan Dokumen ... 24

4.2

Parsing

... 25

4.3 Proses Ekstrasi Kalimat ... 26

4.4 Analisis Kausalitas ... 31

4.5 Tingkat Kepuasan Sistem ... 36

4.6

Dynamic-Link Library

... 36

5

SIMPULAN DAN SARAN ... 38

5.1 Simpulan ... 38

5.2 Saran ... 38

DAFTAR PUSTAKA ... 39

(10)

DAFTAR GAMBAR

Halaman

1

Representasi Tabel tRelasiKK dalam Basis Data

...

21

2

Representasi Kausalitas dari Dua Node

...

23

3

Sub Judul yang Terekstraksi Sebagai Kalimat Inti

...

30

(11)

DAFTAR TABEL

Halaman

1

Nilai Kebenaran Hasil Ektraksi Teks

...

30

2

Tabel Perbandingan Hasil Analisis Sebab Akibat

(12)

Hak cipta dilindungi Undang – Undang

1.

Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa

mencantumkan dan menyebutkan sumber :

a.

Pengutipan hanya untuk kepentingan pendidikan, penelitian,

penulisan karya ilmiah, penyusunan laporan, penulisan kritik atau

tinjauan suatu masalah.

b.

Pengutipan tidak merugikan kepentingan yang wajar IPB.

(13)

PERNYATAAN

DENGAN INI SAYA MENYATAKAN BAHWA TESIS INI ADALAH

BENAR-BENAR HASIL KARYA SAYA SENDIRI YANG BELUM

DIGUNAKAN

SEBAGAI

TESIS

ATAU

KARYA

ILMIAH

PADA

PERGURUAN TINGGI ATAU LEMBAGA MANAPUN.

Bogor, November 2009

R Zainal Arifin Fandi Saputra

(14)

RIWAYAT HIDUP

Penulis bernama R Zainal Arifin Fandi Saputra, lahir pada tanggal 3 Januari

1985 di Surakarta. Penulis adalah anak kedua dari tiga bersaudara, dari pasangan

Drs. H. Subandi dan Hj. Dyah Farida. Jenjang pendidikan penulis, pada tahun

1996 penulis menamatkan sekolah dasar pada SDN Pengadilan III Bogor,

kemudian melanjutkan ke SLTP Negeri IV Bogor dan lulus pada tahun 1999.

Pada tahun yang sama penulis diterima di SMUN V Bogor dan lulus pada tahun

2002.

Pada tahun 2002 penulis melanjutkan studinya di Institut Pertanian Bogor

(IPB) melalui jalur Undangan Seleksi Masuk IPB (USMI) dan diterima sebagai

mahasiswa Program Studi Ilmu Komputer pada Fakultas Matematika dan Ilmu

Pengetahuan Alam. Pada tahun 2007, penulis melanjutkan pendidikan pada

program Pasca Sarjana Magister Ilmu Komputer Institut Pertanian Bogor. Saat ini

penulis bekerja sebagai

technical consultant

pada PT. Graha Technosoft

(15)

KATA PENGANTAR

Pertama-tama penulis ucapkan puji dan syukur kepada Allah SWT atas

segala rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan

penyusunan tesis ini. Judul penelitian ini adalah

”Abstraksi Dokumen

Menggunakan Analisis Kausalitas

Knowledge Graph”

. Penelitian ini disusun

oleh penulis sebagai salah satu syarat untuk meraih gelar Magister Sains pada

program pasca sarjana Ilmu Komputer, Institut Pertanian Bogor.

Penulis mengucapkan terima kasih yang sebesar-besarnya kepada beberapa

pihak yang telah memberikan bantuan dalam penyelesaian tesis ini, antara lain:

1.

Ir. Julio Adisantoso, M.Kom dan Dr. Ir. Sri Nurdiati, M.Sc selaku

pembimbing tesis yang telah memberikan bimbingan baik secara teknis

maupun teoritis dalam proses penyusunan sehingga dapat diselesaikan

dengan baik.

2.

Ahmad Ridha, S.Kom, MS selaku penguji dalam sidang tesis yang telah

memberikan kritik dan saran yang sangat berharga dalam

penyempurnaan tesis ini.

3.

Kedua orang tua penulis Drs. H. Subandi dan Hj. Dyah Farida yang

selalu mencurahkan kasih sayang serta mendukung dan mendoakan

penulis setiap waktu.

4.

Istri penulis Ratna Widyaningsih, S.Kom yang selalu memberikan

dukungan dan doa setiap waktu.

5.

Mas Ishal yang selalu menjadi panutan adik-adiknya dalam meraih

kesuksesan, Risa Fandi Febrina yang selalu memberikan dukungan dan

motivasi kepada penulis.

6.

Bapak Freddy Tandiary dan Ibu Lily Alie yang telah memberikan saya

waktu dan kesempatan untuk melanjutkan studi saya, serta rekan-rekan

di PT. Graha Technosoft Informatika yang telah banyak memberikan

waktu luang untuk saya kuliah ketika

project

.

7.

Teman-teman angkatan 9, terima kasih atas persahabatan yang indah

(16)

8.

Pak Ruhiyan yang telah banyak membantu penulis dalam

menyelesaikan segala macam administrasi-administrasi semasa kuliah.

9.

Semua pihak yang telah membantu demi kelancaran tesis ini.

Mudah-mudahan tesis ini bermanfaat bagi penulis dan pihak lain yang

membutuhkan.

Bogor, November 2009

R Zainal Arifin Fandi Saputra

(17)

BAB 1 PENDAHULUAN

1.1.

Latar Belakang

Resume atau rangkuman dari suatu dokumen biasanya satu bagian dari

dokumen yang pertama kali dibaca oleh pembeli atau peminjam dokumen

tersebut. Rangkuman dari dokumen ini biasanya dibuat oleh si pembuat dokumen

tersebut atau dengan menyewa tenaga ahli. Rangkuman yang baik akan

menambah daya jual dari dokumen tersebut.

Rangkuman dari suatu isi dokumen pada umumnya berupa teks biasa.

Secara fungsional, rangkuman ini cukup memudahkan para pencari informasi

dalam mencari informasi yang diinginkan. Para pencari informasi tersebut akan

membaca isi rangkuman dari situs-situs yang ditemu-kembalikan sebelum

mengunduh informasi dari situs tersebut. Secara visual, rangkuman berupa teks

mampu melelahkan daya pikir para pencari informasi. Hal ini dikarenakan

rangkuman elektronik (yang dibentuk secara sistem) tentu akan mengembalikan

beberapa hasil berupa kalimat-kalimat yang tidak baku. Kondisi ini cukup wajar

karena rangkuman yang tidak elektronik saja terkadang mampu memusingkan

pembaca jika penulis rangkuman bukan merupakan seorang yang ahli dalam hal

pembentukan rangkuman yang baik dalam bahasa Indonesia.

Penelitian sebelumnya mengenai peringkasan teks ini sudah pernah

dilakukan. Metode yang digunakan adalah rantai leksikal dan Ekstraksi Paragraf

Bushy Path

. Rantai leksikal digunakan untuk memeroleh kata kunci pada setiap

segmen teks dan ekstraksi

busy path

sebagai algoritme pembangkitan peringkasan

teks. Keunggulan rantai leksikal dalam memeroleh kata kunci pada setiap segmen

adalah algoritme yang tidak hanya memertimbangkan elemen dengan jumlah

perulangan yang banyak tapi juga mempertimbangkan relasi antara kata dalam

setiap segmen, sedangkan ekstraksi paragraf memiliki keunggulan dalam hal

tingkat keterbacaaan yang lebih baik dibandingkan dengan ekstraksi kalimat yang

umumnya digunakan. Sistem dievaluasi dengan membandingkan hasil

peringkasan sistem dan hasil peringkasan manual dari beberapa individu. Dengan

(18)

tidak hanya memerhitungkan frekuensi kata tapi juga memerhitungkan relasi

antara kata, tingkat kepuasan hasil peringkasan yang dibangkitkan sistem terhadap

hasil peringkasan manual sebesar 51.67% (Gill 2005).

Penelitian yang pernah dilakukan lainnya adalah ekstraksi kalimat dan

mencari kedekatan antar kalimat dengan menggunakan metode stokastik berbasis

graf (Erkan & Radev 2004). Peringkasan teks ekstraksi yang dikembangkan

mengandalkan

kalimat

utama

dalam

paragraf

atau

dokumen

untuk

mengidentifikasi kalimat-kalimat yang paling penting dalam sebuah dokumen

atau sekumpulan dokumen. Metode

Lex Rank

digunakan untuk menghitung

tingkat kepentingan suatu kalimat berdasarkan konsep pusat vektor ciri dalam

sebuah representasi graf dari suatu kalimat.

Dalam model ini, konektivitas suatu matriks berdasarkan pada kesamaan

cosines intra-sentence

yang digunakan sebagai matriks

adjacency

dari

representasi graf. Hasil dari penelitian ini menunjukkan bahwa metode

Lex Rank

mampu memberikan hasil yang sangat baik untuk teknik yang berbasis

centroid

dan teknik-teknik berbasiskan derajat lainnya. Metode

Lex Rank

dengan

threshold

mampu menghasilkan hasil yang sangat baik pada metode berbasiskan derajat jika

ditambahkan

Lex Rank

secara kontinu (

continuous Lex Rank

).

Lex Rank

juga tidak

sensitif terhadap

noise

dalam data yang diakibatkan oleh tidak sempurnanya

pengelompokan (

clustering

) topik dari suatu dokumen.

Rangkuman dari sebuah dokumen yang dihasilkan oleh suatu sistem

peringkasan teks automatis biasanya akan mengalami kesulitan pada bagian

mengabstraksi teks. Bagian abstraksi teks ini merupakan bagian tersulit dari suatu

usaha peringkasan teks automatis. Proses abstraksi biasanya dilakukan setelah

ekstraksi kalimat berhasil dilakukan. Metode ekstraksi kalimat yang akan

digunakan adalah metode kombinasi linear. Metode kombinasi linear ini sudah

pernah dilakukan untuk permasalahan

question answering system

(Li 2000). Li

menggabungkan teknik sintaktik dan heuristik untuk mendapatkan nilai akhir dari

sebuah jawaban. Pada sistem

question answering

sebelumnya, 94 pertanyaan

mampu dijawab pada urutan teratas dari total 162 pertanyaan, sementara dengan

(19)

dijawab pada urutan teratas. Dengan pertimbangan peningkatan 11.7% dari sistem

sebelumnya, metode kombinasi linear akan dicobakan untuk permasalahan

ekstraksi kalimat.

Pada penelitian ini, abstraksi teks tersebut akan didekati dengan metode

knowledge graph

. Pemilihan teknik graf sebagai metode peringkasannya

dikarenakan rangkuman dalam bentuk visual gambar secara psikis tidak

membutuhkan daya pikir lebih besar daripada dalam bentuk teks. Hal ini

dikarenakan satu gambar mampu merepresentasikan ribuan teks tergantung

interpretasi pelihat gambar. Isi dari media visual secara rata-rata masih dapat

ditangkap dalam kondisi daya pikir yang sedang lemah pada umumnya.

Sebuah graf G = (V,E) atau

directed graph

G= (V,A) terdiri atas

sekumpulan V

vertex

dan sekumpulan

edges

E, yang saling menghubungkan

vertex

. Sekumpulan arah panah yang menunjukkan sepasang

vertex

. Graf

gabungan merupakan graf yang terdiri atas

edges

dan arah panah.

Knowledge

graph

terdiri atas sekumpulan verteks V dari verteks yang belum dilabeli, yang

biasa disebut token (Hoede & Nurdiati 2008).

Penelitian tentang teori

knowledge graph

(KG) diawali oleh para peneliti

yang berbasis di Universitas Twente dan Universitas Groningen sekitar dua puluh

lima tahun lalu. Penelitian tersebut sampai saat ini masih terus dilanjutkan oleh

beberapa peneliti dengan fokus utamanya adalah aplikasi KG untuk menganalisis

teks (Blok 1997). Menurut Zhang dan Hoede (2002) teori KG merupakan teori

yang sangat erat kaitannya dengan masalah

natural language

yaitu sistem simbol

spesial yang digunakan untuk mengekspresikan ide-ide manusia dalam

pembentukan informasi menjadi sebuah pengetahuan.

Knowledge graph

memiliki beberapa relasi dasar, di antaranya relasi

kausalitas, kesederajatan, bertautan, kesamaan, perbedaan atau ketidaksamaan,

attributive

, berurutan, dan ketergantungan. Kesemua relasi tersebut merupakan

struktur pembentuk

knowledge graph

agar kesemantikan dari hasil interprestasi

dapat terdefinisikan dengan baik. Penelitian ini melakukan analisis automatis

salah satu relasi

knowledge graph

di atas sebagai usaha awal untuk melakukan

(20)

Pengenalan kata pokok dan relasinya di satu kalimat dalam suatu dokumen

dalam ilmu teknologi informasi biasa disebut

semantic

. Kesemantikan suatu

kalimat terkadang memiliki pemahaman yang berbeda meskipun dalam satu

kalimat terdapat kata-kata yang sama dengan kalimat dalam dokumen lain. Tema

dokumen merupakan suatu hal yang mampu membedakan kesemantikan dalam

suatu kalimat. Untuk tahap awal, tema dokumen dalam pelatihan akan

dikhususkan dalam bidang pertanian. Algoritme yang akan dicari pemecahannya

adalah bagaimana hubungan kausalitas dalam suatu dokumen mampu

teridentifikasi secara automatis.

1.2.

Tujuan

Tujuan dari penelitian ini adalah melakukan analisis kausalitas suatu kalimat

sebagai awal usaha untuk melakukan abstraksi teks menggunakan

knowledge

graph

.

1.3.

Manfaat

Manfaat dari penelitian ini adalah menyediakan awal pemikiran teknik

abstraksi teks menggunakan metode

knowledge graph

dengan menganalisis salah

satu relasi dasar dalam

knowledge graph

.

1.4.

Ruang Lingkup

Ruang lingkup penelitian ini adalah:

1.

Tema dokumen yang digunakan dalam pelatihan adalah pertanian.

2.

Dokumen-dokumen yang digunakan berekstensi *.txt.

(21)

Bab 2 TINJAUAN PUSTAKA

2.1.

Pemotongan Teks

Pemotongan teks merupakan proses pemilahan teks yang secara sintaktik

membuat kata yang saling berhubungan menjadi anggota dari frase yang sama

(Sang & Buchholz 2000). Keanggotan hasil pemotongan teks hanya dapat dimiliki

oleh satu anggota pemotongan teks, sehingga hasil pemotongan teks tidak bisa

saling

overlap

. Berikut ini adalah representasi pemotongan teks pada sebuah

kalimat.

[NP Petani] [VP menggunakan] [NP orang-orangan sawah] [PP

sebagai] [NP pengusir] [NP hama]

Pemotongan teks direpresentasikan sebagai sekumpulan kata di dalam tanda

kurung. Kata setelah tanda kurung buka merupakan tipe pemotongan teks.

Tipe-tipe pemotongan teks dapat didefinisikan sebagai berikut:

1.

NP (Kata Benda)

2.

VP (Kata Kerja)

3.

ADVP (Kata Keterangan) dan ADJP (Kata Sifat)

4.

PP (Kata Sambung)

2.2.

Jenis Sistem Pemotongan Teks

Berbagai jenis sistem pemotongan teks yang sudah diimplementasikan

menghasilkan beberapa hasil yang berbeda (Sang & Buchholz 2000). Algoritme

pemotongan teks ini dibagi ke dalam 4 kelompok:

1.

Sistem berbasiskan aturan (

rules

)

2.

Sistem berbasiskan memori

3.

Sistem statistik

4.

Sistem kombinasi

Sistem yang berbasiskan aturan-aturan (

rules

) telah diimplementasikan

dengan banyak cara, salah satunya yang menghasilkan hasil yang paling baik

adalah aplikasi yang menggunakan aturan-aturan

transformation-based

. Sistem

(22)

menggunakan aturan

context-sensitive

dan

context-free

untuk menransformasi

part-of-speech

(POS) ke dalam pemotongan teks.

Penelitian lainnya melakukan analisis dengan menggunakan pendekatan

pelatihan dengan berbasiskan memori. Penelitian ini menghasilkan nilai metrik

termodifikasi berbeda yang diaplikasikan ke dalam

part-of-speech

(POS) yang

hanya berupa informasi saja mampu bekerja lebih baik. Sistem pemotongan teks

yang banyak diimplementasikan adalah yang berbasiskan metode statistik, seperti

model Markov dan

machine learning

.

Sistem kombinasi merupakan kombinasi antara ketiga sistem sebelumnya.

Beberapa contoh dari sistem ini adalah penggunaan

Weighted Probability

Distribution Voting

(WPDV) untuk mengombinasikan hasil dari 4 WPDV

pemotongan teks dan pemotongan teks yang berbasiskan memori. Performa yang

paling baik dari keseluruhan jenis algoritme pemotongan teks adalah sistem

kombinasi yang menggunakan metode

support vector machine

untuk

menglasifikasi dan memprediksi pasangan-pasangan hasil pemotongan teks yang

unik. Hasil dari klasifikasi tersebut akan dikombinasikan dengan algoritme

dynamic programming

. Nilai urutan dari teknik tersebut mampu mencapai nilai

93.48 dengan nilai

precision

93.45%, dan

recall

93.51%.

2.3.

Analisis Frase

Frase merupakan sekumpulan kata benda atau kata kerja yang jika

disatukan akan memiliki arti berbeda dengan kata dasarnya. Dengan definisi

tersebut, maka dalam suatu peringkasan teks, frase jangan sampai teringkas

karena akan menyebabkan arti yang berbeda. Makna dari hasil peringkasan pun

bisa menjadi tidak mencerminkan isi sesungguhnya dari dokumen tersebut.

Phrase Recognizer

merupakan suatu fungsi untuk mencari frase yang

memiliki arti dari kalimat x berdasarkan kriteria optimal di bawah ini.

) , )

, (

, ) , (( |)

( max arg

)

( x y

y k e s

k e s score Y

y x P y x

∈ ∈

⊆ = ℜ

Mekanisme analisis frase yang dilakukan oleh Xavier Carreras dan Lluis Marquez

(2005) dideskripsikan dengan jika terdapat kalimat x, identifikasi frase y dalam x:

(23)

digunakan untuk pelatihan analisis frase. Pertama diasumsikan dalam fungsi P

diberikan kalimat x, identifikasi setiap set kata dalam kalimat tersebut untuk

menjadi kandidat frase dengan mengesampingkan arti kata dari setiap kandidat

frase tersebut. Langkah kedua akan memberikan nilai kepada frase-frase yang

memiliki makna dari kalimat.

2.4.

Recall and Precision

Temu-kembali informasi mempunyai dua peubah untuk mengukur tingkat

relevansi dari hasil yang ditemu-kembalikan.

Recall

merupakan peubah yang

digunakan sistem temu-kembali informasi untuk membandingkan dokumen

relevan yang ditemu-kembalikan dengan seluruh dokumen relevan dalam koleksi,

sedangkan

precision

merupakan peubah untuk membandingkan dokumen relevan

yang ditemu-kembalikan dengan seluruh dokumen yang telah ditemu-kembalikan

(Baeza-Yates & Riberio-Neto 1999).

Untuk koleksi dokumen yang besar dan tidak terurut dengan baik, kedua

peubah tersebut sulit digunakan. Nilai

precision

sangat tergantung pada

keterurutan dokumen yang ditemu-kembalikan. Semakin terurut dokumen

tersebut, semakin tinggi nilai

precision

(sama dengan satu).

2.5.

Pre-proses Dokumen

Pre-proses dokumen merupakan sekumpulan proses operasi teks yang

merupakan inisialisasi awal dari proses implementasi sistem temu-kembali

informasi (Baeza-Yates & Riberio-Note 1999). Proses operasi teks tersebut dapat

dibagi ke dalam lima proses utama, yang pertama dilakukan adalah analisis

leksikal terhadap dokumen. Analisis leksikal adalah analisis penggunaan terhadap

karakter angka, tanda kutip, tanda penghubung, dan penggunaan huruf besar dan

kecil.

Tahap yang kedua adalah proses penghilangan kata buang. Contoh dari kata

buang ini adalah nanti, sehingga, sementara, dan lain-lain. Tahap yang ketiga

yang merupakan tahap opsional, karena tidak setiap proses temu-kembali

memerlukan tahap ini, yaitu proses

stemming

. Proses

stemming

ini merupakan

(24)

Proses selanjutnya adalah melakukan pengindeksan untuk kata-kata yang

telah melewati proses penghilangan kata buang dan

stemming

. Pada tahap ini juga

akan dianalisis kesemantikan dari suatu kata. Tahap terakhir adalah melakukan

pengkategorisasian kata atau istilah dari hasil pemrosesan pada tahap-tahap

sebelumnya.

2.6.

Pembobotan

Pembobotan istilah/kata

dalam sistem temu kembali informasi digunakan

untuk menghitung bobot dari suatu istilah/kata, baik yang terdapat dalam

dokumen, maupun dalam kueri (Baeza-Yates & Riberio-Note 1999). Hasil dari

pembobotan ini dapat digunakan untuk melakukan pemeringkatan istilah/kata

yang sering muncul dalam suatu kluster dokumen pelatihan, sehingga hasil

pencarian berdasarkan kueri yang diketikkan dapat tertemu-kembalikan secara

berurut dari yang paling relevan (nilai pembobotan tertinggi) sampai ke yang

kurang relevan dari sisi sistem. Dengan menggunakan pembobotan istilah/kata

,

penemuan kembali informasi yang relevan dengan kueri menjadi lebih akurat.

Terdapat dua langkah untuk menghitung bobot suatu istilah/kata. Langkah

pertama adalah penghitungan

term frequency

(

tf

), yaitu penghitungan frekuensi

kemunculan suatu istilah/kata

dalam

cluster

dokumen pelatihan, dengan rumus:

tf

(

t,d

) =

occ

(

t,d

) /

occ

(

tmax,d

),

dengan

occ

(

t,d

) adalah kemunculan istilah/kata

t

dalam dokumen

d

, dan

occ

(

tmax,d

) merepresentasikan kemunculan kata/istilah

tertinggi dalam dokumen

d

.

Langkah kedua adalah penghitungan

inverse document frequency

(

idf

), yaitu

mengukur

inverse

frekuensi suatu kata/istilah

yang terdapat pada dokumen di

dalam koleksi pelatihan (

cluster document

). Hal ini dilakukan dengan

pertimbangan suatu kata/istilah

yang sering muncul pada banyak dokumen dalam

koleksi, tidak dapat digunakan untuk membedakan dokumen yang relevan dengan

yang tidak relevan. Penghitungan

idf

dilakukan dengan rumus:

idf

(

t,d

) =

log

(

N

/

n

(

t

)),

dengan

N

adalah banyak dokumen dalam koleksi, dan

n

(

t

) adalah banyak

(25)

dan

idf

, kemudian dilakukan penghitungan pembobotan istilah/kata (

weight

),

yaitu:

weight

(

t,d

) =

tf

(

t,d

) *

idf

(

t

),

dengan

weight

(

t,d

) adalah bobot kata/istilah

t

dalam dokumen

d

(Salton & McGill

1983).

2.7.

Stemming

merupakan suatu teknik untuk mereduksi suatu kata untuk

mendapatkan kata dasarnya (Paice & Husk 1980). Kata yang terkena reduksi

adalah kata-kata yang memiliki imbuhan. Untuk beberapa kasus, banyak sekali

variasi kata dalam Bahasa Indonesia yang seperti memiliki imbuhan, namun

sebenarnya imbuhan tersebut tidak terkategorikan sebagai imbuhan dalam kata.

Dalam kasus seperti ini, algoritme

stemmer

tidak boleh mereduksi kata tersebut,

karena akan menghilangkan makna dari kata tersebut. Sebagai contoh, kata-kata

tersebut adalah, “mekar”, “teralis”, atau “bukan”.

Terdapat beberapa algoritme

stemming

yang memiliki perbedaan dari sisi

performa dan akurasi, dan bagaimana beberapa rintangan atau permasalahan

dalam

stemming

tersebut dapat teratasi. (Baeza-Yates & Riberio-Note 1999) Jenis

algoritme pertama adalah algoritme

table lookup

(

brute force

). Algoritme ini

memiliki tabel relasi antara kata dasar dan kata berimbuhan. Proses

stemming

nya

dilakukan dengan melakukan kueri ke dalam tabel, jika kata berimbuhan tersebut

ditemukan, maka kata dasar yang berelasi akan ditemu-kembalikan.

Jenis algoritme kedua adalah

affix removal

yang berbasiskan aturan-aturan

dalam

stemmer

nya. Salah satu algoritme yang terkenal adalah Algoritme Porter.

Algoritme ini melakukan pembuangan morfologi biasa dan akhiran infleksional

dari kata-kata dalam Bahasa Inggris. Pemikiran utamanya adalah algoritme ini

merupakan bagian dari proses normalisasi istilah yang biasa dilakukan ketika

melakukan pemrosesan awal sistem Temu-kembali Informasi (Porter 1980).

Successor variety

merupakan jenis algoritme

stemming

ketiga yang

prosesnya berdasarkan penentuan batas morfem. Algoritme ini menggunakan

pengetahuan (

knowledge

) linguistik yang struktural. Jenis algoritme

stemmer

yang

(26)

trigrams. Algoritme ini lebih sering melakukan prosedur pengelompokan istilah

(

clustering

) daripada

stemming-stemming

yang lainnya.

2.8.

Graf

Suatu graf adalah pasangan terurut (V,E) dengan V adalah himpunan

berhingga dan tak kosong dari elemen-elemen graf yang disebut simpul (

node

,

vertex

) dan E adalah himpunan pasangan tak terurut dari simpul-simpul berbeda

di V (Foulds 1992). Setiap {p,q}

∈

E (dengan p,q

∈

V) disebut sisi (

edge

) dan

dikatakan menghubungkan simpul-simpul p dan q. Misalkan diberikan graf G =

(V,E).

1.

Jika e = {p,q}

∈

E maka p dan q masing-masing dikatakan

incident

dengan

e.

2.

Jika e = {p,q}

∈

E maka p dikatakan

adjacent

dengan q, dan sebaliknya.

Himpunan simpul yang

adjacent

dengan v dinyatakan dengan (v).

3.

Jika e = {p,q}

∈

E dan e’ = {p,r}

∈

E maka sisi-sisi e dan e’ dikatakan

adjacent

karena mempunyai simpul sekutu (“

vertex common

”), yaitu p.

Suatu multigraf adalah pasangan terurut (V,E) dengan V adalah himpunan

berhingga dan tak kosong dari simpul-simpul dan E adalah himpunan pasangan

tak terurut dari simpul-simpul berbeda di V dan pengulangan diperbolehkan. Graf

juga bisa diidentifikasikan memiliki arah/digraf (

directed

graph

) jika pasangan

terurut (V,A), dengan V adalah himpunan tak kosong dan hingga dan A adalah

himpunan pasangan terurut elemen-elemen berbeda di V. Elemen dari A biasa

disebut arc (sisi berarah). Jika (u,v) suatu

arc

pada suatu

digraph

, maka v

dikatakan

predecessor

dari v, dan v disebut

successor

dari u.

Suatu graf G = (V,E) atau digraf D = (V,A) dikatakan terboboti jika terdapat

fungsi w: E

R atau w: A

R (dengan R himpunan bilangan real) yang

memadamkan setiap bilangan real (yang disebut bobot) untuk setiap sisi di E (atau

A). Setiap bobot w (uv) dengan uv

∈

E atau uv

∈

A biasa dituliskan dengan w

uv

.

2.9.

Knowledge Graph

Komposisi k

nowledge graph

pada prinsipnya terdiri atas

konsep dan relasi

.

(27)

token

(simbol, tanda, karakteristik, dan sebagainya), atau sebagai tipe (Zhang &

Hoede 2002).

Knowledge graph

ini dapat dibedakan dalam 3 hal seperti berikut:

1.

Simbol menandakan adanya sebuah konsep dan dapat disejajarkan dengan

fungsi argumen dalam logika.

2.

Tipe digunakan untuk memberikan nama pada sebuah konsep yang umum.

3.

Pemberian contoh digunakan untuk menambahkan model atau contoh untuk

memperjelas sebuah konsep.

2.10.

Interpretasi Knowledge Graph

Hasil analisis teks pada teori

knowledge graph

untuk satu persoalan yang

sama bisa memberikan hasil yang berbeda (Ikhwati 2007). Hal ini disebabkan

adanya perbedaan interpretasi yang bersifat subjektif. Oleh karena itu, untuk

memerkecil perbedaan tersebut diperlukan tambahan informasi yang berupa

background knowledge

serta kemampuan analisis teks yang cukup baik.

2.11.

Arti Imbuhan dalam Bahasa Indonesia

Ada banyak ragam pembentukan kata dalam Bahasa Indonesia. Sebagian

besar kata dibentuk dengan cara menggabungkan atau menambahkan beberapa

komponen yang berbeda. Beberapa imbuhan dalam Bahasa Indonesia dapat

mengubah arti dari suatu kata. Selain mengubah arti dari suatu kata, penambahan

imbuhan juga mampu mengubah sifat dari suatu kata.

Beberapa imbuhan dalam Bahasa Indonesia beserta arti dari penambahan

imbuhan tersebut disebutkan di bawah ini: (Chaer 2006)

1.

ber-

: menambah prefiks ini akan membentuk verba (kata kerja) yang sering

kali mengandung arti (makna) mempunyai atau memiliki sesuatu. Juga

dapat menunjukkan keadaan atau kondisi atribut tertentu. Penggunaan

prefiks ini lebih aktif berarti mempergunakan atau mengerjakan sesuatu.

Fungsi utama prefiks "ber-" adalah untuk menunjukkan bahwa subjek

kalimat merupakan orang atau sesuatu yang mengalami perbuatan dalam

kalimat itu.

2.

me-, meng-, menge-, meny-, mem-

: menambah salah satu dari prefiks ini

akan membentuk verba yang sering kali menunjukkan tindakan aktif di

(28)

tindakan itu. Jenis prefiks ini sering kali mempunyai arti mengerjakan,

menghasilkan, melakukan atau menjadi sesuatu.

3.

di-

: Prefiks ini mempunyai pertalian yang sangat erat dengan prefiks "me-."

Prefiks "me-" menunjukkan tindakan aktif sedangkan prefiks "di-"

menunjukkan tindakan pasif, di mana tindakan atau objek tindakan adalah

fokus utama dalam kalimat itu, dan bukan pelaku.

4.

pe-

: Prefiks ini membentuk nomina yang menunjukkan orang atau agen

yang melakukan perbuatan dalam kalimat. Kata dengan prefiks ini juga bisa

memiliki makna alat yang dipakai untuk melakukan perbuatan yang tersebut

pada kata dasarnya. Apabila kata dasarnya berupa kata sifat, maka kata yang

dibentuk dengan prefiks ini memiliki sifat atau karakteristik kata dasarnya.

5.

ter-

: Penambahan afiks ini menimbulkan dua kemungkinan.

Jika menambahkan ke kata dasar adjektif, biasanya menghasilkan

adjektif yang menyatakan tingkat atau kondisi paling tinggi (ekstrim)

atau superlatif (misalnya: paling besar, paling tinggi, paling baru,

paling murah).

Jika menambahkan ke kata dasar yang bukan adjektif, umumnya

menghasilkan verba yang menyatakan aspek perfektif, yaitu suatu

perbuatan yang telah selesai dikerjakan. Afiks ini juga bisa

menunjukkan perbuatan spontanitas, yaitu suatu perbuatan yang terjadi

secara tiba-tiba atau tidak disengaja (misalnya aksi oleh pelaku yang

tidak disebutkan, pelaku tidak mendapat perhatian atau tindakan

natural).

6.

se-

: menambah prefiks ini dapat menghasilkan beberapa jenis kata. Prefiks

ini sering dianggap sebagai pengganti “satu” dalam situasi tertentu.

Penggunaan paling umum dari prefiks ini adalah sebagai berikut:

untuk menyatakan satu benda, satuan atau kesatuan (seperti “a” atau

“the” dalam Bahasa Inggris)

untuk menyatakan seluruh atau segenap

(29)

untuk menyatakan tindakan dalam waktu yang sama atau menyatakan

sesuatu yang berhubungan dengan waktu

7.

-an

: menambah sufiks ini biasanya menghasilkan kata benda yang

menunjukkan hasil suatu perbuatan. Sufiks ini pun dapat menunjukkan

tempat, alat, instrumen, pesawat, dan sebagainya.

8.

-i

: menambah sufiks ini akan menghasilkan verba yang menunjukkan

perulangan, pemberian sesuatu atau menyebabkan sesuatu. Sufiks ini sering

digunakan untuk memindahkan perbuatan kepada suatu tempat atau objek

tak langsung dalam kalimat yang mana tetap dan tidak mendapat pengaruh

dari perbuatan tersebut. Sufiks ini pun menunjukkan di mana dan kepada

siapa tindakan itu ditujukan.

9.

-kan

: menambah sufiks ini akan menghasilkan kata kerja yang

menunjukkan penyebab, proses pembuatan atau timbulnya suatu kejadian.

Fungsi utamanya yaitu untuk memindahkan perbuatan verba ke bagian lain

dalam kalimat.

10.

-kah

: menambah sufiks ini menunjukkan bahwa sebuah ucapan merupakan

pertanyaan dan sufiks ini ditambahkan kepada kata yang merupakan fokus

pertanyaan dalam kalimat.

11.

-lah

: sufiks ini memiliki penggunaan yang berbeda dan membingungkan,

tetapi secara singkat dapat dikatakan bahwa sufiks ini sering digunakan

untuk memperhalus perintah, untuk menunjukkan kesopanan atau

menekankan ekspresi.

12.

ke-an

: Konfiks ini yang paling umum digunakan dan sekitar satu dari tiap

65 kata yang tertulis dalam Bahasa Indonesia memiliki konfiks ini. Konfiks

ini memiliki beberapa arti seperti di bawah ini:

membentuk nomina yang menyatakan hasil perbuatan atau keadaan

dalam pengertian umum yang menyatakan hal-hal yang berhubungan

dengan kata dasar

membentuk nomina yang menunjuk kepada tempat atau asal

(30)

membentuk verba yang menyatakan kejadian yang kebetulan.

13.

pe-an, peng-an, peny-an, pem-an

: penggunaan salah satu dari keempat

konfiks ini biasanya menghasilkan suatu nomina yang menunjukkan proses

berlangsungnya perbuatan yang ditunjuk oleh verba dalam kalimat.

14.

per-an

: menambah konfiks ini akan menghasilkan sebuah nomina yang

menunjukkan hasil suatu perbuatan (bukan prosesnya) dan dapat juga

menunjukkan tempat. Artinya sering menunjuk kepada suatu keadaan yang

ditunjuk oleh kata dasar atau hasil perbuatan verba dalam kalimat. Keadaan

ini mirip dengan yang diperoleh dengan menggunakan konfiks “ke-an”,

tetapi biasanya kurang umum dan lebih konkrit atau spesifik.

15.

se - nya

: Konfiks ini seringkali muncul bersama-sama dengan kata dasar

tunggal atau kata dasar ulangan untuk membentuk adverbia yang

menunjukkan suatu keadaan tertinggi yang dapat dicapai oleh perbuatan

kata kerja (misalnya: setinggi-tingginya = setinggi mungkin).

16.

-nya

: ada penggunaan “-nya” sebagai sufiks murni yang mengubah arti kata

dasarnya. Contoh: rupanya, biasanya.

17.

-nya, -ku, -mu

: satuan-satuan ini bukan merupakan afiks murni. Pada

umumnya satuan-satuan ini dianggap sebagai kata ganti yang menyatakan

kepemilikan yang digabungkan dengan kata dasar yang mana tidak

mengubah arti kata dasar. Misalnya, kata “bukuku” = buku saya, “bukumu”

= buku Anda, “bukunya” = buku dia atau buku mereka. Selain sebagai kata

ganti yang menyatakan kepemilikan, satuan “-nya” pun dapat memiliki

fungsi untuk menunjukkan sesuatu. Misalnya, “bukunya” berarti “buku itu”,

bila “-nya” berfungsi sebagai penunjuk.

Penggunaan “-nya” baik sebagai kata ganti maupun penunjuk (bukan

sebagai sufiks murni) adalah sangat umum dan sekitar satu dari tiap 14 kata

tertulis dalam Bahasa Indonesia memiliki satuan ini. Penggunaan “-ku” dan

“-mu” bervariasi sesuai dengan jenis tulisan. Dua jenis kata ganti ini sangat

umum digunakan dalam komik, cerpen dan tulisan tidak resmi lainnya, dan

jarang digunakan dalam tulisan yang lebih formal seperti surat kabar dan

(31)

2.12.

Peringkasan Teks

Peringkasan teks automatis merupakan suatu usaha untuk melakukan

peringkasan terhadap dokumen. Beberapa penelitian tentang analisis kebahasaan

teks tidak memerlukan kategorisasi yang mendalam dari tipe peringkasan teks

yang ada. Tipe peringkasan teks tersebut dapat dibedakan sebagai berikut (Hovy

et al

. 1999):

1.

Ekstraksi teks melakukan seleksi kalimat terhadap dokumen aslinya

sementara abstraksi teks melakukan penyingkatan dan reformulasi terhadap

dokumen aslinya.

2.

Peringkasan generik menyajikan dari sudut pandang penulis, sementara

peringkasan berbasiskan kueri lebih terfokus kepada apa yang menjadi

ketertarikan pengguna.

3.

Peringkasan yang informatif merefleksikan isi dari teks aslinya, menyajikan

ulang argumen dalam teks, sementara peringkasan yang indikatif

semata-mata hanya mengindikasikan tentang apa isi dari dokumen asli tersebut.

4.

Peringkasan

just-the-news

hanya menyajikan fakta terbaru, meng-asumsikan

pembaca mengerti topik yang dibahas dalam dokumen tersebut, sedangkan

peringkasan

background

lebih mengajarkan ke topik dalam dokumen

tersebut.

5.

Peringkasan yang netral akan berusaha untuk bersifat lebih objektif,

sementara peringkasan bias mengekstraksikan dan mereformulasikan isi

dokumen dari beberapa sudut pandang.

2.13.

Pembentukan Kalimat

Kalimat adalah satuan bahasa yang berisi suatu “pikiran” atau “amanat”

yang lengkap (Chaer 2006). Lengkap, berarti di dalam satuan bahasa yang disebut

kalimat itu terdapat:

1.

Unsur atau bagian yang menjadi pokok pembicaraan, yang lazim disebut

dengan istilah subjek (S).

2.

Unsur atau bagian yang menjadi “komentar” tentang subjek, yang lazim

(32)

3.

Unsur atau bagian yang merupakan pelengkap dari predikat, yang lazim

disebut dengan istilah objek (O).

4.

Unsur atau bagian yang merupakan “penjelasan” lebih lanjut terhadap

predikat dan subjek, yang lazim disebut dengan istilah keterangan (K).

Setiap kalimat dalam struktur lahirnya (lisan/tulis) sekurang-kurangnya

memiliki predikat. Dengan kata lain, jika suatu pernyataan memiliki predikat,

pernyataan itu merupakan kalimat, sedangkan suatu untaian kata yang tidak

memiliki predikat disebut frasa/klausa (Sugono 2009). Sementara itu menurut

Chaer (2006), selain unsur subjek, predikat, objek, dan keterangan setiap kalimat

harus pula dilengkapi dengan unsur intonasi. Di dalam bahasa tulis intonasi

kalimat ini di lambang dengan tanda baca titik (.), tanda tanya (?), dan tanda seru

(!).

Berkenaan dengan unsur klausanya, terdapat beberapa jenis kalimat yang

dapat dibentuk, diantaranya (Chaer 2006):

1.

Kalimat sederhana

Kalimat sederhana dibentuk dari sebuah klausa yang unsur-unsurnya berupa

kata atau frase sederhana. Menurut strukturnya (adanya subjek, predikat,

objek, dan keterangan) sebuah kalimat sederhana dalam bahasa Indonesia

memiliki pola

(1)

Subjek + Predikat

(2)

Subjek + Predikat + Objek

(3)

Subjek + Predikat + Objek + Keterangan

(4)

Subjek + Predikat + Objek + Objek

2.

Kalimat luas rapatan

(1)

Rapatan subjek (Subjek + Predikat + Objek + Kata Sambung + Predikat

+ Objek)

(2)

Rapatan predikat (Subjek + Predikat + Objek + Kata Sambung + Subjek

(33)

(3)

Rapatan objek (Subjek + Predikat + Objek + Kata Sambung + Subjek +

Predikat)

(4)

Rapatan keterangan (Keterangan + Subjek + Predikat + Objek + Kata

Sambung + Subjek + Predikat + Objek)

(5)

Rapatan kompleks (Subjek + Predikat + *Objek / *Subjek + Predikat +

Objek / Subjek + *Predikat + Objek)

3.

Kalimat luas bersisipan (Subjek + Predikat + Objek + Predikat + Objek)

4.

Kalimat luas setara

Kalimat luas setara dibentuk dari dua buah klausa atau lebih yang

digabungkan menjadi sebuah kalimat, baik dengan bantuan kata

penghubung ataupun tidak.

5.

Kalimat luas bertingkat

Kalimat luas bertingkat dibentuk dari dua buah klausa, yang digabungkan

menjadi satu. Biasanya dengan bantuan kata penghubung sebab, kalau,

meskipun, dan sebagainya.

6.

Kalimat luas kompleks

Kalimat luas kompleks dibentuk dari tiga klausa atau lebih yang kedudukan

klausa-klausanya itu merupakan campuran dari struktur kalimat luas setara

dan kalimat luas bertingkat.

7.

Kalimat elips

Kalimat elips adalah kalimat yang dibentuk dari sebuah klausa yang tidak

lengkap. Klausa dalam kalimat elips ini mungkin tidak bersubjek, mungkin

tidak berpredikat, dan mungkin juga tidak mempunyai subjek dan predikat;

yang ada hanya keterangan saja.

2.14.

Dynamic-Link Library

Dynamic-link library

(DLL) adalah sebuah modul yang terdiri atas

fungsi-fungsi dan data yang bisa digunakan oleh modul lain (aplikasi atau DLL)

(Microsoft 2009). Sebuah DLL bisa mendefinisikan dua jenis fungsi, yaitu

(34)

lain, sebaik jika dipanggil dari DLL yang didefinisikan. Fungsi internal biasaya

diperuntukkan untuk dipanggil hanya dari DLL yang didefinisikan. DLL

memberikan solusi untuk memodulasikan aplikasi sehingga fungsi-fungsi di

dalamnya bisa diperbaharui dan digunakan kembali dengan lebih mudah. DLL

juga membantu aplikasi dalam mengurangi kelebihan beban memori ketika

beberapa aplikasi menggunakan fungsi yang sama pada satu waktu, karena

meskipun setiap aplikasi menerima salinan dari data DLL, aplikasi bersama-sama

(35)

BAB 3 METODE PENELITIAN

3.1.

Tahap Pembentukan Knowledge Graph

Sekumpulan kata-kata dalam suatu dokumen tidak akan terepresentasi

sepenuhnya ke dalam graf. Bagian inti dokumen yang akan menyebabkan

kehilangan makna jika dihilangkan yang akan menjadi node dalam graf.

Pengambilan bagian-bagian inti dokumen ini harus melewati beberapa tahap

dengan tujuan mengurangi kehilangan makna dari beberapa kata yang

dihilangkan. Salah satu jenis kata yang tidak boleh terpecah karena penghilangan

bagian-bagian dokumen adalah frase.

Frase adalah sekumpulan kata dasar yang memiliki sifat kata benda atau

kata kerja, yang akan memberikan makna baru ketika sekumpulan kata tersebut

digabungkan. Makna baru yang dihasilkan dari penggabungan sekumpulan kata

tersebut yang menjadi penyebab tidak bolehnya sekumpulan kata tersebut

terhilangkan. Asumsi pengenalan frase yang digunakan dalam penelitian ini

adalah sekumpulan dua kata saja. Hal ini dengan pertimbangan sebagian frase

dalam Bahasa Indonesia terdiri atas dua kata.

Kamus frase yang dibentuk dari hasil pelatihan akan disimpan dalam server

dan akan terus diperbaharui setiap ada dokumen pengujian yang diuji ke dalam

sistem. Kamus frase ini akan berbentuk dokumen berekstensi *.txt, hal ini dengan

tujuan kecepatan akses pencarian ke dokumen teks biasa lebih cepat daripada

perangkat basis data yang

enterprise

. Selain itu, hal yang mendukung lainnya

dalam penggunaan dokumen teks sebagai media penyimpanan adalah basis

pengembangan aplikasi yang dalam basis

desktop

.

Langkah berikutnya adalah melakukan pengenalan sifat kata kerja dan

pemangkasan imbuhan untuk mendapatkan kata dasarnya (

stemming

). Metode

stemming

yang akan dilakukan adalah menggunakan metode

table lookup

(

brute

force

). Tabel yang dibentuk akan menggunakan bantuan Kamus Besar Bahasa

Indonesia. Hal ini dilakukan untuk mendapatkan hasil yang sangat akurat dari

(36)

Proses ekstraksi kalimat diharapkan mampu menyaring kalimat-kalimat

yang benar-benar mencirikan dokumen. Hal ini dengan tujuan, proses analisis

kausalitas hanya fokus pada kalimat-kalimat inti saja. Penentuan variabel-variabel

yang akan digunakan sebagai perhitungan dalam kombinasi linear akan dianalisis

berikut bobot untuk tiap variabelnya.

Langkah

penelitian

berikutnya

adalah

analisis

kausalitas

dan

merepresentasikannya ke dalam graf. Analisis hubungan kausalitas ini dapat

dilakukan pertama-tama dengan mengenali sifat kata kerja penghubung antara

subjek dengan objeknya. Kata kerja ini akan direpresentasikan ke dalam verteks,

sementara subjek dan objek akan direpresentasikan ke dalam node.

Verteks-verteks dalam

Knowledge Graph

akan memiliki beberapa simbol berbeda untuk

beberapa sifat kata kerja.

3.2.

Analisis Frase

Analisis

frase

merupakan

langkah

pertama

penelitian

untuk

mengidentifikasi setiap kemungkinan frase yang terdapat dalam dokumen.

Pengenalan frase ini sangat penting dalam peringkasan teks agar kata yang

seharusnya menjadi satu frase tidak teringkas. Metode yang digunakan dalam

analisis frase ini adalah

FR-Perceptron Learning

hasil penelitian dari Carreras

Xavier dan Marquez Lluis (2005).

Analisis frase ini akan melakukan pelabelan terhadap kata benda dan kata

kerja. Pelabelan yang hanya sebatas kata benda dan kata kerja dilakukan dengan

pertimbangan bahwa frase dibentuk oleh kata benda dan kata kerja dasar. Hasil

dari analisis frase ini akan dikumpulkan dalam

knowledge base

, dan akan terus

dilakukan pembaharuan setiap ada dokumen pengujian yang masuk.

Kamus kata benda dan kata kerja ini dibuat dari Kamus Besar Bahasa

Indonesia, yang disimpan dalam 2 dokumen *.txt terpisah untuk masing-masing

kamus kata benda dan kata kerja. Proses pencariannya menggunakan metode

regular expressions

dengan rule

exact match

. Hal ini dilakukan untuk memercepat

proses pengidentifikasian kata benda dan kata kerja tersebut.

Aturan dalam pengidentifikasian frase ini adalah dengan menganggap setiap

(37)

penghubung, dan kata tersebut merupakan kata dasar yang bersifat kata benda

atau kata kerja, adalah kandidat frase. Setiap kandidat frase ini akan dihitung nilai

kemunculannya di semua dokumen yang ada dalam koleksi. Setelah nilai dari

setiap kandidat frase ini didapat, langkah berikutnya adalah akan dilakukan

penyaringan berdasarkan nilai kemunculan terkecil.

3.3.

Stemming

Proses

stemming

perlu dilakukan dalam pre-pemrosesan sistem ini

dikarenakan

token

-

token

graf yang dibentuk memerlukan kata-kata dasar dari

dokumen. Selain itu, proses

stemming

ini akan disisipkan proses identifikasi sifat

imbuhan dalam kata tersebut. Metode

stemming

yang dilakukan adalah

table

lookup

(

Brute Force

).

Gambar 1 Representasi Table tRelasiKK Dalam Basis Data

Field

makna dalam tabel tRelasiKK tersebut merepresentasikan makna

verteks penghubung antar node. Makna yang akan diperbaharui sementara hanya

yang bermakna kausatif (

causative

) atau menyebabkan tindakan aktif.

Berdasarkan makna-makna imbuhan pada tinjauan pustaka di atas,

imbuhan-imbuhan yang memiliki relasi dengan sifat kausalitas adalah “me-“, “meng-“,

“menge-“, “meny-“, “mem-“, “di-“, “-an”, “-kan”, “pe-an”, “peng-an”, “peny-an”,

“pem-an”, dan “per-an”.

3.4.

Knowledge Base

disini adalah media penyimpanan hasil pelatihan dokumen

untuk pengenalan frase dan sifat-sifat imbuhan dari suatu kata.

Knowledge Base

ini akan berbentuk dokumen teks dan perangkat

enterprise

basis data, yang akan

diperbaharui secara berkala setiap ada dokumen pengujian yang masuk.

Penggunaan perangkat

enterprise

basis data (SQL Server / MySQL) digunakan

(38)

perangkat lunak basis data yang mampu menyimpan dengan baik jutaan data.

Penyimpanan media teks biasa kurang mampu menanganinya dikarenakan objek

yang akan disimpan begitu banyak. Selain itu juga diharapkan agar representasi ke

dalam graf menjadi lebih cepat.

3.5.

Peringkasan Teks

Sifat penyederhanaan graf yang akan melakukan reformulasi isi dokumen,

mengategorikan peringkasan ini ke dalam abstraksi teks. Namun metode ekstraksi

peringkasan teks melalui identifikasi kalimat utama dengan menggunakan metode

kombinasi linear akan dicoba untuk menyederhanakan kalimat-kalimat yang akan

direpresentasikan ke dalam graf. Variabel-variabel yang valid akan dianalisis

untuk mendapatkan representasi kepentingan dari isi suatu dokumen. Nilai

threshold

dari bobot antara kalimat tersebut akan dianalisis untuk mendapatkan

nilai optimal.

3.6.

Analisis Relasi Kausalitas

Jenis relasi

Knowledge Graph

yang akan dianalisis adalah relasi

kausalitas. Pembentuk relasi kausalitas ini adalah dengan adanya kata kerja

berawalan “me-” atau “di-”, dengan dua kata benda yang mengapitnya (subjek

dan objek). Pengambilan 2 jenis awalan tersebut dengan alasan hampir semua kata

berimbuhan “me-” atau “di-” memiliki makna kausalitas, sementara untuk

imbuhan “pe-” yang juga memiliki makna tindakan aktif, lebih sering muncul

kata-kata yang bermakna pembentuk kata benda dalam beberapa dokumen.

Analisis relasi kausalitas ini akan menggunakan metode berbasiskan aturan (

rule

base

). Aturan-aturan ini akan dianalisis dari beberapa dokumen contoh yang

direpresentasi manual.

3.7.

Representasi Graf

Sekumpulan relasi kausalitas yang didapat dari proses sebelumnya akan

semakin memudahkan dalam representasi ke dalam graf. Penerjemahan

sekumpulan relasi kausalitas tersebut akan menggunakan representasi graf hasil

(39)

Gambar 2 Representasi Kausalitas dari Dua Node (Hoede & Nurdiati 2008)

3.8.

Evaluasi Peringkasan Teks

Evaluasi hasil analisis kausalitas akan dilakukan secara manual. Hasil

analisis kausalitas automatis akan dibandingkan dengan hasil analisis manual, dan

menghitung perbandingannya dengan jumlah representasi relasi kausalitas yang

benar melalui representasi automatis, dengan seluruh kemungkinan relasi

kausalitas yang dilakukan secara manual. Dokumen pengujian yang akan

digunakan adalah minimal 15 dokumen selain dokumen pelatihan.

Dokumen-dokumen yang digunakan adalah Dokumen-dokumen bagus (Dokumen-dokumen tercetak) dan

dokumen dalam dunia nyata (didapat dari dunia maya).

3.9.

Lingkungan Pengembangan

Lingkungan pengembangan yang akan digunakan dalam penelitian ini

adalah sebagai berikut:

-

Perangkat lunak: Windows XP Professional, Visual C# .Net 2008, SQL

Server 2008.

-

Perangkat keras: Intel® CPU T2130 @ 1.86 GHz, 1024 MB RAM.

3.10.

Waktu dan Tempat Penelitian

Penelitian dilaksanakan di laboratorium Pasca Sarjana Departemen Ilmu

Komputer Institut Pertanian Bogor mulai bulan Oktober 2008 sampai dengan

(40)

BAB 4 HASIL DAN PEMBAHASAN

4.1.

Pre-pemrosesan Dokumen

Pre-pemrosesan pertama yang dilakukan adalah analisis frase dari

sekumpulan dokumen pelatihan. Dari kurang lebih 1,300 dokumen pelatihan,

metode FR-Perceptron mampu mengenali 15,789 frase. Seluruh frase tersebut

disimpan dalam file berformat *.txt untuk mempercepat penemu-kembaliannya.

Proses penemu-kembaliannya dengan menggunakan metode

regular expressions

karena waktu yang diperlukan untuk pembandingannya sangat cepat. Pada kamus

frase yang berhasil dibentuk juga ditambahkan beberapa nama negara yang terdiri

atas 2 kata.

Pengenalan frase automatis tersebut juga mengenali beberapa frase yang

salah. Frase yang salah ini yaitu frase-frase yang tidak ada dalam ejaan Bahasa

Indonesia yang benar. Frase-frase yang salah terkenali ini dikarenakan adanya

kata-kata yang saling berdampingan yang secara kebetulan muncul lebih dari satu

kali dalam satu dokumen yang disebabkan oleh adanya topik atau pembahasan

yang sangat menonjol dalam satu dokumen, misalnya frase “x meter”, atau “iv

menteri”. Frase “x meter” muncul dikarenakan adanya pendefinisian panjang dari

suatu tanaman. Huruf x sering dijadikan simbol pengganti angka dalam

matematika, sehingga dalam beberapa dokumen, huruf tersebut banyak muncul

jika ada pendefinisian ukuran.

Untuk kata-kata seperti keputusan presiden atau keputusan menteri,

biasanya akan muncul angka atau huruf romawi di sebelum atau sesudah kata

presiden atau menteri. Dalam satu dokumen, biasanya kalimat tentang keputusan

menteri atau presiden itu akan muncul lebih dari satu kali, sehingga frase “iv

menteri” bisa terkenali.

Pada tahap pengindeksan, hasil pengindeksan disimpan dalam basis data

karena jumlah baris yang dihasilkan sangat banyak. Tahap pengindeksan

merupakan tahap akhir dalam pre-pemrosesan dokumen. Hasil pengindeksan

tersebut akan digunakan untuk proses ekstraksi kalimat dan analisis kausalitas

pada tahap berikutnya. Algoritme dari proses pelatihan mendapatkan kandidat

(41)

Public void getCandidatePhrase(document)

For each word in a document

If (isNounType(word[i]) || isVerbType(word[i])) &&

(isNounType(word[i+1]) || isNounType(word[i+1])) then

_temp = word[i] + “ ” + word[i+1]

If notExistPhrase(_temp)

addToList(_temp, 1)

else

_sumPhrase = getFromList(_temp)

updateList(_temp, _sumPhrase)

End if

Next word

4.2.

Parsing

Proses

parser

atau pemisahan dari elemen-elemen pembentuk dokumen ke

dalam satuan terkecil, yaitu kata, ditambahkan analisis pengenalan kata ganti

kepunyaan. Kata ganti kepunyaan yang dipisahkan dalam penelitian ini adalah

“nya” dan “mu”, dimana kata ganti “nya” akan diganti menjadi kata “dia”, dan

kata ganti “mu” akan diganti menjadi kata “kamu”. Terdapat beberapa

pengecualian pemisahan kata ganti tersebut karena akhiran “nya” dan “mu”

tersebut muncul di kata dasar sebagai bukan akhiran. Kata-kata dasar yang

memiliki akhiran “nya” menurut Kamus Besar Bahasa Indonesia (KBBI) adalah

“bahwasanya”, “empunya”, “hanya”, “hanyasanya”, “kenya”, “nyanya”,

“nyonya”, “punya”, “sanya”, “segianya”, “sekiranya”, “seyogjanya”, dan “tanya".

Kata-kata dasar yang memiliki akhiran “mu” diwakili oleh “ilmu”, “jamu”,

“jejamu”, “jemu”, “kamu”, “kemu”, “kemumu”, “ketemu”, “mertamu”, “mu”,

“ramu”, “selumu”, “semu”, “tamu”, “temu”, “tetamu”, “timutimu”, “tumu”.

Penggantian kata ganti kepunyaan ini memiliki tujuan mencoba

memunculkan subjek atau objek yang hilang dari sebuah kalimat karena tersirat

dalam kata ganti tersebut. Pada proses

tagging

(pemotongan kata), kata pengganti

ini akan dikenali sebagai kata benda, sehingga akan membantu analisis kausalitas

menemukan pasangan subjek atau objeknya.

Tidak semua akhiran “nya” memiliki makna kata ganti kepunyaan selain

(42)

arti penegasan terhadap suatu kata. Sebagai contoh pada kata “hilangnya”,

“hancurnya”, atau “rusaknya”. Algoritme pada penelitian ini tidak mampu

menangani untuk kasus akhiran “nya” yang memiliki makna selain kepunyaan.

4.3.

Proses Ektraksi Kalimat

Proses ekstraksi kalimat dilakukan dengan menggunakan metode kombinasi