ABSTRAKSI DOKUMEN MENGGUNAKAN
ANALISIS KAUSALITAS KNOWLEDGE GRAPH
R ZAINAL ARIFIN F S
SEKOLAH PASCA SARJANA
INSTITUT PERTANIAN BOGOR
ABSTRACT
R ZAINAL ARIFIN F S
, 2009. Document Abstraction Using Knowledge Graph
Causative Analysis. Under direction of
JULIO ADISANTOSO
and
SRI
NURDIATI
Generally, summary of a document is in the format of plain text.
Functionally, this summary is able to facilitate information seekers in finding the
desired information, but visually, the summary text form needs an extra energy to
understand. This is because the electronic summary (which is formed by the
system) will return some form of sentences that are not standard. The research
will be focused on making early stages of text abstraction using knowledge graph.
In this case, the knowledge graph relation which will be focused on a causal
relationship. There are 3 rules in Indonesian causal relationship. They are
[n]+[v][n]+, [n][v][n]+([v][n]+)*[conj.]*[n]+, and [v][n][definitive][n]+. The
study showed that 46% of an extracted text could be identified.
RINGKASAN EKSEKUTIF
R ZAINAL ARIFIN F S
,
2009. Abstraksi Dokumen Menggunakan
Analisis Kausalitas
Knowledge Graph
. Di bawah bimbingan
JULIO
ADISANTOSO
dan
SRI NURDIATI
.
Rangkuman dari suatu isi dokumen pada umumnya berupa teks biasa.
Secara fungsional, rangkuman ini cukup memudahkan para pencari informasi
dalam mencari informasi yang diinginkan. Namun, rangkuman membutuhkan
daya pikir yang lebih besar dibandingkan rangkuman yang berbentuk visual. Hal
ini dikarenakan rangkuman elektronik (yang dibentuk secara sistem) tentu akan
mengembalikan beberapa hasil berupa kalimat-kalimat yang tidak baku.
Penelitian yang dilakukan menganalisis relasi kausalitas dalam
knowledge graph
dengan tujuan untuk mereformulasi atau mengabstraksi sebuah teks.
Kalimat-kalimat yang dianalisis kausalitas akan diekstraksi terlebih dahulu
dengan tujuan kalimat yang akan diabstraksi adalah kalimat-kalimat penting dari
dokumen. Metode yang digunakan untuk mengekstraksi teks adalah kombinasi
linear. Variabel-variabel yang digunakan adalah jenis kata (kata dasar atau frase),
jenis kata buang (
stop list
) indeks kata dalam satu dokumen yang sama, dan
indeks kata dalam satu paragraf yang sama. Variabel jenis kata dalam metode
kombinasi linear ini digunakan untuk mencari nilai indeks terbesar yang akan
mengakumulasi nilai indeks kalimat. Pencarian nilai indeks terbesar memiliki
tujuan kata-kata yang paling relevan sebisa mungkin memiliki pengaruh besar
terhadap nilai indeks kalimat.
Kemunculan kata buang membuat bobot sebuah kalimat menjadi signifikan
besar dikarenakan nilai idf dari kata buang tersebut lebih tinggi daripada kata
yang memiliki kemunculan normal dalam koleksi indeks. Kata buang tidak
terdapat dalam koleksi indeks karena telah dibuang terlebih dahulu ketika
dilakukan pre-pemrosesan dokumen. Nilai idf menjadi lebih besar dikarenakan
nilai dalam lognya adalah dua kali jumlah dokumen dalam koleksi. Oleh karena
itu, dalam sebuah kalimat jika ditemukan kemunculan kata buang, bobot dari kata
tersebut akan diboboti kembali dengan nilai 0,5. Pemberian bobot untuk kata
buang ini memungkinkan kalimat yang memiliki banyak kata buang mengalami
penurunan bobot kalimat tersebut. Pemilihan kalimat yang akan diekstraksi
menggunakan nilai
threshold
agar kalimat-kalimat yang memiliki bobot tinggi
benar-benar terpilih. Nilai
threshold
yang digunakan dan dianggap optimal dalam
penelitian kali ini adalah 2,0.
bobotnya semula (penelitian ini melakukan perkalian terhadap nilai tf untuk
paragraf). Rata-rata nilai kebenaran ekstraksi teks yang dihasilkan penelitian ini
adalah 34%.
Proses
tagging
dilakukan untuk membantu pengenalan kata kerja dan kata
benda pada proses berikutnya. Proses ini menggunakan bantuan Kamus Besar
Bahasa Indonesia (KBBI) yang sudah disimpan ke dalam basis data. Pengenalan
kata ganti kepunyaan sudah dilakukan pada proses ini untuk memunculkan kata
benda yang tersembunyi dalam sebuah kata. Kata ganti kepunyaan yang
dipisahkan dalam penelitian ini adalah “nya” dan “mu”, dimana kata ganti “nya”
akan diganti menjadi kata “dia”, dan kata ganti “mu” akan diganti menjadi kata
“kamu”.
Analisis relasi kausalitas menggunakan metode berbasiskan aturan (
rule
base
) yang mengacu pada jenis-jenis kalimat dalam Bahasa Indonesia, yaitu
[n]+[v][n]+,
[n][v][n]+([v][n]+)*[conj.]*[n]+, dan [v][n][definitive][n]+. Kata
kerja dalam semua aturan di atas hanya berlaku untuk kata kerja berimbuhan
“me-” dan “di-“me-”. Hal ini dilakukan karena kedua kata kerja tersebut diasumsikan yang
paling relevan menjelaskan hubungan kausalitas dalam suatu kalimat lengkap.
Untuk kalimat-kalimat yang tidak memiliki kata kerja “me-” dan “di-” atau tidak
sesuai pola aturan kausalitas
Knowledge Graph
akan dihiraukan dan dianggap
tidak memiliki hubungan kausalitas.
Tingkat kepuasan sistem dihitung dan dilakukan perbandingan dengan
analisis secara manual yang dilakukan oleh peneliti sendiri. Cara menghitung
tingkat kepuasan tersebut dilakukan dengan membandingkan jumlah analisis oleh
sistem yang benar dengan analisis manual untuk satu kalimat, kemudian dibagi
total jumlah analisis yang dilakukan oleh sistem. Nilai akhir untuk satu dokumen
adalah nilai rata-rata dari nilai seluruh kalimat dalam satu dokumen tersebut.
Penelitian ini menghasilkan tingkat kepuasan 46% dari kalimat-kalimat yang
terekstraksi automatis.
ABSTRAKSI DOKUMEN MENGGUNAKAN
ANALISIS KAUSALITAS KNOWLEDGE GRAPH
Oleh:
R ZAINAL ARIFIN F S
G651070054
Tesis
sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada
Program Studi Ilmu Komputer
SEKOLAH PASCA SARJANA
INSTITUT PERTANIAN BOGOR
Judul Tesis
: Abstraksi Dokumen Menggunakan Analisis Kausalitas
Knowledge Graph
Nama
: R Zainal Arifin F S
NIM
: G651070054
Disetujui
Komisi Pembimbing
Ir. Julio Adisantoso, M.Kom
Dr. Ir. Sri Nurdiati, M.Sc
Ketua
Anggota
Diketahui
Ketua Program Studi
Dekan Sekolah Pascasarjana
Ilmu Komputer
Dr. Ir. Agus Buono, M.Si, M.Kom Prof. Dr. Ir. Khairil A. Notodiputro, M.S
DAFTAR ISI
Halaman
ABSTRAK ... i
RINGKASAN EKSEKUTIF... ii
LEMBAR PENGESAHAN ... iii
LEMBAR PERNYATAAN ... iv
RIWAYAT HIDUP ... v
KATA PENGANTAR ... vi
DAFTAR ISI ... vii
DAFTAR GAMBAR ... viii
DAFTAR TABEL ... ix
DAFTAR LAMPIRAN ... x
1
PENDAHULUAN ... 1
1.1 Latar Belakang ... 1
1.2 Tujuan ... 4
1.3 Manfaat ... 4
1.4 Ruang Lingkup ... 4
2
TINJAUAN PUSTAKA ... 5
2.1 Pemotongan Teks ... 5
2.2 Jenis Sistem Pemotongan Teks ... 5
2.3 Analisis Frase ... 6
2.4
Recall and Precision
... 7
2.5 Pre-proses Dokumen ... 7
2.6 Pembobotan... 8
2.7
Stemming
... 9
2.8 Graf ... 10
2.10 Interpretasi
Knowledge Graph
... 11
2.11 Arti Imbuhan dalam Bahasa Indonesia ... 11
2.12 Peringkasan Teks... 15
2.13 Pembentukan Kalimat ... 15
2.14
Dynamic-Link Library
... 17
3
METODE PENELITIAN ... 19
3.1 Tahap Pembentukan
Knowledge Graph
... 19
3.2 Analisis Frase ... 20
3.3
Stemming
... 21
3.4
Knowledge Base
... 21
3.5 Peringkasan Teks... 22
3.6 Analisis Relasi Kausalitas (
Causative
) ... 22
3.7 Representasi Graf ... 22
3.8 Evaluasi Peringkasan Teks ... 23
3.9 Lingkungan Pengembangan ... 23
3.10 Waktu dan Tempat Penelitian ... 23
4
HASIL DAN PEMBAHASAN ... 24
4.1 Pre-pemrosesan Dokumen ... 24
4.2
Parsing
... 25
4.3 Proses Ekstrasi Kalimat ... 26
4.4 Analisis Kausalitas ... 31
4.5 Tingkat Kepuasan Sistem ... 36
4.6
Dynamic-Link Library
... 36
5
SIMPULAN DAN SARAN ... 38
5.1 Simpulan ... 38
5.2 Saran ... 38
DAFTAR PUSTAKA ... 39
DAFTAR GAMBAR
Halaman
1
Representasi Tabel tRelasiKK dalam Basis Data
...
21
2
Representasi Kausalitas dari Dua Node
...
23
3
Sub Judul yang Terekstraksi Sebagai Kalimat Inti
...
30
DAFTAR TABEL
Halaman
1
Nilai Kebenaran Hasil Ektraksi Teks
...
30
2
Tabel Perbandingan Hasil Analisis Sebab Akibat
© Hak cipta milik IPB, tahun 2009
Hak cipta dilindungi Undang – Undang
1.
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa
mencantumkan dan menyebutkan sumber :
a.
Pengutipan hanya untuk kepentingan pendidikan, penelitian,
penulisan karya ilmiah, penyusunan laporan, penulisan kritik atau
tinjauan suatu masalah.
b.
Pengutipan tidak merugikan kepentingan yang wajar IPB.
PERNYATAAN
DENGAN INI SAYA MENYATAKAN BAHWA TESIS INI ADALAH
BENAR-BENAR HASIL KARYA SAYA SENDIRI YANG BELUM
DIGUNAKAN
SEBAGAI
TESIS
ATAU
KARYA
ILMIAH
PADA
PERGURUAN TINGGI ATAU LEMBAGA MANAPUN.
Bogor, November 2009
R Zainal Arifin Fandi Saputra
RIWAYAT HIDUP
Penulis bernama R Zainal Arifin Fandi Saputra, lahir pada tanggal 3 Januari
1985 di Surakarta. Penulis adalah anak kedua dari tiga bersaudara, dari pasangan
Drs. H. Subandi dan Hj. Dyah Farida. Jenjang pendidikan penulis, pada tahun
1996 penulis menamatkan sekolah dasar pada SDN Pengadilan III Bogor,
kemudian melanjutkan ke SLTP Negeri IV Bogor dan lulus pada tahun 1999.
Pada tahun yang sama penulis diterima di SMUN V Bogor dan lulus pada tahun
2002.
Pada tahun 2002 penulis melanjutkan studinya di Institut Pertanian Bogor
(IPB) melalui jalur Undangan Seleksi Masuk IPB (USMI) dan diterima sebagai
mahasiswa Program Studi Ilmu Komputer pada Fakultas Matematika dan Ilmu
Pengetahuan Alam. Pada tahun 2007, penulis melanjutkan pendidikan pada
program Pasca Sarjana Magister Ilmu Komputer Institut Pertanian Bogor. Saat ini
penulis bekerja sebagai
technical consultant
pada PT. Graha Technosoft
KATA PENGANTAR
Pertama-tama penulis ucapkan puji dan syukur kepada Allah SWT atas
segala rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan
penyusunan tesis ini. Judul penelitian ini adalah
”Abstraksi Dokumen
Menggunakan Analisis Kausalitas
Knowledge Graph”
. Penelitian ini disusun
oleh penulis sebagai salah satu syarat untuk meraih gelar Magister Sains pada
program pasca sarjana Ilmu Komputer, Institut Pertanian Bogor.
Penulis mengucapkan terima kasih yang sebesar-besarnya kepada beberapa
pihak yang telah memberikan bantuan dalam penyelesaian tesis ini, antara lain:
1.
Ir. Julio Adisantoso, M.Kom dan Dr. Ir. Sri Nurdiati, M.Sc selaku
pembimbing tesis yang telah memberikan bimbingan baik secara teknis
maupun teoritis dalam proses penyusunan sehingga dapat diselesaikan
dengan baik.
2.
Ahmad Ridha, S.Kom, MS selaku penguji dalam sidang tesis yang telah
memberikan kritik dan saran yang sangat berharga dalam
penyempurnaan tesis ini.
3.
Kedua orang tua penulis Drs. H. Subandi dan Hj. Dyah Farida yang
selalu mencurahkan kasih sayang serta mendukung dan mendoakan
penulis setiap waktu.
4.
Istri penulis Ratna Widyaningsih, S.Kom yang selalu memberikan
dukungan dan doa setiap waktu.
5.
Mas Ishal yang selalu menjadi panutan adik-adiknya dalam meraih
kesuksesan, Risa Fandi Febrina yang selalu memberikan dukungan dan
motivasi kepada penulis.
6.
Bapak Freddy Tandiary dan Ibu Lily Alie yang telah memberikan saya
waktu dan kesempatan untuk melanjutkan studi saya, serta rekan-rekan
di PT. Graha Technosoft Informatika yang telah banyak memberikan
waktu luang untuk saya kuliah ketika
project
.
7.
Teman-teman angkatan 9, terima kasih atas persahabatan yang indah
8.
Pak Ruhiyan yang telah banyak membantu penulis dalam
menyelesaikan segala macam administrasi-administrasi semasa kuliah.
9.
Semua pihak yang telah membantu demi kelancaran tesis ini.
Mudah-mudahan tesis ini bermanfaat bagi penulis dan pihak lain yang
membutuhkan.
Bogor, November 2009
R Zainal Arifin Fandi Saputra
BAB 1 PENDAHULUAN
1.1.
Latar Belakang
Resume atau rangkuman dari suatu dokumen biasanya satu bagian dari
dokumen yang pertama kali dibaca oleh pembeli atau peminjam dokumen
tersebut. Rangkuman dari dokumen ini biasanya dibuat oleh si pembuat dokumen
tersebut atau dengan menyewa tenaga ahli. Rangkuman yang baik akan
menambah daya jual dari dokumen tersebut.
Rangkuman dari suatu isi dokumen pada umumnya berupa teks biasa.
Secara fungsional, rangkuman ini cukup memudahkan para pencari informasi
dalam mencari informasi yang diinginkan. Para pencari informasi tersebut akan
membaca isi rangkuman dari situs-situs yang ditemu-kembalikan sebelum
mengunduh informasi dari situs tersebut. Secara visual, rangkuman berupa teks
mampu melelahkan daya pikir para pencari informasi. Hal ini dikarenakan
rangkuman elektronik (yang dibentuk secara sistem) tentu akan mengembalikan
beberapa hasil berupa kalimat-kalimat yang tidak baku. Kondisi ini cukup wajar
karena rangkuman yang tidak elektronik saja terkadang mampu memusingkan
pembaca jika penulis rangkuman bukan merupakan seorang yang ahli dalam hal
pembentukan rangkuman yang baik dalam bahasa Indonesia.
Penelitian sebelumnya mengenai peringkasan teks ini sudah pernah
dilakukan. Metode yang digunakan adalah rantai leksikal dan Ekstraksi Paragraf
Bushy Path
. Rantai leksikal digunakan untuk memeroleh kata kunci pada setiap
segmen teks dan ekstraksi
busy path
sebagai algoritme pembangkitan peringkasan
teks. Keunggulan rantai leksikal dalam memeroleh kata kunci pada setiap segmen
adalah algoritme yang tidak hanya memertimbangkan elemen dengan jumlah
perulangan yang banyak tapi juga mempertimbangkan relasi antara kata dalam
setiap segmen, sedangkan ekstraksi paragraf memiliki keunggulan dalam hal
tingkat keterbacaaan yang lebih baik dibandingkan dengan ekstraksi kalimat yang
umumnya digunakan. Sistem dievaluasi dengan membandingkan hasil
peringkasan sistem dan hasil peringkasan manual dari beberapa individu. Dengan
tidak hanya memerhitungkan frekuensi kata tapi juga memerhitungkan relasi
antara kata, tingkat kepuasan hasil peringkasan yang dibangkitkan sistem terhadap
hasil peringkasan manual sebesar 51.67% (Gill 2005).
Penelitian yang pernah dilakukan lainnya adalah ekstraksi kalimat dan
mencari kedekatan antar kalimat dengan menggunakan metode stokastik berbasis
graf (Erkan & Radev 2004). Peringkasan teks ekstraksi yang dikembangkan
mengandalkan
kalimat
utama
dalam
paragraf
atau
dokumen
untuk
mengidentifikasi kalimat-kalimat yang paling penting dalam sebuah dokumen
atau sekumpulan dokumen. Metode
Lex Rank
digunakan untuk menghitung
tingkat kepentingan suatu kalimat berdasarkan konsep pusat vektor ciri dalam
sebuah representasi graf dari suatu kalimat.
Dalam model ini, konektivitas suatu matriks berdasarkan pada kesamaan
cosines intra-sentence
yang digunakan sebagai matriks
adjacency
dari
representasi graf. Hasil dari penelitian ini menunjukkan bahwa metode
Lex Rank
mampu memberikan hasil yang sangat baik untuk teknik yang berbasis
centroid
dan teknik-teknik berbasiskan derajat lainnya. Metode
Lex Rank
dengan
threshold
mampu menghasilkan hasil yang sangat baik pada metode berbasiskan derajat jika
ditambahkan
Lex Rank
secara kontinu (
continuous Lex Rank
).
Lex Rank
juga tidak
sensitif terhadap
noise
dalam data yang diakibatkan oleh tidak sempurnanya
pengelompokan (
clustering
) topik dari suatu dokumen.
Rangkuman dari sebuah dokumen yang dihasilkan oleh suatu sistem
peringkasan teks automatis biasanya akan mengalami kesulitan pada bagian
mengabstraksi teks. Bagian abstraksi teks ini merupakan bagian tersulit dari suatu
usaha peringkasan teks automatis. Proses abstraksi biasanya dilakukan setelah
ekstraksi kalimat berhasil dilakukan. Metode ekstraksi kalimat yang akan
digunakan adalah metode kombinasi linear. Metode kombinasi linear ini sudah
pernah dilakukan untuk permasalahan
question answering system
(Li 2000). Li
menggabungkan teknik sintaktik dan heuristik untuk mendapatkan nilai akhir dari
sebuah jawaban. Pada sistem
question answering
sebelumnya, 94 pertanyaan
mampu dijawab pada urutan teratas dari total 162 pertanyaan, sementara dengan
dijawab pada urutan teratas. Dengan pertimbangan peningkatan 11.7% dari sistem
sebelumnya, metode kombinasi linear akan dicobakan untuk permasalahan
ekstraksi kalimat.
Pada penelitian ini, abstraksi teks tersebut akan didekati dengan metode
knowledge graph
. Pemilihan teknik graf sebagai metode peringkasannya
dikarenakan rangkuman dalam bentuk visual gambar secara psikis tidak
membutuhkan daya pikir lebih besar daripada dalam bentuk teks. Hal ini
dikarenakan satu gambar mampu merepresentasikan ribuan teks tergantung
interpretasi pelihat gambar. Isi dari media visual secara rata-rata masih dapat
ditangkap dalam kondisi daya pikir yang sedang lemah pada umumnya.
Sebuah graf G = (V,E) atau
directed graph
G= (V,A) terdiri atas
sekumpulan V
vertex
dan sekumpulan
edges
E, yang saling menghubungkan
vertex
. Sekumpulan arah panah yang menunjukkan sepasang
vertex
. Graf
gabungan merupakan graf yang terdiri atas
edges
dan arah panah.
Knowledge
graph
terdiri atas sekumpulan verteks V dari verteks yang belum dilabeli, yang
biasa disebut token (Hoede & Nurdiati 2008).
Penelitian tentang teori
knowledge graph
(KG) diawali oleh para peneliti
yang berbasis di Universitas Twente dan Universitas Groningen sekitar dua puluh
lima tahun lalu. Penelitian tersebut sampai saat ini masih terus dilanjutkan oleh
beberapa peneliti dengan fokus utamanya adalah aplikasi KG untuk menganalisis
teks (Blok 1997). Menurut Zhang dan Hoede (2002) teori KG merupakan teori
yang sangat erat kaitannya dengan masalah
natural language
yaitu sistem simbol
spesial yang digunakan untuk mengekspresikan ide-ide manusia dalam
pembentukan informasi menjadi sebuah pengetahuan.
Knowledge graph
memiliki beberapa relasi dasar, di antaranya relasi
kausalitas, kesederajatan, bertautan, kesamaan, perbedaan atau ketidaksamaan,
attributive
, berurutan, dan ketergantungan. Kesemua relasi tersebut merupakan
struktur pembentuk
knowledge graph
agar kesemantikan dari hasil interprestasi
dapat terdefinisikan dengan baik. Penelitian ini melakukan analisis automatis
salah satu relasi
knowledge graph
di atas sebagai usaha awal untuk melakukan
Pengenalan kata pokok dan relasinya di satu kalimat dalam suatu dokumen
dalam ilmu teknologi informasi biasa disebut
semantic
. Kesemantikan suatu
kalimat terkadang memiliki pemahaman yang berbeda meskipun dalam satu
kalimat terdapat kata-kata yang sama dengan kalimat dalam dokumen lain. Tema
dokumen merupakan suatu hal yang mampu membedakan kesemantikan dalam
suatu kalimat. Untuk tahap awal, tema dokumen dalam pelatihan akan
dikhususkan dalam bidang pertanian. Algoritme yang akan dicari pemecahannya
adalah bagaimana hubungan kausalitas dalam suatu dokumen mampu
teridentifikasi secara automatis.
1.2.
Tujuan
Tujuan dari penelitian ini adalah melakukan analisis kausalitas suatu kalimat
sebagai awal usaha untuk melakukan abstraksi teks menggunakan
knowledge
graph
.
1.3.
Manfaat
Manfaat dari penelitian ini adalah menyediakan awal pemikiran teknik
abstraksi teks menggunakan metode
knowledge graph
dengan menganalisis salah
satu relasi dasar dalam
knowledge graph
.
1.4.
Ruang Lingkup
Ruang lingkup penelitian ini adalah:
1.
Tema dokumen yang digunakan dalam pelatihan adalah pertanian.
2.
Dokumen-dokumen yang digunakan berekstensi *.txt.
Bab 2 TINJAUAN PUSTAKA
2.1.
Pemotongan Teks
Pemotongan teks merupakan proses pemilahan teks yang secara sintaktik
membuat kata yang saling berhubungan menjadi anggota dari frase yang sama
(Sang & Buchholz 2000). Keanggotan hasil pemotongan teks hanya dapat dimiliki
oleh satu anggota pemotongan teks, sehingga hasil pemotongan teks tidak bisa
saling
overlap
. Berikut ini adalah representasi pemotongan teks pada sebuah
kalimat.
[NP Petani] [VP menggunakan] [NP orang-orangan sawah] [PP
sebagai] [NP pengusir] [NP hama]
Pemotongan teks direpresentasikan sebagai sekumpulan kata di dalam tanda
kurung. Kata setelah tanda kurung buka merupakan tipe pemotongan teks.
Tipe-tipe pemotongan teks dapat didefinisikan sebagai berikut:
1.
NP (Kata Benda)
2.
VP (Kata Kerja)
3.
ADVP (Kata Keterangan) dan ADJP (Kata Sifat)
4.
PP (Kata Sambung)
2.2.
Jenis Sistem Pemotongan Teks
Berbagai jenis sistem pemotongan teks yang sudah diimplementasikan
menghasilkan beberapa hasil yang berbeda (Sang & Buchholz 2000). Algoritme
pemotongan teks ini dibagi ke dalam 4 kelompok:
1.
Sistem berbasiskan aturan (
rules
)
2.
Sistem berbasiskan memori
3.
Sistem statistik
4.
Sistem kombinasi
Sistem yang berbasiskan aturan-aturan (
rules
) telah diimplementasikan
dengan banyak cara, salah satunya yang menghasilkan hasil yang paling baik
adalah aplikasi yang menggunakan aturan-aturan
transformation-based
. Sistem
menggunakan aturan
context-sensitive
dan
context-free
untuk menransformasi
part-of-speech
(POS) ke dalam pemotongan teks.
Penelitian lainnya melakukan analisis dengan menggunakan pendekatan
pelatihan dengan berbasiskan memori. Penelitian ini menghasilkan nilai metrik
termodifikasi berbeda yang diaplikasikan ke dalam
part-of-speech
(POS) yang
hanya berupa informasi saja mampu bekerja lebih baik. Sistem pemotongan teks
yang banyak diimplementasikan adalah yang berbasiskan metode statistik, seperti
model Markov dan
machine learning
.
Sistem kombinasi merupakan kombinasi antara ketiga sistem sebelumnya.
Beberapa contoh dari sistem ini adalah penggunaan
Weighted Probability
Distribution Voting
(WPDV) untuk mengombinasikan hasil dari 4 WPDV
pemotongan teks dan pemotongan teks yang berbasiskan memori. Performa yang
paling baik dari keseluruhan jenis algoritme pemotongan teks adalah sistem
kombinasi yang menggunakan metode
support vector machine
untuk
menglasifikasi dan memprediksi pasangan-pasangan hasil pemotongan teks yang
unik. Hasil dari klasifikasi tersebut akan dikombinasikan dengan algoritme
dynamic programming
. Nilai urutan dari teknik tersebut mampu mencapai nilai
93.48 dengan nilai
precision
93.45%, dan
recall
93.51%.
2.3.
Analisis Frase
Frase merupakan sekumpulan kata benda atau kata kerja yang jika
disatukan akan memiliki arti berbeda dengan kata dasarnya. Dengan definisi
tersebut, maka dalam suatu peringkasan teks, frase jangan sampai teringkas
karena akan menyebabkan arti yang berbeda. Makna dari hasil peringkasan pun
bisa menjadi tidak mencerminkan isi sesungguhnya dari dokumen tersebut.
Phrase Recognizer
merupakan suatu fungsi untuk mencari frase yang
memiliki arti dari kalimat x berdasarkan kriteria optimal di bawah ini.
) , )
, (
, ) , (( |)
( max arg
)
( x y
y k e s
k e s score Y
y x P y x
∈ ∈
⊆ = ℜ
Mekanisme analisis frase yang dilakukan oleh Xavier Carreras dan Lluis Marquez
(2005) dideskripsikan dengan jika terdapat kalimat x, identifikasi frase y dalam x:
digunakan untuk pelatihan analisis frase. Pertama diasumsikan dalam fungsi P
diberikan kalimat x, identifikasi setiap set kata dalam kalimat tersebut untuk
menjadi kandidat frase dengan mengesampingkan arti kata dari setiap kandidat
frase tersebut. Langkah kedua akan memberikan nilai kepada frase-frase yang
memiliki makna dari kalimat.
2.4.
Recall and Precision
Temu-kembali informasi mempunyai dua peubah untuk mengukur tingkat
relevansi dari hasil yang ditemu-kembalikan.
Recall
merupakan peubah yang
digunakan sistem temu-kembali informasi untuk membandingkan dokumen
relevan yang ditemu-kembalikan dengan seluruh dokumen relevan dalam koleksi,
sedangkan
precision
merupakan peubah untuk membandingkan dokumen relevan
yang ditemu-kembalikan dengan seluruh dokumen yang telah ditemu-kembalikan
(Baeza-Yates & Riberio-Neto 1999).
Untuk koleksi dokumen yang besar dan tidak terurut dengan baik, kedua
peubah tersebut sulit digunakan. Nilai
precision
sangat tergantung pada
keterurutan dokumen yang ditemu-kembalikan. Semakin terurut dokumen
tersebut, semakin tinggi nilai
precision
(sama dengan satu).
2.5.
Pre-proses Dokumen
Pre-proses dokumen merupakan sekumpulan proses operasi teks yang
merupakan inisialisasi awal dari proses implementasi sistem temu-kembali
informasi (Baeza-Yates & Riberio-Note 1999). Proses operasi teks tersebut dapat
dibagi ke dalam lima proses utama, yang pertama dilakukan adalah analisis
leksikal terhadap dokumen. Analisis leksikal adalah analisis penggunaan terhadap
karakter angka, tanda kutip, tanda penghubung, dan penggunaan huruf besar dan
kecil.
Tahap yang kedua adalah proses penghilangan kata buang. Contoh dari kata
buang ini adalah nanti, sehingga, sementara, dan lain-lain. Tahap yang ketiga
yang merupakan tahap opsional, karena tidak setiap proses temu-kembali
memerlukan tahap ini, yaitu proses
stemming
. Proses
stemming
ini merupakan
Proses selanjutnya adalah melakukan pengindeksan untuk kata-kata yang
telah melewati proses penghilangan kata buang dan
stemming
. Pada tahap ini juga
akan dianalisis kesemantikan dari suatu kata. Tahap terakhir adalah melakukan
pengkategorisasian kata atau istilah dari hasil pemrosesan pada tahap-tahap
sebelumnya.
2.6.
Pembobotan
Pembobotan istilah/kata
dalam sistem temu kembali informasi digunakan
untuk menghitung bobot dari suatu istilah/kata, baik yang terdapat dalam
dokumen, maupun dalam kueri (Baeza-Yates & Riberio-Note 1999). Hasil dari
pembobotan ini dapat digunakan untuk melakukan pemeringkatan istilah/kata
yang sering muncul dalam suatu kluster dokumen pelatihan, sehingga hasil
pencarian berdasarkan kueri yang diketikkan dapat tertemu-kembalikan secara
berurut dari yang paling relevan (nilai pembobotan tertinggi) sampai ke yang
kurang relevan dari sisi sistem. Dengan menggunakan pembobotan istilah/kata
,
penemuan kembali informasi yang relevan dengan kueri menjadi lebih akurat.
Terdapat dua langkah untuk menghitung bobot suatu istilah/kata. Langkah
pertama adalah penghitungan
term frequency
(
tf
), yaitu penghitungan frekuensi
kemunculan suatu istilah/kata
dalam
cluster
dokumen pelatihan, dengan rumus:
tf
(
t,d
) =
occ
(
t,d
) /
occ
(
tmax,d
),
dengan
occ
(
t,d
) adalah kemunculan istilah/kata
t
dalam dokumen
d
, dan
occ
(
tmax,d
) merepresentasikan kemunculan kata/istilah
tertinggi dalam dokumen
d
.
Langkah kedua adalah penghitungan
inverse document frequency
(
idf
), yaitu
mengukur
inverse
frekuensi suatu kata/istilah
yang terdapat pada dokumen di
dalam koleksi pelatihan (
cluster document
). Hal ini dilakukan dengan
pertimbangan suatu kata/istilah
yang sering muncul pada banyak dokumen dalam
koleksi, tidak dapat digunakan untuk membedakan dokumen yang relevan dengan
yang tidak relevan. Penghitungan
idf
dilakukan dengan rumus:
idf
(
t,d
) =
log
(
N
/
n
(
t
)),
dengan
N
adalah banyak dokumen dalam koleksi, dan
n
(
t
) adalah banyak
dan
idf
, kemudian dilakukan penghitungan pembobotan istilah/kata (
weight
),
yaitu:
weight
(
t,d
) =
tf
(
t,d
) *
idf
(
t
),
dengan
weight
(
t,d
) adalah bobot kata/istilah
t
dalam dokumen
d
(Salton & McGill
1983).
2.7.
Stemming
Stemming
merupakan suatu teknik untuk mereduksi suatu kata untuk
mendapatkan kata dasarnya (Paice & Husk 1980). Kata yang terkena reduksi
adalah kata-kata yang memiliki imbuhan. Untuk beberapa kasus, banyak sekali
variasi kata dalam Bahasa Indonesia yang seperti memiliki imbuhan, namun
sebenarnya imbuhan tersebut tidak terkategorikan sebagai imbuhan dalam kata.
Dalam kasus seperti ini, algoritme
stemmer
tidak boleh mereduksi kata tersebut,
karena akan menghilangkan makna dari kata tersebut. Sebagai contoh, kata-kata
tersebut adalah, “mekar”, “teralis”, atau “bukan”.
Terdapat beberapa algoritme
stemming
yang memiliki perbedaan dari sisi
performa dan akurasi, dan bagaimana beberapa rintangan atau permasalahan
dalam
stemming
tersebut dapat teratasi. (Baeza-Yates & Riberio-Note 1999) Jenis
algoritme pertama adalah algoritme
table lookup
(
brute force
). Algoritme ini
memiliki tabel relasi antara kata dasar dan kata berimbuhan. Proses
stemming
nya
dilakukan dengan melakukan kueri ke dalam tabel, jika kata berimbuhan tersebut
ditemukan, maka kata dasar yang berelasi akan ditemu-kembalikan.
Jenis algoritme kedua adalah
affix removal
yang berbasiskan aturan-aturan
dalam
stemmer
nya. Salah satu algoritme yang terkenal adalah Algoritme Porter.
Algoritme ini melakukan pembuangan morfologi biasa dan akhiran infleksional
dari kata-kata dalam Bahasa Inggris. Pemikiran utamanya adalah algoritme ini
merupakan bagian dari proses normalisasi istilah yang biasa dilakukan ketika
melakukan pemrosesan awal sistem Temu-kembali Informasi (Porter 1980).
Successor variety
merupakan jenis algoritme
stemming
ketiga yang
prosesnya berdasarkan penentuan batas morfem. Algoritme ini menggunakan
pengetahuan (
knowledge
) linguistik yang struktural. Jenis algoritme
stemmer
yang
trigrams. Algoritme ini lebih sering melakukan prosedur pengelompokan istilah
(
clustering
) daripada
stemming-stemming
yang lainnya.
2.8.
Graf
Suatu graf adalah pasangan terurut (V,E) dengan V adalah himpunan
berhingga dan tak kosong dari elemen-elemen graf yang disebut simpul (
node
,
vertex
) dan E adalah himpunan pasangan tak terurut dari simpul-simpul berbeda
di V (Foulds 1992). Setiap {p,q}
∈
E (dengan p,q
∈
V) disebut sisi (
edge
) dan
dikatakan menghubungkan simpul-simpul p dan q. Misalkan diberikan graf G =
(V,E).
1.
Jika e = {p,q}
∈
E maka p dan q masing-masing dikatakan
incident
dengan
e.
2.
Jika e = {p,q}
∈
E maka p dikatakan
adjacent
dengan q, dan sebaliknya.
Himpunan simpul yang
adjacent
dengan v dinyatakan dengan (v).
3.
Jika e = {p,q}
∈
E dan e’ = {p,r}
∈
E maka sisi-sisi e dan e’ dikatakan
adjacent
karena mempunyai simpul sekutu (“
vertex common
”), yaitu p.
Suatu multigraf adalah pasangan terurut (V,E) dengan V adalah himpunan
berhingga dan tak kosong dari simpul-simpul dan E adalah himpunan pasangan
tak terurut dari simpul-simpul berbeda di V dan pengulangan diperbolehkan. Graf
juga bisa diidentifikasikan memiliki arah/digraf (
directed
graph
) jika pasangan
terurut (V,A), dengan V adalah himpunan tak kosong dan hingga dan A adalah
himpunan pasangan terurut elemen-elemen berbeda di V. Elemen dari A biasa
disebut arc (sisi berarah). Jika (u,v) suatu
arc
pada suatu
digraph
, maka v
dikatakan
predecessor
dari v, dan v disebut
successor
dari u.
Suatu graf G = (V,E) atau digraf D = (V,A) dikatakan terboboti jika terdapat
fungsi w: E
R atau w: A
R (dengan R himpunan bilangan real) yang
memadamkan setiap bilangan real (yang disebut bobot) untuk setiap sisi di E (atau
A). Setiap bobot w (uv) dengan uv
∈
E atau uv
∈
A biasa dituliskan dengan w
uv.
2.9.
Knowledge Graph
Komposisi k
nowledge graph
pada prinsipnya terdiri atas
konsep dan relasi
.
token
(simbol, tanda, karakteristik, dan sebagainya), atau sebagai tipe (Zhang &
Hoede 2002).
Knowledge graph
ini dapat dibedakan dalam 3 hal seperti berikut:
1.
Simbol menandakan adanya sebuah konsep dan dapat disejajarkan dengan
fungsi argumen dalam logika.
2.
Tipe digunakan untuk memberikan nama pada sebuah konsep yang umum.
3.
Pemberian contoh digunakan untuk menambahkan model atau contoh untuk
memperjelas sebuah konsep.
2.10.
Interpretasi Knowledge Graph
Hasil analisis teks pada teori
knowledge graph
untuk satu persoalan yang
sama bisa memberikan hasil yang berbeda (Ikhwati 2007). Hal ini disebabkan
adanya perbedaan interpretasi yang bersifat subjektif. Oleh karena itu, untuk
memerkecil perbedaan tersebut diperlukan tambahan informasi yang berupa
background knowledge
serta kemampuan analisis teks yang cukup baik.
2.11.
Arti Imbuhan dalam Bahasa Indonesia
Ada banyak ragam pembentukan kata dalam Bahasa Indonesia. Sebagian
besar kata dibentuk dengan cara menggabungkan atau menambahkan beberapa
komponen yang berbeda. Beberapa imbuhan dalam Bahasa Indonesia dapat
mengubah arti dari suatu kata. Selain mengubah arti dari suatu kata, penambahan
imbuhan juga mampu mengubah sifat dari suatu kata.
Beberapa imbuhan dalam Bahasa Indonesia beserta arti dari penambahan
imbuhan tersebut disebutkan di bawah ini: (Chaer 2006)
1.
ber-
: menambah prefiks ini akan membentuk verba (kata kerja) yang sering
kali mengandung arti (makna) mempunyai atau memiliki sesuatu. Juga
dapat menunjukkan keadaan atau kondisi atribut tertentu. Penggunaan
prefiks ini lebih aktif berarti mempergunakan atau mengerjakan sesuatu.
Fungsi utama prefiks "ber-" adalah untuk menunjukkan bahwa subjek
kalimat merupakan orang atau sesuatu yang mengalami perbuatan dalam
kalimat itu.
2.
me-, meng-, menge-, meny-, mem-
: menambah salah satu dari prefiks ini
akan membentuk verba yang sering kali menunjukkan tindakan aktif di
tindakan itu. Jenis prefiks ini sering kali mempunyai arti mengerjakan,
menghasilkan, melakukan atau menjadi sesuatu.
3.
di-
: Prefiks ini mempunyai pertalian yang sangat erat dengan prefiks "me-."
Prefiks "me-" menunjukkan tindakan aktif sedangkan prefiks "di-"
menunjukkan tindakan pasif, di mana tindakan atau objek tindakan adalah
fokus utama dalam kalimat itu, dan bukan pelaku.
4.
pe-
: Prefiks ini membentuk nomina yang menunjukkan orang atau agen
yang melakukan perbuatan dalam kalimat. Kata dengan prefiks ini juga bisa
memiliki makna alat yang dipakai untuk melakukan perbuatan yang tersebut
pada kata dasarnya. Apabila kata dasarnya berupa kata sifat, maka kata yang
dibentuk dengan prefiks ini memiliki sifat atau karakteristik kata dasarnya.
5.
ter-
: Penambahan afiks ini menimbulkan dua kemungkinan.
Jika menambahkan ke kata dasar adjektif, biasanya menghasilkan
adjektif yang menyatakan tingkat atau kondisi paling tinggi (ekstrim)
atau superlatif (misalnya: paling besar, paling tinggi, paling baru,
paling murah).
Jika menambahkan ke kata dasar yang bukan adjektif, umumnya
menghasilkan verba yang menyatakan aspek perfektif, yaitu suatu
perbuatan yang telah selesai dikerjakan. Afiks ini juga bisa
menunjukkan perbuatan spontanitas, yaitu suatu perbuatan yang terjadi
secara tiba-tiba atau tidak disengaja (misalnya aksi oleh pelaku yang
tidak disebutkan, pelaku tidak mendapat perhatian atau tindakan
natural).
6.
se-
: menambah prefiks ini dapat menghasilkan beberapa jenis kata. Prefiks
ini sering dianggap sebagai pengganti “satu” dalam situasi tertentu.
Penggunaan paling umum dari prefiks ini adalah sebagai berikut:
untuk menyatakan satu benda, satuan atau kesatuan (seperti “a” atau
“the” dalam Bahasa Inggris)
untuk menyatakan seluruh atau segenap
untuk menyatakan tindakan dalam waktu yang sama atau menyatakan
sesuatu yang berhubungan dengan waktu
7.
-an
: menambah sufiks ini biasanya menghasilkan kata benda yang
menunjukkan hasil suatu perbuatan. Sufiks ini pun dapat menunjukkan
tempat, alat, instrumen, pesawat, dan sebagainya.
8.
-i
: menambah sufiks ini akan menghasilkan verba yang menunjukkan
perulangan, pemberian sesuatu atau menyebabkan sesuatu. Sufiks ini sering
digunakan untuk memindahkan perbuatan kepada suatu tempat atau objek
tak langsung dalam kalimat yang mana tetap dan tidak mendapat pengaruh
dari perbuatan tersebut. Sufiks ini pun menunjukkan di mana dan kepada
siapa tindakan itu ditujukan.
9.
-kan
: menambah sufiks ini akan menghasilkan kata kerja yang
menunjukkan penyebab, proses pembuatan atau timbulnya suatu kejadian.
Fungsi utamanya yaitu untuk memindahkan perbuatan verba ke bagian lain
dalam kalimat.
10.
-kah
: menambah sufiks ini menunjukkan bahwa sebuah ucapan merupakan
pertanyaan dan sufiks ini ditambahkan kepada kata yang merupakan fokus
pertanyaan dalam kalimat.
11.
-lah
: sufiks ini memiliki penggunaan yang berbeda dan membingungkan,
tetapi secara singkat dapat dikatakan bahwa sufiks ini sering digunakan
untuk memperhalus perintah, untuk menunjukkan kesopanan atau
menekankan ekspresi.
12.
ke-an
: Konfiks ini yang paling umum digunakan dan sekitar satu dari tiap
65 kata yang tertulis dalam Bahasa Indonesia memiliki konfiks ini. Konfiks
ini memiliki beberapa arti seperti di bawah ini:
membentuk nomina yang menyatakan hasil perbuatan atau keadaan
dalam pengertian umum yang menyatakan hal-hal yang berhubungan
dengan kata dasar
membentuk nomina yang menunjuk kepada tempat atau asal
membentuk verba yang menyatakan kejadian yang kebetulan.
13.
pe-an, peng-an, peny-an, pem-an
: penggunaan salah satu dari keempat
konfiks ini biasanya menghasilkan suatu nomina yang menunjukkan proses
berlangsungnya perbuatan yang ditunjuk oleh verba dalam kalimat.
14.
per-an
: menambah konfiks ini akan menghasilkan sebuah nomina yang
menunjukkan hasil suatu perbuatan (bukan prosesnya) dan dapat juga
menunjukkan tempat. Artinya sering menunjuk kepada suatu keadaan yang
ditunjuk oleh kata dasar atau hasil perbuatan verba dalam kalimat. Keadaan
ini mirip dengan yang diperoleh dengan menggunakan konfiks “ke-an”,
tetapi biasanya kurang umum dan lebih konkrit atau spesifik.
15.
se - nya
: Konfiks ini seringkali muncul bersama-sama dengan kata dasar
tunggal atau kata dasar ulangan untuk membentuk adverbia yang
menunjukkan suatu keadaan tertinggi yang dapat dicapai oleh perbuatan
kata kerja (misalnya: setinggi-tingginya = setinggi mungkin).
16.
-nya
: ada penggunaan “-nya” sebagai sufiks murni yang mengubah arti kata
dasarnya. Contoh: rupanya, biasanya.
17.
-nya, -ku, -mu
: satuan-satuan ini bukan merupakan afiks murni. Pada
umumnya satuan-satuan ini dianggap sebagai kata ganti yang menyatakan
kepemilikan yang digabungkan dengan kata dasar yang mana tidak
mengubah arti kata dasar. Misalnya, kata “bukuku” = buku saya, “bukumu”
= buku Anda, “bukunya” = buku dia atau buku mereka. Selain sebagai kata
ganti yang menyatakan kepemilikan, satuan “-nya” pun dapat memiliki
fungsi untuk menunjukkan sesuatu. Misalnya, “bukunya” berarti “buku itu”,
bila “-nya” berfungsi sebagai penunjuk.
Penggunaan “-nya” baik sebagai kata ganti maupun penunjuk (bukan
sebagai sufiks murni) adalah sangat umum dan sekitar satu dari tiap 14 kata
tertulis dalam Bahasa Indonesia memiliki satuan ini. Penggunaan “-ku” dan
“-mu” bervariasi sesuai dengan jenis tulisan. Dua jenis kata ganti ini sangat
umum digunakan dalam komik, cerpen dan tulisan tidak resmi lainnya, dan
jarang digunakan dalam tulisan yang lebih formal seperti surat kabar dan
2.12.
Peringkasan Teks
Peringkasan teks automatis merupakan suatu usaha untuk melakukan
peringkasan terhadap dokumen. Beberapa penelitian tentang analisis kebahasaan
teks tidak memerlukan kategorisasi yang mendalam dari tipe peringkasan teks
yang ada. Tipe peringkasan teks tersebut dapat dibedakan sebagai berikut (Hovy
et al
. 1999):
1.
Ekstraksi teks melakukan seleksi kalimat terhadap dokumen aslinya
sementara abstraksi teks melakukan penyingkatan dan reformulasi terhadap
dokumen aslinya.
2.
Peringkasan generik menyajikan dari sudut pandang penulis, sementara
peringkasan berbasiskan kueri lebih terfokus kepada apa yang menjadi
ketertarikan pengguna.
3.
Peringkasan yang informatif merefleksikan isi dari teks aslinya, menyajikan
ulang argumen dalam teks, sementara peringkasan yang indikatif
semata-mata hanya mengindikasikan tentang apa isi dari dokumen asli tersebut.
4.
Peringkasan
just-the-news
hanya menyajikan fakta terbaru, meng-asumsikan
pembaca mengerti topik yang dibahas dalam dokumen tersebut, sedangkan
peringkasan
background
lebih mengajarkan ke topik dalam dokumen
tersebut.
5.
Peringkasan yang netral akan berusaha untuk bersifat lebih objektif,
sementara peringkasan bias mengekstraksikan dan mereformulasikan isi
dokumen dari beberapa sudut pandang.
2.13.
Pembentukan Kalimat
Kalimat adalah satuan bahasa yang berisi suatu “pikiran” atau “amanat”
yang lengkap (Chaer 2006). Lengkap, berarti di dalam satuan bahasa yang disebut
kalimat itu terdapat:
1.
Unsur atau bagian yang menjadi pokok pembicaraan, yang lazim disebut
dengan istilah subjek (S).
2.
Unsur atau bagian yang menjadi “komentar” tentang subjek, yang lazim
3.
Unsur atau bagian yang merupakan pelengkap dari predikat, yang lazim
disebut dengan istilah objek (O).
4.
Unsur atau bagian yang merupakan “penjelasan” lebih lanjut terhadap
predikat dan subjek, yang lazim disebut dengan istilah keterangan (K).
Setiap kalimat dalam struktur lahirnya (lisan/tulis) sekurang-kurangnya
memiliki predikat. Dengan kata lain, jika suatu pernyataan memiliki predikat,
pernyataan itu merupakan kalimat, sedangkan suatu untaian kata yang tidak
memiliki predikat disebut frasa/klausa (Sugono 2009). Sementara itu menurut
Chaer (2006), selain unsur subjek, predikat, objek, dan keterangan setiap kalimat
harus pula dilengkapi dengan unsur intonasi. Di dalam bahasa tulis intonasi
kalimat ini di lambang dengan tanda baca titik (.), tanda tanya (?), dan tanda seru
(!).
Berkenaan dengan unsur klausanya, terdapat beberapa jenis kalimat yang
dapat dibentuk, diantaranya (Chaer 2006):
1.
Kalimat sederhana
Kalimat sederhana dibentuk dari sebuah klausa yang unsur-unsurnya berupa
kata atau frase sederhana. Menurut strukturnya (adanya subjek, predikat,
objek, dan keterangan) sebuah kalimat sederhana dalam bahasa Indonesia
memiliki pola
(1)
Subjek + Predikat
(2)
Subjek + Predikat + Objek
(3)
Subjek + Predikat + Objek + Keterangan
(4)
Subjek + Predikat + Objek + Objek
2.
Kalimat luas rapatan
(1)
Rapatan subjek (Subjek + Predikat + Objek + Kata Sambung + Predikat
+ Objek)
(2)
Rapatan predikat (Subjek + Predikat + Objek + Kata Sambung + Subjek
(3)
Rapatan objek (Subjek + Predikat + Objek + Kata Sambung + Subjek +
Predikat)
(4)
Rapatan keterangan (Keterangan + Subjek + Predikat + Objek + Kata
Sambung + Subjek + Predikat + Objek)
(5)
Rapatan kompleks (Subjek + Predikat + *Objek / *Subjek + Predikat +
Objek / Subjek + *Predikat + Objek)
3.
Kalimat luas bersisipan (Subjek + Predikat + Objek + Predikat + Objek)
4.
Kalimat luas setara
Kalimat luas setara dibentuk dari dua buah klausa atau lebih yang
digabungkan menjadi sebuah kalimat, baik dengan bantuan kata
penghubung ataupun tidak.
5.
Kalimat luas bertingkat
Kalimat luas bertingkat dibentuk dari dua buah klausa, yang digabungkan
menjadi satu. Biasanya dengan bantuan kata penghubung sebab, kalau,
meskipun, dan sebagainya.
6.
Kalimat luas kompleks
Kalimat luas kompleks dibentuk dari tiga klausa atau lebih yang kedudukan
klausa-klausanya itu merupakan campuran dari struktur kalimat luas setara
dan kalimat luas bertingkat.
7.
Kalimat elips
Kalimat elips adalah kalimat yang dibentuk dari sebuah klausa yang tidak
lengkap. Klausa dalam kalimat elips ini mungkin tidak bersubjek, mungkin
tidak berpredikat, dan mungkin juga tidak mempunyai subjek dan predikat;
yang ada hanya keterangan saja.
2.14.
Dynamic-Link Library
Dynamic-link library
(DLL) adalah sebuah modul yang terdiri atas
fungsi-fungsi dan data yang bisa digunakan oleh modul lain (aplikasi atau DLL)
(Microsoft 2009). Sebuah DLL bisa mendefinisikan dua jenis fungsi, yaitu
lain, sebaik jika dipanggil dari DLL yang didefinisikan. Fungsi internal biasaya
diperuntukkan untuk dipanggil hanya dari DLL yang didefinisikan. DLL
memberikan solusi untuk memodulasikan aplikasi sehingga fungsi-fungsi di
dalamnya bisa diperbaharui dan digunakan kembali dengan lebih mudah. DLL
juga membantu aplikasi dalam mengurangi kelebihan beban memori ketika
beberapa aplikasi menggunakan fungsi yang sama pada satu waktu, karena
meskipun setiap aplikasi menerima salinan dari data DLL, aplikasi bersama-sama
BAB 3 METODE PENELITIAN
3.1.
Tahap Pembentukan Knowledge Graph
Sekumpulan kata-kata dalam suatu dokumen tidak akan terepresentasi
sepenuhnya ke dalam graf. Bagian inti dokumen yang akan menyebabkan
kehilangan makna jika dihilangkan yang akan menjadi node dalam graf.
Pengambilan bagian-bagian inti dokumen ini harus melewati beberapa tahap
dengan tujuan mengurangi kehilangan makna dari beberapa kata yang
dihilangkan. Salah satu jenis kata yang tidak boleh terpecah karena penghilangan
bagian-bagian dokumen adalah frase.
Frase adalah sekumpulan kata dasar yang memiliki sifat kata benda atau
kata kerja, yang akan memberikan makna baru ketika sekumpulan kata tersebut
digabungkan. Makna baru yang dihasilkan dari penggabungan sekumpulan kata
tersebut yang menjadi penyebab tidak bolehnya sekumpulan kata tersebut
terhilangkan. Asumsi pengenalan frase yang digunakan dalam penelitian ini
adalah sekumpulan dua kata saja. Hal ini dengan pertimbangan sebagian frase
dalam Bahasa Indonesia terdiri atas dua kata.
Kamus frase yang dibentuk dari hasil pelatihan akan disimpan dalam server
dan akan terus diperbaharui setiap ada dokumen pengujian yang diuji ke dalam
sistem. Kamus frase ini akan berbentuk dokumen berekstensi *.txt, hal ini dengan
tujuan kecepatan akses pencarian ke dokumen teks biasa lebih cepat daripada
perangkat basis data yang
enterprise
. Selain itu, hal yang mendukung lainnya
dalam penggunaan dokumen teks sebagai media penyimpanan adalah basis
pengembangan aplikasi yang dalam basis
desktop
.
Langkah berikutnya adalah melakukan pengenalan sifat kata kerja dan
pemangkasan imbuhan untuk mendapatkan kata dasarnya (
stemming
). Metode
stemming
yang akan dilakukan adalah menggunakan metode
table lookup
(
brute
force
). Tabel yang dibentuk akan menggunakan bantuan Kamus Besar Bahasa
Indonesia. Hal ini dilakukan untuk mendapatkan hasil yang sangat akurat dari
Proses ekstraksi kalimat diharapkan mampu menyaring kalimat-kalimat
yang benar-benar mencirikan dokumen. Hal ini dengan tujuan, proses analisis
kausalitas hanya fokus pada kalimat-kalimat inti saja. Penentuan variabel-variabel
yang akan digunakan sebagai perhitungan dalam kombinasi linear akan dianalisis
berikut bobot untuk tiap variabelnya.
Langkah
penelitian
berikutnya
adalah
analisis
kausalitas
dan
merepresentasikannya ke dalam graf. Analisis hubungan kausalitas ini dapat
dilakukan pertama-tama dengan mengenali sifat kata kerja penghubung antara
subjek dengan objeknya. Kata kerja ini akan direpresentasikan ke dalam verteks,
sementara subjek dan objek akan direpresentasikan ke dalam node.
Verteks-verteks dalam
Knowledge Graph
akan memiliki beberapa simbol berbeda untuk
beberapa sifat kata kerja.
3.2.
Analisis Frase
Analisis
frase
merupakan
langkah
pertama
penelitian
untuk
mengidentifikasi setiap kemungkinan frase yang terdapat dalam dokumen.
Pengenalan frase ini sangat penting dalam peringkasan teks agar kata yang
seharusnya menjadi satu frase tidak teringkas. Metode yang digunakan dalam
analisis frase ini adalah
FR-Perceptron Learning
hasil penelitian dari Carreras
Xavier dan Marquez Lluis (2005).
Analisis frase ini akan melakukan pelabelan terhadap kata benda dan kata
kerja. Pelabelan yang hanya sebatas kata benda dan kata kerja dilakukan dengan
pertimbangan bahwa frase dibentuk oleh kata benda dan kata kerja dasar. Hasil
dari analisis frase ini akan dikumpulkan dalam
knowledge base
, dan akan terus
dilakukan pembaharuan setiap ada dokumen pengujian yang masuk.
Kamus kata benda dan kata kerja ini dibuat dari Kamus Besar Bahasa
Indonesia, yang disimpan dalam 2 dokumen *.txt terpisah untuk masing-masing
kamus kata benda dan kata kerja. Proses pencariannya menggunakan metode
regular expressions
dengan rule
exact match
. Hal ini dilakukan untuk memercepat
proses pengidentifikasian kata benda dan kata kerja tersebut.
Aturan dalam pengidentifikasian frase ini adalah dengan menganggap setiap
penghubung, dan kata tersebut merupakan kata dasar yang bersifat kata benda
atau kata kerja, adalah kandidat frase. Setiap kandidat frase ini akan dihitung nilai
kemunculannya di semua dokumen yang ada dalam koleksi. Setelah nilai dari
setiap kandidat frase ini didapat, langkah berikutnya adalah akan dilakukan
penyaringan berdasarkan nilai kemunculan terkecil.
3.3.
Stemming
Proses
stemming
perlu dilakukan dalam pre-pemrosesan sistem ini
dikarenakan
token
-
token
graf yang dibentuk memerlukan kata-kata dasar dari
dokumen. Selain itu, proses
stemming
ini akan disisipkan proses identifikasi sifat
imbuhan dalam kata tersebut. Metode
stemming
yang dilakukan adalah
table
lookup
(
Brute Force
).
Gambar 1 Representasi Table tRelasiKK Dalam Basis Data
Field
makna dalam tabel tRelasiKK tersebut merepresentasikan makna
verteks penghubung antar node. Makna yang akan diperbaharui sementara hanya
yang bermakna kausatif (
causative
) atau menyebabkan tindakan aktif.
Berdasarkan makna-makna imbuhan pada tinjauan pustaka di atas,
imbuhan-imbuhan yang memiliki relasi dengan sifat kausalitas adalah “me-“, “meng-“,
“menge-“, “meny-“, “mem-“, “di-“, “-an”, “-kan”, “pe-an”, “peng-an”, “peny-an”,
“pem-an”, dan “per-an”.
3.4.
Knowledge Base
Knowledge Base
disini adalah media penyimpanan hasil pelatihan dokumen
untuk pengenalan frase dan sifat-sifat imbuhan dari suatu kata.
Knowledge Base
ini akan berbentuk dokumen teks dan perangkat
enterprise
basis data, yang akan
diperbaharui secara berkala setiap ada dokumen pengujian yang masuk.
Penggunaan perangkat
enterprise
basis data (SQL Server / MySQL) digunakan
perangkat lunak basis data yang mampu menyimpan dengan baik jutaan data.
Penyimpanan media teks biasa kurang mampu menanganinya dikarenakan objek
yang akan disimpan begitu banyak. Selain itu juga diharapkan agar representasi ke
dalam graf menjadi lebih cepat.
3.5.
Peringkasan Teks
Sifat penyederhanaan graf yang akan melakukan reformulasi isi dokumen,
mengategorikan peringkasan ini ke dalam abstraksi teks. Namun metode ekstraksi
peringkasan teks melalui identifikasi kalimat utama dengan menggunakan metode
kombinasi linear akan dicoba untuk menyederhanakan kalimat-kalimat yang akan
direpresentasikan ke dalam graf. Variabel-variabel yang valid akan dianalisis
untuk mendapatkan representasi kepentingan dari isi suatu dokumen. Nilai
threshold
dari bobot antara kalimat tersebut akan dianalisis untuk mendapatkan
nilai optimal.
3.6.
Analisis Relasi Kausalitas
Jenis relasi
Knowledge Graph
yang akan dianalisis adalah relasi
kausalitas. Pembentuk relasi kausalitas ini adalah dengan adanya kata kerja
berawalan “me-” atau “di-”, dengan dua kata benda yang mengapitnya (subjek
dan objek). Pengambilan 2 jenis awalan tersebut dengan alasan hampir semua kata
berimbuhan “me-” atau “di-” memiliki makna kausalitas, sementara untuk
imbuhan “pe-” yang juga memiliki makna tindakan aktif, lebih sering muncul
kata-kata yang bermakna pembentuk kata benda dalam beberapa dokumen.
Analisis relasi kausalitas ini akan menggunakan metode berbasiskan aturan (
rule
base
). Aturan-aturan ini akan dianalisis dari beberapa dokumen contoh yang
direpresentasi manual.
3.7.
Representasi Graf
Sekumpulan relasi kausalitas yang didapat dari proses sebelumnya akan
semakin memudahkan dalam representasi ke dalam graf. Penerjemahan
sekumpulan relasi kausalitas tersebut akan menggunakan representasi graf hasil
Gambar 2 Representasi Kausalitas dari Dua Node (Hoede & Nurdiati 2008)
3.8.
Evaluasi Peringkasan Teks
Evaluasi hasil analisis kausalitas akan dilakukan secara manual. Hasil
analisis kausalitas automatis akan dibandingkan dengan hasil analisis manual, dan
menghitung perbandingannya dengan jumlah representasi relasi kausalitas yang
benar melalui representasi automatis, dengan seluruh kemungkinan relasi
kausalitas yang dilakukan secara manual. Dokumen pengujian yang akan
digunakan adalah minimal 15 dokumen selain dokumen pelatihan.
Dokumen-dokumen yang digunakan adalah Dokumen-dokumen bagus (Dokumen-dokumen tercetak) dan
dokumen dalam dunia nyata (didapat dari dunia maya).
3.9.
Lingkungan Pengembangan
Lingkungan pengembangan yang akan digunakan dalam penelitian ini
adalah sebagai berikut:
-
Perangkat lunak: Windows XP Professional, Visual C# .Net 2008, SQL
Server 2008.
-
Perangkat keras: Intel® CPU T2130 @ 1.86 GHz, 1024 MB RAM.
3.10.
Waktu dan Tempat Penelitian
Penelitian dilaksanakan di laboratorium Pasca Sarjana Departemen Ilmu
Komputer Institut Pertanian Bogor mulai bulan Oktober 2008 sampai dengan
BAB 4 HASIL DAN PEMBAHASAN
4.1.
Pre-pemrosesan Dokumen
Pre-pemrosesan pertama yang dilakukan adalah analisis frase dari
sekumpulan dokumen pelatihan. Dari kurang lebih 1,300 dokumen pelatihan,
metode FR-Perceptron mampu mengenali 15,789 frase. Seluruh frase tersebut
disimpan dalam file berformat *.txt untuk mempercepat penemu-kembaliannya.
Proses penemu-kembaliannya dengan menggunakan metode
regular expressions
karena waktu yang diperlukan untuk pembandingannya sangat cepat. Pada kamus
frase yang berhasil dibentuk juga ditambahkan beberapa nama negara yang terdiri
atas 2 kata.
Pengenalan frase automatis tersebut juga mengenali beberapa frase yang
salah. Frase yang salah ini yaitu frase-frase yang tidak ada dalam ejaan Bahasa
Indonesia yang benar. Frase-frase yang salah terkenali ini dikarenakan adanya
kata-kata yang saling berdampingan yang secara kebetulan muncul lebih dari satu
kali dalam satu dokumen yang disebabkan oleh adanya topik atau pembahasan
yang sangat menonjol dalam satu dokumen, misalnya frase “x meter”, atau “iv
menteri”. Frase “x meter” muncul dikarenakan adanya pendefinisian panjang dari
suatu tanaman. Huruf x sering dijadikan simbol pengganti angka dalam
matematika, sehingga dalam beberapa dokumen, huruf tersebut banyak muncul
jika ada pendefinisian ukuran.
Untuk kata-kata seperti keputusan presiden atau keputusan menteri,
biasanya akan muncul angka atau huruf romawi di sebelum atau sesudah kata
presiden atau menteri. Dalam satu dokumen, biasanya kalimat tentang keputusan
menteri atau presiden itu akan muncul lebih dari satu kali, sehingga frase “iv
menteri” bisa terkenali.
Pada tahap pengindeksan, hasil pengindeksan disimpan dalam basis data
karena jumlah baris yang dihasilkan sangat banyak. Tahap pengindeksan
merupakan tahap akhir dalam pre-pemrosesan dokumen. Hasil pengindeksan
tersebut akan digunakan untuk proses ekstraksi kalimat dan analisis kausalitas
pada tahap berikutnya. Algoritme dari proses pelatihan mendapatkan kandidat
Public void getCandidatePhrase(document)
For each word in a document
If (isNounType(word[i]) || isVerbType(word[i])) &&
(isNounType(word[i+1]) || isNounType(word[i+1])) then
_temp = word[i] + “ ” + word[i+1]
If notExistPhrase(_temp)
addToList(_temp, 1)
else
_sumPhrase = getFromList(_temp)
updateList(_temp, _sumPhrase)
End if
End if
Next word
4.2.
Parsing
Proses
parser
atau pemisahan dari elemen-elemen pembentuk dokumen ke
dalam satuan terkecil, yaitu kata, ditambahkan analisis pengenalan kata ganti
kepunyaan. Kata ganti kepunyaan yang dipisahkan dalam penelitian ini adalah
“nya” dan “mu”, dimana kata ganti “nya” akan diganti menjadi kata “dia”, dan
kata ganti “mu” akan diganti menjadi kata “kamu”. Terdapat beberapa
pengecualian pemisahan kata ganti tersebut karena akhiran “nya” dan “mu”
tersebut muncul di kata dasar sebagai bukan akhiran. Kata-kata dasar yang
memiliki akhiran “nya” menurut Kamus Besar Bahasa Indonesia (KBBI) adalah
“bahwasanya”, “empunya”, “hanya”, “hanyasanya”, “kenya”, “nyanya”,
“nyonya”, “punya”, “sanya”, “segianya”, “sekiranya”, “seyogjanya”, dan “tanya".
Kata-kata dasar yang memiliki akhiran “mu” diwakili oleh “ilmu”, “jamu”,
“jejamu”, “jemu”, “kamu”, “kemu”, “kemumu”, “ketemu”, “mertamu”, “mu”,
“ramu”, “selumu”, “semu”, “tamu”, “temu”, “tetamu”, “timutimu”, “tumu”.
Penggantian kata ganti kepunyaan ini memiliki tujuan mencoba
memunculkan subjek atau objek yang hilang dari sebuah kalimat karena tersirat
dalam kata ganti tersebut. Pada proses
tagging
(pemotongan kata), kata pengganti
ini akan dikenali sebagai kata benda, sehingga akan membantu analisis kausalitas
menemukan pasangan subjek atau objeknya.
Tidak semua akhiran “nya” memiliki makna kata ganti kepunyaan selain
arti penegasan terhadap suatu kata. Sebagai contoh pada kata “hilangnya”,
“hancurnya”, atau “rusaknya”. Algoritme pada penelitian ini tidak mampu
menangani untuk kasus akhiran “nya” yang memiliki makna selain kepunyaan.
4.3.
Proses Ektraksi Kalimat
Proses ekstraksi kalimat dilakukan dengan menggunakan metode kombinasi