4 HASIL DAN PEMBAHASAN
4.4 Analisis Kausalitas
Kalimat-kalimat yang telah terekstraksi melalui proses ektraksi teks akan
dianalisis hubungan kausalitas yang ada dalam teks tersebut. Hubungan kausalitas
dalam Bahasa Indonesia pada penelitian ini memiliki 3 aturan. Ketiga aturan
tersebut didapat dari hasil analisis relasi kausalitas secara manual terhadap
beberapa dokumen. Setelah melakukan analisis manual terhadap beberapa
dokumen, aturan-aturan tersebut juga dilakukan pembandingan terhadap
bentuk-bentuk kalimat dalam Bahasa Indonesia. Aturan tersebut dapat dilihat di bawah ini
dalam notasi regular expression.
1. [n]+[v] [n]+ (kalimat sederhana)
2. [n][v][n]+([v][n]+)*[kata penghubung]*[n]+ (kalimat luas kompleks)
3. [v][n][kata definisi][n]+ (kalimat rapatan predikat)
Kata kerja dalam semua aturan di atas hanya berlaku untuk kata kerja berimbuhan
“me-” dan “di-”. Hal ini dilakukan karena kedua kata kerja tersebut diasumsikan
yang paling relevan menjelaskan hubungan kausalitas dalam suatu kalimat
lengkap. Sebuah kalimat lengkap dalam Bahasa Indonesia memiliki subjek,
predikat, dan objek. Kata kerja berimbuhan lain diabaikan dalam penelitian ini
dikarenakan kontribusinya yang kecil terhadap memertegas hubungan kausalitas
dalam kalimat.
Kedua kata kerja berimbuhan yang dipilih akan diberikan aturan untuk
meminimalisasi kata benda yang teridentifikasi. Untuk aturan analisis yang
pertama ([n]+[v] [n]+), pada kata kerja berimbuhan “di-”, kata benda ([n])
pertama hanya akan diambil satu kata benda sebelum kata kerja ([v]) pertama
dengan mencari nilai indeks terbesar dari sekumpulan kata benda tersebut. Kata
benda ([n]) kedua pada kata kerja berimbuhan “di-” bisa terdiri atas sekumpulan
kata benda, yang seluruhnya berelasi kausalitas dengan kata benda pertama.
Sebaliknya, untuk kata kerja berimbuhan “me-”, kata benda ([n]) pertama yang
terdiri atas sekumpulan kata benda yang berelasi kausalitas dengan satu kata
benda kedua. Penggalan algoritme di bawah ini merupakan algoritme untuk
mendefinisikan hasil CAU untuk kedua jenis imbuhan (“me” dan “di”) pada
aturan pertama.
if substr(tempVerb,0,2) == “me” then for each Noun1 in NounR11
CAUResult[counter] = Noun1[i] + tempVerb + Noun2 Counter++
Next Noun1
Else if substr(tempVerb,0,2) == “di” then For each Noun2 in NounR12
CAUResult[counter] = Noun1 + tempVerb + Noun2[i] Counter++
Next Noun2 end if
Aturan analisis hubungan kausalitas yang kedua dan ketiga tidak memiliki
aturan eksklusif untuk kata kerja berimbuhan “me” dan “di” tersebut. Hal ini
dikarenakan kedua struktur aturan tersebut merupakan struktur kalimat yang tidak
normal (subjek, predikat, dan objek), sehingga jika pada aturan ke-2, semua kata
benda setelah kata kerja pertama dianggap berelasi kausalitas terhadap kata benda
pertama. Penentuan tersebut berdasarkan asumsi bahwa pada kalimat panjang
dengan beberapa kata kerja di dalamnya, kata kerja pertama lebih bersifat
memberikan penegasan terhadap kata sebelumnya dengan memberikan beberapa
kata benda dan kata kerja setelahnya. Begitu juga dengan aturan ke-3, kata kerja
yang muncul di awal kalimat serta terdapatnya kata yang bermakna memberikan
definisi seperti “yaitu” atau “adalah” setelah kata benda pertama memberikan
makna bahwa kata benda ke-2 merupakan penjelasan terhadap kata benda pertama
dengan penegasan kata kerja di awal kalimat tersebut.
Salah satu ciri dari aturan ke-2 dan ke-3 adalah adanya kata penghubung dan
kata yang bersifat memberikan definisi. Pemberian bobot 0.5 pada tahap ekstraksi
kalimat mempunyai tujuan untuk memberikan identifikasi kausalitas yang lebih
baik untuk dokumen yang isinya banyak mendefinisikan sesuatu hal. Jika bobot
yang diberikan 0 untuk kata buang tersebut, maka ada kemungkinan aturan ke-2
dan ke-3 tidak tersentuh oleh identifikasi karena semakin kecilnya kemungkinan
kalimat-kalimat tersebut terekstraksi.
Penggalan algoritme di bawah ini menjelaskan bahwa aturan ke-2 dan ke-3
selalu hanya menempatkan 1 jenis kata benda pertama saja. Berbeda dengan
algoritme untuk aturan ke-1 yang terdapat kondisi pengecekan imbuhan dari kata
kerjanya.
For each Noun2 in NounR12
CAUResult[counter] = Noun1 + tempVerb + Noun2[i] Counter++
Next Noun2
Setiap aturan di atas, akan dicobakan untuk setiap sekumpulan kalimat yang
telah terekstraksi. Penentuan aturan mana yang akan dijadikan hasil akhir
ditentukan dengan skor. Skor ini didapat dari pencocokan sifat kata dari sebuah
kalimat terhadap pola aturan kausalitas dalam Knowledge Graph. Setelah
didapatkan skor pencocokan, hasil tersebut akan dibagi dengan total aturan dari
setiap aturan Knowledge Graph. Untuk aturan pertama, nilai pembagi adalah 3,
aturan kedua nilai pembaginya bernilai 7, dan aturan ketiga nilai pembaginya
bernilai 4. Skor tertinggi dari setiap pola, akan dijadikan hasil akhir dari analisis
kausalitas ini. Untuk kalimat-kalimat yang tidak memiliki kata kerja “me-” dan
“di-” atau tidak sesuai pola aturan kausalitas Knowledge Graph akan dihiraukan
dan dianggap tidak memiliki hubungan kausalitas.
Algoritme analisis hubungan kausalitas untuk ketiga aturan tersebut secara
lengkap dapat dilihat pada Lampiran 4. Variabel counter1, counter2, dan counter3
merupakan sebuah penanda untuk break point dari ketiga rule kausalitas. Nilai
break point ketiga counter tersebut sesuai dengan nilai pembagi untuk
mendapatkan nilai akhir analisis untuk setiap aturan, yaitu 3 untuk aturan pertama,
7 untuk aturan ke-2, dan 4 untuk aturan ke-3.
Dari hasil peringkasan ektraksi kalimat di Lampiran 3, sistem mampu
mengenali beberapa hubungan kausalitas. Namun, masih banyak kekurangan dari
hasil analisis oleh sistem ini, seperti kata benda yang teridentifikasi sebagai subjek
atau objek bukan kata benda baku. Hal ini dikarenakan pemilihan kata benda
berdasarkan nilai indeks terbesar, padahal bisa saja kata benda yang relevan
memiliki nilai indeks yang lebih kecil dari kata benda yang tidak relevan. Kata
benda tidak relevan yang memiliki nilai indeks tinggi biasanya lebih bersifat ke
kata sambung, seperti kata ‘karena’ dan ‘diri’. Kata ‘karena’ merupakan kata yang
sering muncul dalam suatu dokumen karena kata tersebut bersifat menjelaskan
dan menegaskan dari ungkapan sebelumnya. Salah satu hasil perbandingan
identifikasi kausalitas yang dilakukan sistem dan manual secara lengkapnya dapat
dilihat pada Tabel 2, sementara bentuk antarmuka sistem identifikasi hubungan
kausalitas dapat dilihat pada Gambar 4.
Kekurangan lainnya adalah adanya kemungkinan subjek atau objek terdiri
atas lebih dari 2 kata benda, sementara asumsi frase yang digunakan dalam
penelitian ini adalah frase hanya terdiri atas 2 kata benda. Masalah lain yang tidak
bisa teridentifikasi adalah adanya hubungan bertingkat, seperti pada contoh hasil
analisis manual pada S39|P3, simbol S39|P3 mempunyai arti sentence 39
thdan
paragraph 3
rd(kalimat ke-39 dan berada di paragraf ke-3), pada tabel 2. Pada
S39|P3, objeknya merupakan suatu hubungan kausalitas lain yang masih relevan
terhadap hubungan kausalitas di awalnya. Hal ini terjadi karena adanya penegasan
kembali terhadap akibat dari hubungan kausalitas yang pertama, sementara
penegasan kembali tersebut memiliki struktur kalimat yang lengkap, yaitu subjek,
predikat, dan objek.
Gambar 4 Antarmuka Sistem Identifikasi Hubungan Kausalitas
Pada kasus dokumen pada Lampiran 1, terdapat 1 hubungan kausalitas yang
mengalami kesalahan pengambilan kata kerja, yaitu pada S20|P3. Hal ini
dikarenakan terdapat penumpukan kata kerja sebelum kata benda, yaitu pada kata
“menjadi” dan “meningkatkan”, sementara sistem hanya mengambil kata kerja
terakhir saja.
Sisa dokumen pengujian lainnya juga memiliki kekurangan-kekurangan
yang sama dengan dokumen pada Lampiran 1 ini. Kekurangan yang dialami
keseluruhan dokumen pelatihan ini merupakan salah satu kelemahan analisis
Knowledge Graph tanpa menggunakan background knowledge. Background
knowledge adalah jaringan kata (wordnet) dalam Bahasa Indonesia yang
mengandung thesaurus dan hubungan antar kata baik yang bersifat kausalitas,
penegasian, atau kesetaraan. Penelitian dengan topik jaringan kata dalam Bahasa
Indonesia ini belum ada yang melakukannya secara mendalam, baik khusus untuk
bidang pertanian atau bidang umum lainnya.
Tabel 2 Tabel Perbandingan Hasil Analisis Kausalitas Oleh Sistem dan Manual
Kalimat Hasil Sistem Hasil Manual
S39|P3;
jika[p]pada[p]dekade[n]lalu[v]pe
rajin[n]tahu-tempe[]masih[adv]merangkap[v]
sebagai[p]petani[n]kedelai[n]gen
erasi[n]saat[n]ini[pron]umum[a]
dia[n]hanya[adv]menjalankan[v]
profesi[n]sebagai[p]perajin[n]saj
a[adv]dan[p]hanya[adv]sedikit[a
]yang[p]memiliki[v]lahan[n]usah
atani[]kedelai[n]
dekade merangkap
[CAU] petani
dekade merangkap
[CAU] kedelai
dekade merangkap
[CAU] generasi
dekade merangkap
[CAU] saat
dekade merangkap
[CAU] dia
dekade merangkap
[CAU] profesi
dekade merangkap
[CAU] perajin
dekade merangkap
[CAU] lahan
dekade merangkap
[CAU] kedelai
(perajin tahu-tempe
merangkap [CAU]
petani kedelai)
memiliki [CAU]
lahan usahatani
kedelai
S20|P3;
ketergantungan[n]pada[p]impor
kedelai[n]
itu[pron]menjadi[v]keterlaluan[a
dv]karena[n]di[p]dalam[a]negeri
[n]tidak[adv]terdapat[v]upaya[n]
yang[p]serius[a]untuk[p]mening
katkan[v]produksi kedelai[n]
produksi kedelai[n]
impor kedelai menjadi
[CAU] karena
impor kedelai menjadi
[CAU] negeri
impor kedelai menjadi
[CAU] terdapat
impor kedelai menjadi
[CAU] upaya
impor kedelai menjadi
[CAU] produksi
kedelai
impor kedelai
meningkatkan
[CAU] produksi
kedelai
Dalam dokumen
Abstraksi dokumen menggunakan analisis kausalitas knowledge graph
(Halaman 47-52)