Analisis Kausalitas

4 HASIL DAN PEMBAHASAN

4.4 Analisis Kausalitas

Kalimat-kalimat yang telah terekstraksi melalui proses ektraksi teks akan

dianalisis hubungan kausalitas yang ada dalam teks tersebut. Hubungan kausalitas

dalam Bahasa Indonesia pada penelitian ini memiliki 3 aturan. Ketiga aturan

tersebut didapat dari hasil analisis relasi kausalitas secara manual terhadap

beberapa dokumen. Setelah melakukan analisis manual terhadap beberapa

dokumen, aturan-aturan tersebut juga dilakukan pembandingan terhadap

bentuk-bentuk kalimat dalam Bahasa Indonesia. Aturan tersebut dapat dilihat di bawah ini

dalam notasi regular expression.

1. [n]+[v] [n]+ (kalimat sederhana)

2. [n][v][n]+([v][n]+)[kata penghubung][n]+ (kalimat luas kompleks)

3. [v][n][kata definisi][n]+ (kalimat rapatan predikat)

Kata kerja dalam semua aturan di atas hanya berlaku untuk kata kerja berimbuhan

“me-” dan “di-”. Hal ini dilakukan karena kedua kata kerja tersebut diasumsikan

yang paling relevan menjelaskan hubungan kausalitas dalam suatu kalimat

lengkap. Sebuah kalimat lengkap dalam Bahasa Indonesia memiliki subjek,

predikat, dan objek. Kata kerja berimbuhan lain diabaikan dalam penelitian ini

dikarenakan kontribusinya yang kecil terhadap memertegas hubungan kausalitas

dalam kalimat.

Kedua kata kerja berimbuhan yang dipilih akan diberikan aturan untuk

meminimalisasi kata benda yang teridentifikasi. Untuk aturan analisis yang

pertama ([n]+[v] [n]+), pada kata kerja berimbuhan “di-”, kata benda ([n])

pertama hanya akan diambil satu kata benda sebelum kata kerja ([v]) pertama

dengan mencari nilai indeks terbesar dari sekumpulan kata benda tersebut. Kata

benda ([n]) kedua pada kata kerja berimbuhan “di-” bisa terdiri atas sekumpulan

kata benda, yang seluruhnya berelasi kausalitas dengan kata benda pertama.

Sebaliknya, untuk kata kerja berimbuhan “me-”, kata benda ([n]) pertama yang

terdiri atas sekumpulan kata benda yang berelasi kausalitas dengan satu kata

benda kedua. Penggalan algoritme di bawah ini merupakan algoritme untuk

mendefinisikan hasil CAU untuk kedua jenis imbuhan (“me” dan “di”) pada

aturan pertama.

if substr(tempVerb,0,2) == “me” then for each Noun1 in NounR11

CAUResult[counter] = Noun1[i] + tempVerb + Noun2 Counter++

Next Noun1

Else if substr(tempVerb,0,2) == “di” then For each Noun2 in NounR12

CAUResult[counter] = Noun1 + tempVerb + Noun2[i] Counter++

Next Noun2 end if

Aturan analisis hubungan kausalitas yang kedua dan ketiga tidak memiliki

aturan eksklusif untuk kata kerja berimbuhan “me” dan “di” tersebut. Hal ini

dikarenakan kedua struktur aturan tersebut merupakan struktur kalimat yang tidak

normal (subjek, predikat, dan objek), sehingga jika pada aturan ke-2, semua kata

benda setelah kata kerja pertama dianggap berelasi kausalitas terhadap kata benda

pertama. Penentuan tersebut berdasarkan asumsi bahwa pada kalimat panjang

dengan beberapa kata kerja di dalamnya, kata kerja pertama lebih bersifat

memberikan penegasan terhadap kata sebelumnya dengan memberikan beberapa

kata benda dan kata kerja setelahnya. Begitu juga dengan aturan ke-3, kata kerja

yang muncul di awal kalimat serta terdapatnya kata yang bermakna memberikan

definisi seperti “yaitu” atau “adalah” setelah kata benda pertama memberikan

makna bahwa kata benda ke-2 merupakan penjelasan terhadap kata benda pertama

dengan penegasan kata kerja di awal kalimat tersebut.

Salah satu ciri dari aturan ke-2 dan ke-3 adalah adanya kata penghubung dan

kata yang bersifat memberikan definisi. Pemberian bobot 0.5 pada tahap ekstraksi

kalimat mempunyai tujuan untuk memberikan identifikasi kausalitas yang lebih

baik untuk dokumen yang isinya banyak mendefinisikan sesuatu hal. Jika bobot

yang diberikan 0 untuk kata buang tersebut, maka ada kemungkinan aturan ke-2

dan ke-3 tidak tersentuh oleh identifikasi karena semakin kecilnya kemungkinan

kalimat-kalimat tersebut terekstraksi.

Penggalan algoritme di bawah ini menjelaskan bahwa aturan ke-2 dan ke-3

selalu hanya menempatkan 1 jenis kata benda pertama saja. Berbeda dengan

algoritme untuk aturan ke-1 yang terdapat kondisi pengecekan imbuhan dari kata

kerjanya.

For each Noun2 in NounR12

CAUResult[counter] = Noun1 + tempVerb + Noun2[i] Counter++

Next Noun2

Setiap aturan di atas, akan dicobakan untuk setiap sekumpulan kalimat yang

telah terekstraksi. Penentuan aturan mana yang akan dijadikan hasil akhir

ditentukan dengan skor. Skor ini didapat dari pencocokan sifat kata dari sebuah

kalimat terhadap pola aturan kausalitas dalam Knowledge Graph. Setelah

didapatkan skor pencocokan, hasil tersebut akan dibagi dengan total aturan dari

setiap aturan Knowledge Graph. Untuk aturan pertama, nilai pembagi adalah 3,

aturan kedua nilai pembaginya bernilai 7, dan aturan ketiga nilai pembaginya

bernilai 4. Skor tertinggi dari setiap pola, akan dijadikan hasil akhir dari analisis

kausalitas ini. Untuk kalimat-kalimat yang tidak memiliki kata kerja “me-” dan

“di-” atau tidak sesuai pola aturan kausalitas Knowledge Graph akan dihiraukan

dan dianggap tidak memiliki hubungan kausalitas.

Algoritme analisis hubungan kausalitas untuk ketiga aturan tersebut secara

lengkap dapat dilihat pada Lampiran 4. Variabel counter1, counter2, dan counter3

merupakan sebuah penanda untuk break point dari ketiga rule kausalitas. Nilai

break point ketiga counter tersebut sesuai dengan nilai pembagi untuk

mendapatkan nilai akhir analisis untuk setiap aturan, yaitu 3 untuk aturan pertama,

7 untuk aturan ke-2, dan 4 untuk aturan ke-3.

Dari hasil peringkasan ektraksi kalimat di Lampiran 3, sistem mampu

mengenali beberapa hubungan kausalitas. Namun, masih banyak kekurangan dari

hasil analisis oleh sistem ini, seperti kata benda yang teridentifikasi sebagai subjek

atau objek bukan kata benda baku. Hal ini dikarenakan pemilihan kata benda

berdasarkan nilai indeks terbesar, padahal bisa saja kata benda yang relevan

memiliki nilai indeks yang lebih kecil dari kata benda yang tidak relevan. Kata

benda tidak relevan yang memiliki nilai indeks tinggi biasanya lebih bersifat ke

kata sambung, seperti kata ‘karena’ dan ‘diri’. Kata ‘karena’ merupakan kata yang

sering muncul dalam suatu dokumen karena kata tersebut bersifat menjelaskan

dan menegaskan dari ungkapan sebelumnya. Salah satu hasil perbandingan

identifikasi kausalitas yang dilakukan sistem dan manual secara lengkapnya dapat

dilihat pada Tabel 2, sementara bentuk antarmuka sistem identifikasi hubungan

kausalitas dapat dilihat pada Gambar 4.

Kekurangan lainnya adalah adanya kemungkinan subjek atau objek terdiri

atas lebih dari 2 kata benda, sementara asumsi frase yang digunakan dalam

penelitian ini adalah frase hanya terdiri atas 2 kata benda. Masalah lain yang tidak

bisa teridentifikasi adalah adanya hubungan bertingkat, seperti pada contoh hasil

analisis manual pada S39|P3, simbol S39|P3 mempunyai arti sentence 39

^th

dan

paragraph 3

^rd

(kalimat ke-39 dan berada di paragraf ke-3), pada tabel 2. Pada

S39|P3, objeknya merupakan suatu hubungan kausalitas lain yang masih relevan

terhadap hubungan kausalitas di awalnya. Hal ini terjadi karena adanya penegasan

kembali terhadap akibat dari hubungan kausalitas yang pertama, sementara

penegasan kembali tersebut memiliki struktur kalimat yang lengkap, yaitu subjek,

predikat, dan objek.

Gambar 4 Antarmuka Sistem Identifikasi Hubungan Kausalitas

Pada kasus dokumen pada Lampiran 1, terdapat 1 hubungan kausalitas yang

mengalami kesalahan pengambilan kata kerja, yaitu pada S20|P3. Hal ini

dikarenakan terdapat penumpukan kata kerja sebelum kata benda, yaitu pada kata

“menjadi” dan “meningkatkan”, sementara sistem hanya mengambil kata kerja

terakhir saja.

Sisa dokumen pengujian lainnya juga memiliki kekurangan-kekurangan

yang sama dengan dokumen pada Lampiran 1 ini. Kekurangan yang dialami

keseluruhan dokumen pelatihan ini merupakan salah satu kelemahan analisis

Knowledge Graph tanpa menggunakan background knowledge. Background

knowledge adalah jaringan kata (wordnet) dalam Bahasa Indonesia yang

mengandung thesaurus dan hubungan antar kata baik yang bersifat kausalitas,

penegasian, atau kesetaraan. Penelitian dengan topik jaringan kata dalam Bahasa

Indonesia ini belum ada yang melakukannya secara mendalam, baik khusus untuk

bidang pertanian atau bidang umum lainnya.

Tabel 2 Tabel Perbandingan Hasil Analisis Kausalitas Oleh Sistem dan Manual

Kalimat Hasil Sistem Hasil Manual

S39|P3;

jika[p]pada[p]dekade[n]lalu[v]pe

rajin[n]tahu-tempe[]masih[adv]merangkap[v]

sebagai[p]petani[n]kedelai[n]gen

erasi[n]saat[n]ini[pron]umum[a]

dia[n]hanya[adv]menjalankan[v]

profesi[n]sebagai[p]perajin[n]saj

a[adv]dan[p]hanya[adv]sedikit[a

]yang[p]memiliki[v]lahan[n]usah

atani[]kedelai[n]

dekade merangkap

[CAU] petani

dekade merangkap

[CAU] kedelai

dekade merangkap

[CAU] generasi

dekade merangkap

[CAU] saat

dekade merangkap

[CAU] dia

dekade merangkap

[CAU] profesi

dekade merangkap

[CAU] perajin

dekade merangkap

[CAU] lahan

dekade merangkap

[CAU] kedelai

(perajin tahu-tempe

merangkap [CAU]

petani kedelai)

memiliki [CAU]

lahan usahatani

kedelai

S20|P3;

ketergantungan[n]pada[p]impor

kedelai[n]

itu[pron]menjadi[v]keterlaluan[a

dv]karena[n]di[p]dalam[a]negeri

[n]tidak[adv]terdapat[v]upaya[n]

yang[p]serius[a]untuk[p]mening

katkan[v]produksi kedelai[n]

produksi kedelai[n]

impor kedelai menjadi

[CAU] karena

impor kedelai menjadi

[CAU] negeri

impor kedelai menjadi

[CAU] terdapat

impor kedelai menjadi

[CAU] upaya

impor kedelai menjadi

[CAU] produksi

kedelai

impor kedelai

meningkatkan

[CAU] produksi

kedelai

Dalam dokumen Abstraksi dokumen menggunakan analisis kausalitas knowledge graph (Halaman 47-52)

4 HASIL DAN PEMBAHASAN

4.4 Analisis Kausalitas

Kalimat-kalimat yang telah terekstraksi melalui proses ektraksi teks akan

dianalisis hubungan kausalitas yang ada dalam teks tersebut. Hubungan kausalitas

dalam Bahasa Indonesia pada penelitian ini memiliki 3 aturan. Ketiga aturan

tersebut didapat dari hasil analisis relasi kausalitas secara manual terhadap

beberapa dokumen. Setelah melakukan analisis manual terhadap beberapa

dokumen, aturan-aturan tersebut juga dilakukan pembandingan terhadap

bentuk-bentuk kalimat dalam Bahasa Indonesia. Aturan tersebut dapat dilihat di bawah ini

dalam notasi regular expression.

1. [n]+[v] [n]+ (kalimat sederhana)

2. [n][v][n]+([v][n]+)*[kata penghubung]*[n]+ (kalimat luas kompleks)

3. [v][n][kata definisi][n]+ (kalimat rapatan predikat)

Kata kerja dalam semua aturan di atas hanya berlaku untuk kata kerja berimbuhan

“me-” dan “di-”. Hal ini dilakukan karena kedua kata kerja tersebut diasumsikan

yang paling relevan menjelaskan hubungan kausalitas dalam suatu kalimat

lengkap. Sebuah kalimat lengkap dalam Bahasa Indonesia memiliki subjek,

predikat, dan objek. Kata kerja berimbuhan lain diabaikan dalam penelitian ini

dikarenakan kontribusinya yang kecil terhadap memertegas hubungan kausalitas

dalam kalimat.

Kedua kata kerja berimbuhan yang dipilih akan diberikan aturan untuk

meminimalisasi kata benda yang teridentifikasi. Untuk aturan analisis yang

pertama ([n]+[v] [n]+), pada kata kerja berimbuhan “di-”, kata benda ([n])

pertama hanya akan diambil satu kata benda sebelum kata kerja ([v]) pertama

dengan mencari nilai indeks terbesar dari sekumpulan kata benda tersebut. Kata

benda ([n]) kedua pada kata kerja berimbuhan “di-” bisa terdiri atas sekumpulan

kata benda, yang seluruhnya berelasi kausalitas dengan kata benda pertama.

Sebaliknya, untuk kata kerja berimbuhan “me-”, kata benda ([n]) pertama yang

terdiri atas sekumpulan kata benda yang berelasi kausalitas dengan satu kata

benda kedua. Penggalan algoritme di bawah ini merupakan algoritme untuk

mendefinisikan hasil CAU untuk kedua jenis imbuhan (“me” dan “di”) pada

aturan pertama.

Aturan analisis hubungan kausalitas yang kedua dan ketiga tidak memiliki

aturan eksklusif untuk kata kerja berimbuhan “me” dan “di” tersebut. Hal ini

dikarenakan kedua struktur aturan tersebut merupakan struktur kalimat yang tidak

normal (subjek, predikat, dan objek), sehingga jika pada aturan ke-2, semua kata

benda setelah kata kerja pertama dianggap berelasi kausalitas terhadap kata benda

pertama. Penentuan tersebut berdasarkan asumsi bahwa pada kalimat panjang

dengan beberapa kata kerja di dalamnya, kata kerja pertama lebih bersifat

memberikan penegasan terhadap kata sebelumnya dengan memberikan beberapa

kata benda dan kata kerja setelahnya. Begitu juga dengan aturan ke-3, kata kerja

yang muncul di awal kalimat serta terdapatnya kata yang bermakna memberikan

definisi seperti “yaitu” atau “adalah” setelah kata benda pertama memberikan

makna bahwa kata benda ke-2 merupakan penjelasan terhadap kata benda pertama

dengan penegasan kata kerja di awal kalimat tersebut.

Salah satu ciri dari aturan ke-2 dan ke-3 adalah adanya kata penghubung dan

kata yang bersifat memberikan definisi. Pemberian bobot 0.5 pada tahap ekstraksi

kalimat mempunyai tujuan untuk memberikan identifikasi kausalitas yang lebih

baik untuk dokumen yang isinya banyak mendefinisikan sesuatu hal. Jika bobot

yang diberikan 0 untuk kata buang tersebut, maka ada kemungkinan aturan ke-2

dan ke-3 tidak tersentuh oleh identifikasi karena semakin kecilnya kemungkinan

kalimat-kalimat tersebut terekstraksi.

Penggalan algoritme di bawah ini menjelaskan bahwa aturan ke-2 dan ke-3

selalu hanya menempatkan 1 jenis kata benda pertama saja. Berbeda dengan

algoritme untuk aturan ke-1 yang terdapat kondisi pengecekan imbuhan dari kata

kerjanya.

Setiap aturan di atas, akan dicobakan untuk setiap sekumpulan kalimat yang

telah terekstraksi. Penentuan aturan mana yang akan dijadikan hasil akhir

ditentukan dengan skor. Skor ini didapat dari pencocokan sifat kata dari sebuah

kalimat terhadap pola aturan kausalitas dalam Knowledge Graph. Setelah

didapatkan skor pencocokan, hasil tersebut akan dibagi dengan total aturan dari

setiap aturan Knowledge Graph. Untuk aturan pertama, nilai pembagi adalah 3,

aturan kedua nilai pembaginya bernilai 7, dan aturan ketiga nilai pembaginya

bernilai 4. Skor tertinggi dari setiap pola, akan dijadikan hasil akhir dari analisis

kausalitas ini. Untuk kalimat-kalimat yang tidak memiliki kata kerja “me-” dan

“di-” atau tidak sesuai pola aturan kausalitas Knowledge Graph akan dihiraukan

dan dianggap tidak memiliki hubungan kausalitas.

Algoritme analisis hubungan kausalitas untuk ketiga aturan tersebut secara

lengkap dapat dilihat pada Lampiran 4. Variabel counter1, counter2, dan counter3

merupakan sebuah penanda untuk break point dari ketiga rule kausalitas. Nilai

break point ketiga counter tersebut sesuai dengan nilai pembagi untuk

mendapatkan nilai akhir analisis untuk setiap aturan, yaitu 3 untuk aturan pertama,

7 untuk aturan ke-2, dan 4 untuk aturan ke-3.

Dari hasil peringkasan ektraksi kalimat di Lampiran 3, sistem mampu

mengenali beberapa hubungan kausalitas. Namun, masih banyak kekurangan dari

hasil analisis oleh sistem ini, seperti kata benda yang teridentifikasi sebagai subjek

atau objek bukan kata benda baku. Hal ini dikarenakan pemilihan kata benda

berdasarkan nilai indeks terbesar, padahal bisa saja kata benda yang relevan

memiliki nilai indeks yang lebih kecil dari kata benda yang tidak relevan. Kata

2. [n][v][n]+([v][n]+)[kata penghubung][n]+ (kalimat luas kompleks)