BAB 4 HASIL DAN PEMBAHASAN
4.1. Pre-pemrosesan Dokumen
Pre-pemrosesan pertama yang dilakukan adalah analisis frase dari sekumpulan dokumen pelatihan. Dari kurang lebih 1,300 dokumen pelatihan, metode FR-Perceptron mampu mengenali 15,789 frase. Seluruh frase tersebut disimpan dalam file berformat *.txt untuk mempercepat penemu-kembaliannya. Proses penemu-kembaliannya dengan menggunakan metode regular expressions karena waktu yang diperlukan untuk pembandingannya sangat cepat. Pada kamus frase yang berhasil dibentuk juga ditambahkan beberapa nama negara yang terdiri atas 2 kata.
Pengenalan frase automatis tersebut juga mengenali beberapa frase yang salah. Frase yang salah ini yaitu frase-frase yang tidak ada dalam ejaan Bahasa Indonesia yang benar. Frase-frase yang salah terkenali ini dikarenakan adanya kata-kata yang saling berdampingan yang secara kebetulan muncul lebih dari satu kali dalam satu dokumen yang disebabkan oleh adanya topik atau pembahasan yang sangat menonjol dalam satu dokumen, misalnya frase “x meter”, atau “iv menteri”. Frase “x meter” muncul dikarenakan adanya pendefinisian panjang dari suatu tanaman. Huruf x sering dijadikan simbol pengganti angka dalam matematika, sehingga dalam beberapa dokumen, huruf tersebut banyak muncul jika ada pendefinisian ukuran.
Untuk kata-kata seperti keputusan presiden atau keputusan menteri, biasanya akan muncul angka atau huruf romawi di sebelum atau sesudah kata presiden atau menteri. Dalam satu dokumen, biasanya kalimat tentang keputusan menteri atau presiden itu akan muncul lebih dari satu kali, sehingga frase “iv menteri” bisa terkenali.
Pada tahap pengindeksan, hasil pengindeksan disimpan dalam basis data karena jumlah baris yang dihasilkan sangat banyak. Tahap pengindeksan merupakan tahap akhir dalam pre-pemrosesan dokumen. Hasil pengindeksan tersebut akan digunakan untuk proses ekstraksi kalimat dan analisis kausalitas pada tahap berikutnya. Algoritme dari proses pelatihan mendapatkan kandidat frase dapat dilihat di bawah ini.
Public void getCandidatePhrase(document) For each word in a document
If (isNounType(word[i]) || isVerbType(word[i])) && (isNounType(word[i+1]) || isNounType(word[i+1])) then _temp = word[i] + “ ” + word[i+1]
If notExistPhrase(_temp) addToList(_temp, 1) else _sumPhrase = getFromList(_temp) updateList(_temp, _sumPhrase) End if End if Next word 4.2. Parsing
Proses parser atau pemisahan dari elemen-elemen pembentuk dokumen ke dalam satuan terkecil, yaitu kata, ditambahkan analisis pengenalan kata ganti kepunyaan. Kata ganti kepunyaan yang dipisahkan dalam penelitian ini adalah “nya” dan “mu”, dimana kata ganti “nya” akan diganti menjadi kata “dia”, dan kata ganti “mu” akan diganti menjadi kata “kamu”. Terdapat beberapa pengecualian pemisahan kata ganti tersebut karena akhiran “nya” dan “mu” tersebut muncul di kata dasar sebagai bukan akhiran. Kata-kata dasar yang memiliki akhiran “nya” menurut Kamus Besar Bahasa Indonesia (KBBI) adalah “bahwasanya”, “empunya”, “hanya”, “hanyasanya”, “kenya”, “nyanya”, “nyonya”, “punya”, “sanya”, “segianya”, “sekiranya”, “seyogjanya”, dan “tanya". Kata-kata dasar yang memiliki akhiran “mu” diwakili oleh “ilmu”, “jamu”, “jejamu”, “jemu”, “kamu”, “kemu”, “kemumu”, “ketemu”, “mertamu”, “mu”, “ramu”, “selumu”, “semu”, “tamu”, “temu”, “tetamu”, “timutimu”, “tumu”.
Penggantian kata ganti kepunyaan ini memiliki tujuan mencoba memunculkan subjek atau objek yang hilang dari sebuah kalimat karena tersirat dalam kata ganti tersebut. Pada proses tagging (pemotongan kata), kata pengganti ini akan dikenali sebagai kata benda, sehingga akan membantu analisis kausalitas menemukan pasangan subjek atau objeknya.
Tidak semua akhiran “nya” memiliki makna kata ganti kepunyaan selain kata-kata pengecualian yang telah disebutkan di atas, namun ada yang mempunyai
arti penegasan terhadap suatu kata. Sebagai contoh pada kata “hilangnya”, “hancurnya”, atau “rusaknya”. Algoritme pada penelitian ini tidak mampu menangani untuk kasus akhiran “nya” yang memiliki makna selain kepunyaan. 4.3. Proses Ektraksi Kalimat
Proses ekstraksi kalimat dilakukan dengan menggunakan metode kombinasi linear dengan variabel-variabel yang digunakan adalah jenis kata (kata dasar atau frase), jenis kata buang (stop list) indeks kata dalam satu dokumen yang sama, dan indeks kata dalam satu paragraf yang sama. Proses ektraksi kalimat dilakukan untuk menyaring kalimat-kalimat inti dari suatu dokumen dengan tujuan proses analisis kausalitas yang akan dilakukan setelah proses ini benar-benar hanya kalimat pokok saja. Sesuai dengan tujuan awal yaitu untuk melakukan peringkasan teks, maka diusahakan sekecil mungkin kalimat-kalimat yang bukan kalimat inti memberikan hasil identifikasi kausalitas.
Variabel jenis kata dalam metode kombinasi linear ini digunakan untuk mencari nilai indeks terbesar yang akan mengakumulasi nilai indeks kalimat. Pencarian nilai indeks terbesar memiliki tujuan kata-kata yang paling relevan sebisa mungkin memiliki pengaruh besar terhadap nilai indeks kalimat. Algoritme dari penghitungan nilai indeks suatu kalimat dapat dilihat pada uraian di bawah ini.
Public void getIndexSentence(document) For each sentence in document For each word in sentence
_tempWord = getCandidateWord(word[i], word[i+1]) _IdxValue+= (TF(sentence,_tempWord)
*(_tempWord==stoplist() ? 0.5 : 1))*IDF(_tempWord) Next word
Next sentence
_IdxSentValue = _IdxSentValue / _totalWordInAdocument
Public string getCandidateWord(word1, word2) /*mencari bobot dari kata dasarnya*/ _weight1 = getWeightWord(word1)
/*mencari bobot dari kemungkinan frase*/ _weight2 = getWeightWord(word1 + “ “ + word2)
maxValue = _weight1 _CandWord = word1
If maxValue <= _weight2 then maxValue = _weight2
_CandWord = word1 + “ “ + word2 End if
Return _CandWord
Public double TF(_sentenceID, _word)
Return (_CountWordInAdoc / _AllWordInAdoc) * (_CountWordInApargf / _AllWordInAdoc)
Penggunaan nilai maksimum untuk setiap jenis kata yang akan dicari indeksnya dikarenakan hasil yang lebih optimal daripada pemberian bobot di setiap variabel jenis katanya lalu dijumlahkan. Pemberian bobot tersebut dapat dilihat pada rumus di bawah ini.
BobotKata = (1 * _BaseWord) + (0.5 * _Phrase)
Pemberian bobot kata terbesar diberikan kepada kata dasar dikarenakan kemunculan kata dasar dalam setiap dokumen lebih besar daripada variabel lainnya. Namun metode pemberian bobot ini menghasilkan akurasi yang lebih lemah karena adanya kemungkinan satu kata teridentifikasi oleh 2 variabel, sementara salah satu variabel tersebut merupakan kata yang benar-benar mencirikan isi dokumen dan bobot yang teridentifikasi untuk kata tersebut tidak bernilai 1. Kata dasar memiliki bobot terbesar yang menyebabkan suatu bobot kata lebih didominasi oleh kata dasar, padahal beberapa frase memiliki makna yang lebih memerjelas arti dari sebuah kalimat.
Operasi maksimum yang digunakan memungkinkan lebih mencirikan kepentingan kata. Kemungkinan kata yang memiliki bobot lebih besar diasumsikan merupakan kata pembentuk pokok pikiran utama dari dokumen tersebut karena memiliki tingkat kemunculan lebih besar. Variabel kemunculan suatu kata dalam dokumen dan dalam paragraf yang sama memiliki tingkat kepentingan yang sama besarnya. Oleh karena itu, untuk mendapatkan nilai term frequency (tf) dari satu kata, akan dikalikan antara kemunculan dalam satu dokumen dan dalam paragraf yang sama. Untuk mendapatkan nilai inverse
document frequency (idf), tidak ada proses yang berbeda dengan perhitungan standarnya.
Kemunculan kata buang membuat bobot sebuah kalimat menjadi signifikan besar dikarenakan nilai idf dari kata buang tersebut lebih tinggi daripada kata yang memiliki kemunculan normal dalam koleksi indeks. Kata buang tidak terdapat dalam koleksi indeks karena telah dibuang terlebih dahulu ketika melakukan pre-pemrosesan dokumen. Nilai idf menjadi lebih besar dikarenakan nilai dalam lognya adalah dua kali jumlah dokumen dalam koleksi. Jika sebuah kata tidak ditemukan dalam koleksi, maka akan ditambahkan 0.5, seperti pada rumus di bawah ini.
Idf = Log ( 5 . 0 + Nt N )
Nilai Nt akan bernilai 0 karena tidak ditemukan kata buang tersebut dalam koleksi, sehingga rumus dalam lognya akan menjadi
5 . 0
N
atau 2N. Semakin tinggi nilai idf mengartikan bahwa kata tersebut dianngap penting oleh koleksi karena kemunculannya yang tidak banyak, padahal kata buang tidak memiliki nilai kepentingan terhadap dokumen. Oleh karena itu, jika ditemukan sebuah kata buang dalam kalimat, bobot kata yang didapat akan dikalikan 0.5, selainnya akan dikalikan 1. Pemberian bobot 0.5 untuk kata buang memungkinkan kalimat yang memiliki banyak kata buang mengalami penurunan nilai, sehingga dapat disimpulkan bahwa semakin banyak kemunculan kata buang dalam sebuah kalimat, maka kalimat tersebut menjadi tidak penting karena strukturnya yang tidak baku. Nilai 0.5 tersebut juga diberikan dengan tujuan analisis kausalitas yang akan dilakukan setelah proses ini. Analisis kausalitas membutuhkan kata penghubung dan kata bersifat pemberian definisi untuk mengidentifikasi aturan yang relevan untuk sebuah kalimat. Pembahasan lebih lanjut akan didefinisikan pada sub bab analisis kausalitas.
Proses stemming tidak dilakukan pada tahap ini, baik dalam penghitungan bobot maupun taggingnya. Hal ini dikarenakan kata kerja sangat diperlukan untuk keperluan analisis kausalitas pada tahap setelah ekstraksi kalimat ini. Tidak digunakannya proses stemming ini juga memiliki dampak terhadap besarnya bobot kata tersebut karena dalam koleksi tidak ditemukan kata tersebut
(pre-pemrosesan dokumen menggunakan stemming), yang tentu saja akan menaikkan bobot kalimat tersebut. Semakin banyak kata berimbuhan di dalam sebuah kalimat memiliki peluang semakin besar juga bobot kalimat tersebut. Hal ini tidak menjadi masalah karena tujuan dari penelitian ini adalah untuk menganalisis relasi kausalitas dalam sebuah kalimat. Semakin banyak variasi kalimat yang akan dicobakan terhadap analisis kausalitas automatis ini, akan semakin banyak pula ditemukan kekurangan dan kasus-kasus dari relasi kausalitas tersebut. Pada pre-pemrosesan dokumen, proses stemming diperlukan karena proses tersebut bersifat umum digunakan oleh semua jenis sistem temu-kembali informasi.
Setelah bobot suatu kata didapat, bobot suatu kalimat merupakan penjumlahan dari setiap bobot kata dalam sebuah kalimat, dan kemudian dibagi jumlah kata yang terdapat pada kalimat tersebut. Setelah nilai indeks dari setiap kalimat didapat, ditentukan nilai threshold untuk memilih kalimat mana saja yang dianggap pokok pikiran utama dari suatu dokumen. Nilai threshold yang digunakan dan dianggap optimal dalam penelitian kali ini adalah 2,0. Dengan nilai 2,0 ini, kalimat-kalimat yang merupakan kalimat penyambung dari kalimat utama semakin sedikit terekstraksi. Nilai 2.0 ini didapat dari melakukan eksperimen terhadap 5 dokumen bagus (dokumen dari buku terbitan).
Kalimat-kalimat yang memiliki bobot besar tidak selamanya mengartikan pentingnya kalimat tersebut. Sub judul juga memiliki bobot yang besar karena elemennya terdiri atas beberapa kata saja, sementara beberapa kata tersebut biasanya merupakan kata-kata yang memiliki tingkat kepentingan tinggi terhadap dokumen, sehingga bobot per katanya juga tinggi. Sub judul teridentifikasi sebagai kalimat dalam suatu paragraf karena diakhiri oleh tanda titik (.) atau diikuti oleh karakter carriage return dan line feed. Parameter sebuah kalimat dalam penelitian ini dikenali jika ditemukan tanda titik (.), sementara paragraf dikenali jika ditemukan karakter carriage return line feed (ascii 10 dan 13). Sub judul teridentifikasi sebagai 1 kalimat dalam 1 paragraf yang sama juga menyebabkan tingginya bobot dari kalimat ini karena nilainya dua kali dari bobotnya semula (penelitian ini melakukan perkalian terhadap nilai tf untuk paragraf). Contoh sub judul yang terekstraksi dalam sistem dapat dilihat pada Gambar 3 di bawah ini.
Gambar 3 Sub Judul yang Terekstraksi Sebagai Kalimat Inti
Bobot kalimat yang besar juga terjadi untuk kasus penjabaran poin-poin. Penggunaan penomoran, karakter alfabet, atau simbol-simbol tertentu membuat kalimat menjadi tidak baku di awal kalimatnya. Selain itu, kalimat juga terlihat lebih sederhana namun memiliki bobot yang tinggi karena biasanya banyak terdapat kata-kata penting dalam dokumen tersebut, karena poin-poin ini biasanya berisi rangkuman dari apa yang sudah dijelaskan sebelumnya.
Tabel 1 Nilai Kebenaran Hasil Ekstraksi Teks
Nama Dokumen Nilai
dokumen1 0.25 dokumen2 0.285714286 dokumen3 0.333333333 dokumen4 0.333333333 dokumen6 0.333333333 281 0.375 agusartikel20071228.txt 0.666666667 bustafin01202008.txt 0.2 bustafin01212008.txt 0.5 bustafin01282008.txt 0.5 bustafin02212008.txt 0.5 bustafin02282009.txt 0.333333333 bustafin03242008.txt 0.25 bustafin03312008.txt 0.333333333 bustafin04282008.txt 0 Rata-rata 0.346269841
Pengujian ekstraksi teks ini dilakukan dengan bantuan pihak ke-3 untuk melakukan pemilihan kalimat-kalimat yang dianggap penting atau layak untuk terekstraksi. Kemudian hasil ekstraksi kalimat tersebut akan dilakukan pengecekan dengan yang dilakukan sistem. Prosentase jumlah yang benar dari sistem berikan dengan total ekstraksi yang dilakukan manual merupakan nilai kebenaran dari hasil ektraksi tersebut. Rata-rata nilai kebenaran ekstraksi teks
yang dihasilkan penelitian ini adalah 34%. Tabel 1 menunjukkan nilai kebenaran untuk tiap-tiap dokumen pengujian dan rata-rata nilai kebenarannya.
4.4. Analisis Kausalitas
Kalimat-kalimat yang telah terekstraksi melalui proses ektraksi teks akan dianalisis hubungan kausalitas yang ada dalam teks tersebut. Hubungan kausalitas dalam Bahasa Indonesia pada penelitian ini memiliki 3 aturan. Ketiga aturan tersebut didapat dari hasil analisis relasi kausalitas secara manual terhadap beberapa dokumen. Setelah melakukan analisis manual terhadap beberapa dokumen, aturan-aturan tersebut juga dilakukan pembandingan terhadap bentuk-bentuk kalimat dalam Bahasa Indonesia. Aturan tersebut dapat dilihat di bawah ini dalam notasi regular expression.
1. [n]+[v] [n]+ (kalimat sederhana)
2. [n][v][n]+([v][n]+)*[kata penghubung]*[n]+ (kalimat luas kompleks) 3. [v][n][kata definisi][n]+ (kalimat rapatan predikat)
Kata kerja dalam semua aturan di atas hanya berlaku untuk kata kerja berimbuhan “me-” dan “di-”. Hal ini dilakukan karena kedua kata kerja tersebut diasumsikan yang paling relevan menjelaskan hubungan kausalitas dalam suatu kalimat lengkap. Sebuah kalimat lengkap dalam Bahasa Indonesia memiliki subjek, predikat, dan objek. Kata kerja berimbuhan lain diabaikan dalam penelitian ini dikarenakan kontribusinya yang kecil terhadap memertegas hubungan kausalitas dalam kalimat.
Kedua kata kerja berimbuhan yang dipilih akan diberikan aturan untuk meminimalisasi kata benda yang teridentifikasi. Untuk aturan analisis yang pertama ([n]+[v] [n]+), pada kata kerja berimbuhan “di-”, kata benda ([n]) pertama hanya akan diambil satu kata benda sebelum kata kerja ([v]) pertama dengan mencari nilai indeks terbesar dari sekumpulan kata benda tersebut. Kata benda ([n]) kedua pada kata kerja berimbuhan “di-” bisa terdiri atas sekumpulan kata benda, yang seluruhnya berelasi kausalitas dengan kata benda pertama. Sebaliknya, untuk kata kerja berimbuhan “me-”, kata benda ([n]) pertama yang terdiri atas sekumpulan kata benda yang berelasi kausalitas dengan satu kata benda kedua. Penggalan algoritme di bawah ini merupakan algoritme untuk
mendefinisikan hasil CAU untuk kedua jenis imbuhan (“me” dan “di”) pada aturan pertama.
if substr(tempVerb,0,2) == “me” then for each Noun1 in NounR11
CAUResult[counter] = Noun1[i] + tempVerb + Noun2 Counter++
Next Noun1
Else if substr(tempVerb,0,2) == “di” then For each Noun2 in NounR12
CAUResult[counter] = Noun1 + tempVerb + Noun2[i] Counter++
Next Noun2 end if
Aturan analisis hubungan kausalitas yang kedua dan ketiga tidak memiliki aturan eksklusif untuk kata kerja berimbuhan “me” dan “di” tersebut. Hal ini dikarenakan kedua struktur aturan tersebut merupakan struktur kalimat yang tidak normal (subjek, predikat, dan objek), sehingga jika pada aturan ke-2, semua kata benda setelah kata kerja pertama dianggap berelasi kausalitas terhadap kata benda pertama. Penentuan tersebut berdasarkan asumsi bahwa pada kalimat panjang dengan beberapa kata kerja di dalamnya, kata kerja pertama lebih bersifat memberikan penegasan terhadap kata sebelumnya dengan memberikan beberapa kata benda dan kata kerja setelahnya. Begitu juga dengan aturan ke-3, kata kerja yang muncul di awal kalimat serta terdapatnya kata yang bermakna memberikan definisi seperti “yaitu” atau “adalah” setelah kata benda pertama memberikan makna bahwa kata benda ke-2 merupakan penjelasan terhadap kata benda pertama dengan penegasan kata kerja di awal kalimat tersebut.
Salah satu ciri dari aturan ke-2 dan ke-3 adalah adanya kata penghubung dan kata yang bersifat memberikan definisi. Pemberian bobot 0.5 pada tahap ekstraksi kalimat mempunyai tujuan untuk memberikan identifikasi kausalitas yang lebih baik untuk dokumen yang isinya banyak mendefinisikan sesuatu hal. Jika bobot yang diberikan 0 untuk kata buang tersebut, maka ada kemungkinan aturan ke-2 dan ke-3 tidak tersentuh oleh identifikasi karena semakin kecilnya kemungkinan kalimat-kalimat tersebut terekstraksi.
Penggalan algoritme di bawah ini menjelaskan bahwa aturan ke-2 dan ke-3 selalu hanya menempatkan 1 jenis kata benda pertama saja. Berbeda dengan algoritme untuk aturan ke-1 yang terdapat kondisi pengecekan imbuhan dari kata kerjanya.
For each Noun2 in NounR12
CAUResult[counter] = Noun1 + tempVerb + Noun2[i] Counter++
Next Noun2
Setiap aturan di atas, akan dicobakan untuk setiap sekumpulan kalimat yang telah terekstraksi. Penentuan aturan mana yang akan dijadikan hasil akhir ditentukan dengan skor. Skor ini didapat dari pencocokan sifat kata dari sebuah kalimat terhadap pola aturan kausalitas dalam Knowledge Graph. Setelah didapatkan skor pencocokan, hasil tersebut akan dibagi dengan total aturan dari setiap aturan Knowledge Graph. Untuk aturan pertama, nilai pembagi adalah 3, aturan kedua nilai pembaginya bernilai 7, dan aturan ketiga nilai pembaginya bernilai 4. Skor tertinggi dari setiap pola, akan dijadikan hasil akhir dari analisis kausalitas ini. Untuk kalimat-kalimat yang tidak memiliki kata kerja “me-” dan “di-” atau tidak sesuai pola aturan kausalitas Knowledge Graph akan dihiraukan dan dianggap tidak memiliki hubungan kausalitas.
Algoritme analisis hubungan kausalitas untuk ketiga aturan tersebut secara lengkap dapat dilihat pada Lampiran 4. Variabel counter1, counter2, dan counter3 merupakan sebuah penanda untuk break point dari ketiga rule kausalitas. Nilai break point ketiga counter tersebut sesuai dengan nilai pembagi untuk mendapatkan nilai akhir analisis untuk setiap aturan, yaitu 3 untuk aturan pertama, 7 untuk aturan ke-2, dan 4 untuk aturan ke-3.
Dari hasil peringkasan ektraksi kalimat di Lampiran 3, sistem mampu mengenali beberapa hubungan kausalitas. Namun, masih banyak kekurangan dari hasil analisis oleh sistem ini, seperti kata benda yang teridentifikasi sebagai subjek atau objek bukan kata benda baku. Hal ini dikarenakan pemilihan kata benda berdasarkan nilai indeks terbesar, padahal bisa saja kata benda yang relevan memiliki nilai indeks yang lebih kecil dari kata benda yang tidak relevan. Kata benda tidak relevan yang memiliki nilai indeks tinggi biasanya lebih bersifat ke kata sambung, seperti kata ‘karena’ dan ‘diri’. Kata ‘karena’ merupakan kata yang
sering muncul dalam suatu dokumen karena kata tersebut bersifat menjelaskan dan menegaskan dari ungkapan sebelumnya. Salah satu hasil perbandingan identifikasi kausalitas yang dilakukan sistem dan manual secara lengkapnya dapat dilihat pada Tabel 2, sementara bentuk antarmuka sistem identifikasi hubungan kausalitas dapat dilihat pada Gambar 4.
Kekurangan lainnya adalah adanya kemungkinan subjek atau objek terdiri atas lebih dari 2 kata benda, sementara asumsi frase yang digunakan dalam penelitian ini adalah frase hanya terdiri atas 2 kata benda. Masalah lain yang tidak bisa teridentifikasi adalah adanya hubungan bertingkat, seperti pada contoh hasil analisis manual pada S39|P3, simbol S39|P3 mempunyai arti sentence 39th dan paragraph 3rd (kalimat ke-39 dan berada di paragraf ke-3), pada tabel 2. Pada S39|P3, objeknya merupakan suatu hubungan kausalitas lain yang masih relevan terhadap hubungan kausalitas di awalnya. Hal ini terjadi karena adanya penegasan kembali terhadap akibat dari hubungan kausalitas yang pertama, sementara penegasan kembali tersebut memiliki struktur kalimat yang lengkap, yaitu subjek, predikat, dan objek.
Gambar 4 Antarmuka Sistem Identifikasi Hubungan Kausalitas
Pada kasus dokumen pada Lampiran 1, terdapat 1 hubungan kausalitas yang mengalami kesalahan pengambilan kata kerja, yaitu pada S20|P3. Hal ini dikarenakan terdapat penumpukan kata kerja sebelum kata benda, yaitu pada kata “menjadi” dan “meningkatkan”, sementara sistem hanya mengambil kata kerja terakhir saja.
Sisa dokumen pengujian lainnya juga memiliki kekurangan-kekurangan yang sama dengan dokumen pada Lampiran 1 ini. Kekurangan yang dialami keseluruhan dokumen pelatihan ini merupakan salah satu kelemahan analisis Knowledge Graph tanpa menggunakan background knowledge. Background knowledge adalah jaringan kata (wordnet) dalam Bahasa Indonesia yang mengandung thesaurus dan hubungan antar kata baik yang bersifat kausalitas, penegasian, atau kesetaraan. Penelitian dengan topik jaringan kata dalam Bahasa Indonesia ini belum ada yang melakukannya secara mendalam, baik khusus untuk bidang pertanian atau bidang umum lainnya.
Tabel 2 Tabel Perbandingan Hasil Analisis Kausalitas Oleh Sistem dan Manual
Kalimat Hasil Sistem Hasil Manual
S39|P3; jika[p]pada[p]dekade[n]lalu[v]pe rajin[n]tahu-tempe[]masih[adv]merangkap[v] sebagai[p]petani[n]kedelai[n]gen erasi[n]saat[n]ini[pron]umum[a] dia[n]hanya[adv]menjalankan[v] profesi[n]sebagai[p]perajin[n]saj a[adv]dan[p]hanya[adv]sedikit[a ]yang[p]memiliki[v]lahan[n]usah atani[]kedelai[n] dekade merangkap [CAU] petani dekade merangkap [CAU] kedelai dekade merangkap [CAU] generasi dekade merangkap [CAU] saat dekade merangkap [CAU] dia dekade merangkap [CAU] profesi dekade merangkap [CAU] perajin dekade merangkap [CAU] lahan dekade merangkap [CAU] kedelai (perajin tahu-tempe merangkap [CAU] petani kedelai) memiliki [CAU] lahan usahatani kedelai S20|P3; ketergantungan[n]pada[p]impor kedelai[n] itu[pron]menjadi[v]keterlaluan[a dv]karena[n]di[p]dalam[a]negeri [n]tidak[adv]terdapat[v]upaya[n] yang[p]serius[a]untuk[p]mening katkan[v]produksi kedelai[n] produksi kedelai[n]
impor kedelai menjadi [CAU] karena
impor kedelai menjadi [CAU] negeri
impor kedelai menjadi [CAU] terdapat impor kedelai menjadi [CAU] upaya
impor kedelai menjadi [CAU] produksi kedelai impor kedelai meningkatkan [CAU] produksi kedelai
4.5. Tingkat Kepuasan Sistem
Nama Dokumen Nilai
281.txt 0.419841 agusartikel20071228.txt 0.659 bustafin01202008.txt 0.650833 bustafin01212008.txt 0.5278 bustafin02212008.txt 0.523971 bustafin01282008.txt 0.361111 bustafin02282009.txt 1 bustafin03242008.txt 0.545238 bustafin03312008.txt 0.407338 bustafin04282008.txt 0 dokumen1.txt 0.55556 dokumen2.txt 0.348 dokumen3.txt 0.440882 dokumen4.txt 0.023 dokumen6.txt 0.456233 Rata-rata 0.461254
Tabel 3 Nilai Akurasi 15 Dokumen Pengujian
Tingkat kepuasan sistem dihitung dan dilakukan perbandingan dengan analisis secara manual yang dilakukan oleh peneliti sendiri. Cara menghitung tingkat kepuasan tersebut dilakukan dengan membandingkan jumlah analisis oleh sistem yang benar dengan analisis manual untuk satu kalimat, kemudian dibagi total jumlah analisis yang dilakukan oleh sistem. Nilai akhir untuk satu dokumen adalah nilai rata-rata dari nilai seluruh kalimat dalam satu dokumen tersebut. Tingkat kepuasan yang dihasilkan pada penelitian ini rendah dikarenakan hal-hal seperti yang disebutkan pada pembahasan sebelumnya di sub bab analisis kausalitas. Tabel 3 di atas menjelaskan nilai tingkat kepuasan yang dimiliki setiap dokumen dari analisis yang dilakukan oleh sistem untuk 15 dokumen pengujian beserta rata-ratanya.
4.6. Dynamic-Link Library (dll)
Penelitian ini merupakan tahap awal dari usaha untuk peringkasan teks menggunakan knowledge graph. Oleh karena itu, hasil dari penelitian ini harus menghasilkan sesuatu yang bisa digunakan secara berkelanjutan, salah satunya adalah dynamic-link library (DLL). Berkas library tersebut dapat digunakan
kembali sebagai reference untuk berbagai bahasa pemrograman. Berkas-berkas library tersebut di antaranya adalah AFPhrase.dll, BFStemming.dll, BFTagging.dll, Parser.dll, TextExtraction.dll, dan KGRelations.dll. Cara penggunaan serta definisi dari setiap berkas library tersebut dapat dilihat pada Lampiran 5.