• Tidak ada hasil yang ditemukan

Temporal Entity Tagging untuk Dokumen Bahasa Indonesia

N/A
N/A
Protected

Academic year: 2017

Membagikan "Temporal Entity Tagging untuk Dokumen Bahasa Indonesia"

Copied!
28
0
0

Teks penuh

(1)

TEMPORAL ENTITY TAGGING

UNTUK

DOKUMEN

BAHASA INDONESIA

AGUS SIMAMORA

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

(2)
(3)

PERNYATAAN MENGENAI SKRIPSI DAN

SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA

Dengan ini saya menyatakan bahwa skripsi berjudul Temporal Entity Tagging untuk Dokumen Bahasa Indonesia adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.

Bogor, Juni 2013

Agus Simamora

(4)

ABSTRAK

AGUS SIMAMORA. Temporal Entity Tagging untuk Dokumen Bahasa Indonesia. Dibimbing oleh AHMAD RIDHA.

Salah satu proses dalam document pre-processing adalah pemberian tag-tag

penciri yang disebut dengan Named Entity Tagging. Penelitian ini dilakukan untuk mengimplementasikan temporal entity tagging pada dokumen berbahasa Indonesia dengan metode berbasis aturan (rule-based). Ekspresi temporal ditandai dengan tag DATE dan nilai temporal dari ekspresi tersebut. Ekspresi temporal dapat berbentuk ekspresi eksplisit, ekspresi implisit, dan ekspresi nama kejadian. Aturan-aturan didapatkan dengan menganalisis ekspresi-ekspresi temporal dalam 100 dokumen berbahasa Indonesia. Dari 341 ekspresi temporal dalam dokumen, diturunkan40 buah aturan yang diimplementasikan dalam sistem ini. Sistem dapat menemukan seluruh ekspresi temporal tersebut yang terdiri dari 150 ekspresi temporal eksplisit, 155 ekspresi temporal implisit dan 36 ekspresi nama kejadian. Selain itu evaluasi juga dilakukan terhadap 34 dokumen lain. Sistem dapat mengenali dengan benar sebanyak 122 ekspresi temporal dari 129 ekspresi temporal yang terdapat dalam dokumen tersebut. Dengan demikian, sistem ini sudah bekerja dengan akurasi 100% untuk 100 dokumen awal dan 94.57% untuk 34 dokumen uji lainya. Oleh karena itu, pengenalan temporal entity dokumen bahasa Indonesia berbasis aturan sudah cukup baik.

Kata kunci: ekspresi temporal, rule-basedtagging

ABSTRACT

AGUS SIMAMORA. Temporal Entity Tagging for Indonesian Documents. Supervised by AHMAD RIDHA.

One of the processes in document pre-processing is providing identifier tags called Named Entity Tagging. This research aims to implement a temporal entity tagging in Indonesian language documents with rule-based method. Temporal expressions are marked with DATE tag and the temporal value of the expression. Temporal expression comprise explicit expression, implicit expression, and event expression. The rules were obtained by analyzing temporal expressions in 100 Indonesian documents. There are 40 derived rules implemented in this system over 341 temporal expressions in the document. The system could find all of the temporal expressions consisting of 150 explicit temporal expressions, 155 implicit temporal expressions, and 36 event expressions. Also, the evaluation was conducted on 34 other documents. The system can correctly identify as many as 122 of 129 temporal expression contained in the additional documents. The system has achieved an accuracy of 100% for the 100 initial documents and 94.57% for the 34 test documents. Thus, rule-based identification of temporal entities for Indonesian performs well.

(5)

Skripsi

sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer

pada

Departemen Ilmu Komputer

TEMPORAL ENTITY TAGGING

UNTUK

DOKUMEN

BAHASA INDONESIA

AGUS SIMAMORA

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

(6)
(7)

Judul Skripsi : Temporal Entity Tagging untuk Dokumen Bahasa Indonesia Nama : Agus Simamora

NIM : G64104047

Disetujui oleh

Ahmad Ridha, SKom MS Pembimbing I

Diketahui oleh

Dr Ir Agus Buono, MSi MKom Ketua Departemen

(8)

PRAKATA

Puji dan syukur penulis panjatkan kepada Tuhan Yang Maha Esa atas segala berkat dan limpahan kasih-Nya sehingga karya ilmiah ini berhasil diselesaikan.

Tak lupa penulis mengucapkan terima kasih kepada seluruh pihak yang telah berperan dalam penelitian ini, yaitu:

1 Kedua orang tua dan semua keluarga yang selalu memberikan motivasi, dukungan, dan doa.

2 Bapak Ahmad Ridha, SKom MS, selaku dosen pembimbing yang telah memberikan banyak ide, masukan, dan dukungan kepada penulis.

3 Bapak Ir Julio Adisantoso, MKom dan bapak Sony Hartono Wijaya, SKom MKom selaku penguji.

4 Teman terkasih Epi Ria Kristina Sinaga, SKM untuk semua bentuk dukungan dan perhatiannya khususnya dalam penyelesaian skripsi ini. 5 Teman-teman satu bimbingan: Leonardo Siagian, Fuad Daviratma Husni,

dan Septiandi Wibowo untuk semangat dan sharing informasi selama pengerjaan skripsi.

6 Teman-teman khususnya atasan-atasan di PT. Navcore Nextology Indonesia untuk pengertian dan dukungannya, dari penulis memulai perkuliahan hingga menyelesaikan pendidikan di Alih Jenis Ilmu Komputer IPB.

7 Pihak-pihak lain yang tidak dapat penulis sebutkan satu per satu.

Akhirnya semoga tulisan ini dapat bermanfaat bagi pembaca, khususnya demi peningkatan pengetahuan dalam bidang teknologi informasi.

Bogor, Juni 2013

(9)

DAFTAR ISI

DAFTAR TABEL v

DAFTAR GAMBAR v

DAFTAR LAMPIRAN v

PENDAHULUAN 1

Latar Belakang 1

Tujuan Penelitian 1

Ruang Lingkup Penelitian 1

Dokumen Non-Temporal 2

Normalisasi Ekspresi Temporal 3

Analisis Aturan 3

Aturan-aturan 3

Implementasi Aturan 4

Evaluasi Sistem 4

Lingkungan Pengembangan 5

HASIL DAN PEMBAHASAN 5

Aturan-Aturan 5

Normalisasi Ekspresi Temporal 5

Implementasi Program 6

Evaluasi Berdasarkan Aturan 8

Evaluasi Kinerja Sistem 9

SIMPULAN DAN SARAN 9

Simpulan 9

Saran 10

DAFTAR PUSTAKA 10

(10)

DAFTAR GAMBAR

1 Metode penelitian 2

2 Alur program Temporal Entity Tagging 6

3 Contoh kalimat dengan ekspresi temporal 7

4 Perbandingan jumlah kalimat dengan waktu tagging 9

DAFTAR LAMPIRAN

1 Dokumen non-temporal 11

2 Dokumen temporal hasil tagging 12

3 Aturan temporal eksplisit 13

4 Aturan temporal implisit 15

(11)

PENDAHULUAN

Latar Belakang

Perkembangan sumber informasi digital telah mendorong perkembangan bidang temu kembali informasi secara pesat. Hal ini didasari kebutuhan pengguna yang menginginkan pencarian informasi secara cepat dan tepat. Terdapat beberapa proses dalam pembuatan temu kembali informasi, salah satunya adalah document pre-processing. Dalam document pre-processing, dokumen diberikan tag-tag

penciri yang disebut dengan named entity tagging (Srihari et al. 2000). Untuk dokumen berbahasa Indonesia, telah dilakukan penelitian untuk membuat name entity tagging dengan metode berbasis aturan (Citraningputra 2009). Dokumen diberikan tag entitas(named entity) yaitu tag NAME, LOCATION, DATE, TIME, NUMBER, ORGANIZATION, dan CURRENCY.

Dengan menggunakan korpus yang telah diberikan tag entitas hasil penelitian Citraningputra (2010), Darliansyah (2012) mengimplementasikan

temporal question answering system untuk pertanyaan temporal pada dokumen berbahasa Indonesia. Sistem tersebut menggunakan tag DATE sebagai dasar untuk mengenali ekspresi temporal dalam dokumen, namun sebelumnya tag

DATE dilengkapi dengan nilai temporal yang belum disediakan oleh tagger dari Citraningputra (2010). Darliansyah (2012) memberikan nilai ekspresi temporal secara manual.

Saat ini telah ada beberapa sistem yang dikembangkan untuk melakukan

temporal tagging secara otomatis. Salah satunya adalah SUTime dikembangkan oleh Stanford University untuk dokumen bahasa Inggris (Chang dan Manning 2012), sedangkan sistem temporal tagging untuk dokumen bahasa Indonesia belum dikembangkan. Untuk itu, perlu dilakukan penelitian untuk mengotomatisasi proses tagging terhadap ekspresi temporal dalam setiap dokumen agar tagging dapat dilakukan dengan efisien.

Tujuan Penelitian

Tujuan dari penelitian ini adalah untuk mengimplementasikan temporal entity tagging pada dokumen berbahasa Indonesia dengan metode berbasis aturan (rule-based).

Ruang Lingkup Penelitian

(12)

2

METODE PENELITIAN

Tahapan penelitian secara umum yaitu menyiapkan dokumen non-temporal (dokumen uji), normalisasi ekspresi temporal, analisis aturan, implementasi aturan terhadap dokumen, dan evaluasi. Metode penelitian dapat dilihat pada Gambar 1.

Dokumen Non-Temporal

Koleksi dokumen yang digunakan dalam penelitian ini adalah dokumen berita sambung jaring (online news) sebanyak 100 dokumen, dengan waktu terbit antara tahun 2000-2011. Koleksi tersebut merupakan dokumen-dokumen yang digunakan Darliansyah (2012). Dokumen telah diberikan named entity tag

memanfaatkan hasil penelitian Citraningputra (2010), yaitu tag NAME, LOCATION, CURRENCY, DATE, TIME, ORGANIZATION, dan NUMBER. Dokumen-dokumen tersebut memiliki struktur XML yang sama dengan beberapa

tag, antara lain tag DOCNO, AUTHOR, TITLE, PUBLISHED, dan CONTENT.

Tag PUBLISHED dalam penelitian ini menjadi sangat penting dalam setiap dokumen karena akan dipakai sebagai rujukan untuk ekspresi temporal implisit yang terdapat dalam dokumen tersebut. Bentuk yang digunakan adalah:

<DOC>

<DOCNO>……</DOCNO > <AUTHOR>……</AUTHOR > <TITLE>……</TITLE >

<PUBLISHED>……</PUBLISHED >

<CONTENT>……</CONTENT >

</DOC>

Contoh dokumen non-temporal lengkap dapat dilihat pada Lampiran 1.

Pada pengujian sistem, selain menggunakan 100 dokumen awal, evaluasi juga dilakukan terhadap 34 dokumen lain dengan struktur dokumen yang sama. Dokumen didapat dari media berita online antara lain KOMPAS.com (www.kompas.com), detikcom (www.detik.com), dan TEMPO.CO (www.tempo.co).

(13)

3

Normalisasi Ekspresi Temporal

Normalisasi ekspresi temporal dilakukan untuk mendapatkan tanggal terbit dokumen yang akan dijadikan sebagai acuan untuk ekspresi-ekspresi temporal, khususnya ekspresi temporal yang bersifat implisit. Beberapa dokumen dalam korpus ada yang tidak mempunyai atau menyebutkan tanggal terbit dengan jelas, sehingga harus didefinisikan terlebih dahulu dengan cara menemukan kembali dokumen tersebut di Internet dan mendapatkan tanggal terbitnya. Selain itu, dilakukan juga koreksi terhadap korpus untuk memperbaiki kesalahan-kesalahan

tagging yang dilakukan dengan cara manual. Kesalahan-kesalahan tersebut mencakup adanya ekspresi temporal yang terlewat, penulisan kata atau frasa yang tidak mengikuti standar baku penulisan ejaan bahasa Indonesia, dan sebagainya.

Analisis Aturan

Aturan disusun berdasarkan semua kemungkinan ekspresi temporal dari semua dokumen korpus. Aturan-aturan ini kemudian dimasukkan ke basis data yang akan digunakan sebagai dasar dalam proses tagging, untuk menentukan apakah sebuah ekspresi di dalam dokumen termasuk ekspresi temporal atau bukan. Semakin banyak dokumen yang dianalisis atau dijadikan dokumen pengujian maka semakin banyak juga aturan-aturan yang mungkin didapatkan.

Aturan-aturan

Aturan-aturan dalam penelitian ini dikategorikan berdasarkan bentuk ekspresi temporalnya. Pertama, aturan bersifat eksplisit yaitu aturan yang dapat mengetahui nilai temporal sebuah ekspresi tanpa bergantung pada tanggal terbit dari dokumen. Kedua, aturan implisit yaitu aturan yang membutuhkan tanggal referensi atau tanggal terbit dokumen tersebut untuk dapat memberikan nilai kepada ekspresi temporal yang ditemukan. Ketiga, aturan ekspresi nama kejadian. Dalam dokumen berita sering ditemukan nama kejadian yang sebenarnya

mengandung nilai temporal. Sebagai contoh “Masa Penjajahan Belanda”, secara implisit frasa ini memiliki waktu temporal tahun 1800-1942, contoh lain misalnya

“Orde Baru” yang memiliki nilai temporal antara tahun 1966-1999. Ekspresi-ekspresi seperti disebutkan di atas dibuatkan dalam aturan khusus yang dikategorikan dalam aturan nama kejadian dan dimasukkan ke dalam sebuah kamus. Selain itu, setiap nama kejadian akan menjadi satu aturan sendiri yang akan memiliki nilai temporal statik/konstan.

Setiap aturan akan memberikan sebuah nilai, bisa berupa tanggal tunggal atau berbentuk durasi (tanggal mulai dan tanggal selesai).

1 Aturan ekspresi temporal eksplisit

Contoh aturan untuk ekspresi temporal eksplisit:

 5-November-2012

{Aturan: ([angka]-[nama bulan]-[angka]), Hasil:

(14)

4

{Aturan: ([nama hari] ([angka]/[angka])), Hasil: (VALUE1 = yyyy/mm/dd)}

 17-20 Agustus

{Aturan: ([angka]-[angka] [nama bulan]), Hasil: (VALUE1 = yyyy/mm/dd VALUE2=yyyy/mm/dd)}

2 Aturan ekspresi temporal implisit

Contoh aturan untuk ekspresi temporal implisit:

 hari ini

{Aturan: ([hari ini]), Hasil: (VALUE1 =

yyyy/mm/dd)}  2 hari lalu

{Aturan: ([angka] [hari lalu]), Hasil: (VALUE1 = yyyy/mm/dd)}

 Selasa depan

{Aturan: ([nama hari] [depan]),

Hasil: (VALUE1 = yyyy/mm/dd VALUE2=yyyy/mm/dd)}

3 Aturan ekspresi temporal nama kejadian

Contoh aturan untuk ekspresi temporal nama kejadian:

 Masa Penjajahan Belanda

{Aturan: ([Masa Penjajahan Belandda]), Hasil: (VALUE1 = yyyy/mm/dd VALUE2 = yyyy/mm/dd)}

Aturan-aturan dituliskan dalam ekspresi reguler untuk mengenal dan menemukan ekspresi yang terdapat dalam dokumen. Ekspresi reguler merupakan salah satu instrumen untuk pemrosesan teks yang dapat diandalkan, fleksibel, dan efisien. Ekspresi reguler memiliki notasi bentuk umum hampir seperti bahasa pemrograman mini yang dapat dipakai untuk mendeskripsikan dan mem-parsing

teks. Dengan beberapa dukungan tambahan, ekspresi reguler dapat menambah, menghapus, dan mengambil segala bentuk dari teks dan data (Friedl 2006). Oleh sebab itu, ekspresi reguler merupakan tools yang sangat cocok dipakai dalam proses entity tagging.

Implementasi Aturan

Dokumen terlebih dahulu dipotong per kalimat, kemudian tiap kalimat dicocokkan untuk semua aturan yang ada. Ketika sebuah ekspresi temporal ditemukan oleh sebuah aturan, aturan tersebut akan mengembalikan nilai sesuai tipenya. Nilai kembaliannya dapat berupa tanggal tunggal, contoh ekspresi “Jumat

lalu” (12 April 2013) atau durasi waktu, contoh ekspresi “bulan depan” (1 Mei 2013 hingga 31 Mei 2013). Khusus untuk ekspresi temporal yang bersifat implisit, nilai kembalian dari aturan tersebut terlebih dahulu dihitung nilai temporalnya berdasarkan tanggal acuan (tanggal diterbitkannya dokumen).

Evaluasi Sistem

(15)

5 dilakukan normalisasi. Semakin banyak hasil benar yang didapat oleh sistem, maka tingkat akurasi sistem akan semakin tinggi. Selain itu dilakukan juga evaluasi berdasarkan kinerja sistem yaitu melihat waktu yang dibutuhkan oleh sistem untuk proses tagging.

Lingkungan Pengembangan

Perangkat lunak yang digunakan dalam penelitian ini adalah:

 Sistem operasi Windows 7

 Applikasi XAMPP-win32-1.7.2 yang mencakup web server Apache 2.2.11 dan database MySQL 5.1.33

Code editor Notepad++

Perangkat keras yang digunakan dalam penelitian ini adalah:

 Intel® Core™ Duo 2.2 GHz

 RAM 4 GB

Harddisk 500 GB

HASIL DAN PEMBAHASAN

Aturan-Aturan

Sebanyak 40 aturan diturunkan setelah menganalisis 341 ekspresi temporal yang terdapat dalam dokumen. Aturan-aturan tersebut terdiri atas 14 aturan yang bersifat eksplisit, 24 aturan yang bersifat implisit, dan 2 aturan nama kejadian dalam kamus. Aturan eksplisit dan implisit didefinisikan di dalam sistem, sedangkan nama kejadian, aturan dan nilai ekspresi temporalnya dapat didefinisikan secara dinamis dengan menambahkan ke dalam kamus. Aturan-aturan yang dihasilkan dapat dilihat pada Lampiran 3, 4, dan 5.

Sebuah aturan dapat menemukan satu atau lebih ekspresi temporal, sebagai contoh:

((\d{1}|\d{2}|\d{3}|\d{4})\s{1}([Hh]ari|[Mm]inggu|[Pp]ekan|[

Bb]ulan|[Tt]ahun)\s{1}((?i)mendatang|ke depan|yang akan

datang|lalu|yang lalu|ini|terakhir)).

Aturan tersebut dapat menemukan ekspresi temporal seperti “1 bulan ke

depan”,”23 tahun mendatang”, “10tahun lalu”, dan sebagainya.

Normalisasi Ekspresi Temporal

(16)

6

Implementasi Program

Temporal entity tagging dokumen Bahasa Indonesia diimplementasikan ke dalam program berbasis web, yang ditulis menggunakan bahasa pemrograman PHP dan database MySQL. Sebagai input, file dalam bentuk XML dimasukkan ke program, kemudian dilakukan proses tagging hingga dihasilkan output berupa

file XML yang ekspresi temporalnya sudah ditandai dengan tag DATE beserta dengan nilai temporal dari ekspresi tersebut. Sebagai contoh: “[DATE

VALUE1=”2002/12/10”]Selasa (10/12/2002)[/DATE]”. Alur kerja proses

tagging temporal dapat dilihat pada Gambar 2.

Proses tagging dilakukan terhadap satu per satu dokumen. Tanggal terbit setiap dokumen didapatkan dari tag PUBLISHED. Dokumen yang tidak memiliki tanggal terbit diberikan nilai default yaitu current date darisistem. Setelah tanggal terbit didapatkan, proses berikutnya adalah melakukan pemotongan terhadap isi dokumen dalam tag CONTENT menjadi rangkaian kalimat dengan cara memotong teks ketika menemukan tanda titik diikuti dengan spasi. Hal ini dilakukan untuk mempermudah proses tagging dan meringankan kerja komputer karena tidak semua isi dokumen perlu disimpan dalam memori.

(17)

7 Dalam sebuah kalimat dapat ditemukan satu atau lebih ekspresi temporal. Ekspresi-ekspresi yang ditemukan dimasukkan dalam sebuah array. Tagging

akan dilakukan terhadap kalimat tersebut sebanyak jumlah ekspresi temporal yang terdapat di dalamnya. Contoh kalimat dengan ekspresi temporal yang ditemukan oleh aturan dan hasil akhir setelah dilakukan proses tagging terlihat seperti Gambar 3 dan contoh dokumen temporal hasil tagging dapat dilihat pada Lampiran 2.

Secara serial semua aturan diaplikasikan, dimulai dari aturan temporal bersifat eksplisit, aturan implisit, dan terakhir aturan nama kejadian (menggunakan kamus). Ada kalanya satu ekspresi temporal dikenali oleh dua atau lebih aturan sehingga validasi perlu dilakukan untuk menghindari redundansi

tagging. Validasi dilakukan dengan menyimpan offset-offset yang sudah ditandai sehingga sebelum melakukan tagging terhadap sebuah ekspresi temporal yang ditemukan, terlebih dahulu dilakukan pemeriksaan ke dalam daftar dari offset

-offset tersebut. Algoritme pengimplementasian aturan terhadap kalimat seperti pada algoritme berikut.

foreach (rule = eksplisit)

exps = preg_match_all(rule,kal) foreach (exp in exps)

kal = tagging(exp) endloop

endloop

foreach(rule = implisit)

exps = preg_match_all(rule,kal) foreach (exp in exps)

kal = tagging(refdate,exp) endloop

endloop

foreach (rule = dictionary)

exps = preg_match_all(rule,kal) foreach (exp in exps)

kal = tagging (exp) endloop

endloop

Gambar 3 Contoh kalimat dengan ekspresi temporal

Kalimat Awal:

“Mentan Anton Apriyantono akan menghadiri acara hari

pangan sedunia XXVIII tingkat nasional tahun 2008, Rabu 3

Desember 2008”

Hasil pengenalan dari aturan:

Array (

[0] => 2008

[1] => Rabu, 3 Desember 2008 )

Kalimat hasil tagging: “Mentan Anton Apriyantono akan

menghadiri acara hari pangan sedunia XXVIII tingkat nasional

tahun [DATE VALUE1=”2008/01/01”

(18)

8

Evaluasi Berdasarkan Aturan

Pada penelitian ini evaluasi dilakukan dengan membandingkan hasil tagging

yang dilakukan secara manual terhadap 100 dokumen awal dengan hasil tagging

oleh sistem. Secara manual dan setelah dinormalisasi ditemukan 341 ekspresi temporal. Dengan 40 buah aturan yang diimplementasikan sebagai mesin pengenal dalam sistem temporal entity tagging ini, dapat menemukan sebanyak 341 ekspresi temporal. Ekspresi tersebut terdiri atas 150 ekspresi temporal eksplisit, 155 ekspresi temporal implisit, dan 36 ekspresi temporal nama kejadian. Melihat hasil yang didapatkan oleh sistem, sistem ini sudah bekerja dengan akurasi sebesar 100% untuk 100 dokumen pengujian dan sekaligus sebagai dokumen latih. Namun, hasil tersebut belum mencakup keseluruhan ekspresi-ekspresi temporal yang ada dalam dokumen bahasa Indonesia. Untuk itu, dilakukan juga pengujian terhadap 34 dokumen lain di luar dokumen latih dan hasilnya dapat dilihat dalam Tabel 1.

Tabel 1 Hasil pengenalan ekspresi temporal untuk 34 dokumen lain di luar dokumen latih

Keterangan Jumlah

Jumlah ekspresi temporal yang benar dikenali 122 Jumlah ekspresi temporal yang salah dikenali 2 Jumlah ekspresi temporal yang salah nilai temporalnya 2 Jumlah ekspresi temporal yang tidak dikenali 5 Dari Tabel 1, total ekspresi temporal seharusnya adalah sejumlah 129 yaitu total ekspresi temporal yang dikenali (126) ditambah dengan jumlah ekspresi temporal yang tidak dikenali (5) dikurang jumlah ekspresi yang bukan ekspresi temporal tetapi dikenali sebagai ekspresi temporal (2). Dengan melihat hasil yang benar (122) yaitu total ekspresi temporal yang dikenali (126) dikurang jumlah ekspresi temporal yang salah dalam pemberian nilai (2) dan jumlah ekspresi temporal yang salah ditandai (2), sistem telah mampu bekerja dengan akurasi sebesar 94.57%. Lima buah ekspresi temporal tidak dapat dikenali karena sistem belum mempunyai aturan yang cocok dengan ekspresi tersebut. Ekspresi yang tidak dikenali adalah “triwulan pertama” (dua buah ekspresi), “selang beberapa

saat kemudian”,“selama berminggu-minggu”, dan “beberapa tahun terakhir”. Ada beberapa kekurangan dan keterbatasan dari sistem antara lain ketika menemukan ekspresi dengan makna ganda (ambigu). Salah satu contoh adalah ekspresi “Minggu depan” yang muncul di awal kalimat dalam dokumen dengan tanggal terbit Selasa, 18 April 2000 dapat diartikan sebagai hari Minggu berikutnya (Minggu, 23 April 2000), hari Selasa pekan depan (Selasa, 25 April 2000) atau satu pekan berikutnya (Minggu, 23 April 2000 hingga Sabtu, 29 April 2000), dengan asumsi hari pertama dalam satu pekan adalah hari Minggu. Saat ini, sistem hanya dapat membedakan berdasarkan huruf awal frasa. Jika diawali dengan huruf kapital (“Minggu depan”), sistem akan memberikan nilai tunggal temporal hari Minggu pada pekan berikutnya. Jika tidak, maka nilai yang diberikan adalah durasi temporal satu pekan ke depan.

(19)

9 temporal sebelumnya. Hal ini memungkinkan sistem melakukan kesalahan pengenalan ekspresi temporal. Sebagai contoh, sistem mengenali angka 1520 sebagai ekspresi temporal pada kalimat “Tahun 2012 lalu KPK menerima 1520 laporan”. Sistem mengenali ekspresi 1520 sebagai ekspresi tahun karena aturan yang ada mengenal setiap angka dengan panjang empat karakter dan angka pertama dimulai dengan angka 1 atau 2 sebagai ekspresi temporal tahun. Sistem tidak dapat mengetahui konteks atau maksud kalimat secara keseluruhan.

Evaluasi Kinerja Sistem

Dengan total 1 555 kalimat dalam 100 dokumen pengujian dibutuhkan rata-rata waktu tagging sebesar 6.53 detik (10 kali percobaan). Waktu rata-rata digunakan karena setiap tagging mempunyai waktu yang berbeda, tergantung pada beban kerja komputer pada saat dilakukan pengukuran. Waktu tercepat yang pernah dicatat adalah 6.04 detik sementara waktu terlama 7.05 detik.

Jumlah kalimat digunakan sebagai variabel dalam melakukan evaluasi karena setiap kalimat dalam dokumen akan dicobakan terhadap semua aturan yang ada secara bergantian. Dengan demikian, jumlah kalimat dan jumlah aturan menjadi faktor yang paling mempengaruhi besar kecilnya waktu yang dibutuhkan dalam proses tagging. Dari evaluasi yang dilakukan, jumlah kalimat mempengaruhi waktu tagging secara linear (lihat Gambar 4).

Gambar 4 Perbandingan jumlah kalimat dengan waktu tagging

SIMPULAN DAN SARAN

Simpulan

(20)

10

yang digunakan dalam penelitian ini adalah metode secara serial, yaitu dari satu pengenalan temporal entity kemudian dilanjutkan dengan pengenalan temporal entity lainya. Adapun bentuk pengenalan yang dilakukan dikelompokkan menjadi tiga bagian yaitu pengenalan ekspresi eksplisit, implisit, dan nama kejadian. Untuk pengenalan temporal entity dokumen bahasa Indonesia, temporal entity tagging berbasis aturan sudah cukup baik. Sistem temporal entity tagging ini belum mampu menangani ekspresi dengan makna ambigu, kesalahan pengenalan ekspresi temporal, dan kesalahan pemberian nilai ekspresi temporal.

Saran

Untuk pengembangan dari penelitian ini disarankan untuk melakukan hal-hal sebagai berikut:

1 Menambah dokumen pengujian, dengan demikian akan semakin banyak aturan yang ditemukan sehingga kemampuan sistem dalam pengenalam

temporal entity dapat meningkat.

2 Menambahkan aturan, melakukan validasi, atau melakukan temporal entity tagging dengan metode yang lain untuk mengatasi masalah ambiguitas dan kesalahan penandaan yang menjadi kelemahan dalam penelitian ini.

DAFTAR PUSTAKA

Chang A, Manning C. 2012. SUTime: A library for recognizing and normalizing time expressions. Di dalam: Proceedings of the Eight International Conference on Language Resources and Evaluation [Internet]; 2012 Mei 23-25; Istanbul (TR). European Language Resources Association (ELRA). hlm 45-60; [diunduh 2012 Agu 8]. Tersedia pada: http:// nlp.stanford.edu/pubs/lrec2012-sutime.pdf

Citraningputra P. 2010. Named entity tagging untuk dokumen berbahasa Indonesia menggunakan metode berbasis aturan [skripsi]. Bogor (ID): Institut Pertanian Bogor.

Darliansyah A. 2012. Temporal question answering system bahasa indonesia [skripsi]. Bogor (ID): Institut Pertanian Bogor.

Friedl J. 2006. Mastering Regular Expresion. Sebastopol (US): O’Reilly.

Srihari R, Niu C, Li W, Ding J. 2003. A case restoration approach for named entity tagging in degraded documents. Di dalam: Proceedings of the Seventh International Conference on Document Analysis and Recognition [Internet]; 2003 Agu 3-6. Washington DC (US). IEEE Computer Society. hlm 720-724;

[diunduh 2012 Agu 8]. Tersedia pada:

(21)

11 Lampiran 1 Dokumen non-temporal

<document id="6">

<docno>republika161109-1107.txt</docno> <author>republika</author>

<title>Menteri Pertanian Resmikan Festival Buah-buahan Tropis</title> <published>Senin, 16 November 2009 pukul 11:07:00</published> <content>

JAKARTA-- [ORGANIZATION]Menteri Pertanian[/ORGANIZATION] (Mentan), [NAME]Suswono[/NAME], meresmikan acara Promosi Pengembangan Pekan Buah Tropika [LOCATION]Indonesia[/LOCATION], Tropical Fruit Festival [DATE]2009[/DATE] , [DATE]Sabtu (14/11)[/DATE] di [LOCATION]Jakarta[/LOCATION] .

Acara yang digagas oleh [ORGANIZATION]Departemen Pertanian[/ORGANIZATION] bekerja sama dengan [ORGANIZATION]PT Carrefour Indonesia[/ORGANIZATION] dan [ORGANIZATION]PT Danone Aqua[/ORGANIZATION], memang tak lepas dari bukti bahwa buah lokal [LOCATION]Indonesia[/LOCATION] memiliki potensi besar baik di dalam negeri maupun mancanegara.

''Kami sangat mendukung kegiatan positif yang dilakukan pada pameran ini,'' ujar [NAME]Suswono[/NAME]. Menteri berharap pameran ini bisa menjadi pembelajaran bagi para petani buah lokal untuk memasuki pasar jaringan internasional, yang tentunya mempunyai tuntutan lebih dalam kualitas, jaminan pasokan, serta distribusi.

Presiden Direktur [ORGANIZATION]PT Carrefour

Indonesia[/ORGANIZATION], [NAME]Shafie Shamsuddin[/NAME], menyatakan, buah lokal sangat berpotensi, namun masih kurang optimal karena berbagai kendala. ''Kami melihat potensi buah lokal sangat besar, namun exposure -nya kurang optimal. Ini karena ada kendala jaminan pasokan, konsistensi kualitas, ataupun kesulitan distribusi,'' ujarnya.

(22)

12

Lampiran 2 Dokumen temporal hasil tagging

<document id="6">

<docno>republika161109-1107.txt</docno> <author>republika</author>

<title>Menteri Pertanian Resmikan Festival Buah-buahan Tropis</title> <published>Senin, 16 November 2009 pukul 11:07:00</published> <content>JAKARTA-[ORGANIZATION]Menteri

Pertanian[/ORGANIZATION] (Mentan), [NAME]Suswono[/NAME], meresmikan acara Promosi Pengembangan Pekan Buah Tropika [LOCATION]Indonesia[/LOCATION], Tropical Fruit Festival[DATE VALUE1="2009/01/01" VALUE2="2009/12/31"]2009[/DATE] , [DATE VALUE1="2009/11/14"]Sabtu(14/11)[/DATE] di [LOCATION]Jakarta[/LOCATION] . Acara yang digagas oleh [ORGANIZATION]Departemen Pertanian[/ORGANIZATION] bekerja sama dengan [ORGANIZATION]PT Carrefour Indonesia[/ORGANIZATION] dan [ORGANIZATION]PT Danone Aqua[/ORGANIZATION], memang tak lepas dari bukti bahwa buah lokal [LOCATION]Indonesia[/LOCATION] memiliki potensi besar baik di dalam negeri maupun mancanegara. ''Kami sangat mendukung kegiatan positif yang dilakukan pada pameran ini,'' ujar [NAME]Suswono[/NAME]. Menteri berharap pameran ini bisa menjadi pembelajaran bagi para petani buah lokal untuk memasuki pasar jaringan internasional, yang tentunya mempunyai tuntutan lebih dalam kualitas, jaminan pasokan, serta distribusi. Presiden Direktur [ORGANIZATION]PT Carrefour Indonesia[/ORGANIZATION], [NAME]Shafie Shamsuddin[/NAME], menyatakan, buah lokal sangat berpotensi, namun masih kurang optimal karena berbagai kendala. ''Kami melihat potensi buah lokal sangat besar, namun exposure -nya kurang optimal. Ini karena ada kendala jaminan pasokan, konsistensi kualitas, ataupun kesulitan distribusi,'' ujarnya.

(23)

13 Lampiran 3 Aturan temporal eksplisit

No Aturan ekspresi reguler

Keterangan (contoh

2])(\s{1}|\/|-)(\d{4}|\d{2})) (dd/mm/yyyy)

(24)

14

Lampiran 3 Lanjutan

No Aturan ekspresi reguler

Keterangan (contoh

empat)\s{1}([1-2][0-9][0-9][0-9])) kuartal (pertama|kedua|ketiga|k

eempat) yyyy 12

(\s{1}([1-2][0-9][0-9][0-9])[-]([1-2][0-9][0-9][0-9])) yyyy-yyyy

13 (\s{1}([1-2][0-9][0-9][0-9])[-|]an) yyyy-an

(25)

15 Lampiran 4 Aturan temporal implisit

No Aturan ekspresi reguler

(26)

16

Lampiran 4 Lanjutan

No Aturan ekspresi reguler

Keterangan (contoh

8 ((?i)hari ini|(?i)pagi harinya) Hari ini, pagi harinya

9 ((akhir)\s{1}(bulan)\s{1}(ini)) akhir bulan ini

10 (\s{1}(?i)lusa\s{1}) lusa

12 (((?i)minggu|pekan|bulan|tahun)\s{1}((?i)lalu|ini|depan)) minggu|bulan|tahun + lalu|ini|depan

14 ((akhir)\s{1}(tahun)(\s{1}(ini))*) akhir tahun (ini)

15 ((?i)besok) besok

19 (((?i)senin|selasa|rabu|kamis|jumat|jum'at|sabtu)\s{1}(lalu|kemarin|depan)) Hari (depan | lalu) 20 ((?i)kemarin(\s(sore|pagi|siang))*|semalam|tadi malam) kemarin|semalam|tadi

(27)

17 Lampiran 4 Lanjutan

No Aturan ekspresi reguler

Keterangan (contoh format ekspresi temporal yang dikenali) 21

((setelah)\s{1}(selama)\s{1}(\d{1}|\d{ 2}|\d{3}|\d{4})\s{1}(hari|minggu|pekan |bulan|tahun))

setelah selama 00 (hari|minggu|pekan|bula n|tahun)

22 ((Senin|Selasa|Rabu|Kamis|Jumat|Jum'at|Sabtu|Minggu)) Hari 23

((?i)(abad)\s{1}(ke)[-](\d{1}|\d{2})\s{1}(masehi)*) abad ke-[num] masehi

24 (\((3[0-1]|2[0-9]|1[0-9]|0[1-9]|[1-9])(\/)([0]?[1-9]|0[1-9]|1[0-2])\)) dd/MM

Lampiran 5 Aturan temporal nama kejadian

No Aturan ekspresi reguler

Keterangan (contoh format ekspresi temporal yang dikenali)

1 ((^|\s{1})SEA Games XXVI(\s{1}|$)) SEA Games XXVI

(28)

18

RIWAYAT HIDUP

Gambar

Gambar 2  Alur program temporal entity tagging

Referensi

Dokumen terkait

yang menunjukkan bahwa dia adalah pribadi yang berani, pribadi yang menjelaskan kompetensi diri yang dimilikinya, melalui foto/video yang dimasukan oleh mimi peri pada

Demam tifoid dan demam paratifoid adalah penyakit infeksi akut usus halus yang disebabkan kuman Salmonella typhi dengan gejala demam lebih dari satu minggu, gangguan pada

Jika dilihat dari kepemilikan potensi dan kemampuan mengelola potensi yang ada, Desa Pattallikang suatu daerah dapat dikategorikan memiliki potensi dan kemampuan

Penelitian yang berkaitan dengan ang- garan yang berbasis kinerja telah banyak dilakukan antara lain Ritongan (2008) hasil- nya menunjukkan bahwa budaya paterna- listik

Pada hutan alam campuran diameter pohon inti ditetapkan menjadi 20 cm keatas dengan jumlah pohon inti 25 batang per ha (tidak 40 batang per ha lagi seperti Tabel 1

Pada kenyataannya pondok pesantren dengan fungsinya sebagai lembaga pendidikan Islam juga berfungsi sebagai tempat penyiaran agama Islam di mana para santri (santriwati/

Berdasarkan dari tabel di atas dapat diambil kesimpulan bahwa variabel independen itu mempunyai pengaruh yang signifikan terhadap variabel dependen dalam hal ini