Question Answering System Menggunakan N-Gram Term Weight Model

(1)

QUESTION ANSWERING

S

YSTEM

MENGGUNAKAN

N-GRAM

TERM WEIGHT MODEL

DEBBY PUSPA BAHRI

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(2)

QUESTION ANSWERING

S

YSTEM

MENGGUNAKAN

N-GRAM

TERM WEIGHT MODEL

DEBBY PUSPA BAHRI

Skripsi

sebagai salah satu syarat untuk memperoleh gelar

Sarjana Komputer pada

Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(3)

i

ABSTRACT

DEBBY PUSPA BAHRI. Question Answering System Using N-Gram Term Weight Model. Supervised by SONY HARTONO WIJAYA.

Currently, search engine has been widely developed having question query feature known as the query answering system. The information provided by the system must fit a specific user requirement. This research will apply the passage selection method using n-gram term weighting model. The evaluation of the method is measured based on the set of questions and documents, and the accuracy for each answer. One thousand documents and 40 queries are used in this research. The result of the research indicates the accuracy for WHO questions is 90%, for WHEN questions is 80%, for WHERE questions is 80%, and for HOW MUCH/MANY questions is 40%.

Keywords: N-Gram, N-Gram Term Weight Model, QAS, Question Answering

(4)

vi Judul Skripsi : Question Answering System Menggunakan N-GramTerm Weight Model

Nama : Debby Puspa Bahri

NRP : G64096017

Menyetujui:

Pembimbing,

Sony Hartono Wijaya S.Kom., M.Kom NIP 198108092008121002

Mengetahui

Ketua Departemen Ilmu Komputer,

Dr. Ir. Agus Buono M.Si., M.Kom NIP 196607021993021001

(5)

vi

PRAKATA

Puji dan syukur penulis panjatkan ke hadirat Allah subhanahuwata’ala atas segala curahan rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan skripsi yang berjudul Question Answering System Menggunakan N-GramTerm Weight Model.

Penulis sadar bahwa tugas akhir ini tidak akan terselesaikan tanpa bantuan dari berbagai pihak. Pada kesempatan ini, penulis ingin mengucapkan terima kasih kepada:

1 Orang tua tercinta Bapak Syamsul Bahri dan Ibu Darmini Piliang atas segala doa, dukungan, dan kasih sayang yang tiada henti.

2 Bapak Sony Hartono Wijaya SKom MKom selaku dosen pembimbing tugas akhir. Terima kasih atas kesabaran dan dukungan dalam penyelesaian tugas akhir ini.

3 BapakFirman Ardiansyah SKom MSi dan Ahmad Ridha SKom MS selaku dosen penguji, Dr Ir Agus Buono MSi MKom selaku Ketua Departemen Ilmu Komputer IPB serta seluruh dosen dan staf Departemen Ilmu Komputer FMIPA IPB.

4 Mochammad Sudharmono atas segala bantuan, dukungan, dan doa.

5 Sahabat-sahabatku Mameto, Nina Maria, Anisah, Canma, Ai, dan seluruh teman-teman Ilmu Komputer angkatan IV. Terima kasih atas semangat dan kebersamaan selama penyelesaian tugas akhir ini.

6 Seluruh pihak yang turut membantu baik secara langsung maupun tidak langsung dalam pelaksanaan tugas akhir.

Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat banyak kekurangan dan kelemahan dalam berbagai hal karena keterbatasan kemampuan penulis. Penulis berharap adanya masukan berupa saran dan kritik yang bersifat membangun dari pembaca demi kesempurnaan tugas akhir ini. Semoga tugas akhir ini bermanfaat.

Bogor, Juli 2013

Debby Puspa Bahri

(6)

vi

RIWAYAT HIDUP

Penulis dilahirkan di Kabanjahe pada tanggal 24 Agustus 1985. Penulis merupakan anak keenam dari enam bersaudara dari pasangan Bapak Syamsul Bahri dan Ibu Darmini Piliang. Penulis lulus dari SMU Negeri 1 Kabanjahe pada tahun 2003. Setahun kemudian, penulis melanjutkan pendidikannya di D3 Teknik Informatika, Departemen Ilmu Komputer, Institut Pertanian Bogor melalui program reguler. Tahun 2007 penulis lulus dari D3 Institut Pertanian Bogor. Penulis pernah melakukan praktik lapang di Biro Perencanaan dan Umum, Badan Koordinasi Survei dan Pemetaan Nasional (Bakosurtanal) dengan topik Sistem Informasi.

Pada tahun 2008 sampai 2011, penulis bekerja di sebuah perusahaan asing PT ExsaMap Asia sebagai 3D EditTechnician, Quality Control 3D Edit Technician, dan3D Road Technician. Pada tahun 2009, penulis melanjutkan pendidikan di Program Sarjana Alih Jenis Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

(7)

vi

DAFTAR ISI

Halaman

DAFTAR TABEL ... vi

DAFTAR GAMBAR ... vi

DAFTAR LAMPIRAN ... vi

PENDAHULUAN ... 1

Latar Belakang ... 1

Tujuan Penelitian ... 1

Ruang Lingkup ... 1

TINJAUAN PUSTAKA ... 1

Temu Kembali Informasi ... 1

Question Answering System ... 2

Pembobotan ... 2

Metode N-gram ... 2

Passage N-Gram Term Weight Model ... 3

METODE PENELITIAN ... 3

Pemrosesan Offline ... 3

Pemrosesan Online ... 4

Evaluasi Hasil Percobaan... 5

Lingkungan Pengembangan ... 5

HASIL DAN PEMBAHASAN ... 5

Koleksi Dokumen Pengujian... 5

Pemrosesan Dokumen ... 6

Indexing ... 6

Perhitungan tf-idf ... 6

Pembentukan Passages ... 6

Pemrosesan Query ... 6

Perolehan Dokumen Teratas ... 7

Perolehan Passages Top Documents ... 7

Ekstraksi dan Pembobotan N-gram pada Query ... 7

Pembobotan Passage ... 7

Ekstraksi Jawaban ... 7

Evaluasi Hasil Percobaan... 7

Hasil Percobaan Untuk Kata Tanya SIAPA ... 8

Hasil Percobaan Untuk Kata Tanya KAPAN ... 8

Hasil Percobaan Untuk Kata Tanya DI MANA ... 9

Hasil Percobaan Untuk Kata Tanya BERAPA ... 9

Hasil Percobaan Keseluruhan Kata Tanya Menggunakan Lima Dokumen Teratas ... 9

KESIMPULAN DAN SARAN ... 10

Kesimpulan ... 10

Saran ... 10

DAFTAR PUSTAKA ... 10

LAMPIRAN ... 12

(8)

vi

DAFTAR TABEL

Halaman

1 Ilustrasi matriks invertedindex ... 2

2 Rangkaian hasil n-gram ... 3

3 Daftar pasangan kata tanya dan namedentity ... 7

4 Perolehan bobot query n-gram ... 7

DAFTAR GAMBAR

Halaman 1 Kedekatan dokumen dalam ruang vektor (Manning 2008). ... 2

2 Alur pemrosesan offline... 3

3 Alur pemrosesan online. ... 4

4 Grafik hasil percobaan untuk kata tanya SIAPA... 8

5 Grafik hasil percobaan untuk kata tanya KAPAN. ... 8

6 Grafik hasil percobaan untuk kata tanya DI MANA. ... 9

7 Grafik hasil percobaan untuk kata tanya BERAPA... 9

8 Grafik hasil percobaan untuk semua kata tanya. ... 10

DAFTAR LAMPIRAN

Halaman 1 Antarmuka implementasi ... 13

2 Hasil percobaan untuk kata tanya „SIAPA‟ ... 14

3 Hasil percobaan untuk kata tanya „KAPAN‟ ... 15

4 Hasil percobaan untuk kata tanya „DIMANA‟ ... 16

(9)

PENDAHULUAN

Latar Belakang

Information Retrieval System (Sistem Temu Kembali Informasi) memiliki kaitan yang sangat erat dengan search engine (sistem pencarian). Saat ini sudah banyak dikembangkan search engine yang memiliki fitur query berupa pertanyaan atau yang sering dikenal dengan Question Answering System

misalnya www.ask.com. Pengguna memasukkan query berupa pertanyaan, bukan berupa kata atau kalimat saja. Informasi yang diperoleh pengguna diharapkan selain relevan juga lebih spesifik sesuai kebutuhan pengguna.

Penelitian tentang Question Answering System dalam perkembangannya sudah diimplementasikan oleh Ballesteros dan Xiaoyan-Li (2007) berupa Question Answering yang digunakan untuk bahasa Inggris dan Mandarin. Penelitian tersebut menggunakan pembobotan heuristic dan

syntactic untuk mengidentifikasi kandidat kalimat yang relevan. Cidhy (2009) mengimplementasikan penggunaan pembobotan heuristic yang dilakukan Ballesteros dan Xiaoyan-Li (2007) ke dalam dokumen berbahasa Indonesia.

Pada umumnya, passage retrieval hanya mengambil kata kunci utama pada pertanyaan dengan menghilangkan stopwords,sedangkan pada N-gram Term Weight Model, pengembalian passage berdasarkan pencarian struktur pertanyaan tanpa menghilangkan

stopwords pada query yang diberikan, tetapi memberikan bobot terkecil pada stopwords

tersebut, yaitu sebesar 0.001 (Buscaldi et al.

2009).

Penelitian tentang Question Answering System yang menggunakan pembobotan n-gram dalam pemilihan passage telah diimplementasikan Buscaldi et al. (2009). Penelitian tersebut membahas mengenai

Question Answering System berdasarkan redudansi dan metode Passage Retrieval.

Penelitian terkait mengenai n-gram juga telah dilakukan oleh Najibullah (2011). Penelitian ini membahas pencarian teks dalam berbahasa Arab dengan memanfaatkan metode n-gram untuk pengambilan kata dasarnya.

Metode n-gram juga telah digunakan dalam penelitian Rahmawan (2012). Proses n-gram pada penelitian Rahmawan ialah dengan menghitung skor tiap passage dan menjumlahkan semua kemungkinan x-gram

yang cocok dengan query pertanyaan.

Penelitian ini akan menerapkan pemilihan

passage menggunakan metode N-gram Term Weight Model pada Question Answering System dan menjadi acuan untuk penelitian berikutnya.

Tujuan Penelitian

Penelitian ini bertujuan:

1 Menerapkan pemilihan passage dengan menggunakan metode N-gram Term Weight Model pada Question Answering System.

2 Melakukan evaluasi terhadap Question Answering System yang menggunakan N-gram Term Weight Model.

Ruang Lingkup

Ruang lingkup dalam penelitian ini ialah:

1 Korpus terdiri atas kumpulan dokumen berbahasa Indonesia dengan struktur tag

XML diambil dari Laboratorium Temu Kembali Informasi, Departemen Ilmu Komputer IPB.

2 Menggunakan kata tanya siapa, kapan, di mana, dan berapa.

3 Query pertanyaan yang dimasukkan dibatasi pada tipe factoid question, yaitu pertanyaan yang memiliki jawaban tunggal.

4 Query berkaitan dengan koleksi dokumen. 5 Metode N-gram Term Weight Model

diimplementasikan pada query dan

passage.

6 Pasangan pertanyaan diambil dari query

uji pada penelitian Sanur (2011).

7 Pembobotan dan pemilihan kandidat jawaban pada ekstraksi jawaban mengikuti penelitian Sanur (2011).

8 Hasil dari penelitian dievaluasi menggunakan persepsi manusia.

TINJAUAN PUSTAKA

Temu Kembali Informasi

Temu kembali informasi berkaitan dengan merepresentasikan, menyimpan, meng-organisasi, dan mengakses informasi. Representasi dan organisasi suatu informasi harus membuat pengguna lebih mudah dalam mengakses informasi yang diinginkannya. Dalam pencarian informasi, pengguna harus menerjemahkan kebutuhan informasinya dalam bentuk query. Berdasarkan query

(10)

Question Answering System

Question Answering System adalah sebuah sistem yang memungkinkan penggunauntuk bertanya dalam bahasa alami (natural language) pada koleksi dokumen yang tidak terstruktur dalam rangka mendapatkan jawaban yang diinginkan. Question Answering System merupakan kombinasi antara

Information Retrieval (IR) dan Natural Language Processing (NLP). Question Answering System memiliki tujuan menampilkan jawaban berdasarkan query

dalam bentuk pertanyaan yang diajukan oleh pengguna. Perbedaan yang mendasar antara

Question Answering dengan IR terletak pada masukan (query) dan keluaran yang dihasilkan.

Pada IR, query yang dimasukkan berupa kata atau kalimat pertanyaan dan keluaran yang dihasilkan ialah dokumen yang dianggap relevan oleh sistem, sedangkan pada Question Answering System, query berupa kalimat tanya dan keluarannya berupa jawaban (entitas) yang dianggap sesuai oleh sistem sehingga memungkinkan sistem tidak mengembalikan jawaban apapun.

Pembobotan

Information Retrieval pada dasarnya adalah pembandingan kata yang ada pada

query dengan kata yang ada pada dokumen. Perolehan kata tertentu dalam dokumen yang mengandung informasi yang berkaitan dengan

query, dilakukan dengan cara menghitung kesamaan antara vektor dokumen dan vektor

query. Informasi yang diperlukan adalah term frequency (tf), document frequency (df), dan

invers document frequency (idf).

Nilai tf menggambarkan frekuensi kemunculan suatu kata t dalam dokumen d, yang dilambangkan dengan tft,d. Nilai df

menggambarkan banyaknya dokumen di dalam koleksi yang mengandung kata tertentu. Nilai idf merupakan pembagian nilai dft dengan total dokumen yang ada dalam koleksi menghasilkan nilai idf untuk setiap kata sebagai berikut:

lo

N merupakan notasi untuk jumlah dokumen yang ada dalam koleksi. Melalui idf, dapat diketahui kata-kata tertentu yang merupakan penciri suatu dokumen. Dengan demikian, bobot untuk masing-masing kata dalam dokumen dapat diperoleh, yaitu wt,d

yang merupakan hasil perkalian antara tft,d dan

idft.

Tabel 1 menunjukkan ilustrasi matriks

inverted index, yang berisi bobot setiap kata t

dalam suatu dokumen d.

Tabel 1 Ilustrasi matriks invertedindex

d1 d2 … d3

t1 Wt1d1 Wt1d2 … Wt1dn

t2 Wt2d1 Wt2d2 … Wt2dn

… … … … …

t3 Wtkd1 Wtkd2 … Wtkdn

Ide untuk mengukur kesamaan dokumen dengan menggunakan kesamaan cosine adalah dokumen yang saling berdekatan dalam ruang vektor memiliki kecenderungan berisi informasi yang sama. Gambar 1 mengilustrasikan vektor dokumen yang terdapat dalam ruang vektor, yang diberi nilai oleh bobot kata.

Gambar 1 Kedekatan dokumen dalam ruang vektor (Manning et al. 2008).

Formula untuk memperoleh kesamaan

cosine untuk dj dan dk adalah:

sim _| _|| _|

Berdasarkan formula kesamaan cosine, dj dan dk adalah dokumen yang terdapat dalam ruang vektor M kata, dan M merupakan vektor bobot tiap dokumen. Dalam implementasi perolehan n dokumen teratas, hal serupa dilakukan untuk mengukur kesamaan antara vektor query dan dokumen. Dokumen diurutkan berdasarkan perolehan nilai cosine

dengan query. Kemudian dipilih n dokumen teratas dengan nilai cosine tertinggi.

Metode N-gram

(11)

diaplikasikan berupa kata. Metode n-gram ini digunakan untuk mengambil potongan kata sejumlah n dari sebuah kalimat yang secara kontinu dibaca dari teks awal hingga akhir dari dokumen. Tujuan utama dibalik pendekatan ini ialah menentukan kata-kata yang mirip dengan rangkaian n-gram secara umum (Majumder et al. 2002).

Seba ai contoh, “pen olahan sa u skala

industri berkemban ” menghasilkan rangkaian

n-gram yang dapat dilihat pada Tabel 2.

Tabel 2 Rangkaian hasil n-gram

N n-gram word(s) 2 pengolahan sagu 2 sagu skala 2 skala industri 2 industri berkembang 3 pengolahan sagu skala 3 sagu skala industri 3 skala industri berkembang 4 pengolahan sagu skala industri 4 sagu skala industri berkembang

5 pengolahan sagu skala industri berkembang

Passage N-Gram Term Weight Model

Kebanyakan dari sistem passage retrieval

terbaru tidak berorientasi pada masalah spesifik question answering karena question answering hanya mempertimbangkan kata kunci pertanyaan untuk mendapatkan bagian yang relevan, yaitu bagian yang memiliki jawaban yang benar.

Pada penelitian ini, passage akan digolongkan berdasarkan n-gram. Struktur n-gram dari setiap passage diekstraksi oleh fungsi ekstraksi n-gram. Hanya n-gram yang mengandung query yang diekstraksi.

Bobot dari tiap passage dihitung berdasarkan kesamaan antara query dan

passage n-gram term weight model. Nilai

similarity dari passage dengan query ialah lebih besar jika passage berbagi struktur n-gram lebih panjang dengan pertanyaan. Semakin besar nilai similarity, semakin tinggi

passage yang diperingkatkan oleh sistem. Berdasarkan penelitian Buscaldi et al. (2009), bagian penting dalam fungsi term

pada n-gram term weight model ada dua, yaitu:

1 Bobot dari term dari pertanyaan atau query

yang ditentukan oleh rumus:

w -_lolo n (1)

dengan nk adalah jumlah kalimat yang memiliki term K dan N adalah jumlah kalimat yang terdapat pada koleksi dokumen.

2 Fungsi h(x) mengukur bobot dari tiap n-gram dan didefinisikan sebagai:

h ∑w Penelitian ini dilakukan dalam tiga tahap, yaitu pemrosesan offline, pemrosesan online, dan evaluasi hasil percobaan.

Pemrosesan Offline

Pemrosesan offline terdiri atas tahap pengumpulan dokumen, praproses dokumen,

indexing dokumen, dan pembentukan

passages. Pemrosesan ini dilakukan untuk mendapatkan nilai tf-idf dan passage yang akan digunakan pada pemrosesan online. Hal ini dimaksudkan agar pemrosesan secara

online dapat dilakukan lebih cepat. Alur pemrosesan offline dapat dilihat pada Gambar 2.

Indexing

Praproses Dokumen

Pembentukan Passages Documents

Gambar 2 Alur pemrosesan offline.

Tahapan pemrosesan secara offline ialah:

1 Pengumpulan Dokumen

Koleksi dokumen uji dan daftar stopwords

diambil dari Laboratorium Temu Kembali Informasi, Departemen Ilmu Komputer IPB.

2 Praproses Dokumen

Pada tahap ini, dilakukan proses parsing

terhadap koleksi dokumen uji. Stopwords

pada koleksi dokumen uji tidak dihilangkan.

(12)

Proses indexing dokumen pada tahap ini menggunakan pembobotan tf-idf. Hasil

indexing berupa nilai idf dan tf-idf dari seluruh dokumen.

4 Pembentukan Passages

Sebelum passage dibentuk, terlebih dahulu dilakukan penamaan entitas pada koleksi dokumen pengujian. Penamaan entitas atau

tagging dilakukan secara otomatis menggunakan hasil penelitian dari Citrainingputra (2009). Entitas yang digunakan yaitu NAME, ORGANIZATION, DATE, LOCATION, NUMBER, dan CURRENCY. Pembentukan passage terdiri atas dua kalimat yang saling berdampingan.

Passage yang terbentuk akan digunakan pada pemrosesan secara online.

Pemrosesan Online

Alur pemrosesan online dapatdilihat pada Gambar 3.

Gambar 3 Alur pemrosesan online.

Tahapan pemrosesan secara online adalah:

1 InputQuery

Query berupa kalimat tanya yang diawali dengan kata tanya SIAPA, KAPAN, DI MANA, dan BERAPA.

2 Ekstraksi N-Gram dan Query N-Gram

Query yang dimasukkan akan dilakukan proses parsing terhadap kata tanya. Query

selain kata tanya kemudian diproses dengan menggunakan metode n-gram term weight model.

Pada tahap ini, dilakukan juga pemberian bobot terkecil pada stopwords sebesar 0.001 (Buscaldi et al. 2009). Hal ini dilakukan karena pada proses pembobotan n-gram, stopwords tidak dihilangkan untuk menjaga struktur dari query tersebut. Koleksi dokumen uji dan daftar stopwords diambil dari Laboratorium Temu Kembali Informasi, Departemen Ilmu Komputer IPB. Langkah selanjutnya ialah memberikan bobot per n-gram pada query yang diberikan. Pembobotan

n-gram pada query dihitung berdasarkan persamaan 1 dan 2.

3 Perolehan Lima Dokumen Teratas

Sistem akan mengembalikan lima dokumen teratas yang memiliki nilai kesamaan cosine tertinggi.

4 Passages

Kandidat passage diperoleh dari passages

yang terletak pada lima dokumen teratas.

5 N-Gram Comparison

Pada proses ini, akan dilakukan perhitungan terhadap nilai bobot kemiripan pada n-gram query dan n-gram passage yang dihasilkan oleh sistem. Passage yang diambil adalah passage yang memiliki nilai bobot kemiripan yang terbesar.

6 Ekstraksi N-Gram dan Passage N-Gram Term Weight Model

Perhitungan bobot pada passage terhadap

query akan dilakukan parsing terhadap

passage sesuai dengan jumlah n-gram pada

query. Mulai dari 1-gram hingga n-gram. Langkah selanjutnya ialah pembandingan antara kata pada query dan kata pada passage

yang dilakukan berdasarkan per n-gram

(1-gram query dibandingkan dengan 1-gram passage, dan seterusnya). Untuk tiap kesamaan kata yang diperoleh akan dijumlahkan nilai bobot per kata yang diperoleh pada bobot query sebelumnya yang ada pada passage sehingga masing-masing

passage akan memiliki bobot.

7 Re-ranked Passage

(13)

8 Ekstraksi Jawaban

Jawaban akhir diperoleh dengan menghitung jarak terdekat antara kandidat jawaban pada top passage dan kata-kata yang merupakan hasil pencocokkan dengan

keyword yang akan dihasilkan sebagai output.

Evaluasi Hasil Percobaan

Evaluasi Question Answering System

(QAS) ini dilakukan dengan melihat banyaknya kalimat jawaban yang ditemukembalikan dan banyaknya hasil yang bernilai benar maupun salah. Semakin banyak hasil yang benar, maka kinerja sistem semakin baik. Setiap query dapat memiliki satu atau lebih kandidat jawaban. Evaluasi dilakukan menurut persepsi manusia.

Pemberian nilai dilakukan berdasarkan empat kriteria, yaitu:

1 Wrong (W): jawaban tidak benar. 2 Right (R): jawaban dan dokumen benar. 3 Null: jawaban kosong karena tidak ada

kandidat jawaban yang memiliki format yang sesuai.

4 Unsupported: jawaban benar, tapi dokumen tidak mendukung.

Lingkungan Pengembangan

Perangkat keras notebook yang digunakan pada penelitian, yaitu:

1 Processor AMD X2 1.6 GHz. 2 RAM 2 GB.

3 Hard disk kapasitas 250 GB.

Perangkat lunak yang digunakan pada penelitian, yaitu:

1 Sistem operasi Windows 7 Ultimate. 2 Netbeans IDE 6.9

HASIL DAN PEMBAHASAN

Koleksi Dokumen Pengujian

Dokumen uji yang digunakan ialah dokumen berbahasa Indonesia yang telah tersedia di Laboratorium Temu Kembali Informasi, Departemen Ilmu Komputer IPB. Secara umum, dokumen diberi nama berdasarkan sumber data dan tanggal data diterbitkan dengan ditambahkan nomor urut pada akhir, seperti gatra011102.txt yang berarti data berasal dari majalah Gatra dan diterbitkan pada tanggal 01 januari bulan

November 2002. Masing-masing dokumen uji berekstensi teks (*.txt) dan struktur XML di dalamnya. Dokumen memiliki tag dengan fungsi yang berbeda-beda. Pada baris pertama terdapat tag <DOC> yang berfungsi membedakan satu dokumen dengan dokumen lainnya. Tag <DOCNO> menunjukkan nama dokumen, tag <TITLE> menunjukkan judul dari dokumen, tag <AUTHOR> menunjukkan penulis dari dokumen dan tag <TEXT> yang menunjukkan isi dari dokumen. Berikut adalah contoh format struktur dokumen yang digunakan. <DATE> 1 November 2002 </DATE> <TEXT>

Selain industri kimia dan

parawisata, provinsi Banten juga

melirik agroindustri. Provinsi

pecahan Jawa Barat ini akan

mengembangkan `Agroindustrial

Park`, yaitu sebuah kawasan indutri

pengolahan hasil pertanian, di

Cilegon itu diungkapkan Gubernur

Banten, Dr Djoko Munandar, di

Serang, Jumat.

"Nantinya kawasan ini akan menjadi pusat pengolahan berbagai produk pertanian, walaupun bahan bakunya tidak hanya dipasok dari Banten, tetapi akan makin memacu kemajuan

pertanian di propinsi ini,"

katanya, seusai acara gelar wicara tentang upaya peningkatan produk

olahan dan pemasaran hasil

pertanian, di Aula Kantor

Gubernuran. </TEXT> </DOC>

Pada tahap indexing, pemrosesan dokumen hanya diambil bagian yang diapit oleh tag

<TITLE> dan <TEXT>, sedangkan untuk pembentukan passages, yang digunakan hanya bagian dokumen yang diapit oleh tag

<TEXT>. Berikut adalah menunjukkan ilustrasi bagian dokumen yang diproses.

<DOC>

(14)

Pemrosesan Dokumen

Langkah pertama pada pemrosesan dokumen ialah penamaan entitas (named entity) yang disebut tagging pada dokumen uji dengan menggunakan hasil penelitian dari Citrainingputra (2009). Penamaan entitas dilakukan untuk proses perolehan kandidat jawaban sesuai dengan jenis pertanyaan. Penamaan entitas yang digunakan terdiri atas NAME, ORGANIZATION, LOCATION ,NUMBER, CURRENCY, DATE, dan TIME. Pada tahap ini, dilakukan dengan memasukkan satu per satu bagian dokumen yang diapit tag <TEXT> ke dalam sistem

name entity tagging (Citraningputra 2009). Selanjutnya, semua dokumen hasil tagging

kemudian disimpan dalam korpus. Berikut adalah contoh penggunaan tagging.

<ORGANIZATION>Ketua Umum Himpunan Kerukunan Tani Indonesia

(HKTI</ORGANIZATION>) <NAME>Siswono Yudo Husodo</NAME> menyatakan, jika bangsa

<LOCATION>Indonesia</LOCATION> tidak mampu mengelola daya saing pertanian dalam era pasar bebas <ORGANIZATION>ASEAN</ORGANIZATION> (<ORGANIZATION>AFTA</ORGANIZATION>) yang sudah berlaku per <DATE>1 Januari 2003</DATE> maka pertanian akan mengalami kehancuran bahkan jutaan petani juga kehilangan pekerjaan.

Langkah kedua ialah pembacaan terhadap isi file dari korpus. Pembacaan hanya berlaku pada isi file yang berada pada tag <TITLE> dan <TEXT>. Kemudian pada isi file tersebut dilakukan parsing dengan pemisah kata yang

terdiri atas tanda baca

[+\/%,.\"\];()\':=`?\[!@].\

Indexing

Proses indexing dilakukan dengan melakukan perhitungan tf-idf dengan mendapatkan nilai term frequency dengan memanfaatkan hasil pada tahap pemrosesan dokumen. Term frequency diperoleh dari pasangan dokumen dan hasil parsing dari masing-masing file disimpan dalam suatu

array pada variabel tf.Variabel ini digunakan untuk menghitung nilai df, idf, dan tf-idf setiap kata.

Perhitungan tf-idf

Langkah pertama melakukan perhitungan

tf-idf ialah mendapatkan nilai term frequency, dengan memanfaatkan hasil pada tahap pemrosesan dokumen. Term frequency

diperoleh dari pasangan dokumen dan hasil

parsing (token-token) dari masing-masing file

disimpan dalam suatu array pada variabel tf. Variabel ini digunakan untuk menghitung nilai df, idf, dan tf-idf setiap kata.

Langkah selanjutnya ialah mendapatkan

document frequency (df). Document frequency

adalah jumlah dokumen yang mengandung kata tertentu. Kemudian dari hasil tersebut dapat dihitung nilai invers document frequency (idf). Tujuan dari idf ialah untuk menentukan kata-kata (term) yang merupakan penciri dari suatu dokumen. Oleh karena itu, dalam penelitian ini hanya kata dengan nilai

idf lebih besar sama dengan 0.3 yang disimpan (Sanur 2011). Hal ini bertujuan menghapus kata-kata yang tidak termasuk dalam stopwords namun bukan penciri dari

Tahap awal pembentukan passage

dilakukan pembentukan kalimat untuk setiap dokumen dengan menggunakan tanda pemisah antar kalimat yaitu [.?!]. Setiap

passage dibentuk dari dua kalimat yang berurutan sehingga passage yang posisinya berdekatan saling overlap.

Pemrosesan Query memiliki kata stopwords akan diberikan bobot 0.001 (Buscaldi et al. 2009). Query tersebut juga dibersihkan dari tanda baca. Hasil dari proses parsing disimpan dalam struktur data

array pertanyaan. Pada array tersebut, diperoleh kata tanya (pada indeks ke-0) yang akan digunakan untuk menentukan tipe jawaban yang akan dikembalikan oleh sistem. Proses selanjutnya adalah parsing terhadap kalimat tanya dengan pemisah kata yang

terdiri atas tanda baca

[+\/%,.\"\];()\':=`?\[!@].

(15)

kata tanya dan named entity yang menjadi

1 Siapa NAME, ORGANIZATION 2 Kapan DATE

3 Di mana LOCATION

4 Berapa NUMBER, CURRENCY

Perolehan Dokumen Teratas

Dokumen yang digunakan untuk proses perolehan jawaban ialah lima dokumen dengan bobot kesamaan cosine tertinggi. Dengan memanfaatkan nilai idf dan tf-idf, dilakukan perolehan norm dari query dan dokumen. Query dimasukkan secara manual kemudian dilakukan perhitungan terhadap

norm query, tf-idf query, dan norm untuk setiap dokumen. Langkah selanjutnya ialah memasangkan nilai norm query dengan query

setiap dokumen untuk menghasilkan nilai dot product dan cosine. Setelah nilai cosine

diperoleh, dilakukan pengurutan nilai cosine. Dokumen yang diambil untuk memasuki langkah selanjutnya ialah lima dokumen dengan nilai cosine tertinggi.

Selanjutnya dilakukan pemilihan passage

pada kamus passage yang termasuk dalam lima dokumen teratas. Hasil pemilihan

passage ini disimpan akan digunakan pada tahap perolehan top passage.

Perolehan Passages Top Documents

Passage yang digunakan dalam proses pembobotan ialah passage yang mengandung

tag named entity yang dibutuhkan. Misalnya

“Siapa” yan men acu pada NAME dan

ORGANIZATION, “Dimana” yan men acu

pada LOCATION.

Selanjutnya passage yang disimpan akan disaring untuk diambil passage yang memiliki TAG sesuai kata tanya pada query pertanyaan. Selanjutnya dilakukan pembobotan n-gram

pada passage tersebut.

Ekstraksi dan Pembobotan N-gram pada

Query

Langkah pertama yang dilakukan pada ekstraksi n-gram ialah dengan mencari bobot masing-masing perkata (W) pada query

menggunakan pembobotan n-gram term weight model berdasarkan persamaan 1. Pembobotan n-gram pada query dihitung terhadap lima dokumen teratas yang telah

ditemukembalikan. Seba ai contoh, “Siapa

menteri pertanian Indonesia?”.

Langkah selanjutnya ialah menjumlahkan keseluruhan bobot tiap n-gram (h) berdasarkan persamaan 2. Sebagai contoh hasil perolehan bobot query n-gram dapat dilihat pada Tabel 4.

Tabel 4 Perolehan bobot query n-gram

n n-gram word(s) W

1 Menteri 0.679

1 Pertanian 0.541

1 Indonesia 0.569

2 Menteri pertanian 1.220 2 Pertanian Indonesia 1.110 3 Menteri pertanian Indonesia 1.789

H 6.143

Pembobotan Passage

Pembobotan terhadap passage

menggunakan metode n-gram term weight model, sama seperti pencarian bobot pada n-gram query. Langkah yang dilakukan ialah perhitungan perhitungan bobot kemiripan antara n-gram query dan n-gram passage

yang dihasilkan oleh sistem. Passage yang diambil ialah passage yang memiliki nilai bobot kemiripan yang terbesar. Passage yang mendapatkan nilai tertinggi akan dikembalikan sebagai top passage dari query

pertanyaan yang diberikan. Passage yang diambil ialah passage yang memiliki nilai bobot kemiripan yang terbesar.

Ekstraksi Jawaban

Proses selanjutnya ialah ekstraksi jawaban dari top passages yang diperoleh. Passage

yang memiliki bobot tertinggi pada pembobotan passage menjadi top passage. Kata yang menjadi kandidat jawaban ialah kata yang memiliki entitas sesuai dengan kata tanya pada query pertanyaan. Dalam perolehan entitas jawaban, yang perlu diperhatikan ialah top passage dapat terdiri atas dua passage dan passage dapat memiliki satu atau lebih kandidat jawaban.

Jawaban akhir setiap passage diperoleh dengan cara menghitung jarak antara setiap kandidat jawaban pada setiap passage dan masing-masing kata. Kandidat jawaban yang memiliki jarak terpendek dianggap sebagai jawaban yang paling tepat.

Evaluasi Hasil Percobaan

(16)

1 Pasangan jawaban dan dokumen (Responsiveness).

2 Ketepatan untuk setiap jawaban dari pertanyaan yang diberikan.

Berikut pembahasan untuk masing-masing percobaan:

Hasil Percobaan Untuk Kata Tanya SIAPA

Tampilan antarmuka dapat dilihat pada Lampiran 1. Berdasarkan sepuluh query

pertanyaan yang diuji, diambil contoh query

Siapa Asisten Sekretaris Daerah

(Assekda) Bidang Kesejahteraan Rakyat

Provinsi DIY? Top passage yang diperoleh

pada penelitian ini:

NUSANTARA YOGYAKARTA (Media):

Pertanian di <LOCATION> Daerah

Istimewa Yogyakarta (DIY)

</LOCATION> sama sekali tidak

terpengaruh oleh kekeringan.

<ORGANIZATION> Asisten Sekretaris

Daerah (Assekda) Bidang

Kesejahteraan Rakyat

</ORGANIZATION> Provinsi <LOCATION>

DIY </LOCATION> <NAME> Bambang

Purnomo </NAME> mengatakan hal

tersebut kepada Media di <LOCATION> Yogyakarta </LOCATION>, kemarin.

Top passage di atas diperoleh dari dokumen mediaindonesia270803.txt. Jawaban yang diperoleh dengan menggunakan pembobotan n-gram adalah Bambang Purnomo

dengan kriteria right.

Pembobotan n-gram term weight model

untuk kata tanya SIAPA menghasilkan persentase ketepatan jawaban untuk kriteria

right sebesar 90%, wrong 0%, null 10%,

unsupported 0%. Untuk kriteria null, disebabkan karena tidak ditemukannya kandidat jawaban pada passage.Daftar query

pertanyaan dan evaluasi untuk kata tanya SIAPA dapat dilihat pada Lampiran 2. Grafik hasil percobaan untuk kata tanya SIAPA dapat dilihat pada Gambar 4.

Gambar 4 Grafik hasil percobaan untuk kata tanya SIAPA.

Hasil Percobaan Untuk Kata Tanya KAPAN

Pada percobaan untuk kata tanya KAPAN, diambil contoh query Kapan dilakukan

penelitian di rumah kaca Balittro?Top

passage yang dikembalikan ialah sebagai berikut:

Untuk itu telah dilakukan penelitian di <LOCATION> rumah kaca Balittro Bogor </LOCATION> pada tahun <DATE> 1997/1998 </DATE> dan di lanjutkan penelitian di lapang di <LOCATION> IP Sukamulya (Sukabumi) </LOCATION> pada tahun <DATE> 1998/1999 </DATE>. Pada percobaan rumah kaca, tujuh jenis bakteri antagonis baik secara sendiri-sendiri maupun gabungan yang diformulasikan dalam suatu pembawa,

yaitu bakteri antagonis P~

Top passage tersebut diperoleh dari dokumen balaipenelitian000000-009. Jawaban yang diperoleh dengan menggunakan pembobotan n-gram adalah 1997/1998

dengan kriteria right.

untuk kata tanya KAPAN menghasilkan persentase ketepatan jawaban untuk kriteria

right sebesar 80%, wrong 0%, null 20%, dan

unsupported 0%. Untuk kriteria null, dikarenakan tidak ditemukannya passage

yang sesuai. Daftar query pertanyaan dan evaluasi untuk kata tanya KAPAN dapat dilihat pada Lampiran 3. Grafik hasil percobaan untuk kata tanya KAPAN dapat dilihat pada Gambar 5.

(17)

Hasil Percobaan Untuk Kata Tanya DI MANA

Berdasarkan sepuluh query pertanyaan yang diuji, diambil contoh query pertanyaan

Di mana terjadi kekeringan dengan

jumlah terbanyak?. Hasil penelitian ini

mengembalikan top passage sebagai berikut:

Mereka yang terkena dampak

kekeringan khususnya pada

kebutuhan rumah tangga itu

terdapat di wilayah <LOCATION>

Kabupaten Gunungkidul

</LOCATION>, <LOCATION> Sleman,

dan Kulonprogo </LOCATION>.

Jumlah yang terkena kekeringan terbanyak di wilayah <LOCATION>

Kabupaten Gunungkidul

</LOCATION> yang mencapai lebih dari <NUMBER> 100 ribu jiwa </NUMBER>.

Top passage tersebut diperoleh dari dokumen mediaindonesia270803.txt. Jawaban yang diperoleh dengan menggunakan pembobotan n-gram adalah Sleman dan

Kulonprogo dengan kriteria wrong. Top

passage yang dikembalikan sudah benar tetapi kesalahan terjadi pada pemillihan kandidat jawaban. Kandidat yang dipilih ialah kandidat yang memiliki jarak terdekat.

untuk kata tanya DI MANA menghasilkan persentase ketepatan jawaban untuk kriteria

unsupported 0%. Kriteria wrong disebabkan oleh kandidat yang dipilih tidak sesuai dengan jawaban yang benar. Kandidat yang dipilih adalah kandidat dengan jarak terdekat dengan

query pada passage. Daftar query pertanyaan dan evaluasi untuk kata tanya DI MANA dapat dilihat pada Lampiran 4. Grafik hasil percobaan untuk kata tanya DI MANA dapat dilihat pada Gambar 6.

Gambar 6 Grafik hasil percobaan untuk kata tanya DI MANA.

Hasil Percobaan Untuk Kata Tanya BERAPA

Pada percobaan untuk kata tanya BERAPA, diambil contoh query pertanyan

Berapa harga jual untuk sapi dengan

berat 250 kg?. Top passage yang

dikembalikan adalah sebagai berikut:

Menurutnya, dengan berat sapi yang

dikembangkan hingga rata-rata

<NUMBER> 250 kg </NUMBER>, petani bisa menjualnya seharga <CURRENCY> Rp 3 juta-Rp 4 juta </CURRENCY>.

"Sementara harga standar yang

ditetapkan <ORGANIZATION> Dinas

Pertanian </ORGANIZATION>, untuk

pengembalian bantuan dana,

ditetapkan sebesar <CURRENCY> Rp 2,3 juta </CURRENCY>.

Top passage tersebut diperoleh dari dokumen gatra230103-002.txt. Jawaban yang diperoleh dengan menggunakan pembobotan n-gram adalah Rp 3 juta-Rp 4

juta dengan kriteria right.

untuk kata tanya BERAPA menghasilkan persentase ketepatan jawaban untuk kriteria

unsupported 0%. Kriteria wrong disebabkan karena kandidat yang dipilih tidak sesuai dengan jawaban yang benar. Kandidat yang dipilih adalah kandidat dengan jarak terdekat dengan query pada passage,sedangkan untuk kriteria null, dikarenakan tidak ditemukannya

passage yang sesuai. Daftar query pertanyaan dan evaluasi untuk kata tanya BERAPA dapat dilihat pada Lampiran 5. Grafik hasil percobaan untuk kata tanya BERAPA dapat dilihat pada Gambar 7.

Gambar 7 Grafik hasil percobaan untuk kata tanya BERAPA.

Hasil Percobaan Keseluruhan Kata Tanya Menggunakan Lima Dokumen Teratas

(18)

MANA, dan BERAPA dapat dilihat pada Gambar 8. Hasil penelitian dengan pembobotan n-gram term weight model ini menghasilkan ketepatan jawaban untuk masing-masing kata tanya dengan kriteria

right sebesar 72.5%, wrong 15%, null 12.5%, dan unsupported 0%.

Gambar 8 Grafik hasil percobaan untuk semua kata tanya.

KESIMPULAN DAN SARAN

Kesimpulan

Hasil penelitian menunjukkan metode n-gram Term Weight Model dapat diimplementasikan dalam pembobotan

passage dalam QAS dan dapat menemukembalikan passage yang mengandung kandidat jawaban benar dengan akurasi yang cukup tinggi, yaitu 72.5% secara keseluruhan dari semua kata tanya SIAPA, KAPAN, DI MANA, dan BERAPA. Semakin mirip struktur query dengan kalimat yang ada pada passage maka kemungkinan jawaban yang benar diperoleh dari passage tersebut akan semakin besar. Pemilihan kandidat jawaban menggunakan rataan jarak terpendek namun kandidat jawaban dengan rataan jarak terpendek belum tentu memiliki jawaban yang benar.

Saran

Untuk penelitian selanjutnya yang terkait dengan question answering system dengan metode n-gram term weight model disarankan untuk melakukan penelitian dengan:

1 Perbaikan pada proses ekstraksi jawaban dengan menggunakan metode ekstraksi jawaban yang lain misalnya metode yang digunakan oleh Murata et al. (2005). 2 Menggunakan metode lain dalam proses

indexing agar kinerja pencarian diperoleh lebih cepat.

3 Melengkapi n-gram term weight model

dengan penambahan Distance Model pada pembobotan passage.

4 Perlu dilakukan perbaikan metode perolehan jawaban secara semantik dengan POS-Tagging untuk mengidentifikasi jenis kata.

DAFTAR PUSTAKA

Baeza-Yates R, Ribeiro-Neto B. 1999.

Modern Information Retrieval. New York. ACM Press. Departement, Mount Holyoke College. hlm 230-233.

Buscaldi D, Sanchis E, Gómez JM, Rosso P, Soriano. 2009. Answering question with n-gram based passage retrieval engine. Intelligent Information System 34:113-134.

Chaudhuri BB, Mitra M, Majumder P. 2002. N-gram: a language independent approach to IR and NLP. Di dalam: International conference on universal knowledge and language. Goa, India. 25-29 November 2002.

Cidhy DATK. 2009. Implementasi question answering system dengan pembobotan heuristic [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Citraningputra P. 2009. Entitas tagging untuk dokumen berbahasa indonesia menggunakan metode berbasis aturan [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Manning CD, Raghavan P, Schütze H. 2008.

Introduction to Information Retrieval. Cambridge: Cambridge University Press.

(19)

Najibullah A. 2011. Implementasi n-gram

dalam pencarian teks sebagai penunjang aplikasi perpustakaan kitab berbahasa Arab [skripsi]. Surabaya: Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember.

Rahmawan F. 2012. Implementasi question answering system pada dokumen berbahasa indonesia menggunakan n-gram

[skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Sanur SA. 2011. Pemilihan passage dalam

(20)

(21)

(22)

Lampiran 2 Hasil percobaan untuk kata tanya „SIAPA‟

No Query Jawaban Keterangan

1 Siapa Asisten Sekretaris Daerah (Assekda) _{Bidang Kesejahteraan Rakyat Provinsi} DIY?

Bambang Purnomo R

2 _{Siapa Bambang Purnomo?} Asisten Sekretaris Daerah Assekda

Bidang Kesejahteraan Rakyat R

3 Siapa Juru Bicara Departemen Luar Negeri

Republik Indonesia? Marty Natalegawa R

4 _{Siapa Marty Natalegawa?} Juru Bicara Departemen Luar

Negeri Republik Indonesia R

5 _{Siapa menteri pertanian?} _{Bungaran Saragih} R

6 Siapa yang bekerja sama dengan Unibraw

untuk menangani pasca panen ikan? lembaga kimia nasional R

7 Siapa Ketua Umum Dewan Pimpinan Pusat

Himpunan Alumni Institut Pertanian Bogor? Muwardi P Simatupang R

8 _{Siapa Prof. Dr Ir Naik Sinukaban MSc} _Null N

9 _{Siapa Bungaran Saragih?} _{Menteri Pertanian} R

10 Siapa menghasilkan penelitian tentang budi

daya pisang dengan kultur jaringan? Unibraw R

(23)

Lampiran 3 Hasil percobaan untuk kata tanya „KAPAN‟

1 Kapan dilakukan penelitian di rumah kaca Balittro? 1997/1998 R

2 Kapan Malaysia menyatakan akan menindak tegas para

pekerja asing? Null N

3

Kapan Bungaran Saragih menyatakan kelangkaan pupuk diakibatkan adanya penyebaran yang terjadi secara sporadic?

Null N

4 Kapan diadakan semiloka pengelolaan ekosistem pesisir? _{31 Juli 2002} R

5

Kapan dilakukan Penelitian secara on-farm adaptif pada dua lokasi di desa Nepo Kecamatan Mallusetasi, kabupaten Barru?

Agustus sampai

nopember 2000 R

6 Kapan pengaruh isu pertanian, kenaikan harga pangan,

mempengaruhi sejarah Indonesia? 1965 R

7 Kapan perkenalan Warno dengan cacing? 1998 R

8 Kapan WTO RIO DE JANERIO 20 negara dilaksanakan? 10-14 September

2003 R

9 Kapan diadakan semiloka Pengembangan Kawasan Pantai

sebagai alternative akselerator pembangunan daerah? 31-Jul-02 R

10 Kapan dilaksanakan Konpernas Ekonomi Pertanian XIV

dan Kongres XIII? senin 17/5 R

(24)

Lampiran 4 Hasil percobaan untuk kata tanya „DIMANA‟

1 Di mana terjadi kekeringan dengan jumlah terbanyak? Kulonprogo W

2 Di mana dilakukan pengembangan tanaman jahe gajah secara besar-besaran?

Kabupaten Rejang

Lebong R

3 Di mana dilakukan peresmian Pencanangan Gerakan Tambahan Dua Juta Ton Jagung (Gentataton)?

Dunggalan,Tibawa,

Gorontalo R

4 Di mana Bureau of Animal and Plant Health

Inspection and Quarantine (BAPHIQ)? Taiwan R

5 Di mana Peter Allgeire menjadi deputi perwakilan

dagang? AS R

6 Di mana kegiatan bongkar muat beras import dilakukan?

Pelabuhan Tanjung

Perak Surabaya R

7 Di mana pengolahan sagu skala industry berkembang? Maluku R

8 Di mana unsure N diyakini sebagai kunci utama

peningkatan produksi padi? Sulawesi Selatan R

9

Di mana terjadi masalah sempitnya lahan pertanian, inefisiensi, produktivitas rendah, dan fluktuasi harga produk pertanian?

Indonesia R

10 Di mana terjadi penurunan produksi tanaman

tembakau? Perkebunan Inti Rakyat W

(25)

Lampiran 5 Hasil percobaan untuk kata tanya „BERAPA‟

1 Berapa harga jual untuk sapi dengan berat 250 kg? Rp 3 juta-Rp 4

juta R

2 Berapa harga pemesanan kursi Rafles? Rp 275 ribu/unit R

3 Berapa luas Kalimantan Timur? 24.5 juta hektar R

4 Berapa luas areal sagu Malaysia? 51.3% W

5 Berapa usia panen pertama kali lengkeng? Null N

6 Berapa luas areal sagu dunia? 51.3% W

7 Berapa harga beras dalam negri antara bulan Juni-Juli? Null N

8 Berapa luas areal sagu Indonesia? 1 128 juta ha R

9 Berapa jumlah penduduk China? 210 juta W

10 Berapa luas wilayah yang ditanami tanaman padi di Kalimantan Timur?

24.5 juta hektar

W