• Tidak ada hasil yang ditemukan

CLUSTERING DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN FUZZY C-MEANS ISNA MARIAM

N/A
N/A
Protected

Academic year: 2021

Membagikan "CLUSTERING DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN FUZZY C-MEANS ISNA MARIAM"

Copied!
28
0
0

Teks penuh

(1)

CLUSTERING DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN

FUZZY C-MEANS

ISNA MARIAM

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2011

(2)

ii

CLUSTERING DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN

FUZZY C-MEANS

ISNA MARIAM

Skripsi

Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada

Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2011

(3)

iii

ABSTRACT

ISNA MARIAM. Clustering Indonesian Documents Using Fuzzy C-Means. Supervise by JULIO ADISANTOSO.

Document clustering enables a user to have a good overall view of the information contained in the document. Most classical clustering algorithms assign each data to exactly one cluster, thus forming a crisp partition of the given data. Recently, fuzzy clustering approach allows for degrees of membership, to which a data belongs to different clusters. Document clustering aims to make a cluster that is internally coherent but clearly different from other clusters. The documents that are used in this research are several documents from journal of horticulture and documents of medical plantations. All documents in the collections are clustered by using fuzzy C-Means algorithm. Furthermore, in this research threshold is used to weight the words that engage in the clustering process. The appropriate uses of threshold may give a better accuracy for the clustering result. The best result in this research is obtained when the threshold value is 1.5 and fuzzifier value is 2 for the documents from journal of horticulture, whereas for the documents of medical plantations the best result is obtained when the threshold value is 0.75 and fuzzifier value is 2.

(4)

iv Judul Penelitian : Clustering Dokumen Berbahasa Indonesia Menggunakan Fuzzy C-Means Nama : Isna Mariam

NRP : G64070061 Menyetujui: Pembimbing

Ir. Julio Adisantoso, M.Kom NIP. 19620714 198601 1 002

Mengetahui:

Ketua Departemen Ilmu Komputer,

Dr. Ir. Sri Nurdiati, M.Sc NIP. 19601126 198601 2 001

(5)

v

RIWAYAT HIDUP

Penulis lahir di Bandung pada tanggal 14 Juli 1989 yang merupakan anak kedua dari lima bersaudara dengan ayah bernama Fatahudin dan Ibu bernama Siti Supriatin.

Tahun 2007 penulis lulus dari SMA Negeri 9 Bandung dan pada tahun yang sama penulis lulus seleksi masuk IPB melalui jalur Ujian Saringan Masuk IPB (USMI), dan diterima sebagai mahasiswa Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor. Pada tahun 2008 penulis aktif dalam organisasi Badan Eksekutif Mahasiswa (BEM) FMIPA IPB sebagai staff Departemen Pengembangan Potensi Sumber Daya Mahasiswa (PPSDM) BEM FMIPA IPB 2008/2009. Penulis menjadi asisten praktikum Mata Kuliah Penerapan Komputer Departemen Ilmu Komputer IPB pada tahun 2010 dan asisten praktikum Mata Kuliah Basis Data Departemen Ilmu Komputer IPB pada tahun 2011.

(6)

vi

PRAKATA

Alhamdulillahirabbil β€˜alamin, puji dan syukur Penulis panjatkan kepada Allah SWT atas

segala curahan rahmat dan karunia-Nya sehingga tugas akhir dengan judul Clustering Dokumen Berbahasa Indonesia Menggunakan Fuzzy C-Means berhasil diselesaikan. Shalawat serta salam Penulis sampaikan kepada Nabi Besar Muhammad SAW beserta keluarga dan sahabatnya.

Penulis berterima kasih kepada Bapak Ir. Julio Adisantoso, M.Kom selaku dosen Pembimbing yang telah membimbing penulis selama penelitian berlangsung. Selain itu kepada Ibu Dr. Yeni Herdiyeni, S.Si, M.Kom dan Bapak Sony Hartono Wijaya, S.kom, M.kom selaku dosen Penguji serta staf pengajar Departemen Ilmu Komputer terima kasih atas ilmu yang telah diberikan, serta tidak lupa kepada staf tata usaha yang membantu dalam administrasi selama kuliah di Departemen Ilmu Komputer IPB.

Terima kasih sebesar-besarnya penulis sampaikan kepada Mama, Papa, Teteh, Aa, Kakak dan Adik yang telah memberikan kasih sayang, perhatian, semangat dan doa untuk keberhasilan Penulis. Kepada seluruh keluarga yang telah mendukung baik moral atau materil penulis sampaikan terima kasih.

Terima kasih juga penulis sampaikan kepada Saudara Nazar Taufik Dihartika yang telah memberikan dukungan dan semangat kepada penulis, teman-teman satu bimbingan Agus Umriadi, Aprilia Ramadhina, Devi Dian Pramana, Fandi Rahmawan, Nova Maulizar, Nutri Rahayuni, Woro Indriyani yang telah bersama-sama berjuang menyelesaikan tugas akhir, juga teman-teman satu angkatan ilkom 44 yang telah memberikan pengalaman dan hari-hari yang menyenangkan selama berkuliah di Ilmu Komputer, kepada teman-teman Wisma Mega 2 Endah Ratna Puri, Gian Puspita, Reni Syahab, Rika Kurnia, Yulianti Sri Rejeki yang telah menemani hari-hari Penulis selama di kostan, serta masih banyak pihak yang membantu penulis namun tidak dapat disebutkan disini.

Bogor, Agustus 2011

(7)

vii

DAFTAR ISI

Halaman

DAFTAR TABEL ... viii

DAFTAR GAMBAR ... viii

DAFTAR LAMPIRAN ... viii

PENDAHULUAN... 1

Latar Belakang ... 1

Tujuan Penelitian ... 1

Ruang Lingkup Penelitian ... 1

Manfaat Penelitian ... 1

TINJAUAN PUSTAKA ... 1

Information Retrieval (IR) ... 1

Clustering ... 2

Pemodelan Ruang Vektor ... 2

Fuzzy C-Means ... 2 Confusion Matrix ... 2 F-Measure ... 3 Sphinx Search ... 3 METODE PENELITIAN ... 3 Koleksi Dokumen ... 4 Praproses ... 4

Membentuk Inverted Index dengan menggunakan pembobotan tf.idf ... 4

Implementasi Sistem ... 4

Evaluasi ... 5

Lingkungan Implementasi ... 5

HASIL DAN PEMBAHASAN ... 5

Karakteristik Dokumen ... 5

Pembuangan Stopwords dan Term ... 6

Clustering Dokumen dengan Fuzzy C-Means ... 6

Temu Kembali Informasi ... 10

KESIMPULAN DAN SARAN ... 12

DAFTAR PUSTAKA ... 12

(8)

viii

DAFTAR TABEL

Halaman

1 Format Confusion Matrix ... 3

2 Keterangan penamaan cluster ... 6

3 Nilai aktual-prediksi jurnal hortikultura dengan w = 2 dan threshold = 3 ... 7

4 Confusion matrix jurnal hortikultura dengan w = 2 dan threshold = 3 ... 7

5 Nilai aktual-prediksi jurnal hortikultura dengan w = 2 dan threshold = 1.5 ... 7

6 Confusion matrix jurnal hortikultura dengan w = 2 dan threshold = 1.5 ... 7

7 Nilai aktual-prediksi jurnal hortikultura dengan w = 3 dan threshold = 1.5 ... 8

8 Confusion matrix jurnal hortikultura dengan w = 3 dan threshold = 1.5 ... 8

9 Hasil clustering terhadap empat cluster ... 9

10 Hasil clustering terhadap lima cluster ... 9

11 Nilai aktual-prediksi dokumen tanaman obat dengan w = 2 dan threshold = 1.5 ... 9

12 Confusion matrix dokumen tanaman obat dengan w = 2 dan threshold = 1.5 ... 9

13 Nilai aktual-prediksi dokumen tanaman obat dengan w = 2 dan threshold = 0.75 ... 9

14 Confusion matrix dokumen tanaman obat dengan w = 2 dan threshold = 0.75 ... 9

DAFTAR GAMBAR

Halaman 1 Metode Penelitian. ... 4

2 Struktur dokumen jurnal hortikultura. ... 6

3 Struktur dokumen tanaman obat... 6

4 Diagram akurasi nilai w = 2 dan T = 1.5 dengan nilai w = 2 dan T = 3 ... 7

5 Diagram akurasi nilai w = 2 dan T = 1.5 dengan nilai w = 3 dan T = 1.5 ... 8

6 Diagram akurasi nilai w = 2 dan T = 1.5 dengan nilai w = 2 dan T = 0.75 ... 10

7 Perintah indexing dokumen oleh Sphinx search ... 10

8 Perintah pembuatan service Sphinx search ... 10

9 Grafik R-P pencarian pada dokumen jurnal hortikultura ... 11

10 Grafik R-P pencarian pada dokumen tanaman obat ... 11

DAFTAR LAMPIRAN

Halaman 1 Gugus kueri dan jawaban dokumen jurnal hortikultura ... 14

2 Hasil analisis kinerja sistem temu kembali dokumen jurnal hortikultura ... 16

3 Gugus kueri dan jawaban dokumen tanaman obat ... 17

4 Hasil analisis kinerja sistem temu kembali dokumen tanaman obat ... 19

5 Antarmuka sistem clustering dokumen ... 20

(9)

1

PENDAHULUAN

Latar Belakang

Informasi dapat terbagi menjadi bermacam-macam topik bahasan, dan dari topik-topik bahasan tersebut dapat terbagi menjadi subtopik-subtopik bahasan yang lebih spesifik. Subtopik dari suatu informasi dapat mempersempit ruang lingkup dari informasi, sehingga pencarian informasi yang sesuai dengan kebutuhan pengguna akan lebih mudah. Pada saat ini banyak sekali informasi yang beragam terkumpul menjadi satu yang menyebabkan kesulitan bagi pengguna untuk mendapatkan informasi yang sesuai. Untuk itu, diperlukan suatu teknik yang dapat membentuk dan mengumpulkan informasi berdasarkan topik dan subtopik yang dimiliki oleh informasi tersebut. Salah satu teknik yang dapat membentuk dan mengumpulkan informasi berdasarkan topik dan subtopik yang dimilikinya adalah clustering dokumen.

Clustering dokumen akan

mengelompokkan dokumen yang merepresentasikan satu topik tertentu ke dalam cluster tertentu pula. Menurut Manning

et al. (2008) clustering dokumen bertujuan

untuk membuat cluster yang koheren secara internal, tetapi jelas berbeda dengan cluster lainnya. Hal tersebut menunjukkan bahwa dokumen dalam cluster yang sama harus semirip mungkin dan dokumen dalam satu

cluster harus berbeda dari dokumen dalam cluster lain.

Beberapa penelitian mengenai clustering dokumen telah dilakukan, seperti penelitian yang dilakukan oleh Wibisono dan Khodra tahun 2005 yaitu clustering berita berbahasa Indonesia dengan menggunakan algoritme K-Means. Hasil dari penelitian tersebut masih memiliki kekurangan karena kualitas cluster yang dihasilkan belum terlalu baik. Penelitian mengenai clustering selanjutnya adalah penelitian yang dilakukan oleh Hizry Ramdani pada tahun 2011. Penelitian tersebut melakukan clustering konsep dokumen berbahasa Indonesia dengan menggunakan

Bisecting K-Means. Metode yang digunakan

pada penelitian tersebut merupakan hard

clustering yang diterapkan pada enam kelas

dokumen yang berbeda. Dokumen sering memiliki kecenderungan untuk dikelompokkan ke dalam lebih dari satu kelas, sesuai dengan derajat keanggotaannya. Oleh karena itu perlu dilakukan pengelompokan dokumen menggunakan Fuzzy C-Means yang memungkinkan

dokumen terkelompok ke dalam satu atau lebih kelas.

Tujuan Penelitian

Tujuan utama penelitian ini adalah melakukan clustering dokumen berbahasa Indonesia dengan menggunakan teknik fuzzy C-Means dan mengimplementasikannya ke dalam sistem temu kembali informasi. Ruang Lingkup Penelitian

Dokumen yang digunakan dalam penelitian ini adalah dokumen berbahasa Indonesia yang memiliki struktur XML yang tersedia di laboratorium Temu Kembali Informasi dan laboratorium Computational

Intelligence Departemen Ilmu Komputer IPB.

Dokumen ini merupakan dokumen jurnal pertanian yang berjumlah 324 dokumen dan dokumen tanaman obat yang berjumlah 93 dokumen.

Manfaat Penelitian

Manfaat dari penelitian ini adalah mengelompokkan dokumen berbahasa Indonesia ke dalam cluster yang ada berdasarkan derajat keanggotaan yang dimiliki setiap dokumen terhadap suatu

cluster. Dengan demikian, pada proses temu

kembali informasi, pencarian dokumen relevan hanya dilakukan pada cluster yang relevan. Teknik yang digunakan untuk mengelompokkan dokumen berbahasa Indonesia (jurnal hortikultura dan dokumen tanaman obat) adalah teknik fuzzy C-Means.

TINJAUAN PUSTAKA

Information Retrieval (IR)

Menurut Baeza-Yates & Ribeiro-Neto

information retrieval atau yang dalam bahasa

Indonesia adalah temu kembali informasi berkaitan dengan representasi, organisasi, akses, dan penyimpanan informasi. Representasi dan organisasi informasi harus menyediakan kemudahan untuk mengakses informasi yang diinginkan oleh pengguna. Akan tetapi, karakterisasi kebutuhan informasi pengguna bukan merupakan perkara yang mudah. Oleh karena itu, pengguna harus menginterpretasikan informasi yang dibutuhkannya menjadi sebuah query yang dapat diproses oleh search

engine (IR system). Query merupakan

kumpulan kata kunci yang merangkum deskripsi dari informasi yang dibutuhkan

(10)

2 pengguna, sehingga IR system akan

menemukembalikan informasi yang mungkin berguna atau relevan dengan kebutuhan pengguna.

Clustering

Clutering merupakan proses

pengelompokan sekumpulan objek ke dalam beberapa kelas. Tujuannya adalah untuk membuat cluster yang koheren secara internal, tetapi jelas berbeda dengan cluster lainnya. Objek-objek dalam suatu cluster yang sama harus semirip mungkin satu sama lain dan objek-objek dalam suatu cluster harus berbeda dengan objek-objek dalam

cluster lain (Manning et al. 2008).

Clustering merupakan teknik

unsupervised learning. Tidak adanya supervisi berarti tidak ada campur tangan manusia dalam memasukkan objek-objek ke dalam kelas yang ada. Secara garis besar metode clustering dibagi ke dalam dua grup yaitu flat clustering dan hierarchical

clustering. Pada flat clustering setiap objek

memiliki peluang yang sama untuk masuk ke kelas-kelas yang ada dan tidak memiliki level tertentu untuk masuk ke dalam sebuah

cluster. Selain itu, dalam flat clustering,

jumlah kelas yang akan diproses sudah ditentukan sebelumnya. Pada hierarchical

clustering setiap objek memiliki ukuran

tertentu sehingga objek tersebut masuk ke dalam cluster tertentu pula. Hierarchical

clustering digambarkan dalam bentuk dendogram dan jumlah cluster dapat berjumlah berapa saja tergantung pada pemotongan dendogram (Manning et al. 2008). Clustering memiliki dua jenis, yaitu

hard clustering dan soft clustering. Pada hard clustering, suatu objek merupakan anggota

dari tepat satu cluster, sedangkan pada soft

clustering suatu objek dimungkinkan berasosiasi dengan banyak cluster dengan adanya derajat keanggotaan (membership

degree) antara setiap pasang objek dengan cluster (Kondadadi & Kozma 2002).

Pemodelan Ruang Vektor

Dokumen-dokumen direpresentasikan sebagai vektor. Dalam sebuah koleksi, tiap dokumen d dianggap sebagai vektor dalam term-space. Masing-masing dokumen digambarkan oleh term-frequency (TF) vektor 𝑑 𝑖𝑗 = 𝑑𝑓1, 𝑑𝑓2, . . , 𝑑𝑓𝑛 dengan 𝑑𝑓𝑖

adalah frekuensi term i dalam koleksi dokumen. Perbaikan model ini dilakukan pada pembobotan masing-masing term

didasarkan pada inverse document frequency (IDF) dalam koleksi dokumen. Tujuan pembobotan ini adalah term yang muncul di banyak dokumen memiliki kekuatan yang berbeda. Hal ini dilakukan dengan melakukan perkalian tiap term i dengan log 𝑁 𝑑𝑓𝑑 , dengan N adalah jumlah

dokumen dalam koleksi dan 𝑑𝑓𝑑 adalah

jumlah dokumen yang mengandung term i (document-frequency). Representasi tf-idf pada sebuah dokumen adalah sebagai berikut (Karypis G & Han E 2000):

𝑑 𝑑𝑓𝑖𝑑𝑓= 𝑑𝑓1log 𝑁 𝑑𝑓1 , 𝑑𝑓2log 𝑁 𝑑𝑓2 , . . , 𝑑𝑓𝑛log 𝑁 𝑑𝑓𝑛 . Fuzzy C-Means

Fuzzy C-Means (FCM) adalah salah satu metode yang paling umum digunakan dalam fuzzy clustering. FCM adalah suatu teknik

clustering data yang keberadaan tiap titik data

suatu cluster ditentukan oleh derajat keanggotan (membership degree). Teknik ini pertama kali diperkenalkan oleh James Bezdek pada tahun 1981.

Konsep dasar FCM adalah sebagai berikut:

1. Tentukan pusat cluster, yang akan menandai lokasi rata-rata untuk tiap-tiap

cluster. Pada kondisi awal, pusat cluster

ini masih belum akurat. Tiap-tiap titik data memiliki derajat keanggotaan untuk tiap-tiap cluster.

2. Perbaiki pusat cluster dan derajat keanggotaan tiap-tiap titik data secara berulang, maka akan dapat dilihat bahwa pusat cluster akan bergerak menuju suatu lokasi yang tepat. Perulangan ini didasarkan pada minimisasi fungsi objektif yang menggambarkan jarak dari titik data yang diberikan ke pusat cluster yang terboboti oleh derajat keanggotaan titik data tersebut.

Output dari FCM bukan merupakan fuzzy inference system, namun merupakan deretan

pusat cluster dan beberapa derajat keanggotaan untuk tiap-tiap titik data. Informasi ini dapat digunakan untuk membangun suatu fuzzy inference system (Hadi 2005).

Confusion Matrix

Confusion Matrix sering juga disebut classification matrix merupakan sebuah matriks yang memberikan gambaran penuh mengenai tingkat kesalahan serta kualitas prediksi sebuah model dengan format seperti pada Tabel 1. Beberapa definisi terkait

(11)

3 TRUE FALSE TRUE True Positive (TP) False Positive (FP) FALSE False Negative (FN) True Negative (TN) dengan evaluasi yang bisa dipakai melalui

confusion matrix (Antonius 2008) adalah

sebagai berikut:

 True Positive (TP) adalah proporsi dari

sample bernilai β€œtrue” yang diprediksi

secara benar.

 False Positive (FP) adalah proporsi antara

sample bernilai β€œfalse” yang salah

diprediksi sebagai sample bernilai β€œtrue”.  False Negative (FN) adalah proporsi sample

bernilai β€œtrue” yang salah diprediksi sebagai

sample bernilai β€œfalse”.

 True Negative (TN) adalah proporsi sample bernilai β€œfalse”yang diprediksi secara benar. Tabel 1 Format Confusion Matrix

Dari confusion matrix dapat dihitung akurasi terhadap hasil klasifikasi data yang merupakan proporsi jumlah sample yang diprediksi secara tepat, terhadap jumlah seluruh sample. Persamaan yang digunakan adalah:

π΄π‘˜π‘’π‘Ÿπ‘Žπ‘ π‘– =

𝑇𝑃+𝑇𝑁

𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁

. F-Measure

F-measure merupakan salah satu perhitungan evaluasi dalam temu kembali informasi yang mengombinasikan recall dan

precision. Nilai recall dan precision pada

suatu keadaan dapat memiliki bobot yang berbeda. Ukuran yang menampilkan timbal balik antara recall dan precision adalah F-Measure yang merupakan bobot harmonic

mean dari recall dan precision. Berikut

adalah persamaan F-Measure:

𝐹 = 1 𝛼𝑃1+ 1 βˆ’ 𝛼 𝑅1 = 𝛽 2+ 1 𝑅𝑃 𝛽2𝑃 + 𝑅 dengan 𝛽2= 1 βˆ’ 𝛼 𝛼 , 𝛼 ∈ 0,1 dan 𝛽 2 0, ∞ .

𝑃 =

𝑇𝑃 𝑇𝑃+𝐹𝑃

,

𝑅 =

𝑇𝑃 𝑇𝑃+𝐹𝑁

.

Menurut Manning et al. 2009, memisahkan dokumen-dokumen yang mirip kadang lebih buruk daripada menempatkan pasangan dokumen yang tidak mirip ke dalam cluster yang sama. Dengan demikian, dapat digunakan F-Measure dengan nilai

false negative lebih kuat dari nilai false positive. Selanjutnya, akan diberikan nilai Ξ² >

1 sehingga memberikan bobot yang lebih untuk recall. F-Measure yang seimbang memberikan bobot yang sama antara recall dan precision, dengan nilai 𝛼 =1

2 atau Ξ² = 1.

Hal ini dapat ditulis sebagai 𝐹1atau

𝐹𝛽 =1sehingga persamaan menjadi:

𝐹

𝛽 =1

=

2𝑅𝑃 𝑃+𝑅

.

Sphinx Search

Sphinx search adalah full text search

engine yang merupakan salah satu teknik

untuk melakukan pencarian dokumen atau

database yang disimpan dalam komputer.

Selama pencarian mesin pencari melewati dan memeriksa seluruh kata yang ada pada dokumen dan mencoba untuk mencocokkan kata-kata tersebut dengan query yang diberikan. pencarian seluruh kata yang dilakukan secara lengkap pada dokumen inilah yang disebut pencarian text lengkap (full-text search).

Full-text search unggul dalam pencarian

teks tidak terstruktur bervolume besar secara cepat dan efisien serta memberikan hasil berdasarkan seberapa baik kemiripan suatu dokumen dengan query pengguna (Abbas 2011).

METODE PENELITIAN

Penelitian ini secara garis besar melakukan dua proses, yaitu proses training dan proses testing. Pada proses training dilakukan pembentukan cluster dokumen, sedangkan pada proses testing dilakukan temu kembali dokumen hasil clustering

berdasarkan query yang diberikan pengguna, kemudian hasil temu kembali tersebut dievaluasi. Secara garis besar metode penelitian yang digunakan dalam penelitian ini adalah seperti Gambar 1.

Actual

(12)

4 Gambar 1 Metode Penelitian.

Koleksi Dokumen

Penelitian ini menggunakan dua koleksi dokumen yang berjumlah 324 untuk dokumen jurnal hortikultura dan 93 untuk dokumen tanaman obat. Koleksi dokumen yang digunakan telah diketahui jumlah kelasnya. Dokumen jurnal hortikultura memiliki tiga cluster, yaitu Ekofisiologi dan Agronomi, Pemuliaan dan Teknologi Benih, serta Proteksi. Jumlah cluster untuk mengelompokkan dokumen tanaman obat adalah tujuh cluster yaitu Kronis, Kulit, Nyeri-Radang-Demam, Pencernaan, Perawatan, Pernapasan, dan Saluran kemih yang merupakan cluster dari dokumen yang mengulas khasiat tanaman obat dalam mengobati penyakit.

Dokumen yang digunakan diperoleh dari koleksi dokumen (korpus) milik laboratorium Temu Kembali Informasi dan laboratorium

Computational Intelligence Departemen Ilmu

Komputer IPB. Isi dari dokumen tidak diubah sehingga kesalahan ejaan dan tata bahasa tidak diperbaiki.

Praproses

Pada tahap praproses dilakukan

lowercasing, tokenisasi, dan pembuangan stopwords. Lowercasing adalah proses untuk

mengubah semua huruf mejadi huruf

non-capital agar menjadi case-insensitive pada

saat dilakukan pemrosesan teks dokumen. Tokenisasi adalah suatu tahap pemrosesan teks input yang dibagi menjadi unit-unit kecil yang disebut token. Dalam penelitian ini unit terkecil yang digunakan adalah kata yang

terdiri atas minimal tiga huruf. Selain itu, tanda baca yang terdapat dalam dokumen dihilangkan sehingga tidak ikut diproses.

Stopwords merupakan daftar kata-kata

yang dianggap tidak memiliki makna. Kata yang tercantum dalam daftar ini dibuang dan tidak ikut diproses pada tahap selanjutnya. Pada umumnya kata-kata yang masuk ke dalam stopwords memiliki tingkat kemunculan yang tinggi di setiap dokumen sehingga kata tersebut tidak dapat digunakan sebagai penciri suatu dokumen.

Membentuk Inverted Index dengan

menggunakan pembobotan tf.idf

Hasil dari tahap praproses adalah term terpilih yang akan digunakan pada vector

space model. Pada term terpilih tersebut

dilakukan pembobotan dengan menggunakan tf.idf. Pembobotan pada term dapat membantu pembedaan istilah-istilah yang lebih penting untuk tujuan penemukembalian (Ridha 2001). Pembobotan tf.idf merupakan perkalian antara frekuensi kemunculan term dengan fungsi inverse document frequency (Salton 1989 dalam Ridha 2002).

𝑀

𝑖𝑗

= 𝑑𝑓

𝑖𝑗

.log

𝑁 𝑑𝑓𝑗

,

dengan

1. 𝑀𝑖𝑗 adalah bobot term ke-j dokumen ke-i

2. 𝑑𝑓𝑖𝑗 adalah frekuensi kemunculan term

ke-j dokumen ke-i

3. 𝑑𝑓𝑗 adalah frekuensi dokumen yang

mengandung term ke-j

4. 𝑁 adalah jumlah dokumen dalam koleksi. Implementasi Sistem

Setelah tahap praproses dan pembobotan selesai dilakukan, langkah selanjutnya adalah pembentukan cluster dokumen dengan menggunakan Fuzzy C-Means (FCM). Tujuan dari algoritme FCM adalah untuk menemukan pusat cluster (centroid) dengan meminimumkan fungsi objektif (Win & Mon 2010). Fungsi objektif yang digunakan pada FCM adalah: 𝑃𝑑 = π‘₯𝑖𝑗 βˆ’ π‘£π‘˜π‘— 2 π‘š 𝑗 =1 πœ‡π‘–π‘˜ 𝑀 𝑐 π‘˜=1 𝑛 𝑖=1 dengan

1. π‘₯𝑖𝑗 merupakan bobot term ke-j pada

dokumen ke-i Praproses Clustering Model Cluster Training Testing Query Search engine Evaluasi

(13)

5 2. π‘£π‘˜π‘— merupakan centroid term ke-j

terhadap cluster ke-k

3. πœ‡π‘–π‘˜ merupakan derajat keanggotaan

dokumen ke-i terhadap cluster ke-k 4. 𝑖 adalah indeks dokumen

5. 𝑗 adalah indeks term 6. π‘˜ adalah indeks cluster

7. w adalah derajat fuzzy, w ∈ [1,∞]. Algoritme Fuzzy C-Means secara keseluruhan adalah sebagai berikut:

1. Memasukkan data yang akan dikelompokkan berupa martiks berukuran nxm (n adalah jumlah dokumen, m adalah jumlah kata) dan tentukan parameter yang terlibat, yaitu:

 Jumlah cluster (c);  Tingkat fuzzy (w);

 Maksimum iterasi (MaxIter);  Error terkecil yang diharapkan (e);  Fungsi objektif awal ( 𝑃0= 0);

 Iterasi awal ( t = 1);

2. Membangkitkan bilangan acak

πœ‡

ik sebagai

derajat keanggotaan, dengan i adalah indeks dokumen (i=1,2,…,n) dan k adalah indeks cluster (k = 1,2,…,c) sebagai elemen-elemen matriks partisi awal

πœ‡

. 3. Menghitung pusat cluster ke-k: π‘‰π‘˜π‘—

dengan k = 1, 2, 3, …,c dan j=1, 2, 3, …,m. π‘‰π‘˜π‘— = πœ‡π‘–π‘˜ 𝑀 x π‘₯𝑖𝑗 𝑛 𝑖=1 πœ‡π‘–π‘˜ 𝑀 𝑛 𝑖=1

.

4. Menghitung fungsi objektif pada iterasi ke-t, 𝑃𝑑= π‘₯π‘–π‘—βˆ’ π‘£π‘˜π‘— 2 π‘š 𝑗 =1 πœ‡π‘–π‘˜ 𝑀 𝑐 π‘˜=1 𝑛 𝑖=1 .

5. Meng-update derajat keanggotaan

πœ‡

π‘–π‘˜ = π‘‹π‘–π‘—βˆ’π‘‰π‘˜π‘— 2 π‘š 𝑗 =1 βˆ’1 𝑀 βˆ’1 π‘‹π‘–π‘—βˆ’π‘‰π‘˜π‘— 2 π‘š 𝑗 =1 βˆ’1 𝑀 βˆ’1 𝑐 π‘˜ =1

.

6. Mengecek kondisi berhenti:

 Jika ( |𝑃𝑑 – π‘ƒπ‘‘βˆ’1 | < e) atau (t >

MaxIter) maka berhenti.

 Jika tidak : t = t+1, mengulangi kembali iterasi dimulai dari langkah ke-3.

Evaluasi

Evaluasi dilakukan dengan menghitung F-Measure keseluruhan cluster hasil

clustering. Untuk menghitung F-Measure

dibutuhkan pengetahuan mengenai pengelompokan dokumen yang telah dianggap benar. Dalam penelitian ini, pengelompokan dokumen yang telah dianggap benar adalah pengelompokan yang dilakukan dengan cara manual (Ramdani 2011).

Lingkungan Implementasi

Lingkungan implementasi yang dalam penelitian ini adalah sebagai berikut:

Perangkat lunak:

ο‚· Sistem operasi Windows 7

ο‚· PHP

ο‚· Sphinx Perangkat keras:

ο‚· Processor Intel Core 2 Duo 1,50GHz ο‚· RAM 2 GB

ο‚· Hardisk dengan kapasitas 120 GB

HASIL DAN PEMBAHASAN

Karakteristik Dokumen

Dokumen yang digunakan dalam penelitian ini adalah dokumen berbahasa Indonesia yaitu dokumen jurnal hortikultura dan dokumen tanaman obat. Jumlah dokumen yang digunakan adalah 324 dokumen untuk jurnal hortikultura dan 93 dokumen tanaman obat. Koleksi dokumen jurnal hortikultura terbagi ke dalam tiga cluster, yaitu Ekofisiologi dan Agronomi, Pemuliaan dan Teknologi Benih, serta Proteksi. Dokumen tanaman obat terbagi ke dalam tujuh cluster, yaitu Kronis, Kulit, Nyeri-Radang-Demam, Pencernaan, Perawatan, Pernapasan, dan Saluran kemih.

Seluruh dokumen yang digunakan dalam penelitian ini berformat plain-text yang memiliki struktur XML. Struktur tulisan dokumen jurnal hortikultura dapat dilihat pada Gambar 2, sedangkan struktur tulisan dokumen tanaman obat dapat dilihat pada Gambar 3.

Dokumen dikelompokkan ke dalam beberapa

tag sebagai berikut:

ο‚· <DOCID></DOCID>,

menunjukkan ID dari dokumen jurnal hortikultura.

ο‚· <DOCNO></DOCNO>,

menunjukkan ID dari dokumen tanaman obat.

(14)

6

<docId>dok001.txt</docId>

<content>Akhir-akhir ini kentang menjadi tanaman prioritas dan mempunyai nilai ekonomi tinggi. Produksi umbi kentang di

Indonesia masih rendah sehingga ……</content> <DOCNO>001</DOCNO> <nama>Akar Kuning</nama> <namal>Arcangelisia flava (L.) Merr.</namal> <fam>Menispermaceae</fam> <penyakit>Pencernaan</penyakit> <content>Famili:Menispermaceae… </content> ο‚· <content></content>,

menunjukkan isi atau informasi dari dokumen.

ο‚· <nama></nama>, menunjukkan nama tanaman obat pada dokumen tanaman obat.

ο‚· <namal></namal>,

menunjukkan nama latin tanaman obat pada dokumen tanaman obat. ο‚· <fam></fam>,

menunjukkan nama family dari tamanan obat pada dokumen tanaman obat.

ο‚· <penyakit></penyakit>, menunjukkan penyakit yang berkaitan dengan tanaman obat pada dokumen tanaman obat.

Dalam penelitian ini, pemrosesan text hanya dilakukan pada text yang berada di antara tag <content> dan </content>, sehingga

text yang berada di dalam tag lainnya tidak

diproses.

Gambar 2 Struktur dokumen jurnal hortikultura.

Gambar 3 Struktur dokumen tanaman obat. Pembuangan Stopwords dan Term

Pada tahap praproses dilakukan pembuangan term di dalam dokumen yang termasuk ke dalam stopwords dan term yang memiliki bobot (tf.idf) kurang dari threshold.

Threshold yang digunakan pada penelitian ini

adalah sebesar 1.5 dan 3 untuk dokumen jurnal hortikultura, sedangkan untuk dokumen tanaman obat digunakan threshold sebesar 1.5 dan 0.75. Ukuran threshold yang berbeda antara dokumen jurnal hortikultura dengan dokumen tanaman obat dikarenakan

karakteristik dokumen yang berbeda. Ukuran

threshold yang dipilih disesuaikan dengan

seluruh koleksi dokumen, sehingga dari setiap dokumen terdapat kata-kata yang memiliki bobot lebih besar dari threshold dan merepresentasikan dokumennya. Karena semakin sering suatu kata muncul pada suatu dokumen (selain kata yang termasuk ke dalam

stopwords), maka diduga semakin penting

kata itu untuk dokumen tersebut (Manning et

al. 2009).

Clustering Dokumen dengan Fuzzy C-Means

Clustering dokumen jurnal hortikultura

dan dokumen tanaman obat dilakukan dengan menggunakan algoritme Fuzzy C-Means (FCM) dengan input sebagai berikut:

1. Term yang telah dihitung bobotnya

menggunakan tf.idf dan bernilai lebih dari

threshold

2. Jumlah cluster (c), yaitu tiga cluster untuk dokumen jurnal hortikultura dan tujuh

cluster untuk dokumen tanaman obat

3. Pengontrol tingkat fuzzy (w), yaitu dua dan untuk pembanding sebesar tiga 4. Jumlah maksimum iterasi (maxIter)

sebesar 100 iterasi

5. Nilai error (e) sebesar 1βˆ’10.

Untuk meringkas dan memudahkan penulisan nama cluster, maka dilakukan penamaan seperti pada Tabel 2.

Tabel 2 Keterangan penamaan cluster Dokumen Jurnal Hortikultura C1 Ekofisiologi dan Agronomi C2 Pemuliaan dan Teknologi Benih C3 Proteksi

Dokumen Tanaman Obat C1 Kronis C2 Kulit C3 Nyeri-Radang-Demam C4 Pencernaan C5 Perawatan C6 Pernapasan C7 Saluran kemih

(15)

7 T = 3 T = 1.5 Series 1 72.42% 78.19% 72.42% 78.19% 0.00% 10.00% 20.00% 30.00% 40.00% 50.00% 60.00% 70.00% 80.00% 90.00% 100.00%

A

ku

ras

i

w = 2 w = 2

1. Clustering Dokumen Jurnal Hortikultura Perhitungan pertama adalah melakukan

clustering terhadap dokumen jurnal hortikultura dengan menggunakan nilai w = 2 dan threshold = 3. Tabel aktual-prediksinya dapat dilihat pada Tabel 3 dan Confusion

Matrix dari hasil nilai aktual-prediksinya

ditunjukkan pada Tabel 4.

Tabel 3 Nilai aktual-prediksi jurnal hortikultura dengan w = 2 dan threshold = 3

Prediksi C1 C2 C3 aktual C1 81 17 10 C2 5 65 32 C3 29 41 44

Tabel 4 Confusion matrix jurnal hortikultura dengan w = 2 dan threshold = 3

TRUE FALSE TRUE TP 190 FP 134 FALSE FN 134 TN 514

Berdasarkan Tabel 4, total pengujian koleksi dokumen jurnal hortikultura terhadap tiga cluster dengan nilai w = 2 dan threshold = 3 terdapat 190 dokumen yang dikelompokkan secara benar, dan total dokumen yang salah dikelompokkan sebanyak 134 dokumen. Nilai recall untuk hasil ini adalah 58.64% dan nilai precision adalah 58.64%. Oleh karena itu perhitungan di atas menghasilkan F-Measure sebesar 58.64% dan akurasi sebesar 72.42%.

Perhitungan kedua adalah melakukan

clustering terhadap dokumen jurnal hortikultura dengan menggunakan nilai w = 2 dan threshold = 1.5. Tabel aktual-prediksinya dapat dilihat pada Tabel 5 dan Confusion

Matrix dari hasil nilai aktual-prediksinya

ditunjukkan pada Tabel 6.

Berdasarkan Tabel 6 dapat dilihat bahwa total pengujian koleksi dokumen jurnal hortikultura terhadap tiga cluster dengan nilai w = 2 dan threshold = 1.5 terdapat 218 dokumen yang dikelompokkan secara benar, dan total dokumen yang salah dikelompokkan sebanyak 106 dokumen. Nilai recall untuk hasil ini adalah 67.28% dan nilai precision adalah 67.28%. Oleh karena itu perhitungan

di atas menghasilkan F-Measure sebesar 67.28% dan akurasi sebesar 78.19%.

Tabel 5 Nilai aktual-prediksi jurnal hortikultura dengan w = 2 dan threshold = 1.5

Prediksi C1 C2 C3 aktual C1 72 19 17 C2 8 78 16 C3 28 18 68

Tabel 6 Confusion matrix jurnal hortikultura dengan w = 2 dan threshold = 1.5

TRUE FALSE TRUE TP 218 FP 106 FALSE FN 106 TN 542

Setelah dilakukan clustering pada dokumen jurnal hortikultura, maka dapat diketahui bahwa tingkat akurasi clustering dengan nilai w = 2 dan threshold = 1.5 lebih baik dibandingkan dengan clustering

menggunakan nilai w = 2 dan threshold = 3. Diagram perbandingan akurasi hasil

clustering dengan menggunakan nilai w = 2

dan threshold = 1.5 dengan nilai w = 2 dan

threshold = 3 ditunjukkan pada Gambar 4.

Gambar 4 Diagram akurasi nilai w = 2 dan T = 1.5 dengan nilai w = 2 dan T = 3

(16)

8 Selain menggunakan nilai threshold yang

berbeda, untuk mengetahui pengaruh parameter w terhadap hasil clustering dengan menggunakan algoritme FCM, maka dilakukan perhitungan clustering dengan menggunakan nilai w = 3 dengan nilai

threshold = 1.5. Tabel aktual-prediksinya

dapat dilihat pada Tabel 7 dan Confusion

Matrix dari hasil nilai aktual-prediksinya

seperti pada Tabel 8.

Tabel 7 Nilai aktual-prediksi jurnal hortikultura dengan w = 3 dan threshold = 1.5

Prediksi C1 C2 C3 aktual C1 65 22 21 C2 12 71 19 C3 33 20 61

Tabel 8 Confusion matrix jurnal hortikultura dengan w = 3 dan threshold = 1.5

TRUE FALSE TRUE TP 197 FP 127 FALSE FN 127 TN 521

Berdasarkan Tabel 8 dapat dilihat bahwa total pengujian koleksi dokumen jurnal hortikultura terhadap tiga cluster dengan nilai w = 3 dan threshold = 1.5 terdapat 197 dokumen yang dikelompokkan secara benar, dan total dokumen yang salah dikelompokkan sebanyak 127 dokumen. Nilai recall untuk hasil ini adalah 60.80% dan nilai precision adalah 60.80%. Oleh karena itu perhitungan di atas menghasilkan F-Measure sebesar 60.80% dan akurasi sebesar 73.87%.

Untuk melihat pengaruh nilai w terhadap hasil clustering dokumen jurnal hortikultura menggunakan algoritme FCM, dapat dibandingkan hasil yang diperoleh antara penggunaan nilai w = 2 dan threshold = 1.5 dengan w = 3 dan threshold = 1.5. Dari hasil yang ditunjukkan sebelumnya oleh Tabel 6 dan Tabel 8, dapat dilihat bahwa selisih hasil dokumen yang secara benar dikelompokkan dengan menggunakan algoritme FCM adalah 21 dokumen, dengan w = 2 yang berhasil melakukan clustering terhadap 21 dokumen tersebut dengan benar. Perbandingan akurasi

antara penggunaan nilai w = 2 dan w = 3 dapat dilihat pada Gambar 5.

Gambar 5 Diagram akurasi nilai w = 2 dan T = 1.5 dengan nilai w = 3 dan T = 1.5 Selisih jumlah dokumen hasil clustering dengan penggunaan nilai parameter w yang berbeda tidak terlalu signifikan yang dapat disebabkan oleh jumlah dokumen yang digunakan tidak terlalu besar. Menurut James Bezdek tahun 1984, tidak ada petunjuk secara teoritikal ataupun secara komputasional mengenai penggunaan parameter w sebagai parameter pengontrol tingkat fuzzy yang optimal. Berdasarkan percobaan yang dilakukan, penggunaan nilai w yang semakin besar akan menyebabkan distribusi data menjadi kurang baik, sehingga menyebabkan akurasi hasil clustering menurun. Oleh karena itu, untuk clustering dokumen tanaman obat hanya akan digunakan nilai w = 2.

Distribusi dokumen hasil clustering pada umumnya akan berubah dengan penetapan jumlah cluster yang berbeda-beda. Untuk melihat distribusi dokumen jurnal hortikultura terhadap jumlah cluster yang ditentukan, maka selain dilakukan clustering menjadi tiga

cluster, dilakukan pula clustering menjadi

empat cluster dan lima cluster (Tabel 9 dan 10).

Berdasarkan Tabel 9 dan 10, dapat diketahui bahwa koleksi dokumen jurnal hortikultura yang terbagi ke dalam tiga cluster ternyata dapat dikelompokkan ke dalam empat cluster dan lima cluster. Hal tersebut menandakan bahwa dari tiga cluster hasil pengelompokan oleh manusia, ternyata dapat dikelompokkan kembali menjadi sejumlah

T = 1.5 T = 1.5 Series 1 78.19% 73.87% 78.19% 73.87% 0.00% 10.00% 20.00% 30.00% 40.00% 50.00% 60.00% 70.00% 80.00% 90.00% 100.00% A k ur a si w = 2 w =3 w dan threshold (T)

(17)

9

cluster lain oleh sistem. Pengelompokan

yang dilakukan oleh sistem mampu menghasilkan cluster dokumen baru yang lebih spesifik, yang sebelumnya berdasarkan pengelompokan oleh manusia dianggap termasuk ke dalam cluster yang lebih umum. Tabel 9 Hasil clustering terhadap empat

cluster Prediksi C1 C2 C3 C4 aktual C1 69 13 9 5 C2 21 89 14 3 C3 13 11 74 3

Tabel 10 Hasil clustering terhadap lima

cluster Prediksi C1 C2 C3 C4 C5 aktual C1 72 23 11 1 1 C2 12 83 6 0 1 C3 11 20 71 1 1

2. Clustering Dokumen Tanaman Obat

Clustering dokumen tanaman obat yang

berjumlah 93 dilakukan dengan menggunakan nilai w = 2 dengan nilai threshold sebesar 1.5 dan 0.75. Perhitungan pertama untuk

clustering dokumen tanaman obat adalah

dengan menggunakan nilai w = 2 dan

threshold = 1.5. Tabel aktual-prediksinya

dapat dilihat pada Tabel 11 dan Confusion

Matrix dari hasil nilai aktual-prediksinya

dapat dilihat pada Tabel 12.

Tabel 11 Nilai aktual-prediksi dokumen tanaman obat dengan w = 2 dan threshold = 1.5 Prediksi C1 C2 C3 C4 C5 C6 C7 C1 5 1 1 2 0 0 0 C2 0 7 2 0 0 0 1 C3 0 6 9 0 0 2 3 C4 2 4 0 13 0 1 0 C5 0 2 3 3 10 4 2 C6 0 2 0 0 0 2 0 C7 1 2 0 0 0 0 3

Tabel 12 Confusion matrix dokumen tanaman obat dengan w = 2 dan threshold = 1.5 TRUE FALSE TRUE TP 49 FP 44 FALSE FN 44 TN 514 Berdasarkan Tabel 12 total pengujian koleksi dokumen tanaman obat terhadap tujuh cluster dengan nilai w = 2 dan

threshold = 1.5 terdapat 49 dokumen yang

dikelompokkan secara benar, dan total dokumen yang salah dikelompokkan adalah 44 dokumen. Nilai recall untuk hasil ini adalah 52.69% dan nilai precision adalah 52.69%. Oleh karena itu perhitungan di atas menghasilkan F-Measure sebesar 52.69% dan akurasi sebesar 86.48%.

Perhitungan kedua untuk clustering

dokumen tanaman obat adalah dengan menggunakan nilai w = 2 dan threshold = 0.75. Tabel aktual-prediksinya dapat dilihat pada Tabel 13 dan Confusion Matrix dari hasil nilai aktual-prediksinya ditunjukkan pada Tabel 14.

Tabel 13 Nilai aktual-prediksi dokumen tanaman obat dengan w = 2 dan threshold = 0.75 Prediksi C1 C2 C3 C4 C5 C6 C7 C1 4 1 0 2 1 1 0 C2 0 6 1 1 0 2 0 C3 1 0 14 0 0 1 4 C4 5 2 0 12 0 1 0 C5 1 0 7 2 13 1 0 C6 0 0 1 0 0 3 0 C7 0 0 2 0 0 0 4

Tabel 14 Confusion matrix dokumen tanaman obat dengan w = 2 dan threshold = 0.75

TRUE FALSE TRUE TP 54 FP 39 FALSE FN 39 TN 519 Berdasarkan Tabel 14 dapat dilihat bahwa total pengujian koleksi dokumen tanaman obat terhadap tujuh cluster dengan nilai w = 2 dan threshold = 0.75 terdapat 54 dokumen

(18)

10 C:\Sphinx\bin>indexer --config c:\sphinx\sphinx.conf --all \Sphinx\bin\searchd --install --config C:\Sphinx\sphinx.conf --servicename SphinxJurnal yang dikelompokkan secara benar, dan total

dokumen yang salah dikelompokkan adalah 39 dokumen. Nilai recall untuk hasil ini adalah 58.06% dan nilai precision adalah 58.06%. Oleh karena itu perhitungan di atas menghasilkan F-Measure sebesar 58.06% dan akurasi sebesar 88.01%.

Setelah clustering dokumen tanaman obat dilakukan, maka dapat dilihat bahwa tingkat akurasi clustering dengan nilai w = 2 dan

threshold = 0.75 lebih baik dibandingkan

dengan clustering menggunakan nilai w = 2 dan threshold = 1.5. Diagram perbandingan akurasi hasil clustering dokumen tanaman obat dengan menggunakan nilai w = 2 dan

threshold = 1.5 dengan nilai w = 2 dan threshold = 0.75 dapat dilihat pada Gambar 6.

Gambar 6 Diagram akurasi nilai w = 2 dan T = 1.5 dengan nilai w = 2 dan T = 0.75

Berdasarkan seluruh hasil perhitungan yang telah dilakukan terhadap dokumen jurnal hortikultura dan dokumen tanaman obat, dapat dilihat bahwa penggunaan

threshold sebesar 1.5 untuk dokumen jurnal

hortikultura dan threshold sebesar 0.75 untuk dokumen tanaman obat memberikan hasil akurasi yang lebih baik. Berdasarkan hal tersebut dapat diketahui bahwa penggunaan

threshold yang sesuai dapat menghasilkan

akurasi yang lebih baik. Karena dengan penggunaan threshold yang terlalu besar, menyebabkan range bobot term yang masuk dalam proses clustering menjadi lebih kecil dan menyebabkan tidak ikutnya term penciri yang bernilai lebih kecil dari threshold dalam proses clustering. Oleh karena itu, hasil

clustering yang diimplementasikan pada search engine adalah clustering dengan

menggunakan w = 2 dengan threshold = 1.5 untuk dokumen jurnal hortikultura dan w = 2 dengan threshold 0.75 untuk dokumen tanaman obat.

Temu Kembali Informasi

Setelah hasil clustering didapat, maka dokumen-dokumen yang ada dalam koleksi sudah terkumpul dalam cluster masing-masing berdasarkan algoritme FCM. Proses akhir dari penelitian ini adalah proses temu kembali informasi yang dibangun dengan menggunakan Sphinx search. Sebelum tahap temu kembali informasi dengan menggunakan Sphinx search dapat dilakukan, harus melakukan indexing terlebih dahulu terhadap seluruh dokumen dengan perintah seperti pada Gambar 7.

Gambar 7 Perintah indexing dokumen oleh Sphinx search

Indexing dilakukan pada satu file XML

yang berisi seluruh koleksi dokumen yang ada yang di dalamnya terdapat beberapa tag yang dikenali oleh Sphinx search. Indexing yang dilakukan oleh Sphinx search bertujuan agar dokumen tersebut dapat dikenali dan dapat ditemu-kembalikan oleh Sphinx search.

Langkah selanjutnya adalah membuat

service untuk Sphinx search. Nama service

yang digunakan dalam penelitian ini yaitu SphinxJurnal untuk koleksi dokumen jurnal hortikultura dan SphinxTanob untuk koleksi dokumen tanaman obat. Pembuatan service untuk tanaman obat dilakukan dengan cara yang sama dengan mengganti servicename saja. Perintah untuk membuat service

ditunjukkan oleh Gambar 8.

Gambar 8 Perintah pembuatan service Sphinx

search

Sphinx search menerima input query dari pengguna dan mengembalikan dokumen-dokumen yang sesuai dengan query.

Dokumen yang sesuai dengan query yang ditemu-kembalikan oleh Sphinx search dapat berupa dokumen-dokumen yang berasal dari

T = 1.5 T = 0.75 Series 1 86.48% 88.01% 86.48% 88.01% 0.00% 10.00% 20.00% 30.00% 40.00% 50.00% 60.00% 70.00% 80.00% 90.00% 100.00% Ak ura si w dan threshold (T) w = 2 w =2

(19)

11 seluruh cluster yang ada, atau dapat berasal

dari cluster tertentu saja. Apabila pengguna sudah mengetahui kelas dari informasi yang dibutuhkannya terlebih dahulu, maka proses pencarian akan lebih efisien, karena fokus pencarian informasi hanya dilakukan pada satu cluster saja.

Pengujian Kinerja Sistem

Proses pengujian kinerja sistem dilakukan dengan melakukan pemeringkatan dokumen dengan memperhitungkan ukuran kesamaan antara query dengan dokumen dan query dengan pusat cluster. Ukuran kesamaan antara query q dengan dokumen d pada c adalah:

Sim(q,d|c) = aSim(q,d)+(1-a)Sim(q,c) ,

dengan

1. Sim(q,d) adalah ukuran kesamaan antara

query q dengan dokumen d

2. Sim(q,c) adalah dot product antara query

q dengan pusat cluster c.

3. a adalah bobot (0 < a < 1). Pada penelitian ini dipilih a = 0.5.

ο‚·

Pengujian pada Dokumen Jurnal Hortikultura

Proses pengujian kinerja sistem pada keseluruhan koleksi dokumen tanaman obat menggunakan 15 kueri uji (Lampiran 1). Pencarian dengan kueri uji bertujuan untuk mendapatkan nilai recall dan precision dari sistem temu kembali dokumen jurnal hortikultura. Setelah nilai recall dan precision didapat, kemudian dihitung interpolasi maksimumnya untuk mendapatkan nilai

average precision (AVP) yang

menggambarkan kinerja sistem secara keseluruhan.

Berdasarkan hasil pengujian terhadap seluruh cluster pada dokumen jurnal hortikultura didapat nilai average precision sebesar 0.9562 (Lampiran 2). Hal tersebut menunjukkan bahwa kinerja sistem temu kembali terhadap hasil clustering dokumen jurnal hortikultura sudah baik. Gambar 9 menunjukkan kinerja sistem pada pencarian dokumen jurnal hortikultura.

ο‚·

Pengujian pada Dokumen Tanaman Obat Proses pengujian kinerja sistem pada dokumen tanaman obat menggunakan 7 kueri uji (Lampiran 3). Pengujian ini dilakukan untuk mendapat nilai recall dan precision dari sistem temu kembali dokumen tanaman obat. Setelah nilai recall dan precision didapat,

kemudian dihitung interpolasi maksimumnya untuk mendapatkan nilai average precision (AVP) yang menggambarkan kinerja sistem secara keseluruhan.

Berdasarkan hasil pengujian terhadap seluruh cluster pada dokumen tanaman obat didapat nilai average precision sebesar 0.8931 (Lampiran 4). Hal tersebut menunjukkan bahwa kinerja sistem temu kembali terhadap hasil clustering dokumen tanaman obat sudah baik. Gambar 10 menunjukkan kinerja sistem pada pencarian dokumen tanaman obat.

Gambar 9 Grafik R-P pencarian pada dokumen jurnal hortikultura

Gambar 10 Grafik R-P pencarian pada dokumen tanaman obat

Pengujian pada dokumen jurnal hortikultura mendapatkan hasil yang lebih baik dari pengujian dokumen tanaman obat. Hal ini karena dokumen jurnal hortikultura lebih memiliki penciri yang berbeda dari dokumen lainnya dibandingkan dengan dokumen tanaman obat, sehingga sistem

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Recall P re cisi o n 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Recall P re cisi o n

(20)

12 dapat menemukembalikan dokumen relevan

yang lebih banyak.

KESIMPULAN DAN SARAN

Kesimpulan

Berdasarkan hasil yang diperoleh, dapat disimpulkan bahwa clustering dengan menggunakan algoritme Fuzzy C-Means dapat diterapkan pada dokumen berbahasa Indonesia dengan topik pertanian. Ditinjau dari segi hasil, kinerja sistem clustering terhadap dokumen jurnal hortikultura lebih baik pada saat menggunakan nilai w = 2 sebagai parameter tingkat fuzzy dan threshold = 1.5 sebagai batas minimun bobot term yang diikutsertakan pada proses clustering. Kinerja sistem clustering terhadap dokumen tanaman obat lebih baik pada saat menggunakan nilai w = 2 sebagai parameter tingkat fuzzy dan

threshold = 1.5. Penggunaan threshold pada

tahap praproses dapat mengurangi dimensi dokumen dan mempengaruhi hasil clustering. Clustering dokumen jurnal hortikultura

yang dikelompokkan menjadi tiga cluster oleh manusia ternyata dapat dikelompokkan menjadi empat cluster dan lima cluster oleh sistem. Sistem mampu mendistribusikan dokumen dan menghasilkan cluster dokumen baru yang lebih spesifik yang sebelumnya berdasarkan pengelompokan oleh manusia dianggap termasuk ke dalam cluster yang lebih umum.

Saran

Salah satu faktor yang menentukan tingkat keakurasian hasil clustering adalah penentuan fitur atau penciri dokumen. Oleh karena itu perlu dicobakan metode lain untuk menentukan fitur dokumen.

DAFTAR PUSTAKA

Ali A. 2011. Sphinx Search Beginner's Guide. Birmingham, England: Packt Publishing. ISBN 978-1-84951-254-1.

Antonius T. 2008. Penggalian Pola Churn

Menggunakan Data Mining pada Institusi Perbankan Nasional. [thesis].Jakarta: Program Studi Magister Teknologi Informasi, Universitas Indonesia.

Baeza-Yates R, Ribeiro-Neto B. 1999.

Modern Information Retrieval. England:

Addison Wesley.

Bezdek C James, Ehrlich R, Full W. 1984.

FCM: The Fuzzy C-Means Clustering Algorithm. Computers & Geosciences

Vol. 10, No. 2-3, pp. 191-203. Pegamon Press Ltd. USA.

Hadi Y H. 2005. Pembagian Kelas Kuliah

Mahasiswa Menggunakan Algoritma Pengklasteran Fuzzy. [skripsi]. Semarang:

Jurusan Teknik Elektro, Universitas Diponegoro.

Karypis G, Han E. 2000. Concept Indexing: A

Fast Dimensionally Reduction Algorithm with Applications to Document Retrieval & Categorization. Computer Science

and Engineering. University of Minnesota. Minneapolis.

Kondadadi R, Kozma R. 2002. A Modified

Fuzzy ART for Soft Document Clustering.

Memphis: Division of Computer Science, University of Memphis.

Manning C D, Raghavan P, Schutze H. 2009. An Introduction to Information

Retrieval. Cambridge: Cambridge

University Press.

Ramdani H. 2011. Clustering Konsep

Dokumen Berbahasa Indonesia

menggunakan Bisecting K-Means.

[skripsi]. Bogor: Departemen Ilmu Komputer, Institut Pertanian Bogor. Ridha A. 2002. Pengindeksan Otomatis

dengan Istilah Tunggal untuk Dokumen Berbahasa Indonesia.[skripsi]. Bogor:

Departemen Ilmu Komputer, Institut Pertanian Bogor.

Win T T, Mon L. 2010. Document Clustering

by Fuzzy C-Mean Algorithm. IEEE :

(21)

13

(22)

14 Lampiran 1Gugus kueri dan jawaban dokumen jurnal hortikultura

Kueri Uji Dokumen Relevan Dokumen Hasil Temu

Kembali cabai merah dok053.txt, dok059.txt,

dok061.txt, dok100.txt, dok124.txt, dok153.txt, dok169.txt, dok201.txt, dok212.txt, dok223.txt, dok232.txt, dok283.txt dok008.txt, dok053.txt, dok059.txt, dok061.txt, dok100.txt, dok124.txt, dok153.txt, dok169.txt, dok201.txt, dok212.txt, dok223.txt, dok232.txt, dok283.txt, dok298.txt buah tropika dok025.txt, dok064.txt,

dok079.txt, dok104.txt, dok106.txt, dok111.txt, dok113.txt, dok115.txt, dok128.txt, dok129.txt, dok131.txt, dok133.txt, dok140.txt, dok145.txt, dok158.txt, dok227.txt, dok238.txt, dok264.txt, dok286.txt, dok296.txt, dok301.txt dok025.txt, dok064.txt, dok079.txt, dok104.txt, dok106.txt, dok111.txt, dok113.txt, dok115.txt, dok128.txt, dok129.txt, dok131.txt, dok133.txt, dok140.txt, dok145.txt, dok158.txt, dok227.txt, dok234.txt, dok238.txt, dok264.txt, dok286.txt, dok296.txt, dok301.txt padi dok011.txt, dok089.txt,

dok108.txt, dok243.txt

dok011.txt, dok089.txt, dok108.txt, dok243.txt budidaya anggrek dok023.txt, dok110.txt,

dok186.txt

dok023.txt, dok110.txt, dok186.txt

kultur in vitro dok023.txt, dok110.txt, dok161.txt, dok196.txt, dok248.txt, dok259.txt dok023.txt, dok049.txt, dok109.txt, dok110.txt, dok135.txt, dok161.txt, dok055.txt, dok061.txt, dok196.txt, dok213.txt, dok219.txt, dok228.txt, dok269.txt, dok242.txt, dok248.txt, dok252.txt, dok229.txt, dok280.txt, dok307.txt

fungisida dok055.txt, dok061.txt, dok070.txt, dok071.txt, dok125.txt, dok126.txt, dok129.txt, dok136.txt, dok283.txt, dok291.txt, dok308.txt dok055.txt, dok061.txt, dok070.txt, dok071.txt, dok125.txt, dok126.txt, dok129.txt, dok136.txt, dok283.txt, dok291.txt, dok308.txt

genotip dok003.txt, dok015.txt, dok029.txt, dok037.txt, dok045.txt, dok047.txt, dok113.txt, dok179.txt, dok209.txt, dok210.txt, dok224.txt, dok225.txt, dok231.txt, dok232.txt, dok250.txt, dok255.txt, dok257.txt, dok305.txt, dok324.txt dok003.txt, dok015.txt, dok029.txt, dok037.txt, dok045.txt, dok047.txt, dok113.txt, dok179.txt, dok209.txt, dok210.txt, dok224.txt, dok225.txt, dok231.txt, dok232.txt, dok250.txt, dok255.txt, dok257.txt, dok305.txt, dok324.txt

hama penggerek dok051.txt, dok069.txt, dok140.txt, dok145.txt, dok247.txt, dok315.txt

dok051.txt, dok069.txt, dok140.txt, dok145.txt, dok247.txt, dok315.txt

(23)

15 Lanjutan Lampiran 1 Gugus kueri dan jawaban dokumen jurnal hortikultura

Kueri Uji Dokumen Relevan Dokumen Hasil Temu

Kembali jagung dok051.txt, dok053.txt,

dok065.txt, dok069.txt, dok076.txt, dok108.txt, dok137.txt, dok145.txt, dok315.txt dok051.txt, dok053.txt, dok065.txt, dok069.txt, dok076.txt, dok108.txt, dok137.txt, dok145.txt, dok315.txt

pupuk npk dok004.txt, dok007.txt, dok012.txt, dok018.txt, dok056.txt, dok087.txt, dok100.txt, dok155.txt, dok157.txt, dok160.txt, dok164.txt, dok168.txt, dok189.txt, dok194.txt, dok244.txt dok004.txt, dok007.txt, dok012.txt, dok018.txt, dok024.txt, dok056.txt, dok080.txt, dok087.txt, dok094.txt, dok098.txt, dok100.txt, dok153.txt, dok155.txt, dok157.txt, dok160.txt, dok164.txt, dok168.txt, dok188.txt, dok189.txt, dok244.txt gladiol dok075.txt, dok099.txt,

dok107.txt, dok125.txt, dok193.txt, dok199.txt, dok244.txt, dok245.txt, dok250.txt, dok251.txt, dok252.txt, dok322.txt dok075.txt, dok099.txt, dok107.txt, dok125.txt, dok193.txt, dok199.txt, dok244.txt, dok245.txt, dok250.txt, dok251.txt, dok252.txt, dok322.txt tanah latosol dok024.txt, dok080.txt,

dok324.txt

dok024.txt, dok080.txt, dok324.txt

lalat buah dok064.txt, dok141.txt, dok148.txt, dok296.txt, dok304.txt

dok064.txt, dok141.txt, dok148.txt, dok296.txt, dok304.txt

tunas dok033.txt, dok043.txt, dok044.txt, dok079.txt, dok084.txt, dok090.txt, dok116.txt, dok117.txt, dok127.txt, dok155.txt, dok158.txt, dok161.txt, dok171.txt, dok172.txt, dok189.txt, dok193.txt, dok196.txt, dok205.txt, dok207.txt, dok213.txt, dok219.txt, dok220.txt, dok226.txt, dok228.txt, dok229.txt, dok248.txt, dok286.txt dok033.txt, dok043.txt, dok044.txt, dok079.txt, dok084.txt, dok090.txt, dok116.txt, dok117.txt, dok127.txt, dok155.txt, dok158.txt, dok161.txt, dok171.txt, dok172.txt, dok189.txt, dok193.txt, dok196.txt, dok205.txt, dok207.txt, dok213.txt, dok219.txt, dok220.txt, dok226.txt, dok228.txt, dok229.txt, dok248.txt, dok286.txt

vaksin dok058.txt, dok297.txt, dok313.txt, dok316.txt

dok058.txt, dok297.txt, dok313.txt, dok316.txt

(24)

16

Lampiran 2 Hasil analisis kinerja sistem temu kembali dokumen jurnal hortikultura

Titik Recall Kueri Uji 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 cabai merah 1 1 1 1 0.9166667 0.9166667 0.9166667 0.9166667 0.9166667 0.9166667 0.8888889 buah tropika 1 1 1 1 0.9655172 0.9655172 0.9655172 0.9655172 0.9655172 0.9655172 0.9655172 padi 1 1 1 1 1 1 1 1 1 1 1 budidaya anggrek 1 1 1 1 1 1 1 1 1 1 1 kultur in vitro 0.6666667 0.6666667 0.6666667 0.6666667 0.5 0.5 0.5 0.4 0.4 0.4 0.4 fungisida 1 1 1 1 1 1 1 1 1 1 1 genotip 1 1 1 1 1 1 1 1 1 1 1 hama penggerek 1 1 1 1 1 1 1 0.9 0.9 0.9 0.9 jagung 1 1 1 1 1 1 1 1 1 1 1 pupuk npk 1 1 1 1 1 1 1 0.8461538 0.8064516 0.8064516 0.8064516 gladiol 1 1 1 1 1 1 1 1 1 1 1 tanah latosol 1 1 1 1 1 1 1 1 1 1 1 lalat buah 1 1 1 1 1 1 1 1 1 1 1 tunas 1 1 1 1 1 1 1 1 1 1 1 vaksin 1 1 1 1 1 1 1 1 1 1 1 Rata-rata interpolasi maksimum 0.9777778 0.9777778 0.9777778 0.9777778 0.9588123 0.9588123 0.9588123 0.9352225 0.9325757 0.9325757 0.9307238 AVP 0.9777778 +0.9777778 +0.9777778 +0.9777778 +0.9588123 +0.9588123 +0.9588123 +0.9352225 +0.9325757 +0.9325757 +0.9307238 11

=

0.9562

(25)

17 Lampiran 3 Gugus kueri dan jawaban dokumen tanaman obat

Kueri Uji Dokumen Relevan Dokumen Hasil Temu

Kembali pencernaan 001.txt, 002.txt, 004.txt, 018.txt, 022.txt, 032.txt, 036.txt, 048.txt, 049.txt, 050.txt, 051.txt, 053.txt, 054.txt, 073.txt, 074.txt, 076.txt, 078.txt, 088.txt, 089.txt 001.txt, 002.txt, 004.txt, 007.txt, 018.txt, 022.txt, 027.txt, 032.txt, 033.txt, 035.txt, 036.txt, 048.txt, 049.txt, 050.txt, 051.txt, 053.txt, 054.txt, 059.txt, 063.txt, 065.txt, 070.txt, 072.txt, 073.txt, 074.txt, 076.txt, 078.txt, 079.txt, 081.txt, 085.txt, 088.txt, 089.txt

nyeri radang demam 003.txt, 008.txt, 016.txt, 021.txt, 029.txt, 031.txt, 033.txt, 038.txt, 039.txt, 043.txt, 046.txt, 056.txt, 062.txt, 063.txt, 066.txt, 077.txt, 081.txt, 084.txt, 085.txt, 086.txt 003.txt, 005.txt, 008.txt, 016.txt, 021.txt, 028.txt, 029.txt, 031.txt, 033.txt, 034.txt, 035.txt, 038.txt, 039.txt, 042.txt, 043.txt, 044.txt, 046.txt, 047.txt, 056.txt, 060.txt, 062.txt, 063.txt, 064.txt, 066.txt, 071.txt, 072.txt, 079.txt, 077.txt, 080.txt, 081.txt, 084.txt, 085.txt, 086.txt, 087.txt kulit 005.txt, 017.txt, 026.txt, 035.txt, 041.txt, 058.txt, 067.txt, 070.txt, 072.txt, 091.txt 002.txt, 005.txt, 006.txt, 008.txt, 015.txt, 017.txt, 018.txt, 019.txt, 021.txt, 023.txt, 026.txt, 030.txt, 031.txt, 032.txt, 033.txt, 034.txt, 035.txt, 037.txt, 038.txt, 039.txt, 041.txt, 043.txt, 046.txt, 047.txt, 050.txt, 054.txt, 055.txt, 056.txt, 058.txt, 059.txt, 061.txt, 062.txt, 064.txt, 067.txt, 068.txt, 070.txt, 072.txt, 073.txt, 074.txt, 076.txt, 079.txt, 081.txt, 084.txt, 086.txt, 087.txt, 090.txt, 091.txt perawatan 006.txt, 007.txt, 011.txt, 012.txt, 013.txt, 019.txt, 023.txt, 028.txt, 030.txt, 034.txt, 037.txt, 044.txt, 047.txt, 055.txt, 059.txt, 061.txt, 064.txt, 068.txt, 069.txt, 071.txt, 075.txt, 079.txt, 087.txt, 093.txt 006.txt, 007.txt, 011.txt, 012.txt, 013.txt, 019.txt, 023.txt, 028.txt, 030.txt, 034.txt, 037.txt, 038.txt, 039.txt, 040.txt, 041.txt, 042.txt, 043.txt, 044.txt, 047.txt, 055.txt, 059.txt, 061.txt, 064.txt, 068.txt, 069.txt, 071.txt, 075.txt, 076.txt, 079.txt, 087.txt, 092.txt, 093.txt saluran kemih 009.txt, 025.txt, 042.txt, 057.txt, 080.txt, 090.txt 009.txt, 025.txt, 042.txt, 043.txt, 057.txt, 080.txt, 081.txt, 086.txt, 090.txt

(26)

18 Lanjutan Lampiran 3 Gugus kueri dan jawaban dokumen tanaman obat

Kueri Uji Dokumen Relevan Dokumen Hasil Temu

Kembali pernapasan 010.txt, 024.txt, 040.txt, 045.txt, 060.txt 010.txt, 013.txt, 016.txt, 020.txt, 024.txt, 026.txt, 040.txt, 045.txt, 060.txt, 067.txt kronis 014.txt, 015.txt, 020.txt, 027.txt, 052.txt, 065.txt, 082.txt, 083.txt, 092.txt 006.txt, 014.txt, 015.txt, 020.txt, 023.txt, 027.txt, 034.txt, 036.txt, 045.txt, 047.txt, 048.txt, 051.txt, 052.txt, 064.txt, 065.txt, 074.txt, 077.txt, 078.txt, 080.txt, 088.txt, 082.txt, 083.txt, 092.txt

(27)

19

Lampiran 4 Hasil analisis kinerja sistem temu kembali dokumen tanaman obat

Titik Recall Kueri Uji 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 kronis 1 1 1 1 1 0.4814815 0.4814815 0.4814815 0.4814815 0.4814815 0.4814815 kulit 1 0.875 0.875 0.875 0.875 0.875 0.875 0.3478261 0.3478261 0.3225806 0.3225806 nyeri radang demam 1 1 1 1 1 1 1 1 1 1 0.7307692 pencernaan 1 1 1 1 1 1 1 0.9047619 0.9047619 0.9047619 0.9047619 perawatan 1 1 1 1 1 1 1 0.9444444 0.8518519 0.8518519 0.8297872 pernapasan 1 1 1 1 1 1 1 1 1 1 1 saluran kemih 1 1 1 1 1 1 1 1 1 0.7333333 0.7333333 Rata-rata interpolasi maksimum 1 0.9821429 0.9821429 0.9821429 0.9821429 0.9080688 0.9080688 0.8112163 0.7979888 0.756287 0.7146734 AVP 1+0.9821429 +0.9821429 +0.9821429 +0.9821429+0.9080688 +0.9080688 +0.8112163 +0.7979888 +0.756287 +0.7146734 11 = 0.8931

(28)

20 Lampiran 5 Antarmuka sistem clustering dokumen

Gambar

Tabel 1 Format Confusion Matrix
Gambar 2 Struktur dokumen jurnal  hortikultura.
Tabel  3  Nilai  aktual-prediksi      jurnal  hortikultura dengan w = 2 dan threshold = 3
Tabel  7  Nilai  aktual-prediksi      jurnal  hortikultura dengan w = 3 dan threshold = 1.5
+3

Referensi

Dokumen terkait

February 2021 Principal’s Message February Message When I think of February, three things come to mind: Love and Red.. Our motto is Lead with Love and there is no better role model

1) Memberikan informasi kepada pembaca tentang korelasi antara pemanfaatan perpustakaan sekolah dengan prestasi belajar siswa pada Mata Pelajaran Sejarah Kebudayaan Islam

Kita boleh lihat apabila ahli sejarah menulis tentang sesuatu peristiwa yang dipengaruhi oleh.. persekitaran, maka hilanglah inteleknya sebagai sebuah

Panduan tersebut memuat (1) learning continuum, (b) cara penyusunan kisi-kisi, (c) cara penyusunan item pola konvergen dan pola divergen, (d) cara menelaah

Tujuan penerapan teknologi hidroponik sistem DFT ini guna mendukung usaha peningkatkan produktivitas petani sayur-mayur sehingga tidak perlu didatangkan dari luar

Sedangkan laju perolehan massa cairan pada proses pirolisis AL yang mencapai puncak pada suhu 450 o C berbeda dengan hasil penelitian yang dilakukan Himawanto, dkk (2011),

Cemaran biologis pada makanan dapat terjadi karena adanya mikroba seperti bakteri, kapang, kamir, parasit, dan virus, di mana pertumbuhan mikroba ini dapat

Dari tabel 4.4 di atas menunjukan perlakuan dosis 20 ton/ha mempunyai jumlah buah yang paling banyak, perbedaan dosis bahan organik yang ditambahkan kedalam tanah,