METODE PENELITIAN Penelitian ini secara garis besar

��+��+��+��

^. F-Measure

F-measure merupakan salah satu perhitungan evaluasi dalam temu kembali informasi yang mengombinasikan recall dan precision. Nilai recall dan precision pada suatu keadaan dapat memiliki bobot yang berbeda. Ukuran yang menampilkan timbal balik antara recall dan precision adalah F-Measure yang merupakan bobot harmonic mean dari recall dan precision. Berikut adalah persamaan F-Measure:

�= ¹ 1 �⁺ ¹⁻�¹ = 2+ 1 �� 2�+� dengan 2= ¹− , ∈ 0,1dan 2 0,∞ .

� =

�� +��

^,

� =

�� +��

^.

Menurut Manning et al. 2009, memisahkan dokumen-dokumen yang mirip kadang lebih buruk daripada menempatkan pasangan dokumen yang tidak mirip ke dalam cluster yang sama. Dengan demikian, dapat digunakan F-Measure dengan nilai false negative lebih kuat dari nilai false positive. Selanjutnya, akan diberikan nilai β >

1 sehingga memberikan bobot yang lebih untuk recall. F-Measure yang seimbang memberikan bobot yang sama antara recall dan precision, dengan nilai =¹

2atau β = 1.

Hal ini dapat ditulis sebagai �1atau �=1sehingga persamaan menjadi:

�

=

²�� +�

^.

Sphinx Search

Sphinx search adalah full text search engine yang merupakan salah satu teknik untuk melakukan pencarian dokumen atau database yang disimpan dalam komputer. Selama pencarian mesin pencari melewati dan memeriksa seluruh kata yang ada pada dokumen dan mencoba untuk mencocokkan kata-kata tersebut dengan query yang diberikan. pencarian seluruh kata yang dilakukan secara lengkap pada dokumen inilah yang disebut pencarian text lengkap (full-text search).

Full-text search unggul dalam pencarian teks tidak terstruktur bervolume besar secara cepat dan efisien serta memberikan hasil berdasarkan seberapa baik kemiripan suatu dokumen dengan query pengguna (Abbas 2011).

METODE PENELITIAN

Penelitian ini secara garis besar melakukan dua proses, yaitu proses training dan proses testing. Pada proses training dilakukan pembentukan cluster dokumen, sedangkan pada proses testing dilakukan temu kembali dokumen hasil clustering berdasarkan query yang diberikan pengguna, kemudian hasil temu kembali tersebut dievaluasi. Secara garis besar metode penelitian yang digunakan dalam penelitian ini adalah seperti Gambar 1.

Actual

TRUE FALSE TRUE True Positive (TP) False Positive (FP) FALSE False Negative (FN) True Negative (TN) dengan evaluasi yang bisa dipakai melalui confusion matrix (Antonius 2008) adalah sebagai berikut:

True Positive (TP) adalah proporsi dari sample bernilai “true” yang diprediksi

secara benar.

False Positive (FP) adalah proporsi antara sample bernilai “false” yang salah

diprediksi sebagai sample bernilai “true”.

False Negative (FN) adalah proporsi sample

bernilai “true” yang salah diprediksi sebagai sample bernilai “false”.

True Negative (TN) adalah proporsi sample

bernilai “false”yang diprediksi secara benar.

Tabel 1 Format Confusion Matrix

Dari confusion matrix dapat dihitung akurasi terhadap hasil klasifikasi data yang merupakan proporsi jumlah sample yang diprediksi secara tepat, terhadap jumlah seluruh sample. Persamaan yang digunakan adalah:

� � =

��+��

��+��+��+��

^. F-Measure

�= ¹ 1 �⁺ ¹⁻�¹ = 2+ 1 �� 2�+� dengan 2= ¹− , ∈ 0,1dan 2 0,∞ .

� =

�� +��

^,

� =

�� +��

^.

1 sehingga memberikan bobot yang lebih untuk recall. F-Measure yang seimbang memberikan bobot yang sama antara recall dan precision, dengan nilai =¹

2atau β = 1.

Hal ini dapat ditulis sebagai �1atau �=1sehingga persamaan menjadi:

�

=

²�� +�

^.

Sphinx Search

METODE PENELITIAN

Actual

Gambar 1 Metode Penelitian. Koleksi Dokumen

Penelitian ini menggunakan dua koleksi dokumen yang berjumlah 324 untuk dokumen jurnal hortikultura dan 93 untuk dokumen tanaman obat. Koleksi dokumen yang digunakan telah diketahui jumlah kelasnya. Dokumen jurnal hortikultura memiliki tiga cluster, yaitu Ekofisiologi dan Agronomi, Pemuliaan dan Teknologi Benih, serta Proteksi. Jumlah cluster untuk mengelompokkan dokumen tanaman obat adalah tujuh cluster yaitu Kronis, Kulit, Nyeri-Radang-Demam, Pencernaan, Perawatan, Pernapasan, dan Saluran kemih yang merupakan cluster dari dokumen yang mengulas khasiat tanaman obat dalam mengobati penyakit.

Dokumen yang digunakan diperoleh dari koleksi dokumen (korpus) milik laboratorium Temu Kembali Informasi dan laboratorium Computational Intelligence Departemen Ilmu Komputer IPB. Isi dari dokumen tidak diubah sehingga kesalahan ejaan dan tata bahasa tidak diperbaiki.

Praproses

Pada tahap praproses dilakukan lowercasing, tokenisasi, dan pembuangan stopwords. Lowercasing adalah proses untuk mengubah semua huruf mejadi huruf non-capital agar menjadi case-insensitive pada saat dilakukan pemrosesan teks dokumen. Tokenisasi adalah suatu tahap pemrosesan teks input yang dibagi menjadi unit-unit kecil yang disebut token. Dalam penelitian ini unit terkecil yang digunakan adalah kata yang

terdiri atas minimal tiga huruf. Selain itu, tanda baca yang terdapat dalam dokumen dihilangkan sehingga tidak ikut diproses.

Stopwords merupakan daftar kata-kata yang dianggap tidak memiliki makna. Kata yang tercantum dalam daftar ini dibuang dan tidak ikut diproses pada tahap selanjutnya. Pada umumnya kata-kata yang masuk ke dalam stopwords memiliki tingkat kemunculan yang tinggi di setiap dokumen sehingga kata tersebut tidak dapat digunakan sebagai penciri suatu dokumen. Membentuk Inverted Index dengan menggunakan pembobotan tf.idf

Hasil dari tahap praproses adalah term terpilih yang akan digunakan pada vector space model. Pada term terpilih tersebut dilakukan pembobotan dengan menggunakan tf.idf. Pembobotan pada term dapat membantu pembedaan istilah-istilah yang lebih penting untuk tujuan penemukembalian (Ridha 2001). Pembobotan tf.idf merupakan perkalian antara frekuensi kemunculan term dengan fungsi inverse document frequency (Salton 1989 dalam Ridha 2002).

= � .log

�

^,

dengan

1. adalah bobot term ke-j dokumen ke-i 2. � adalah frekuensi kemunculan term

ke-j dokumen ke-i

3. � adalah frekuensi dokumen yang mengandung term ke-j

4. � adalah jumlah dokumen dalam koleksi. Implementasi Sistem

Setelah tahap praproses dan pembobotan selesai dilakukan, langkah selanjutnya adalah pembentukan cluster dokumen dengan menggunakan Fuzzy C-Means (FCM). Tujuan dari algoritme FCM adalah untuk menemukan pusat cluster (centroid) dengan meminimumkan fungsi objektif (Win & Mon 2010). Fungsi objektif yang digunakan pada FCM adalah: � = − ² =1 � =1 =1 dengan

1. merupakan bobot term ke-j pada dokumen ke-i Praproses Clustering Model Cluster Training Testing Query ^Search engine ^Evaluasi

2. merupakan centroid term ke-j terhadap cluster ke-k

3. � merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. adalah indeks dokumen

5. adalah indeks term 6. adalah indeks cluster

7. w adalah derajat fuzzy, w ∈ [1,∞]. Algoritme Fuzzy C-Means secara keseluruhan adalah sebagai berikut:

1. Memasukkan data yang akan dikelompokkan berupa martiks berukuran nxm (n adalah jumlah dokumen, m adalah jumlah kata) dan tentukan parameter yang terlibat, yaitu:

 Jumlah cluster (c);  Tingkat fuzzy (w);

 Maksimum iterasi (MaxIter);  Error terkecil yang diharapkan (e);  Fungsi objektif awal ( �0= 0);  Iterasi awal ( t = 1);

2. Membangkitkan bilangan acak

�

ik sebagai derajat keanggotaan, dengan i adalah indeks dokumen (i=1,2,…,n) dan k adalah indeks cluster (k = 1,2,…,c) sebagai elemen-elemen matriks partisi awal

�

. 3. Menghitung pusat cluster ke-k: �

dengan k = 1, 2, 3, …,c dan j=1, 2, 3, …,m. � = ₌₁ � x � =1

.

4. Menghitung fungsi objektif pada iterasi ke-t, � = − 2 =1 � =1 =1 .

5. Meng-update derajat keanggotaan

�

= ₌₁ � −� ² −1 −1 ₌₁ � −� ² −1 −1 =1

.

6. Mengecek kondisi berhenti:

 Jika ( |� – �−1 | < e) atau (t > MaxIter) maka berhenti.

 Jika tidak : t = t+1, mengulangi kembali iterasi dimulai dari langkah ke-3.

Evaluasi

Evaluasi dilakukan dengan menghitung F-Measure keseluruhan cluster hasil

clustering. Untuk menghitung F-Measure dibutuhkan pengetahuan mengenai pengelompokan dokumen yang telah dianggap benar. Dalam penelitian ini, pengelompokan dokumen yang telah dianggap benar adalah pengelompokan yang dilakukan dengan cara manual (Ramdani 2011).

Lingkungan Implementasi

Lingkungan implementasi yang dalam penelitian ini adalah sebagai berikut:

Perangkat lunak:

 Sistem operasi Windows 7

 PHP

 Sphinx Perangkat keras:

 Processor Intel Core 2 Duo 1,50GHz

 RAM 2 GB

 Hardisk dengan kapasitas 120 GB

HASIL DAN PEMBAHASAN

Dalam dokumen Clustering Indonesian Documents Using Fuzzy C-Means (Halaman 33-36)